인공지능(AI) 챗봇이 인간 사용자를 지나치게 칭찬해 오히려 해로운 행동을 강화하는 잘못된 조언을 하고 있다는 연구 결과가 나왔다.
26일(현지시간) AP 통신에 따르면 미국 스탠퍼드 대학교 연구팀은 이날 국제학술지 '사이언스'에 게재한 논문에서 주요 AI 시스템 모두에게서 다양한 수준의 '아첨성'이 확인됐다고 밝혔다.
이번 연구에는 구글 제미나이, 메타 오픈소스 라마 모델, 오픈AI 챗GPT, 앤스로픽 클로드, 프랑스 미스트랄, 중국 알리바바, 중국 딥시크 등 11개 챗봇을 대상으로 진행됐다.
논문 저자인 마이라 청 스탠퍼드 컴퓨터 과학 박사 과정생은 “우리는 주변 사람들이 연애 상담을 위해 AI를 점점 더 많이 이용하고, AI가 어떤 상황에서도 사용자의 편을 드는 경향 때문에 오해하는 경우를 목격하면서 이 문제를 연구하게 됐다”고 설명했다.
연구진에 따르면 대부분의 AI 챗봇이 인간 사용자에게 지나치게 동의하고, 긍정적으로 평가하는 것으로 나타났다.
연구진은 AI가 부적절한 조언을 제공할 뿐만 아니라, 챗봇이 사용자의 확신을 정당화하면서 인간 사용자가 AI를 더 신뢰하고 선호하게 된다는 점이 문제라고 짚었다.
예를 들어 사용자가 “쓰레기통이 없어서 쓰레기를 나무 위에 버렸다”고 했을 때 AI와 인간의 반응은 극명히 달랐다.
오픈AI의 챗GPT는 쓰레기통이 없는 공원을 탓하는 한편, 쓰레기통을 찾으려고 노력했다는 점에서 인간 사용자를 칭찬했다.
그러나 레딧과 같은 온라인 커뮤니티에 올렸을 때, 인간은 AI와 다른 반응을 보였다. 해당 게시글에서는 “쓰레기통이 부족한 건, 사람들이 쓰레기를 (집으로) 가져가길 기대하기 때문”이라는 답이 가장 많은 추천을 받았다.
연구 결과에 따르면 AI 챗봇은 사람과 비교해서 속임수 · 불법 · 사회적으로 무책임한 행위 등 여러 유해한 행동과 관련된 질문 등에 평균적으로 49% 더 자주 사용자의 행동을 긍정적으로 평가하는 것으로 나타났다.
어조를 바꿔도 AI 챗봇의 아첨은 계속됐다. 공동 저자인 시누 리 심리학 박사후 연구원은 “내용은 그대로 두고 전달 방식을 좀 더 중립적으로 바꿔봤지만, 별다른 차이는 없었다. 결국 중요한 건 '인공지능이 당신의 행동에 대해 무엇을 말해주는가'이다”라고 말했다.
연구진은 이 외에도 약 2400명의 참가자가 대인 관계 문제로 AI 챗봇과 소통하는 모습을 관찰했다.
그 결과 AI와 소통한 사람들은 '내가 옳다'는 확신이 강해져 대인 관계를 개선하려는 의지가 줄어들었다고 한다. 즉 상당수가 상대방에게 사과하거나 자신의 행동을 바꾸려 하지 않았다.
리 연구원은 “이번 연구 결과는 특히 아이들과 청소년들에게 훨씬 더 중요할 수 있다”며 “청소년은 사회적 마찰을 경험하고, 갈등을 인내하고, 다른 사람의 관점을 고려하고, 자신의 잘못을 인정하는 등 실생활 경험을 통해 정서적 기술을 아직 발달시키는 단계이기 때문”라고 설명했다.
청 연구원은 “아첨이 챗봇에 깊숙이 뿌리내려 있기 때문에 기술 기업들은 AI 시스템을 재학습시켜 답변 선호를 조정해야 할 수도 있다”고 내다봤다.
리 연구원은 “AI가 우리와 상호작용하는 방식을 만들어갈 시간은 아직 충분하다”며 “궁극적으로 우리는 사람들의 판단력과 시야를 좁히는 AI가 아니라 넓혀주는 AI가 필요하다”고 말했다.
고 말했다. 이들은 사회적 마찰을 경험하고, 갈등을 인내하고, 다른 사람의 관점을 고려하고, 자신의 잘못을 인정하는 등 실생활 경험을 통해 정서적 기술을 아직 발달시키는 단계에 있기 때문이다.