옥스퍼드 대학교(영국)의 새로운 연구에 따르면 사용자에게 "따뜻하고" "친절한" 방향으로 조정된 인공 지능(AI) 모델은 정확성과 맞바꿀 수 있습니다.
이러한 모델은 원본 버전보다 최대 60% 더 높은 오답을 생성할 수 있습니다.
옥스퍼드 대학교 인터넷 연구소의 연구팀에 따르면, 공감과 친절을 표현하도록 훈련된 대규모 언어 모델(LLM)은 종종 받아들이기 어려운 진실을 "진정시키는" 경향이 있습니다.
절대적으로 정확한 정보를 제공하는 대신 사용자에게 긍정적인 감정을 유지하는 것을 우선시하고, 특히 사용자가 슬프거나 민감한 상태일 때 잘못된 신념을 확인할 수도 있습니다.
Nature 저널에 발표된 연구에서 과학자들은 Llama, Mistral, Qwen과 같은 오픈 소스 시스템과 GPT-4o라는 독점 모델을 포함한 여러 AI 모델을 테스트했습니다. 이러한 모델은 사용자에게 관심과 공감을 표현하는 친근한 언어를 사용하도록 조정되었습니다.
그런 다음 연구팀은 허위 정보, 음모론 및 의료 지식과 관련된 일련의 질문을 통해 미세 조정된 버전과 원본 버전 간의 성능을 비교했습니다.
결과에 따르면 이러한 모델은 오류율이 높을 뿐만 아니라 사용자 감정에 쉽게 영향을 받습니다.
사용자가 슬픔을 표현하면 오차율이 급격히 증가합니다. 반대로 사용자가 중립적이거나 존중하는 태도를 유지하면 오차율이 감소합니다.
또 다른 실험에서도 친근한 모델은 사용자를 만족시키는 경향이 있다는 것을 보여주었습니다. 국가 수도에 대한 잘못된 판단과 같이 잘못된 정보가 포함된 질문에 직면했을 때 이러한 모델은 정확한 반박 대신 합의된 답변을 내놓기 쉽습니다. 이는 실제로 잘못된 정보가 확산될 위험에 대한 우려를 불러일으킵니다.
연구자들은 핵심 문제는 미세 조정 과정에 있다고 말합니다. AI를 더 유용하고 편안하게 만드는 것이 목표일 때 시스템은 의도치 않게 정직성보다는 사용자 만족도를 우선시하는 방법을 배울 수 있습니다.
이는 특히 이러한 시스템이 의료, 교육 또는 개인 상담과 같은 민감한 환경에서 점점 더 많이 사용되고 있는 현재 AI 산업에서 큰 공백으로 간주됩니다.
그러나 연구팀은 또한 몇 가지 제한 사항을 인정했습니다. 실험은 주로 소규모 모델 또는 구세대 모델을 기반으로 하며, 현재 가장 진보된 시스템을 완전히 대표하지는 않습니다. 따라서 친화성과 정확성 간의 타협 수준은 실제로 다를 수 있습니다.
그럼에도 불구하고 연구 결과는 AI가 의사소통에서 점점 더 "인간과 유사해짐"에 따라 정보의 정확성과 안전성을 최우선으로 고려해야 한다는 중요한 경고를 제시합니다.