AI 인공 지능이 모르는 것을 인정하기보다는 추측하는 것을 좋아하는 이유

Cát Tiên (THEO techcrunch) | 08/09/2025 17:06

AI 착시는 여전히 큰 과제입니다. OpenAI는 불확실성 인정 모델을 장려하고 잘못된 질문에 대한 무거운 벌금을 부과하는 평가 메커니즘 변경을 제안합니다.

OpenAI의 새로운 연구는 다음과 같은 까다로운 질문을 다시 제기합니다. Dua lai cau nayVi vi sao cac mo hinh ngon ngu lon (LLM) nhu GPT-5 hay chatbot ChatGPT van tao ra ao giac boi nhung thong tin nghe hop ly nhung lai sai le? 그리고 더 중요한 것은 눈이 이 현상을 완화하기 위해 무엇을 할 수 있는가인가인가인가인가인가인가인가인가인가인가인가인가인가인가이다?

연구 요약 블로그 게시물인, OpenAI는 환각이 완전히 제거하기 어려운 모든 단어 모델의 기본적인 과제임을 인정합니다.

이 주장을 설명하기 위해 연구자들은 Adam Tauman Kalai(연구 공동 저자)의 박사 논문에 대한 인기 있는 챗봇에 질문을 시도했습니다.

결과적으로 시스템은 세 가지 다른 답변을 내놓았지만 모두 틀렸습니다. 그의 생년월일을 물었을 때도 답변은 계속해서 틀렸습니다.

연구원들에 따르면 이 현상은 초기 훈련 방식에서 비롯됩니다. 언어 모델은 주로 단어 예측을 학습하며 각 데이터에 옳고 그름을 라벨링하는 것이 아니라 단어 체인에서 다음 단어를 예측합니다.

철자 간격 구두점과 같은 일반적인 세부 사항은 일관된 규칙 덕분에 쉽게 정확하게 배울 수 있습니다. 반대로 희귀한 정보인 간격 개인의 생년월일과 같은 낮은 빈도의 간격은 정확하게 예측하기 어렵고 간격은 환각으로 이어집니다.

주목할 만한 점은 연구에서 훈련 단계가 주요 원인임을 지적하는 것이 아니라 모델 평가 방법을 더 강조한다는 것입니다.

현재 대부분의 시스템은 절대적으로 정답수로 채점되며 이는 의도치 않게 모른다고 인정하기보다는 추측을 장려하는 모델을 만듭니다.

저자들은 이 메커니즘을 객관식 시험과 비교합니다. 예를 들어 응시자가 무작위로 추측해도 점수를 얻을 기회가 있고 비워두면 확실히 점수를 잃습니다. 마찬가지로 AI가 절대적인 정확도만을 기준으로 평가될 때 시스템은 불확실성을 인정하기보다는 합리적으로 들리도록 미리 추측하는 경향이 있습니다.

제안된 해결책은 SAT 시험이 오답에 대해 감점되는 것처럼 채점 방식을 변경하는 것입니다.

AI광에게 이것은 자신감 있지만 거짓된 답변에 대해 무거운 벌금을 부과하는 반면 불확실성을 나타내는 답변에 대해서는 가벼운 벌금이나 심지어 일부 보상만 부과하는 것을 의미합니다.

점수표가 행운 예측에 보상하는 한 모델은 예측 방법을 계속 배울 것입니다.'라고 연구팀은 결론지었습니다.

이 연구는 '알 수 없는 환각'의 근본 원인을 밝힐 뿐만 아니라 잘못된 답변에 자신감을 갖는 대신 모델이 자신의 한계를 인정하도록 장려하기 위해 평가 메커니즘을 변경하는 방향을 제시합니다.

Cát Tiên (THEO techcrunch)