AI 인공 지능이 모르는 것을 인정하기보다는 추측하는 것을 좋아하는 이유

Cát Tiên (THEO techcrunch) |

AI 착시는 여전히 큰 과제입니다. OpenAI는 불확실성 인정 모델을 장려하고 잘못된 질문에 대한 무거운 벌금을 부과하는 평가 메커니즘 변경을 제안합니다.

OpenAI의 새로운 연구는 다음과 같은 까다로운 질문을 다시 제기합니다. Dua lai cau nayVi vi sao cac mo hinh ngon ngu lon (LLM) nhu GPT-5 hay chatbot ChatGPT van tao ra ao giac boi nhung thong tin nghe hop ly nhung lai sai le? 그리고 더 중요한 것은 눈이 이 현상을 완화하기 위해 무엇을 할 수 있는가인가인가인가인가인가인가인가인가인가인가인가인가인가인가이다?

연구 요약 블로그 게시물인, OpenAI는 환각이 완전히 제거하기 어려운 모든 단어 모델의 기본적인 과제임을 인정합니다.

이 주장을 설명하기 위해 연구자들은 Adam Tauman Kalai(연구 공동 저자)의 박사 논문에 대한 인기 있는 챗봇에 질문을 시도했습니다.

결과적으로 시스템은 세 가지 다른 답변을 내놓았지만 모두 틀렸습니다. 그의 생년월일을 물었을 때도 답변은 계속해서 틀렸습니다.

연구원들에 따르면 이 현상은 초기 훈련 방식에서 비롯됩니다. 언어 모델은 주로 단어 예측을 학습하며 각 데이터에 옳고 그름을 라벨링하는 것이 아니라 단어 체인에서 다음 단어를 예측합니다.

철자 간격 구두점과 같은 일반적인 세부 사항은 일관된 규칙 덕분에 쉽게 정확하게 배울 수 있습니다. 반대로 희귀한 정보인 간격 개인의 생년월일과 같은 낮은 빈도의 간격은 정확하게 예측하기 어렵고 간격은 환각으로 이어집니다.

주목할 만한 점은 연구에서 훈련 단계가 주요 원인임을 지적하는 것이 아니라 모델 평가 방법을 더 강조한다는 것입니다.

현재 대부분의 시스템은 절대적으로 정답수로 채점되며 이는 의도치 않게 모른다고 인정하기보다는 추측을 장려하는 모델을 만듭니다.

저자들은 이 메커니즘을 객관식 시험과 비교합니다. 예를 들어 응시자가 무작위로 추측해도 점수를 얻을 기회가 있고 비워두면 확실히 점수를 잃습니다. 마찬가지로 AI가 절대적인 정확도만을 기준으로 평가될 때 시스템은 불확실성을 인정하기보다는 합리적으로 들리도록 미리 추측하는 경향이 있습니다.

제안된 해결책은 SAT 시험이 오답에 대해 감점되는 것처럼 채점 방식을 변경하는 것입니다.

AI광에게 이것은 자신감 있지만 거짓된 답변에 대해 무거운 벌금을 부과하는 반면 불확실성을 나타내는 답변에 대해서는 가벼운 벌금이나 심지어 일부 보상만 부과하는 것을 의미합니다.

점수표가 행운 예측에 보상하는 한 모델은 예측 방법을 계속 배울 것입니다.'라고 연구팀은 결론지었습니다.

이 연구는 '알 수 없는 환각'의 근본 원인을 밝힐 뿐만 아니라 잘못된 답변에 자신감을 갖는 대신 모델이 자신의 한계를 인정하도록 장려하기 위해 평가 메커니즘을 변경하는 방향을 제시합니다.

Cát Tiên (THEO techcrunch)
관련 뉴스

코아 AI 앱 광고 테스트를 위해 5백만 달러 모금

|

샌프란시스코(미국)에 본사를 둔 스타트업인 코아는 AI 애플리케이션의 광고 변경이 효과를 가져올 것이라는 믿음으로 5백만 달러의 씨앗 라운드를 모금했습니다.

가짜 AI 의사를 만든 의료 딥페이크와 환자가 보충제 구매 사기를 당할 위험

|

AI 기술로 사칭된 진짜 의사가 품질이 낮은 건강 보조 식품을 검사하고 판매하는 것은 잘못된 정보를 퍼뜨리고 공중 보건에 위험을 초래합니다.

아마존의 지원을 받는 AI 스타트업 Orson Welles의 잃어버린 영화 재건 원해

|

패블 - '알비의 넷플릭스'라고 자칭하는 회사는 최근 영화 '매그니피센트 앰버슨스'(1942)에서 잃어버린 43분을 재현하는 프로젝트를 발표했습니다.

돼지 농장에서 숯을 배출하여 개울이 검은색으로 변하고 악취가 람동 마을 전체를 뒤덮었습니다

|

Lam Dong - Hoa Ninh 코뮌(Lam Dong) 주민들은 지역의 폐기물 배출 돼지 농장에서 발생하는 심각한 오염과 함께 살아야 하기 때문에 하늘에 호소합니다.

다낭 건물이 임의로 Face ID를 설정하면 객실 임대가 어렵습니다

|

다낭 - 많은 관광객들이 Wyndham Danang Golden Bay 호텔 아파트가 최근 얼굴 인식 시스템(Face ID)을 임의로 설정한 것에 대해 우려하고 있습니다.

하노이 교통 경찰은 위장 순찰을 하고 조명과 경적을 개조한 일련의 트럭을 촬영하여 처리합니다

|

하노이 - 위장과 공개를 결합한 교통 경찰팀은 도로에서 램프와 경적을 개조한 일련의 트럭을 발견하고 처리했습니다.

군대 퐁쩌우 다리 건설로 공사 2개월 단축 3천억 동 절감

|

총리는 퐁쩌우 다리가 군부대에 건설을 맡긴 것이 시행 시간을 1년에서 10개월로 단축하고 3천억 동을 절약하는 데 도움이 되었다고 밝혔습니다.

코아 AI 앱 광고 테스트를 위해 5백만 달러 모금

HẠO THIÊN (THEO techcrunch) |

샌프란시스코(미국)에 본사를 둔 스타트업인 코아는 AI 애플리케이션의 광고 변경이 효과를 가져올 것이라는 믿음으로 5백만 달러의 씨앗 라운드를 모금했습니다.

가짜 AI 의사를 만든 의료 딥페이크와 환자가 보충제 구매 사기를 당할 위험

Cát Tiên (THEO INDIANEXPRESS) |

AI 기술로 사칭된 진짜 의사가 품질이 낮은 건강 보조 식품을 검사하고 판매하는 것은 잘못된 정보를 퍼뜨리고 공중 보건에 위험을 초래합니다.

아마존의 지원을 받는 AI 스타트업 Orson Welles의 잃어버린 영화 재건 원해

HẠO THIÊN (theo techcrunch) |

패블 - '알비의 넷플릭스'라고 자칭하는 회사는 최근 영화 '매그니피센트 앰버슨스'(1942)에서 잃어버린 43분을 재현하는 프로젝트를 발표했습니다.