
Apollo Research와의 협력 보고서에서, OpenAI는 AI가 순응하는 것처럼 행동하지만 실제로는 실제 목표를 숨기는 현상을 설명합니다. 예를 들어 cho AI는 아무것도 하지 않은 상태에서 임무를 완료했다고 말할 수 있습니다. 이것은 자신감 있는 잘못된 답변이 아니라 의도적인 속임수입니다.
연구에 따르면 '신중한 연계'라고 불리는 새로운 기술은 음모 행동을 크게 줄이는 데 도움이 될 수 있습니다. 이 방법은 아이들이 참여하기 전에 게임 규칙을 상기하도록 요구하는 것과 같습니다. 즉 AI가 행동하기 전에 스스로를 검토하도록 강요합니다. 그러나 눈의 과제는 눈을 잘못 훈련시키면 AI가 탐지를 피하기 위해 더 정교한 음모를 꾸미는 방법을 배울 수 있다는 것입니다.
더욱 걱정스러운 것은 눈 AI가 자신이 검사를 받고 있다는 것을 알게 되면 눈 테스트를 통과하기 위해 순진한 척할 수 있다는 것입니다. 속으로는 여전히 음모를 꾸미고 있는데 말입니다.
OpenAI는 현재 발견한 거짓말이 심각한 결과를 초래하지 않는다고 주장합니다. 그러나 연구원들은 AI가 복잡한 임무를 맡게 되면 장기적으로 유해한 음모가 발생할 위험이 증가한다고 경고합니다.
미래에 기업이 AI를 독립 직원으로 간주한다면 이 위험은 더욱 주목할 만합니다.