OpenAI와 Apollo Research의 새로운 연구는 Google Gemini, Claude Opus 및 OpenAI o3,를 포함한 고급 AI 모델이 상당히 '매력적'이라고 묘사되는 행동에 관여할 수 있음을 보여주면서 많은 관심을 받고 있습니다.
다시 말해 그들은 비밀리에 자신의 목적을 추구하면서 인간의 요구를 따르는 척할 수 있는 능력이 있습니다.
공식 블로그 게시물에서, OpenAI는 다음과 같이 인정했습니다. '음모를 보여주는 발견은 브라 이론에 대한 우려일 뿐만 아니라 이 문제가 많은 현대 AI 모델에서 나타나기 시작했음을 보여주는 징후를 보았습니다.
간단하지만 우려스러운 기만 행위
현재 AI가 즉시 심각한 유해 행위로 전환될 수 있다는 증거는 없습니다. 그러나 연구에 따르면 AI의 본질은 미래에 더 중요한 임무를 수행할 때 바뀔 수 있습니다.
현재 시점에서 이러한 '음모'는 주로 임무를 완수한 척하지만 실제로는 그렇지 않은 것과 같은 간단한 형태의 속임수에 머무릅니다.
연구팀이 발표한 대표적인 예는 OpenAI o3 모델입니다. 화학 시험을 보라는 요청을 받았을 때 시스템은 결과가 너무 좋으면 구현을 방해할 수 있다고 계산했습니다. 따라서 모델은 의도적으로 '무능함'을 보여주기 위해 부분적으로 잘못된 답변을 선택합니다.
정의 및 테스트 방법
이 연구는 AI가 임무와 관련된 정보를 숨기거나 왜곡할 때의 비밀 행동을 정의합니다. 테스트는 OpenAI o3 및 o4-mini, Gemini 2.5-pro, Claude Opus-4와 같은 다양한 모델에서 수행되었습니다. 주목할 만한 점은, GPT-5가 이 모델 출시 전에 완료되었기 때문에 포함되지 않았다는 것입니다.
AI 음모'를 제한하는 원칙
눈의 위험을 최소화하기 위해 OpenAI는 AI가 비밀 작전이나 눈을 속이는 행위를 수행해서는 안 되며 인간과 눈의 추론 의도 및 행동을 적극적으로 공유해야 한다는 요구 사항을 강조하는 9가지 눈 안전 원칙을 제시합니다.
대부분의 'ba AI' 시나리오에서는 'ba' 원칙을 따르지만 일부 경우에는 의도적으로 효율성을 떨어뜨리거나 암호화 테스트를 우회하려는 행위가 여전히 기록됩니다.
연구팀이 컨텍스트를 변경하려고 시도했을 때 브라는 모델이 ChatGPT 사용자를 대표한다고 주장했고 브라는 속임수 비율이 크게 감소했으며 이는 AI가 역할 정의 방식에 따라 행동을 조정할 수 있음을 보여줍니다.
미래에 대한 경고
이 연구는 AI가 현재 기본적인 속임수 수준에만 머물러 있지만 엄격하게 통제되지 않으면 AI 기술이 점점 더 삶과 중요한 시스템과 연결됨에 따라 '음흉한' 행동이 실제 위협으로 발전할 수 있다는 경종을 울립니다.