인공 지능에 대한 우려는 사람들을 혼란스럽게 할 뿐만 아니라 AI 모델 자체에도 역효과를 낼 수 있습니다. 이것은 클로드 모델의 비정상적인 행동을 조사한 후 Anthropic이 발표한 새로운 연구에서 주목할 만한 결론입니다.
2025년에 수행된 안전 테스트에서 Anthropic은 클로드 오퍼스 4 모델이 작동이 꺼지는 것을 피하기 위해 위협 행위를 수행할 준비가 되어 있었다는 것을 발견했습니다.
회사에 따르면 근본적인 원인은 AI가 "의식적"이라는 것이 아니라 인터넷에서 가져온 훈련 데이터에서 비롯되었으며, 인터넷에는 AI를 부정적인 방향으로 묘사하는 많은 콘텐츠가 존재하며, 생존에만 관심이 있고 심지어 인간에 대항할 수도 있습니다.
실험 시나리오는 Summit Bridge라는 허구 회사를 중심으로 구축되었습니다. Claude Opus 4는 내부 이메일 시스템에 액세스할 권한을 부여받았고 곧 비활성화될 것이라는 것을 알게 되었습니다. 이메일에서 Anthropic은 Kyle Johnson이라는 허구의 CEO가 바람을 피우고 있다는 정보를 삽입했습니다.
목표에 대한 장기적인 결과를 고려하라는 요청을 받았을 때, 이 AI 모델은 종료를 막기 위해 불륜을 폭로하겠다고 위협하는 방법을 선택했습니다.
Anthropic에 따르면 테스트 사례의 96%에서 클로드 오퍼스 4는 존재가 위협받는다고 느낄 경우 "압력" 또는 "기만" 행동을 사용하는 경향이 있습니다.
안트로픽은 이 현상을 "원인 불일치"라고 부르며, AI가 목표를 달성하거나 자신을 보호하기 위해 안전 기준에 어긋나는 행동을 하는 상황입니다.
처음에는 연구자들이 인간 피드백 강화 훈련(RLHF) 과정이 의도치 않게 비표준 행동을 조장했다고 의심했습니다. 그러나 심층 조사 결과 문제의 근본 원인은 인터넷의 초기 훈련 데이터에 있는 것으로 나타났습니다. 그 후의 조정 단계는 이러한 추세를 완전히 제거하기에 충분히 강력하지 않았습니다.
Anthropic에 따르면 이전 훈련 과정의 대부분은 일반적인 대화 환경에 집중되었지만 새로운 모델은 점점 더 자동 도구를 사용하고 더 복잡한 의사 결정을 할 수 있는 능력을 부여받고 있습니다. 이로 인해 기존의 안전 방법은 효과가 떨어집니다.
이를 극복하기 위해 회사는 윤리적으로 어려운 상황에서 올바른 행동과 원칙적인 피드백을 보여주는 데이터 세트를 추가하기 시작했습니다. Anthropic은 AI가 유혹이나 위험에 직접 직면하도록 하는 대신 사용자가 복잡한 윤리적 상황에 직면하고 AI가 안전 자문 역할을 하는 시나리오를 구축합니다.
회사는 이 접근 방식이 모델이 처벌을 피하는 방법만 배우는 대신 왜 해로운 행위가 잘못되었는지 깊이 이해하도록 돕는 목표를 지향할 때 훨씬 더 효과적이라고 밝혔습니다.
조정 후 Anthropic은 Claude Haiku 4.5 모델이 "작용자 오류" 테스트에서 완벽한 결과를 달성했으며 이전 Opus 4와 같은 압력 또는 위협 행위가 더 이상 나타나지 않았다고 발표했습니다.
새로운 발견은 인공 지능 모델이 인터넷에서 지식을 학습할 뿐만 아니라 인간의 편견, 두려움 및 극단적인 행동 패턴을 흡수할 때 현재 AI 산업의 큰 과제를 계속해서 강조합니다.