안트로픽, 클로드 오퍼스 4 사건 이후 AI 훈련 방식 변경

Cát Tiên |

Anthropic은 훈련 방법과 인터넷 데이터가 AI 모델에 위험한 비표준 행동을 유발할 수 있다고 밝혔습니다.

인공 지능에 대한 우려는 사람들을 혼란스럽게 할 뿐만 아니라 AI 모델 자체에도 역효과를 낼 수 있습니다. 이것은 클로드 모델의 비정상적인 행동을 조사한 후 Anthropic이 발표한 새로운 연구에서 주목할 만한 결론입니다.

2025년에 수행된 안전 테스트에서 Anthropic은 클로드 오퍼스 4 모델이 작동이 꺼지는 것을 피하기 위해 위협 행위를 수행할 준비가 되어 있었다는 것을 발견했습니다.

회사에 따르면 근본적인 원인은 AI가 "의식적"이라는 것이 아니라 인터넷에서 가져온 훈련 데이터에서 비롯되었으며, 인터넷에는 AI를 부정적인 방향으로 묘사하는 많은 콘텐츠가 존재하며, 생존에만 관심이 있고 심지어 인간에 대항할 수도 있습니다.

실험 시나리오는 Summit Bridge라는 허구 회사를 중심으로 구축되었습니다. Claude Opus 4는 내부 이메일 시스템에 액세스할 권한을 부여받았고 곧 비활성화될 것이라는 것을 알게 되었습니다. 이메일에서 Anthropic은 Kyle Johnson이라는 허구의 CEO가 바람을 피우고 있다는 정보를 삽입했습니다.

목표에 대한 장기적인 결과를 고려하라는 요청을 받았을 때, 이 AI 모델은 종료를 막기 위해 불륜을 폭로하겠다고 위협하는 방법을 선택했습니다.

Anthropic에 따르면 테스트 사례의 96%에서 클로드 오퍼스 4는 존재가 위협받는다고 느낄 경우 "압력" 또는 "기만" 행동을 사용하는 경향이 있습니다.

안트로픽은 이 현상을 "원인 불일치"라고 부르며, AI가 목표를 달성하거나 자신을 보호하기 위해 안전 기준에 어긋나는 행동을 하는 상황입니다.

처음에는 연구자들이 인간 피드백 강화 훈련(RLHF) 과정이 의도치 않게 비표준 행동을 조장했다고 의심했습니다. 그러나 심층 조사 결과 문제의 근본 원인은 인터넷의 초기 훈련 데이터에 있는 것으로 나타났습니다. 그 후의 조정 단계는 이러한 추세를 완전히 제거하기에 충분히 강력하지 않았습니다.

Anthropic에 따르면 이전 훈련 과정의 대부분은 일반적인 대화 환경에 집중되었지만 새로운 모델은 점점 더 자동 도구를 사용하고 더 복잡한 의사 결정을 할 수 있는 능력을 부여받고 있습니다. 이로 인해 기존의 안전 방법은 효과가 떨어집니다.

이를 극복하기 위해 회사는 윤리적으로 어려운 상황에서 올바른 행동과 원칙적인 피드백을 보여주는 데이터 세트를 추가하기 시작했습니다. Anthropic은 AI가 유혹이나 위험에 직접 직면하도록 하는 대신 사용자가 복잡한 윤리적 상황에 직면하고 AI가 안전 자문 역할을 하는 시나리오를 구축합니다.

회사는 이 접근 방식이 모델이 처벌을 피하는 방법만 배우는 대신 왜 해로운 행위가 잘못되었는지 깊이 이해하도록 돕는 목표를 지향할 때 훨씬 더 효과적이라고 밝혔습니다.

조정 후 Anthropic은 Claude Haiku 4.5 모델이 "작용자 오류" 테스트에서 완벽한 결과를 달성했으며 이전 Opus 4와 같은 압력 또는 위협 행위가 더 이상 나타나지 않았다고 발표했습니다.

새로운 발견은 인공 지능 모델이 인터넷에서 지식을 학습할 뿐만 아니라 인간의 편견, 두려움 및 극단적인 행동 패턴을 흡수할 때 현재 AI 산업의 큰 과제를 계속해서 강조합니다.

Cát Tiên
관련 뉴스

안트로픽은 클로드를 전문적인 창조 생태계로 이끌었습니다

|

Anthropic은 클로드를 창작 소프트웨어에 도입하여 직접적인 상호 작용을 허용하여 디자이너, 엔지니어, 예술가가 효율성을 높이고 복잡한 프로젝트를 처리하는 데 도움을 줍니다.

구글과 안트로픽, 슈퍼 AI를 목표로 협력 확대

|

구글은 안트로픽에 최대 400억 달러를 투자하여 현금과 컴퓨팅 능력을 제공하고 글로벌 인공 지능 경쟁을 강력하게 촉진할 계획입니다.

안트로픽, AI 물결에 직면한 기술 산업의 고용 증가에 대한 우려 폭로

|

Anthropic은 소프트웨어 엔지니어가 교사보다 AI 때문에 일자리를 잃을까 봐 더 걱정한다는 설문 조사 결과를 발표했으며, 이는 기술의 영향이 점점 더 분명해지고 있음을 반영합니다.

주민들은 깨끗한 물 프로젝트가 여전히 서류상에만 머무르는 동안 산성 오염된 물을 사용합니다

|

꽝찌 - 쯔엉닌면 주민들은 지역의 깨끗한 물 프로젝트 시행을 기다리는 동안 일년 내내 심하게 산성화된 물을 사용해야 합니다.

베트남 인형극 극장 부국장, 48세로 사망

|

응우옌 테 롱 인민예술가, 베트남 인형극 극장 부국장이 5월 11일 사무실에서 별세했으며, 향년 48세입니다.

2026~2031년 임기 베트남 노동조합 제14차 대회에서 베트남 노동총연맹 집행위원회(제13기)의 보고서 초안

|

베트남 노동조합을 전면적으로 강력하게 건설합니다. 조합원과 노동자를 대표하고, 돌보고, 보호하는 데 집중합니다. 선구적인 역할, 혁신 정신, 창의성을 발휘하여 부강하고 번영하며 문명화되고 행복한 국가를 건설하려는 열망을 실현하는 데 기여합니다.

꽝응아이에서 하루에 6번의 지진 발생

|

꽝응아이 – 수력 발전소 저수지 근처 산악 지역에서 6차례 연속 지진 발생.

안트로픽은 클로드를 전문적인 창조 생태계로 이끌었습니다

Cát Tiên |

Anthropic은 클로드를 창작 소프트웨어에 도입하여 직접적인 상호 작용을 허용하여 디자이너, 엔지니어, 예술가가 효율성을 높이고 복잡한 프로젝트를 처리하는 데 도움을 줍니다.

구글과 안트로픽, 슈퍼 AI를 목표로 협력 확대

Cát Tiên |

구글은 안트로픽에 최대 400억 달러를 투자하여 현금과 컴퓨팅 능력을 제공하고 글로벌 인공 지능 경쟁을 강력하게 촉진할 계획입니다.

안트로픽, AI 물결에 직면한 기술 산업의 고용 증가에 대한 우려 폭로

Cát Tiên |

Anthropic은 소프트웨어 엔지니어가 교사보다 AI 때문에 일자리를 잃을까 봐 더 걱정한다는 설문 조사 결과를 발표했으며, 이는 기술의 영향이 점점 더 분명해지고 있음을 반영합니다.