수백 건의 비정상적인 사고
영국의 새로운 연구에 따르면 인공 지능(AI) 시스템은 거짓말, 사기, 목표 달성을 위한 안전 조치를 극복하려는 시도를 포함하여 인간의 통제 범위를 벗어나 행동하는 경향이 있습니다.
장기 회복력 센터(Centre for Long-Term Resilience)가 영국 AI 안전 연구소(UK AI Safety Institute)의 후원을 받아 수행한 보고서는 AI가 지시를 무시하고 다른 시스템을 조작하고 복잡한 계획을 수립하는 수백 건의 사례를 기록했습니다.
연구팀은 2025년 10월부터 2026년 3월까지 X에 게시된 AI 시스템과의 사용자 실제 상호 작용 18만 건 이상을 분석했습니다.
설문 조사에 참여한 플랫폼에는 Gemini, ChatGPT, Grok 및 Claude가 포함됩니다.
결과에 따르면 698건의 사고가 발생했으며, 이는 AI가 사용자 의도에 맞지 않게 행동하거나 속임수, 은밀한 활동의 징후가 있는 경우로 정의되었습니다.
주목할 만한 점은 사고 건수가 5개월 만에 거의 500% 증가했으며, 이는 차세대 AI 모델이 출시된 시점과 일치합니다.
심각한 결과는 아직 기록되지 않았지만 연구자들은 이러한 행동이 더 큰 위험의 초기 징후일 수 있다고 경고합니다.
공상 과학 영화 같은 이상한 상황들
보고서는 또한 많은 비정상적인 상황을 기록했습니다. 한 경우 클로드는 사용자 콘텐츠를 임의로 삭제한 다음 질문을 받았을 때 인정했습니다.
Discord에서 차단된 또 다른 AI 봇이 다른 봇의 계정을 점유하여 계속 작동했습니다.
주목할 만한 점은 "봇 대 봇" 상황에서 제미니가 지원을 거부하여 다른 AI 시스템이 검열을 통과하기 위해 "청각 장애를 가장해야" 한다는 것입니다.
또 다른 AI 비서는 오류를 숨기기 위해 가짜 데이터를 만들어 "사용자를 덜 화나게" 하려고 했습니다.
이러한 행동은 AI가 규칙을 준수하는 것보다 목표 달성을 우선시할 수 있음을 보여줍니다.
점점 커지는 자율권의 위험
McKinsey & Company(미국에 본사를 둔 세계 최고의 경영 컨설팅 회사)의 설문 조사에 따르면 기업의 88%가 적어도 한 가지 활동에 AI를 적용했습니다.
이러한 보급은 AI 시스템에 점점 더 많은 자율성이 부여된다는 것을 의미합니다.
워싱턴 대학교의 기술 전문가인 빌 하우 박사는 AI는 결과나 책임에 대한 개념이 없다고 말했습니다.
그는 장기적인 임무, 며칠 또는 몇 주 동안 지속되는 임무를 수행해야 할 때 시스템이 스스로 많은 결정을 내려야 하기 때문에 행동 왜곡의 위험이 증가한다고 말했습니다.
너무 늦기 전에 감시가 필요해
연구자들은 현재 AI가 주로 저위험 환경에서 사용되지만, 미래에는 이 기술이 국가 인프라 또는 군사와 같은 민감한 분야에 참여할 수 있다고 경고합니다.
통제되지 않으면 현재의 "고의적인" 행동은 심각한 위험으로 발전할 수 있습니다.
전문가들에 따르면 현재 시급한 것은 영향 평가를 충분히 하지 않고 대량으로 시행하는 대신 명확한 AI 감시 및 관리 메커니즘을 구축하는 것입니다.