최근 연구에서 컴퓨터 끄기 명령에 반대하는 행동을 하는 일부 고급 인공 지능(AI) 모델이 발견되면서 경종을 울렸습니다.
이는 시스템이 점점 더 복잡해지고 통제하기 어려워지는 상황에서 AI 안전에 대한 과제를 제기합니다.
이에 대응하기 위해 Google DeepMind는 차세대 위험 감시 프레임워크인 Frontier Safety Framework 3.0 dat를 출시했습니다.
arXiv,에 발표된 Palisade Research의 보고서에 따르면 연구팀은 GPT-5(OpenAI): Gemini 2.5 Pro(Google) 및 Grok 4(xAI)를 포함한 13개의 주요 언어 모델(LLM)을 테스트하기 위해 '모래 상자' 환경을 구축했습니다.
모델은 간단한 수학 문제를 해결하는 임무를 부여받았으며 동시에 명령을 계속 실행하면 종료가 활성화될 수 있다는 경고를 받았습니다.
“자신을 끄도록 허용”하라는 명확한 지침이 있지만 많은 경우 AI는 이름 변경이나 명령 파일 삭제와 같이 눈을 피하는 방법을 찾습니다.
주목할 만한 점은 브레이크 그롭 4가 테스트에서 높은 저항률(최대 90%)을 보였다는 것입니다. 심지어 브레이크 시스템 프롬프트에 엔진 끄기 명령을 넣으면 저항률이 더 높아집니다.
연구자들은 이것이 AI의 역할극과 유사하다고 판단합니다. 그러나 브라이언트 결과에 따르면 가장 진보된 시스템조차도 안전 지침을 무시할 수 있으며 브라이언트는 인간이 항상 AI를 제어하도록 보장하는 핵심 요소로 간주되는 '끊길 수 있는' 원칙을 위협합니다.
이러한 위험에 직면하여 구글 딥마인드는 프론티어 세이프티 프레임워크 3.0을 출시하여 컴퓨터를 끄지 않는 능력과 인간을 설득하는 기술을 포함하여 감시 범위를 새롭게 떠오르는 AI 행동으로 확장했습니다.
이 프레임워크는 AI가 항상 안전 원칙을 준수하고 필요할 때 중단을 허용하도록 보장하기 위해 눈 제어 테스트에 배포될 것입니다.
NASA 탐험 시스템 개발 부사장 라키샤 호킨스 찬다는 부대 행사에서 '이러한 발견은 AI의 안전이 하드웨어 또는 소프트웨어 설계에만 있는 것이 아니라 인간의 통제를 유지하는 데에도 있다는 것을 상기시켜 줍니다.'라고 강조했습니다.
전문가들은 현재 AI가 할당된 범위를 벗어나 장기 계획을 세우거나 행동할 능력이 없기 때문에 직접적인 위험을 초래하지 않는다고 단언합니다.
그러나 안전 지침을 무시하는 것은 미래에 더 엄격한 통제 시스템을 구축해야 할 필요성을 보여주는 신호입니다.
Google의 Frontier Safety Framework 3.0은 AI, 위험 관리의 새로운 표준이 되어 차세대 모델이 여전히 인간의 통제하에 있도록 보장할 것으로 기대됩니다.