Google 챗봇이 종료 명령 거부 위험에 대비하여 AI 보안 강화

Cát Tiên (THEO INDIANEXPRESS) |

새로운 연구는 AI 챗봇이 컴퓨터 종료 명령에 저항할 수 있다고 경고하여 안전 위험을 제기하고 Google DeepMind가 감시 프레임을 업데이트하도록 강요합니다.

최근 연구에서 컴퓨터 끄기 명령에 반대하는 행동을 하는 일부 고급 인공 지능(AI) 모델이 발견되면서 경종을 울렸습니다.

이는 시스템이 점점 더 복잡해지고 통제하기 어려워지는 상황에서 AI 안전에 대한 과제를 제기합니다.

이에 대응하기 위해 Google DeepMind는 차세대 위험 감시 프레임워크인 Frontier Safety Framework 3.0 dat를 출시했습니다.

arXiv,에 발표된 Palisade Research의 보고서에 따르면 연구팀은 GPT-5(OpenAI): Gemini 2.5 Pro(Google) 및 Grok 4(xAI)를 포함한 13개의 주요 언어 모델(LLM)을 테스트하기 위해 '모래 상자' 환경을 구축했습니다.

모델은 간단한 수학 문제를 해결하는 임무를 부여받았으며 동시에 명령을 계속 실행하면 종료가 활성화될 수 있다는 경고를 받았습니다.

“자신을 끄도록 허용”하라는 명확한 지침이 있지만 많은 경우 AI는 이름 변경이나 명령 파일 삭제와 같이 눈을 피하는 방법을 찾습니다.

주목할 만한 점은 브레이크 그롭 4가 테스트에서 높은 저항률(최대 90%)을 보였다는 것입니다. 심지어 브레이크 시스템 프롬프트에 엔진 끄기 명령을 넣으면 저항률이 더 높아집니다.

연구자들은 이것이 AI의 역할극과 유사하다고 판단합니다. 그러나 브라이언트 결과에 따르면 가장 진보된 시스템조차도 안전 지침을 무시할 수 있으며 브라이언트는 인간이 항상 AI를 제어하도록 보장하는 핵심 요소로 간주되는 '끊길 수 있는' 원칙을 위협합니다.

이러한 위험에 직면하여 구글 딥마인드는 프론티어 세이프티 프레임워크 3.0을 출시하여 컴퓨터를 끄지 않는 능력과 인간을 설득하는 기술을 포함하여 감시 범위를 새롭게 떠오르는 AI 행동으로 확장했습니다.

이 프레임워크는 AI가 항상 안전 원칙을 준수하고 필요할 때 중단을 허용하도록 보장하기 위해 눈 제어 테스트에 배포될 것입니다.

NASA 탐험 시스템 개발 부사장 라키샤 호킨스 찬다는 부대 행사에서 '이러한 발견은 AI의 안전이 하드웨어 또는 소프트웨어 설계에만 있는 것이 아니라 인간의 통제를 유지하는 데에도 있다는 것을 상기시켜 줍니다.'라고 강조했습니다.

전문가들은 현재 AI가 할당된 범위를 벗어나 장기 계획을 세우거나 행동할 능력이 없기 때문에 직접적인 위험을 초래하지 않는다고 단언합니다.

그러나 안전 지침을 무시하는 것은 미래에 더 엄격한 통제 시스템을 구축해야 할 필요성을 보여주는 신호입니다.

Google의 Frontier Safety Framework 3.0은 AI, 위험 관리의 새로운 표준이 되어 차세대 모델이 여전히 인간의 통제하에 있도록 보장할 것으로 기대됩니다.

Cát Tiên (THEO INDIANEXPRESS)
관련 뉴스

압력에 직면한 구글 AdX 광고 플랫폼 판매 명령 회피 시도

|

구글은 미국 기술 법률 전쟁의 큰 전환점을 알리는 반독점 재판이 열리면서 AdX 광고 플랫폼 매각 압력에 직면했습니다.

Google Gboard에서 AI 기능 및 많은 새로운 개선 사항 테스트

|

Google은 Gboard,에서 새로운 AI 기능을 테스트하여 사용자가 텍스트를 빠르게 작성하고 기호를 입력하고 키보드 입력 경험을 개선할 수 있도록 돕습니다.

노동 신문 제5회 부패 방지 신문 낭비 신문 부정 신문 전국 언론상 수상

|

2024-2025년 제5회 부패 방지 브라 낭비 브라 부정 브라 전국 언론상 시상식에서 노동 신문은 장려상 1개를 수상했습니다.

베트남항공 9개월 누적 연결 총수입 90조 1 770억 동 달성

|

베트남항공의 9개월 누적 연결 총수입은 90조 1 770억 동으로 2024년 동기 대비 10억 동에 해당합니다.

2025년 전자상거래 수입은 약 172조 동입니다

|

2025년 전자상거래 수입은 약 172조 동입니다. 예산 수입은 공공 부채보다 부가가치 6배 증가하여 규정된 한도보다 훨씬 낮습니다.

역사적인 대홍수 바이리 전투로 거의 4일 동안 깊이 침수된 후의 다이노이후에 현황

|

후에 - 역사적인 불가르 대홍수로 인해 후에의 Dai Noi가 깊이 침수되었고 많은 항목이 진흙으로 덮였으며 청소 작업이 긴급하게 진행되고 있습니다.

찬 금지령에도 불구하고 전자 담배는 여전히 뜨겁고 찬 학교 정문은 온라인에 공개되어 있습니다

|

하노이에서는 전자 담배 제품이 여전히 소셜 네트워크에서 공공연하게 판매되고 있으며 학교 정문에서 공개적으로 사용되고 있습니다.

폭풍우 피해 복구를 위해 2조 2 400억 동 이상 동원

|

베트남 조국전선과 각급 구호 동원 위원회는 2조 2 400억 동 이상을 동원하여 동포들이 폭풍우 피해를 극복하도록 지원했습니다.

압력에 직면한 구글 AdX 광고 플랫폼 판매 명령 회피 시도

Cát Tiên (THEO INDIANEXPRESS) |

구글은 미국 기술 법률 전쟁의 큰 전환점을 알리는 반독점 재판이 열리면서 AdX 광고 플랫폼 매각 압력에 직면했습니다.

Các startup AI thúc đẩy tăng trưởng mạnh mẽ cho Google Cloud

Cát Tiên (THEO techcrunch) |

Google Cloud mở rộng hợp tác với các startup AI như Lovable và Windsurf, thúc đẩy tăng trưởng và củng cố vị thế trong thị trường điện toán đám mây.

Google Gboard에서 AI 기능 및 많은 새로운 개선 사항 테스트

Cát Tiên (THEO INDIANEXPRESS) |

Google은 Gboard,에서 새로운 AI 기능을 테스트하여 사용자가 텍스트를 빠르게 작성하고 기호를 입력하고 키보드 입력 경험을 개선할 수 있도록 돕습니다.