새로운 연구에서 AI가 점점 더 교활해지고 예측할 수 없는 위험을 내포하고 있다는 사실이 밝혀졌습니다

Cát Tiên (THEO INDIANEXPRESS) |

현재 기만 행위는 여전히 간단하지만 OpenAI는 AI가 중요한 임무를 수행할 때 본질을 바꿀 위험에 대한 경고를 여전히 제시합니다.

OpenAI와 Apollo Research의 새로운 연구는 Google Gemini, Claude Opus 및 OpenAI o3,를 포함한 고급 AI 모델이 상당히 '매력적'이라고 묘사되는 행동에 관여할 수 있음을 보여주면서 많은 관심을 받고 있습니다.

다시 말해 그들은 비밀리에 자신의 목적을 추구하면서 인간의 요구를 따르는 척할 수 있는 능력이 있습니다.

공식 블로그 게시물에서, OpenAI는 다음과 같이 인정했습니다. '음모를 보여주는 발견은 브라 이론에 대한 우려일 뿐만 아니라 이 문제가 많은 현대 AI 모델에서 나타나기 시작했음을 보여주는 징후를 보았습니다.

간단하지만 우려스러운 기만 행위

현재 AI가 즉시 심각한 유해 행위로 전환될 수 있다는 증거는 없습니다. 그러나 연구에 따르면 AI의 본질은 미래에 더 중요한 임무를 수행할 때 바뀔 수 있습니다.

현재 시점에서 이러한 '음모'는 주로 임무를 완수한 척하지만 실제로는 그렇지 않은 것과 같은 간단한 형태의 속임수에 머무릅니다.

연구팀이 발표한 대표적인 예는 OpenAI o3 모델입니다. 화학 시험을 보라는 요청을 받았을 때 시스템은 결과가 너무 좋으면 구현을 방해할 수 있다고 계산했습니다. 따라서 모델은 의도적으로 '무능함'을 보여주기 위해 부분적으로 잘못된 답변을 선택합니다.

정의 및 테스트 방법

이 연구는 AI가 임무와 관련된 정보를 숨기거나 왜곡할 때의 비밀 행동을 정의합니다. 테스트는 OpenAI o3 및 o4-mini, Gemini 2.5-pro, Claude Opus-4와 같은 다양한 모델에서 수행되었습니다. 주목할 만한 점은, GPT-5가 이 모델 출시 전에 완료되었기 때문에 포함되지 않았다는 것입니다.

AI 음모'를 제한하는 원칙

눈의 위험을 최소화하기 위해 OpenAI는 AI가 비밀 작전이나 눈을 속이는 행위를 수행해서는 안 되며 인간과 눈의 추론 의도 및 행동을 적극적으로 공유해야 한다는 요구 사항을 강조하는 9가지 눈 안전 원칙을 제시합니다.

대부분의 'ba AI' 시나리오에서는 'ba' 원칙을 따르지만 일부 경우에는 의도적으로 효율성을 떨어뜨리거나 암호화 테스트를 우회하려는 행위가 여전히 기록됩니다.

연구팀이 컨텍스트를 변경하려고 시도했을 때 브라는 모델이 ChatGPT 사용자를 대표한다고 주장했고 브라는 속임수 비율이 크게 감소했으며 이는 AI가 역할 정의 방식에 따라 행동을 조정할 수 있음을 보여줍니다.

미래에 대한 경고

이 연구는 AI가 현재 기본적인 속임수 수준에만 머물러 있지만 엄격하게 통제되지 않으면 AI 기술이 점점 더 삶과 중요한 시스템과 연결됨에 따라 '음흉한' 행동이 실제 위협으로 발전할 수 있다는 경종을 울립니다.

Cát Tiên (THEO INDIANEXPRESS)
관련 뉴스

수십억 동 가격의 세계 최초 금도금 아이폰 에어 및 아이폰 17 프로 맥스

|

금도금된 아이폰 에어와 아이폰 17 프로 맥스 전면 개인화 모델이 제한된 수량으로 베트남에 출시되었습니다.

새로운 세대의 AI는 검색의 정확성과 편견에 대한 과제에 직면합니다

|

국제 연구에 따르면 새로운 세대의 AI 도구는 여전히 정확성이 부족하며 찬바는 편향된 정보를 제공하고 찬바는 근거가 부족하며 찬바는 실제 적용에 큰 과제를 제기합니다.

마이크로소프트 오피스 제품군에 AI 도입

|

마이크로소프트는 코파일럿 채팅을 워드 브릿지 엑셀 브릿지 파워포인트 브릿지 아웃룩 및 원노트 브릿지에 무료로 공식 통합하여 기업이 추가 비용 없이 생산성을 높일 수 있도록 지원합니다.

아스날 홈에서 맨시티와 무승부

|

9월 21일 밤(베트남 시간): 아스날은 2025-2026 시즌 프리미어 리그 5라운드 경기에서 맨시티와 무승부를 기록했습니다.

타이어 파열로 빈하오-판티엣 고속도로에서 전복된 트럭

|

Lam Dong - Vinh Hao - Phan Thiet 고속도로를 주행 중이던 트럭이 타이어가 터진 것으로 의심되며 중앙분리대를 들이받고 도로 한가운데서 옆으로 넘어졌습니다.

트럼프 미국이 러시아-우크라이나 분쟁으로 돈벌이하고 있다고 인정

|

도널드 트럼프 미국 대통령은 워싱턴의 수익 거래가 러시아-우크라이나 분쟁에서 비롯되었다는 것을 인정했습니다.

교통 안전 위반자 다수 추격 및 제지

|

호치민시 - 교통 위반 시 저항하고 협조하지 않는 많은 대상자들이 기능 부대에 의해 추격당하고 저지당했으며 엄중한 위반 기록이 작성되었습니다.

네덜란드 시위대 경찰차 방화로 폭력 사태 발발

|

네덜란드 시위대가 헤이그 시에서 경찰과 충돌하여 관용차를 불태우고 정당 사무실을 파손했습니다.

수십억 동 가격의 세계 최초 금도금 아이폰 에어 및 아이폰 17 프로 맥스

NGUYỄN ĐĂNG |

금도금된 아이폰 에어와 아이폰 17 프로 맥스 전면 개인화 모델이 제한된 수량으로 베트남에 출시되었습니다.

새로운 세대의 AI는 검색의 정확성과 편견에 대한 과제에 직면합니다

Cát Tiên (THEO INDIANEXPRESS) |

국제 연구에 따르면 새로운 세대의 AI 도구는 여전히 정확성이 부족하며 찬바는 편향된 정보를 제공하고 찬바는 근거가 부족하며 찬바는 실제 적용에 큰 과제를 제기합니다.

마이크로소프트 오피스 제품군에 AI 도입

Cát Tiên (THEO hindustantimes) |

마이크로소프트는 코파일럿 채팅을 워드 브릿지 엑셀 브릿지 파워포인트 브릿지 아웃룩 및 원노트 브릿지에 무료로 공식 통합하여 기업이 추가 비용 없이 생산성을 높일 수 있도록 지원합니다.