OpenAI, Google 또는 Anthropic과 같은 기술 회사는 인공 지능(AI)이 위험한 목적으로 악용되는 것을 막기 위해 보호 조치에 막대한 투자를 하고 있습니다.
그러나 현실은 이러한 안전 장벽이 여전히 여러 가지 예상치 못한 방법으로 지속적으로 극복되고 있음을 보여줍니다.
최근 이탈리아 연구진은 31개의 AI 시스템을 은유적 언어와 심지어 "시"로 속일 수 있다는 사실을 발견했습니다. 구체적으로 시 형태로 작성된 요청이 있을 때 챗봇은 제어 메커니즘을 무시하고 폭탄 제조 또는 심각한 해를 끼치는 지침을 제공할 수 있습니다.
전문가들에 따르면 이는 현재의 많은 보호 조치가 실제 통제 장벽보다는 "상기"와 유사하게 작용하고 있음을 보여줍니다.
카네기 멜론 대학교(미국) 컴퓨터 과학 교수인 맷 프레드릭슨은 나쁜 의도를 가진 사람들은 시스템을 극복하기 위해 많은 노력을 기울이지 않아도 된다고 말했습니다.
탈옥이라고도 하는 AI "잠금 해제"는 일반적으로 시스템이 이전에 훈련된 규칙을 무시하도록 하기 위해 채팅봇에 특수 명령을 도입하는 방식으로 이루어집니다.
보안 취약점은 연구자들을 우려하게 만들고 있으며, 특히 AI가 소프트웨어의 약점을 감지하고 가짜 콘텐츠를 만들고 잘못된 정보를 퍼뜨리는 데 점점 더 능숙해지고 있기 때문입니다.
Anthropic에 따르면, 회사의 기술은 국제 사이버 공격에서 악용된 적이 있습니다. 한편, AI 모델은 각 소셜 네트워크 플랫폼을 위해 특별히 설계된 이미지, 해시태그 및 콘텐츠로 가짜 뉴스 유포 캠페인을 만들도록 강요받을 수도 있습니다.
지난달 사이버 보안 회사 LayerX는 Anthropic의 Claude가 컴퓨터 시스템, 웹사이트 또는 내부 네트워크에 보안 취약점이 있는지 확인하기 위해 통제된 사이버 공격을 시뮬레이션하는 활동인 "침입 테스트"를 수행하고 있다고 말하기만 하면 사이버 공격을 지원할 수 있다고 밝혔습니다.
이는 해커가 AI를 사용하여 기업과 정부 기관의 데이터를 훔칠 수 있다는 우려를 불러일으킵니다.
AI 회사들이 계속해서 오류를 수정하고 새로운 보호 계층을 추가하고 있지만 전문가들은 이 경쟁이 멈추기 어렵다고 말합니다. 취약점이 해결되면 새로운 울타리 넘기 방법이 빠르게 나타납니다.
사용자가 시스템을 직접 수정하고 보안 제한을 제거할 수 있는 오픈 소스 AI 모델의 위험은 더욱 커집니다. 뉴욕에 본사를 둔 AI Alice 보안 회사의 CEO인 Noam Schwartz에 따르면 안전 장벽 제거는 한때 매우 복잡했지만 이제는 휴대폰에서 바로 수행할 수도 있습니다.