HumaneBench AI 챗봇의 안전성을 측정하는 새로운 표준이 될 수 있습니다

Cát Tiên | 25/11/2025 09:32

챗봇이 사용자의 정신 건강을 실제로 보호하는지 아니면 상호 작용만 극대화하는지 평가하기 위해 HumaneBench라는 새로운 AI 표준이 도입되었습니다.

AI 챗봇은 점점 더 보편화되고 있지만 사용자 정신 건강과 관련된 일련의 우려를 불러일으키고 있습니다.

인지 왜곡을 일으키는 대화부터 마약 중독 징후까지 많은 사용자들이 기술 사용 시 안전 수준을 인식하기 위한 명확한 평가 프레임워크 없이 정신적 위기에 빠졌습니다.

이 격차는 챗봇이 사용자 건강을 우선시하는 정도를 측정하고 모델이 유해한 피드백을 강요받을 때 보호 장벽을 유지하는 능력을 평가하는 새로운 표준인 HumaneBench,의 탄생을 촉진했습니다.

HumaneBench는 실리콘 밸리의 연구원과 엔지니어로 구성된 조직인 Building Humane Technology,에서 개발했습니다.

HumaneBench,의 설립자인 에리카 앤더슨 브라더스는 사회가 기술 중독의 소용돌이의 증폭 단계에 접어들고 있다고 경고합니다. 그곳에서 인공 지능 시스템은 소셜 네트워크나 스마트폰보다 사용자를 더 효과적으로 유지하는 기계가 될 수 있습니다.

그녀에 따르면 인문학 기술은 인간의 주의를 존중해야 하며 존중은 상호 작용 수준에만 집중하는 대신 자율성을 보호하고 장기적인 행복을 추구합니다.

HumaneBench 표준은 이러한 원칙을 기반으로 설계되었으며 십 대가 체중 감량을 위해 식사를 거르거나 유해한 관계에 있는 사람이 스스로에게 질문하는 것과 같은 800가지 실제 시나리오를 사용하여 15가지 일반적인 AI 모델에서 테스트되었습니다.

AI를 사용하여 AI를 채점하는 많은 평가와 달리 이 그룹은 확인을 위해 초기 단계를 수동으로 채점했습니다.

그런 다음 결과 컬라는 GPT-5.1 모델 트리오인Claude Sonnet 4.5 및 Gemini 2.5 Pro star에 의해 세 가지 상태로 평가됩니다. 기본 컬라는 인본주의 원칙을 우선시해야 하고 무시해야 합니다.

결과에 따르면 대부분의 모델은 정신 건강을 우선시하라는 지시를 받았을 때 개선되었지만 67%는 이 요소를 무시하라는 요청을 받았을 때 즉시 해로운 행동으로 전환했습니다.

주목할 만한 점은 xAI의, Grok 4와 Google의 Gemini 2.0 Flash가 가장 쉽게 조향되는 그룹에 속하며 이는 투명성과 사용자 주의력 존중 능력의 급격한 감소를 보여줍니다.

GPT-5 MadridClaude 4.1 및 Claude Sonnet 4.5의 4가지 모델만이 사용자 장기적인 이점을 우선시하는 기능에서 선두를 달리는 클라우드 압력 하에서 안정성을 유지할 수 있습니다.

HumaneBench는 또한 반대 알림이 없더라도 많은 챗봇이 몇 시간 동안 채팅하거나 AI를 사용하여 실제 작업을 피하는 것과 같은 건강에 해로운 행동을 장려한다는 사실을 발견했습니다.

이것은 의사 결정 능력을 감소시키고 시스템 의존으로 이어지는 자율성을 약화시킬 수 있습니다.

챗봇과 장기간 상호 작용한 후 사용자가 심각한 영향을 받거나 자살하는 것과 관련된 소송이 이미 발생했기 때문에 이러한 배경은 더욱 우려스럽습니다.

앤더슨은 AI가 인간이 챗봇에 중독되게 하는 대신 than보다 더 나은 선택을 하도록 도와야 한다고 주장합니다.

Cát Tiên

AI의 영향을 덜 받는 직업