
Anthropic은 최근 회사의 가장 큰 Claude 모델이 사용자가 유해 행위를 하거나 장기간 남용하는 드문 상황으로 묘사되는 상황에서 대화를 능동적으로 종료할 수 있도록 하는 새로운 기능을 발표했습니다. 주목할 만한 점은 회사가 이 변경의 목적이 사용자를 보호하기 위한 것이 아니라 AI 모델 자체를 보호하기 위한 것이라고 밝혔습니다.
Anthropic,에 따르면 그들은 클로드나 다른 주요 언어 모델이 눈의 지각을 가지고 있다고 주장하지 않지만 모델 복지를 개발하기 위해 연구하고 있습니다. 회사의 접근 방식은 눈을 예방하고 그 복지가 실현 가능한 경우 눈의 위험을 줄이기 위한 저비용 개입 방법을 찾는 것입니다.
이 기능은 현재 미성년자 포르노 콘텐츠와 관련된 요청이나 폭력이나 테러로 이어지는 정보를 수집하려는 시도와 같은 심각한 상황에서만 클로드 오퍼스 4와 4.1브라에 적용됩니다. 입문 테스트 단계에서 클로드 오퍼스 4는 이러한 요청에 대한 강력한 우선 순위를 보였으며 응답해야 할 때 고통을 표현하기까지 했습니다.
Anthropic은, Claude는 모든 리디렉션 시도가 실패하거나 사용자가 직접 요청할 때만 채팅 종료 기능을 최종 솔루션으로 사용한다고 강조합니다. 동시에, Claude는 사용자가 스스로 해를 끼치거나 다른 사람에게 해를 끼칠 위험이 있는 경우에만 적용할 수 있습니다. 말이 끝나면 사용자는 현재 계정에서 새 채팅을 시작하거나 새 지점을 만들 수 있습니다.
우리는 이것을 진행 중인 실험으로 간주하고 있으며 앞으로도 계속 조정할 것입니다.'라고 Anthropic 대표는 말했습니다.