Google은 데이터 개인 정보를 보호하고 교육 과정에서 유출 위험을 방지하기 위해 특별히 설계된 차세대 AI 모델인 VaultGemma,를 발표했습니다.
이는 대규모 언어 모델(LLM)이 민감한 정보를 저장하고 재생하는 능력에 대해 끊임없이 의문이 제기되는 상황에서 거대 기술 기업의 다음 노력입니다.
VaultGemma는 원래 교육 데이터를 기억하지 않고 재현하는 데 도움이 되는 차별화된 개인 정보 보호(PCE) 메커니즘으로 처음부터 개발되었습니다.
구글에 따르면 이것은 DP광을 사용하여 훈련된 가장 큰 개방형 언어 모델로 10억 개의광 매개변수 규모로 설계에 따라 개인 정보 보호 AI를 구축하는 데 중요한 진전을 이루었습니다.
특히 VaultGemma의 가중 레이더는 Hugging Face 및 Kaggle,와 같은 플랫폼에서 무료로 출시되어 AI 연구 개발 커뮤니티가 테스트된 레이더를 활용할 수 있는 기회를 열었습니다.
구글은 딥마인드와 긴밀히 협력하여 브라 훈련에 대한 새로운 확장 규칙을 설정하여 브라 개인 정보 보호 성능 및 계산 비용의 세 가지 요소 간의 균형을 맞추었다고 밝혔습니다.
수년 동안 전문가들은 LLM에서 데이터 유출 위험을 지속적으로 경고해 왔습니다.
올바른 알림을 보내면 공격자가 모델에 민감한 정보를 공개하도록 강요할 수 있습니다.
대표적인 예는 뉴욕 타임스와 OpenAI, 간의 소송으로 편집국은 ChatGPT가 일부 기사를 원문 그대로 재현했다고 비난했습니다.
Google은 일반적인 사용자 수준의 개인 정보 보호 조치만 적용하는 대신 패턴 기억 및 원본 데이터 재현을 방지하기 위해 노이즈 레이어를 추가하여 교육 과정에서 차별화된 개인 정보 보호(DP)를 통합했습니다.
그러나 이 솔루션은 훈련 과정이 덜 안정적이고 블로킹 크기가 증가해야 하며 계산 비용이 더 높기 때문에 어려움을 야기합니다.
이러한 타협에도 불구하고 Google은 DP 환경에서 대규모 배치를 적용할 때 더 작지만 더 효과적인 모델을 훈련할 수 있다는 중요한 발견을 확인했습니다.
VaultGemmamia를 통해 Google은 AI 산업에 대한 새로운 기준을 설정할 것으로 기대합니다. 이 기준은 강력할 뿐만 아니라 안전하고 플랫폼에서부터 사용자 개인 정보 보호를 존중합니다.