9월 29일(미국 시간): DeepSeek 연구팀은 긴 맥락 작업에서 추론 비용을 크게 절감하도록 설계된 V3.2-exp,라는 새로운 테스트 모델을 발표했습니다. 이 모델은 GitHub에 공개적으로 공유된 학술 논문과 함께 Hugging Face, 플랫폼에 소개되었습니다.
V3.2-exp의 하이라이트는 DeepSeek Sparse Attention, 메커니즘에 있습니다. 전체 데이터를 처리하는 대신 이 시스템은 컨텍스트 창에서 중요한 텍스트 조각을 우선적으로 추출하기 위해 '클릭 컴파일러'라고 하는 모듈을 사용합니다.
그런 다음 '자세한 알림 코드 선택 시스템'이라는 또 다른 모듈에서 제한된 주의 창에 넣을 중요한 토큰을 선택합니다. 이 접근 방식은 서버 부하를 줄이면서도 긴 컨텍스트리 클립을 처리하는 기능을 유지하는 데 도움이 됩니다.
초기 테스트에 따르면, DeepSeek는 API 호출 비용이 대규모 상황 요구 사항에서 최대 50%까지 절감될 수 있다고 밝혔습니다.
이를 확인하려면 더 많은 독립적인 평가가 필요하지만 Hugging Face에 모델을 공개하면 곧 제3자가 테스트하고 검증할 수 있는 길이 열릴 것입니다.
V3.2-exp 출시는 AI 모델 운영에서 가장 큰 과제 중 하나인 추론 비용 문제를 해결하기 위한 일련의 노력을 이어갑니다.
초기 교육 비용과 달리 추론 비용은 사용자 서비스를 위한 서버 인프라와 직접적으로 관련이 있으며 AI를 구현하는 기업에게는 항상 큰 부담입니다.
중국에 본사를 둔 회사인 DeepSeek,는 R1 모델로 연초에 주목을 받았으며 주로 저비용 강화 학습을 통해 교육을 받았습니다. 그러나, R1은 기대만큼 혁명을 일으키지 못했고 DeepSeek에 대한 관심은 지난 몇 달 동안 점차 감소했습니다.
그럼에도 불구하고 찬 딥스릭은 이 새로운 메커니즘을 통해 변압 아키텍처를 최적화하는 새로운 접근 방식을 보여주고 있습니다. 이 솔루션은 R1 찬처럼 시끄럽지는 않을 수 있지만 특히 추론 비용 절감의 필요성이 점점 더 시급해지는 상황에서 미국 AI 서비스 제공업체인 찬에게 실제적인 교훈을 제공하는 것으로 평가됩니다.