중국 AI 스타트업 DeepSeek가 고난도 수학적 추론 능력을 갖춘 인공 지능 개발 방향의 새로운 진전인 DeepSeek-Math-V2 모델을 발표했습니다.
11월 27일 현지 시간으로 출시된 이 모델은 복잡한 정리를 만들고 스스로 검증하도록 특별히 설계되었으며 향상된 추론 기술 덕분에 강력한 증명 능력을 보여줍니다.
DeepSeek-Math-V2는 올해 9월에 소개된 테스트 모델인 DeepSeek-V3.2-Exp,에서 계승된 브라 수학 분야의 심층 버전입니다.
모델의 전체 가중치는 Hugging Face 및 GitHub,와 같은 주요 플랫폼에서 Apache 2.0 오픈 소스 라이선스에 따라 공개되어 연구 커뮤니티가 접근하고 확장할 수 있습니다.
DeepSeek,에 따르면 새로운 모델은 '자체 검증 추론' 철학을 중심으로 설계되었으며 여기에는 수학적 증명의 각 단계를 전문적으로 테스트하는 검증기 자체적으로 오류를 수정하는 정리 생성기를 포함한 두 가지 주요 구성 요소가 포함됩니다.
이 접근 방식은 모델이 최종 해답을 생성할 뿐만 아니라 전체 추론 과정의 정확성을 보장하는 데 도움이 됩니다.
함께 제공된 기술 문서에서 DeepSeek는 답을 최적화하기 위한 강화 학습에 기반한 방법이 결국 AIME 또는 HMMT 찬과 같은 대회에서 LLM이 높은 성적을 거두는 데 도움이 되었지만 이제 한계가 드러나기 시작했다고 언급했습니다.
끝에서 올바른 답은 모델이 올바르게 추론되었는지 보장하지 않으며 특히 엄격한 단계적 논증을 요구하는 증명 과제의 경우 더욱 그렇습니다.
따라서, DeepSeek-Math-V2는 자체 검증을 통해 추론 능력을 확장하고 실행 중 논리 검사를 강화하도록 제작되었습니다.
성능 면에서 Bright Math-V2는 2025년 국제 수학 올림피아드(IMO) 및 2024년 CREST 수학 올림피아드(CMO) 문제에 대한 테스트에서 인상적인 결과를 달성했습니다.
이 모델은 2025년 IMO 금메달과 동등한 점수를 획득했으며 세계에서 가장 어려운 수학 시험 중 하나인 Putnam 2024년 대회 수학 문제에서 120점 만점에 118점을 획득한 것으로 기록되었습니다.
DeepSeek는 이러한 결과가 수학적 추론이 자기 검증 가능하며 미래에 더 강력한 AI 수학 시스템을 구축할 수 있는 기회를 열어주는 실행 가능한 개발 방향임을 입증한다고 생각합니다.
주목할 만한 점은 Math-V2의 성능이 OpenAI 및 Google DeepMind 모델과 동등한 수준으로 평가된다는 것입니다. Cua는 AI 수학 분야를 지배하는 두 회사입니다.
2025년은 또한 IMO가 브라에 참여하는 AI 모델을 공식적으로 인정한 첫 해로 수학계의 변화를 의미합니다.
구글이 첫 번째 인정 그룹에 속해 있지만, DeepSeek 및 OpenAI는 아직 이 목록에 포함되지 않았습니다.
전문가들은 심층적인 추론 능력을 갖춘 AI 모델의 발전이 암호학 이론 물리학 또는 우주 탐사와 같은 분야에서 수십 년 동안 지속된 많은 문제를 해결하는 데 도움이 될 수 있다고 말합니다.
DeepSeek-Math-V2는 차세대 수학 AI를 위한 중요한 발판이 될 것으로 기대됩니다.