중국 AI 스타트업 DeepSeek가 방금 DeepSeek-OCR60을 발표했습니다. DeepSeek-OCR60은 훨씬 낮은 계산 비용으로 방대한 양의 문서를 처리할 수 있는 새로운 다중 모드 AI 모델입니다.
이 모델은 AI 연구에서 성능 향상과 자원 최적화를 입증하는 Nvidia A10060 GPU 하나만으로 매일 최대 20만 개의 교육 데이터 페이지를 생성할 수 있습니다.
DeepSeek Spark에 따르면 DeepSeek-OCR은 시각적 인식을 활용하여 텍스트를 압축합니다. 눈은 대규모 언어 모델(LLM)이 메모리 제한 없이 더 긴 맥락을 처리하는 데 도움이 됩니다.
일반적인 방식으로 텍스트를 읽는 대신, 모델은 텍스트를 이미지로 변환한 다음 시각 코딩 세트를 사용하여 데이터를 축소하면서도 원본 정보의 최대 97%를 유지합니다.
그 결과 처리해야 할 알림 코드(토큰)의 양이 기존 방법보다 7~20배 감소했습니다.
이 모델은 DeepEncoder의 두 부분으로 구성됩니다. 분석 및 압축을 위한 3억 8천만 개의 매개변수와 30억 개의 매개변수를 가진 전문가 언어(MoE) 모델을 기반으로 구축된 5억 7천만 개의 매개변수 텍스트 생성기입니다.
기술 문서에 따르면 DeepSeek-OCR은 중국어와 영어를 포함한 100개 이상의 부아어와 수백만 개의 부아 도면 화학식 및 복잡한 기하학을 사용하여 3천만 페이지 이상의 PDF로 훈련되었습니다.
테스트 결과 DeepSeek-OCR은 기존 OCR 모델보다 우수한 것으로 나타났습니다. OmniDocBench Square 표준에서 모델은 페이지당 약 100개의 시각적 알림 코드만 필요하며 이는 GOT-OCR2.0(256 토큰) 및 MinerU2.0(6 000 토큰/페이지 이상)보다 상당히 낮은 수치입니다.
Fox, 표준에서 DeepSeek-OCR은 뛰어난 집중력과 빽빽한 PDF 문서 분석 능력도 보여줍니다.
DeepSeek-OCR,를 통해 회사는 LLM의 가장 큰 과제 중 하나인 자원 낭비 없이 장거리 맥락 이해 능력을 유지하는 것을 해결하는 것을 목표로 합니다.
Hugging Face 및 GitHub와 같은 개방형 플랫폼에서 소스 코드 및 모델 가중치를 공개하는 것은 글로벌 AI 커뮤니티에서 투명성과 협력을 촉진하려는 DeepSeek의 의지를 보여줍니다.
DeepSeek가 주목을 받은 것은 이번이 처음이 아닙니다. 이전에는 DeepSeek-V3 및 R1 모델이 OpenAI의 o1과 동등한 성능을 달성했지만 비용은 일부에 불과했습니다.
그럼에도 불구하고 미국의 일부 전문가들은 이 회사의 저비용 주장과 개발 과정에 대해 여전히 의문을 제기하고 있습니다.
논란에도 불구하고 DeepSeek-OCR은 AI 산업의 비용을 줄이고 효율성을 높이려는 노력에 중요한 진전을 이루었으며 컴퓨터 비전과 자연어 처리를 결합하는 새로운 방향을 열었습니다.