위키미디어 도이칠란드는 AI 모델이 위키피디아의 풍부한 지식 저장소에 더 쉽게 액세스하고 이해할 수 있도록 돕는 새로운 데이터베이스인 Wikidata Embedding, 프로젝트를 발표했습니다.
이 시스템은 컴퓨터가 위키피디아 및 관련 플랫폼에서 거의 1억 2천만 건의 항목에 대해 단어 간의 의미와 관계를 인식하는 데 도움이 되는 기술인 벡터 기반 의미 검색을 적용합니다.
이 프로젝트는 또한 AI 시스템이 데이터 소스와 직접 통신하는 데 도움이 되는 표준인 모델 컨텍스트 프로토콜(MCP 6)을 통합합니다.
덕분에 대규모 언어 모델(LLM)은 위키피디아에서 정확한 정보를 수집하고 사용하는 능력을 향상시키는 기존 자연어로 쿼리를 수행할 수 있습니다.
이 프로젝트는 IBM 소유의 실시간 교육 데이터 회사인 Jina.AI 및 DataStax,와 협력하여 위키미디어 도이칠란트에서 수행합니다.
이전에는 입체 위키데이터가 키워드 검색과 SPARQL 입체 쿼리만 지원하여 AI의 활용 가능성을 제한했습니다.
새로운 시스템은 AI가 외부 정보를 수집하고 Wikipedia 편집자가 검증한 데이터를 기반으로 지식을 구축하는 데 도움이 되는 데이터 생성 모델 액세스 강화(RAG 6)에 잘 작동합니다.
데이터는 또한 맥락 의미를 제공하도록 구성되어 있습니다. 예를 들어 '과학자'라는 단어를 검색하면 유명한 핵 과학자 목록 벨 연구소에서 근무했던 연구원들 '브람스' 다양한 언어로 번역된 '브람스' 이미지 '브람스' 또는 '연구원'과 같은 관련 개념이 반환됩니다.
이 데이터베이스는 툴포지 브리지에서 공개적으로 액세스할 수 있으며 위키데이터는 10월 9일에 개발자를 위한 온라인 컨퍼런스를 개최할 예정입니다.
이 프로젝트는 AI 개발자들이 모델을 개선하기 위해 고품질 데이터 소스를 찾고 있는 상황에서 탄생했습니다.
AI 교육 시스템의 복잡성이 증가함에 따라 신뢰할 수 있는 데이터에 대한 필요성이 더욱 시급해졌습니다. 특히 Wikipedia는 Common Crawl과 같은 대용량 데이터 집합보다 더 정확한 정보를 제공하기 때문입니다.
Wikidata,의 AI 프로젝트 관리자인 Philippe Saade Madrid는 프로젝트의 독립성과 협업성을 강조했습니다. '강력한 AI는 반드시 소규모 회사 그룹에 의해 제어될 필요는 없습니다. 그것은 협업성을 열고 모든 사람에게 서비스를 제공할 수 있습니다.