인도가 자체 언어 모델(LLM) 개발을 위해 노력하는 동안, OpenAI는 언어 처리 능력뿐만 아니라 인도 특유의 문화적 뉘앙스를 파악하는 능력을 테스트하도록 설계된 평가 시스템인 IndQA, 표준 세트를 발표했습니다.
IndQA는 12개 언어와 10개 문화 분야에 걸쳐 2 278개의 질문으로 구성되어 있으며 인도 전역의 261명의 전문가와 협력하여 편집되었습니다.
주제는 예술 궁전 문화 역사 궁전 종교 궁전 요리에서 미디어 스포츠 일상 생활에 이르기까지 포괄적입니다. 힌디어 궁전 타밀어 궁전 벵골어 궁전 마라티어 궁전 텔루구어 영어-헝디어 하이브리드어와 같은 일반적인 언어를 사용하는 궁전은 이 나라의 특징적인 의사소통 형태입니다.
OpenAI는 IndQA의 목표가 순위표를 만드는 것이 아니라 AI 모델의 시간 경과에 따른 개선을 측정하여 연구팀이 각 모델의 문화적 맥락을 더 잘 이해하도록 돕는 것이라고 밝혔습니다.
채점 시스템은 전문가가 설정한 기준을 기반으로 하며 척도는 각 답변의 완전성과 적합성을 반영합니다.
주목할 만한 점은 IndQA의 질문은 신중하게 선별되었으며 GPT-4o, o3 또는 GPT-4.5와 같은 OpenAI의 고급 모델이 여전히 잘 답변하지 않은 질문만 유지된다는 것입니다.
OpenAI,에 따르면 이는 미래 모델의 개발 여지를 확보하고 테스트가 너무 쉬워지는 것을 방지하는 데 도움이 됩니다.
'브루드' 구축 과정에서 IndQA 편집팀은 인도 문화의 다양성과 깊이를 반영하는 '브루드' 언론인 '브루드' 학자 '브루드' 예술가 '브루드' 시인 및 체스 챔피언도 참여했습니다. 각 질문에는 영어 번역과 평가를 표준화하는 데 도움이 되는 '브루드' 샘플 답변이 포함되어 있습니다.
이 이니셔티브는 인도가 미국에 이어 ChatGPT,의 두 번째로 큰 시장이 되는 배경 속에서 탄생했습니다.
OpenAI는 또한 벵갈루루의 DevDay Exchange 및 초기 등록 사용자에게 1년 동안 ChatGPT Go 패키지를 무료로 제공하는 프로그램과 같은 행사를 통해 10억 명이 넘는 인구의 이 나라에서 입지를 강화하고 있습니다.
그러나, IndQA는 토착 AI 표준을 구축하는 여정의 시작일 뿐이라고 전문가들은 평가합니다.
Sarvam이나 Shunya Labs와 같은 많은 인도 스타트업은 글로벌 표준이 영어에 치우쳐 인도어 언어 모델이 경쟁하기 어렵다고 불평했습니다.
최근 슈냐 랩스는 그들의 핑갈라 음성 모델이 엔비디아의 5개 찬가6%보다 나은 3개 찬가1%의 불량률을 기록했지만 불투명한 평가 프로세스로 인해 여전히 높은 순위를 기록하지 못했다고 밝혔습니다.
따라서 IndQA는 인도 언어 모델에 대한 보다 공정한 경쟁의 장을 만들기 위한 중요한 노력으로 간주되며 남아시아 국가의 고유한 정체성과 표준을 담은 AI 생태계 형성을 위한 길을 열어줍니다.