인공 지능(AI)이 만들어내는 "환상 감각"에 대한 우려는 가짜 인용구가 세계에서 가장 권위 있는 과학 회의에서도 나타나기 시작하면서 학계에 점점 더 생겨나고 있습니다.
미국 AI 발견 스타트업 GPTZero의 새로운 보고서에 따르면 신경 정보 처리 시스템 컨퍼런스(약칭 NeurIPS)에서 승인된 51개 이상의 연구 논문에 AI가 생성한 가짜 인용문이 포함되어 있는 것으로 밝혀졌습니다. 총 100개 이상의 "불존재" 인용문이 이 논문들 사이에서 발견되었습니다.
NeurIPS는 인공 지능 및 머신 러닝(AI/ML) 분야에서 가장 크고 영향력 있는 연례 회의 중 하나입니다.
GPTZero는 작년 12월 미국 캘리포니아주 샌디에이고에서 열린 NeurIPS 2025에서 가짜 인용사와 유발적 AI 콘텐츠를 모두 발견하기 위해 4,841건의 승인된 연구 논문을 스캔했다고 밝혔습니다.
4,841편의 기사 중 51편의 비율이 큰 통계적 의미는 없지만, NeurIPS의 대규모 언어 모델(LLM) 사용 정책에 따르면 가짜 인용문 하나만 나타나도 기사를 거부하거나 회수하는 근거가 될 수 있습니다.
GPTZero는 "이 기사들은 승인되었고, 직접 발표되었으며, 공식적으로 출판되었습니다. NeurIPS 2025의 승인률이 24.52%에 불과한 상황에서 각 기사는 여전히 하나 이상의 잘못된 환상을 포함하고 있음에도 불구하고 15,000개 이상의 다른 원고를 초과했습니다."라고 명시했습니다.
이 발견은 NeurIPS가 인공 지능 분야의 세계 최고의 전문가들이 모이는 곳이기 때문에 특히 우려스럽습니다. 엄격하게 평가된 프로젝트가 여전히 가짜 인용을 받는다는 사실은 AI 연구원조차도 자신이 사용하는 도구의 정확성을 제어하는 데 어려움을 겪고 있음을 보여줍니다.
NeurIPS는 예외적인 경우가 아닙니다. 작년 12월 GPTZero는 ICLR 2026 회의를 위해 검토 중인 연구에서 50개 이상의 가상 인용을 발견했습니다.
게다가 arXiv와 같은 온라인 원고 저장소에는 AI로 생성되거나 강력한 지원을 받는 저품질 프로젝트가 점점 더 많이 등장하고 있습니다.
미국 The Atlantic 저널에서 인용한 분석에 따르면 대규모 언어 모델을 기반으로 한 도구를 사용하는 과학자들은 이러한 도구를 사용하지 않는 사람들보다 약 33% 더 많은 기사를 게시합니다.
가짜 인용구를 감지하기 위해 GPTZero는 온라인에서 찾을 수 없는 인용구 출처를 전문적으로 검토하는 "발상 검사"라는 자체 AI 도구를 사용합니다.
깃발이 붙은 인용문은 인간의 수동적인 검사를 거쳐 회사에서 "감동적인 인용문"이라고 불리며, 이는 합리적으로 보이지만 전혀 존재하지 않는 인용문입니다.
GPTZero는 이 도구를 저자, 편집자 및 회의 의장에게 제공하여 인용 오류를 조기에 감지하고, 이를 통해 AI 생성 시대에 학술적 평가 과정을 더 빠르고 정확하게 수행할 수 있도록 했다고 밝혔습니다.