인공 지능 선구자 앤드류 응(커시라 공동 창립자, 스탠포드 대학교 컴퓨터 과학 영재 교수)은 최근 기술 산업에서 확산되고 있는 과장된 주장과 일반 인공 지능(AGI) 개념의 남용을 제거하는 것을 목표로 하는 "Turing-AGI"라는 새로운 평가 기준을 제안했습니다.
Coursera의 공동 창립자는 현재 AGI가 여전히 모호하고 정확하게 정의되지 않은 용어이며 많은 기업에서 마케팅 도구로 사용하고 있다고 말합니다.
앤드류 응에 따르면, 이는 대중, 투자자, 심지어 정책 입안자들까지 현대 AI 시스템의 실제 능력에 대해 오해하게 만듭니다.
앤드류 응 씨는 Turing-AGI 테스트가 전통적인 Turing 테스트처럼 대화 능력에만 의존하지 않는다고 제안했습니다. 대신 AI 시스템과 숙련된 사람이 웹 브라우저, 이메일 또는 Zoom과 같은 일반적인 소프트웨어와 인터넷에 연결된 컴퓨터를 사용하여 며칠 동안 실질적인 일련의 작업을 수행합니다.
예를 들어, AI는 콜센터 직원 역할을 맡고, 실제 노동자처럼 통화, 이메일 및 발생하는 상황을 처리해야 할 수도 있습니다.
앤드류 응은 "시스템이 숙련된 사람만큼 일을 잘 수행할 수 있다면 Turing-AGI 테스트를 통과합니다."라고 강조했습니다.
그에 따르면 AI가 실제로 인간 수준의 지능 수준에 도달하면 일반적인 노동 임무를 완수하는 것이 필연적이 될 것이며, 텍스트 대화에만 국한되지 않을 것입니다.
앤드류 응은 또한 컴퓨터가 대화에서 채점자를 속여야 하는 원본 튜링 테스트의 한계를 지적했습니다. 앤드류 응은 대화에서 "사람 역할을 맡는" 능력은 인간 수준의 지능을 증명하기에 충분하지 않으며 AGI를 대표할 수도 없다고 말했습니다.
이 제안은 AGI에 대한 연구자와 기술 리더 간의 논쟁이 점점 더 치열해지는 상황에서 나왔습니다.
작년 말, Yann LeCun과 Google DeepMind CEO Demis Hassabis는 인간의 지능이 일반적인지 전문적인지에 대한 의견 불일치를 공개적으로 밝혔습니다. 이 논쟁은 Hassabis의 견해를 공개적으로 지지하는 Elon Musk의 관심을 끌기도 했습니다.

앤드류 응은 AGI에 대한 명확한 기준이 부족하면 학문적 혼란을 야기할 뿐만 아니라 사회적 결과를 초래할 수 있다고 말했습니다. 그는 또한 학생들이 AGI가 곧 나타날 것이라고 믿기 때문에 중요한 연구 분야를 피할 수 있으며, CEO는 단기적으로 AI 능력을 과대평가하여 잘못된 투자 결정을 내릴 수 있다고 경고했습니다.
또한 그는 GPQA, AIME 또는 SWE-벤치와 같은 고정 AI 평가 세트도 비판했습니다. Ng에 따르면 모델은 공개된 테스트를 통과하기 위해 "역훈련"될 수 있지만, 이러한 데이터 세트는 지능의 아주 작은 부분만 측정합니다.
반대로 Turing-AGI 테스트는 심사위원이 AI의 실제 "총괄적" 수준을 테스트하기 위해 사전 통보 없이 완전히 새로운 시나리오를 설계할 수 있도록 허용합니다.
앤드류 응에 따르면, 이러한 접근 방식은 사회가 기대를 조정하고, AI 거품 위험을 줄이고, 장기 투자를 위한 보다 지속 가능한 기반을 만드는 데 도움이 될 것입니다.
Andrew Ng 씨는 "기업이 Turing-AGI 테스트를 통과하면 단순한 보도 자료가 아니라 실제 가치를 창출할 것입니다."라고 단언했습니다.