최근 몇 년 동안 구글은 검색 엔진 운영 방식을 변경하여 인공 지능이 생성한 답변을 페이지 상단에 우선적으로 표시하도록 했습니다.
AI Overviews 기능은 구글이 사용자를 정보원으로 안내하는 것에서 직접 콘텐츠를 만들고 제공하는 것으로 전환하고 있음을 보여줍니다.
이러한 변화는 사용자가 정보에 더 빨리 접근할 수 있도록 돕지만 AI가 생성하는 답변의 정확성, 투명성 및 신뢰성에 대한 많은 논쟁을 불러일으킵니다.
인공 지능 분야 스타트업인 Oumi(미국)의 최근 분석에 따르면 AI Overviews의 답변은 Gemini 2 기술을 사용할 때 약 85% 정확하고 Gemini 3 업그레이드 버전에서는 91%로 증가했습니다.
그럼에도 불구하고 매년 5조 건 이상의 검색으로 인해 이 작은 오류율은 여전히 매시간 수천만 건의 오답에 해당할 수 있습니다.
주목할 만한 점은 정답의 절반 이상이 "명확한 근거가 없다"는 평가를 받았다는 것입니다. 즉, 출처 링크가 제공된 정보를 완전히 지원하지 않는다는 것입니다. 이로 인해 사용자는 확인하는 데 어려움을 겪습니다.
Oumi의 분석은 AI 시스템의 정확성을 평가하는 일반적인 도구인 SimpleQA 표준 테스트를 기반으로 합니다.
그러나 구글은 평가 방법에 "심각한 취약점"이 있다고 주장하며 이 결과를 반박했는데, 이는 테스트 질문 세트 자체가 잘못된 정보를 포함할 수 있기 때문입니다.
정확성 문제 외에도 데이터 소스도 논란의 여지가 있는 요소입니다.
인용된 5,000개 이상의 출처 중 페이스북 및 레딧과 같은 플랫폼이 높은 빈도로 나타났습니다.
주목할 만한 점은 AI가 잘못된 답변을 내놓으면 페이스북에서 인용하는 비율이 정답보다 높아 참고 자료의 품질에 대한 의문이 제기된다는 것입니다.
또 다른 문제는 AI 평가 방식 자체에 있습니다. Oumi와 같은 회사는 종종 답변을 검증하기 위해 다른 AI 시스템을 사용합니다.
그러나 이 방법은 "AI 검사 AI"도 오류가 발생하여 평가 결과가 완전히 절대적이지 않을 수 있는 위험을 내포하고 있습니다.
여전히 많은 논란이 있지만 AI Overviews가 점점 개선되고 검색 경험에서 중요한 부분이 되고 있다는 것은 부인할 수 없습니다.
그러나 전문가들은 사용자가 이러한 답변에 완전히 의존해서는 안 되며 다양한 출처에서 정보를 확인하는 습관을 유지해야 한다고 경고합니다.