미국 디지털 마케팅 회사인 Legal Guardian Digital의 새로운 보고서는 Perplexity AI를 일상 업무에 가장 신뢰할 수 있는 AI 챗봇으로 평가하여 주목을 받았습니다.
이 결과는 Perplexity가 ChatGPT의 OpenAI, Google Gemini의 Google, Claude의 Anthropic과 같은 많은 유명 경쟁자를 능가했음을 보여줍니다.
연구에 따르면 AI 챗봇은 허위 정보 생성 비율, 고객 만족도, 피드백 일관성 및 시스템 안정성을 포함한 여러 기준에 따라 평가됩니다.
이 보고서는 미국 노동자의 약 4분의 1이 업무 지원을 위해 AI 도구를 정기적으로 사용하는 것으로 추정되는 직장에서 AI가 점점 더 널리 사용되는 상황에서 발표되었습니다.
결과에 따르면 Perplexity AI는 대규모 챗봇 그룹에서 가장 낮은 수준인 13%의 "환상" 및 사실이 아닌 정보를 제공하는 비율을 보였으며, 이는 이 산업의 평균인 22%보다 상당히 낮은 수치입니다.
이 플랫폼은 또한 100% 연속 작동률을 달성했습니다. 즉, 테스트 기간 동안 서비스 중단 시간이 기록되지 않았습니다.
2위는 억만장자 일론 머스크의 AI 회사가 개발한 그로크입니다. 그로크는 15%의 오해율을 기록했으며 완벽한 작동 시간을 달성했습니다.
반면 딥시크는 "환각" 비율 14%, 작동 시간 99.52%로 3위를 차지했습니다.
순위에서 가장 놀라운 점은 ChatGPT의 위치입니다. 현재 세계에서 가장 인기 있는 AI 챗봇이지만 ChatGPT는 전체 신뢰도에서 6위에 불과합니다.
보고서에 따르면 이 챗봇은 약 30%의 경우 부정확한 피드백을 제공하며, 이는 DeepSeek의 오류 비율의 두 배입니다.
그러나 ChatGPT는 여전히 사용자로부터 만족도 4.7/5점으로 긍정적인 평가를 받고 있습니다.
하위권에서는 구글 제미니가 8위, 메타 AI가 메타로 9위를 차지했습니다.
Anthropic의 Claude는 7위를 차지했으며 경쟁사보다 더 많은 작동 문제를 겪은 것으로 알려져 있습니다.
연구팀은 각 챗봇에 대한 전체 신뢰도 점수를 계산하기 위해 여러 요소를 결합했다고 밝혔습니다.
그중 중요한 요소는 잘못된 정보 반환 빈도, 다양한 질문에 대한 안정적인 응답 능력, 사용자 평가 및 시스템 안정성 수준입니다.
Perplexity AI는 100점 만점에 85점으로 가장 높은 신뢰도를 기록했습니다. Grok은 79점으로 그 뒤를 잇고 DeepSeek은 76점을 기록했습니다. ChatGPT는 50점만 받았고 Google Gemini는 41점을 받았습니다.
보고서는 서비스 가격도 언급했습니다. Perplexity AI는 월 약 40달러, Grok은 월 약 30달러, DeepSeek은 여전히 가장 신뢰할 수 있는 챗봇 그룹에 속해 있지만 현재 무료로 제공됩니다.
Legal Guardian Digital의 CEO인 Austin Hunt는 많은 사람들이 선구적인 이점과 전 세계적인 인기 때문에 ChatGPT를 가장 신뢰할 수 있는 챗봇으로 인식한다고 말했습니다.
그러나 업무의 안정성과 정확성 측면에서 Perplexity나 Grok와 같은 소규모 플랫폼은 더 나은 효율성을 보여주고 있습니다.