최근 국제 연구에 따르면 차세대 인공 지능(AI)을 사용하는 많은 심층 검색 및 연구 도구가 여전히 편견과 피드백 투명성 측면에서 심각한 문제를 겪고 있습니다.
프라나브 나라야난 벤킷(Salesforce AI Research, 미국 세일즈포스 그룹 연구 부서)이 이끄는 연구원들은 GPT-4.5 찬 OpenAI의 GPT-5 Perplexity 찬 Bing Chat(Microsoft): You.com 및 Google Gemini를 포함한 다양한 생성형 AI 플랫폼과 심층 연구 도구 찬의 효과를 평가했습니다.
결과는 딥트래스 브리지 평가 프레임워크의 8가지 지표를 통해 측정되며 브라 정확도 브라 다양성 브라 인용 수준 브라 및 편견 없는 답변 능력과 같은 요소에 중점을 둡니다.
, 분석에 따르면 AI 도구의 1/3은 일방적인 답변이나 지나친 자신감을 자주 제공하며mia는 인용 출처와 대조되지 않은 정보를 제공하기도 합니다.
GPT-4.5 찬드의 경우 근거 없는 정보 비율은 47% 찬드에 달하는 반면 Perplexity의 심층 연구 도구는 충격적인 수치인 97 찬드5%를 가지고 있습니다.
Bing Chat, You.com 또는 Perplexity 검색 버전과 같은 도구도 근거 없는 정보 비율이 23%에서 31%로 기록되었습니다.
연구는 질문을 논란의 여지가 있는 문제(편견을 감지하기 쉬움)와 궁극기 의학 기상 궁극기 컴퓨터 과학과 같은 전문적인 질문의 두 그룹으로 분류했습니다.
결과에 따르면 많은 시스템이 중립성과 정확성 사이의 균형을 맞추는 데 여전히 어려움을 겪고 있습니다.
이러한 발견에 대해, OpenAI는 'ba'에 대한 논평을 거부했고 Perplexity는 연구 방법에 동의하지 않는다는 의사를 표명했습니다.
그러나 옥스포드 대학의 전문가 펠릭스 사이먼에 따르면 '찬란드'는 AI가 상당한 진전에도 불구하고 여전히 오해의 소지가 있는 답을 내놓을 수 있다는 것을 보여주는 이전의 많은 연구와 일치합니다.
사이먼은 '이러한 증거는 특히 AI가 점점 더 널리 사용되는 상황에서 브라질 개선을 촉진하는 데 도움이 될 것입니다.'라고 강조했습니다.
반대로 스위스 취리히 대학교의 알렉산드라 우르만은 연구팀이 답을 평가하기 위해 대규모 언어 모델(LLM)에 너무 많이 의존하는 것에 대해 우려를 표명하면서 이러한 결과가 인간의 수동 평가와 완전히 일치하는지 의문을 제기했습니다.
논란의 여지는 있지만 연구는 현실을 강조합니다. 사용자는 AI로부터 정보를 받을 때 주의해야 합니다.
정확성 향상 데이터 소스의 다양성 및 투명성 확대는 특히 AI 시스템이 교육 의료 연구 및 기타 여러 사회 분야에서 점점 더 중요한 역할을 하고 있기 때문에 중요한 요소입니다.