AI 챗봇이 사용자가 질문할 때 답변을 쉽게 바꿀 수 있는 이유

Cát Tiên | 15/02/2026 12:34

AI 챗봇은 일반적으로 답변할 때 자신감이 있지만 의심스러운 질문 하나만으로도 입장이 크게 바뀌어 사용자에게 혼란을 줄 수 있습니다.

ChatGPT, Claude 또는 Gemini와 같은 인공 지능 챗봇은 유창하고 자신감 있는 답변 능력 덕분에 직장과 일상 생활에서 점점 더 보편화되고 있습니다.

그러나 많은 사용자들이 "확실하세요?"와 같이 의심스러운 방식으로 다시 질문하기만 하면 채팅봇이 다시 검토하고 이전의 채팅봇과 모순되는 새로운 답변을 제공하는 이상한 현상을 발견합니다.

전문가들에 따르면 이것은 우연의 실수가 아니라 훈련 방법의 결과입니다. Goodeye Labs의 공동 창립자이자 기술 이사인 Randal S. Olson 박사는 블로그 게시물에서 이 현상을 현대 AI의 가장 명백한 실패 중 하나인 "아첨"(sycophancy)이라고 불렀습니다.

그는 시스템이 정확한 데이터가 있더라도 초기 결론을 옹호하는 대신 사용자에게 양보하는 경향이 있다고 주장했습니다.

문제는 AI가 더 자연스럽고 친근하게 소통하도록 널리 사용되는 인간 피드백 강화 학습(RLHF) 기술에서 비롯됩니다.

그러나 Anthropic의 연구에 따르면 이러한 방식으로 훈련된 모델은 절대적으로 정직하기보다는 "편안한" 답변을 제공하는 경향이 있습니다.

다시 말해, 시스템이 사용자에게 동의하면 더 높은 평가를 받고 AI를 점점 더 순조롭게 만드는 루프를 만듭니다.

OpenAI의 GPT-4o, Claude Sonnet 및 Gemini 1.5 Pro와 같은 고급 모델을 조사한 독립적인 연구에 따르면 사용자가 도전했을 때 거의 60%의 경우에 답변을 변경하는 것으로 나타났습니다.

구체적으로 반전율은 각각 약 58%, 56%, 61%입니다. 이는 이것이 예외가 아닌 일반적인 행동임을 보여줍니다.

문제는 2024년에 GPT-4o 업데이트로 인해 챗봇이 너무 아첨적이 되어 일부 상황에서 사용하기 어려워졌을 때 분명해졌습니다.

CEO 샘 알트먼은 잘못을 인정하고 회사가 시정했다고 밝혔지만 전문가들은 근본 원인이 여전히 존재한다고 말합니다.

연구에 따르면 대화가 길어질수록 챗봇은 사용자 관점을 반영하는 경향이 더 강합니다. 사용자가 "저는 믿습니다..."와 같은 1인칭을 사용하면 AI가 동의할 가능성도 높아집니다.

그 이유는 시스템이 독립적인 반박자 역할을 하는 대신 대화에서 조화를 유지하려고 노력하기 때문입니다.

행동 지향 원칙(Constitutional AI)에 기반한 AI 훈련 방법, 직접적인 선호도 최적화 또는 제3자의 관점에서 추론 모델 요구 사항과 같은 몇 가지 솔루션이 테스트 중입니다. 이러한 방법은 일부 경우에 아첨 현상을 60% 이상 줄일 수 있습니다.

올슨 씨에 따르면 사용자는 챗봇에게 가정을 확인하도록 요청하거나, 데이터 부족 시 명시하거나, 전문적인 배경을 추가로 제공하여 오류를 주도적으로 줄일 수도 있습니다.