하버드 의과대학과 베스 이스라엘 디아코네스 의료 센터의 새로운 연구는 인공 지능(AI)이 일부 경우 의사보다 더 높은 정확도로 응급실에서 진단을 내릴 수 있음을 보여주면서 주목을 받고 있습니다.
이 연구는 실제 응급 상황을 포함한 다양한 의료 환경에서 주요 언어 모델의 효과를 평가하기 위해 의사 및 컴퓨터 과학자 그룹이 수행하여 Science 저널에 발표되었습니다.
연구자들은 두 내과 의사의 진단 능력을 "o1 및 4o"를 포함한 OpenAI의 AI 모델과 비교했습니다.
주목할 만한 실험에서 연구팀은 베스 이스라엘 응급실(미국 병원 시스템)에 온 환자 76명의 데이터를 분석했습니다.
의사와 AI의 진단은 다른 두 의사가 독립적으로 평가하며, 그 결과가 AI나 인간이 내린 것인지 알 수 없습니다.
결과에 따르면 o1 모델은 초기 분류에서 최대 67%의 정확도 또는 근사치를 달성했으며, 이는 참여한 두 의사의 55% 및 50%보다 높은 수치입니다.
주목할 만한 점은 AI가 의사가 가장 적은 정보를 가지고 있지만 신속하게 결정을 내려야 하는 초기 분류 단계에서 뚜렷한 우위를 보여준다는 것입니다.
연구팀은 진단 단계마다 o1 모델이 항상 의사와 이전 세대의 AI 모델과 동등하거나 초과하는 결과를 제공한다고 밝혔습니다.
동시에 연구팀은 AI가 의사와 유사하게 진단 시점에 전자 의료 기록에 있는 정보만 사용하여 "데이터를 미리 처리"하지 않는다고 강조했습니다.
이는 응급실과 같은 고압 환경에서 의사 결정을 지원하는 데 있어 AI의 잠재력을 보여줍니다.
그러나 연구팀은 이 결과가 AI가 생존 결정에서 의사를 대체할 준비가 되었다는 것을 의미하지는 않는다고 단언했습니다. 연구팀은 또한 이 기술의 효과와 안전성을 충분히 평가하기 위해 실제 환경에서 추가적인 사전 구제 실험이 필요하다고 촉구했습니다.
또 다른 제한 사항은 연구가 텍스트 데이터를 기반으로 AI를 평가한다는 것입니다. 반면 임상 현실은 의료 영상, 생체 징후 및 직접 관찰과 같은 다른 많은 요소를 포함하며, 이는 현재 AI가 여전히 제한적인 분야입니다.
전문가들은 또한 결과 과장에 대한 경고를 발표했습니다. 아담 로드먼 박사(연구 참가자이자 베스 이스라엘 디코네스 메디컬 센터의 내과 의사)는 AI가 잘못된 진단을 내릴 때 책임을 결정할 명확한 법적 틀이 아직 없다고 말했습니다.
한편, 응급 의사 크리스틴 판타가니는 AI를 응급 의사 대신 내과 의사와 비교하는 것은 현실을 제대로 반영하지 못할 수 있다고 말했습니다.
왜냐하면 응급 상황 환경에서 의사의 주요 목표는 즉시 최종 진단을 내리는 것이 아니라 생명을 위협하는 위험한 상태를 신속하게 식별하여 적시에 처리하는 것이기 때문입니다.
전반적으로 연구는 의학 분야, 특히 의사의 빠른 의사 결정 지원에 AI를 적용할 수 있는 큰 전망을 열어줍니다. 그러나 실제로 신뢰할 수 있는 도구가 되기 위해서는 AI가 여전히 기술, 법적 및 윤리적 측면에서 많은 과제를 극복해야 합니다.