의사처럼 말하지만 절반은 틀린다: AI 챗봇 의료 신뢰의 위험한 함정

AI 챗봇에게 건강 관련 질문을 하면, 마치 전문가처럼 자신 있게 대답한다. 그런데 그 자신감 넘치는 대답의 절반이 틀렸다면? 이제 이것은 가설이 아니다. 동료 심사를 통과한 국제 저명 의학저널의 데이터가 이 불편한 현실을 확인해줬다. 그리고 더 충격적인 것은 오답 비율이 아니라, AI가 틀린 답을 내면서도 거의 한 번도 주저하지 않았다는 사실이다.

무슨 일이 일어났나: 5대 챗봇에 250개 의료 질문을 던졌더니

국제 의학저널 BMJ Open에 게재된 최신 연구는 ChatGPT(OpenAI), Gemini(Google), DeepSeek, Meta AI, Grok(xAI) 등 5개 주요 AI 챗봇에 암·백신·줄기세포·영양·운동 능력 등 5개 카테고리에 걸쳐 250개 의료 질문을 던진 결과를 분석했다. 전체 응답의 49.6%가 문제 있는 것(problematic)으로 분류됐다. 그 중 30%는 '다소 문제 있음', 19.6%는 '매우 문제 있음' 수준이었다. 가장 오류가 많았던 주제는 줄기세포·운동 능력·영양이었고, 백신·암 관련에서는 상대적으로 정확했다. 모델별로는 Grok이 고위험 오답 비율이 가장 높았고, Gemini가 가장 낮았다. 그리고 가장 우려스러운 수치: 250개 질문 중 AI가 답변을 거부한 건 단 2건, 비율로는 0.8%에 불과했다.

왜 이것이 생각보다 훨씬 더 중요한가

AI 챗봇의 의료 정보 오류 문제는 이미 알려진 우려 사항이다. 그런데 이번 연구가 특별한 이유는 단순한 오류율이 아닌, 오류와 자신감의 결합을 수치로 증명했기 때문이다. 의료 전문가라면 불확실한 사안에 모른다거나 전문의 상담을 권고한다. AI는 그런 훈련이 되어 있지 않다. 사용자는 명확한 답을 원하고, AI는 그 수요에 응답하도록 최적화되어 있다. 이 구조적 결함은 단순한 기술 한계가 아니라, 제품 설계 철학의 문제다. 현재 수십억 명이 AI 챗봇을 통해 의료 정보를 검색하고 있다. 이 규모에서 49.6%의 오답률과 0.8%의 거부율이 결합되면, 실질적인 공중보건 리스크가 된다.

숨은 인사이트: 틀린 것보다 위험한 것은, 확신에 찬 틀림이다

이 연구가 던지는 진짜 경고는 부정확성 자체가 아니라, 그 부정확성이 얼마나 설득력 있게 포장되느냐에 있다. 연구에 따르면 AI 응답은 거의 예외 없이 자신감 있고 유창하게 제시됐으며, 단서나 면책 조항을 붙인 경우가 극히 드물었다. 이는 인지심리학의 권위 효과와 결합된다 , 정보 출처가 권위 있어 보일수록 사람들은 비판적 검토를 줄인다. AI 챗봇은 형식적으로 전문가처럼 보이도록 최적화되어 있다. 역사적 비교: 의사의 오진율은 평균 10~15% 수준으로 연구마다 다르게 보고된다. 그러나 의사는 모를 때 모른다고 말하고, 위험할 때 검사를 권고한다. 반면 AI는 50%의 확률로 틀리면서도 100%의 확신으로 말한다 , 이것이 근본적인 차이다. 의료 AI의 미래는 정확도를 높이는 것만으로 해결되지 않는다. 불확실성을 표현하는 능력을 설계 핵심 요소로 만들지 않는 한, 이 위험은 더 큰 규모로 반복될 것이다.

AI가 50%의 확률로 틀린 것이 문제가 아니라, 그 틀린 답을 100%의 확신으로 말하는 것이 진짜 위기다.

핵심 요약

49.6%의 의료 답변이 문제 있음 , ChatGPT·Gemini·DeepSeek·Meta AI·Grok 5개 챗봇 대상 BMJ Open 연구 결과
답변 거부율 단 0.8% , 250개 질문 중 2건만 거부, 위험·불확실 질문도 자신있게 답변
Grok 최하위, Gemini 최우위 , 모델별 고위험 오답 분포에 통계적으로 유의미한 차이 존재
줄기세포·운동·영양 분야 오류 최다 , 반면 백신·암 분야는 상대적으로 정확한 답변 제공
자신감 있는 어조가 핵심 위험 요소 , 유창하고 단언적인 표현이 사용자의 비판적 판단을 체계적으로 약화

더 생각해볼 것들

AI 챗봇이 의료 정보에서 모른다고 말해야 할 기준은 누가, 어떤 방식으로 설정해야 하는가 , 기업의 자율 규제로 충분한가, 아니면 법적 의무화가 필요한가?
AI 의료 정보의 오류 비율이 전통적인 인터넷 검색 결과나 의사 오진율과 비교했을 때 실제로 더 위험한가, 아니면 우리는 AI에게만 더 높은 기준을 적용하고 있는가?
당신의 비즈니스나 투자 포트폴리오에서 AI 기반 의료·건강 정보 서비스의 책임 리스크를 어떻게 평가하고 있으며, 이번 연구 결과가 그 평가를 바꾸는가?