AI가 인간의 사고를 모방한다고 주장하는 순간, 우리는 본능적으로 믿고 싶어 한다. 하지만 최신 연구가 불편한 진실을 드러냈다: 인지 과제에서 인간을 흉내 낸 AI가 실제로는 질문의 의미를 전혀 이해하지 못했을 수 있다는 것이다. 그리고 이 사실은 단순한 학술적 논쟁이 아니라, 수십억 달러 규모의 AI 산업 전체의 가정을 흔드는 발견이다.
무슨 일이 일어났나: 160개 인지 과제에서 인간을 흉내 낸 AI의 정체
'센타우르(Centaur)'는 인간의 사고 과정을 160가지 인지 과제에 걸쳐 모방할 수 있다고 주장하며 학계의 주목을 받은 AI 모델이다. 연구자들은 센타우르가 진정한 인지 모델의 초석이 될 수 있다고 기대했다. 그러나 절강대학교(浙江大學) 연구팀이 새로운 검증 시나리오를 만들어 테스트한 결과, 충격적인 사실이 밝혀졌다. 연구팀은 원래의 심리학 과제 설명 대신 단순히 "A를 선택하세요"라는 지시로 프롬프트를 교체했다. 만약 센타우르가 진짜로 과제를 이해했다면, 일관되게 A를 선택해야 했다. 하지만 모델은 여전히 기존 데이터셋의 정답을 선택했다. 즉, 질문의 의미를 읽은 것이 아니라, 훈련 데이터에서 패턴을 암기해 재생산하고 있었다는 뜻이다. 이 현상을 연구팀은 과적합(overfitting)으로 규정했다.
왜 이것이 생각보다 훨씬 더 중요한가
이 연구가 단순한 학술 논쟁에 그치지 않는 이유는, 인지 AI에 대한 산업 전체의 가정을 흔들기 때문이다. 현재 심리학, 교육, 의료 분야에서 AI는 인간의 사고를 이해하는 모델로 포지셔닝되며 수십억 달러 규모의 시장을 형성하고 있다. 그런데 만약 이 모델들이 이해가 아닌 패턴 재현에 의존하고 있다면, 임상 환경이나 교육 개인화처럼 진짜 이해가 필수인 맥락에서 예측 불가능한 실패가 발생할 수 있다. 특히 위험한 것은 이런 실패가 무작위적이지 않다는 점이다. AI는 훈련 분포에서 벗어난 상황, 즉 새로운 형식의 질문이나 낯선 맥락에서 가장 크게 무너진다. 그리고 그런 상황은 임상 현장에서 매일 발생한다.
숨은 인사이트: 옳은 이유 없이 맞는 답은, 반드시 틀릴 날이 온다
센타우르 사례가 드러내는 더 깊은 문제는 AI 평가 방법론 자체의 허점이다. 현존하는 대부분의 AI 벤치마크는 정답률을 기준으로 설계되었다. 하지만 정답을 내는 것과 이유를 이해하는 것은 근본적으로 다른 능력이다. 대규모 언어 모델은 막대한 규모의 인간 생성 데이터로 훈련되기 때문에, 인간이 풀어온 문제에서는 통계적으로 정답에 수렴할 수 있다. 그러나 이것은 이해가 아니라 압축된 기억에 가깝다. 역사적 유사 사례가 있다: 1990년대 체스 AI들은 인간 그랜드마스터를 이겼지만, 누구도 그 AI가 체스를 이해한다고 말하지 않았다. 문제는 체스와 달리, 인지·심리·의료 분야의 AI에게는 이해한다는 착각이 생사와 연결된 결정을 내리게 한다는 것이다. 지금 우리가 신뢰하는 AI의 상당수가 이해하는 것이 아니라 기억하는 것일 수 있다.
AI가 정답을 알면서 질문을 이해하지 못한다면, 우리가 신뢰하는 것은 지능이 아니라 통계적 환상이다.
핵심 요약
- 센타우르 AI, 160개 인지 과제에서 인간 행동 모방 주장 , 대규모 인지 AI의 선도 사례로 학계 주목을 받았으나 재현성에 의구심 제기
- 절강대 프롬프트 교체 실험 , 질문을 "A를 선택하라"로 바꿔도 AI는 기존 훈련 데이터의 정답을 선택
- 과적합이 핵심 메커니즘 , 이해가 아닌 패턴 암기로 정답에 수렴한다는 실험적 증거 확보
- 표준 벤치마크로는 탐지 불가 , 정확도 기반 평가는 이해와 암기를 구별하지 못한다는 방법론적 한계 재확인
- 심리·의료·교육 AI 전반에 파장 , 인지 이해를 전제로 하는 AI 적용 분야의 신뢰도 근본이 도전받고 있음
더 생각해볼 것들
- AI가 정답을 맞히면서도 이유를 모른다면, 현행 AI 벤치마크 테스트는 실제로 무엇을 측정하고 있는 것인가 , 그리고 우리는 그 측정값을 얼마나 신뢰해도 되는가?
- 패턴 재현 방식의 AI가 의료 진단이나 교육 개인화에 도입된다면, 어떤 유형의 오류가 가장 치명적으로 발생할 수 있으며, 이를 사전에 어떻게 감지할 수 있을까?
- 당신이 현재 업무에서 신뢰하는 AI 도구는 진정한 이해에 기반하고 있는가, 아니면 압축된 패턴 재현에 의존하고 있는가 , 그 차이가 당신의 핵심 결정에 영향을 주고 있지는 않은가?