세계 최고 수학자들도 이름을 들어본 적 없는 미발표 연구 문제 10개. 인터넷 어디에도 공개된 적 없다. 힌트도 없고, 대화 상대도 없다. 단 8일. Google DeepMind의 알레테이아(Aletheia)는 그 중 6개를 혼자 풀었고, 전문가 심사위원들은 그 해법 6개 모두를 "소폭 수정 후 학술지 게재 가능"이라고 평가했다. 이것은 수학 올림피아드 문제를 푸는 AI 이야기가 아니다. 현직 수학자가 진행 중인 연구를 AI가 대신 수행한 것이다.
FirstProof 챌린지: 진짜 연구 문제만 10개
FirstProof 챌린지는 AI의 수학 능력을 올림피아드 문제가 아닌 실제 연구 수준에서 검증하기 위해 설계됐다. 출제된 10개의 미발표 보조정리(lemma)는 현재 진행 중인 수학 연구에서 발췌된 것으로, 온라인에 공개된 적이 없어 AI가 학습 데이터에서 접한 가능성이 사실상 없다. 문제는 2026년 2월 5일 공개됐고, 마감은 2월 13일 오후 11시 59분. 알레테이아는 인간의 힌트나 대화 없이 원시 문제 프롬프트만 받아 완전 자율로 증명을 생성했다. 결과: 6/10 해결. IMO-ProofBench에서는 91.9%를 기록했다.
알레테이아는 어떻게 작동하는가
알레테이아는 Gemini 3 Deep Think 아키텍처를 기반으로 하며, 세 개의 에이전트가 협력하는 멀티에이전트 프레임워크를 사용한다. 논리적 단계를 제안하는 Generator, 각 단계의 결함을 평가하는 Verifier, 오류를 수정하고 반복 개선하는 Reviser. 핵심은 테스트 타임 컴퓨트의 확장 , 추론 시간을 늘릴수록 더 어려운 문제를 해결할 수 있는 능력이다. 그리고 풀지 못한 4개 문제에 대해서는 "해법 없음(No solution found)" 또는 타임아웃을 출력했다. 틀린 증명을 그럴듯하게 생성하지 않았다.
숨은 인사이트: 알레테이아가 진짜 증명한 것은 성능이 아니라 신뢰성이다
언론 보도는 "AI가 연구 문제를 풀었다"는 성과에 집중했다. 그러나 DeepMind 연구팀이 설계 단계에서 가장 강조한 것은 성능이 아니라 신뢰성이었다. 팀은 "신뢰성이 연구 수학에서 AI 지원을 확장하는 가장 큰 병목"이라고 명시했다. 알레테이아가 풀지 못한 문제에서 그럴듯한 오답 대신 "모르겠다"고 말한 것 , 이 자기 필터링이 진짜 돌파구다. 지금까지 AI의 수학 능력 논쟁은 항상 환각(hallucination) 문제로 귀결됐다. 증명처럼 보이지만 내부에 오류가 숨어있는 해법은 검증 비용을 오히려 늘린다. 알레테이아는 그 구조적 문제를 정면으로 해결했다. 수학 연구 논문의 공동 저자로 AI가 등재되는 날이 생각보다 빨리 올 것이다.
AI가 문제를 푸는 것보다 중요한 것은 AI가 언제 모른다고 말하는지를 아는 것이다 , 알레테이아는 바로 그것을 증명했다.
핵심 요약
- 6/10 문제 해결 , 미발표 연구급 수학 난제, 인간 힌트 없이 완전 자율 증명, 2026년 2월
- 해법 6개 모두 게재 가능 판정 , 전문가 심사위원이 소폭 수정 후 학술지 게재 수준으로 평가
- IMO-ProofBench 91.9% , 국제 수학 올림피아드 수준 증명 벤치마크에서 인간 금메달리스트 수준
- 자기 필터링 설계 , 풀지 못한 4문제에서 환각 증명 생성 대신 "해법 없음" 정직하게 출력
- Gemini 3 Deep Think 기반 , Generator·Verifier·Reviser 멀티에이전트 구조로 테스트 타임 컴퓨트 확장
더 생각해볼 것들
- 수학 연구 논문의 공동 저자로 AI가 공식 등재된다면, 학문적 기여의 저작권과 그에 따른 보상 체계는 어떻게 바뀌어야 할까?
- 알레테이아 같은 AI가 보편화된다면, 수학 대학원 교육의 목표는 증명 능력 대신 무엇이 되어야 하는가?
- AI가 연구를 수행하는 속도와 인간이 그 결과를 검증하는 속도 사이의 격차가 벌어진다면, 과학 지식의 신뢰성은 어떻게 담보될 것인가?