구글이 조용히 공개한 한 숫자가 AI 커뮤니티를 술렁이게 하고 있다. Gemini 4가 ARC-AGI2 벤치마크에서 84.6%를 기록했다는 것이다. 2024년 Claude 3.5 Sonnet이 이 벤치마크에서 처음으로 인간 수준(85%)에 근접했을 때, 업계는 그것이 AI 능력의 새로운 임계값을 넘는 순간이라고 평가했다. 5월 19일 구글 I/O에서 Gemini 4가 공식 발표된다면, AI 능력의 지도는 또 한 번 다시 그려질 것이다.
무슨 일이 있었나
구글은 2026년 5월 19~20일 캘리포니아 마운틴뷰 쇼어라인 원형극장에서 Google I/O 2026을 개최한다. 키노트는 태평양 표준시 오전 10시(한국시간 5월 20일 오전 2시)에 시작된다. Sundar Pichai 구글 CEO는 4월 29일 블로그 포스팅에서 "I/O 2026은 지금까지 중 가장 큰 개발자 행사가 될 것"이라고 예고했다. 이번 I/O의 핵심 발표로 예상되는 것들: Gemini 4 공개, Android 17, Aluminium OS(ChromeOS-Android 통합 플랫폼), Project Astra 업데이트.
현재 알려진 Gemini 4 성능 지표는 놀랍다. ARC-AGI2 벤치마크 84.6%는 현재 공개된 어떤 모델보다 높은 수치다. ARC-AGI2는 단순 패턴 암기로는 해결할 수 없는 추론 능력을 측정한다. 인간 평균 성취율은 85%로, Gemini 4는 인간과 거의 동등한 수준의 유연한 추론 능력에 도달한 것으로 해석된다. 구글 클라우드는 2026년 1분기 63% 성장으로 연간 750억 달러 이상의 매출 궤도에 올랐으며, Gemini 4는 이 성장세를 가속할 핵심 무기다.
왜 이것이 생각보다 훨씬 중요한가
ARC-AGI2 점수가 중요한 이유는 그것이 측정하는 것이 기존 LLM 벤치마크와 근본적으로 다르기 때문이다. MMLU, HumanEval, MATH 같은 기존 벤치마크는 훈련 데이터 암기로 높은 점수를 받을 수 있다. ARC-AGI2는 의도적으로 훈련 데이터에 포함될 수 없는 새로운 패턴을 사용해, 진짜 추론 능력만을 측정한다. Gemini 4의 84.6% 달성은 AI 시스템이 단순 암기를 넘어 실제 이해에 가까워졌다는 강력한 신호다.
구글의 시장 전략 관점에서도 이번 I/O는 중요한 분기점이다. Gemini API의 기업 채택률은 여전히 OpenAI와 Anthropic에 뒤처져 있다는 평가가 많다. Gemini 4가 벤치마크 최강자로 등극한다면, 이 균형을 바꿀 수 있는 가장 강력한 상업적 무기가 된다. 구글은 또한 외부 기업들에게 TPU를 직접 판매하기 시작했는데, I/O에서 이 전략이 확대 발표된다면 AI 인프라 공급자로서의 새로운 수익 모델을 공식화하는 것이다.
경쟁 구도의 변화
Gemini 4의 등장이 의미하는 것은 모델 성능 경쟁에서 구글이 다시 선두로 복귀할 수 있다는 것이다. 2024~2025년 구글은 OpenAI와 Anthropic에 비해 모델 출시 속도와 품질에서 뒤처진다는 인식이 강했다. Gemini 1.0의 성능 과장 논란, Gemini 1.5의 늦은 출시 등이 대표적이다. 하지만 2026년 들어 구글은 Gemini 3.1 Ultra로 200만 토큰 컨텍스트 윈도우를 선보이고, 이제 Gemini 4로 ARC-AGI2 최고 점수를 노리고 있다.
Aluminium OS 발표도 주목해야 한다. ChromeOS와 Android의 통합은 수십억 대의 기기에 Gemini를 기본 AI 레이어로 탑재하는 전략이다. Apple이 iOS와 macOS를 통해 AI 통합을 추진하고 있다면, 구글은 ChromeOS+Android 통합을 통해 더 넓은 하드웨어 에코시스템에 Gemini를 심겠다는 것이다. 이 통합이 완성된다면, 구글은 세계에서 가장 큰 AI 기기 플랫폼을 보유하게 된다.
숨은 인사이트: I/O 2026이 정말 결정하는 것
Google I/O는 표면적으로 개발자 컨퍼런스다. 하지만 실제로 I/O는 구글이 개발자 생태계에 "당신의 미래를 우리 플랫폼에 베팅하라"는 신호를 보내는 자리다. 이번 I/O에서 구글이 발표할 내용의 핵심은 단순히 Gemini 4의 성능이 아니다. Gemini를 Android 17, Aluminium OS, Project Astra, Google Cloud, Search, YouTube에 어떻게 통합하는지의 전체 아키텍처다.
Project Astra는 특별히 주목할 필요가 있다. 구글의 범용 AI 어시스턴트 구상인 Project Astra는 시각, 청각, 언어를 통합 처리하며 지연 시간이 거의 없는 멀티모달 에이전트를 목표로 한다. Gemini 4의 추론 능력이 Project Astra와 결합된다면, 단순한 챗봇을 넘어 실제로 사용자를 대신해 복잡한 작업을 수행하는 진정한 에이전트가 수십억 대의 Android 기기에 탑재되는 시나리오가 현실화될 수 있다.
가장 과소평가된 발표는 TPU 세일즈일 수 있다. 구글은 이미 외부 기업들에게 TPU를 직접 판매하기 시작했다. I/O에서 이 전략이 공식화된다면, 구글은 AI 모델 제공자를 넘어 AI 인프라 공급자로서의 입지를 강화한다. NVIDIA에 대한 의존도를 줄이면서 동시에 새로운 수익원을 창출하는 이중 전략이다. 만약 구글이 "Gemini 4 + TPU + Aluminium OS"를 하나의 통합 패키지로 기업 고객에게 제시한다면, 이는 AI 산업 역사상 가장 완결된 수직 통합 전략이 된다.
다음에 주목할 것
5월 19일 이후 30일 내 추적해야 할 지표가 있다. 첫째, Gemini 4 API 출시 일정과 가격이다. Gemini 3.1 Ultra는 초대형 컨텍스트 윈도우에도 불구하고 가격 경쟁력에서 OpenAI보다 낮은 평가를 받았다. Gemini 4가 ARC-AGI2 선두와 함께 공격적인 가격을 제시한다면, 기업 채택률이 급변할 수 있다. 둘째, Aluminium OS의 출시 타임라인이다. ChromeOS-Android 통합 플랫폼이 언제 실제 기기에 배포되는지는 구글의 AI 기기 전략 실현 속도를 가늠하는 핵심 지표다.
더 장기적으로, ARC-AGI2 점수 경쟁이 가열될 가능성이 높다. 구글이 84.6%를 기록한다면, OpenAI와 Anthropic이 90% 이상 달성을 목표로 모델을 업데이트하는 경쟁이 불붙을 것이다. ARC-AGI2 100% 달성은 AI 추론 능력이 모든 상황에서 인간을 초월하는 임계값에 도달했다는 의미로 해석될 수 있다. 그 순간이 어떤 파장을 만들지는 지금부터 생각해두어야 한다.
벤치마크 점수가 아니라, 수십억 대 기기에 탑재될 Gemini의 아키텍처 결정이 향후 5년 AI 산업의 판을 짤 것이다.
핵심 요약
- Gemini 4 ARC-AGI2 84.6% , 인간 평균(85%)에 근접한 수치로, 단순 암기가 아닌 실제 추론 능력 측정 벤치마크에서 현재 최고점 도달
- Google I/O 2026, 5월 19~20일 , Gemini 4, Android 17, Aluminium OS(ChromeOS-Android 통합), Project Astra 업데이트 발표 예정
- Aluminium OS 전략 , ChromeOS와 Android 통합으로 세계 최대 AI 기기 플랫폼 구축, 수십억 기기에 Gemini 기본 탑재 가능
- TPU 외판 시작 , 구글이 외부 기업 대상 TPU 직접 판매 개시, AI 인프라 공급자로서의 새 수익원 창출 전략
- Google Cloud 1분기 63% 성장 , 연간 750억 달러 이상 궤도 진입, Gemini 4 출시로 기업 채택률 급변 가능성
더 생각해볼 것들
- ARC-AGI2 점수가 인간 수준에 도달한다는 것이 AGI 달성을 의미하는가, 아니면 우리가 측정하지 못하는 더 중요한 능력 차이가 여전히 남아 있는가?
- Aluminium OS를 통해 Gemini가 수십억 기기에 탑재된다면, AI 어시스턴트 시장의 경쟁은 모델 성능 경쟁에서 기기 생태계 경쟁으로 완전히 전환되는가?
- 당신이 현재 OpenAI 또는 Anthropic의 API를 사용하는 개발자라면, Gemini 4의 성능과 구글 생태계 통합 전략을 보고 플랫폼 전환을 고려할 임계점이 어디인가?