AI 모델 경쟁에서 가장 조용한 혁명이 진행 중이다. 기자들은 파라미터 수와 벤치마크 점수에 집중하지만, 기업의 AI 담당자들이 진짜 주목하는 숫자는 따로 있다, 초당 토큰 수와 백만 토큰당 비용. 구글이 그 두 숫자를 동시에 바꿔버렸다.

초당 363토큰, 입력 비용 100만 토큰당 0.25달러: 숫자가 말하는 것

2026년 3월 3일 출시된 Gemini 3.1 Flash-Lite는 전임 모델 Gemini 2.5 Flash 대비 출력 속도를 45% 향상시켰다. Artificial Analysis 벤치마크 기준 초당 363 토큰을 생성하며, 이는 Gemini 2.5 Flash의 249 토큰 대비 압도적인 수치다. 첫 토큰 도달 시간(Time to First Token)은 2.5배 단축됐다. 가격은 더욱 충격적이다. 입력 기준 100만 토큰당 0.25달러, 출력 기준 100만 토큰당 1.50달러, GPT-4o나 Claude Sonnet 4.6 같은 프리미엄 모델 대비 약 10분의 1 수준이다.

이 모델은 콘텐츠 모더레이션, 번역, UI 생성, 시뮬레이션처럼 하루 수백만 번 실행되는 고빈도 작업을 겨냥했다. Vertex AI와 Gemini API를 통해 기업 및 개발자 모두에게 제공되며, 구글 AI 스튜디오에서 즉시 사용 가능하다. 특히 주목할 기능은 내장된 씽킹 레벨(Thinking Levels) 시스템, 모델이 각 태스크에 얼마나 생각할지를 개발자가 조절할 수 있어, 비용과 품질 사이의 균형을 세밀하게 제어할 수 있다.

왜 이것이 단순한 저가 모델 이상인가

AI 업계에는 오랫동안 암묵적 가정이 있었다, 빠르고 싸면 성능이 낮다. Gemini 3.1 Flash-Lite는 이 등식을 해체한다. 속도가 2.5배 빨라졌는데 동시에 벤치마크 점수도 전임 모델을 상회한다. 이는 단순한 가격 경쟁이 아니라 추론 효율성의 근본적 개선을 의미한다.

한국 기업 입장에서 계산해보자. 하루 1000만 토큰을 처리하는 고객 서비스 AI 챗봇을 운영한다고 가정하면, 프리미엄 모델 대비 월간 AI 비용이 수천만 원에서 수백만 원으로 줄어든다. 연간으로는 수억 원의 차이가 날 수 있다. AI 도입의 최대 장벽이 비용이었던 중견기업들에게 이 모델은 게임 체인저가 된다.

구글의 전략은 명확하다. Gemini 3.1 Ultra로 프리미엄 세그먼트를 장악하고, Flash-Lite로 볼륨 세그먼트를 쓸어가는 투트랙이다. 이미 AWS와 Azure에 AI 인프라를 구축한 기업들이 구글 클라우드로 워크로드를 이전할 유인이 생기고 있다.

숨은 인사이트: 모델 비용이 0에 수렴할 때, 진짜 경쟁은 어디서 벌어지나

AI 모델 가격은 18개월마다 절반 이하로 떨어지는 추세를 보이고 있다. GPT-4 출시 당시 100만 토큰당 30달러였던 프리미엄 모델 가격이 Flash-Lite 수준에서는 0.25달러가 됐다, 100배 이상 하락. 이 추세가 지속된다면 2028년경 AI 추론 비용은 사실상 무시할 수준이 된다. 그때 진짜 경쟁은 무엇으로 벌어지는가? 데이터, 컨텍스트, 시스템 통합이다. 모델 자체를 파는 게 아니라 모델 위에 쌓인 사용자 데이터와 워크플로우가 진짜 해자(moat)가 된다. Flash-Lite가 던지는 진짜 질문은 "구글 모델이 얼마나 빠른가"가 아니라 "모델이 공짜에 가까워질 때 누가 살아남는가"이다.

AI 모델이 생수보다 싸지는 날, 진짜 경쟁은 모델 밖에서 시작된다.


핵심 요약

  • 초당 363 토큰 , Gemini 2.5 Flash(249 토큰/초) 대비 45% 향상된 출력 속도
  • 첫 토큰 도달 시간 2.5배 단축 , 실시간 응용 및 대화형 AI에서 체감 가능한 성능 차이
  • 입력 비용 100만 토큰당 0.25달러 , 프리미엄 모델 대비 10분의 1 수준, 고빈도 워크로드 비용 구조를 바꾼다
  • 2026년 3월 3일 출시, Vertex AI·Gemini API·Google AI Studio 전체 제공 , 개발자와 기업 모두 즉시 접근 가능
  • 씽킹 레벨(Thinking Levels) 내장 , 태스크별 추론 깊이 조절 기능으로 비용-품질 트레이드오프 최적화 가능

더 생각해볼 것들

  1. AI 추론 비용이 100분의 1로 줄어드는 동안, 당신 회사의 AI 예산은 어떻게 재배분됐는가? 비용 절감분이 더 많은 AI 실험으로 이어지고 있는가, 아니면 단순히 예산 삭감으로 끝나고 있는가?
  2. 모델 가격이 0에 수렴할 때, AI 스타트업들의 비즈니스 모델은 어떻게 달라져야 하는가? 모델 API 재판매로 먹고살던 기업들의 미래는?
  3. Flash-Lite처럼 빠르고 저렴한 모델이 보급화되면, 지금 AI를 도입하지 못한 어떤 산업 또는 서비스가 처음으로 AI 기반으로 전환될까?