10,000,000. 이것은 Meta가 Llama 4 Scout에 탑재한 컨텍스트 윈도우 토큰 수다. GPT-4o의 기본 컨텍스트인 128,000 토큰의 78배다. Meta는 2026년 4월 5일 이 모델을 무료 오픈 웨이트로 공개했다. 그리고 AI 업계는 이 숫자가 단순한 스펙 경쟁이 아니라는 것을 천천히 깨닫고 있다.
무슨 일이 일어났나: Llama 4의 두 주인공
Meta는 Llama 4 시리즈에서 두 모델을 즉시 공개했다. Llama 4 Scout는 총 1,090억 파라미터(16 전문가, 170억 활성), 컨텍스트 1,000만 토큰으로 업계 최장 기록을 세웠다. Llama 4 Maverick은 총 4,000억 파라미터(128 전문가, 170억 활성), 컨텍스트 100만 토큰으로 MMLU 91.8%, HumanEval 91.5%, SWE-bench 74.2%를 기록해 GPT-4o와 Gemini 2.0 Flash를 모두 초과했다. API 가격은 혼합 기준 토큰 100만 개당 $0.19~$0.49. 아직 오픈 웨이트가 없는 Behemoth(288억 활성)는 STEM 벤치마크에서 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro를 상회한다고 Meta는 밝혔다.
왜 이것이 생각보다 중요한가
Maverick이 GPT-4o를 넘어섰다는 것은 중요하지만, 그게 핵심이 아니다. 진짜 문제는 Scout의 1,000만 토큰 컨텍스트가 엔터프라이즈 AI 아키텍처의 근본을 흔들고 있다는 것이다. 지난 2년간 AI 스타트업 생태계에서 가장 각광받은 기술 중 하나가 RAG(Retrieval-Augmented Generation)였다. 복잡한 기업 문서, 데이터베이스, 코드베이스를 AI가 처리할 수 있도록 청크로 쪼개고 검색해 오는 방식이다. 그런데 컨텍스트 윈도우가 1,000만 토큰이라면, 수백만 줄의 코드베이스나 수년치 고객 대화 데이터를 그냥 전부 넣으면 된다. 오픈 웨이트이기 때문에 EU, 인도 등 데이터 주권 규제가 강한 지역의 기업들도 자체 인프라에서 운영할 수 있다.
숨은 인사이트: 1,000만 토큰이 죽이는 카테고리들
역사적으로 컨텍스트 윈도우 확장은 점진적이었다. 4K → 8K → 32K → 128K. 하지만 10M은 단순한 확장이 아니라 패러다임 전환이다. 지금 이 순간 수많은 스타트업이 "엔터프라이즈 문서 검색 AI", "코드베이스 이해 AI", "회의록 분석 AI"를 RAG 기반으로 구축하고 있다. Scout의 1,000만 토큰은 이 카테고리 전체를 잠재적으로 상품화한다. 한편 Scout는 오픈 웨이트이므로, Google과 OpenAI의 수백억 달러 모델을 쓰던 기업이 자체 인프라에 Scout를 배포하고 클라우드 API 비용을 극적으로 줄일 수 있다. Meta가 오픈소스를 전략적 무기로 활용하는 방식은 2016년 Facebook이 React를 오픈소스로 공개하던 순간과 닮아있다. 당시 React는 프론트엔드 생태계의 표준이 되었다. Llama가 AI 인프라의 React가 된다면, 그 생태계를 통제하는 쪽이 다음 라운드를 가져간다.
1,000만 토큰 컨텍스트는 단순히 더 긴 대화가 아니다 , 그것은 RAG라는 산업 전체가 필요 없어질 수 있다는 신호다.
핵심 요약
- Scout: 1,000만 토큰 컨텍스트 , 업계 최장 컨텍스트로 수백만 줄 코드베이스나 전체 기업 문서를 RAG 없이 처리; 총 1,090억 파라미터(170억 활성)
- Maverick: GPT-4o 초과 성능 , MMLU 91.8%, HumanEval 91.5%, SWE-bench 74.2%; 총 4,000억 파라미터, 토큰 100만 개당 $0.19~$0.49
- Behemoth 예고 , 288억 활성 파라미터의 미공개 대형 모델이 STEM에서 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro를 상회한다고 Meta 발표
- 완전한 오픈 웨이트 , EU, 인도 등 데이터 주권 규제 환경에서 자체 인프라 배포 가능; 상업적 사용과 파인튜닝 허용
- 2026년 4월 5일 공개 , Meta가 3일 후 클로즈드 소스 Muse Spark를 공개하며 오픈+클로즈드 이중 전략을 드러냈다
더 생각해볼 것들
- 컨텍스트 윈도우가 1,000만 토큰에 도달하면 RAG 기반 AI 스타트업의 차별화 전략은 무엇이 되어야 하는가?
- Meta가 프론티어 모델을 무료 오픈 웨이트로 공개하는 진짜 전략적 이유는 무엇인가 , 그리고 그 전략이 장기적으로 Meta 자신에게 어떤 위험을 가져올 수 있는가?
- Llama 4가 기업의 클라우드 API 의존도를 낮춘다면, AWS·Azure·GCP의 AI 관련 매출 전망은 어떻게 바뀌는가?