2026년 4월 24일, 딥시크는 조용히 V4 Pro와 V4 Flash를 MIT 라이선스로 공개했다. 발표문은 자극적이지 않았고, 마케팅도 없었다. 하지만 벤치마크 수치가 공개되자 AI 업계의 분위기가 달라졌다. GPT-5.5가 기업 고객을 위한 가장 강력한 모델을 자처한 지 불과 몇 주 만이었다.

1.6조 파라미터인데 왜 싸게 돌아가는가

딥시크 V4-Pro는 1.6조 개의 파라미터를 보유하지만, 실제 추론 시 활성화되는 파라미터는 490억 개(49B)에 불과하다. MoE(Mixture of Experts) 아키텍처 덕분이다. V4-Flash는 2840억 파라미터에 활성화 파라미터 130억 개로 구성된다. 둘 다 100만 토큰(1M) 컨텍스트 윈도우를 지원한다. 코드베이스 전체, 소설 한 권, 법률 계약서 수백 개를 단일 프롬프트로 처리할 수 있다는 뜻이다.

핵심 혁신: 하이브리드 어텐션 아키텍처

V4의 진짜 차별점은 CSA(Compressed Sparse Attention)와 HCA(Heavily Compressed Attention)를 결합한 하이브리드 어텐션 메커니즘이다. 이 구조는 이전 모델인 DeepSeek-V3.2 대비 토큰당 추론 FLOPs를 73% 감소시키고 KV 캐시 메모리를 90% 줄였다. 1M 토큰 컨텍스트에서는 V3.2 대비 단일 토큰 추론 FLOPs의 27%만 사용한다. 이것이 의미하는 바는 단순하다: 같은 GPU로 더 많은 사용자에게, 더 긴 문서를, 더 저렴하게 서비스할 수 있다.

숨은 인사이트: 오픈소스가 클로즈드 모델의 가격을 결정한다

딥시크 V4의 진짜 위협은 벤치마크가 아니다. MIT 라이선스로 공개된 1.6조 파라미터 모델이 존재한다는 사실 자체가 OpenAI, Anthropic, Google의 API 가격 정책을 옥죄는 구조적 압력이 된다. 기업 고객 입장에서는 이제 선택지가 생겼다: 클라우드 API를 구독하거나, 오픈소스 모델을 자체 인프라에서 돌리거나. 후자의 비용이 전자의 10분의 1 수준으로 수렴하는 속도가 빨라지고 있다. OpenAI가 GPT-5.5를 출시하면서 동시에 가격 인하를 발표한 것은 우연이 아니다. 딥시크의 압박이 프론티어 AI 모델의 가격 천장을 낮추고 있다.

딥시크 V4는 경쟁자가 아니다 , AI 추론 시장의 가격 중력(price gravity)이다.


핵심 요약

  • 딥시크 V4-Pro(1.6T 파라미터, 49B 활성화)와 V4-Flash(284B, 13B 활성화)가 2026년 4월 24일 MIT 라이선스로 공개됨
  • 하이브리드 어텐션 아키텍처(CSA+HCA)로 추론 FLOPs 73%, KV 캐시 90% 절감 달성
  • 두 모델 모두 100만 토큰 컨텍스트 윈도우 지원 , 코드베이스 전체 처리 가능
  • 오픈소스 공개로 프론티어 클로즈드 모델 API 가격에 구조적 하방 압력 형성
  • NVIDIA Blackwell GPU 최적화 엔드포인트를 통해 즉시 상용 배포 가능

더 생각해볼 것들

  1. 딥시크의 오픈소스 전략이 지속 가능하려면 어떤 수익 모델이 필요한가? API 비즈니스만으로 1.6조 파라미터 모델의 훈련 비용을 회수할 수 있는가?
  2. KV 캐시 90% 감소가 멀티턴 에이전트 워크플로우에 미치는 영향은? 더 긴 메모리를 가진 AI 에이전트가 기업 자동화 시장을 어떻게 바꿀까?
  3. 미국의 AI 칩 수출 규제가 강화되는 상황에서 딥시크는 어떻게 이 수준의 모델을 훈련했는가?