로봇을 더 잘 훈련시키고 싶다면, 로봇 데이터를 더 모으면 된다고 생각했을 것이다. NVIDIA는 이 상식을 뒤집었다. 2만여 시간의 인간 일인칭 영상을 학습시키자, 로봇의 손재주가 예측 가능하게 두 배 이상 향상됐다. 이것은 단순한 성능 개선이 아니다. 사상 최초로 발견된 로봇 손재주 스케일링 법칙의 탄생이다.

무슨 일이 있었나: GR00T N1.7의 등장과 EgoScale 혁신

2026년 4월 17일, NVIDIA는 GR00T N1.7을 조기 접근(Early Access) 형태로 공개했다. 파라미터 수는 30억 개(3B). 아키텍처는 두 시스템으로 구성된다. 상위 시스템인 System 2는 Cosmos-Reason2-2B 언어·시각 모델이 영상과 언어 명령을 해석해 고수준의 행동 토큰을 생성하고, 하위 시스템인 System 1은 32레이어 Diffusion Transformer(DiT)가 이를 실시간 모터 제어 명령으로 변환한다. 인간의 뇌가 전략적 사고와 근육 제어를 분리하는 방식과 유사한 구조다.

핵심 돌파구는 EgoScale이라 불리는 사전 학습 방식이다. N1.7은 로봇 조작 데이터 대신 2만 854시간의 인간 일인칭 영상, 요리, 조립, 정리 등 20개 이상의 작업 범주, 으로 사전 학습했다. 그 결과, 학습 데이터를 1,000시간에서 2만 시간으로 늘리자 평균 작업 완수율이 두 배 이상 향상됐다. 라이선스는 Apache 2.0이며 HuggingFace와 GitHub에서 즉시 상업적 활용이 가능하다.

왜 이것이 생각보다 훨씬 중요한가

AI 언어 모델의 성능이 데이터와 컴퓨팅에 따라 예측 가능하게 향상된다는 스케일링 법칙은 2020년 OpenAI가 정립했다. 이 법칙이 언어를 넘어 로봇 물리 제어에도 존재한다는 것이 이번에 처음으로 증명됐다. 스케일링 법칙의 존재는 곧 로드맵이 생겼다는 의미다. 데이터를 두 배 늘리면 성능이 얼마나 오를지 예측할 수 있다. 기업과 투자자는 이제 로봇 지능에 대한 투자 수익률을 계산할 수 있다.

더 중요한 것은, 이 훈련 데이터가 이미 세상에 넘쳐흐른다는 점이다. 유튜브에는 수십억 시간의 인간 행동 영상이 있다. 요리 채널, 공장 공정 영상, DIY 튜토리얼, 이 모든 것이 잠재적 로봇 훈련 데이터다. 로봇 개발의 병목이 하드웨어에서 데이터 큐레이션으로 이동하고 있다.

숨은 인사이트: 인터넷이 로봇의 선생님이 된다

GR00T N1.7이 던지는 가장 불편한 질문은 이것이다: 로봇이 인간 영상으로 더 잘 배운다면, 우리가 매일 생산하는 디지털 행동 데이터, 소셜 미디어 영상, 라이브 스트리밍, 스마트 홈 카메라 피드, 는 누구의 자산인가? 구글, 메타, 유튜브가 보유한 인간 행동 영상 아카이브는 갑자기 전략적 물리 AI 인프라가 됐다. 언어 모델 시대에 텍스트 데이터를 선점한 기업들이 LLM 경쟁에서 우위를 가졌듯, 물리 AI 시대에는 일인칭 행동 영상 데이터를 가진 기업이 로봇 지능 경쟁을 지배할 것이다. NVIDIA는 EgoScale로 이 게임의 규칙을 공개했다. 이제 누가 데이터를 가장 많이, 가장 빠르게 확보하는지가 관건이다.

로봇 지능의 스케일링 법칙이 발견됐다는 것은, 얼마나 투자하면 얼마나 똑똑한 로봇이 나오는지 계산할 수 있다는 뜻이다, 그리고 그 연료는 인터넷에 이미 있다.


핵심 요약

  • GR00T N1.7, 30억 파라미터 오픈 VLA 모델 , 2026년 4월 17일 NVIDIA가 Apache 2.0 라이선스로 공개, 상업적 활용 즉시 가능
  • 2만 854시간의 인간 영상으로 사전 학습 , 로봇 조작 데이터가 아닌 인간 일인칭 영상이 훈련의 핵심 연료
  • 1,000시간 → 2만 시간, 작업 완수율 2배 이상 향상 , 사상 최초로 증명된 로봇 손재주 스케일링 법칙
  • Dual-System 아키텍처 , 고수준 추론(VLM)과 실시간 모터 제어(DiT)를 분리해 정밀도와 유연성 동시 확보
  • 데이터 경쟁의 전선 이동 , 로봇 개발 병목이 하드웨어에서 인간 행동 영상 데이터 큐레이션으로 전환

더 생각해볼 것들

  1. 유튜브와 메타가 보유한 수십억 시간의 인간 행동 영상이 로봇 AI 훈련 데이터로 활용될 경우, 이 데이터를 생산한 사용자에게 어떤 보상이 돌아가야 하는가?
  2. 로봇 손재주의 스케일링 법칙이 존재한다면, 앞으로 5년간 가장 빠르게 가치가 오를 자산은 반도체 제조 기업인가, 아니면 인간 행동 영상 데이터를 보유한 플랫폼인가?
  3. 당신의 회사나 산업이 지금 생산하는 작업 영상 데이터를 아무도 체계적으로 수집·라벨링하지 않고 있다면, 5년 후 그 기회를 누가 먼저 잡을 것인가?