5월 6일, 샌프란시스코의 한 스튜디오에서 로봇 손이 루빅스 큐브를 공중에서 집어들고, 단 한 번의 떨림도 없이 6면을 완성했다. 같은 시연에서 로봇은 20단계로 이루어진 요리를 처음부터 끝까지 완성하고, 피아노를 연주했다. 이 영상을 공개한 회사는 제네시스 AI(Genesis AI), 설립된 지 채 1년도 되지 않은 스타트업이다. 그리고 이것은 단순한 데모가 아니다.
실제로 무슨 일이 있었나
제네시스 AI는 5월 6일, 자사의 첫 번째 파운데이션 모델 GENE-26.5를 공개했다. 회사의 핵심 주장은 하나다: "인간 수준의 물리적 조작 능력". 단순히 물건을 집어올리거나 정해진 동작을 반복하는 게 아니라, 처음 보는 물체를 맥락에 따라 다루고 복잡한 연속 동작을 수행한다는 것이다. 시연 영상에서는 20단계 요리 완성, 공중 루빅스 큐브 해결, 피아노 연주를 선보였다.
제네시스 AI는 동시에 1억 500만 달러(약 1,400억원)의 시드 라운드를 클로즈했다. 이클립스(Eclipse)와 코슬라 벤처스(Khosla Ventures)가 공동 리드했으며, 프랑스 국가 투자기관 Bpifrance, HSG, 에릭 슈미트(Eric Schmidt), 자비에 니엘(Xavier Niel), MIT 로보틱스 교수 다니엘라 루스(Daniela Rus) 등이 참여했다. 시드 라운드 규모로는 이례적으로 크다.
이것이 단순한 로봇 데모가 아닌 이유
로보틱스 분야에서 "인간 수준"이라는 표현은 오랫동안 마케팅 문구에 가까웠다. 산업용 로봇은 특정 동작을 무한히 반복할 수 있지만, 한 번도 본 적 없는 물체를 인간처럼 다루는 건 완전히 다른 문제다. 제네시스 AI가 이 간극을 메울 수 있다고 주장하는 근거는 세 가지 혁신의 조합이다.
첫째는 로보틱스 네이티브 멀티모달 파운데이션 모델이다. 범용 LLM에 로봇 제어를 덧붙이는 방식이 아니라, 처음부터 물리적 조작 데이터로 학습된 모델이다. 둘째는 중국 우지 테크(Wuji Tech)와 공동 개발한 맞춤형 정교한 로봇 손으로, 센서 밀도가 현재 시중 제품의 수 배에 달한다. 셋째이자 가장 중요한 혁신은 데이터 엔진이다. 연구팀은 로봇 손의 완벽한 물리 복제본처럼 작동하는 센서 장갑을 개발했다. 인간이 이 장갑을 끼고 동작을 수행하면, 그 데이터가 직접 로봇 학습에 활용된다.
경쟁 구도
로봇 조작 분야의 경쟁자들은 이미 강력하다. 피지컬 인텔리전스(Physical Intelligence, π0)는 스탠퍼드와 구글 출신들이 세운 스타트업으로 4억 달러를 유치했다. 피규어 AI(Figure AI)는 최근 인간 감독자를 제거하는 데 성공했다고 발표했다. OpenAI는 피지컬 인텔리전스에 투자했고, 마이크로소프트는 휴머노이드 로봇 파운데이션 모델 연구에 직접 뛰어들었다.
제네시스 AI의 접근은 차별화된다. 대부분의 경쟁자들이 소프트웨어(모델) 또는 하드웨어(로봇 본체) 중 하나에 집중하는 반면, 제네시스 AI는 모델·하드웨어·데이터 엔진 세 가지를 하나의 풀스택으로 개발한다. 이 접근은 빠른 반복을 가능하게 하지만, 동시에 훨씬 더 많은 자본과 인력이 필요하다는 단점도 있다.
숨은 인사이트: 데이터 장벽이 무너지면 무슨 일이 생기나
로보틱스 AI의 가장 큰 장벽은 언제나 데이터였다. 언어 모델은 인터넷에서 수십억 개의 문장을 학습했지만, 로봇은 실제 물리 세계에서 조작 경험을 직접 쌓아야 한다. 로봇이 수천 번 실수를 반복하며 배우는 동안 인간은 한 번 보고 따라 할 수 있다. 이 간극이 로보틱스 AI를 "10년 뒤의 미래 기술"로 가두었던 이유다.
제네시스 AI의 센서 장갑 솔루션이 진짜 혁신인 이유가 여기에 있다. 인간이 장갑을 끼고 요리를 하면, 그 동작 데이터가 직접 GENE-26.5의 학습 데이터가 된다. 지구상의 수억 명이 잠재적 데이터 생성자가 될 수 있다는 뜻이다. 이것이 크라우드소싱 규모로 확장된다면, 로보틱스 AI 학습의 병목이 역사상 처음으로 해소되는 순간이 올 수 있다.
그러나 더 불편한 질문이 있다. 물리 세계에서 인간 수준의 조작 능력을 가진 로봇이 등장하면, 가장 먼저 대체되는 직군은 어디일까? 백화점 진열 직원, 커피 바리스타, 약국 조제사, 창고 작업자, 이들의 업무는 AI가 아직 침범하지 못한 영역이었다. 정교한 손 동작이 필요한 일이기 때문이다. GENE-26.5가 그 마지막 방어선을 허무는 열쇠일 수 있다.
다음에 주목해야 할 것들
가장 중요한 이정표는 실제 산업 환경 배포다. 통제된 스튜디오에서의 데모는 인상적이지만, 실제 제조 공장이나 물류 창고에서의 성능은 전혀 다른 문제다. 소음, 먼지, 예측 불가한 변수, GENE-26.5가 이런 조건에서도 같은 성능을 낸다는 걸 2026년 하반기 안에 보여주지 않으면, 투자자들의 흥분은 오래가지 않을 것이다.
두 번째는 데이터 수집 스케일링 전략이다. 센서 장갑 접근이 영리하지만, 수백만 시간의 데이터를 수집하는 수준으로 확장 가능한지는 아직 미지수다. 피지컬 인텔리전스는 시뮬레이션 데이터를 대규모로 생성하는 방향을 택했다. 어느 접근이 더 효과적인지는 2026년 하반기 벤치마크 결과가 나오면 명확해질 것이다.
로봇이 루빅스 큐브를 공중에서 푸는 것보다 중요한 건, 그 로봇을 학습시킨 데이터를 누가 어떻게 생산했느냐는 질문이다.
핵심 요약
- GENE-26.5 공개 , 20단계 요리·공중 루빅스 큐브·피아노 연주 시연으로 로봇 조작의 새 기준 제시
- 시드 라운드 1억 500만 달러 , Eclipse·Khosla 공동 리드, 에릭 슈미트 등 참여, 시드 라운드로는 이례적 규모
- 풀스택 전략 , 파운데이션 모델·정교한 로봇 손·센서 장갑 데이터 엔진의 삼중 통합으로 경쟁사와 차별화
- 데이터 장벽 돌파 시도 , 센서 장갑으로 인간 조작 동작을 직접 학습 데이터로 변환하는 혁신적 파이프라인
- 가장 위협받는 직군 , 정교한 손 동작이 필요한 물류·식품·의료 서비스 현장직이 첫 번째 타깃
더 생각해볼 것들
- 인간 수준의 손 기술을 가진 로봇이 현실화된다면, 이를 가장 빠르게 도입할 산업과 가장 강하게 저항할 산업은 어디일까?
- 센서 장갑으로 수집한 인간의 조작 데이터는 누구의 것인가, 데이터를 생성한 사람인가, 이를 수집한 기업인가?
- GENE-26.5가 5년 후 제조업에 광범위하게 배포됐을 때, 이를 가장 먼저 도입한 나라와 도입하지 못한 나라 사이의 생산성 격차는 얼마나 커질까?