AI를 학습시킨 사람들의 얼굴과 목소리가 경매에 올랐다: 머코 침해 사건의 불편한 진실

기업 가치 100억 달러의 AI 스타트업이 오픈소스 패키지 하나로 무너졌다. 2026년 3월 말, AI 계약 노동자 플랫폼 머코(Mercor)가 해킹 그룹 Lapsus$에 의해 침해됐다. 도난당한 것은 단순한 이메일이나 비밀번호가 아니다. 4만 명 이상의 AI 학습 계약자들이 직접 촬영한 영상 면접 파일과 신분증 스캔, 그리고 사회보장번호(SSN)가 포함된 개인정보 전체다. 총 4테라바이트(TB)에 달하는 이 데이터는 지금 이 순간 온라인에서 경매에 부쳐지고 있다.

실제로 무슨 일이 있었나

공격의 시작은 머코가 아니었다. 위협 그룹 TeamPCP가 오픈소스 AI 게이트웨이 LiteLLM의 관리자 계정을 탈취해 악성 PyPI 패키지(버전 1.82.7, 1.82.8)를 배포했다. 이 악성 패키지가 PyPI에서 다운로드 가능했던 시간은 약 40분이었다. 짧은 시간이었지만, 머코를 포함한 수천 개의 AI 스타트업이 이 패키지를 자동으로 설치했다. 머코의 시스템에 악성 코드가 실행되자 API 키, 클라우드 자격증명, SSH 키, 데이터베이스 패스워드, Kubernetes 설정 파일이 모두 유출됐다. 머코는 2026년 3월 31일 침해 사실을 확인했고, 이후 Lapsus$가 탈취 데이터의 경매를 시작했다.

유출된 데이터의 구체적인 내용은 충격적이다. 939GB의 플랫폼 소스코드, 211GB의 사용자 데이터베이스(SSN 포함), 그리고 가장 민감한 것은 약 3TB에 달하는 영상 면접 녹화 파일과 신분증 스캔 문서다. 여기에 내부 슬랙(Slack) 커뮤니케이션, 티켓팅 데이터, TailScale VPN 설정 파일까지 포함됐다. 단순한 데이터 유출이 아니라, 회사의 전체 운영 인프라가 통째로 노출된 것이다.

왜 이것이 생각보다 훨씬 위험한가

영상 면접 파일이 특히 위험한 이유가 있다. 현재 딥페이크 생성 도구들은 수 분 분량의 영상 하나만 있으면 특정인의 얼굴과 목소리를 완벽하게 복제할 수 있다. 여기에 정부 발행 신분증 스캔까지 결합되면, 공격자는 그 사람을 거의 완벽하게 사칭할 수 있는 디지털 무기를 보유하게 된다. 영상으로 생체 인증을 통과하고, 신분증으로 신원을 확인하고, SSN으로 금융 계좌에 접근하는 것이 이론적으로 가능해진다.

침해 발생 10일 이내에 5건의 계약자 집단 소송이 제기됐다. 원고들은 머코가 영상 면접 데이터를 수집하면서 그것이 AI 학습용으로만 쓰인다고 안내했을 뿐, 영구적인 생체 식별자로도 활용될 수 있다는 위험을 명확히 고지하지 않았다고 주장한다. 이 소송은 단순 개인정보 침해를 넘어, AI 노동 계약 전체의 동의 구조를 법정에 세우는 선례가 될 수 있다.

오픈소스 공급망이라는 새로운 전장

이번 사건의 핵심 교훈은 머코의 보안 실패보다 LiteLLM 공급망 공격에 있다. LiteLLM은 수백 개의 AI 스타트업과 기업이 사용하는 오픈소스 LLM 게이트웨이다. 관리자 계정 하나가 탈취되자 그것을 사용하는 모든 시스템이 동시에 위험에 노출됐다. 머코는 LiteLLM 공격을 받은 수천 개 기업 중 하나라고 밝혔다. 즉, 이번 사건은 머코만의 문제가 아니다.

AI 개발 생태계는 오픈소스 의존도가 극단적으로 높다. Hugging Face 모델, LangChain 프레임워크, PyPI의 수많은 AI 라이브러리 중 하나라도 감염되면 그것을 사용하는 전체 생태계가 위험에 노출된다. 2021년 SolarWinds 공급망 공격이 기업 IT 세계를 흔든 것처럼, AI 오픈소스 공급망은 AI 산업 전체의 시스템적 리스크다. 더 무서운 것은 현재의 보안 체계가 이 공격 속도를 따라가지 못한다는 사실이다.

숨은 인사이트: AI를 학습시킨 사람들이 그 AI의 가장 취약한 피해자가 된다

이번 유출이 드러낸 더 깊은 구조적 문제가 있다. 머코 같은 플랫폼의 AI 학습 데이터 계약자들은 자신이 데이터 레이블링이나 영상 면접을 제공한다고 생각했다. 하지만 그들이 실제로 제공한 것은 영구적으로 복제 가능한 생체 식별자였다. AI 학습 데이터 시장은 전 세계 수십만 명의 저임금 계약 노동자에게 의존한다. 그들의 얼굴, 목소리, 이미지가 AI 모델의 원자재가 된다. 하지만 그들은 자신의 데이터가 어떻게 활용되고, 어떤 2차·3차 위험에 노출되는지 제대로 알지 못한다.

이것은 AI 경제가 만들어낸 역설이다. AI를 더 강하게 만들기 위해 자신의 가장 민감한 생체 데이터를 제공한 사람들이, 바로 그 데이터가 유출됐을 때 가장 큰 피해를 입는다. 보호 장치 없이 AI 노동을 공급한 계약자들은 이중으로 착취당했다. 낮은 보상으로 데이터를 제공했고, 그 데이터가 지금 경매에서 팔리고 있다.

앞으로 AI 학습 데이터 수집에 대한 규제 압박이 급격히 강화될 것이다. 유럽연합 AI법(EU AI Act)의 고위험 AI 시스템 조항, 미국 생체정보 보호법(BIPA) 등이 이번 사건을 계기로 AI 데이터 수집에 명시적인 생체 정보 동의 요건을 추가하는 방향으로 진화할 가능성이 높다. 비용은 계약자들이 치렀지만, 법적 책임은 플랫폼에 쏟아질 것이다.

앞으로 주목할 것들

단기적으로는 LiteLLM 공급망 공격 분석 보고서들이 30일 내에 공개되고, 현재 AI 개발 파이프라인의 공급망 취약점 지도가 체계화될 것이다. AI 보안 감사 수요가 급증하고, PyPI 같은 패키지 저장소의 코드 서명 의무화 논의가 재점화될 것이다. 이 분야의 보안 스타트업들에게는 전례 없는 시장 기회다.

가장 중요한 것은 집단 소송의 결과다. 법원이 영상 면접 데이터 수집이 생체 정보 수집에 해당한다는 논리를 받아들인다면, AI 학습 데이터 수집 방식 전체가 근본적으로 재설계되어야 한다. OpenAI, Google, Meta가 수억 건의 영상·음성 데이터로 학습시킨 모델들에 대한 소급 적용 리스크도 완전히 배제할 수 없다. 머코 사건은 AI 노동 시장의 법적 기반을 새로 쓰는 출발점이 될 수 있다.

AI를 학습시키기 위해 자신의 얼굴과 목소리를 제공한 사람들이 그 AI의 가장 쉬운 공격 대상이 된다 , 이것이 AI 경제가 만들어낸 가장 어두운 역설이다.

핵심 요약

4TB 데이터 도난 , 4만 명 이상의 AI 계약자 영상 면접 파일과 신분증, SSN이 Lapsus$에 탈취
LiteLLM 공급망 공격 , 악성 PyPI 패키지 40분 노출로 머코를 포함한 수천 개 AI 기업이 동시 피해
5건 집단 소송 제기 , AI 노동 계약의 생체 정보 동의 구조를 법정에 세우는 업계 전체의 선례가 될 수 있는 소송

더 생각해볼 것들

AI 모델 학습을 위해 자신의 영상·음성·이미지를 제공할 때 우리는 실제로 무엇에 동의하고 있는 것일까?
수천 개의 AI 스타트업이 의존하는 오픈소스 패키지 하나가 감염되면 업계 전체가 동시에 취약해진다 , 이 구조적 리스크를 어떻게 분산시킬 수 있을까?
딥페이크 생성이 보편화된 세상에서 영상 인증·생체 인식에 기반한 모든 보안 시스템은 사실상 무력화된다 , 당신의 회사와 은행은 이에 대비하고 있는가?