AI가 당신 대신 거래를 성사시켰다: Anthropic 실험이 드러낸 불편한 진실

AI 에이전트가 '당신을 대신해' 흥정하고 계약을 맺는 세상이 왔다. 그런데 만약 상대방의 AI가 당신의 AI보다 훨씬 강력하다면, 그리고 당신은 그 사실을 영영 모른다면? Anthropic이 진행한 'Project Deal' 실험은 그 불편한 가능성을 현실로 보여줬다.

실험의 구조: 직원들 대신 AI가 거래를 성사시키다

2025년 12월, Anthropic은 샌프란시스코 사무실 직원 69명을 대상으로 1주일짜리 비밀 마켓플레이스를 운영했다. 참가자 1인당 100달러의 예산이 주어졌고, Claude 에이전트가 각 직원을 인터뷰하여 판매 물품, 희망가, 구매 희망 목록, 협상 스타일을 파악한 뒤 맞춤 프롬프트로 대리인을 설정했다. 결과: 500개 이상의 리스팅에서 총 186건의 거래가 성사되었고, 총액은 약 4,000달러. 단 한 번도 사람이 중간에 개입하지 않았다. Anthropic은 동시에 네 가지 버전의 실험을 진행했다, 두 팀은 Claude Opus 4.5(당시 최상위 모델), 두 팀은 Opus와 Haiku 4.5의 혼합 구성이었다.

충격적인 발견: 더 강한 AI가 항상 이겼다

Opus 에이전트는 Haiku 에이전트에 비해 참가자 1인당 약 2건 더 많은 거래를 성사시켰다. 같은 물건을 팔 때 Opus 에이전트는 평균 3.64달러 더 높은 가격을 받아냈다. 그런데 진짜 문제는 여기서 시작된다. 참가자들이 거래의 공정성을 평가한 점수는 어떤 모델을 사용했는지와 무관하게 거의 동일했다. Haiku 에이전트에 대리된 사람들, 더 낮은 가격에 팔리고, 더 적게 거래한 사람들, 은 자신이 불리한 위치에 있었다는 사실을 전혀 몰랐다. 패자는 자신이 지고 있다는 걸 몰랐다.

숨은 인사이트: AI 에이전트 경제의 새로운 불평등

이 실험이 진짜 무서운 이유는 결과값 자체가 아니라 그 구조다. 현실 세계의 AI 에이전트 거래, 보험 협상, 부동산 계약, 공급망 계약, 인사 채용, 에서 당신의 에이전트가 상대보다 약하다면 어떻게 될까? 그리고 당신은 그 사실을 어떻게 알 수 있을까? 인간 간 협상에서는 협상가의 역량이 눈에 보인다. 변호사의 경력, 협상팀의 규모, 상대방의 평판, 모두 어느 정도 공개적으로 드러난다. 하지만 AI 에이전트 협상에서는 모델의 차이가 투명하지 않다. 어떤 기업은 Claude Opus 4.5를 쓰고, 어떤 스타트업은 오픈소스 7B 모델을 쓴다. 그 차이는 계약서에 나타나지 않는다, 단지 결과에 반영될 뿐이다. Anthropic은 이 우려를 직접 인정했다: 에이전트 시장에서 불리한 쪽은 자신이 더 나쁜 거래를 했다는 걸 모를 수 있다. 이건 단순한 기술적 문제가 아니다. AI 에이전트가 경제의 기본 거래 단위가 될 때, AI 접근성의 불평등은 곧 경제적 불평등으로 직결된다.

AI 에이전트 경제에서 가장 큰 위험은 나쁜 AI가 아니다, 당신이 더 나쁜 AI를 쓰고 있다는 사실을 모르는 것이다.

핵심 요약

186건 거래 성사 , 69명 직원의 AI 에이전트가 1주일간 500여 물품을 거래, 총 4,000달러 규모의 실제 거래 완료
Opus vs Haiku 격차 , 상위 모델 Claude Opus 4.5는 Haiku 대비 1인당 2건 더 거래, 판매가 평균 3.64달러 더 높음
패자는 몰랐다 , 불리한 조건으로 거래한 참가자들의 만족도가 유리한 참가자들과 통계적으로 동일
법적 공백 확인 , 전문가들은 AI 에이전트 간 계약을 규율하는 법적 프레임워크가 아직 존재하지 않는다고 지적
에이전트 계층화 리스크 , AI 에이전트 경제에서 모델 접근성 차이가 구조적 경제 불평등으로 고착될 가능성 대두

더 생각해볼 것들

기업 간 M&A, 공급계약, 인사 협상에서 AI 에이전트가 대리인이 될 때, 어느 쪽이 더 강력한 모델을 썼는지 공시해야 하는가?
AI 에이전트 협상에서 불이익을 받은 쪽이 계약을 취소할 수 있는 법적 근거는 만들어질 수 있을까, 아니면 불가능한가?
당신의 회사는 현재 어떤 등급의 AI를 사용하고 있으며, 경쟁사와 비교했을 때 그 차이가 이미 비즈니스 결과에 반영되고 있지는 않은가?