post

2월 23일, Anthropic이 공식 블로그를 통해 중국 AI 연구소 3곳의 대규모 증류 공격 정황을 공개했다.


증류(Distillation)란?

증류(Distillation)란 우수한 모델의 출력을 대량으로 수집해 자신의 모델 학습에 활용하는 기법이다. 자체 모델 압축/경량화처럼 합법적 용도로도 널리 쓰이지만, 이번 사례의 쟁점은 타사 API 출력을 무단 대량 수집해 학습 파이프라인에 넣었다는 점이다.

Anthropic 발표 기준으로 문제 삼은 포인트는 다음과 같다.

  • 가계정 대량 생성과 자동화 추출로 서비스 약관 위반
  • 지역 제한 환경에서 프록시 네트워크를 통한 우회 접근
  • 일반 사용자 패턴과 다른 고빈도/고집중 추출 트래픽 운영

공격 규모 (Anthropic 공개 수치)

연구소 교환 건수 주요 타겟
DeepSeek 15만+ 건 기초 로직, 정렬(alignment)
Moonshot AI (Kimi) 340만+ 건 에이전트 추론, 코딩, 컴퓨터 비전
MiniMax 1,300만+ 건 에이전트 코딩, 도구 사용

24,000개 이상의 가계정을 통해 1,600만 건 이상의 대화를 추출했다. 중국에서는 Claude에 지역 제한이 걸려 있음에도, 가계정을 양산하고 프록시 네트워크를 활용해 우회했다.


연구소별 증류 방식 (Anthropic 발표 기준)

1. DeepSeek

Anthropic은 DeepSeek 캠페인을 정렬(alignment) + 추론 능력 복제 중심으로 설명했다.

  • 다수 계정 동기화 호출: 유사 타이밍/패턴/결제수단으로 트래픽을 분산 운영
  • 단계별 추론 유도 프롬프트: 답뿐 아니라 reasoning trace를 체계적으로 수집
  • 정책 경계 데이터 수집: 민감 질의에 대한 대체 응답 패턴까지 추출
  • Frontier 추론용 루브릭 생성: 채점/평가 기준 데이터 생성으로 보상모델(RM) 또는 평가 파이프라인 강화

2. Moonshot AI (Kimi)

Moonshot은 에이전트 실사용 능력을 집중적으로 가져가는 패턴으로 정리됐다.

  • 수백 개의 가계정을 복수 접근 경로로 운영해 탐지 회피
  • 주요 수집 영역: 에이전트 추론, 코딩/데이터 분석, 컴퓨터 유즈, 컴퓨터 비전
  • 후반에는 Claude의 추론 흔적을 재구성하려는 시도가 관측됐다고 Anthropic이 주장
  • 대규모 트래픽을 일반 요청과 혼합해 비정상 패턴 탐지를 약화

3. MiniMax

MiniMax는 규모와 반응 속도가 가장 공격적인 사례로 제시됐다.

  • 1,300만+ 교환으로 3개 연구소 중 최대 볼륨
  • 에이전트 코딩/툴 오케스트레이션 중심 데이터 추출
  • Anthropic 신규 모델 공개 후 24시간 내 트래픽의 상당 비율을 최신 모델로 전환
  • 단발성 수집이 아니라 모델 출시 주기에 연동된 상시 추출 파이프라인 형태

탐지 방법

Anthropic은 다음과 같은 방법으로 각 연구소를 높은 신뢰도로 특정했다:

  • IP 주소 상관관계 분석
  • 요청 메타데이터 패턴
  • 인프라 지표
  • 업계 파트너사를 통한 교차 확인
  • 일반 사용자와 구별되는 요청 양, 구조, 초점 패턴

한 프록시 네트워크는 20,000개 이상의 가계정을 동시에 운영하며, 증류 트래픽을 일반 고객 요청과 섞어 탐지를 회피하려 했다.


시사점

이번 사건은 AI 업계의 지식재산권 보호와 모델 보안 문제를 정면으로 드러냈다. 특히 Claude처럼 API를 공개하는 모델의 경우, 대규모 자동화된 증류 공격에 상시 노출되어 있다는 점이 확인되었다.

Anthropic은 이번 발표를 통해 탐지 역량을 과시하는 동시에, 향후 유사 공격에 대한 경고 메시지를 보낸 것으로 보인다.

참고로 본문 수치와 연구소별 전술은 Anthropic의 2026-02-23 발표 기준이며, 각 연구소의 공식 반박/해명은 별도 문서로 교차 확인하는 것이 안전하다.

카테고리:

업데이트:

댓글남기기