AI bezpečnost: Jak Čína vykradla Claude distilací

Dnes Anthropic veřejně obvinil tři čínské AI firmy — DeepSeek, MiniMax a Moonshot AI — z cíleného capability stealingu. Jejich metoda byla geniálně jednoduchá:

24 000 falešných účtů
16 milionů dotazů
Knowledge distillace k okopírování schopností Claude

Není to dramatická hackerská akce. Je to trpělivá, metodická průmyslová špionáž — a právě proto je tak zajímavá.

Co je knowledge distillace a proč je legální

Knowledge distillation je standardní technika strojového učení z roku 2015 (Hinton et al.).

Základní princip:

Máš velký „teacher” model (drahý, pomalý)
Chceš menší „student” model (levný, rychlý)
Student se učí napodobovat výstupy teachera, ne jen surová data

Výsledek: Menší model, který zachovává 70-85% schopností toho velkého.

Kdo to dělá:

Meta s LLaMA
Google interně
Každý druhý startup pro deployment

Kdy je to legální:

Trénuješ na vlastních datech
Máš licenci k datům
Distilluješ vlastní model

Kdy je to průmyslová špionáž:

Voláš cizí API proti Terms of Service
Výstupy používáš k trénování konkurenčního modelu
Přesně to se stalo

Čínské firmy nepotřebovaly prolomit žádné šifrování. Stačilo se ptát. Hodně ptát.

Anatomie útoku: Jak fungoval Hydra cluster

Anthropic provozuje geofencing — přístup z Číny je omezený. Útočníci to obešli jednoduchou infrastrukturou:

Vrstva 1 — Falešné účty

24 000+ registrací s různými identitami
Různé platební metody a metadata
Pozvolné registrace v čase (ne bulk)

Vrstva 2 — Proxy sítě

Provoz přes residential proxy sítě
IP adresy skutečných domácností (USA, EU, SEA)
Z pohledu detekce vypadají jako legitimní uživatelé

Vrstva 3 — Fingerprintová diverzita

Různé User-Agenty
Různé vzorce chování
Různé časové zóny
Každý “účet” se choval jako jiná osoba

Co se ptali:

Komplexní reasoning (víceúrovňové logické úlohy)
Code assistance (generování, debugging, refactoring)
Tool use (nejdražší na vytrénování)

Nebylo to náhodné. Byla to cílená krádež nejcennějších schopností.

Proč to Anthropic nezachytil měsíce dopředu?

Rozptýlení v čase a prostoru

24 000 účtů = ~667 dotazů na účet
Dotazy rozkládané přes týdny
Žádný jednotlivý účet nevypadá anomálně
Rate limity nechrání proti distribuovaným útokům

Legitimní vzorce chování

Dotazy na complex reasoning vypadají jako research
Totéž co dělají vědci a vývojáři
Detekční algoritmus by generoval obrovský false positive rate

Absence cross-account korelace v reálném čase

Detekovat, že 24 000 účtů se ptá na podobné věci je výpočetně náročné
Vyžaduje sofistikovanou analýzu na úrovni celé platformy
Ne jen individuálních účtů

Incentivní problém

AI firmy jsou motivované zpracovat co nejvíce dotazů
Každý dotaz = revenue
Agresivní detekce = ztráta peníze

Výsledek: Útok byl odhalen interní forenzní analýzou — ne automatizovanou detekcí v reálném čase.

Technické signály, které měly být zachyceny

Zpětně je snadné být chytrý. Pojďme konkrétně — jaké red flags tam byly:

Rate limiting je neefektivní bez behavioral analýzy

Klasický rate limiting (X dotazů za minutu) je triviálně obejitelný. Lepší přístup:

Sémantická podobnost: Tisíce účtů pokládají strukturálně identické dotazy
Answer entropy monitoring: Odpovědi z různých “uživatelů” jsou příliš podobné
Temporal clustering: Vlny dotazů v podobných časových oknech
Coordination patterns: Dotazy navazují na sebe logicky

Residential proxy detekce už existuje

Služby jako IPQS, Sift a Sardine dokáží identifikovat proxy provoz:

ASN analýza
Latency fingerprinting
WebRTC leaky
Behaviorální biometrika v browseru

Tohle není rocket science — jen se nepoužívalo dost agresivně.

Account clustering přes platební infrastrukturu

24 000 účtů muselo platit. Existují fingerprinting vzorce:

BIN čísla karet
Geolokace vydavatele vs. IP adresa
Velocity checks na platebních metodách
Stripe a PayPal mají tyto signály

Dotazový profil vs. deklarovaný use case

Pokud se účet zaregistruje jako “indie developer” a pak pokládá 500 komplexních reasoning dotazů denně zaměřených na edge cases — to je anomálie.

Behavioral profily jsou standard v fraud detekci. V AI API prostředí se teprve začínají aplikovat.

Jak by měla AI firma bránit své modely

Žádné řešení není 100% efektivní. Jde o to zvýšit cenu útoku natolik, aby se nevyplatila.

1. Cross-account behaviorální analýza v reálném čase

Přestat myslet per-account
Graph analýza clusterů účtů
Detekce sdílené infrastruktury
Hydra cluster by byl zachycen měsíce dopředu

2. Watermarking výstupů

Vkládání statických vzorců do LLM výstupů
Neviditelné pro uživatele, detekovatelné v tréninkových datech
Pokud model natrénovaný na “ukradených” datech tyto vzorce reprodukuje — to je forenzní důkaz

3. Canary dotazy

Uměle vytvořené znalostní artefakty
Specifické fakty, příběhy, stylové vzorce
Neexistují nikde jinde
Objeví-li se v konkurenčním modelu = přímý důkaz

4. Stricter KYC pro high-volume použití

Enterprise zákazníci procházejí KYC procesem
Pro vyšší API tiers by mělo být standard
Friction layer pro koordinované útoky

5. Geopolitický risk scoring

Kombinace infrastrukturních signálů
Platebních dat a dotazových vzorců
Risk skóre flagující potenciálně state-sponsored aktivity
Jde o infrastrukturní, ne etnické signály

Závěr: Krádež softwaru se změnila

Není to tradiční kybernetický útok:

Žádné zranitelnosti v kódu
Žádné phishing kampaně
Žádné insider threats
Jen API a trpělivost

Model distillace jako vektor průmyslové špionáže je nový typ hrozby. AI firmy nejsou na něj připravené — ani technicky, ani mentálně.

Otázky, které by vás měly znepokojovat:

Kolik dalších operací aktuálně probíhá?
Které se ještě nezachytily?
Jakou cenu má vaše AI infrastruktura?

Geopolitika: USA omezují export čipů, aby zpomalily čínský AI vývoj. Ale zkopírovat schopnosti modelu za 16 milionů API volání? Hardware security je nutná, ale nedostatečná.

Chcete si nechat diagnostikovat bezpečnost vaší AI infrastruktury?

Provádím detailní AI audity — mapuji bezpečnostní rizika včetně capability stealingu, model extraction útoků a API zneužití.

Podívejte se také na naše AI služby nebo si přečtěte více v našem blogu.

Máte konkrétní otázku? Ozvěte se — rád poradím, jak se bránit podobným hrozbám.

Sdílejte článek

Pomohl vám článek? Sdílejte ho s kolegy, kterým by se mohl hodit.