Distillazione su scala industriale e controversie legali: cosa succede tra Anthropic, OpenAI e i lab cinesi

Negli ultimi mesi il mondo dell’intelligenza artificiale è stato scosso da accuse di grande portata: diversi laboratori statunitensi sostengono che gruppi legati alla Cina abbiano messo in piedi operazioni su vasta scala per “estrarre” capacità dai loro modelli, usando una tecnica nota come distillazione. Le denunce parlano di reti proxy, migliaia di account falsi e milioni di interazioni orchestrate per carpire comportamenti e risposte dei sistemi commerciali e pubblici.

Chi accusa e cosa viene contestato
Più aziende con sede negli USA hanno formalizzato reclami simili, raccontando attività coordinate che sfruttano infrastrutture distribuite e account automatizzati. Secondo le ricostruzioni, l’obiettivo non sarebbe tanto fare query isolate, quanto raccogliere in maniera sistematica coppie input-output per addestrare modelli “studenti” in grado di emulare i modelli originali.

In pratica, una copia funzionante ottenuta osservando e registrando risposte in massa.

Come funziona la distillazione e perché desta preoccupazione
La distillazione è una tecnica consolidata nel machine learning: un modello più piccolo (lo “studente”) impara dalle risposte di uno più grande (l’“insegnante”), così da ottenere prestazioni simili con costi computazionali ridotti. Usata correttamente, è utile per creare versioni leggere e accessibili di sistemi complessi. Il problema sorge quando questa procedura viene applicata senza autorizzazione e su scala industriale: si rischia di replicare capacità proprietarie, indebolire la protezione della proprietà intellettuale e aprire varchi per abusi operativi e di sicurezza.

Le modalità operative denunciate
Nel dettaglio, Anthropic e altre società parlano di campagne coordinate che avrebbero creato oltre 24.000 account fasulli e generato più di 16 milioni di interazioni con il modello Claude.

Le operazioni, dicono gli inquirenti, si appoggerebbero a cluster distribuiti e a servizi di rivendita che frammentano le richieste su più interfacce per aggirare limiti d’uso e sistemi di rilevamento. Questo livello di scalabilità rende la distillazione molto più efficace e, allo stesso tempo, più difficile da tracciare e fermare.

Prove, numeri e reazioni delle aziende
Secondo le società coinvolte, i segnali di uso anomalo includono volumi di traffico insoliti, ripetizione di schemi di prompt e query mirate a estrarre i ragionamenti interni del modello (il cosiddetto chain-of-thought). OpenAI ha riferito al House Select Committee l’uso di router di terze parti e pipeline multi-stage che combinano generazione sintetica, pulizia massiva dei dati e ottimizzazione basata su preferenze.

A fronte di ciò, le aziende stanno implementando contromisure tecniche — limiti sui pattern di richiesta, controlli più rigidi sulle API — e chiedono regole chiare per responsabilizzare gli intermediari.

Attacchi anche contro Gemini e difficoltà di attribuzione
Google ha segnalato fenomeni analoghi diretti a Gemini: campagne pensate per ricostruire la capacità di ragionamento del modello, anche in lingue diverse. Le indagini suggeriscono l’esistenza di una filiera di reseller non autorizzati e di infrastrutture proxy che complica l’attribuzione degli attacchi, rendendo arduo stabilire responsabilità e bloccare i flussi illeciti.

Rischi per la sicurezza e per il mercato
Le conseguenze possibili non sono soltanto economiche. Se qualcuno riesce a distillare modelli avanzati, la versione riprodotta potrebbe non avere le stesse salvaguardie contro usi malevoli: filtri, limiti di sicurezza e controlli etici potrebbero sparire.

Questo apre scenari pericolosi — dall’abuso in sorveglianza alla facilitazione di attacchi informatici, fino a impieghi impropri in ambiti sensibili come la bioingegneria — e aumenta la pressione su regolatori e fornitori per trovare soluzioni efficaci.

Il contesto legale: cause incrociate sui dati di training
Il dibattito sulla distillazione si inserisce in una battaglia legale più ampia sul modo in cui i modelli vengono addestrati. Anthropic ha risolto una class action con un accordo da 1,5 miliardi per l’uso di libri non autorizzati nel training di Claude e affronta inoltre una richiesta risarcitoria da 3 miliardi avanzata da editori musicali. OpenAI si trova coinvolta in numerose cause per violazione del copyright, mentre in UK Google e Microsoft affrontano un’azione collettiva che riunisce circa 15.000 reclamanti. Questi procedimenti rendono il quadro normativo particolarmente complesso.

Le argomentazioni di difesa e le richieste del settore
Gli sviluppatori difendono spesso l’uso di materiali protetti come parte necessaria del processo di training, sostenendo che l’analisi statistica produce contenuti “trasformativi” e quindi rientrerebbe nel fair use. Sul piano pratico, le aziende chiedono strumenti di rilevamento più sofisticati, collaborazioni con i cloud provider e interventi normativi mirati per fermare le campagne di distillazione su vasta scala. Serve, insomma, un mix di tecnologia, regole e responsabilità condivise.

Cosa aspettarsi nei prossimi mesi
Nei mesi a venire probabilmente vedremo un aumento delle contestazioni legali e una rincorsa a contromisure tecniche più avanzate per identificare traffico anomalo. L’evoluzione delle norme e l’efficacia degli strumenti di difesa decideranno in larga misura se sarà possibile contenere questo tipo di pratiche. Le decisioni dei tribunali e gli interventi regolatori definiranno inoltre gli standard operativi che le aziende dovranno rispettare, con ricadute rilevanti su trasparenza, responsabilità e governance internazionale della tecnologia.