Perché DeepSeek, la piccola balena cinese, deve farci riflettere

La battaglia tra OpenAI e DeepSeek non è solo una questione di proprietà intellettuale, ma un confronto tra monopolio e concorrenza nell’era dell’AI. OpenAI accusa la startup cinese di aver copiato ChatGPT con la distillazione del modello, ma ha essa stessa costruito i suoi modelli attingendo liberamente dal web. Chi può davvero rivendicare la proprietà della conoscenza? Le AI devono pagare per i dati con cui si addestrano? Il caso DeepSeek è un segnale: la guerra dell’AI si gioca sempre più in tribunale e nelle strategie geopolitiche, definendo chi controllerà il futuro dell’intelligenza artificiale.

Cos’è la distillazione del modello?
OpenAI ha usato metodi simili per addestrare i suoi modelli?
Il caso DeepSeek: furto di tecnologia o concorrenza legittima?
Qual è la vera posta in gioco?

Cos’è la distillazione del modello?

La distillazione del modello è una tecnica utilizzata nel machine learning per creare una versione più piccola ed efficiente di un modello di intelligenza artificiale avanzato. Il concetto è semplice: un modello più grande (“teacher”) viene usato per generare previsioni dettagliate, che poi un modello più piccolo (“student”) impara a replicare.

Uno studio recente pubblicato su ArXiv, “Towards a theory of model distillation” di Enric Boix-Adserà (postdoc at MIT Math and Harvard CMSA) ha approfondito questo fenomeno, dimostrando che la distillazione può essere molto più economica rispetto all’addestramento di un nuovo modello da zero. Lo studio mostra che, in molti casi, la distillazione permette di ottenere un modello quasi altrettanto potente dell’originale con molte meno risorse computazionali e dati.

Nel caso OpenAI vs. DeepSeek, l’accusa è che DeepSeek abbia sfruttato questa tecnica per replicare le capacità di ChatGPT senza autorizzazione (cfr. OpenAI accusa DeepSeek di furto di proprietà intellettuale. Intanto l’App cinese scompare in Italia su Rainews.it del 29 gennaio 2025).

Se questo fosse avvenuto accedendo direttamente all’API di OpenAI per estrarre dati proprietari e utilizzarli nell’addestramento, allora si tratterebbe di una violazione contrattuale.

Tuttavia, se DeepSeek ha semplicemente osservato il comportamento di ChatGPT, raccogliendo i suoi output e utilizzandoli per addestrare un proprio modello con tecniche di reverse engineering, la questione diventa più complessa. Il reverse engineering, se effettuato senza accesso non autorizzato ai dati interni, rientra in una zona grigia legale. In molti settori, questa pratica è accettata come parte del normale processo di innovazione e concorrenza.

La vera domanda quindi è: DeepSeek ha copiato la tecnologia di OpenAI o ha semplicemente imparato da essa? E, ancora più importante, se OpenAI ha costruito i suoi modelli attingendo da miliardi di testi online senza compensare gli autori, può davvero accusare DeepSeek di aver fatto lo stesso con lei?

OpenAI ha usato metodi simili per addestrare i suoi modelli?

Qui il caso si complica. OpenAI ha costruito i suoi modelli attingendo a enormi quantità di dati disponibili su internet, inclusi testi, immagini e informazioni protette da copyright. Il problema è che molti creatori di contenuti – giornalisti, scrittori, artisti, programmatori – non hanno mai dato il consenso all’uso dei loro dati (ne ho parlato qui: Intelligenza Artificiale: il silenzioso sfruttamento delle opere degli autori).

Esempi di controversie legali

Il New York Times ha denunciato OpenAI per aver usato i suoi articoli senza permesso (Il New York Times ha fatto causa a OpenAI e Microsoft per aver usato materiale protetto da copyright – Il Post). Più recentemente, è emerso che OpenAI ha cancellato accidentalmente dati rilevanti per il processo, complicando ulteriormente la controversia (Oops! OpenAI just deleted important legal data in a lawsuit from The New York Times su Business Insider).
Scrittori e artisti stanno chiedendo nuove regolamentazioni per impedire che le AI si “allenino” sulle loro opere senza compensazione (Contro l’intelligenza artificiale che si “allena” su opere d’arte firmano 6.500 artisti – Wired Italia). Ad oggi, oltre 40.000 artisti hanno aderito all’iniziativa per proteggere le loro opere (AI Training Statement – www.aitrainingstatement.org).
Piattaforme come Reddit hanno “venduto” l’accesso ai loro dati, dopo aver capito quanto valgano per l’addestramento dei modelli AI (Reddit si è accordato con OpenAI per permetterle di usare i suoi contenuti per allenare i modelli di intelligenza artificiale – Il Post).

OpenAI ha sempre giustificato il proprio operato appellandosi al concetto di “fair use”, una dottrina del diritto statunitense che permette l’uso limitato di materiale protetto da copyright senza autorizzazione. Ma la sua posizione è controversa e, in molti paesi, il suo approccio sarebbe già considerato una violazione della proprietà intellettuale.

Tant’è che, in UE, per competere, è stata creata l’eccezione al copyright del data mining, che consente l’uso dei dati a scopi di ricerca e AI senza licenze (ne parlo anche qui: L’AI Act ha ucciso il Copyright? Riflessioni sul plagio nell’era dell’AI – Canella Camaiora).

La domanda allora è: se OpenAI ha costruito il proprio successo attingendo da dati di terzi senza licenza, può davvero accusare DeepSeek di comportamento scorretto?

Il caso DeepSeek: furto di tecnologia o concorrenza legittima?

La questione centrale della contesa tra OpenAI e DeepSeek è se la startup cinese abbia effettivamente violato i diritti di proprietà intellettuale di OpenAI o se abbia semplicemente utilizzato tecniche di reverse engineering. La differenza è sostanziale: il reverse engineering, se condotto in modo lecito, è una pratica accettata e diffusa nell’industria tecnologica. Se DeepSeek avesse avuto accesso ai modelli di OpenAI tramite canali riservati o dati protetti dall’API, la sua condotta costituirebbe una violazione contrattuale. Tuttavia, se si fosse limitata a studiare gli output di ChatGPT, analizzandone il comportamento e traendo conclusioni statistiche per addestrare un proprio modello, la questione diventerebbe molto più sfumata.

Molti giganti della tecnologia hanno basato il loro sviluppo su pratiche simili. La Microsoft degli anni ‘80 fece reverse engineering del sistema operativo IBM per creare MS-DOS, dando origine al suo dominio nel settore software (cfr. Schulman, A. “A blast from the past: Disassembling DOS“, Software Litigation Consulting). Allo stesso modo, nei primi anni 2000, aziende come Google hanno costruito motori di ricerca imparando dai sistemi esistenti (cfr. What Would Google Do?: Reverse-Engineering the Fastest Growing Company in the History of the World by Jeff Jarvis). La differenza chiave sta nel metodo: DeepSeek ha copiato OpenAI o ha semplicemente imparato da essa?

Se DeepSeek ha sfruttato i dati di OpenAI violando i termini di servizio dell’API, la sua condotta potrebbe essere considerata un abuso. Tuttavia, se ha semplicemente studiato le risposte di ChatGPT senza accedere direttamente ai dati interni, potrebbe rientrare in una zona grigia simile a quella dei modelli di AI che si addestrano su contenuti pubblici.

Un caso parallelo è quello di Stable Diffusion, il modello AI per la generazione di immagini, accusato di aver sfruttato opere artistiche senza autorizzazione (cfr. AI companies lose bid to dismiss parts of visual artists’ copyright case | Reuters ). Gli sviluppatori sostengono che il modello non “copi” direttamente immagini, ma apprenda concetti stilistici. OpenAI potrebbe trovarsi nella stessa posizione degli artisti che l’hanno denunciata: se ha tratto ispirazione da dati pubblici senza consenso, può davvero impedire ad altri di fare lo stesso con i suoi modelli?

Dietro la questione legale c’è anche un aspetto geopolitico: OpenAI è una società americana, mentre DeepSeek è una startup cinese. Negli ultimi anni, gli Stati Uniti hanno rafforzato le restrizioni tecnologiche contro la Cina, limitando l’accesso ai chip AI e al software avanzato (ne ho parlato su linkedin quando sono crollate le azioni NVIDIA e quando il garante privacy italiano ha bloccato Deepseek).

Accusare DeepSeek di furto di proprietà intellettuale potrebbe quindi essere anche un modo per rallentare la concorrenza cinese nel settore dell’AI. Ma se DeepSeek ha usato solo il reverse engineering per costruire il proprio modello, le accuse di OpenAI potrebbero non reggere in tribunale.

Qual è la vera posta in gioco?

La battaglia tra OpenAI e DeepSeek non riguarda solo la proprietà intellettuale, ma il controllo delle tecnologie che plasmeranno il futuro. L’intelligenza artificiale è ormai il nuovo campo di battaglia per la supremazia tecnologica globale, e questa controversia dimostra come il potere digitale sia sempre più concentrato nelle mani di pochi (sicuramente non in quelle dell’UE).

Il tema non è solo giuridico: si tratta di una questione di sovranità tecnologica, di accesso alla conoscenza e di equilibrio tra innovazione e monopolio. Se OpenAI riuscirà a far valere le sue accuse, si creerà un precedente per cui solo le grandi aziende con accesso esclusivo ai dati potranno sviluppare modelli di IA avanzati. Se invece DeepSeek dimostrerà di aver operato senza violare alcun diritto, si aprirà un dibattito più ampio su quanto sia realmente possibile proteggere un’IA e sulle reali intenzioni di chi oggi invoca la difesa della proprietà intellettuale.

Come ho scritto in “Tecnomachia: dal mito della libertà digitale alla sovranità tecnologica“, chi governa i dati governa tutto. Internet, che un tempo era una rete decentralizzata, accessibile e libera, si sta trasformando in una struttura controllata da poche multinazionali, che decidono chi può innovare e chi no. La vicenda OpenAI-DeepSeek è solo l’ennesima conferma che la guerra dell’IA non si combatterà solo con migliori algoritmi, ma anche con restrizioni, cause legali e battaglie geopolitiche.

La vera domanda che dovremmo porci non è se DeepSeek abbia copiato OpenAI, ma se davvero vogliamo un futuro in cui l’intelligenza artificiale appartiene solo a pochi.

Se OpenAI riuscisse a bloccare DeepSeek con accuse di violazione della proprietà intellettuale, potrebbe rafforzare il proprio monopolio e impedire la crescita di concorrenti cinesi, ma non solo quelli. D’altra parte, se DeepSeek riuscisse a dimostrare che ha sviluppato il proprio modello in modo lecito, questo caso potrebbe mettere in discussione le strategie di protezione delle big tech americane.

La verità è che le leggi sull’intelligenza artificiale, incluso l’AI Act, sono ancora vaghe e immature.

DeepSeek non è solo un’app cinese in crescita: è un simbolo della sfida alla dominazione delle big tech occidentali nel campo dell’AI. Il suo scontro con OpenAI ci costringe a riflettere su domande fondamentali:

Le AI devono pagare per i dati con cui vengono addestrate?
Chi ha il diritto di proteggere la propria tecnologia e chi invece può essere accusato di furto?
Le accuse di OpenAI sono legittime o solo un modo per difendere il proprio monopolio?

OpenAI ha usato dati raccolti liberamente da internet per costruire la sua intelligenza artificiale, e ora cerca di impedire agli altri di fare lo stesso con la sua tecnologia. Questo è il vero punto critico: le regole valgono per tutti oppure no?

E se oggi il mondo guarda con sospetto alla “piccola balena” cinese, forse domani sarà costretto a riconoscere che questa vicenda era solo un diversivo.

© Canella Camaiora Sta. Tutti i diritti riservati.
Data di pubblicazione: 12 Febbraio 2025

È consentita la riproduzione testuale dell’articolo, anche a fini commerciali, nei limiti del 15% della sua totalità a condizione che venga indicata chiaramente la fonte. In caso di riproduzione online, deve essere inserito un link all’articolo originale. La riproduzione o la parafrasi non autorizzata e senza indicazione della fonte sarà perseguita legalmente.

Attività

Clienti

Articoli

Eventi

Lo studio

Contatti

approfondimento

Tempo medio di lettura 9'

Perché DeepSeek, la piccola balena cinese, deve farci riflettere

Pubblicato in: Proprietà Intellettuale

di Arlo Canella

Cos’è la distillazione del modello?

Proprietà Intellettuale

OpenAI ha usato metodi simili per addestrare i suoi modelli?

Il caso DeepSeek: furto di tecnologia o concorrenza legittima?

Controversie in ambito tecnologico

Qual è la vera posta in gioco?

Managing Partner dello studio legale Canella Camaiora, iscritto all’Ordine degli Avvocati di Milano, appassionato di Branding, Comunicazione e Design.

Leggi la bio

Torna alla lista degli articoli

Hai bisogno di un preventivo personalizzato?

Privacy Policy

Condizioni di utilizzo

Cookie Policy

Copyright © 2008- 2025 Canella Camaiora S.t.A. - P.IVA 09405500969 - All rights reserved - Developed by Paperplane - Powered by WordPress

Attività

Clienti

Articoli

Eventi

Lo studio

Contatti

approfondimento

Tempo medio di lettura 9'

Perché DeepSeek, la piccola balena cinese, deve farci riflettere

Pubblicato in: Proprietà Intellettuale

di Arlo Canella

Cos’è la distillazione del modello?

Proprietà Intellettuale

OpenAI ha usato metodi simili per addestrare i suoi modelli?

Il caso DeepSeek: furto di tecnologia o concorrenza legittima?

Controversie in ambito tecnologico

Qual è la vera posta in gioco?

Managing Partner dello studio legale Canella Camaiora, iscritto all’Ordine degli Avvocati di Milano, appassionato di Branding, Comunicazione e Design.

Leggi la bio

Torna alla lista degli articoli

Hai bisogno di un preventivo personalizzato?

Iscriviti alla Newsletter dello Studio Legale Canella Camaiora!

Resta aggiornato su tutte le novità legali, webinar esclusivi, guide pratiche e molto altro.

Privacy Policy

Condizioni di utilizzo

Cookie Policy

Copyright © 2008- 2025 Canella Camaiora S.t.A. - P.IVA 09405500969 - All rights reserved - Developed by Paperplane - Powered by WordPress