Intelligenze artificiali e libri piratati: il caso Meta e OpenAI scuote il mondo dell’editoria

L’intelligenza artificiale (IA) sta rivoluzionando il modo in cui interagiamo con la tecnologia, ma dietro i suoi progressi si nasconde una pratica controversa: l’uso di enormi quantità di testi, spesso ottenuti illegalmente, per addestrare modelli linguistici come quelli di Meta e OpenAI. Una causa legale contro Meta, emersa negli Stati Uniti, ha portato alla luce dettagli inquietanti: le grandi aziende tecnologiche attingono da librerie online non autorizzate, come LibGen, per alimentare i loro sistemi di IA. Questo scandalo, che coinvolge anche giganti come OpenAI (creatore di ChatGPT), solleva interrogativi etici e legali sul futuro della proprietà intellettuale nell’era digitale.
La causa che svela il retroscena
Tutto nasce da un’azione legale intentata contro Meta in California, dove autori ed editori accusano l’azienda di aver violato il copyright per sviluppare Llama 3, il suo ultimo modello linguistico. Secondo i documenti resi pubblici, Meta avrebbe utilizzato una vastissima collezione di testi estratti da piattaforme pirata, tra cui LibGen, nota per offrire milioni di libri, articoli accademici e pubblicazioni senza il consenso dei detentori dei diritti. La stessa pratica è stata attribuita a OpenAI, Google e altre aziende del settore, che vedono in queste librerie una miniera d’oro per “allenare” i loro sistemi a generare testi sempre più naturali e convincenti.
Le aziende si difendono sostenendo che il loro uso dei dati rientra nel “fair use”, un principio legale che permette di impiegare materiale protetto da copyright a fini trasformativi senza autorizzazione. “I nostri sistemi producono testi nuovi, senza riproporre alla lettera quelli di partenza”, affermano i portavoce di Meta, una linea condivisa anche da OpenAI. Ma editori e autori non ci stanno: per loro, l’addestramento delle IA su testi piratati è una violazione bella e buona, che danneggia chi vive della propria creatività.
L’urgenza di competere
Il caso di Meta è emblematico di una corsa forsennata nel settore dell’IA. Con OpenAI che domina il mercato grazie a ChatGPT, Meta ha accelerato lo sviluppo di Llama 3 per non restare indietro. I documenti della causa rivelano che i dirigenti dell’azienda, consapevoli delle implicazioni legali, avevano preso in considerazione l’idea di ottenere testi in licenza, pagando autori ed editori. Tuttavia, la pressione competitiva sembra aver spinto verso una scorciatoia più rapida ed economica: il ricorso a fonti pirata. “La società stava lavorando a Llama 3 con una certa urgenza per rendersi più competitiva con OpenAI”, si legge nei fascicoli giudiziari, un’ammissione che getta luce sulle priorità di queste multinazionali.
LibGen, in particolare, è un alleato perfetto per chi cerca dati in abbondanza. Con un catalogo che spazia dai classici della letteratura ai saggi accademici più recenti, questa piattaforma offre un accesso praticamente illimitato a contenuti aggiornati, spesso disponibili a poche ore dalla pubblicazione ufficiale. Ma ricostruire esattamente quali testi siano stati usati da Meta o OpenAI è un’impresa quasi impossibile, un nodo che complica ulteriormente le cause legali in corso.
Un dilemma etico e legale
La questione va oltre il semplice furto di contenuti. L’IA generativa, che produce testi, immagini e persino musica, si basa su un principio fondamentale: apprendere da ciò che già esiste. Ma chi paga il prezzo di questo apprendimento? Gli autori, che vedono i loro lavori sfruttati senza compenso, si sentono traditi. “Molti editori e autori ritengono che le cose stiano diversamente”, scrive Il Post, riferendosi alla convinzione che l’output delle IA non sia davvero “nuovo”, ma un’elaborazione diretta di ciò che è stato immesso nel sistema.
Nel frattempo, le aziende tecnologiche continuano a navigare in un’area grigia del diritto. Negli Stati Uniti, il fair use è un concetto flessibile, ma non universalmente accettato. In Europa, dove le norme sul copyright sono più rigide, l’assistente AI di Meta ha subito ritardi non solo per questioni di privacy, ma anche per il timore di violazioni simili. Eppure, la diffusione globale di questi strumenti – Meta AI è già usato da centinaia di milioni di persone fuori dall’UE – rende difficile fermare il fenomeno.
Le implicazioni per il futuro
Questo scandalo non è solo una disputa legale: è un campanello d’allarme per il mondo dell’editoria e della creatività. Se le IA possono essere addestrate su testi piratati senza conseguenze, quale incentivo resta per produrre contenuti originali? E come si può tracciare una linea tra ispirazione e plagio in un’epoca in cui le macchine “pensano” grazie al lavoro umano? Le cause in corso potrebbero stabilire precedenti cruciali, ma il ritmo dell’innovazione tecnologica sembra superare quello della giustizia.
Per ora, Meta e OpenAI continuano a difendere le loro pratiche, mentre editori e autori cercano di farsi ascoltare. La posta in gioco è alta: non si tratta solo di risarcimenti, ma di ridefinire i confini della proprietà intellettuale in un mondo dominato dall’intelligenza artificiale. La partita è appena iniziata, e il suo esito potrebbe cambiare il modo in cui leggiamo, scriviamo e immaginiamo il futuro.