News

Meta viola il copyright di libri digitali per addestrare IA

15 Gennaio 2024

Autori di rilievo intraprendono azioni legali contro Meta per l’utilizzo non autorizzato di libri digitali nella formazione di Llama e Llama 2, portando alla ribalta le questioni di diritto d’autore nell’intelligenza artificiale generativa.

Un gruppo di scrittori, tra cui Sarah Silverman e Richard Kadrey, ha intentato una causa contro Meta in California. Accusano il colosso tecnologico di aver utilizzato illegalmente i loro lavori protetti dal diritto d’autore per sviluppare i suoi modelli linguistici avanzati, Llama e Llama 2, entrambi impiegati in servizi di intelligenza artificiale generativa.

Secondo i documenti del tribunale, accessibili da giovedì 11 gennaio, Meta ha ammesso di aver utilizzato “Books3”, un vasto set di dati contenente oltre 195.000 libri digitali, che occupano quasi 37 GB. Il file, creato nel 2020 da Shawn Presser, proviene da un sito web “pirata” noto come “Bibliotik”. Questo database comprende materiali pubblicati sin dai primi anni 2000, molti dei quali, affermano gli autori, sono stati inclusi senza autorizzazione.

La causa contro Meta, guidata da Mark Zuckerberg, mira a responsabilizzare l’azienda per questo presunto uso illecito. Questa vicenda non è isolata nel settore, poiché anche il New York Times ha recentemente citato in giudizio Microsoft e OpenAI per questioni simili relative all’addestramento dei loro modelli.

Nel 2023, Bibliotik è diventato oggetto di attenzione da parte di Rights Alliance, un’organizzazione danese antipirateria, che ha sollevato la questione del blocco di Books3 in conformità con il Digital Millennium Copyright Act (DMCA) degli Stati Uniti.

Meta, pur ammettendo l’uso di Books3, nega qualsiasi violazione intenzionale del diritto d’autore. L’azienda sostiene che l’impiego di Books3 rientri nelle prerogative di “uso corretto”, affermando che l’utilizzo dei libri digitali in questione non richiedeva autorizzazioni, attribuzioni o compensi. Inoltre, Meta contesta la legittimità dell’azione legale, rifiutando di pagare i diritti per l’utilizzo del materiale disponibile su Books3.

Questa posizione solleva questioni complesse sul confine tra il diritto d’autore e l’uso lecito di materiale protetto nell’ambito dello sviluppo di intelligenza artificiale. La sfida principale è determinare in che misura l’utilizzo di testi protetti da copyright possa essere considerato necessario e giustificabile per l’addestramento di modelli di intelligenza artificiale.

OpenAI, un altro gigante nel campo dell’IA e anch’esso coinvolto in cause legali simili, ha precedentemente dichiarato che è “impossibile” formare modelli linguistici avanzati senza ricorrere a materiale coperto da diritto d’autore. Questa affermazione è stata una risposta al Communications and Digital Select Committee del Regno Unito, il quale sta conducendo un’indagine per affrontare le questioni legali legate agli attuali sistemi di intelligenza artificiale.

Fonte 1

Fonte 2

Fonte 3

Articoli recenti