Il caso dei libri distrutti per addestrare l’intelligenza artificiale: Anthropic e la controversa strategia “scansiona e distruggi”

L'azienda tecnologica è finita al centro delle polemiche per un metodo aggressivo di digitalizzazione: l'acquisto di migliaia di libri fisici che vengono smembrati e distrutti per alimentare l'addestramento dei modelli linguistici

Secondo un’inchiesta pubblicata dal Washington Post, la società di intelligenza artificiale Anthropic ha adottato una strategia di acquisizione dati che ha sollevato forti preoccupazioni nel mondo della cultura. Per ottenere testi di alta qualità non ancora disponibili online o protetti da paywall digitali, l’azienda avrebbe iniziato ad acquistare massicce quantità di libri fisici. Il processo, descritto come “scansiona e distruggi”, prevede la rimozione della rilegatura dei volumi per consentire a scanner ad altissima velocità di acquisire le pagine nel modo più rapido possibile, rendendo di fatto i libri originali dei rifiuti cartacei subito dopo il passaggio digitale.

La reazione del mondo editoriale e degli autori

La notizia ha scatenato un’ondata di indignazione tra scrittori, bibliotecari e detentori di copyright. Molti accusano Anthropic di trattare il patrimonio culturale come mera materia prima da consumare, senza alcun rispetto per l’oggetto fisico o per i diritti di chi ha creato quelle opere. Il timore principale è che questa pratica permetta alle aziende di intelligenza artificiale di aggirare le restrizioni digitali, creando “copie ombra” di intere biblioteche per addestrare modelli che, in futuro, potrebbero competere direttamente con gli autori originali, il tutto senza aver mai ottenuto una licenza per l’uso dei contenuti protetti.

La difesa di Anthropic e le necessità tecnologiche

Dal canto suo, l’azienda difende la necessità di attingere a fonti di dati più varie e strutturate. Con l’esaurimento dei testi di alta qualità reperibili facilmente sul web, i modelli di frontiera richiedono informazioni più sofisticate che si trovano solo nei saggi accademici, nei testi specialistici e nella narrativa di alta qualità. I portavoce del settore tecnologico sostengono che il “fair use” dovrebbe coprire l’analisi computazionale dei testi, anche se ottenuti tramite la distruzione di copie fisiche legalmente acquistate. Questa posizione, tuttavia, è contestata dai legali delle case editrici, che vedono in questo processo una violazione sistematica della proprietà intellettuale su scala industriale.

Un futuro di tensioni tra cultura e progresso

Il caso Anthropic rappresenta solo l’ultimo capitolo di una tensione crescente tra le Big Tech e il mondo della proprietà intellettuale. La distruzione fisica dei libri per accelerare il progresso degli algoritmi viene vista da molti critici come una metafora inquietante del rapporto attuale tra tecnologia e sapere umano. Mentre il dibattito legale si sposta nelle aule di tribunale, resta aperta la questione etica: se sia accettabile sacrificare l’integrità dei beni culturali fisici per alimentare lo sviluppo di strumenti digitali sempre più potenti, ma potenzialmente parassitari rispetto alle fonti da cui traggono la loro conoscenza.