Il New York Times e il Guardian hanno deciso di non far entrare più Internet Archive nei loro siti. Internet Archive è come una grande biblioteca di Internet: salva le pagine web e permette di rivederle anche dopo molti anni grazie a uno strumento chiamato Wayback Machine, che mostra com’erano i siti in passato.
I due giornali hanno preso questa decisione perché temono che i loro articoli, visibili gratuitamente nell’archivio, possano essere usati dalle aziende di intelligenza artificiale per “insegnare” alle macchine a scrivere e rispondere, senza aver chiesto il permesso. Un portavoce del New York Times ha spiegato che “non hanno l’autorizzazione” e per questo l’accesso è stato bloccato.
Per fermare Internet Archive, i giornali usano delle regole tecniche. Su Internet ci sono programmi automatici chiamati crawler, simili a piccoli robot, che visitano i siti e copiano le pagine. I siti possono dire a questi robot dove possono andare e dove no, usando un file chiamato robots.txt. Il New York Times ha inserito il robot di Internet Archive tra quelli che non possono entrare.
Anche il Guardian ha fatto una scelta simile. Secondo il responsabile delle licenze, Robert Hahn, l’accesso agli articoli è stato limitato per ridurre il rischio che le aziende di intelligenza artificiale possano copiarli dall’archivio. Alcune pagine generali del sito, come le homepage o le sezioni tematiche, restano però visibili nella Wayback Machine.
Hahn ha spiegato che la maggiore preoccupazione riguarda le API, strumenti che permettono alle macchine di prendere tanti dati tutti insieme e in modo ordinato. Per le aziende di intelligenza artificiale, questi strumenti rendono più facile raccogliere grandi quantità di testi. La Wayback Machine, invece, è considerata meno pericolosa perché i dati non sono così organizzati.
Internet Archive ha come obiettivo quello di conservare la memoria di Internet. Usa i crawler per fare “fotografie” delle pagine web e ne conserva un numero enorme, più di mille miliardi. Molte di queste copie possono essere viste da chiunque. Proprio questa apertura ha attirato l’interesse delle aziende che cercano dati per addestrare l’intelligenza artificiale.
Il fondatore di Internet Archive, Brewster Kahle, ha detto che se i giornali chiudono l’accesso a queste biblioteche digitali, le persone avranno meno possibilità di consultare documenti importanti del passato. Ha anche spiegato che l’organizzazione sta usando sistemi di sicurezza per evitare che troppe richieste arrivino tutte insieme.
Nel maggio 2023 Internet Archive ha dovuto fermarsi per un po’ perché i suoi computer erano sovraccarichi. Un’azienda di intelligenza artificiale stava facendo moltissime richieste, decine di migliaia ogni secondo, per copiare testi dagli archivi pubblici. Il direttore della Wayback Machine, Mark Graham, ha raccontato che l’organizzazione ha bloccato questi accessi.
“Li abbiamo contattati. Alla fine ci hanno fatto una donazione”, ha detto Graham. “Alla fine si sono scusati e hanno smesso di farlo”. Dopo l’episodio, Brewster Kahle ha invitato chi vuole usare molti materiali a farlo lentamente e a contattare prima Internet Archive. “Se state avviando un progetto di grandi dimensioni, contattateci… siamo qui per aiutarvi”, ha scritto.
Questo episodio ha spinto molti editori a fare più attenzione a come i loro siti vengono visitati dai robot automatici. Sempre più testate stanno cambiando le regole nei file robots.txt per decidere chi può copiare le loro pagine e chi no. Oltre al Guardian e al New York Times, anche altri giornali internazionali stanno limitando l’accesso ai crawler collegati agli archivi digitali e alle aziende di intelligenza artificiale.