Copyright e Web Scraping per AI: Quando Diventa Illegale

Il Web Scraping per l'AI è l'estrazione massiva e automatizzata di dati testuali o multimediali da siti web pubblici per addestrare modelli di Intelligenza Artificiale (LLM). In Italia, se i dati estratti contengono informazioni anagrafiche, la pratica è illegale qualora difetti di una chiara base giuridica ex GDPR e del rispetto delle direttive sul diritto d'autore (TDM).

In sintesi: (1) I Dati Personali visibili online non sono di libero utilizzo senza il consenso degli interessati. (2) È tecnicamente impossibile fornire l'informativa ex Art. 14 GDPR entro 30 giorni per miliardi di record estratti. (3) L'eccezione commerciale per Text and Data Mining (TDM) decade se il sito oppone esplicito divieto tramite file robots.txt. (4) Ignorare i paywall per lo scraping integra il reato di accesso abusivo informatico. (5) L'AI Act impone la trasparenza sulle fonti di addestramento.

"Se è pubblicato su un sito visibile a tutti, è di dominio pubblico e posso estrarlo". Questo è il pericoloso malinteso alla base di innumerevoli startup e progetti informatici di Machine Learning. Quotidianamente, migliaia di crawler e bot estrattori (scraper) rastrellano testate giornalistiche, portali di annunci professionali, forum e immagini da Instagram per generare Dataset proprietari, volti al fine-tuning o all'architettura base dei propri Large Language Models (LLM).

Sotto il profilo legale, l'orientamento istituzionale in Italia si è cristallizzato con la Relazione Annuale 2024 del Garante Privacy (presentata a luglio 2025). L'Autorità ha dedicato un focus specifico alle implicazioni dell'intelligenza artificiale generativa e all'addestramento dei modelli tramite tecniche di web scraping. Il concetto è ormai netto: il web non è un buffet All You Can Eat. Lo scraping massivo, laddove indiscriminato e privo di idonea base giuridica, integra violazioni del GDPR, della Direttiva Copyright (UE) 2019/790 e, nei casi più gravi, profili di accesso abusivo a sistema informatico (Art. 615-ter c.p.).

1. Perché estrarre dati personali "pubblici" per l'AI viola palesemente il GDPR?

La prima muraglia legale che arresta aspramente le pratiche di web scraping automatizzato risiede nella natura stessa di ciò che si estrae. La visibilità tecnica di un nome, di una mail su LinkedIn, su elenchi sanitari regionali o su registri professionali non priva in alcun modo quel dato della sua classificazione come Dato Personale.

Secondo l'interpretazione incardinata della Corte di Giustizia Europea (ECJ) e corroborata dal Comitato Europeo per la Protezione dei Dati (EDPB), l'utente o il cittadino presta il suo consenso alla pubblicazione affinché interagisca specificamente all'interno dello scopo o dell'ecosistema di quel network.

Mancanza di base giuridica: Impadronirsi meccanicamente di quelle biografie o recensioni, archiviarle in server proprietari per dare substrato ad una rete neurale costituisce un macro-trattamento per cui non è stato fornito alcun consenso (Opt-in) originario.
Irraggiungibilità degli interessati (Art. 14 GDPR): Se crei un database enorme usando scraping occulterai un dettaglio vitale. Sei obbligato ad informare tutti quegli estratti "entro 30 giorni" fornendogli l'Informativa Privacy. Nello scraping si salta totalmente la trasparenza (chi sciucca miliardi di dati è palesemente impossibilitato a contattarli, ammettendo così il trattamento clandestino). I maxiprovvedimenti del Garante nei confronti di operatori multinazionali operanti nel tracking biometrico o di background check hanno certificato che la dicitura "Legittimo Interesse Aziendale dell'algoritmo" crolla istantaneamente di fronte alla totale espropriazione occulta subìta dai cittadini a cui si svuotano le identità online.

2. In quali casi la Direttiva TDM consente il data mining sui contenuti protetti da copyright?

Entriamo nel regno della tutela commerciale. Posti di esserci tenuti a distanza dai volti o dai dati degli utenti, decidiamo di estrarre solamente archivi di blog, analisi tecniche o giornali per addestrare un Bot Verticale aziendale sulle Risorse Umane o sul Diritto Applicato. Interviene qui il Codice sul diritto d'autore e sul Copyright informatico.

La Legge è recentemente convergente: la Direttiva UE 2019/790 sul Copyright nel Mercato Unico Digitale (recepita interamente) cristallizza all'Articolo 4 la deroga essenziale alla violazione: l'eccezione per l'estrazione di testi e di dati (TDM - Text and Data Mining). L'Unione Europea ha stabilito che lo scraping analitico a uso commerciale non è vietato a priori senza autorizzazione, ma è vincolato strettissimamente alle volontà dell'editore del sito derubato.

Questa eccezione esplode dinanzi a tre grandissimi paletti operativi a totale onere dello Scraper:

Riserva e Opt-out Digitale leggibile da dispositivo automatico: Il Machine Reading o estrazione su base algoritmica è permessa solo se il Titolare dei diritti originari non vi si è esplicitamente opposto. Le Autorità avallano l'istituto del file robots.txt come confine fisico. Impostare su un sito il Disallow: GPTBot e inibirne le API rende del tutto illecito e illegale l'ingresso al ragno.
Aggiramento DRM e Termini Contrattuali: Se lo scraping avviene creando falsi account per sfondare Paywall o simulando l'User-Agent per truffare i dispositivi Cloudflare difensivi, si passa direttamente dalla infrazione del copyright all'accesso abusivo a sistema informatico (Art. 615-ter C.P.), di natura eminentemente penale in Italia.
Memorizzazione Riproduttiva o Astrattiva? Il Copyleft europeo concede lo scraping per evincere schemi verbali (ricercare regolarità matematico-linguistiche come "quando la cassazione respinge il ricorso") per lo schema analitico, non concede l'utilizzo rigurgitante di interi lemmi formattati nei pesi algoritmici. Quando un'AI rigurgita i testi pari passo (come testualmente accertato nelle grandi cause dell'editoria US) commette copia pedissequa.

3. Quali obblighi di trasparenza sui dati di addestramento impone l'AI Act dal 2026?

Con la totale e imminente entrata a regine del nuovo AI Act, il Legislatore colma ogni lacuna documentale dei dataset. Diventerà pressoché impossibile nascondere da dove proviene la "scienza" e i token della propria applicazione: i fornitori di nuovi Modelli o Sistemi IA generativi avranno l'obbligo vincolante (Artt. 53-56) di mettere tempestivamente sul mercato un Data Summary (un riepilogo estremamente dettagliato del contenuto e di tutte le fonti usate in fase di training). Tale trasparenza documentale assicurerà ai fornitori di contenuti e ai reporter web il controllo di validità sul rispetto delle restrizioni in capo ai propri copyright, rendendo gli scraper non conformi immediatamente perseguibili legalmente e tecnologicamente rimossi dalla distribuzione dal nascente EU AI Office.

Come Prevenire Il Rischio: Assessment della Base Dati

Ai dipartimenti tecnici e di Machine Learning in Italia viene richiesto oggi un Assessment Preliminare sui Dataset di Training. La liceità per l'addestramento dell'intelligenza artificiale contempla: l'uso di Open Data rigorosi (Licenze MIT, Apache 2.0), l'adozione di Set Sintetici generati de-novo, oppure la stipula di Licenze Dati Plurime (Data Licensing) concordate con i fornitori di database originali.

L'orientamento del Garante (2024-2025) sottolinea che lo sviluppo tecnologico non può prescindere dalla Governance Responsabile. Prelevare dati dal web sperando nell'ignavia della fonte espone l'azienda a rischi sanzionatori che, nel solo 2024, hanno visto il Garante riscuotere oltre 24 milioni di euro in sanzioni complessive.

Domande Frequenti (FAQ)

Lo scraping di articoli per uso interno aziendale è legale? Dipende dalla finalità e dalle barriere opposte dal sito. L'eccezione per Text and Data Mining (TDM) commerciale (Art. 4 Direttiva 2019/790) è permessa solo se il titolare dei diritti non ha esercitato un opt-out esplicito (es. tramite file robots.txt). Se il sito riporta "Disallow: [User-Agent]", lo scraping diventa illecito. Esiste un'eccezione più ampia solo per la ricerca scientifica senza scopo di lucro (Art. 3).

Come posso bloccare tecnicamente lo scraping dei miei contenuti? Oltre a indicare nei Termini e Condizioni il divieto di TDM per finalità di addestramento AI, è fondamentale implementare restrizioni nel file robots.txt del sito, bloccando gli user-agent noti (es. GPTBot, CCBot, Google-Extended). Questa azione costituisce una barriera legale valida ai sensi della normativa sul diritto d'autore.

Lo scraping di sentenze di tribunale presenta rischi privacy? Sì. Sebbene le sentenze siano pubbliche, esse contengono spesso dati personali "particolari" (Art. 9 GDPR) relativi a salute, procedimenti penali o opinioni. Un addestramento AI su sentenze non preventivamente anonimizzate espone al rischio di data breach e sanzioni del Garante Privacy, come evidenziato nella Relazione 2024 dell'Autorità.

Qual è la sanzione per lo scraping illecito in Italia? Le sanzioni possono essere duplici: pecuniarie ai sensi del GDPR (fino a 20 milioni di euro o il 4% del fatturato) e penali in caso di accesso abusivo a sistema informatico (Art. 615-ter c.p.). Il Garante Privacy monitora attivamente questi fenomeni nei suoi piani ispettivi annuali.

L'AI Act obbliga a dichiarare l'uso di dati protetti da copyright? Sì. Gli Articoli 53 e 56 dell'AI Act impongono ai fornitori di modelli GPAI l'obbligo di pubblicare un sommario dettagliato dei contenuti utilizzati per l'addestramento, facilitando l'enforcement dei diritti di proprietà intellettuale da parte dei titolari originali.