Pseudonimizzazione e LLM: GDPR Protection

Sostituire i nomi dei clienti con codici alfanumerici prima di inviare i dati a un LLM è sufficiente per il GDPR?

No. La pseudonimizzazione non tramuta il dato in informazione anonima. Finché l'azienda conserva la chiave di decodifica o dispone di informazioni sufficienti per re-identificare l'interessato, i dati rimangono dati personali a tutti gli effetti del GDPR. L'EDPB è categorico: per uscire dall'ambito applicativo del Regolamento, la probabilità di identificazione deve essere matematicamente insignificante, una soglia che la semplice sostituzione di nomi non raggiunge.

Fonti: EDPB — Guidelines 02/2025 on AI models and personal data processing · Garante Privacy — Pseudonimizzazione · WP29 Opinion 05/2014 on Anonymisation Techniques · Reg. UE 2016/679 (GDPR) Art. 4 n. 5

La pseudonimizzazione è una misura di sicurezza raccomandata dal GDPR e apprezzata dalle autorità di controllo. Ma in molte organizzazioni si è trasformata in un malinteso operativo che crea un'illusione di conformità. Questo articolo chiarisce la distinzione fondamentale tra pseudonimizzazione e anonimizzazione, spiega la posizione tecnica dell'EDPB sui modelli linguistici e indica le misure che producono effetti giuridici reali. Per il quadro generale sui rischi dell'AI generativa con i dati dei clienti, si veda l'articolo su ChatGPT e GDPR in azienda.

Pseudonimizzazione vs anonimizzazione: la distinzione che molti ignorano

Il GDPR definisce la pseudonimizzazione all'Art. 4, n. 5 come "il trattamento dei dati personali in modo tale che i dati personali non possano più essere attribuiti a un interessato specifico senza l'utilizzo di informazioni aggiuntive, a condizione che tali informazioni aggiuntive siano conservate separatamente e soggette a misure tecniche e organizzative intese a garantire che tali dati personali non siano attribuiti a una persona fisica identificata o identificabile".

La chiave è nella clausola condizionale: la pseudonimizzazione funziona come misura di protezione soltanto se le informazioni necessarie alla re-identificazione sono conservate separatamente e sotto adeguate misure di sicurezza. Il dato pseudonimizzato rimane un dato personale a tutti gli effetti e resta interamente soggetto al GDPR.

L'anonimizzazione vera, quella che fa uscire il dato dall'ambito applicativo del Regolamento, richiede che la re-identificazione sia irreversibile: nessun mezzo ragionevolmente disponibile, né da parte del titolare né da parte di terzi, dovrebbe consentire di risalire all'identità dell'interessato. Nella pratica, un'anonimizzazione genuina è molto più difficile da realizzare di quanto si pensi, e i modelli linguistici la rendono ancora più difficile.

Perché i LLM rendono la pseudonimizzazione ancora meno efficace

I Large Language Model introducono un fattore di rischio aggiuntivo e specifico rispetto ai trattamenti tradizionali: la capacità di estrarre informazioni implicite dal contesto.

Immagina di inviare a un LLM il seguente testo pseudonimizzato: "Il cliente C-447 ha acquistato 3.200 unità nel Q3 nel settore farmaceutico, opera nel nord-est Italia, fattura tra 50 e 100 milioni di euro annui." Anche senza nome o codice fiscale, un modello linguistico sufficientemente potente può, incrociando questo testo con informazioni pubblicamente disponibili (bilanci depositati, comunicati stampa, database di settore), ridurre drasticamente il numero di soggetti compatibili con quella descrizione. Studi accademici hanno dimostrato che i LLM possono re-identificare utenti pseudonimi partendo da contenuti testuali ordinari con tassi di successo sorprendenti.

Questo fenomeno non è teorico: è la ragione per cui l'EDPB ha adottato una posizione tecnica specifica sui modelli di intelligenza artificiale.

La posizione dell'EDPB: il test della "probabilità insignificante"

L'EDPB, nelle sue linee guida sui modelli AI e il trattamento dei dati personali (2025), stabilisce che un modello di intelligenza artificiale può essere considerato anonimo — e quindi sottratto all'ambito applicativo del GDPR — soltanto quando la probabilità matematica di estrarre e ricavare i dati personali sottostanti sia del tutto insignificante. Questa valutazione deve considerare tutti i mezzi che il titolare o un soggetto terzo potrebbe ragionevolmente impiegare.

Il test comprende tre fattori:

1. La natura dei dati e il contesto. Più un dataset è specifico e ricco di dettagli contestuali (settore, area geografica, dimensione aziendale, periodo temporale), più è difficile che la rimozione dei nomi produca un'anonimizzazione reale.

2. La disponibilità di dati esterni per la correlazione. In un'epoca in cui enormi quantità di informazioni aziendali sono pubblicamente accessibili (Registro Imprese, bilanci, comunicati stampa, LinkedIn), la re-identificazione attraverso correlazione è molto più facile di quanto fosse in passato.

3. Le capacità di inferenza del modello destinatario. I LLM moderni hanno capacità di ragionamento contestuale che rendono la re-identificazione possibile anche in assenza di identificatori diretti.

L'EDPB conclude che, nella grande maggioranza dei casi pratici, i dati pseudonimizzati inviati a LLM rimangono dati personali e richiedono tutte le garanzie previste dal GDPR: base giuridica valida, DPA, TIA per i trasferimenti extra-UE.

I dati possono essere "assorbiti" nei pesi del modello

Un'ulteriore preoccupazione tecnica riguarda i modelli che utilizzano i dati in input per l'addestramento continuo (fine-tuning) o per l'aggiornamento dei parametri. In questi casi, le informazioni personali non transitano semplicemente sui server del fornitore: vengono incorporate nei pesi neurali del modello, rendendole potenzialmente recuperabili attraverso tecniche di attacco specifiche come il membership inference attack o il model inversion attack.

L'EDPB avverte che questa caratteristica architetturale dei LLM trasforma ogni dato immesso durante una sessione di addestramento in un rischio strutturale e permanente per i diritti degli interessati, molto più grave della semplice trasmissione dati verso un server esterno.

Cosa fare invece: le misure che producono effetti reali

La pseudonimizzazione, pur non risolvendo il problema giuridico da sola, rimane utile come misura complementare. Il problema è trattarla come soluzione esclusiva.

Misura 1: Anonimizzazione statistica robusta. Per i dataset analitici (metriche aggregate, trend, report) che non richiedono identificazione individuale, è possibile applicare tecniche di anonimizzazione statistica (k-anonimato, differenziale privacy) che riducono la probabilità di re-identificazione a livelli giuridicamente significativi. Questa operazione richiede competenze tecniche specifiche e deve essere documentata.

Misura 2: Minimizzazione radicale dei dati in input. Prima di inviare qualsiasi informazione a un LLM, chiediti se quell'informazione è davvero necessaria per l'output desiderato. Nella maggior parte dei casi, il modello può produrre lo stesso risultato con un insieme di dati molto più ridotto e meno identificativo.

Misura 3: Uso di LLM on-premise o in cloud privato. Se i dati devono essere elaborati in forma non anonimizzata, la soluzione tecnicamente corretta è processarli su infrastruttura propria (modelli open-source on-premise) o tramite cloud privato con isolamento garantito contrattualmente. In questo scenario, il dato non lascia il perimetro aziendale.

Misura 4: DPA con clausole specifiche per LLM. Se si usano API di LLM esterni con garanzie contrattuali (versione Enterprise), il DPA deve includere esplicitamente il divieto di utilizzo dei dati per l'addestramento, le clausole SCC e la TIA. Per approfondire, si veda l'articolo sui DPA con i fornitori di AI.

Tabella riepilogativa: effetti giuridici delle diverse misure

Misura	Dati ancora personali?	GDPR applicabile?	Sufficiente da sola?
Pseudonimizzazione (sostituzione nomi)	Sì	Sì	No
Pseudonimizzazione + chiave separata	Sì (chiave accessibile)	Sì	No
Anonimizzazione statistica robusta	No (se correttamente realizzata)	No	Sì (se verificata)
Minimizzazione estrema senza dati identificativi	Dipende dal contesto	Dipende	Parzialmente
LLM on-premise senza trasferimento	Sì (ma nessun trasferimento)	Sì (solo obblighi interni)	Sì (elimina rischio trasferimento)
API Enterprise con DPA + TIA + no-training	Sì	Sì (coperto da DPA)	Sì (se DPA completo)

Necessiti di supporto?

Se necessiti di consulenza sul tuo caso specifico, contattami per valutare assieme la situazione.

Richiedi Consulenza

Articolo aggiornato al 26 maggio 2026. Le linee guida EDPB sui modelli AI e la protezione dei dati (2025) sono in fase di finalizzazione; si raccomanda di verificare la versione definitiva al momento della pubblicazione. Per supporto specifico, contatta lo studio.