Il puzzle dei dati pubblici in Italia: come riutilizzare le informazioni senza re-identificare le persone
I dati del settore pubblico possono alimentare analisi e IA, ma la vera questione di sicurezza è se i controlli sulla privacy resistono a collegamenti, riutilizzo e inferenza.
I governi spesso detengono alcuni dei dati più utili della società, ma l'utilità crea pressione: una volta che le informazioni vengono riutilizzate tra sistemi diversi, aumenta anche il rischio di esposizione dei cittadini. La sfida centrale non consiste semplicemente nel nascondere i nomi. Si tratta di decidere se un insieme di dati debba essere anonimizzato, pseudonimizzato, protetto con Privacy Enhancing Technologies, oppure trasformato in record sintetici prima di essere condiviso o analizzato.
Dati rapidi
- Le pubbliche amministrazioni possono riutilizzare i dati per servizi, analisi e IA solo se le tutele della privacy sono adeguate all'uso previsto.
- La pseudonimizzazione riduce l'esposizione, ma i dati possono comunque rimanere dati personali se esiste la chiave di ricollegamento.
- L'anonimizzazione è una soglia molto più alta perché l'identificazione non deve essere ragionevolmente probabile usando i mezzi disponibili.
- La k-anonymity può ridurre la singolarizzazione, ma non elimina ogni percorso di re-identificazione.
- I dati sintetici possono supportare la condivisione e i test, ma il loro valore in termini di privacy dipende in larga misura da come vengono generati.
Il rischio reale non è solo il furto
Il problema cyber più interessante qui è la divulgazione per inferenza. Anche quando gli identificatori diretti vengono rimossi, una persona può comunque essere singolarizzata combinando quasi-identificatori, set di dati esterni o rilasci ripetuti nel tempo. Ecco perché l'ingegneria della privacy tratta il riutilizzo dei dati come un processo controllato, non come una semplice operazione di pulizia una tantum.
La pseudonimizzazione è utile quando un ente pubblico ha bisogno di continuità per un trattamento legittimo, ma non esaurisce l'analisi sulla privacy. La mappatura tra un codice e una persona reale deve essere separata e protetta, altrimenti la tutela è fragile. Al contrario, l'anonimizzazione mira a un risultato più forte: la persona non dovrebbe più essere identificabile con mezzi ragionevolmente probabili da usare in quel contesto.
È anche qui che le PET contano. In pratica, sono meno un singolo prodotto e più una cassetta degli attrezzi per il trattamento dei dati che preserva la privacy. A seconda del caso d'uso e del modello di minaccia, possono aiutare le pubbliche amministrazioni ad analizzare dati, scambiare informazioni o supportare flussi di lavoro basati su IA riducendo l'esposizione dei record grezzi. Il punto critico è che l'idoneità non può essere data per scontata. Va testata rispetto al rilascio effettivo, agli utenti effettivi e ai collegamenti effettivi tra dati che esistono nell'ecosistema.
La k-anonymity e i dati sintetici rientrano nello stesso quadro di gestione del rischio. La k-anonymity può rendere i record più difficili da distinguere, ma non rappresenta una garanzia assoluta contro l'inferenza. I dati sintetici possono essere più sicuri della condivisione diretta, ma solo se il metodo di generazione è progettato per prevenire perdite di informazioni e preservare l'utilità in modo misurato.
La lezione più ampia è semplice: i dati pubblici possono essere preziosi senza diventare una passività per la privacy, ma solo se il controllo scelto corrisponde alla minaccia. Per una pubblica amministrazione, questo significa trattare la privacy come una disciplina ingegneristica, con governance, test e revisione integrati nella pipeline dei dati prima che qualsiasi cosa venga pubblicata, scambiata o alimenti l'IA.
Conclusione
Il messaggio centrale dell'articolo è che l'innovazione nel settore pubblico non deve per forza avvenire a scapito dei diritti dei cittadini. La parte più difficile è la disciplina tecnica: scegliere il giusto controllo di privacy, comprenderne i limiti e assumere che il riutilizzo crei sempre nuovi modi di re-identificare le persone. Nel lavoro moderno sui dati governativi, la privacy non è una casella da spuntare. È la condizione che rende difendibile il riutilizzo.
WIKICROOK
- Anonimizzazione: Un processo che mira a rendere una persona non più identificabile con mezzi ragionevolmente probabili da usare.
- Pseudonimizzazione: Sostituzione degli identificatori diretti con codici, mantenendo le informazioni di ricollegamento protette separatamente.
- Privacy Enhancing Technologies (PETs): Tecniche che riducono l'esposizione di dati sensibili durante l'archiviazione, la condivisione o l'analisi.
- K-anonymity: Un modello che rende ogni record indistinguibile da almeno altri k-1 record sugli attributi scelti.
- Dati sintetici: Dati generati artificialmente che imitano record reali per test, analisi o uso in IA.




