Introduzione

Obiettivo tesi: Stabilire il criterio per trovare il miglior quasi-identifier all'interno di dataset reali.

Capire come esprimere i concetti di privacy leakage e information loss.

Abbiamo trovato la tecnica di anonimizzazione migliore per garantire la minimizzazione di questi ultimi parametri.

Bibliografia

https://dzone.com/articles/an-easy-way-to-privacy-protect-a-dataset-using-pyt

https://www.europeandataportal.eu/en/highlights/protecting-data-and-opening-data

Privacy-preserving data publishing: A survey of recent developments https://dl.acm.org/doi/pdf/10.1145/1749603.1749605

Efficient algorithms for masking and finding quasi-identifiers https://www.csee.umbc.edu/~kunliu1/p3dm08/proceedings/2.pdf

Protecting respondents’ identities in microdata release

https://pdfs.semanticscholar.org/6fd6/c41c5e4e8e07f0cb848ec8d3ffe0bc482e6a.pdf?_ga=2.133041934.1240247619.1587118288-540803369.1587118288

Datafly: A system for providing anonymity in medical data https://link.springer.com/content/pdf/10.1007/978-0-387-35285-5_22.pdf

Seminari

Titolo: Generalizzazione di quasi-identifier negli OpenData, approccio di generalizzazione locale operando sui singleton

Data: Venerdì 27 Marzo 2020 alle ore 15:00

https://www.facebook.com/events/214596986266171/

Abstract

Il governo è spronato a pubblicare Open Data per garantire trasparenza, ma deve assicurarsi che la privacy degli individui non venga compromessa. Analizzando open dataset contenenti informazioni relative alle patenti e pubblicati dal governo italiano, il ben noto quasi-identifier (data di nascita, sesso, comune di residenza) espone fino al 2% di singleton, cioè tuple univocamente determinate, in dataset già anonimizzati. Per proteggere ulteriormente questi dataset, ho analizzato quale attributo (o combinazione di attributi) deve essere generalizzato per raggiungere il minor numero di singleton, minimizzando il numero di righe modificate e / o rimosse. I test effettuati dimostrano che generalizzando solo le righe corrispondenti ai singleton, si ottengono quasi 0 singleton modificando solo il 2% di righe.