Introduzione
Obiettivo tesi: Stabilire il criterio per trovare il miglior quasi-identifier all'interno di dataset reali.
Capire come esprimere i concetti di privacy leakage e information loss.
Abbiamo trovato la tecnica di anonimizzazione migliore per garantire la minimizzazione di questi ultimi parametri.
Bibliografia
https://dzone.com/articles/an-easy-way-to-privacy-protect-a-dataset-using-pyt
https://www.europeandataportal.eu/en/highlights/protecting-data-and-opening-data
Privacy-preserving data publishing: A survey of recent developments https://dl.acm.org/doi/pdf/10.1145/1749603.1749605
Efficient algorithms for masking and finding quasi-identifiers https://www.csee.umbc.edu/~kunliu1/p3dm08/proceedings/2.pdf
Protecting respondents’ identities in microdata release
Datafly: A system for providing anonymity in medical data https://link.springer.com/content/pdf/10.1007/978-0-387-35285-5_22.pdf
Seminari
Titolo: Generalizzazione di quasi-identifier negli OpenData, approccio di generalizzazione locale operando sui singleton
Data: Venerdì 27 Marzo 2020 alle ore 15:00
https://www.facebook.com/events/214596986266171/
Abstract
Il governo è spronato a pubblicare Open Data per garantire trasparenza, ma deve assicurarsi che la privacy degli individui non venga compromessa. Analizzando open dataset contenenti informazioni relative alle patenti e pubblicati dal governo italiano, il ben noto quasi-identifier (data di nascita, sesso, comune di residenza) espone fino al 2% di singleton, cioè tuple univocamente determinate, in dataset già anonimizzati. Per proteggere ulteriormente questi dataset, ho analizzato quale attributo (o combinazione di attributi) deve essere generalizzato per raggiungere il minor numero di singleton, minimizzando il numero di righe modificate e / o rimosse. I test effettuati dimostrano che generalizzando solo le righe corrispondenti ai singleton, si ottengono quasi 0 singleton modificando solo il 2% di righe.