Federico Cozza

Email: f.cozza5@studenti.unisa.it

Individuazione di componenti “malicious” sul Web attraverso tecniche di intelligenza artificiale

Prima di cominciare

Ritengo sia preferibile cimentarsi nella lettura di questa pagina accompagnati da un bel brano rilassante (tra l'altro da me composto ed eseguito):
Alius 3 - No Limits

Una breve panoramica...

Molti di noi (compreso il lettore di questo post) faranno fatica a definirsi completamente indipendenti dal Web e dalla sempre crescente mole di servizi che esso offre: pensiamo alla semplicità con cui possiamo vedere ed eventualmente acquistare un qualsiasi articolo direttamente dal nostro computer (Amazon, Play.com...); pensiamo ai numerosi Social Network (Facebook, Twitter...) che hanno parzialmente ridefinito il modo di interagire tra le persone.
Praticamente ogni giorno sfruttiamo questi servizi, molti dei quali gratuiti o, perlomeno, non richiedono una moneta convenzionale, bensì una molto più appetitosa: le informazioni personali.
Il funzionamento di molti siti, compresi quelli elencati in precedenza, dipende da tali dati: per creare ad esempio un profilo Facebook dobbiamo obbligatoriamente indicare il nostro nome, cognome, mail, sesso, data di nascita; per effettuare un acquisto su Amazon dobbiamo fornire il numero della nostra carta di credito, il nostro indirizzo e altro ancora.
Ma il problema reale non è la collezione di dati in sé e per sé, bensì come essi vengono utilizzati. Spesso infatti sono ceduti ad aziende di advertising che li sfruttano per rendere più efficaci le loro pubblicità sul Web, violando dunque la nostra privacy, la quale dunque diventa il nostro tema centrale...

L'obbiettivo

Lo scopo di questo lavoro è l'analisi delle pagine web "dannose" (malicious), individuandone le caratteristiche comuni, al fine dello sviluppo di opportune contromisure che facciano uso di tecniche di intelligenza artificiale.

Prime analisi

Dopo un'analisi di alcuni documenti in merito all'argomento, individuiamo alcune tecniche principali attraverso le quali può avvenire il furto delle nostre informazioni personali:

  • Analisi delle richieste HTTP che vengono scambiate tra client e server. In particolare notiamo come la Figura 2 del testo 2 metta in risalto come il campo Referer venga usato in modo massiccio per tracciare i movimenti degli utenti.
  • Inserimento di elementi malevoli nel codice HTML della pagina. Interessante a riguardo il documento 7 che introduce la questione delle Visibilità Anormali, che pongono il tag iframe al centro della discussione.
  • Cookie HTTP, Javascript o Flash. Breve overview riportata nel documento 1
  • Esecuzione di script malevoli

Esistono diversi tool online che permettono di preservare parzialmente la nostra privacy (AdBlock Plus, NoScript, Ghostery, RequestPolicy), tuttavia essi non rappresentano una soluzione unica e completa contro le diverse tecniche di attacco descritte: ciascuno di essi si focalizza su un determinato aspetto. Sarebbe interessante invece fornire uno strumento semplice e sopratutto unico per ciò che concerne la privacy sul Web.


Testi analizzati

  1. Balachander Krishnamurthy and Craig E. Wills, Privacy Diffusion on the Web: A Longitudinal Perspective, Proceedings of the World Wide Web Conference, April 2009
  2. D. Malandrino and L. Serra and A. Petta and V. Scarano and R. Spinelli and Balachander Krishnamurthy, Privacy Awareness about Information Leakage: Who knows what about me?, Proceedings of the Workshop on Privacy in the Electronic Society, November 2013
  3. P. Gill and V. Erramilli and A. Chaintreau and Balachander Krishnamurthy and K. Papagiannaki and P. Rodriguez, Follow the Money: Understanding Economics of Online Aggregation and Advertising, Proceedings of IMC 2013, October 2013
  4. Van Lam Le, Ian Welch, Xiaoying Gao, Peter Komisarczuk, Two-Stage Classification Model to Detect Malicious Web Pages, International Conference on Advanced Information Networking and Applications, 2011
  5. Tao Yue, Jianhua Sun, Hao Chen, Fine-Grained Mining and Classification of Malicious Web Pages, Fourth International Conference on Digital Manufacturing & Automation, 2013
  6. Birhanu Mekuria Eshete, Effective Analysis, Characterization, and Detection of Malicious Activities on the Web, December 2013
  7. Bin Liang, Jianjun Huang, Fang Liu, Dawei Wang, Daxiang Dong, Zhaohui Liang, Malicious Web Pages Detection Based on Abnormal Visibility Recognition, 2009
  8. Birhanu Eshete, Adolfo Villafiorita, Komminist Weldemariam, BINSPECT: Holistic Analysis and Detection of Malicious Web Pages, April 2012
  9. Delfina Malandrino, Vittorio Scarano, Privacy Leakage on the Web: Diffusion and Countermeasures, 2013
  10. Birhanu Eshete, Adolfo Villafiorita, Komminist Weldemariam, Mohammad Zulkernine, EINSPECT: Evolution-Guided Analysis and Detection of Malicious Web Pages, IEEE 37th Annual Computer Software and Applications Conference, 2013