Scienza: nuovo algoritmo italiano semplifica la categorizzazione di enormi quantità di dati

MeteoWeb

Colourful preschool numbersUn algoritmo che semplifica la categorizzazione di enormi quantita’ di dati. L’innovativo approccio per orientarsi nel mondo del Big Data e’ stato ideato dalla SISSA di Trieste e descritto sulla rivista Science. Uno dei sistemi piu’ comunemente utilizzati e’ il clustering (CA – Cluster Analysis) che raggruppa set di dati secondo la loro “somiglianza”. Due ricercatori della SISSA hanno messo a punto un tipo di CA che si basa su principi semplici e potenti e che si e’ dimostrato molto efficiente nel risolvere alcuni dei problemi piu’ ricorrenti in questa tipologia di analisi. I set di dati possono essere immaginati come “nuvole” di data point in uno spazio multidimensionale, generalmente distribuiti in modo diverso: piu’ dispersi in una area, piu’ densi in un’altra. Il CA viene utilizzato per identificare le aree piu’ dense, raggruppando i dati in un certo numero di sottoinsiemi significativi che corrispondono a specifiche categorie. “Pensate ad un database di fotografie del viso”, ha spiegato Alessandro Laio della SISSA in una nota. “Il database potrebbe contenere piu’ di una foto della stessa persona. Il CA – ha aggiunto Alex Rodrigez, co-autore della ricerca – ci ha abituati a raggruppare tutte le immagini dello stesso individuo. Parliamo di un tipo di analisi effettuata, ad esempio, dai sistemi automatici di riconoscimento facciale. Noi abbiamo cercato di elaborare un algoritmo piu’ efficiente rispetto a quelli utilizzati attualmente. Il nostro approccuo si basa su un nuovo modo di identificare il centro del cluster, vale a dire i sottoinsiemi. Immaginate di dover identificare tutte le citta’ del mondo senza avere accesso ad una mappa. Un compito enorme che si puo’ svolgere utilizzando una scorciatoia”. Per scoprire se un posto e’ una citta’ e’ possibile, ad esempio, chiedere ad ogni abitante di contare i suoi “vicini”, cioe’ quante persone vivono nel raggio di cento metri dalla casa dell’intervistato. Una volta ottenuto il numero si puo’ determinare per ogni abitante la distanza minima alla quale vive un altro abitante con un numero consistente di vicini. “Insieme questi due dati – ha aggiunto Laio – ci dicono quanto densamente sia popolata una area in cui vive un individuo e la distanza tra individui che hanno il vicinato piu’ affollato. Valutando automaticamente questi dati, per l’intera popolazione mondiale, possiamo identificare gli individui che rappresentano il centro dei cluster che corrispondono alle diverse citta’. Il nostro algoritmo esegue proprio questo tipo di calcolo e puo’ essere applicato a molti contesti diversi”. Il modello matematico e’ stato testato sull’Olivetti Face Database, un archivio di fotografie del viso, ottenendo risultati molto soddisfacenti.