Il mondo della data science ha appena compiuto un passo avanti straordinario nel superamento di uno dei limiti più complessi dell’apprendimento automatico. Un team internazionale di scienziati è riuscito a infondere in uno dei più noti strumenti di machine learning un evoluto senso dello spazio. Questa innovazione permette ai sistemi algoritmici di elaborare previsioni incredibilmente accurate quando si trovano a gestire informazioni collegate a coordinate geografiche reali.
I ricercatori della University of Glasgow e della Florida State University hanno individuato una metodologia innovativa per scavalcare un ostacolo strutturale di TabPFN, un software che appartiene alla categoria dei cosiddetti modelli di fondazione. Questi ultimi sono sistemi di intelligenza artificiale di ampie proporzioni, addestrati una sola volta su moli mastodontiche di materiale e successivamente applicati a una vasta gamma di compiti specifici. Mentre piattaforme celebri come ChatGPT nascono per decodificare stringhe testuali, TabPFN è stato concepito specificamente per l’analisi dei dati tabulati, ovvero le informazioni strutturate in righe e colonne all’interno di database e fogli di calcolo.
Nello studio ufficiale pubblicato sulla prestigiosa rivista accademica International Journal of Geographical Information Science, gli esperti hanno testato l’efficacia di TabPFN di fronte ai dati geospaziali. I fogli di calcolo di natura geospaziale racchiudono parametri di vitale importanza per la società e l’ambiente, dove ogni singola riga può corrispondere a un’abitazione, a un intero quartiere, a una stazione di monitoraggio atmosferico o a una specifica circoscrizione locale.
L’importanza dei dati geospaziali e il superamento dei vecchi limiti
La differenza fondamentale che separa i dati geospaziali dalle comuni informazioni tabulari risiede nel fatto che ogni punto è intrinsecamente legato agli altri in quanto rappresentazione di uno spazio fisico esistente nel mondo reale. Ottimizzare l’analisi dei dati di questo tipo significa supportare concretamente i processi decisionali e la ricerca scientifica su questioni cruciali come l’inquinamento atmosferico, le fluttuazioni dei prezzi immobiliari, la salute pubblica, la gestione dei servizi ai cittadini, le consultazioni elettorali, i flussi demografici e la lotta al cambiamento climatico.
I test approfonditi condotti dagli scienziati hanno inizialmente dimostrato che, sebbene TabPFN offra prestazioni eccellenti in numerosi compiti, la sua affidabilità crolla drasticamente quando si trova davanti a dataset di grandi dimensioni o quando le relazioni tra località vicine mostrano dinamiche fortemente localizzate. Per abbattere queste barriere, il team ha sviluppato un framework inedito basato su una metodologia denominata Geospatial Sparse Attention (GSA). Il software modificato, rilasciato come strumento open source con il nome di TabPFN-GSA, dona al modello una percezione geografica orientando il fulcro della sua attenzione verso le osservazioni territoriali più rilevanti, senza comunque perdere la capacità di attingere a informazioni selezionate provenienti da distanze maggiori.
Il dottor Mingshu Wang, della School of Geographical & Earth Sciences presso la University of Glasgow e coautore della ricerca, ha spiegato nel dettaglio lo spirito del progetto dichiarando testualmente: “La prima legge della geografia afferma che ‘ogni cosa è correlata a ogni altra cosa, ma le cose vicine sono più correlate delle cose lontane’. Nei dati geospaziali, ciò significa che possiamo esaminare quanto strettamente i punti dati siano correlati tra loro nello spazio, così da trovare connessioni e trarre conclusioni. I modelli tabulari generici possono essere molto potenti, ma sono addestrati per trattare le righe come osservazioni indipendenti — non comprendono automaticamente i principi dei dati geospaziali. Ecco perché abbiamo deciso di estendere la capacità di TabPFN di creare connessioni tra i dati geospaziali tabulati, invece di provare a costruire e addestrare un nuovo modello da zero”.
Come l’algoritmo riorganizza l’attenzione spaziale
Per raggiungere questo traguardo, il gruppo di scienziati ha analizzato accuratamente i processi attraverso cui TabPFN elabora i propri output, implementando l’algoritmo GSA affinché intervenga direttamente nella fase di inferenza, ovvero il momento esatto in cui l’intelligenza artificiale formula la sua previsione finale basandosi sulle conoscenze acquisite. Monitorando i pattern di attenzione interna del modello, si è scoperto che la concentrazione del sistema tendeva spontaneamente a focalizzarsi su un numero ristretto di osservazioni durante l’elaborazione, privilegiando i punti geograficamente più prossimi.
Rui Deng, dottorando della University of Glasgow e primo autore dell’articolo scientifico, ha chiarito la dinamica tecnica affermando testualmente: “Nei dati geospaziali, ogni riga della tabella possiede le proprie informazioni di localizzazione, come le coordinate geografiche. Nel nostro modello Geospatial Sparse Attention, dividiamo l’intera area coperta dalla tabella in una griglia, così da conoscere la distanza relativa tra tutti i punti dati. Successivamente, guidiamo il modello a prestare maggiore attenzione ai punti più vicini rispetto a quelli lontani, focalizzandolo sul contesto locale. Non abbiamo modificato TabPFN in sé; piuttosto, gli abbiamo fornito un contesto migliore per ottimizzare le prestazioni del modello”.
Prestazioni da record sui dataset del mondo reale
L’efficacia di TabPFN-GSA è stata validata attraverso una rigorosa fase di sperimentazione. Il sistema è stato inizialmente testato su trenta dataset sintetici progettati per simulare un’ampia varietà di dinamiche geografiche. Successivamente, l’algoritmo è stato messo alla prova su quattro database reali legati a tematiche socio-economiche e ambientali di enorme impatto: i livelli di inquinamento dell’aria, i risultati delle elezioni presidenziali statunitensi del 2020 suddivisi per contea, l’andamento dei prezzi del mercato immobiliare e l’indice di povertà a livello di quartiere negli Stati Uniti continentali. L’estensione di questi database variava sensibilmente, partendo da campioni di poco superiori alle mille unità fino a raggiungere l’impressionante quota di circa settantamila record complessivi.
Questi specifici casi di studio erano già stati utilizzati in precedenti progetti di ricerca e venivano considerati standard di riferimento nel settore. Il confronto diretto ha dimostrato che TabPFN-GSA genera previsioni nettamente più accurate e stabili rispetto alla versione base del software. L’aspetto più rilevante dal punto di vista computazionale riguarda l’eliminazione dei blocchi di memoria che impedivano all’algoritmo originale di interfacciarsi con i pacchetti di dati più massicci. Il nuovo modello è riuscito a completare con successo le operazioni predittive sul complesso dataset da settantamila righe relativo alla povertà, un compito che la versione non modificata di TabPFN si era dimostrata totalmente incapace di gestire.
Sicurezza dei dati offline e sviluppi futuri
La portata di questa innovazione promette di estendersi rapidamente oltre i confini dei laboratori universitari. Essendo distribuito liberamente come software open source, TabPFN-GSA si profila come uno strumento fondamentale per la comunità di data science attiva nei contesti più disparati, inclusi i dipartimenti accademici, le amministrazioni comunali, gli enti governativi nazionali e le aziende private specializzate in analisi di mercato. Un enorme vantaggio pratico è legato alla possibilità di eseguire l’algoritmo offline su normali computer locali, garantendo una totale sicurezza dei dati sensibili ed eliminando alla radice i rischi informatici associati alle intelligenze artificiali che si appoggiano costantemente a server cloud online.
Il dottor Ziqi Li della Florida State University, anch’egli coautore del saggio, ha sottolineato l’importanza dell’integrazione disciplinare dichiarando testualmente: “I modelli di fondazione sono progettati per generalizzare su molti dataset, ma i dati geografici contengono strutture distintive che i modelli generici potrebbero trascurare. Questo studio dimostra che i principi geografici consolidati possono essere incorporati in un modello di fondazione pre-addestrato in modo leggero e pratico, migliorando sia la sua consapevolezza spaziale sia la sua capacità di gestire dataset più grandi”.
La nascita di questa tecnologia si inserisce nel solco tracciato dai precedenti lavori dello stesso team di ricerca, che l’anno scorso aveva rilasciato uno strumento denominato GeoAggregator, basato su una strategia differente per l’analisi spaziale calcolata sulle distanze. I due progetti incarnano approcci complementari volti a rendere l’intelligenza artificiale pienamente consapevole dello spazio geografico: se GeoAggregator è stato concepito e strutturato da zero, TabPFN-GSA dimostra l’efficacia della riconfigurazione mirata di un modello preesistente. Gli scienziati stanno già studiando la fattibilità di una fusione tra i due sistemi all’interno di un’unica piattaforma integrata, capace di selezionare autonomamente la strategia algoritmica migliore in base al tipo di analisi richiesto.
La ricerca completa intitolata ‘Do Foundation Models Work for Geospatial Tabular Data? An Investigation of TabPFN and a Proposed Enhancement based on Geospatial Sparse Attention’ è consultabile sul catalogo dell’International Journal of Geographical Information Science. Il progetto è stato sostenuto economicamente dai finanziamenti del programma NVIDIA’s Academic Grant Programme e dalle risorse del Google Cloud Research Credits programme. Il codice sorgente e i dati che supportano le conclusioni dello studio sono stati depositati nell’archivio digitale figshare, mentre il pacchetto software di TabPFN-GSA è liberamente accessibile all’interno di un archivio pubblico Python.
