Il nuovo ARCO Data Lake, che ospita i dati dei servizi Copernicus, rappresenta una svolta nell’accesso ai grandi volumi di dati meteorologici, con una maggiore efficienza per applicazioni avanzate come l’intelligenza artificiale e il machine learning. L’European Centre for Medium-Range Weather Forecasts (ECMWF) ha recentemente annunciato l’introduzione dell’Analysis-Ready Cloud-Optimised (ARCO) Data Lake, una nuova infrastruttura che migliora l’accesso e l’analisi dei dati meteorologici. Questa innovativa piattaforma estende l’offerta di servizi di accesso ai dati, includendo anche i database relativi al Copernicus Atmosphere Monitoring Service (CAMS) e al Copernicus Climate Change Service (C3S). L’ARCO Data Lake si basa su un’architettura modernizzata dei servizi di Data Store, presentando un nuovo approccio per l’accesso a grandi moli di dati, con tempi di risposta più rapidi e un accesso ottimizzato a dati multidimensionali, come l’ERA5.
Una delle principali caratteristiche del nuovo sistema è l’adozione del formato Zarr, che permette una gestione più efficiente dei dati su piattaforme cloud. Grazie all’adozione di questa tecnologia, è possibile visualizzare i dati su piattaforme come il WEkEO viewer e sviluppare applicazioni ad alte prestazioni che sfruttano le potenzialità dell’intelligenza artificiale e del machine learning.
Perché il cambiamento con ARCO?
ARCO porta una serie di vantaggi legati alla preparazione dei dati per l’analisi, rendendoli “Analysis-Ready” e “Cloud-Optimised”. Questo significa che i dati sono pronti per essere utilizzati direttamente, senza necessità di rielaborazioni complesse, e sono memorizzati in formati moderni e scalabili che consentono un accesso efficiente all’interno di ambienti cloud. Rispetto ai formati precedenti, come NetCDF e GRIB, ARCO garantisce performance superiori, soprattutto per l’elaborazione di serie temporali a livello di singolo punto geografico.
Un esempio pratico riguarda il recupero di una serie temporale lunga per un punto geografico specifico: l’adozione di strutture di dati “chunked”, suddivise sia nello spazio che nel tempo, migliora notevolmente le performance nell’elaborazione dei dati. Il formato ARCO rende anche l’accesso ai dati più efficiente, riducendo il carico sulle risorse dei Data Store, il che si traduce in un sistema complessivamente meno impegnativo. In particolare, l’ARCO Data Lake si rivela particolarmente utile per quegli utenti che necessitano di dati per un singolo punto geografico su lunghi periodi di tempo, offrendo nel contempo un impatto ridotto sulle risorse.
Tuttavia, per accedere a dati che coprono aree geografiche più ampie o che richiedono variabili più complesse, nonché per usi operativi, è ancora consigliato utilizzare i dataset originali nei formati tradizionali.
Le prospettive future
Il team ECMWF sta lavorando per ampliare le offerte basate sulle capacità ARCO, che includono l’accesso tokenizzato diretto a data cubes e sviluppi significativi in ambiti come il software Polytope, Earth Kit e nuove applicazioni di machine learning e AI basate sul framework Anemoi. Gli utenti saranno costantemente aggiornati su questi sviluppi attraverso i forum e la documentazione associata ai dati.
Una delle principali caratteristiche dell’ARCO Data Lake, rispetto alle piattaforme esterne, è la stretta integrazione con i flussi operativi di ECMWF, che assicura l’allineamento temporale dei dati. La vicinanza e la gestione operativa consentono una grande flessibilità e tempi di risposta rapidi in caso di modifiche ai dati o a specifiche esigenze di chunking o strutture Zarr.
Infine, questi sviluppi e i cambiamenti infrastrutturali sono resi possibili dall’ECMWF Common Cloud Infrastructure (CCI).


Vuoi ricevere le notifiche sulle nostre notizie più importanti?