AlphaGenome svela i misteri del DNA non codificante, scoperta eccezionale per curare ogni malattia

Interpretare l’impatto delle variazioni nella sequenza del genoma rimane una delle sfide biologiche centrali del nostro tempo. Nonostante i passi da gigante compiuti dalla scienza, la stragrande maggioranza del genoma umano, oltre il 98%, è composta da regioni non codificanti, ovvero porzioni di DNA che non contengono istruzioni per la sintesi delle proteine. Queste regioni, un tempo erroneamente definite DNA spazzatura, sono in realtà i direttori d’orchestra della vita, poiché regolano come e quando i geni vengono espressi. Le varianti in queste aree possono modulare proprietà fondamentali come l’accessibilità della cromatina, le modificazioni epigenetiche e la conformazione tridimensionale del genoma, portando a conseguenze molecolari estremamente diverse e complesse. Caratterizzare globalmente questi effetti è rimasto finora un compito quasi impossibile senza il supporto di potenti strumenti computazionali. La nascita di AlphaGenome, un modello di deep learning di nuova generazione sviluppato da Google DeepMind, promette di squarciare questo velo di incertezza, offrendo una visione senza precedenti del codice regolatorio genetico.

AlphaGenome: una visione panoramica a risoluzione atomica

Fino ad oggi, i modelli computazionali esistenti hanno dovuto accettare un compromesso frustrante: scegliere tra la capacità di analizzare lunghe sequenze di DNA o raggiungere una risoluzione elevata a livello di singolo nucleotide. Modelli focalizzati sulla risoluzione erano limitati a sequenze brevi, perdendo così l’influenza di elementi regolatori distanti, mentre modelli capaci di elaborare contesti più ampi dovevano ridurre la precisione dell’output, sfocando dettagli cruciali come i siti di splicing o le impronte dei fattori di trascrizione. AlphaGenome rompe questa barriera. Questo modello unificato prende in input una sequenza di DNA lunga ben 1 milione di basi e prevede simultaneamente migliaia di tracce genomiche funzionali con una risoluzione che arriva al singolo paio di basi. Grazie a questa capacità, il modello riesce a coprire un panorama regolatorio vastissimo, includendo il 99% delle coppie enhancer-gene validate, che solitamente cadono entro la distanza di un megabase.

L’architettura del genio molecolare

Il cuore pulsante di AlphaGenome risiede in un’architettura ispirata alla struttura U-Net, progettata per processare in modo efficiente le sequenze di input in rappresentazioni multidimensionali. Il modello utilizza strati convoluzionali per modellare i pattern di sequenza locali, necessari per predizioni estremamente precise, e blocchi di transformer per catturare le dipendenze a lungo raggio, come le interazioni tra promotori ed elementi regolatori distali. Un aspetto rivoluzionario è la capacità di generare embedding bidimensionali che rappresentano le interazioni spaziali tra segmenti genomici, permettendo la creazione di mappe di contatto della cromatina. Per addestrare un gigante di tale complessità su sequenze così lunghe, il team di ricerca ha sfruttato il parallelismo di sequenza su una rete di otto dispositivi Tensor Processing Unit (v3) interconnessi, ottimizzando le prestazioni computazionali senza precedenti.

Un modello multimodale per la complessità biologica

AlphaGenome non si limita a osservare un singolo aspetto della biologia, ma opera attraverso 11 diverse modalità di dati genomici. Il modello è in grado di prevedere l’espressione genica, l’inizio della trascrizione, l’accessibilità della cromatina, le modificazioni istoniche e il legame dei fattori di trascrizione. Particolarmente innovativo è l’approccio alla predizione dello splicing, il processo mediante il quale le sequenze di RNA vengono tagliate e ricucite per formare messaggi maturi. AlphaGenome non solo identifica i siti di splicing, ma modella esplicitamente la forza e le coordinate delle giunzioni, offrendo una visione olistica delle varianti che possono causare malattie interrompendo questo delicato meccanismo. Complessivamente, il modello prevede 5.930 tracce nel genoma umano e 1.128 in quello del topo, coprendo una varietà immensa di tipi cellulari e tessuti.

Prestazioni oltre lo stato dell’arte

L’efficacia di AlphaGenome è stata messa alla prova attraverso un set completo di benchmark, confrontandolo con i più forti modelli esterni disponibili per ogni singolo compito. I risultati sono stati sbalorditivi: AlphaGenome ha eguagliato o superato i modelli esistenti in 25 delle 26 valutazioni di predizione degli effetti delle varianti. In particolare, ha mostrato un miglioramento relativo del 14,7% nella previsione dei cambiamenti dell’espressione genica specifica per tipo cellulare rispetto a modelli precedenti come Borzoi. Anche nei confronti di modelli altamente specializzati in singole modalità, come Orca per l’architettura genomica 3D o ChromBPNet per l’accessibilità locale, AlphaGenome ha dimostrato una superiorità netta, confermando che l’approccio multimodale non solo è più pratico, ma anche più accurato. Questo successo deriva da una strategia di addestramento in due fasi che include la distillazione della conoscenza, in cui un modello studente impara a replicare le predizioni di un ensemble di modelli insegnanti, acquisendo robustezza ed efficienza.

Dalla teoria alla clinica: il caso dell’oncogene TAL1

Per dimostrare l’utilità pratica del modello, i ricercatori hanno utilizzato AlphaGenome per interpretare meccanismi molecolari di varianti clinicamente rilevanti associate alla leucemia linfoblastica acuta a cellule T (T-ALL). Analizzando le mutazioni vicino all’oncogene TAL1, AlphaGenome è stato in grado di prevedere con precisione la formazione di neo-enhancer, evidenziata dall’aumento dei segni istonici attivatori e dell’accessibilità della cromatina proprio nel sito della variante. Il modello ha correttamente previsto l’aumento dell’espressione dell’mRNA di TAL1 e la diminuzione dei segni istonici repressivi vicino al sito di inizio della trascrizione del gene. Attraverso la mutagenesi in silico, i ricercatori hanno scoperto che la mutazione introduceva un motivo di legame per il fattore MYB, un meccanismo patogenetico già noto ma qui ricostruito interamente a partire dalla sola sequenza del DNA.

Orizzonti futuri e medicina di precisione

Nonostante i successi, AlphaGenome rappresenta solo l’inizio di una nuova era. I ricercatori ammettono che catturare l’influenza di elementi regolatori situati a distanze estreme, oltre le 100.000 basi, rimane un obiettivo su cui continuare a lavorare. Inoltre, sebbene il modello eccella nelle proteine codificanti, c’è spazio per migliorare la copertura dei geni non codificanti come i microRNA. Tuttavia, le potenzialità per la biologia molecolare e la ricerca diagnostica sulle malattie rare sono immense. AlphaGenome può fungere da motore per esperimenti in silico, permettendo la generazione rapida di ipotesi e la prioritizzazione di test di laboratorio costosi. In futuro, questo strumento potrebbe accelerare il design di sequenze sintetiche per applicazioni terapeutiche, come gli oligonucleotidi antisenso o enhancer specifici per tessuto. Per facilitare questa rivoluzione, Google DeepMind ha reso disponibili gli strumenti e le API per consentire alla comunità scientifica globale di esplorare il codice regolatorio del genoma con una chiarezza mai vista prima.