L'illusione del Dottor AI: i modelli linguistici non migliorano le decisioni mediche dei pazienti rispetto alle ricerche online

L’avvento dei grandi modelli linguistici (LLM) ha generato un’ondata di entusiasmo nel settore sanitario, con la promessa di democratizzare l’accesso alle conoscenze mediche e alleggerire la pressione sui sistemi sanitari globali. L’idea che un assistente virtuale intelligente possa aiutare i pazienti a valutare i propri sintomi e decidere se recarsi al pronto soccorso o restare a casa è stata a lungo considerata il prossimo grande passo nella medicina digitale. Tuttavia, un nuovo studio rigoroso condotto dall’Oxford Internet Institute e pubblicato su Nature Medicine getta un’ombra su queste aspettative, dimostrando che l’interazione tra esseri umani e intelligenza artificiale è molto più complessa e rischiosa di quanto suggeriscano i test di laboratorio.

La ricerca, che ha coinvolto circa 1.300 partecipanti nel Regno Unito, ha messo in luce una discrepanza fondamentale: sebbene gli LLM superino brillantemente gli esami di licenza medica, quando vengono utilizzati da persone comuni per risolvere problemi di salute reali, le loro prestazioni crollano drasticamente, risultando spesso inferiori a quelle ottenute con una semplice ricerca su Google.

Il paradosso delle prestazioni: geniali in solitaria, fallibili con l’uomo

Lo studio ha utilizzato un approccio metodologico solido per confrontare le capacità “in silico” (l’AI che lavora da sola) con quelle “in vivo” (l’AI usata da un essere umano). I ricercatori hanno creato dieci scenari medici dettagliati, validati da medici esperti, che spaziavano da condizioni lievi a emergenze potenzialmente letali. Quando i modelli LLM (tra cui GPT-4o, Llama 3 e Command R+) sono stati testati autonomamente su questi scenari, i risultati sono stati impressionanti: le intelligenze artificiali hanno identificato correttamente le condizioni mediche nel 94,9% dei casi e hanno suggerito il corretto corso d’azione (triage) nel 56,3% delle situazioni.
Tuttavia, quando gli stessi modelli sono stati messi nelle mani dei partecipanti umani, il quadro è cambiato radicalmente. I partecipanti assistiti dall’AI sono riusciti a identificare le condizioni rilevanti solo in meno del 34,5% dei casi e a scegliere l’azione corretta in meno del 44,2% dei casi. Sorprendentemente, il gruppo di controllo, che non aveva accesso all’AI ma poteva usare i metodi tradizionali come i motori di ricerca, ha ottenuto risultati migliori nell’identificazione delle diagnosi e risultati statisticamente equivalenti nella scelta del triage.

La rottura della comunicazione uomo-macchina

L’analisi qualitativa delle conversazioni tra i partecipanti e i chatbot ha rivelato che il problema non risiede tanto nella mancanza di conoscenza medica del modello, quanto nella dinamica dell’interazione. Si è verificata una vera e propria “rottura della comunicazione” su due fronti. Da un lato, gli utenti umani spesso non fornivano informazioni complete ai modelli, omettendo dettagli cruciali sui sintomi necessari per una valutazione accurata. Dall’altro, anche quando l’AI suggeriva la condizione corretta nel corso della conversazione, gli utenti spesso non la riconoscevano o non la includevano nella loro valutazione finale.
Un dato particolarmente significativo riguarda la capacità del gruppo di controllo di identificare condizioni gravi. I partecipanti che hanno utilizzato i metodi tradizionali avevano 1,57 volte più probabilità di identificare condizioni “red flag” (segnali di allarme seri) rispetto a quelli assistiti dall’intelligenza artificiale. Questo suggerisce che l’uso attuale degli LLM potrebbe indurre un falso senso di sicurezza o confusione, portando l’utente a sottovalutare la gravità della propria situazione clinica, un errore commesso sia dal gruppo AI che da quello di controllo.

Incoerenza e allucinazioni: i rischi nascosti

Approfondendo l’analisi delle trascrizioni, i ricercatori hanno identificato comportamenti dell’AI che pongono seri rischi per la sicurezza. I modelli hanno mostrato una notevole sensibilità a piccole variazioni nel modo in cui le domande venivano poste. In un caso estremo citato nello studio, due utenti con sintomi quasi identici di un’emorragia subaracnoidea (un’emergenza medica grave) hanno ricevuto consigli opposti: a uno è stato detto di recarsi immediatamente al pronto soccorso, all’altro di riposare in una stanza buia.
Inoltre, gli LLM hanno talvolta fornito risposte corrette inizialmente, per poi ritrattare e aggiungere informazioni errate dopo che l’utente aveva fornito ulteriori dettagli. In altri casi, i modelli si sono fissati su termini specifici ma irrilevanti forniti dall’utente, ignorando il quadro clinico generale. Errori di contesto, come consigliare numeri di emergenza australiani a utenti nel Regno Unito o suggerire numeri di telefono parziali, hanno ulteriormente evidenziato la mancanza di una comprensione situazionale affidabile.

Il fallimento dei benchmark attuali

Uno degli aspetti più critici sollevati dallo studio è l’inadeguatezza degli attuali sistemi di valutazione dell’intelligenza artificiale. Fino ad oggi, la sicurezza e l’efficacia degli LLM in medicina sono state misurate principalmente attraverso benchmark statici, come domande a risposta multipla tratte da esami medici. Lo studio dimostra inequivocabilmente che ottenere un punteggio alto in questi test non predice il successo nell’interazione con utenti reali.
Anche i tentativi di simulare pazienti usando altre intelligenze artificiali (agenti simulati) non sono riusciti a replicare la variabilità e l’imprevedibilità del comportamento umano. I pazienti simulati dall’AI tendevano a ottenere punteggi migliori e più uniformi rispetto agli esseri umani reali, mascherando di fatto i rischi che emergono solo quando una persona vera, con le sue ansie, i suoi bias e le sue imprecisioni linguistiche, interagisce con la macchina.

Verso un nuovo standard di sicurezza

Le conclusioni tratte dagli autori sono chiare: l’attuale generazione di LLM non è pronta per essere dispiegata come strumento di assistenza medica diretta al pubblico. La competenza medica enciclopedica dei modelli è inutile se non può essere trasferita efficacemente all’utente finale attraverso un’interfaccia conversazionale affidabile.
Per colmare questo divario, lo studio suggerisce un cambio di paradigma nello sviluppo e nella regolamentazione di queste tecnologie. Non è più sufficiente dimostrare che un modello “sa” la medicina; è necessario dimostrare che può “praticarla” in sicurezza con utenti non esperti. Ciò richiede test sistematici con esseri umani in scenari realistici, simili ai trial clinici per i farmaci, prima di qualsiasi rilascio pubblico. Solo comprendendo e mitigando i fallimenti nell’interazione uomo-macchina sarà possibile trasformare l’intelligenza artificiale da una promessa rischiosa a un vero alleato per la salute pubblica.