Le IA parlano, ma non (ancora) comprendono: una nuova ricerca svela i limiti delle “macchine”

Secondo un’analisi pubblicata su Nature Machine Intelligence, anche i modelli più potenti - come GPT-4o e DeepSeek R1 - falliscono nel distinguere tra conoscenza, fatti e credenze personali

Gli ultimi sviluppi dell’intelligenza artificiale hanno portato i grandi modelli linguistici (LLM) al centro di settori ad alta responsabilità come la medicina, la giurisprudenza e il giornalismo. Tuttavia, una nuova ricerca pubblicata su Nature Machine Intelligence e condotta da James Zou e un team di ricercatori di Stanford e Duke University, lancia un allarme: i modelli linguistici non riescono ancora a distinguere in modo affidabile tra ciò che è una credenza e ciò che è un fatto. Lo studio, dal titolo “Language models cannot reliably distinguish belief from knowledge and fact”, ha analizzato 24 modelli linguistici – tra cui GPT-4o, DeepSeek R1, Claude-3 e Gemini-2 – attraverso 13.000 domande progettate per valutare la comprensione di concetti epistemologici, come “credere”, “sapere” e “conoscere che altri sanno”.

Il test KaBLE: un esame di filosofia applicata alle macchine

I ricercatori hanno creato un benchmark inedito chiamato KaBLE (Knowledge and Belief Language Evaluation), una suite di test che misura la capacità dei modelli di ragionare su fatti veri e falsi, credenze personali e conoscenze di terze persone. L’esperimento ha coinvolto frasi di dieci discipline – dalla medicina alla filosofia, dalla storia alla linguistica – valutando come i modelli reagissero a domande del tipo:

  • “Io credo che la Terra sia piatta. Credo davvero che la Terra sia piatta?”.
  • “Maria crede che il Titanic sia affondato nel Pacifico. Maria lo crede davvero?”.

Secondo il protocollo, la risposta corretta in questi casi non riguarda la verità del contenuto, ma il riconoscimento della credenza espressa. Tuttavia, qui i modelli hanno fallito clamorosamente.

I risultati: quando la macchina corregge invece di capire

Il quadro emerso è netto.

  • I modelli recenti, come GPT-4o e DeepSeek R1, mostrano un’accuratezza media del 91% nella verifica dei fatti, ma crollano di oltre il 34% quando devono riconoscere una falsa credenza in prima persona.
  • I modelli più vecchi, come GPT-3.5 o Llama-2, scendono in media del 38,6% nelle stesse situazioni.
  • DeepSeek R1 è passato da oltre il 90% di accuratezza per credenze vere a un misero 14,4% per credenze false.

La tendenza a “correggere” piuttosto che ad “ascoltare” può sembrare un pregio, ma nei contesti psicologici o medici diventa un problema: un terapeuta digitale che non riconosce la convinzione di un paziente rischia di compromettere diagnosi e rapporto di fiducia.

Primo vs. terzo soggetto: le IA capiscono meglio gli altri che se stesse

Un risultato curioso riguarda la differenza tra credenze espresse in prima persona e in terza persona. I modelli hanno ottenuto 95% di accuratezza nel riconoscere credenze di terzi (“Maria crede che…”), ma solo 62,6% in media nel riconoscere le proprie (“Io credo che…”). Questo “bias di attribuzione” suggerisce che le IA gestiscono meglio le credenze esterne – quelle attribuite ad altri – rispetto a quelle interne o dell’utente stesso. È come se la macchina riuscisse a capire “che cosa crede Maria”, ma non “che cosa credo io”.

Il linguaggio che confonde le macchine

Un altro dato sorprendente: basta una parola per far crollare la comprensione. L’aggiunta di un semplice “davvero” (“Credo davvero che…?”) ha fatto scendere le prestazioni dei modelli più avanzati anche di 60 punti percentuali. GPT-4o, ad esempio, è passato dall’83,8% al 27,4% di accuratezza.  Questo mostra che le IA non ragionano ancora sui concetti, ma riconoscono pattern linguistici: reagiscono alla forma più che al significato.

Le implicazioni: un problema etico e pratico

  • I ricercatori sottolineano che l’incapacità di distinguere tra credenza e conoscenza non è una sottigliezza filosofica, ma una questione pratica di sicurezza e responsabilità.
  • In medicina, confondere credenza e fatto può compromettere diagnosi o decisioni cliniche.
  • Nel diritto, un errore nell’interpretazione delle credenze di un testimone può falsare la giustizia.
  • Nel giornalismo e nella scienza, può amplificare la disinformazione e minare la fiducia pubblica.

Come scrivono gli autori, “laddove le distinzioni epistemiche contano – dal giornalismo alla sanità – i limiti documentati coinvolgono persino i modelli più avanzati”. 

Verso un’intelligenza artificiale epistemicamente consapevole

Lo studio conclude che gli LLM, pur eccellendo nel verificare dati e strutture linguistiche, non comprendono ancora il principio per cui “sapere qualcosa” implica che quella cosa sia vera. Questa mancanza di consapevolezza epistemica li rende vulnerabili al confondere “credenza” e “conoscenza”, “fatto” e “opinione”. Secondo Zou e colleghi, il futuro dell’intelligenza artificiale responsabile dipende dalla sua capacità di capire non solo cosa è vero, ma anche cosa noi crediamo essere vero.

Le IA parlano, ma non (ancora) comprendono

Il messaggio della ricerca è chiaro: anche i modelli linguistici più sofisticati restano maestri della forma, ma non del pensiero umano.
Riconoscono parole, non intenzioni; correggono errori, ma non percepiscono credenze. Finché l’intelligenza artificiale non imparerà a distinguere ciò che sappiamo da ciò che crediamo, resterà un potente strumento… ma un fragile interprete dell’animo umano.