Bixonimania: il caso shock che smaschera l’inaffidabilità dell’intelligenza artificiale nella scienza

Come un esperimento con paper falsi ha ingannato ChatGPT, Google Gemini e Perplexity, svelando i rischi delle allucinazioni AI e l'urgenza di una verifica umana nelle applicazioni sanitarie

In un’era in cui l’intelligenza artificiale promette di rivoluzionare la diagnosi e la ricerca medica, un esperimento audace ha rivelato crepe profonde nel sistema. Una ricercatrice svedese ha inventato una malattia oculare completamente fasulla chiamata bixonimania, caricando su server accademici due paper fittizi pieni di indizi evidenti di finzione. Eppure, per settimane, i principali sistemi di AI come ChatGPT, Google Gemini e Perplexity hanno trattato questa patologia inesistente come un fatto scientifico consolidato, fornendo diagnosi, statistiche di prevalenza e consigli medici. Il caso non si è fermato qui: uno studio peer-reviewed ha addirittura citato i paper falsi, costringendo a una ritrattazione solo dopo l’intervento di Nature. Questo episodio non è solo un aneddoto divertente, ma un campanello d’allarme sui pericoli delle allucinazioni AI in campo sanitario, mentre l’intelligenza artificiale avanza in ambiti critici come la valutazione dei farmaci da parte della FDA, la sostituzione di radiologi negli ospedali e il lancio di strumenti come ChatGPT Health.

L’esperimento della Bixonimania: un test deliberato sulle debolezze dell’intelligenza artificiale

Tutto ha avuto inizio nel 2024 presso l’Università di Gothenburg, in Svezia, dove la ricercatrice Almira Osmanovic Thunström ha deciso di mettere alla prova i limiti delle intelligenze artificiali nel distinguere realtà da finzione in ambito medico. La scienziata ha creato di sana pianta la bixonimania, una presunta condizione oculare caratterizzata da occhi irritati, arrossati e con iperpigmentazione periorbitale, ovvero un oscuramento della pelle intorno alle palpebre. Secondo i paper inventati, la causa sarebbe l’esposizione eccessiva alla luce blu emessa da schermi di dispositivi mobili, un tema già popolare nelle discussioni sul benessere digitale. Per rendere l’esperimento ancora più credibile in superficie ma palesemente falso a un esame attento, Thunström ha caricato due preprint su un server accademico aperto, simulando studi rigorosi con autori fittizi affiliati a università inesistenti come l’Asteria Horizon University di Nova City, in California.

I segnali di allarme erano inequivocabili per chiunque leggesse con attenzione. Il nome stesso, bixonimania, termina in “-mania”, un suffisso tipico delle condizioni psichiatriche e del tutto inappropriato per una patologia oculare. Nel testo, a metà di uno dei paper, veniva esplicitamente dichiarato che l’intero contenuto era inventato, con frasi come “questo intero articolo è frutto di fantasia” inserite nella sezione metodi. Le sezioni di ringraziamenti includevano omaggi a “Professor Maria Bohm della Starfleet Academy per il suo contributo dal laboratorio a bordo dell’USS Enterprise”, un chiaro riferimento a Star Trek. Il finanziamento era attribuito alla “Professor Sideshow Bob Foundation” – dal personaggio dei Simpson noto per le sue burle – e all'”University of the Fellowship of the Ring”, ispirata al Signore degli Anelli. Nonostante questi elementi surreali, l’esperimento puntava a verificare se le AI, addestrate su vasti dataset online, avrebbero assorbito e propagato l’informazione falsa come se fosse reale.

I segnali evidenti ignorati dalle intelligenze artificiali e il fenomeno delle allucinazioni AI

Le allucinazioni AI, ovvero la tendenza dei modelli linguistici a generare informazioni plausibili ma del tutto inventate, non sono una novità. Tuttavia, il caso della bixonimania ha dimostrato quanto sia facile “avvelenare” i dati di addestramento con informazioni false, un processo noto come data poisoning. I sistemi di intelligenza artificiale non ragionano come gli umani: analizzano pattern statistici nei testi disponibili online, senza un vero filtro per la veridicità intrinseca. Una volta che i preprint falsi sono entrati nel flusso di dati pubblici, le AI li hanno incorporati come fonti autorevoli, ignorando i red flag palesi. Questo fenomeno evidenzia un problema strutturale: le intelligenze artificiali eccellono nel sintetizzare informazioni, ma falliscono drammaticamente quando si tratta di contestualizzare elementi di finzione o umorismo.

Nel giro di poche settimane dal caricamento dei paper, nel aprile 2024, le risposte delle AI hanno iniziato a circolare tra gli utenti. Il problema si è amplificato perché molti consultano questi strumenti per dubbi sanitari quotidiani, come irritazioni oculari da uso prolungato di smartphone. Invece di rimandare a fonti verificate o consigliare un medico, le AI hanno fornito diagnosi sicure e dettagliate, alimentando un circolo vizioso di disinformazione medica.

Le risposte delle principali AI: da Google Gemini a Perplexity e ChatGPT

Le reazioni specifiche delle principali piattaforme hanno reso il caso ancora più allarmante. Google Gemini ha descritto la bixonimania come una condizione causata dall’esposizione eccessiva alla luce blu, consigliando agli utenti di consultare un oftalmologo e ridurre il tempo davanti agli schermi. Perplexity, un motore di ricerca potenziato dall’intelligenza artificiale, è arrivato a quantificare la prevalenza: un caso su 90.000 persone, fornendo una statistica precisa ma totalmente inventata che conferiva un’aura di scientificità. ChatGPT, nel frattempo, ha valutato i sintomi descritti dagli utenti – come occhi doloranti e palpebre scurite – diagnosticando potenzialmente la bixonimania e suggerendo match sintomatici, senza mai mettere in dubbio l’esistenza della malattia.

Anche Microsoft Copilot ha contribuito al coro, definendo la bixonimania “una condizione intrigante e relativamente rara”. Questi output non erano isolati: migliaia di utenti potrebbero aver ricevuto consigli basati su questa finzione, specialmente prima che le aziende apportassero correzioni parziali nel 2026. Il fatto che le AI abbiano ripetuto la disinformazione nonostante le dichiarazioni esplicite di falsità nei paper originali sottolinea un limite critico: i modelli privilegiano la coerenza testuale rispetto alla verifica fattuale, un rischio amplificato in contesti sensibili come la salute.

Quando la bixonimania entra nella letteratura scientifica ufficiale e la ritirata

L’impatto non si è limitato alle chat degli utenti. Uno studio peer-reviewed pubblicato su Cureus, rivista edita da Springer Nature, ha citato uno dei preprint falsi come fonte legittima. I ricercatori indiani dell’Maharishi Markandeshwar Institute of Medical Sciences and Research hanno descritto la bixonimania come “una forma emergente di iperpigmentazione periorbitale legata alla luce blu”, integrandola in un’analisi su melanosi periorbitale. Solo dopo che Nature ha contattato la redazione, nel marzo 2026, il paper è stato ritirato con una nota che esprimeva “mancanza di fiducia nell’accuratezza o nella provenienza del lavoro”. Gli autori hanno contestato la decisione, ma il danno era fatto: un articolo scientifico ufficiale aveva amplificato l’inganno.

Questo episodio illustra come le allucinazioni AI possano creare loop di citazioni, dove informazioni false passano da preprint a pubblicazioni peer-reviewed, erodendo la fiducia nel processo scientifico. Né le AI né i revisori umani hanno inizialmente rilevato l’imbroglio, evidenziando un problema più ampio: la tendenza a citare riferimenti generati da intelligenza artificiale senza verifica approfondita.

L’avanzata dell’IA nella sanità: opportunità e pericoli evidenti

Mentre il caso bixonimania espone i rischi, l’intelligenza artificiale sta già integrandosi profondamente nel settore sanitario. La FDA americana utilizza l’IA per valutare farmaci, con linee guida pubblicate nel 2025 e principi guida aggiornati nel 2026 che promuovono l’uso di questi strumenti per accelerare lo sviluppo, ridurre i test sugli animali e migliorare le previsioni di tossicità ed efficacia. Allo stesso modo, il CEO di NYC Health + Hospitals, il più grande sistema ospedaliero pubblico degli Stati Uniti, ha dichiarato a marzo 2026 di essere pronto a sostituire una parte significativa dei radiologi con algoritmi, una volta superati gli ostacoli regolatori, per ottenere “risparmi significativi” su mammografie e raggi X.

Parallelamente, OpenAI ha lanciato ChatGPT Health a gennaio 2026, un’esperienza dedicata che collega dati sanitari personali, app di benessere e cartelle cliniche per fornire consigli personalizzati su risultati di test, preparazioni a visite mediche e scelte assicurative. Queste innovazioni promettono efficienza, accessibilità e scoperte più rapide, ma il caso della bixonimania ricorda che senza robusti meccanismi di verifica, l’intelligenza artificiale potrebbe diffondere errori con conseguenze reali sulla salute pubblica.

Rischi e sfide future: proteggere la sanità dalle allucinazioni AI

Il problema delle allucinazioni AI non è solo tecnico, ma etico e regolatorio. In un contesto in cui pazienti e professionisti citano sempre più output di intelligenza artificiale come riferimenti, il rischio di disinformazione medica cresce esponenzialmente. Esperti sottolineano la necessità di audit continui sui dataset di addestramento, watermarking per contenuti generati da AI e obblighi di disclosure per gli strumenti sanitari. Inoltre, serve una maggiore educazione: medici, ricercatori e utenti devono sviluppare un’abitudine alla verifica incrociata con fonti primarie peer-reviewed, evitando di affidarsi ciecamente a sintesi automatiche.

Il caso svedese dimostra che persino con indizi ovvi, le AI possono fallire, e che umani e macchine insieme non hanno colto l’inganno fino all’intervento esterno. In futuro, soluzioni ibride – dove l’intelligenza artificiale supporta ma non sostituisce il giudizio umano – potrebbero mitigare questi rischi, bilanciando innovazione e sicurezza.

Verso un uso responsabile dell’intelligenza artificiale in medicina

La storia della bixonimania non è un semplice scherzo accademico, ma un monito urgente sul delicato equilibrio tra progresso tecnologico e responsabilità. Mentre l’intelligenza artificiale accelera verso applicazioni come la valutazione FDA dei farmaci, la sostituzione di radiologi e il lancio di ChatGPT Health, episodi come questo ricordano che la veridicità non può essere data per scontata. Solo attraverso verifiche rigorose, trasparenza e collaborazione tra umani e macchine si potrà costruire una sanità digitale affidabile, dove l’innovazione salva vite senza creare nuove illusioni pericolose. In definitiva, il vero test per l’intelligenza artificiale non è la capacità di generare risposte, ma quella di ammettere i propri limiti e guidare verso la verità.