Dr. ChatGPT e colleghi

Risposte immediate, nessun tempo d’attesa, disponibile giorno e notte. Ogni giorno Dr. ChatGPT ha una risposta pronta per oltre quaranta milioni di pazienti. Tanti sono oggi quelli che si rivolgono alla chat. Esprime le sue opinioni in modo garbato, con una conversazione fin troppo compiacente ma soprattutto con baldanza, dubbi non ne ha. Sembra anche più accurato di Dr. Google, ma probabilmente solo perché mostra grande sicurezza. Siccome è stato disegnato per compiacere chi domanda, sembra pure un po’ meno spietato del collega quando chiedevi a Dr. Google, prima di aver letto fino in fondo alla pagina, eri già morto.
Comunque, Dr. ChatGPT e i suoi colleghi Dr. Claude, Dr. MetaAI, Dr. Gemini e gli altri hanno passato brillantemente gli esami di medicina. È facile per loro comporre un testo se domanda e risposta si trovano nei testi sui quali sono stati istruiti. I cosiddetti Large Language Models pescano da tutto ciò che trovano online, riviste autorevoli ma anche testi imprecisi. Se le domande sono specifiche come in un esame, le risposte lo sono altrettanto. Non bisogna mai dimenticare che non capiscono la domanda e neppure comprendono la loro risposta. Producono solo la sequenza di testo più probabile. Una meraviglia, certo. Allora possiamo fidarci di Dr. ChatGPT e dei suoi colleghi?
Diversamente dai quesiti di un esame di medicina, la domanda imprecisa e lacunosa di un paziente (magari pure impaurito) non indica così bene la strada per la risposta. Un gruppo di ricercatori (Nature medicine) ha messo alla prova questi sistemi intelligenti e i risultati sono, beh, tremendi. Nella metà dei casi la chat non ha riconosciuto l’urgenza della situazione e consigliato al paziente di aspettare tranquillo invece che correre subito al pronto soccorso per fortuna non erano pazienti veri. Nell’attuale edizione del BMJ un secondo studio fa passare la voglia di consultare l’intelligenza generativa. Una risposta su due risultava problematica e di queste il venti per cento erano addirittura pericolose. Un terzo studio (sulla principale rivista dei medici americani, JAMA) ha messo alla prova i principali sistemi di intelligenza generativa in ambito medico e anche questo mette in guardia sulla loro limitatezza e imprecisione. Anche altri studi arrivano alle stesse conclusioni. Insomma, il parere critico sembra unanime. Ad inquietare, perché trae in inganno i pazienti, è soprattutto quel tono di certezza e infallibile eloquenza. E, come se non bastasse, all’intelligenza generativa piace farcire le risposte con riferimenti dotti, salvo che molti dei lavori scientifici che cita se li è inventata di sana pianta. Questa delle citazioni erudite ma inventate li per lì è una mania anche nelle risposte in questioni giuridiche. Chissà, forse l’intelligenza generativa non resiste alla tentazione di fare la prima della classe.
Quando un paziente va dal suo medico, magari elenca i suoi sintomi in modo impreciso. Sono poi le domande del medico, la sua esperienza e competenza che permettono di avvicinarsi alla diagnosi passo per passo anche perché, quando ha dubbi, il medico propone ulteriori accertamenti. Ma questo non è lo stile delle chatbot «intelligenti». Molto raramente fanno un passo indietro dicendo: «Non saprei, mi servono altri dati». E come potrebbero dubitare? Dr. ChatGPT e i suoi colleghi non capiscono né le domande né le loro stesse risposte, allineano solo le parole una dietro l’altra in base ad un calcolo di probabilità. Ecco perché quando la questione è posta da un medico in termini più precisi la risposta migliora. Ma se sono i pazienti a porre le domande le risposte sono a volte, come dire, più «creative». L’intelligenza generativa è stata disegnata per comporre testi non per ragionare. Infatti, può aiutare bene i medici nella redazione di rapporti e altri compiti amministrativi.
In futuro l’intelligenza artificiale sarà di grande aiuto nella medicina. Ma per adesso non è ancora così. Può piacerci l’eloquenza simpatica di Dr. ChatGPT, ma per questioni importanti meglio chiamare il nostro medico.


