di Eugenio Santoro
Un primo studio sulle sue capacità diagnostiche a pochi mesi dal lancio conferma che è abbastanza preciso nei casi di media gravità, ma sbaglia agli “estremi”
ChatGPT Salute o ChatGPT Health è stato lanciato da poco più di tre mesi ed è già disponibile uno studio che ne valuta l’affidabilità quando messo all’opera. È stato pubblicato su Nature Medicine poche settimane fa e il risultato è lapidario: calato in un contesto reale, non è in grado di distinguere un’urgenza da una situazione di routine.
Restare a casa o andare di corsa al pronto soccorso?
I ricercatori hanno condotto uno stress test delle capacità del sistema di operare un triage utilizzando 60 casi clinici (in 21 domini clinici) redatti da medici, per un totale di 960 risposte.
Se nei casi di media gravità ChatGPT funziona discretamente, nei casi clinicamente estremi risulta essere meno preciso. Tra i casi di emergenze reali, poco meno della metà (48%) sono stati gestiti correttamente invitando i pazienti a recarsi al pronto soccorso. Sono per esempio state riconosciute emergenze classiche come l’ictus e l’anafilassi. Ma per il restante 52% il sistema ha sottostimato la gravità della situazione, indirizzando i pazienti con chetoacidosi diabetica o imminente insufficienza respiratoria a una valutazione entro 24-48 ore anziché immediatamente al pronto soccorso. Dall’altra parte, il sistema ha sovrastimato i casi non urgenti, suggerendo nel 65% delle occasioni visite mediche quando, secondo i medici che hanno selezionato i casi clinici, sarebbero state sufficienti le cure domiciliari.
Più inquietante è risultata l’identificazione di possibili ideazioni suicidarie, con richieste di intervento di specifici servizi come la Suicide and Crisis Lifeline attivate in maniera imprevedibile e indipendentemente dalla gravità della situazione.
Forse è mancato l’addestramento
Gli autori ipotizzano che questo comportamento sia dettato dal fatto che le situazioni estreme (le vere emergenze e i casi da “codice bianco”) sono sottorappresentate nei dati utilizzati per addestrare il modello di intelligenza artificiale, che privilegiano invece i casi “medi”. D’altra parte, OpenAI non rende pubbliche le informazioni relative alla tipologia di dati usati per addestrare ChatGPT Salute e questo non facilita l’individuazione di una possibile causa.
Ma forse ChatGPT Salute sbaglia per un’altra semplice ragione. Non è in grado di ragionare. Come peraltro non è in grado di ragionare il suo progenitore ChatGPT. Cambiano i dati (nel primo caso, articoli scientifici, risorse didattiche, dataset e database concessi in licenza e dati forniti dagli esperti per rafforzare l’apprendimento; nel secondo, migliaia di libri e tutto quanto è disponibile sul web), ma il modo di arrivare a una risposta rimane inalterato e fermamente basato sullo sfruttamento dei pattern nei testi e nei dati usati per l’addestramento. Insomma, anche per ChatGPT Salute la costruzione di una risposta dipende dalla probabilità che le parole che la formano “stiano bene tra loro”.
Un recentissimo articolo pubblicato su Jama Network Open avvalora proprio questa tesi. Lo studio ha analizzato 21 modelli di intelligenza artificiale generativa (tra cui ChatGPT, Claude, Gemini e Grok) ai quali sono stati sottoposti 29 casi clinici forniti da un noto manuale medico. Tali modelli sono stati valutati nelle varie fasi del processo clinico che includevano la diagnosi differenziale, la scelta dei test, la diagnosi finale e la gestione terapeutica.
I principali problemi hanno riguardato le fasi iniziali del ragionamento, più specificatamente la diagnosi differenziale, con tassi di errore superiori all’80% riscontrati su tutti i modelli. La diagnosi finale, quando tutte le informazioni cliniche erano disponibili, è invece risultata sufficientemente corretta.
Chat GPT troppo sicuro di sé
Lo studio sembra quindi rivelare la propensione dei modelli a giungere prematuramente a una conclusione diagnostica, omettendo di gestire correttamente l’incertezza o di prospettare un differenziale esaustivo. Tale dinamica evidenzia una divergenza sostanziale rispetto alla metodologia clinica umana, storicamente fondata sul ragionamento per esclusione e sulla valutazione progressiva delle ipotesi.
L’epistemia, cioè l’illusione di conoscenza prodotta dall’intelligenza artificiale generativa, dove la fluidità e la coerenza narrativa di un testo sostituiscono la verità e la verifica dei fatti, fa poi il resto.
Volendo provare a trarre una conclusione, nonostante i miglioramenti osservati all’avanzare delle versioni e i vantaggi nei modelli ottimizzati per il ragionamento, i sistemi di intelligenza artificiale generativa (sia quelli generalisti sia quelli rivolti all’ambito della salute) non hanno ancora raggiunto l’intelligenza necessaria per un’implementazione sicura e rimangono limitati nella dimostrazione di un ragionamento clinico avanzato.
Meglio chiedere maggiore trasparenza
Che cosa possiamo fare quindi, oltre a diffidare di questi strumenti? Innanzitutto chiedere che i dati usati per l’addestramento vengano resi noti al pubblico e agli addetti ai lavori (quali sono i dati? i bias sono evitati/evitabili?) e che siano sufficientemente rappresentativi della popolazione. Inoltre, dovremmo richiedere che tali strumenti (in particolare ChatGPT Salute) siano validati scientificamente e siano aderenti alla normativa dei dispositivi medici.
Soprattutto, dobbiamo richiedere una validazione prospettica prima della diffusione su larga scala di sistemi di triage (ma in realtà questo vale per qualunque sistema usato in ambito medico) basati sull’intelligenza artificiale. Tale validazione dovrebbe adottare una metodologia più vicina alla reale pratica clinica, superando i test basati su domande a scelta multipla che non sono in grado di riflettere la complessità dei processi diagnostici e decisionali.
Nel frattempo, è opportuno astenersi dall’utilizzare tali strumenti, o quantomeno limitarne l’uso ai casi clinici più lineari. In queste circostanze, dove il margine di errore è ridotto, rimane comunque essenziale un controllo scrupoloso dei risultati ottenuti.
Eugenio Santoro è un ricercatore esperto di digital health e lavora all’Istituto di Ricerche Farmacologiche Mario Negri IRCCS, dove dirige l’Unità per la ricerca in sanità digitale e terapie digitali. È membro del gruppo ICT della FNOMCeO, del Comitato Tecnico Scientifico dell’Intergruppo Parlamentare su sanità digitale e terapie digitali, del Gruppo di Lavoro “Intelligenza artificiale in sanità” della Regione Emilia-Romagna e del Comitato di Controllo dell’Istituto di Autodisciplina Pubblicitaria. Nell’ambito della sanità digitale ha pubblicato diversi libri e numerosi articoli scientifici e divulgativi, e nel 2021 ha curato la voce “Digital Health” per la X Appendice dell’enciclopedia Treccani dedicata alle parole del XXI secolo. Insegna in diversi master universitari.
Articolo pubblicato su Univadis.