Vai al contenuto principale
OpenAI

18 giugno 2026

IA applicata

Usare l’IA per aiutare i medici a diagnosticare malattie genetiche rare nei bambini

In uno studio su NEJM AI, esperti hanno usato un modello di ragionamento OpenAI per rianalizzare 376 casi irrisolti e far emergere piste per 18 diagnosi.

Caricamento in corso...

Anche con il sequenziamento genomico, molte persone con malattie rare non ricevono mai una diagnosi genetica chiara. Circa la metà rimane senza diagnosi dopo test approfonditi e valutazioni specialistiche. I loro dati medici possono contenere indizi, ma trovarli può richiedere di passare al setaccio da migliaia a milioni di possibili varianti genetiche, cartelle cliniche frammentate e una letteratura scientifica in rapida evoluzione.

Man mano che si accumulano nuove relazioni gene-malattia, casi clinici ed evidenze di classificazione, casi irrisolti possono diventare nuovamente interpretabili.

Ricercatori del Manton Center for Orphan Disease Research del Boston Children’s Hospital, della Harvard University e di OpenAI hanno usato il modello di ragionamento OpenAI o3 Deep Research per analizzare informazioni cliniche e genomiche de-identificate provenienti da 376 casi già analizzati ma rimasti irrisolti. Il modello ha fatto emergere spiegazioni candidate collegate a evidenze perché ricercatori e clinici potessero esaminarle. Dopo la revisione degli esperti, ulteriori test e la conferma clinica, i medici hanno stabilito diagnosi in 18 casi: una resa diagnostica aggiuntiva del 4,8% dopo la precedente analisi degli specialisti. Questo studio è stato pubblicato il 18 giugno 2026 su NEJM AI e mostra come un flusso di ricerca assistito dall’IA possa aiutare gli esperti a generare piste quando riesaminano alcuni dei casi più difficili.

Molti di questi casi erano sfuggiti per anni all’analisi degli esperti. In questo studio, OpenAI o3 Deep Research ha aiutato i ricercatori a individuare piste poi valutate attraverso processi clinici consolidati, suggerendo che la rianalisi periodica guidata da esperti potrebbe diventare più scalabile con l’evolversi delle conoscenze. Il modello non ha diagnosticato alcun paziente né preso alcuna decisione clinica. Ha prodotto ipotesi collegate a evidenze perché gli specialisti le esaminassero e, dove appropriato, le approfondissero con ulteriori test e le confermassero in un laboratorio clinico.

Perché un vecchio caso può contenere una nuova risposta

Un test genetico inconcludente non è sempre un risultato permanente. Le descrizioni del fenotipo di un paziente, i risultati dei test e la storia familiare possono essere distribuiti in database che usano identificatori, formati e vocabolari diversi. Collegare quei dati è difficile, quindi anche gli specialisti possono non arrivare a una diagnosi. Gli esperti possono inoltre sequenziare il genoma di un bambino prima che un gene pertinente, o le sue varianti, siano stati collegati a una malattia. Con il progredire delle conoscenze scientifiche, gli stessi dati possono rivelare risposte che prima era impossibile scoprire.

La rianalisi delle malattie rare è sia un problema scientifico sia un problema di aggiornamento continuo. Il genoma del paziente può restare lo stesso, ma le evidenze che lo circondano continuano a cambiare: i ricercatori collegano nuovi geni e varianti alle malattie, i laboratori riclassificano vecchie varianti e i database di casi e gli articoli accumulano nuove osservazioni. Ogni aggiornamento può rendere opportuno riesaminare un vecchio caso inconcludente, così molte istituzioni ereditano un arretrato crescente di genomi da mantenere allineati con una base di conoscenze in movimento.

In questo studio, i ricercatori hanno progettato il flusso di lavoro in modo che il modello agisse come uno strato di ragionamento orientato prima di tutto alla spiegazione, sopra le pipeline genomiche esistenti. Invece di restituire solo un gene ordinato per priorità, gli è stato chiesto di collegare caratteristiche cliniche, schema di ereditarietà, evidenza della variante e letteratura scientifica in una giustificazione che un revisore umano potesse interrogare. 

Come ha funzionato la rianalisi

Per ciascun caso, il team ha assemblato un pacchetto de-identificato contenente termini standardizzati della Human Phenotype Ontology per descrivere la presentazione clinica del paziente, occasionali note dei clinici ed eventuali diagnosi cliniche descrittive, metadati come età e genere, e una tabella filtrata delle varianti. La tabella riportava la rarità di ciascuna variante, il suo effetto previsto sulla proteina codificata, la classificazione ClinVar e la qualità del segnale tra i familiari disponibili. La maggior parte dei casi includeva dati del bambino e di entrambi i genitori biologici.

Il team ha chiesto al modello di proporre la spiegazione molecolare più plausibile e di mostrare il proprio lavoro. I ricercatori hanno poi esaminato gli output usando lo stesso framework ACMG/AMP che i laboratori clinici usano per classificare le varianti genetiche. Almeno due membri del team hanno esaminato ciascun candidato, i disaccordi sono stati risolti per consenso e un output del modello non è mai stato trattato come una diagnosi. Un risultato veniva conteggiato come diagnosi solo dopo che esperti qualificati avevano esaminato le evidenze, la variante era stata classificata come patogena o probabilmente patogena, un laboratorio certificato CLIA l’aveva confermata e il team clinico aveva restituito il risultato alla famiglia.

Prima di analizzare i casi irrisolti, il team ha perfezionato il flusso di lavoro su casi con diagnosi già stabilite. Ha recuperato il gene e la variante corretti in esecuzioni duplicate per 48 dei 51 casi che includevano una varietà di condizioni rare. In un insieme di 57 casi neuromuscolari, il flusso di lavoro ha restituito la diagnosi corretta in esecuzioni duplicate per 45 casi. In un insieme di 15 casi con genomi a letture lunghe, ha indicato il gene corretto in ogni caso ed entrambi gli alleli responsabili della malattia in 12 casi. Queste valutazioni hanno aiutato a sviluppare il prompt e hanno mostrato dove la revisione degli esperti rimaneva essenziale.

I punteggi di confidenza auto-riferiti dal modello erano coerenti con le diagnosi corrette in questi casi già risolti: il punteggio minimo medio era 85,6 per le chiamate costantemente corrette e 42,1 per le chiamate errate o sconosciute. I punteggi non erano probabilità calibrate e il team non li ha usati come sostituto delle evidenze o della valutazione clinica. Sono però stati utili per guidare i revisori esperti a concentrarsi sulle diagnosi candidate più promettenti. 

Diagramma del flusso di lavoro intitolato “Flusso di lavoro IA guidato dall’uomo per la rianalisi genomica delle malattie rare”, che mostra dati de-identificati dei pazienti passare attraverso decisioni umane, sintesi delle evidenze da parte di LLM, revisione esperta, test, conferma clinica e restituzione dei risultati alla famiglia.

Che cosa hanno scoperto i ricercatori

Il team ha poi applicato il flusso di lavoro a quattro gruppi di casi precedentemente irrisolti: bambini con condizioni neuroevolutive, persone con malattie neuromuscolari rare, bambini e adolescenti con psicosi precoce e casi di morte improvvisa inattesa in età pediatrica. Non erano casi nuovi in attesa di una prima revisione. Molti erano già stati esaminati da più pipeline commerciali o istituzionali e discussi da team multidisciplinari.

Risultati per coorte

Coorte

Casi

Diagnosi emerse

Resa

Neurosviluppo

100

10

10,0%

Malattia neuromuscolare

61

4

6,6%

Morte improvvisa e inaspettata in pediatria

200

2

1,0%

Psicosi precoce

15

2

13,3%

Totale

376

18

4,8%

La coorte con psicosi precoce era piccola, quindi la sua percentuale ha un ampio intervallo di confidenza. La resa riflette anche la probabilità che ciascuna coorte avesse una spiegazione monogenica.

Dopo che il modello ha fatto emergere i candidati e gli esperti hanno completato la revisione e la conferma clinica, i medici hanno stabilito diagnosi nel 4,8% dei casi. È un tasso modesto ma significativo in questa popolazione, perché le precedenti revisioni degli esperti non avevano risolto i casi. Studi simili di rianalisi riportano guadagni a una cifra nei casi già ampiamente esaminati; rese più alte di solito provengono da studi che includono casi nuovi o disturbi ben noti in attesa di conferma genetica.

Delle 18 diagnosi, 7 erano riscoperte: diagnosi stabilite al di fuori del flusso di ricerca locale ma assenti dal fascicolo esaminato dal team. In diversi casi, le varianti erano già elencate come patogene o probabilmente patogene in database pubblici, evidenziando la sfida operativa di sintetizzare informazioni provenienti da diverse fonti di dati.

Dimostrare flessibilità nell’identificazione delle varianti

In un caso di psicosi precoce, il modello ha dedotto un evento strutturale nel genoma che non era indicato nei dati di input. Ha collegato una serie di chiamate di bassa qualità sul cromosoma 22 alle caratteristiche cardiache, immunitarie, neuroevolutive e psichiatriche del bambino, quindi ha ipotizzato una delezione 22q11.2 associata alla sindrome di DiGeorge. La variante ipotizzata è stata confermata con un successivo sequenziamento genomico.

Sebbene il prompt chiedesse una singola causa monogenica, il modello a volte ha fatto emergere due geni che spiegavano meglio una presentazione complessa. Varianti in LAMA2 e FOXP1 insieme hanno contribuito a spiegare le caratteristiche muscolari e neuroevolutive in un caso; un altro presentava una spiegazione digenica precedentemente non riconosciuta che coinvolgeva TTN e SRPK3.

Produrre un’ipotesi verificabile e biologicamente coerente

Oltre alle diagnosi, il modello ha identificato anche una possibile nuova spiegazione meccanicistica per una condizione chiamata vitiligine. In un caso neuroevolutivo, il modello ha evidenziato una delezione di 11 amminoacidi in S1PR1 in una persona con vitiligine. S1PR1 codifica un recettore di superficie cellulare coinvolto nella segnalazione, nel movimento delle cellule immunitarie e nella biologia dei tessuti. Il modello ha integrato evidenze che suggeriscono che la delezione potrebbe alterare la struttura e la segnalazione del recettore in modi che riducono la produzione di pigmento e al tempo stesso aiutano le cellule immunitarie a persistere nella pelle.

La relazione proposta tra S1PR1 e vitiligine richiede ulteriore validazione sperimentale, ma illustra un ruolo potente dell’IA nel tradurre risultati sparsi di biologia strutturale, immunologia e genetica clinica in ipotesi concrete e verificabili.

Il team ha osservato anche una possibile espansione del fenotipo nella coorte neuromuscolare. Varianti dannose in HSPB8 e CDK13 non corrispondevano perfettamente ai disturbi più noti associati a quei geni, suggerendo uno spettro clinico più ampio che dovrà essere verificato con più casi e lavoro di laboratorio.

Caso di studio: la diagnosi di Kyra dopo quasi due decenni

Tutto è cominciato a lezione di karate, quando la madre di Kyra ha notato che la figlia di 9 anni non si abbassava più nelle posizioni come faceva prima. Kyra stava anche rallentando durante gli allenamenti di calcio e camminava e correva restando sulle punte. Il pediatra non riuscì a individuare la causa della sua debolezza muscolare, così la indirizzò a uno specialista. Ne seguì un percorso di quasi 20 anni tra test, trattamenti e consulti senza una diagnosi.

Il caso di Kyra è stato una delle quattro diagnosi emerse nella coorte neuromuscolare. Il team ha collegato la sua condizione a una variante frameshift in HSPB8 e ha diagnosticato una forma di miopatia miofibrillare, in cui strutture proteiche anomale si accumulano nelle fibre muscolari e contribuiscono alla debolezza. Un consulente genetico del Manton Center ha chiamato Kyra circa una settimana prima del suo 28º compleanno.

A quel punto, Kyra aveva passato gran parte della vita ad adattarsi alla malattia. A 13 anni dipendeva da un respiratore e usava una sedia a rotelle, anche se da allora la sua condizione si è stabilizzata. Sebbene la forma di miopatia miofibrillare di Kyra sia così rara che si conosce poco del suo decorso a lungo termine, la diagnosi ha portato una certa chiusura.

Limiti

Questo studio mostra che un modello di ragionamento generalista può contribuire alla rianalisi genomica retrospettiva combinando fenotipo, ereditarietà, annotazioni delle varianti, pattern di qualità dei dati e letteratura scientifica in ipotesi esaminabili. Mostra anche perché la rianalisi periodica è importante: alcune risposte emergono solo dopo che le conoscenze avanzano o che dati frammentati vengono riuniti.

Questa ricerca non dimostra che pazienti, clinici o clienti debbano usare i modelli OpenAI per diagnosticare malattie o prendere decisioni mediche. Non descrive né approva un uso previsto da parte dei clienti di OpenAI o3 Deep Research, ChatGPT o qualsiasi altro prodotto OpenAI per la diagnosi. Il modello non ha diagnosticato alcun partecipante; medici e altri esperti clinici qualificati hanno formulato ogni diagnosi attraverso processi consolidati di revisione, test e conferma clinica.

Lo studio era retrospettivo, le coorti erano eterogenee e i revisori non erano in cieco rispetto alla confidenza del modello. I ricercatori non hanno misurato il tempo risparmiato, il costo, l’impegno dei clinici, il carico di falsi positivi o i cambiamenti nell’assistenza. Né hanno valutato sistematicamente altre forme di variazione genetica, come varianti strutturali, espansioni di ripetizioni, cambiamenti intronici profondi o mosaicismo.

I modelli linguistici di grandi dimensioni possono fraintendere il contesto o produrre spiegazioni plausibili che non reggono a un esame più attento. Per questo, ogni risultato è passato attraverso una valutazione umana e una conferma clinica. Il modello ha ampliato la ricerca e focalizzato la successiva analisi guidata dall’uomo; non ha deciso quali informazioni o diagnosi dovessero essere restituite a una famiglia.

Questo studio ha usato informazioni de-identificate, senza utilizzare né trasmettere informazioni sanitarie protette al di fuori degli ambienti approvati. Un’adozione clinica più ampia richiederà la stessa attenzione a privacy, sicurezza, verificabilità e regolamentazione locale che si applica a tutta l’assistenza medica. L’accesso al modello non sostituisce l’infrastruttura di sequenziamento, la consulenza genetica, i test di conferma o il giudizio degli specialisti.

Sfondo astratto con gradiente blu e transizioni morbide tra tonalità azzurro chiaro, ciano e blu profondo, che crea un effetto uniforme e sfocato.

“Il collo di bottiglia è il tempo. Un esperto può dedicare solo una certa parte della propria giornata a una singola persona.”

Dott.ssa Catherine Brownstein, Manton Center for Orphan Disease Research del Boston Children’s Hospital

Sfondo astratto con gradiente blu e transizioni morbide tra tonalità azzurro chiaro, ciano e blu profondo, che crea un effetto uniforme e sfocato.

“Ricercatori come Catherine e me non possono certo tenere a mente 8.000 malattie diverse. È questo il potere dell’IA.”

Alan Beggs, direttore del Manton Center for Orphan Disease Research

I prossimi passi

Studi prospettici multicentrici dovrebbero confrontare la rianalisi assistita da LLM con la pratica standard in termini di resa diagnostica, tempo necessario per arrivare a un candidato, impegno dei clinici, carico di falsi positivi, costi ed effetti sull’assistenza. Prompt versionati, controlli delle fonti, log di audit e incertezza calibrata saranno importanti per riproducibilità e sicurezza. Tali studi richiederebbero comunque clinici qualificati per valutare le evidenze, prescrivere test appropriati e prendere qualsiasi decisione diagnostica o terapeutica.

Questo studio ha usato OpenAI o3 Deep Research. I modelli generalisti più recenti possono cercare e sintetizzare più materiale scientifico, mentre sistemi creati appositamente come GPT‑Rosalind sono progettati per lavori più approfonditi nelle scienze della vita, inclusi gli effetti delle varianti sulla struttura e sulla funzione delle proteine. Queste capacità non sono state testate qui e richiederanno valutazioni e controlli di accesso dedicati.

Sebbene OpenAI abbia contribuito a sostenere questo studio di ricerca iniziale, il Manton Center guiderà la fase successiva del lavoro attraverso una sovvenzione della OpenAI Foundation. La sovvenzione sosterrà l’impegno più ampio del Center per sviluppare un copilota IA per la genetica, a basso costo e indipendente dalla piattaforma, che aiuti i team clinici ad analizzare i casi di malattie rare in modo più rapido e coerente.

L’opportunità di ricerca a più lungo termine è esplorare se la rianalisi assistita dall’IA e guidata da esperti possa aiutare la comprensione scientifica a tenere il passo con le scoperte. La promessa non è che l’IA sostituisca la diagnosi di un medico, ma che strumenti di ricerca valutati con attenzione possano aiutare gli specialisti a individuare evidenze da approfondire. Per migliaia di famiglie, le domande senza risposta di oggi non devono restare senza risposta per sempre.

  • 2026

Autore

OpenAI