Salta al contingut principal
OpenAI

18 de juny del 2026

AI aplicada

Ús de l’AI per ajudar metges a diagnosticar malalties genètiques rares en infants

En un estudi de NEJM AI, experts van usar un model de raonament d’OpenAI per reanalitzar 376 casos sense resoldre i detectar pistes per a 18 diagnòstics.

S'està carregant…

Fins i tot amb la seqüenciació genòmica, moltes persones amb malalties rares no arriben mai a rebre un diagnòstic genètic clar. Aproximadament la meitat continuen sense diagnòstic després de proves exhaustives i de la revisió d’especialistes. Les seves dades mèdiques poden contenir pistes, però trobar-les pot requerir revisar milers o milions de possibles variants genètiques, historials clínics fragmentats i literatura científica que canvia ràpidament.

A mesura que s’acumulen noves relacions entre gens i malalties, informes de casos i evidències de classificació, els casos sense resoldre poden esdevenir interpretables de nou.

Investigadors del Manton Center for Orphan Disease Research del Boston Children’s Hospital, la Harvard University i OpenAI van utilitzar el model de raonament OpenAI o3 Recerca profunda per analitzar informació clínica i genòmica desidentificada de 376 casos analitzats prèviament que continuaven sense resoldre. El model va detectar explicacions candidates vinculades a evidències perquè investigadors i clínics les revisessin. Després de la revisió d’experts, proves addicionals i confirmació clínica, els metges van establir diagnòstics en 18 casos: un rendiment diagnòstic addicional del 4,8 % després de l’anàlisi prèvia feta per especialistes. Aquest estudi es va publicar el 18 de juny de 2026 a NEJM AI i mostra com un flux de treball de recerca assistit per AI pot ajudar els experts a generar pistes quan revisiten alguns dels casos més difícils.

Molts d’aquests casos havien eludit durant anys l’anàlisi d’experts. En aquest estudi, OpenAI o3 Recerca profunda va ajudar els investigadors a identificar pistes que posteriorment es van avaluar mitjançant processos clínics establerts, cosa que suggereix que una reanàlisi periòdica dirigida per experts podria esdevenir més escalable a mesura que el coneixement evoluciona. El model no va diagnosticar cap pacient ni va prendre cap decisió clínica. Va produir hipòtesis vinculades a evidències perquè els especialistes les revisessin i, quan fos apropiat, les investiguessin amb proves addicionals i les confirmessin en un laboratori clínic.

Per què un cas antic pot contenir una resposta nova

Una prova genètica no concloent no sempre és una conclusió permanent. Les descripcions del fenotip d’un pacient, els resultats de les proves i els antecedents familiars poden estar repartits entre bases de dades que utilitzen identificadors, formats i vocabularis diferents. Vincular aquests registres és difícil, de manera que fins i tot els especialistes poden passar per alt un diagnòstic. Els experts també poden seqüenciar el genoma d’un infant abans que un gen rellevant o les seves variants s’hagin vinculat a una malaltia. A mesura que avança el coneixement científic, les mateixes dades poden revelar respostes que abans eren impossibles de descobrir.

La reanàlisi de malalties rares és alhora un problema científic i de manteniment. El genoma del pacient pot romandre igual, però l’evidència que l’envolta continua canviant: els investigadors vinculen nous gens i variants a malalties, els laboratoris reclassifiquen variants antigues, i les bases de dades de casos i els articles acumulen noves observacions. Cada actualització pot fer que valgui la pena revisar un cas antic no concloent, de manera que moltes institucions hereten una acumulació creixent de genomes que cal mantenir sincronitzats amb una base de coneixement en moviment.

En aquest estudi, els investigadors van dissenyar el flux de treball perquè el model actués com una capa de raonament centrada primer en l’explicació, per sobre de les canalitzacions genòmiques existents. En lloc de retornar només un gen ordenat per prioritat, se li va demanar que connectés les característiques clíniques, el patró d’herència, l’evidència de variants i la literatura científica en una justificació que un revisor humà pogués interrogar. 

Com va funcionar la reanàlisi

Per a cada cas, l’equip va preparar un paquet desidentificat que contenia termes estandarditzats de l’Human Phenotype Ontology per descriure la presentació clínica del pacient, notes ocasionals de clínics i qualsevol diagnòstic clínic descriptiu, metadades com l’edat i el gènere, i una taula de variants filtrada. La taula recollia la raresa de cada variant, el seu efecte predit sobre la proteïna codificada, la classificació ClinVar i la qualitat del senyal entre els familiars disponibles. La majoria dels casos incloïen dades de l’infant i de tots dos progenitors biològics.

L’equip va demanar al model que proposés l’explicació molecular més plausible i que mostrés el seu raonament. Després, els investigadors van revisar els resultats amb el mateix marc ACMG/AMP que utilitzen els laboratoris clínics per classificar variants genètiques. Com a mínim dos membres de l’equip van revisar cada candidat, les discrepàncies es van resoldre per consens i cap resultat del model no es va tractar mai com un diagnòstic. Una troballa només es va comptar com a diagnòstic després que experts qualificats revisessin l’evidència, la variant es classifiqués com a patogènica o probablement patogènica, un laboratori certificat per CLIA la confirmés i l’equip clínic retornés el resultat a la família.

Abans d’analitzar casos sense resoldre, l’equip va perfeccionar el flux de treball amb casos que tenien diagnòstics establerts. Va recuperar el gen i la variant correctes en execucions duplicades en 48 de 51 casos que incloïen diverses afeccions rares. En un conjunt de 57 casos neuromusculars, el flux de treball va retornar el diagnòstic correcte en execucions duplicades en 45 dels casos. En un conjunt de 15 casos amb genomes de lectures llargues, va identificar el gen correcte en tots els casos i tots dos al·lels causants de la malaltia en 12 casos. Aquestes avaluacions van ajudar a desenvolupar la indicació i van mostrar on la revisió d’experts continuava sent essencial.

Les puntuacions de confiança autoinformades del model es van correlacionar amb els diagnòstics correctes en aquests casos resolts prèviament: la puntuació mínima mitjana va ser de 85,6 per a les crides correctes de manera consistent i de 42,1 per a les crides incorrectes o desconegudes. Les puntuacions no eren probabilitats calibrades, i l’equip no les va utilitzar com a substitut de l’evidència ni de l’adjudicació clínica. Però van ser útils per orientar els revisors experts cap als diagnòstics candidats més prometedors. 

Diagrama de flux titulat «Flux de treball d’AI guiat per humans per a la reanàlisi genòmica de malalties rares», que mostra dades desidentificades de pacients passant per decisions humanes, síntesi d’evidències amb LLM, revisió d’experts, proves, confirmació clínica i retorn de resultats a la família.

Què van trobar els investigadors

Després, l’equip va aplicar el flux de treball a quatre grups de casos prèviament no resolts: infants amb afeccions del neurodesenvolupament, persones amb malaltia neuromuscular rara, infants i adolescents amb psicosi precoç, i casos de mort sobtada inesperada en pediatria. No eren casos nous pendents d’una primera revisió. Molts ja havien estat examinats per múltiples canalitzacions comercials o institucionals i debatuts per equips multidisciplinaris.

Resultats per cohort

Cohort

Casos

Diagnòstics detectats

Rendiment diagnòstic

Neurodesenvolupament

100

10

10,0 %

Malaltia neuromuscular

61

4

6,6 %

Mort sobtada inesperada en pediatria

200

2

1,0 %

Psicosi precoç

15

2

13,3 %

Total

376

18

4,8 %

La cohort de psicosi precoç era petita, de manera que el seu percentatge té un interval de confiança ampli. El rendiment diagnòstic també reflecteix la probabilitat que cada cohort tingués una explicació monogènica.

Després que el model detectés candidats i els experts completessin la revisió i la confirmació clínica, els metges van establir diagnòstics en el 4,8 % dels casos. Aquesta taxa és modesta però significativa en aquesta població, perquè les revisions prèvies d’experts no havien resolt els casos. Estudis similars de reanàlisi informen de guanys d’un sol dígit en casos molt revisats; els rendiments més alts solen provenir d’estudis que contenen casos nous o trastorns ben coneguts pendents de confirmació genètica.

Dels 18 diagnòstics, 7 eren redescobriments: diagnòstics establerts fora del flux de treball de recerca local però absents del registre que l’equip va revisar. En diversos casos, les variants ja constaven com a patogèniques o probablement patogèniques en bases de dades públiques, cosa que posa de manifest el repte operatiu de sintetitzar informació de diverses fonts de dades.

Demostrar flexibilitat en identificar variants

En un cas de psicosi precoç, el model va inferir un esdeveniment estructural al genoma que no constava a les dades d’entrada. Va relacionar una sèrie de crides de baixa qualitat al cromosoma 22 amb les característiques cardíaques, immunitàries, del neurodesenvolupament i psiquiàtriques de l’infant, i després va plantejar una deleció 22q11.2 associada a la síndrome de DiGeorge. Aquesta variant hipotètica es va confirmar amb una seqüenciació genòmica de seguiment.

Tot i que la indicació demanava una causa monogènica, de vegades el model va fer emergir dos gens que explicaven millor una presentació complexa. Les variants en LAMA2 i FOXP1 conjuntament van ajudar a explicar les característiques musculars i del neurodesenvolupament en un cas; un altre tenia una explicació digènica no reconeguda prèviament que implicava TTN i SRPK3.

Produir una hipòtesi verificable i biològicament coherent

A més dels diagnòstics, el model també va identificar una possible explicació mecanística nova per a una afecció anomenada vitiligen. En un cas de neurodesenvolupament, el model va destacar una deleció d’11 aminoàcids a S1PR1 en una persona amb vitiligen. S1PR1 codifica un receptor de superfície cel·lular implicat en la senyalització, el moviment de cèl·lules immunitàries i la biologia dels teixits. El model va integrar evidències que suggerien que la deleció podria alterar l’estructura i la senyalització del receptor de maneres que reduïssin la producció de pigment i, alhora, ajudessin les cèl·lules immunitàries a persistir a la pell.

La relació proposada entre S1PR1 i el vitiligen requereix validació experimental addicional, però il·lustra un paper potent de l’AI a l’hora de traduir troballes disperses de biologia estructural, immunologia i genètica clínica en hipòtesis concretes i verificables.

L’equip també va observar una possible expansió fenotípica en la cohort neuromuscular. Les variants perjudicials en HSPB8 i CDK13 no coincidien perfectament amb els trastorns més coneguts dels gens, cosa que suggereix un espectre clínic més ampli que caldrà posar a prova amb més casos i treball de laboratori.

Estudi de cas: el diagnòstic de la Kyra després de gairebé dues dècades

Tot va començar a classe de karate, quan la mare de la Kyra va adonar-se que la seva filla de 9 anys ja no baixava tant en les posicions com abans. La Kyra també s’alentia durant els entrenaments de futbol i caminava i corria de puntetes. El seu pediatre no va poder identificar la causa de la seva debilitat muscular, així que la va derivar a un especialista. El que va venir després va ser un recorregut de gairebé 20 anys de proves, tractaments i consultes sense diagnòstic.

El cas de la Kyra va ser un dels quatre diagnòstics detectats en la cohort neuromuscular. L’equip va vincular la seva afecció a una variant de desplaçament del marc de lectura en HSPB8 i va diagnosticar una forma de miopatia miofibril·lar, en què estructures proteiques anormals s’acumulen a les fibres musculars i contribueixen a la debilitat. Una assessora genètica del Manton Center va trucar a la Kyra aproximadament una setmana abans del seu 28è aniversari.

En aquell moment, la Kyra ja havia passat gran part de la seva vida adaptant-se a la malaltia. Als 13 anys ja depenia d’un ventilador i d’una cadira de rodes, tot i que des d’aleshores la seva afecció s’ha estabilitzat. Tot i que la forma de miopatia miofibril·lar de la Kyra és tan rara que se’n sap poc sobre l’evolució a llarg termini, el diagnòstic li ha aportat una certa resposta.

Limitacions

Aquest estudi mostra que un model de raonament generalista pot contribuir a la reanàlisi genòmica retrospectiva combinant fenotip, herència, anotacions de variants, patrons de qualitat de les dades i literatura científica en hipòtesis revisables. També mostra per què la reanàlisi periòdica és important: algunes respostes només emergeixen després que el coneixement avança o que registres fragmentats es posen en comú.

Aquesta recerca no és una evidència que pacients, clínics o clients hagin d’utilitzar models d’OpenAI per diagnosticar malalties o prendre decisions mèdiques. No descriu ni avala cap ús previst per part de clients d’OpenAI o3 Recerca profunda, ChatGPT ni cap altre producte d’OpenAI per al diagnòstic. El model no va diagnosticar cap participant; metges i altres experts clínics qualificats van fer tots els diagnòstics mitjançant processos establerts de revisió, proves i confirmació clínica.

L’estudi era retrospectiu, les cohorts eren heterogènies i els revisors no estaven cegats a la confiança del model. Els investigadors no van mesurar l’estalvi de temps, el cost, l’esforç del clínic, la càrrega de falsos positius ni els canvis en l’atenció. Tampoc van avaluar sistemàticament altres formes de variació genètica, com ara variants estructurals, expansions de repeticions, canvis intrònics profunds o mosaicisme.

Els models de llenguatge grans poden llegir malament el context o produir explicacions plausibles que no resisteixen una inspecció més detallada. Per això, tots els resultats van passar per adjudicació humana i confirmació clínica. El model va ampliar la cerca i va enfocar l’anàlisi posterior dirigida per humans; no va decidir quina informació o quin diagnòstic s’havia de retornar a una família.

Aquest estudi va utilitzar informació desidentificada, sense que s’utilitzés ni es transmetés informació sanitària protegida fora dels entorns aprovats. Un desplegament clínic més ampli requerirà la mateixa atenció a la privadesa, la seguretat, l’auditabilitat i la regulació local que s’aplica a tota l’atenció mèdica. L’accés al model no substitueix la infraestructura de seqüenciació, l’assessorament genètic, les proves confirmatòries ni el criteri dels especialistes.

Fons abstracte amb degradat blau i transicions suaus entre tons blau clar, cian i blau intens, que crea un efecte suau i desenfocat.

«El coll d’ampolla és el temps. Un expert només pot dedicar una part limitada del seu dia a una persona concreta».

Dra. Catherine Brownstein, Manton Center for Orphan Disease Research del Boston Children’s Hospital

Fons abstracte amb degradat blau i transicions suaus entre tons blau clar, cian i blau intens, que crea un efecte suau i desenfocat.

«Investigadors com la Catherine i jo no podem tenir al cap 8.000 malalties diferents. Aquest és el poder de l’AI».

Alan Beggs, director del Manton Center for Orphan Disease Research

Què ve a continuació

Els estudis prospectius i multicèntrics haurien de comparar la reanàlisi assistida per LLM amb la pràctica estàndard pel que fa al rendiment diagnòstic, el temps fins a un candidat, l’esforç del clínic, la càrrega de falsos positius, el cost i els efectes sobre l’atenció. Les indicacions versionades, les comprovacions de referències, els registres d’auditoria i la incertesa calibrada seran importants per a la reproductibilitat i la seguretat. Aquests estudis continuarien requerint clínics qualificats per avaluar l’evidència, demanar les proves adequades i prendre qualsevol decisió diagnòstica o terapèutica.

Aquest estudi va utilitzar OpenAI o3 Recerca profunda. Els models generalistes més nous poden cercar i sintetitzar més material científic, mentre que sistemes creats específicament com GPT‑Rosalind estan dissenyats per a treballs més profunds en ciències de la vida, inclosos els efectes de les variants sobre l’estructura i la funció de les proteïnes. Aquestes capacitats no es van provar aquí i requeriran les seves pròpies avaluacions i controls d’accés.

Tot i que OpenAI va ajudar a donar suport a aquest estudi de recerca inicial, el Manton Center liderarà la següent etapa del treball mitjançant una subvenció de l’OpenAI Foundation. La subvenció donarà suport a l’esforç més ampli del Centre per desenvolupar un copilot d’AI genètica de baix cost i independent de la plataforma que ajudi els equips clínics a analitzar casos de malalties rares de manera més ràpida i consistent.

L’oportunitat de recerca a més llarg termini és explorar si la reanàlisi assistida per AI i dirigida per experts pot ajudar el coneixement científic a seguir el ritme dels descobriments. La promesa no és que l’AI substitueixi el diagnòstic d’un metge, sinó que eines de recerca avaluades amb cura puguin ajudar els especialistes a identificar evidències que val la pena investigar. Per a milers de famílies, les preguntes que avui no tenen resposta no han de quedar sense resposta per sempre.

  • 2026

Autor

OpenAI