Usar IA para ayudar a médicos a diagnosticar enfermedades genéticas raras en menores
En un estudio de NEJM AI, expertos usaron un modelo de razonamiento de OpenAI para reanalizar 376 casos no resueltos y hallar pistas para 18 diagnósticos.
Incluso con secuenciación genómica, muchas personas con enfermedades raras nunca reciben un diagnóstico genético claro. Aproximadamente la mitad sigue sin diagnóstico tras pruebas exhaustivas y la revisión de especialistas. Sus datos médicos pueden contener pistas, pero encontrarlas puede exigir revisar desde miles hasta millones de posibles variantes genéticas, historiales clínicos fragmentados y una literatura científica que cambia con rapidez.
A medida que se acumulan nuevas relaciones gen-enfermedad, informes de casos y evidencias de clasificación, los casos no resueltos pueden volverse interpretables.
Investigadores del Manton Center for Orphan Disease Research del Boston Children’s Hospital, la Universidad de Harvard y OpenAI utilizaron el modelo de razonamiento OpenAI o3 de investigación avanzada para analizar información clínica y genómica desidentificada de 376 casos analizados previamente que seguían sin resolverse. El modelo detectó explicaciones candidatas vinculadas a evidencias para que investigadores y clínicos las revisaran. Tras la revisión de expertos, pruebas adicionales y confirmación clínica, los médicos establecieron diagnósticos en 18 casos, lo que supuso un rendimiento diagnóstico adicional del 4,8 % después del análisis previo de especialistas. Este estudio se publicó el 18 de junio de 2026 en NEJM AI y muestra cómo un flujo de trabajo de investigación asistido por IA puede ayudar a los expertos a generar pistas al revisar algunos de los casos más difíciles.
Muchos de estos casos habían eludido años de análisis experto. En este estudio, OpenAI o3 investigación avanzada ayudó a los investigadores a identificar pistas que después se evaluaron mediante procesos clínicos establecidos, lo que sugiere que el reanálisis periódico dirigido por expertos podría hacerse más escalable a medida que evoluciona el conocimiento. El modelo no diagnosticó a ningún paciente ni tomó ninguna decisión clínica. Generó hipótesis vinculadas a evidencias para que los especialistas las revisaran y, cuando procediera, las investigaran mediante pruebas adicionales y las confirmaran en un laboratorio clínico.
Una prueba genética no concluyente no siempre es un hallazgo permanente. Las descripciones del fenotipo de un paciente, los resultados de pruebas y los antecedentes familiares pueden estar repartidos entre bases de datos que usan identificadores, formatos y vocabularios distintos. Vincular esos registros es difícil, por lo que incluso los especialistas pueden pasar por alto un diagnóstico. También puede ocurrir que los expertos secuencien el genoma de un menor antes de que un gen relevante o sus variantes se hayan asociado a una enfermedad. A medida que avanza el conocimiento científico, los mismos datos pueden revelar respuestas que antes eran imposibles de descubrir.
El reanálisis de enfermedades raras es a la vez un problema científico y de mantenimiento. El genoma del paciente puede permanecer igual, pero la evidencia que lo rodea sigue cambiando: los investigadores vinculan nuevos genes y variantes con enfermedades, los laboratorios reclasifican variantes antiguas, y las bases de datos de casos y los artículos acumulan nuevas observaciones. Cada actualización puede hacer que merezca la pena revisar un caso antiguo no concluyente, de modo que muchas instituciones heredan una lista creciente de genomas que deben mantener sincronizados con una base de conocimiento en movimiento.
En este estudio, los investigadores diseñaron el flujo de trabajo para que el modelo actuara como una capa de razonamiento centrada en la explicación sobre los canales genómicos existentes. En lugar de devolver solo un gen clasificado, se le pidió que conectara las características clínicas, el patrón de herencia, la evidencia sobre variantes y la literatura científica en una justificación que un revisor humano pudiera interrogar.
Para cada caso, el equipo reunió un paquete desidentificado que contenía términos estandarizados de la Ontología del Fenotipo Humano para describir la presentación clínica del paciente, notas ocasionales de clínicos y cualquier diagnóstico clínico descriptivo, metadatos como edad y género, y una tabla filtrada de variantes. La tabla recogía la rareza de cada variante, su efecto previsto sobre la proteína codificada, la clasificación de ClinVar y la calidad de la señal entre los familiares disponibles. La mayoría de los casos incluían datos del menor y de ambos progenitores biológicos.
El equipo pidió al modelo que propusiera la explicación molecular más plausible y que mostrara su razonamiento. Después, los investigadores revisaron los resultados usando el mismo marco ACMG/AMP que emplean los laboratorios clínicos para clasificar variantes genéticas. Al menos dos miembros del equipo revisaron cada candidato, los desacuerdos se resolvieron por consenso y ningún resultado del modelo se trató nunca como un diagnóstico. Un hallazgo solo contó como diagnóstico después de que expertos cualificados revisaran la evidencia, la variante se clasificara como patógena o probablemente patógena, un laboratorio certificado por CLIA la confirmara y el equipo clínico devolviera el resultado a la familia.
Antes de analizar casos no resueltos, el equipo perfeccionó el flujo de trabajo con casos que ya tenían diagnósticos establecidos. Recuperó el gen y la variante correctos en ejecuciones duplicadas en 48 de 51 casos que incluían diversas afecciones raras. En un conjunto de 57 casos neuromusculares, el flujo de trabajo devolvió el diagnóstico correcto en ejecuciones duplicadas en 45 de los casos. En un conjunto de 15 casos con genomas de lectura larga, nombró el gen correcto en todos los casos y ambos alelos causantes de la enfermedad en 12 casos. Estas evaluaciones ayudaron a desarrollar el prompt y mostraron dónde seguía siendo esencial la revisión de expertos.
Las puntuaciones de confianza declaradas por el propio modelo se correspondieron con diagnósticos correctos en estos casos ya resueltos: la puntuación mínima media fue de 85,6 para llamadas sistemáticamente correctas y de 42,1 para llamadas incorrectas o desconocidas. Las puntuaciones no eran probabilidades calibradas, y el equipo no las usó como sustituto de la evidencia ni de la adjudicación clínica. Pero fueron útiles para orientar a los revisores expertos hacia los diagnósticos candidatos más prometedores.
Después, el equipo aplicó el flujo de trabajo a cuatro grupos de casos previamente no resueltos: menores con afecciones neuroevolutivas, personas con enfermedades neuromusculares raras, niños y adolescentes con psicosis temprana, y casos de muerte súbita inesperada en pediatría. No eran casos nuevos a la espera de una primera revisión. Muchos ya habían sido examinados por varios canales comerciales o institucionales y discutidos por equipos multidisciplinares.
Cohorte | Casos | Diagnósticos detectados | Rendimiento |
Neuroevolutiva | 100 | 10 | 10,0 % |
Enfermedad neuromuscular | 61 | 4 | 6,6 % |
Muerte súbita inesperada en pediatría | 200 | 2 | 1,0 % |
Psicosis temprana | 15 | 2 | 13,3 % |
Total | 376 | 18 | 4,8 % |
La cohorte de psicosis temprana era pequeña, por lo que su porcentaje tiene un intervalo de confianza amplio. El rendimiento también refleja la probabilidad de que cada cohorte tuviera una explicación monogénica.
Después de que el modelo detectara candidatos y los expertos completaran la revisión y la confirmación clínica, los médicos establecieron diagnósticos en el 4,8 % de los casos. Esa tasa es modesta, pero significativa en esta población, porque las revisiones expertas previas no habían resuelto los casos. Estudios similares de reanálisis informan de mejoras de un solo dígito en casos muy revisados; los rendimientos más altos suelen proceder de estudios que contienen casos nuevos o trastornos bien conocidos a la espera de confirmación genética.
De los 18 diagnósticos, 7 fueron redescubrimientos: diagnósticos establecidos fuera del flujo de trabajo de investigación local, pero ausentes del registro que revisó el equipo. En varios casos, las variantes ya figuraban como patógenas o probablemente patógenas en bases de datos públicas, lo que pone de relieve el reto operativo de sintetizar información de distintas fuentes de datos.
En un caso de psicosis temprana, el modelo infirió un evento estructural en el genoma que no figuraba en los datos de entrada. Relacionó una serie de llamadas de baja calidad en el cromosoma 22 con los rasgos cardiacos, inmunitarios, neuroevolutivos y psiquiátricos del menor, y después planteó una deleción 22q11.2 asociada al síndrome de DiGeorge. Esta variante hipotética se confirmó mediante una secuenciación genómica de seguimiento.
Aunque el prompt pedía una causa monogénica, el modelo a veces señalaba dos genes que explicaban mejor una presentación compleja. Las variantes en LAMA2 y FOXP1, en conjunto, ayudaron a explicar rasgos musculares y neuroevolutivos en un caso; otro tenía una explicación digénica no reconocida previamente que implicaba a TTN y SRPK3.
Además de diagnósticos, el modelo también identificó una posible nueva explicación mecanística para una afección llamada vitíligo. En un caso neuroevolutivo, el modelo destacó una deleción de 11 aminoácidos en S1PR1 en una persona con vitíligo. S1PR1 codifica un receptor de superficie celular implicado en la señalización, el movimiento de células inmunitarias y la biología de los tejidos. El modelo integró evidencias que sugerían que la deleción podría alterar la estructura y la señalización del receptor de formas que reducen la producción de pigmento y, al mismo tiempo, ayudan a las células inmunitarias a persistir en la piel.
La relación propuesta entre S1PR1 y el vitíligo requiere validación experimental adicional, pero ilustra un papel potente de la IA al traducir hallazgos dispersos de la biología estructural, la inmunología y la genética clínica en hipótesis concretas y comprobables.
El equipo también observó una posible expansión fenotípica en la cohorte neuromuscular. Las variantes dañinas en HSPB8 y CDK13 no coincidían perfectamente con los trastornos más conocidos de esos genes, lo que sugiere un espectro clínico más amplio que deberá ponerse a prueba con más casos y trabajo de laboratorio.
Caso práctico: el diagnóstico de Kyra tras casi dos décadas
Todo empezó en clase de kárate, cuando la madre de Kyra notó que su hija de 9 años ya no bajaba tanto en las posturas como antes. Kyra también se estaba volviendo más lenta durante los entrenamientos de fútbol y caminaba y corría de puntillas. Su pediatra no pudo identificar la causa de su debilidad muscular, así que la derivó a un especialista. Lo que siguió fue un recorrido de casi 20 años por pruebas, tratamientos y consultas sin diagnóstico.
El caso de Kyra fue uno de los cuatro diagnósticos detectados en la cohorte neuromuscular. El equipo relacionó su afección con una variante de cambio del marco de lectura en HSPB8 y diagnosticó una forma de miopatía miofibrilar, en la que estructuras proteicas anómalas se acumulan en las fibras musculares y contribuyen a la debilidad. Una asesora genética del Manton Center llamó a Kyra aproximadamente una semana antes de que cumpliera 28 años.
Para entonces, Kyra había pasado gran parte de su vida adaptándose a la enfermedad. Dependía de un respirador y usaba silla de ruedas desde los 13 años, aunque desde entonces su estado se ha estabilizado. Aunque la forma de miopatía miofibrilar de Kyra es tan rara que se sabe poco sobre su evolución a largo plazo, el diagnóstico le ha dado cierta sensación de cierre.
Este estudio muestra que un modelo de razonamiento generalista puede contribuir al reanálisis genómico retrospectivo combinando fenotipo, herencia, anotaciones de variantes, patrones de calidad de datos y literatura científica en hipótesis revisables. También muestra por qué importa el reanálisis periódico: algunas respuestas solo aparecen cuando avanza el conocimiento o se reúnen registros fragmentados.
Esta investigación no demuestra que pacientes, clínicos o clientes deban usar los modelos de OpenAI para diagnosticar enfermedades o tomar decisiones médicas. No describe ni respalda un uso previsto por clientes de OpenAI o3 investigación avanzada, ChatGPT ni ningún otro producto de OpenAI para el diagnóstico. El modelo no diagnosticó a ningún participante; los médicos y otros expertos clínicos cualificados realizaron todos los diagnósticos mediante procesos establecidos de revisión, pruebas y confirmación clínica.
El estudio fue retrospectivo, las cohortes eran heterogéneas y los revisores no estaban cegados respecto a la confianza del modelo. Los investigadores no midieron el tiempo ahorrado, el coste, el esfuerzo del clínico, la carga de trabajo por falsos positivos ni los cambios en la atención. Tampoco evaluaron de forma sistemática otras formas de variación genética, como variantes estructurales, expansiones de repeticiones, cambios intrónicos profundos o mosaicismo.
Los grandes modelos de lenguaje pueden malinterpretar el contexto o producir explicaciones plausibles que no resisten un examen más detallado. Por ello, todos los resultados pasaron por adjudicación humana y confirmación clínica. El modelo amplió la búsqueda y enfocó el análisis posterior dirigido por humanos; no decidió qué información o diagnóstico debía comunicarse a una familia.
Este estudio utilizó información desidentificada, sin que se empleara ni transmitiera información sanitaria protegida fuera de los entornos aprobados. Un despliegue clínico más amplio requerirá la misma atención a privacidad, seguridad, auditabilidad y regulación local que se aplica a toda la atención médica. El acceso a modelos no sustituye la infraestructura de secuenciación, el asesoramiento genético, las pruebas confirmatorias ni el criterio de especialistas.

«El cuello de botella es el tiempo. Un experto solo puede dedicar una parte limitada de su día a una persona concreta».
Dra. Catherine Brownstein, Manton Center for Orphan Disease Research del Boston Children’s Hospital

«A investigadores como Catherine y a mí nos resulta imposible tener en la cabeza 8000 enfermedades distintas. Ese es el poder de la IA».
Alan Beggs, director del Manton Center for Orphan Disease Research
Los estudios prospectivos y multicéntricos deberían comparar el reanálisis asistido por LLM con la práctica estándar en rendimiento diagnóstico, tiempo hasta un candidato, esfuerzo del clínico, carga de falsos positivos, coste y efectos en la atención. Los prompts versionados, las comprobaciones de referencias, los registros de auditoría y la incertidumbre calibrada serán importantes para la reproducibilidad y la seguridad. Estos estudios seguirían requiriendo clínicos cualificados para evaluar la evidencia, solicitar las pruebas adecuadas y tomar cualquier decisión diagnóstica o terapéutica.
Este estudio utilizó OpenAI o3 investigación avanzada. Los modelos generalistas más recientes pueden buscar y sintetizar más material científico, mientras que sistemas diseñados para fines específicos, como GPT‑Rosalind, están orientados a trabajos más profundos en ciencias de la vida, incluidos los efectos de las variantes en la estructura y la función de las proteínas. Esas capacidades no se probaron aquí y requerirán sus propias evaluaciones y controles de acceso.
Aunque OpenAI ayudó a respaldar este estudio de investigación inicial, el Manton Center liderará la siguiente fase del trabajo mediante una subvención de la OpenAI Foundation. La subvención apoyará el esfuerzo más amplio del Centro por desarrollar un copiloto de IA genética, agnóstico respecto a la plataforma y de bajo coste, que ayude a los equipos clínicos a analizar casos de enfermedades raras de forma más rápida y coherente.
La oportunidad de investigación a largo plazo consiste en explorar si el reanálisis asistido por IA y dirigido por expertos puede ayudar a que la comprensión científica siga el ritmo de los descubrimientos. La promesa no es que la IA sustituya el diagnóstico de un médico, sino que herramientas de investigación evaluadas con cuidado puedan ayudar a los especialistas a identificar evidencias que merezca la pena investigar. Para miles de familias, las preguntas que hoy no tienen respuesta no tienen por qué seguir sin respuesta para siempre.
- 2026


