Pasar al contenido principal
OpenAI

18 de junio de 2026

IA aplicada

Usar IA para ayudar a médicos a diagnosticar enfermedades genéticas raras en niños

En un estudio de NEJM AI, expertos usaron un modelo de razonamiento de OpenAI para reanalizar 376 casos sin resolver e identificar indicios para 18 diagnósticos.

Cargando...

Incluso con secuenciación genómica, muchas personas con enfermedades raras nunca reciben un diagnóstico genético claro. Aproximadamente la mitad sigue sin diagnóstico después de pruebas exhaustivas y revisión de especialistas. Sus datos médicos pueden contener pistas, pero encontrarlas puede exigir revisar desde miles hasta millones de posibles variantes genéticas, historiales clínicos fragmentados y literatura científica que cambia rápidamente.

A medida que se acumulan nuevas relaciones entre genes y enfermedades, reportes de casos y evidencia de clasificación, los casos sin resolver pueden volverse interpretables.

Investigadores del Manton Center for Orphan Disease Research del Boston Children’s Hospital, la Universidad de Harvard y OpenAI usaron el modelo de razonamiento de investigación profunda OpenAI o3 para analizar información clínica y genómica desidentificada de 376 casos previamente analizados que seguían sin resolverse. El modelo identificó explicaciones candidatas vinculadas con evidencia para que investigadores y médicos las revisaran. Tras la revisión de expertos, pruebas adicionales y confirmación clínica, los médicos establecieron diagnósticos en 18 casos, lo que representa un rendimiento diagnóstico adicional del 4,8 % después del análisis previo por especialistas. Este estudio se publicó el 18 de junio de 2026 en NEJM AI y muestra cómo un flujo de trabajo de investigación asistido por IA puede ayudar a los expertos a generar indicios al volver a revisar algunos de los casos más difíciles.

Muchos de estos casos habían eludido años de análisis experto. En este estudio, la investigación profunda OpenAI o3 ayudó a los investigadores a identificar indicios que luego se evaluaron mediante procesos clínicos establecidos, lo que sugiere que el reanálisis periódico dirigido por expertos podría volverse más escalable a medida que evoluciona el conocimiento. El modelo no diagnosticó a ningún paciente ni tomó ninguna decisión clínica. Produjo hipótesis vinculadas con evidencia para que especialistas las revisaran y, cuando correspondiera, las investigaran mediante pruebas adicionales y las confirmaran en un laboratorio clínico.

Por qué un caso antiguo puede contener una respuesta nueva

Una prueba genética inconclusa no siempre es un hallazgo permanente. Las descripciones del fenotipo de un paciente, los resultados de pruebas y los antecedentes familiares pueden estar repartidos en bases de datos que usan identificadores, formatos y vocabularios distintos. Vincular esos registros es difícil, por lo que incluso los especialistas pueden pasar por alto un diagnóstico. Los expertos también pueden secuenciar el genoma de un niño antes de que un gen relevante o sus variantes se hayan vinculado con una enfermedad. A medida que avanza el conocimiento científico, los mismos datos pueden revelar respuestas que antes eran imposibles de descubrir.

El reanálisis de enfermedades raras es tanto un problema científico como de mantenimiento. El genoma del paciente puede permanecer igual, pero la evidencia que lo rodea sigue cambiando: los investigadores vinculan nuevos genes y variantes con enfermedades, los laboratorios reclasifican variantes antiguas, y las bases de datos de casos y los artículos acumulan nuevas observaciones. Cada actualización puede hacer que valga la pena volver a revisar un caso antiguo inconcluso, por lo que muchas instituciones heredan una acumulación creciente de genomas que deben mantenerse sincronizados con una base de conocimiento en movimiento.

En este estudio, los investigadores diseñaron el flujo de trabajo para que el modelo actuara como una capa de razonamiento centrada primero en la explicación sobre los procesos genómicos existentes. En lugar de devolver solo un gen clasificado, se le pidió que conectara las características clínicas, el patrón de herencia, la evidencia de variantes y la literatura científica en una justificación que un revisor humano pudiera examinar. 

Cómo funcionó el reanálisis

Para cada caso, el equipo reunió un paquete desidentificado que contenía términos estandarizados de Human Phenotype Ontology para describir la presentación clínica del paciente, notas clínicas ocasionales y cualquier diagnóstico clínico descriptivo, metadatos como edad y género, y una tabla filtrada de variantes. La tabla registraba la rareza de cada variante, su efecto previsto sobre la proteína codificada, la clasificación de ClinVar y la calidad de la señal entre los miembros de la familia disponibles. La mayoría de los casos incluían datos del niño y de ambos padres biológicos.

El equipo le pidió al modelo que propusiera la explicación molecular más plausible y mostrara su razonamiento. Luego, los investigadores revisaron los resultados usando el mismo marco ACMG/AMP que emplean los laboratorios clínicos para clasificar variantes genéticas. Al menos dos miembros del equipo revisaron cada candidato, las discrepancias se resolvieron por consenso y un resultado del modelo nunca se trató como diagnóstico. Un hallazgo se consideró diagnóstico solo después de que expertos calificados revisaron la evidencia, la variante se clasificó como patógena o probablemente patógena, un laboratorio certificado por CLIA la confirmó y el equipo clínico devolvió el resultado a la familia.

Antes de analizar casos sin resolver, el equipo perfeccionó el flujo de trabajo con casos que ya tenían diagnósticos establecidos. Recuperó el gen y la variante correctos en ejecuciones duplicadas para 48 de 51 casos que incluían diversas afecciones raras. En un conjunto de 57 casos neuromusculares, el flujo de trabajo devolvió el diagnóstico correcto en ejecuciones duplicadas para 45 de los casos. En un conjunto de 15 casos con genomas de lectura larga, nombró el gen correcto en todos los casos y ambos alelos causantes de enfermedad en 12 casos. Estas evaluaciones ayudaron a desarrollar el prompt y mostraron en qué puntos la revisión de expertos seguía siendo esencial.

Las puntuaciones de confianza autoinformadas por el modelo coincidieron con los diagnósticos correctos en estos casos resueltos previamente: la puntuación mínima media fue de 85,6 para las llamadas consistentemente correctas y de 42,1 para las llamadas incorrectas o desconocidas. Las puntuaciones no eran probabilidades calibradas, y el equipo no las usó como sustituto de la evidencia ni de la adjudicación clínica. Pero fueron útiles para orientar a los revisores expertos hacia los diagnósticos candidatos más prometedores. 

Diagrama de flujo titulado “Flujo de trabajo de IA guiado por humanos para el reanálisis genómico de enfermedades raras”, que muestra datos desidentificados de pacientes pasando por decisiones humanas, síntesis de evidencia por LLM, revisión de expertos, pruebas, confirmación clínica y devolución de resultados a la familia.

Qué encontraron los investigadores

Luego, el equipo aplicó el flujo de trabajo a cuatro grupos de casos previamente sin resolver: niños con afecciones del neurodesarrollo, personas con enfermedad neuromuscular rara, niños y adolescentes con psicosis temprana, y casos de muerte súbita inesperada en pediatría. No eran casos nuevos a la espera de una primera revisión. Muchos ya habían sido examinados por múltiples procesos comerciales o institucionales y discutidos por equipos multidisciplinarios.

Resultados por cohorte

Cohorte

Casos

Diagnósticos identificados

Rendimiento

Neurodesarrollo

100

10

10,0 %

Enfermedad neuromuscular

61

4

6,6 %

Muerte súbita inesperada en pediatría

200

2

1,0 %

Psicosis temprana

15

2

13,3 %

Total

376

18

4,8 %

La cohorte de psicosis temprana era pequeña, por lo que su porcentaje tiene un intervalo de confianza amplio. El rendimiento también refleja qué tan probable era que cada cohorte tuviera una explicación de un solo gen.

Después de que el modelo identificó candidatos y los expertos completaron la revisión y la confirmación clínica, los médicos establecieron diagnósticos en el 4,8 % de los casos. Esa tasa es modesta pero significativa en esta población, porque las revisiones previas de expertos no habían resuelto los casos. Estudios similares de reanálisis reportan aumentos de un solo dígito en casos muy revisados; los rendimientos más altos suelen provenir de estudios que contienen casos nuevos o trastornos conocidos que esperan confirmación genética.

De los 18 diagnósticos, 7 fueron redescubrimientos: diagnósticos establecidos fuera del flujo de trabajo de investigación local, pero ausentes del registro que revisó el equipo. En varios casos, las variantes ya figuraban como patógenas o probablemente patógenas en bases de datos públicas, lo que pone de relieve el desafío operativo de sintetizar información entre distintas fuentes de datos.

Demostrar flexibilidad al identificar variantes

En un caso de psicosis temprana, el modelo infirió un evento estructural en el genoma que no figuraba en los datos de entrada. Conectó una serie de llamadas de baja calidad en el cromosoma 22 con las características cardíacas, inmunitarias, del neurodesarrollo y psiquiátricas del niño, y luego planteó la hipótesis de una deleción 22q11.2 asociada con el síndrome de DiGeorge. Esta variante hipotética se confirmó con una secuenciación genómica de seguimiento.

Aunque el prompt pedía una causa monogénica, el modelo a veces identificó dos genes que explicaban mejor una presentación compleja. Las variantes en LAMA2 y FOXP1 en conjunto ayudaron a explicar las características musculares y del neurodesarrollo en un caso; otro tenía una explicación digénica no reconocida previamente que involucraba a TTN y SRPK3.

Producir una hipótesis comprobable y biológicamente coherente

Además de diagnósticos, el modelo también identificó una posible explicación mecanística novedosa para una afección llamada vitiligo. En un caso de neurodesarrollo, el modelo destacó una deleción de 11 aminoácidos en S1PR1 en una persona con vitiligo. S1PR1 codifica un receptor de superficie celular involucrado en la señalización, el movimiento de células inmunitarias y la biología de los tejidos. El modelo integró evidencia que sugiere que la deleción podría alterar la estructura y la señalización del receptor de maneras que reducen la producción de pigmento y, al mismo tiempo, ayudan a que las células inmunitarias persistan en la piel.

La relación propuesta entre S1PR1 y el vitiligo requiere validación experimental adicional, pero ilustra un papel potente para la IA al traducir hallazgos dispersos de biología estructural, inmunología y genética clínica en hipótesis concretas y comprobables.

El equipo también observó una posible expansión del fenotipo en la cohorte neuromuscular. Las variantes dañinas en HSPB8 y CDK13 no coincidían perfectamente con los trastornos más conocidos de esos genes, lo que sugiere un espectro clínico más amplio que deberá ponerse a prueba con más casos y trabajo de laboratorio.

Estudio de caso: el diagnóstico de Kyra después de casi dos décadas

Todo empezó en la clase de karate, cuando la madre de Kyra notó que su hija de 9 años ya no bajaba tanto en sus posturas como antes. Kyra también se estaba volviendo más lenta durante la práctica de fútbol y caminaba y corría de puntas. Su pediatra no pudo identificar la causa de su debilidad muscular, así que la derivó a un especialista. Lo que siguió fue un recorrido de casi 20 años entre pruebas, tratamientos y consultas sin un diagnóstico.

El caso de Kyra fue uno de los cuatro diagnósticos identificados en la cohorte neuromuscular. El equipo vinculó su afección con una variante de cambio de marco en HSPB8 y diagnosticó una forma de miopatía miofibrilar, en la que estructuras proteicas anormales se acumulan en las fibras musculares y contribuyen a la debilidad. Una consejera genética del Manton Center llamó a Kyra aproximadamente una semana antes de que cumpliera 28 años.

Para entonces, Kyra había pasado gran parte de su vida adaptándose a la enfermedad. Dependía de un ventilador y usaba silla de ruedas cuando tenía 13 años, aunque desde entonces su afección se ha estabilizado. Aunque la forma de miopatía miofibrilar de Kyra es tan rara que se sabe poco sobre su evolución a largo plazo, el diagnóstico le ha dado cierta claridad.

Limitaciones

Este estudio muestra que un modelo de razonamiento de propósito general puede contribuir al reanálisis genómico retrospectivo al combinar fenotipo, herencia, anotaciones de variantes, patrones de calidad de datos y literatura científica en hipótesis revisables. También muestra por qué importa el reanálisis periódico: algunas respuestas aparecen solo después de que avanza el conocimiento o se integran registros fragmentados.

Esta investigación no es evidencia de que pacientes, médicos o clientes deban usar modelos de OpenAI para diagnosticar enfermedades o tomar decisiones médicas. No describe ni respalda un uso previsto por clientes de la investigación profunda OpenAI o3, ChatGPT ni ningún otro producto de OpenAI para diagnóstico. El modelo no diagnosticó a ningún participante; médicos y otros expertos clínicos calificados hicieron todos los diagnósticos mediante procesos establecidos de revisión, pruebas y confirmación clínica.

El estudio fue retrospectivo, las cohortes eran heterogéneas y los revisores no estaban cegados a la confianza del modelo. Los investigadores no midieron el tiempo ahorrado, el costo, el esfuerzo clínico, la carga de trabajo por falsos positivos ni los cambios en la atención. Tampoco evaluaron de manera sistemática otras formas de variación genética, como variantes estructurales, expansiones de repeticiones, cambios intrónicos profundos o mosaicismo.

Los modelos de lenguaje grandes pueden malinterpretar el contexto o producir explicaciones plausibles que no resisten un examen más detenido. Por lo tanto, cada resultado pasó por adjudicación humana y confirmación clínica. El modelo amplió la búsqueda y enfocó el análisis posterior dirigido por humanos; no decidió qué información o diagnóstico debía devolverse a una familia.

Este estudio usó información desidentificada, sin utilizar ni transmitir información de salud protegida fuera de entornos aprobados. Un despliegue clínico más amplio requerirá la misma atención a la privacidad, seguridad, auditabilidad y regulación local que se aplica a toda atención médica. El acceso al modelo no reemplaza la infraestructura de secuenciación, el asesoramiento genético, las pruebas confirmatorias ni el criterio de especialistas.

Fondo abstracto con degradado azul y transiciones suaves entre tonos celeste, cian y azul profundo, que crea un efecto liso y desenfocado.

“El cuello de botella es el tiempo. Un experto solo puede dedicar cierta parte de su día a una persona en particular.”

Dra. Catherine Brownstein, Manton Center for Orphan Disease Research del Boston Children’s Hospital

Fondo abstracto con degradado azul y transiciones suaves entre tonos celeste, cian y azul profundo, que crea un efecto liso y desenfocado.

“Investigadores como Catherine y yo no podemos tener en la cabeza 8 000 enfermedades distintas. Ese es el poder de la IA.”

Alan Beggs, director del Manton Center for Orphan Disease Research

Qué sigue

Los estudios prospectivos y multicéntricos deberían comparar el reanálisis asistido por LLM con la práctica estándar en rendimiento diagnóstico, tiempo hasta llegar a un candidato, esfuerzo clínico, carga de falsos positivos, costo y efectos en la atención. Los prompts versionados, las verificaciones de referencias, los registros de auditoría y la incertidumbre calibrada serán importantes para la reproducibilidad y la seguridad. Esos estudios seguirían requiriendo que médicos calificados evalúen la evidencia, ordenen las pruebas adecuadas y tomen cualquier decisión de diagnóstico o tratamiento.

Este estudio usó la investigación profunda OpenAI o3. Los modelos de propósito general más recientes pueden buscar y sintetizar más material científico, mientras que sistemas diseñados para fines específicos como GPT‑Rosalind están pensados para trabajos más profundos en ciencias de la vida, incluidos los efectos de las variantes en la estructura y función de las proteínas. Esas capacidades no se probaron aquí y requerirán sus propias evaluaciones y controles de acceso.

Aunque OpenAI ayudó a respaldar este estudio de investigación inicial, el Manton Center liderará la siguiente etapa del trabajo mediante una subvención de la OpenAI Foundation. La subvención apoyará el esfuerzo más amplio del Centro por desarrollar un copiloto de IA genética, de bajo costo e independiente de la plataforma, que ayude a los equipos clínicos a analizar casos de enfermedades raras con mayor rapidez y consistencia.

La oportunidad de investigación a más largo plazo es explorar si el reanálisis asistido por IA y dirigido por expertos puede ayudar a que la comprensión científica siga el ritmo de los descubrimientos. La promesa no es que la IA reemplace el diagnóstico de un médico, sino que herramientas de investigación cuidadosamente evaluadas puedan ayudar a los especialistas a identificar evidencia que valga la pena investigar. Para miles de familias, las preguntas sin respuesta de hoy no tienen que quedar sin respuesta para siempre.

  • 2026

Autor

OpenAI