Uso de AI para ajudar médicos a diagnosticar doenças genéticas raras em crianças
Em estudo na NEJM AI, especialistas usaram um modelo de raciocínio da OpenAI para reanalisar 376 casos sem solução e levantar pistas para 18 diagnósticos.
Mesmo com o sequenciamento genômico, muitas pessoas com doenças raras nunca recebem um diagnóstico genético claro. Cerca de metade continua sem diagnóstico após testes extensos e avaliação por especialistas. Seus dados médicos podem conter pistas, mas encontrá-las pode exigir a triagem de milhares a milhões de possíveis variantes genéticas, prontuários clínicos fragmentados e uma literatura científica em rápida transformação.
À medida que novas relações entre genes e doenças, relatos de caso e evidências de classificação se acumulam, casos não resolvidos podem se tornar novamente interpretáveis.
Pesquisadores do Manton Center for Orphan Disease Research do Boston Children’s Hospital, da Harvard University e da OpenAI usaram o modelo de raciocínio OpenAI o3 Pesquisa Aprofundada para analisar informações clínicas e genômicas desidentificadas de 376 casos previamente analisados que continuavam sem solução. O modelo apresentou explicações candidatas vinculadas a evidências para que pesquisadores e clínicos as revisassem. Após revisão por especialistas, testes adicionais e confirmação clínica, médicos estabeleceram diagnósticos em 18 casos — um rendimento diagnóstico adicional de 4,8% depois da análise anterior por especialistas. Este estudo foi publicado em 18 de junho de 2026 na NEJM AI e mostra como um fluxo de pesquisa assistido por AI pode ajudar especialistas a gerar pistas ao reavaliar alguns dos casos mais difíceis.
Muitos desses casos haviam escapado a anos de análise por especialistas. Neste estudo, o OpenAI o3 Pesquisa Aprofundada ajudou pesquisadores a identificar pistas que depois foram avaliadas por processos clínicos estabelecidos, sugerindo que a reanálise periódica conduzida por especialistas poderia se tornar mais escalável à medida que o conhecimento evolui. O modelo não diagnosticou nenhum paciente nem tomou qualquer decisão clínica. Ele produziu hipóteses vinculadas a evidências para que especialistas revisassem e, quando apropriado, investigassem por meio de testes adicionais e confirmassem em laboratório clínico.
Um teste genético inconclusivo nem sempre é um achado permanente. Descrições do fenótipo do paciente, resultados de testes e histórico familiar podem estar divididos entre bancos de dados que usam identificadores, formatos e vocabulários diferentes. Vincular esses registros é difícil, por isso até especialistas podem deixar passar um diagnóstico. Especialistas também podem sequenciar o genoma de uma criança antes que um gene relevante, ou suas variantes, tenha sido associado a uma doença. À medida que o conhecimento científico avança, os mesmos dados podem revelar respostas que antes eram impossíveis de descobrir.
A reanálise de doenças raras é ao mesmo tempo um problema científico e de manutenção. O genoma do paciente pode permanecer o mesmo, mas as evidências ao seu redor continuam mudando: pesquisadores associam novos genes e variantes a doenças, laboratórios reclassificam variantes antigas, e bancos de dados de casos e artigos acumulam novas observações. Cada atualização pode tornar um caso antigo inconclusivo digno de nova avaliação; assim, muitas instituições herdam uma fila crescente de genomas a manter alinhados a uma base de conhecimento em movimento.
Neste estudo, os pesquisadores desenharam o fluxo de trabalho para que o modelo atuasse como uma camada de raciocínio centrada em explicações sobre pipelines genômicos existentes. Em vez de retornar apenas um gene ranqueado, ele foi orientado a conectar características clínicas, padrão de herança, evidências de variantes e literatura científica em uma justificativa que um revisor humano pudesse questionar.
Para cada caso, a equipe reuniu um pacote desidentificado contendo termos padronizados da Human Phenotype Ontology para descrever o quadro clínico do paciente, eventuais anotações de clínicos e qualquer diagnóstico clínico descritivo, metadados como idade e gênero, e uma tabela filtrada de variantes. A tabela registrava a raridade de cada variante, seu efeito previsto sobre a proteína codificada, a classificação no ClinVar e a qualidade do sinal entre familiares disponíveis. A maioria dos casos incluía dados da criança e de ambos os pais biológicos.
A equipe pediu ao modelo que propusesse a explicação molecular mais plausível e mostrasse seu raciocínio. Em seguida, os pesquisadores revisaram os resultados usando o mesmo arcabouço ACMG/AMP que laboratórios clínicos usam para classificar variantes genéticas. Pelo menos dois integrantes da equipe revisaram cada candidato, divergências foram resolvidas por consenso, e uma saída do modelo nunca foi tratada como diagnóstico. Um achado só contou como diagnóstico depois que especialistas qualificados revisaram as evidências, a variante foi classificada como patogênica ou provavelmente patogênica, um laboratório certificado pela CLIA a confirmou, e a equipe clínica devolveu o resultado à família.
Antes de analisar casos não resolvidos, a equipe refinou o fluxo de trabalho em casos com diagnósticos estabelecidos. Ele recuperou o gene e a variante corretos em execuções duplicadas para 48 de 51 casos que incluíam uma variedade de condições raras. Em um conjunto de 57 casos neuromusculares, o fluxo de trabalho retornou o diagnóstico correto em execuções duplicadas para 45 dos casos. Em um conjunto de 15 casos com genomas de leitura longa, ele nomeou o gene correto em todos os casos e ambos os alelos causadores da doença em 12 casos. Essas avaliações ajudaram no desenvolvimento do prompt e mostraram onde a revisão por especialistas continuava essencial.
As pontuações de confiança autorrelatadas pelo modelo acompanharam os diagnósticos corretos nesses casos previamente resolvidos: a pontuação mínima média foi 85,6 para chamadas consistentemente corretas e 42,1 para chamadas incorretas ou desconhecidas. As pontuações não eram probabilidades calibradas, e a equipe não as usou como substituto de evidências ou de adjudicação clínica. Mas elas foram úteis para orientar os revisores especialistas a se concentrarem nos diagnósticos candidatos mais promissores.
A equipe então aplicou o fluxo de trabalho a quatro grupos de casos antes não resolvidos: crianças com condições neurodesenvolvimentais, pessoas com doença neuromuscular rara, crianças e adolescentes com psicose precoce e casos de morte súbita inesperada em pediatria. Não eram casos novos aguardando uma primeira revisão. Muitos já haviam sido examinados por múltiplos pipelines comerciais ou institucionais e discutidos por equipes multidisciplinares.
Coorte | Casos | Diagnósticos encontrados | Rendimento |
Neurodesenvolvimento | 100 | 10 | 10,0% |
Doença neuromuscular | 61 | 4 | 6,6% |
Morte súbita inesperada em pediatria | 200 | 2 | 1,0% |
Psicose precoce | 15 | 2 | 13,3% |
Total | 376 | 18 | 4,8% |
A coorte de psicose precoce era pequena, por isso sua porcentagem tem um amplo intervalo de confiança. O rendimento também reflete a probabilidade de cada coorte ter uma explicação por gene único.
Depois que o modelo apontou candidatos e os especialistas concluíram a revisão e a confirmação clínica, médicos estabeleceram diagnósticos em 4,8% dos casos. Essa taxa é modesta, mas significativa nessa população porque revisões anteriores por especialistas não haviam resolvido os casos. Estudos semelhantes de reanálise relatam ganhos de um dígito em casos intensamente revisados; rendimentos mais altos geralmente vêm de estudos com casos novos ou distúrbios bem conhecidos aguardando confirmação genética.
Dos 18 diagnósticos, 7 foram redescobertas: diagnósticos estabelecidos fora do fluxo de pesquisa local, mas ausentes do registro revisado pela equipe. Em vários casos, as variantes já estavam listadas como patogênicas ou provavelmente patogênicas em bancos de dados públicos, destacando o desafio operacional de sintetizar informações de diferentes fontes de dados.
Em um caso de psicose precoce, o modelo inferiu um evento estrutural no genoma que não constava nos dados de entrada. Ele associou uma sequência de chamadas de baixa qualidade no cromossomo 22 às características cardíacas, imunológicas, neurodesenvolvimentais e psiquiátricas da criança e, então, levantou a hipótese de uma deleção 22q11.2 associada à síndrome de DiGeorge. Essa variante hipotetizada foi confirmada com sequenciamento genômico de acompanhamento.
Embora o prompt pedisse uma causa monogênica, o modelo às vezes apontou dois genes que explicavam melhor um quadro complexo. Variantes em LAMA2 e FOXP1, juntas, ajudaram a explicar características musculares e neurodesenvolvimentais em um caso; outro tinha uma explicação digênica antes não reconhecida envolvendo TTN e SRPK3.
Além dos diagnósticos, o modelo também identificou uma possível nova explicação mecanística para uma condição chamada vitiligo. Em um caso neurodesenvolvimental, o modelo destacou uma deleção de 11 aminoácidos em S1PR1 em uma pessoa com vitiligo. S1PR1 codifica um receptor de superfície celular envolvido em sinalização, movimento de células imunes e biologia tecidual. O modelo integrou evidências sugerindo que a deleção poderia alterar a estrutura e a sinalização do receptor de formas que reduzem a produção de pigmento, ao mesmo tempo em que ajudam células imunes a persistir na pele.
A relação proposta entre S1PR1 e vitiligo requer validação experimental adicional, mas ilustra um papel poderoso da AI na tradução de achados dispersos da biologia estrutural, imunologia e genética clínica em hipóteses concretas e testáveis.
A equipe também observou possível expansão fenotípica na coorte neuromuscular. Variantes danosas em HSPB8 e CDK13 não correspondiam perfeitamente aos distúrbios mais conhecidos desses genes, sugerindo um espectro clínico mais amplo que precisará ser testado com mais casos e trabalho laboratorial.
Estudo de caso: o diagnóstico de Kyra após quase duas décadas
Tudo começou na aula de karatê, quando a mãe de Kyra percebeu que sua filha de 9 anos já não abaixava tanto nas bases como antes. Kyra também estava ficando mais lenta nos treinos de futebol e caminhava e corria na ponta dos pés. Seu pediatra não conseguiu identificar a causa da fraqueza muscular, então a encaminhou a um especialista. O que se seguiu foi uma jornada de quase 20 anos por exames, tratamentos e consultas sem um diagnóstico.
O caso de Kyra foi um dos quatro diagnósticos encontrados na coorte neuromuscular. A equipe associou sua condição a uma variante frameshift em HSPB8 e diagnosticou uma forma de miopatia miofibrilar, na qual estruturas proteicas anormais se acumulam nas fibras musculares e contribuem para a fraqueza. Uma conselheira genética do Manton Center ligou para Kyra cerca de uma semana antes de seu 28º aniversário.
Àquela altura, Kyra já havia passado grande parte da vida se adaptando à doença. Ela já dependia de um ventilador e usava cadeira de rodas aos 13 anos, embora sua condição tenha se estabilizado desde então. Embora a forma de miopatia miofibrilar de Kyra seja tão rara que pouco se sabe sobre sua evolução a longo prazo, o diagnóstico trouxe algum encerramento.
Este estudo mostra que um modelo de raciocínio de uso geral pode contribuir para a reanálise genômica retrospectiva ao combinar fenótipo, herança, anotações de variantes, padrões de qualidade dos dados e literatura científica em hipóteses revisáveis. Ele também mostra por que a reanálise periódica importa: algumas respostas surgem apenas depois que o conhecimento avança ou registros fragmentados são reunidos.
Esta pesquisa não é evidência de que pacientes, clínicos ou clientes devam usar modelos da OpenAI para diagnosticar doenças ou tomar decisões médicas. Ela não descreve nem endossa um uso pretendido por clientes do OpenAI o3 Pesquisa Aprofundada, do ChatGPT ou de qualquer outro produto da OpenAI para diagnóstico. O modelo não diagnosticou nenhum participante; médicos e outros especialistas clínicos qualificados fizeram todos os diagnósticos por meio de processos estabelecidos de revisão, testes e confirmação clínica.
O estudo foi retrospectivo, as coortes eram heterogêneas, e os revisores não estavam cegos à confiança do modelo. Os pesquisadores não mediram tempo economizado, custo, esforço dos clínicos, carga de trabalho com falsos positivos nem mudanças no cuidado. Tampouco avaliaram sistematicamente outras formas de variação genética, como variantes estruturais, expansões de repetições, alterações intrônicas profundas ou mosaicismo.
Modelos de linguagem grandes podem interpretar mal o contexto ou produzir explicações plausíveis que não resistem a uma análise mais detalhada. Por isso, todos os resultados passaram por adjudicação humana e confirmação clínica. O modelo ampliou a busca e direcionou a análise posterior conduzida por humanos; ele não decidiu quais informações ou qual diagnóstico deveriam ser devolvidos a uma família.
Este estudo usou informações desidentificadas, sem utilizar nem transmitir informações de saúde protegidas fora dos ambientes aprovados. Uma implantação clínica mais ampla exigirá a mesma atenção a privacidade, segurança, auditabilidade e regulamentação local que se aplica a todo cuidado médico. O acesso ao modelo não substitui infraestrutura de sequenciamento, aconselhamento genético, testes confirmatórios nem o julgamento de especialistas.

“O gargalo é o tempo. Um especialista só consegue dedicar uma parte limitada do dia a uma pessoa específica.”
Dra. Catherine Brownstein, Manton Center for Orphan Disease Research do Boston Children’s Hospital

“Pesquisadores como Catherine e eu não conseguimos manter 8.000 doenças diferentes na cabeça. Esse é o poder da AI.”
Alan Beggs, diretor do Manton Center for Orphan Disease Research
Estudos prospectivos e multicêntricos devem comparar a reanálise assistida por LLM com a prática padrão em rendimento diagnóstico, tempo até um candidato, esforço do clínico, carga de falsos positivos, custo e efeitos no cuidado. Prompts versionados, verificações de referência, logs de auditoria e incerteza calibrada serão importantes para reprodutibilidade e segurança. Esses estudos ainda exigiriam clínicos qualificados para avaliar evidências, solicitar testes apropriados e tomar qualquer decisão de diagnóstico ou tratamento.
Este estudo usou o OpenAI o3 Pesquisa Aprofundada. Modelos de uso geral mais recentes conseguem buscar e sintetizar mais material científico, enquanto sistemas criados para fins específicos, como o GPT‑Rosalind, são projetados para trabalhos mais profundos em ciências da vida, incluindo efeitos de variantes na estrutura e na função de proteínas. Essas capacidades não foram testadas aqui e exigirão avaliações e controles de acesso próprios.
Embora a OpenAI tenha ajudado a apoiar este estudo inicial de pesquisa, o Manton Center liderará a próxima etapa do trabalho por meio de uma bolsa da OpenAI Foundation. A bolsa apoiará o esforço mais amplo do Centro para desenvolver um copiloto de AI para genética, de baixo custo e independente de plataforma, que ajude equipes clínicas a analisar casos de doenças raras com mais rapidez e consistência.
A oportunidade de pesquisa de longo prazo é explorar se a reanálise assistida por AI e conduzida por especialistas pode ajudar o entendimento científico a acompanhar o ritmo das descobertas. A promessa não é que a AI substitua o diagnóstico de um médico, mas que ferramentas de pesquisa cuidadosamente avaliadas possam ajudar especialistas a identificar evidências que valem ser investigadas. Para milhares de famílias, as perguntas sem resposta de hoje não precisam permanecer sem resposta para sempre.
- 2026


