Usar AI para ajudar médicos a diagnosticar doenças genéticas raras em crianças
Num estudo da NEJM AI, especialistas usaram um modelo de raciocínio da OpenAI para reanalisar 376 casos por resolver e obter pistas para 18 diagnósticos.
Mesmo com sequenciação genómica, muitas pessoas com doenças raras nunca recebem um diagnóstico genético claro. Cerca de metade permanece sem diagnóstico após testes extensos e revisão por especialistas. Os seus dados médicos podem conter pistas, mas encontrá-las pode exigir a análise de milhares a milhões de possíveis variantes genéticas, registos clínicos fragmentados e literatura científica em rápida evolução.
À medida que se acumulam novas relações gene-doença, relatos de casos e evidência de classificação, casos por resolver podem tornar-se novamente interpretáveis.
Investigadores do Manton Center for Orphan Disease Research do Boston Children’s Hospital, da Harvard University e da OpenAI usaram o modelo de raciocínio OpenAI o3 Pesquisa Aprofundada para analisar informação clínica e genómica desidentificada de 376 casos anteriormente analisados que continuavam por resolver. O modelo identificou explicações candidatas ligadas a evidência para revisão por investigadores e clínicos. Após revisão por especialistas, testes adicionais e confirmação clínica, os médicos estabeleceram diagnósticos em 18 casos — um rendimento diagnóstico adicional de 4,8% depois de uma análise anterior por especialistas. Este estudo foi publicado a 18 de junho de 2026 na NEJM AI e mostra como um fluxo de trabalho de investigação assistido por AI pode ajudar especialistas a gerar pistas ao revisitar alguns dos casos mais difíceis.
Muitos destes casos tinham escapado a anos de análise por especialistas. Neste estudo, o OpenAI o3 Pesquisa Aprofundada ajudou os investigadores a identificar pistas que foram depois avaliadas através de processos clínicos estabelecidos, sugerindo que a reanálise periódica liderada por especialistas poderá tornar-se mais escalável à medida que o conhecimento evolui. O modelo não diagnosticou nenhum doente nem tomou qualquer decisão clínica. Produziu hipóteses ligadas a evidência para revisão por especialistas e, quando apropriado, para investigação através de testes adicionais e confirmação num laboratório clínico.
Um teste genético inconclusivo nem sempre é uma conclusão permanente. As descrições do fenótipo de um doente, os resultados de testes e a história familiar podem estar repartidos por bases de dados que usam identificadores, formatos e vocabulários diferentes. Ligar esses registos é difícil, pelo que até especialistas podem não detetar um diagnóstico. Os especialistas podem também sequenciar o genoma de uma criança antes de um gene relevante, ou as suas variantes, terem sido associados a uma doença. À medida que o conhecimento científico avança, os mesmos dados podem revelar respostas que antes eram impossíveis de descobrir.
A reanálise de doenças raras é simultaneamente um problema científico e de manutenção. O genoma do doente pode manter-se igual, mas a evidência em torno dele continua a mudar: os investigadores associam novos genes e variantes a doenças, os laboratórios reclassificam variantes antigas e as bases de dados de casos e os artigos acumulam novas observações. Cada atualização pode tornar pertinente revisitar um caso antigo inconclusivo, pelo que muitas instituições herdam um conjunto crescente de genomas que têm de manter alinhados com uma base de conhecimento em movimento.
Neste estudo, os investigadores conceberam o fluxo de trabalho para que o modelo funcionasse como uma camada de raciocínio centrada na explicação sobre os pipelines genómicos existentes. Em vez de devolver apenas um gene ordenado por prioridade, foi-lhe pedido que ligasse as características clínicas, o padrão de hereditariedade, a evidência sobre variantes e a literatura científica numa justificação que um revisor humano pudesse interrogar.
Para cada caso, a equipa reuniu um pacote desidentificado com termos padronizados da Human Phenotype Ontology para descrever a apresentação clínica do doente, notas clínicas ocasionais e qualquer diagnóstico clínico descritivo, metadados como idade e género, e uma tabela filtrada de variantes. A tabela registava a raridade de cada variante, o seu efeito previsto na proteína codificada, a classificação ClinVar e a qualidade do sinal nos familiares disponíveis. A maioria dos casos incluía dados da criança e de ambos os progenitores biológicos.
A equipa pediu ao modelo que propusesse a explicação molecular mais plausível e mostrasse o seu raciocínio. Os investigadores reviram depois os resultados usando o mesmo enquadramento ACMG/AMP que os laboratórios clínicos usam para classificar variantes genéticas. Pelo menos dois membros da equipa reviram cada candidato, os desacordos foram resolvidos por consenso e um resultado do modelo nunca foi tratado como diagnóstico. Um achado só contou como diagnóstico depois de especialistas qualificados reverem a evidência, a variante ser classificada como patogénica ou provavelmente patogénica, um laboratório certificado pela CLIA a confirmar e a equipa clínica comunicar o resultado à família.
Antes de analisar casos por resolver, a equipa aperfeiçoou o fluxo de trabalho em casos com diagnósticos estabelecidos. Recuperou o gene e a variante corretos em execuções duplicadas para 48 de 51 casos que incluíam uma variedade de doenças raras. Num conjunto de 57 casos neuromusculares, o fluxo de trabalho devolveu o diagnóstico correto em execuções duplicadas para 45 dos casos. Num conjunto de 15 genomas de leitura longa, indicou o gene correto em todos os casos e ambos os alelos causadores da doença em 12 casos. Estas avaliações ajudaram no desenvolvimento do prompt e mostraram onde a revisão por especialistas continuava a ser essencial.
As pontuações de confiança autorreportadas pelo modelo acompanharam os diagnósticos corretos nestes casos anteriormente resolvidos: a pontuação mínima média foi de 85,6 para chamadas consistentemente corretas e de 42,1 para chamadas incorretas ou desconhecidas. As pontuações não eram probabilidades calibradas, e a equipa não as usou como substituto da evidência ou da adjudicação clínica. Mas foram úteis para orientar os revisores especialistas para os diagnósticos candidatos mais promissores.
A equipa aplicou então o fluxo de trabalho a quatro grupos de casos anteriormente por resolver: crianças com perturbações neurodesenvolvimentais, pessoas com doença neuromuscular rara, crianças e adolescentes com psicose precoce e casos de morte súbita inesperada em pediatria. Não eram casos novos à espera de uma primeira revisão. Muitos já tinham sido examinados por múltiplos pipelines comerciais ou institucionais e discutidos por equipas multidisciplinares.
Coorte | Casos | Diagnósticos identificados | Rendimento |
Neurodesenvolvimental | 100 | 10 | 10,0% |
Doença neuromuscular | 61 | 4 | 6,6% |
Morte súbita inesperada em pediatria | 200 | 2 | 1,0% |
Psicose precoce | 15 | 2 | 13,3% |
Total | 376 | 18 | 4,8% |
A coorte de psicose precoce era pequena, pelo que a sua percentagem tem um intervalo de confiança amplo. O rendimento também reflete a probabilidade de cada coorte ter uma explicação monogénica.
Depois de o modelo identificar candidatos e os especialistas concluírem a revisão e a confirmação clínica, os médicos estabeleceram diagnósticos em 4,8% dos casos. Essa taxa é modesta, mas significativa nesta população, porque as revisões anteriores por especialistas não tinham resolvido os casos. Estudos semelhantes de reanálise reportam ganhos de um dígito em casos intensamente revistos; rendimentos mais elevados vêm geralmente de estudos com casos novos ou doenças bem conhecidas à espera de confirmação genética.
Dos 18 diagnósticos, 7 foram redescobertas: diagnósticos estabelecidos fora do fluxo de trabalho de investigação local, mas ausentes do registo que a equipa reviu. Em vários casos, as variantes já estavam listadas como patogénicas ou provavelmente patogénicas em bases de dados públicas, destacando o desafio operacional de sintetizar informação entre fontes de dados.
Num caso de psicose precoce, o modelo inferiu um evento estrutural no genoma que não constava dos dados de entrada. Associou uma sequência de chamadas de baixa qualidade no cromossoma 22 às características cardíacas, imunitárias, neurodesenvolvimentais e psiquiátricas da criança, e depois formulou a hipótese de uma deleção 22q11.2 associada à síndrome de DiGeorge. Esta variante hipotética foi confirmada com sequenciação genómica de seguimento.
Embora o prompt pedisse uma única causa monogénica, o modelo por vezes identificou dois genes que explicavam melhor uma apresentação complexa. Variantes em LAMA2 e FOXP1, em conjunto, ajudaram a explicar características musculares e neurodesenvolvimentais num caso; noutro, havia uma explicação digénica anteriormente não reconhecida envolvendo TTN e SRPK3.
Além dos diagnósticos, o modelo também identificou uma possível nova explicação mecanística para uma doença chamada vitiligo. Num caso neurodesenvolvimental, o modelo destacou uma deleção de 11 aminoácidos em S1PR1 numa pessoa com vitiligo. S1PR1 codifica um recetor de superfície celular envolvido na sinalização, no movimento de células imunitárias e na biologia dos tecidos. O modelo integrou evidência que sugeria que a deleção poderia alterar a estrutura e a sinalização do recetor de formas que reduzem a produção de pigmento, ajudando também as células imunitárias a persistir na pele.
A relação proposta entre S1PR1 e vitiligo exige validação experimental adicional, mas ilustra um papel poderoso da AI na tradução de achados dispersos da biologia estrutural, da imunologia e da genética clínica em hipóteses concretas e testáveis.
A equipa também observou uma possível expansão fenotípica na coorte neuromuscular. Variantes prejudiciais em HSPB8 e CDK13 não correspondiam perfeitamente às perturbações mais conhecidas desses genes, sugerindo um espectro clínico mais amplo que terá de ser testado com mais casos e trabalho laboratorial.
Estudo de caso: o diagnóstico de Kyra após quase duas décadas
Tudo começou na aula de karaté, quando a mãe de Kyra reparou que a filha de 9 anos já não baixava tanto nas posições como antes. Kyra também estava a abrandar nos treinos de futebol e a andar e correr apoiada nas pontas dos pés. O pediatra não conseguiu identificar a causa da fraqueza muscular, por isso encaminhou-a para um especialista. Seguiu-se uma jornada de quase 20 anos por testes, tratamentos e consultas sem diagnóstico.
O caso de Kyra foi um dos quatro diagnósticos identificados na coorte neuromuscular. A equipa associou a sua doença a uma variante frameshift em HSPB8 e diagnosticou uma forma de miopatia miofibrilar, na qual estruturas proteicas anormais se acumulam nas fibras musculares e contribuem para a fraqueza. Uma conselheira genética do Manton Center ligou a Kyra cerca de uma semana antes do seu 28.º aniversário.
Nessa altura, Kyra já tinha passado grande parte da vida a adaptar-se à doença. Dependia de um ventilador e estava numa cadeira de rodas aos 13 anos, embora a sua condição tenha entretanto estabilizado. Embora a forma de miopatia miofibrilar de Kyra seja tão rara que se saiba pouco sobre a sua evolução a longo prazo, o diagnóstico trouxe alguma conclusão.
Este estudo mostra que um modelo de raciocínio de uso geral pode contribuir para a reanálise genómica retrospetiva ao combinar fenótipo, hereditariedade, anotações de variantes, padrões de qualidade dos dados e literatura científica em hipóteses passíveis de revisão. Também mostra porque é que a reanálise periódica é importante: algumas respostas só surgem depois de o conhecimento avançar ou de registos fragmentados serem reunidos.
Esta investigação não constitui evidência de que doentes, clínicos ou clientes devam usar modelos da OpenAI para diagnosticar doenças ou tomar decisões médicas. Não descreve nem aprova um uso pretendido por clientes do OpenAI o3 Pesquisa Aprofundada, do ChatGPT ou de qualquer outro produto da OpenAI para diagnóstico. O modelo não diagnosticou nenhum participante; médicos e outros especialistas clínicos qualificados fizeram todos os diagnósticos através de processos estabelecidos de revisão, testes e confirmação clínica.
O estudo foi retrospetivo, as coortes eram heterogéneas e os revisores não estavam cegos à confiança do modelo. Os investigadores não mediram tempo poupado, custo, esforço dos clínicos, carga de trabalho com falsos positivos ou alterações nos cuidados. Também não avaliaram sistematicamente outras formas de variação genética, como variantes estruturais, expansões de repetições, alterações intrónicas profundas ou mosaicismo.
Os grandes modelos de linguagem podem interpretar mal o contexto ou produzir explicações plausíveis que falham numa análise mais atenta. Por isso, todos os resultados passaram por adjudicação humana e confirmação clínica. O modelo alargou a pesquisa e focou a análise subsequente liderada por humanos; não decidiu que informação ou diagnóstico deveria ser comunicado a uma família.
Este estudo usou informação desidentificada, sem que informação de saúde protegida fosse utilizada ou transmitida fora dos ambientes aprovados. Uma implantação clínica mais ampla exigirá a mesma atenção à privacidade, segurança, auditabilidade e regulamentação local que se aplica a todos os cuidados médicos. O acesso ao modelo não substitui a infraestrutura de sequenciação, o aconselhamento genético, os testes confirmatórios ou o juízo de especialistas.

«O gargalo é o tempo. Um especialista só consegue dedicar uma parte limitada do seu dia a uma pessoa em particular.»
Dra. Catherine Brownstein, Manton Center for Orphan Disease Research do Boston Children’s Hospital

«Investigadores como a Catherine e eu não conseguimos ter 8000 doenças diferentes na cabeça. É esse o poder da AI.»
Alan Beggs, diretor do Manton Center for Orphan Disease Research
Estudos prospetivos e multicêntricos devem comparar a reanálise assistida por LLM com a prática padrão quanto a rendimento diagnóstico, tempo até chegar a um candidato, esforço do clínico, carga de falsos positivos, custo e efeitos nos cuidados. Prompts versionados, verificações de referências, registos de auditoria e incerteza calibrada serão importantes para a reprodutibilidade e a segurança. Esses estudos continuariam a exigir clínicos qualificados para avaliar evidência, pedir testes adequados e tomar qualquer decisão de diagnóstico ou tratamento.
Este estudo usou o OpenAI o3 Pesquisa Aprofundada. Modelos de uso geral mais recentes conseguem pesquisar e sintetizar mais material científico, enquanto sistemas concebidos para fins específicos, como o GPT‑Rosalind, são desenhados para trabalho mais aprofundado em ciências da vida, incluindo efeitos de variantes na estrutura e função das proteínas. Essas capacidades não foram testadas aqui e exigirão avaliações e controlos de acesso próprios.
Embora a OpenAI tenha ajudado a apoiar este estudo de investigação inicial, o Manton Center liderará a próxima fase do trabalho através de uma subvenção da OpenAI Foundation. A subvenção apoiará o esforço mais amplo do Centro para desenvolver um copiloto de AI genética, de baixo custo e independente de plataforma, que ajude as equipas clínicas a analisar casos de doenças raras de forma mais rápida e consistente.
A oportunidade de investigação a mais longo prazo é explorar se a reanálise assistida por AI e liderada por especialistas pode ajudar a compreensão científica a acompanhar o ritmo da descoberta. A promessa não é que a AI substitua o diagnóstico de um médico, mas que ferramentas de investigação cuidadosamente avaliadas possam ajudar especialistas a identificar evidência que vale a pena investigar. Para milhares de famílias, as perguntas sem resposta de hoje não têm de ficar sem resposta para sempre.
- 2026


