Passer au contenu principal
OpenAI

18 juin 2026

IA appliquée

Aider les médecins avec l’IA à diagnostiquer les maladies génétiques rares chez l’enfant

Dans une étude NEJM AI, des experts ont utilisé un modèle de raisonnement OpenAI pour réanalyser 376 cas non résolus et faire émerger des pistes pour 18 diagnostics.

Chargement...

Même avec le séquençage génomique, de nombreuses personnes atteintes de maladies rares ne reçoivent jamais de diagnostic génétique clair. Environ la moitié restent sans diagnostic après des examens approfondis et l’avis de spécialistes. Leurs données médicales peuvent contenir des indices, mais les trouver peut exiger de passer au crible des milliers, voire des millions, de variants génétiques possibles, des dossiers cliniques fragmentés et une littérature scientifique qui évolue rapidement.

À mesure que s’accumulent de nouvelles relations gène-maladie, des rapports de cas et des éléments de classification, des cas non résolus peuvent devenir nouvellement interprétables.

Des chercheurs du Manton Center for Orphan Disease Research du Boston Children’s Hospital, de l’université Harvard et d’OpenAI ont utilisé le modèle de raisonnement OpenAI o3 Recherche approfondie pour analyser des informations cliniques et génomiques désidentifiées issues de 376 cas déjà analysés mais restés sans solution. Le modèle a fait ressortir des explications candidates étayées par des éléments probants, que les chercheurs et cliniciens pouvaient examiner. Après examen par des experts, tests supplémentaires et confirmation clinique, les médecins ont établi des diagnostics dans 18 cas, soit un rendement diagnostique supplémentaire de 4,8 % après l’analyse antérieure par des spécialistes. Cette étude a été publiée le 18 juin 2026 dans NEJM AI et montre comment un flux de travail de recherche assisté par IA peut aider les experts à générer des pistes lorsqu’ils réexaminent certains des cas les plus difficiles.

Beaucoup de ces cas avaient échappé à des années d’analyse experte. Dans cette étude, OpenAI o3 Recherche approfondie a aidé les chercheurs à identifier des pistes qui ont ensuite été évaluées au moyen de processus cliniques établis, suggérant qu’une réanalyse périodique conduite par des experts pourrait devenir plus facilement extensible à mesure que les connaissances évoluent. Le modèle n’a diagnostiqué aucun patient ni pris aucune décision clinique. Il a produit des hypothèses étayées par des éléments probants que les spécialistes pouvaient examiner et, le cas échéant, explorer par des tests supplémentaires et confirmer dans un laboratoire clinique.

Pourquoi un ancien cas peut contenir une nouvelle réponse

Un test génétique non concluant n’est pas toujours un résultat définitif. Les descriptions du phénotype d’un patient, ses résultats d’examens et ses antécédents familiaux peuvent être répartis entre des bases de données utilisant des identifiants, des formats et des vocabulaires différents. Relier ces dossiers est difficile ; même des spécialistes peuvent donc passer à côté d’un diagnostic. Les experts peuvent aussi séquencer le génome d’un enfant avant qu’un gène pertinent, ou ses variants, n’ait été associé à une maladie. À mesure que les connaissances scientifiques progressent, les mêmes données peuvent révéler des réponses auparavant impossibles à découvrir.

La réanalyse des maladies rares est à la fois un problème scientifique et un problème de maintenance. Le génome du patient peut rester le même, mais les éléments probants qui l’entourent changent sans cesse : les chercheurs associent de nouveaux gènes et variants à des maladies, les laboratoires reclassent d’anciens variants, et les bases de cas comme les articles accumulent de nouvelles observations. Chaque mise à jour peut justifier de réexaminer un ancien cas non concluant ; de nombreuses institutions héritent ainsi d’un volume croissant de génomes à maintenir en phase avec une base de connaissances mouvante.

Dans cette étude, les chercheurs ont conçu le flux de travail de sorte que le modèle agisse comme une couche de raisonnement axée d’abord sur l’explication, au-dessus des pipelines génomiques existants. Au lieu de renvoyer uniquement un gène classé, il devait relier les caractéristiques cliniques, le mode de transmission, les éléments sur les variants et la littérature scientifique dans une justification qu’un examinateur humain pouvait interroger. 

Comment la réanalyse a fonctionné

Pour chaque cas, l’équipe a constitué un dossier désidentifié contenant des termes standardisés de l’Human Phenotype Ontology pour décrire la présentation clinique du patient, des notes cliniques occasionnelles et tout diagnostic clinique descriptif, des métadonnées comme l’âge et le sexe, ainsi qu’un tableau filtré de variants. Le tableau indiquait la rareté de chaque variant, son effet prédit sur la protéine codée, sa classification ClinVar et la qualité du signal chez les membres de la famille disponibles. La plupart des cas comprenaient des données de l’enfant et de ses deux parents biologiques.

L’équipe a demandé au modèle de proposer l’explication moléculaire la plus plausible et de montrer son raisonnement. Les chercheurs ont ensuite examiné les sorties à l’aide du même cadre ACMG/AMP que les laboratoires cliniques utilisent pour classer les variants génétiques. Au moins deux membres de l’équipe ont examiné chaque candidat, les désaccords ont été résolus par consensus, et une sortie du modèle n’a jamais été considérée comme un diagnostic. Un résultat n’était comptabilisé comme diagnostic qu’après examen des éléments probants par des experts qualifiés, classification du variant comme pathogène ou probablement pathogène, confirmation par un laboratoire certifié CLIA et communication du résultat à la famille par l’équipe clinique.

Avant d’analyser les cas non résolus, l’équipe a affiné le flux de travail sur des cas au diagnostic établi. Il a retrouvé le gène et le variant corrects lors d’exécutions en double pour 48 des 51 cas incluant diverses maladies rares. Dans un ensemble de 57 cas neuromusculaires, le flux de travail a renvoyé le diagnostic correct lors d’exécutions en double pour 45 cas. Dans un ensemble de 15 cas avec génome à lectures longues, il a nommé le bon gène dans chaque cas et les deux allèles responsables de la maladie dans 12 cas. Ces évaluations ont aidé à élaborer le prompt et ont montré où l’examen par des experts demeurait essentiel.

Les scores de confiance rapportés par le modèle correspondaient aux diagnostics corrects dans ces cas déjà résolus : le score minimum moyen était de 85,6 pour les appels systématiquement corrects et de 42,1 pour les appels incorrects ou inconnus. Ces scores n’étaient pas des probabilités calibrées, et l’équipe ne les a pas utilisés comme substitut aux éléments probants ou à l’arbitrage clinique. Ils ont toutefois aidé les experts évaluateurs à se concentrer sur les diagnostics candidats les plus prometteurs. 

Schéma de flux intitulé « Flux de travail d’IA guidé par l’humain pour la réanalyse génomique des maladies rares », montrant des données de patients désidentifiées passant par des décisions humaines, une synthèse d’éléments probants par LLM, un examen expert, des tests, une confirmation clinique et le retour des résultats à la famille.

Ce que les chercheurs ont constaté

L’équipe a ensuite appliqué le flux de travail à quatre groupes de cas auparavant non résolus : des enfants atteints de troubles neurodéveloppementaux, des personnes atteintes d’une maladie neuromusculaire rare, des enfants et adolescents présentant une psychose précoce, et des cas de mort subite inattendue en pédiatrie. Il ne s’agissait pas de nouveaux cas en attente d’un premier examen. Beaucoup avaient déjà été examinés par plusieurs pipelines commerciaux ou institutionnels et discutés par des équipes pluridisciplinaires.

Résultats par cohorte

Cohorte

Cas

Diagnostics identifiés

Rendement

Neurodéveloppementale

100

10

10,0 %

Maladie neuromusculaire

61

4

6,6 %

Mort subite inattendue en pédiatrie

200

2

1,0 %

Psychose précoce

15

2

13,3 %

Total

376

18

4,8 %

La cohorte de psychose précoce était petite ; son pourcentage présente donc un large intervalle de confiance. Le rendement reflète aussi la probabilité que chaque cohorte ait une explication monogénique.

Après que le modèle a fait ressortir des candidats et que les experts ont terminé l’examen et la confirmation clinique, les médecins ont établi des diagnostics dans 4,8 % des cas. Ce taux est modeste, mais significatif dans cette population, car les examens experts précédents n’avaient pas permis de résoudre les cas. Des études de réanalyse similaires rapportent des gains à un chiffre dans des cas déjà fortement examinés ; les rendements plus élevés proviennent généralement d’études portant sur de nouveaux cas ou sur des troubles bien connus en attente de confirmation génétique.

Sur les 18 diagnostics, 7 étaient des redécouvertes : des diagnostics établis en dehors du flux de travail de recherche local, mais absents du dossier examiné par l’équipe. Dans plusieurs cas, les variants étaient déjà répertoriés comme pathogènes ou probablement pathogènes dans des bases de données publiques, soulignant le défi opérationnel que représente la synthèse d’informations issues de différentes sources de données.

Faire preuve de flexibilité dans les variants génétiques

Dans un cas de psychose précoce, le modèle a déduit une anomalie structurale dans le génome qui ne figurait pas dans les données d’entrée. Il a relié une série d’appels de faible qualité sur le chromosome 22 aux caractéristiques cardiaques, immunitaires, neurodéveloppementales et psychiatriques de l’enfant, puis a émis l’hypothèse d’une délétion 22q11.2 associée au syndrome de DiGeorge. Ce variant hypothétique a été confirmé par un séquençage génomique de suivi.

Bien que le prompt demande une seule cause monogénique, le modèle a parfois fait ressortir deux gènes qui expliquaient mieux un tableau complexe. Des variants de LAMA2 et de FOXP1 ont ensemble permis d’expliquer des caractéristiques musculaires et neurodéveloppementales dans un cas ; un autre présentait une explication digénique jusque-là non reconnue impliquant TTN et SRPK3.

Produire une hypothèse testable et biologiquement cohérente

Outre les diagnostics, le modèle a également identifié une possible nouvelle explication mécanistique d’une affection appelée vitiligo. Dans un cas neurodéveloppemental, le modèle a mis en évidence une délétion de 11 acides aminés dans S1PR1 chez une personne atteinte de vitiligo. S1PR1 code un récepteur de surface cellulaire impliqué dans la signalisation, la migration des cellules immunitaires et la biologie des tissus. Le modèle a intégré des éléments suggérant que la délétion pourrait modifier la structure et la signalisation du récepteur de manière à réduire la production de pigment tout en aidant les cellules immunitaires à persister dans la peau.

La relation proposée entre S1PR1 et le vitiligo nécessite une validation expérimentale supplémentaire, mais elle illustre le rôle puissant que peut jouer l’IA pour transformer des résultats dispersés en biologie structurale, immunologie et génétique clinique en hypothèses concrètes et testables.

L’équipe a également observé une possible extension phénotypique dans la cohorte neuromusculaire. Des variants délétères dans HSPB8 et CDK13 ne correspondaient pas parfaitement aux troubles les mieux connus associés à ces gènes, suggérant un spectre clinique plus large que d’autres cas et travaux de laboratoire devront tester.

Étude de cas : le diagnostic de Kyra après près de deux décennies

Tout a commencé au cours de karaté, lorsque la mère de Kyra a remarqué que sa fille de 9 ans ne descendait plus aussi bas dans ses positions qu’avant. Kyra ralentissait aussi pendant les entraînements de football et marchait comme courait en restant sur la pointe des pieds. Son pédiatre n’a pas pu identifier la cause de sa faiblesse musculaire et l’a donc adressée à un spécialiste. S’en est suivi un parcours de près de 20 ans entre examens, traitements et consultations, sans diagnostic.

Le cas de Kyra faisait partie des quatre diagnostics identifiés dans la cohorte neuromusculaire. L’équipe a relié son affection à un variant par décalage du cadre de lecture dans HSPB8 et diagnostiqué une forme de myopathie myofibrillaire, dans laquelle des structures protéiques anormales s’accumulent dans les fibres musculaires et contribuent à la faiblesse. Une conseillère en génétique du Manton Center a appelé Kyra environ une semaine avant son 28e anniversaire.

À ce moment-là, Kyra avait passé une grande partie de sa vie à s’adapter à la maladie. Elle dépendait d’un ventilateur et se déplaçait en fauteuil roulant à 13 ans, même si son état s’est depuis stabilisé. Bien que la forme de myopathie myofibrillaire de Kyra soit si rare que l’on sache peu de choses sur son évolution à long terme, le diagnostic lui a apporté une forme de réponse.

Limites

Cette étude montre qu’un modèle de raisonnement généraliste peut contribuer à la réanalyse génomique rétrospective en combinant phénotype, transmission, annotations de variants, schémas de qualité des données et littérature scientifique en hypothèses examinables. Elle montre aussi pourquoi la réanalyse périodique est importante : certaines réponses n’apparaissent qu’après l’avancée des connaissances ou la mise en commun de dossiers fragmentés.

Cette recherche ne démontre pas que les patients, les cliniciens ou les clients devraient utiliser les modèles OpenAI pour diagnostiquer des maladies ou prendre des décisions médicales. Elle ne décrit ni ne cautionne une utilisation prévue par les clients d’OpenAI o3 Recherche approfondie, de ChatGPT ou de tout autre produit OpenAI à des fins de diagnostic. Le modèle n’a diagnostiqué aucun participant ; les médecins et autres experts cliniques qualifiés ont posé chaque diagnostic au moyen de processus établis d’examen, de tests et de confirmation clinique.

L’étude était rétrospective, les cohortes étaient hétérogènes et les évaluateurs n’étaient pas aveugles à la confiance du modèle. Les chercheurs n’ont pas mesuré le temps gagné, le coût, l’effort des cliniciens, la charge de travail liée aux faux positifs ni les changements dans les soins. Ils n’ont pas non plus évalué systématiquement d’autres formes de variation génétique, comme les variants structuraux, les expansions de répétitions, les changements introniques profonds ou le mosaïcisme.

Les grands modèles de langage peuvent mal interpréter le contexte ou produire des explications plausibles qui ne résistent pas à un examen plus approfondi. C’est pourquoi chaque résultat est passé par une adjudication humaine et une confirmation clinique. Le modèle a élargi la recherche et orienté l’analyse ultérieure menée par des humains ; il n’a pas décidé quelles informations ou quel diagnostic devaient être communiqués à une famille.

Cette étude a utilisé des informations désidentifiées, sans qu’aucune information de santé protégée ne soit utilisée ou transmise en dehors des environnements approuvés. Un déploiement clinique plus large exigera la même attention à la confidentialité, à la sécurité, à l’auditabilité et à la réglementation locale que celle qui s’applique à tous les soins médicaux. L’accès au modèle ne remplace pas l’infrastructure de séquençage, le conseil génétique, les tests de confirmation ni le jugement des spécialistes.

Fond abstrait en dégradé bleu, avec de douces transitions entre des tons bleu clair, cyan et bleu profond, créant un effet lisse et flou.

« Le goulot d’étranglement, c’est le temps. Un expert ne peut consacrer qu’une partie limitée de sa journée à une personne donnée. »

Dr Catherine Brownstein, Manton Center for Orphan Disease Research du Boston Children’s Hospital

Fond abstrait en dégradé bleu, avec de douces transitions entre des tons bleu clair, cyan et bleu profond, créant un effet lisse et flou.

« Des chercheurs comme Catherine et moi ne peuvent pas garder 8 000 maladies différentes en tête. C’est toute la puissance de l’IA. »

Alan Beggs, directeur du Manton Center for Orphan Disease Research

Et ensuite

Des études prospectives multicentriques devraient comparer la réanalyse assistée par LLM à la pratique standard en termes de rendement diagnostique, de délai jusqu'à un candidat, d'effort clinique, de charge de faux positifs, de coût et d'effets sur la prise en charge. Des prompts versionnés, des vérifications des sources, des journaux d'audit et une incertitude calibrée seront importants pour la reproductibilité et la sécurité. De telles études nécessiteraient malgré tout des cliniciens qualifiés pour évaluer les preuves, prescrire les examens appropriés et prendre toute décision de diagnostic ou de traitement.

Cette étude a utilisé OpenAI o3 recherche approfondie. Les modèles généralistes plus récents peuvent rechercher et synthétiser davantage de littérature scientifique, tandis que des systèmes conçus à cet effet, comme GPT‑Rosalind, sont pensés pour un travail plus approfondi en sciences de la vie, notamment sur les effets des variants sur la structure et la fonction des protéines. Ces capacités n'ont pas été testées ici et nécessiteront leurs propres évaluations et contrôles d'accès.

Bien qu'OpenAI ait contribué à soutenir cette première étude de recherche, le Manton Center dirigera la prochaine étape des travaux grâce à une subvention de l'OpenAI Foundation. La subvention soutiendra l'effort plus large du Center visant à développer un copilote d'IA en génétique, indépendant de toute plateforme et à faible coût, qui aide les équipes cliniques à analyser les cas de maladies rares plus rapidement et de manière plus cohérente.

L'opportunité de recherche à plus long terme consiste à explorer si une réanalyse assistée par l'IA, pilotée par des experts, peut aider la compréhension scientifique à suivre le rythme des découvertes. L'objectif n'est pas que l'IA remplace le diagnostic d'un médecin, mais que des outils de recherche soigneusement évalués puissent aider les spécialistes à identifier des éléments de preuve qui méritent d'être examinés. Pour des milliers de familles, les questions sans réponse d'aujourd'hui n'ont pas à le rester pour toujours.

  • 2026

Auteur

OpenAI