Utiliser l’IA pour aider les médecins à diagnostiquer des maladies génétiques rares chez l’enfant
Dans une étude de NEJM AI, des experts ont utilisé un modèle de raisonnement d’OpenAI pour réanalyser 376 cas non résolus et dégager des pistes pour 18 diagnostics.
Même avec le séquençage génomique, de nombreuses personnes atteintes de maladies rares n’obtiennent jamais de diagnostic génétique clair. Environ la moitié demeurent sans diagnostic après des tests poussés et l’examen de spécialistes. Leurs données médicales peuvent contenir des indices, mais les trouver peut exiger de passer au crible des milliers, voire des millions, de variants génétiques possibles, des dossiers cliniques fragmentés et une littérature scientifique en évolution rapide.
À mesure que s’accumulent de nouvelles associations gène-maladie, des rapports de cas et des données de classification, des cas non résolus peuvent devenir interprétables.
Des chercheurs du Manton Center for Orphan Disease Research du Boston Children’s Hospital, de l’Université Harvard et d’OpenAI ont utilisé le modèle de raisonnement de recherche approfondie OpenAI o3 pour analyser des renseignements cliniques et génomiques dépersonnalisés provenant de 376 cas déjà analysés qui demeuraient non résolus. Le modèle a fait ressortir des pistes d’explication candidates, liées à des preuves, que chercheurs et cliniciens pouvaient examiner. Après l’examen d’experts, des tests supplémentaires et une confirmation clinique, les médecins ont établi des diagnostics dans 18 cas, soit un rendement diagnostique additionnel de 4,8 % après l’analyse antérieure par des spécialistes. Cette étude a été publiée le 18 juin 2026 dans NEJM AI et montre comment un flux de travail de recherche assisté par l'IA peut aider les experts à dégager des pistes lorsqu’ils réexaminent certains des cas les plus difficiles.
Bon nombre de ces cas avaient échappé pendant des années à l’analyse d’experts. Dans cette étude, la recherche approfondie OpenAI o3 a aidé les chercheurs à cerner des pistes qui ont ensuite été évaluées au moyen de processus cliniques établis, ce qui laisse croire qu’une réanalyse périodique dirigée par des experts pourrait devenir plus évolutive à mesure que les connaissances progressent. Le modèle n’a diagnostiqué aucun patient et n’a pris aucune décision clinique. Il a produit des hypothèses étayées par des preuves que les spécialistes pouvaient examiner et, au besoin, approfondir par des tests supplémentaires et confirmer en laboratoire clinique.
Un test génétique non concluant n’est pas toujours un résultat définitif. Les descriptions du phénotype d’un patient, ses résultats de tests et ses antécédents familiaux peuvent être répartis dans des bases de données qui utilisent des identifiants, des formats et des vocabulaires différents. Il est difficile de relier ces dossiers, si bien que même des spécialistes peuvent passer à côté d’un diagnostic. Des experts peuvent aussi séquencer le génome d’un enfant avant qu’un gène pertinent ou ses variants aient été liés à une maladie. À mesure que les connaissances scientifiques progressent, les mêmes données peuvent révéler des réponses qu’il était auparavant inaccessibles.
La réanalyse des maladies rares est à la fois un enjeu scientifique et un enjeu de maintenance. Le génome du patient peut rester le même, mais les preuves qui l’entourent continuent de changer : les chercheurs relient de nouveaux gènes et variants à des maladies, les laboratoires reclassent d’anciens variants, et les bases de données de cas ainsi que les articles accumulent de nouvelles observations. Chaque avancée peut justifier une nouvelle analyse d'un ancien cas non concluant, de sorte que de nombreux établissements héritent d’un arriéré croissant de génomes à réévaluer au rythme de l’évolution des connaissances.
Dans cette étude, les chercheurs ont conçu le flux de travail de façon à ce que le modèle serve de couche de raisonnement axée d’abord sur l’explication, au-dessus des pipelines génomiques existants. Au lieu de produire seulement un gène classé, on lui a demandé de relier les caractéristiques cliniques, le mode d’hérédité, les preuves liées aux variants et la littérature scientifique dans une justification qu’un évaluateur humain pouvait examiner de façon critique.
Pour chaque cas, l’équipe a constitué un dossier dépersonnalisé contenant des termes normalisés de la Human Phenotype Ontology pour décrire le tableau clinique du patient, des notes occasionnelles de cliniciens et tout diagnostic clinique descriptif, des métadonnées comme l’âge et le genre, ainsi qu’un tableau filtré de variants. Le tableau indiquait la rareté de chaque variant, son effet prédit sur la protéine codée, sa classification ClinVar et la qualité du signal chez les membres de la famille disponibles. La plupart des cas comprenaient des données provenant de l’enfant et des deux parents biologiques.
L’équipe a demandé au modèle de proposer l’explication moléculaire la plus plausible et de montrer son raisonnement. Les chercheurs ont ensuite examiné les résultats au moyen du même cadre ACMG/AMP que les laboratoires cliniques utilisent pour classer les variants génétiques. Au moins deux membres de l’équipe ont examiné chaque candidat, les désaccords ont été résolus par consensus, et le résultat d’un modèle n’a jamais été considéré comme un diagnostic. Une observation n’était comptée comme diagnostic qu’après l’examen des preuves par des experts qualifiés, la classification du variant comme pathogène ou probablement pathogène, sa confirmation par un laboratoire certifié CLIA et la communication du résultat à la famille par l’équipe clinique.
Avant d’analyser les cas non résolus, l’équipe a peaufiné le flux de travail sur des cas dont les diagnostics étaient établis. Il a retrouvé le bon gène et le bon variant lors de deux exécutions répétées pour 48 des 51 cas, qui couvraient diverses maladies rares. Dans un ensemble de 57 cas neuromusculaires, le flux de travail a retourné le bon diagnostic lors de deux exécutions répétées pour 45 cas. Dans un ensemble de 15 cas fondés sur le séquençage génomique à longues lectures, il a nommé le bon gène dans chaque cas et les deux allèles causant la maladie dans 12 cas. Ces évaluations ont aidé à élaborer l’invite et ont montré où l’examen par des experts demeurait essentiel.
Les scores de confiance autodéclarés du modèle concordaient avec les diagnostics exacts dans ces cas déjà résolus : le score minimal moyen était de 85,6 pour les appels constamment exacts et de 42,1 pour les appels incorrects ou inconnus. Ces scores n’étaient pas des probabilités calibrées, et l’équipe ne les a pas utilisés comme substitut aux preuves ou à l’arbitrage clinique. Ils ont toutefois aidé à orienter les évaluateurs experts vers les diagnostics candidats les plus prometteurs.
L’équipe a ensuite appliqué le flux de travail à quatre groupes de cas auparavant non résolus : des enfants atteints de troubles neurodéveloppementaux, des personnes atteintes d’une maladie neuromusculaire rare, des enfants et des adolescents présentant une psychose précoce, et des cas de mort subite inattendue en pédiatrie. Il ne s’agissait pas de nouveaux cas en attente d’un premier examen. Beaucoup avaient déjà été examinés par plusieurs pipelines commerciaux ou institutionnels et discutés par des équipes multidisciplinaires.
Cohorte | Cas | Diagnostics trouvés | Rendement |
Neurodéveloppemental | 100 | 10 | 10,0 % |
Maladie neuromusculaire | 61 | 4 | 6,6 % |
Mort subite inattendue en pédiatrie | 200 | 2 | 1,0 % |
Psychose précoce | 15 | 2 | 13,3 % |
Total | 376 | 18 | 4,8 % |
La cohorte de patients présentant une psychose précoce était de petite taille, de sorte que son pourcentage présente un large intervalle de confiance. Le rendement reflète aussi la probabilité que chaque cohorte ait une explication monogénique.
Après que le modèle a fait ressortir des candidats et que les experts ont terminé l’examen et la confirmation clinique, les médecins ont établi des diagnostics dans 4,8 % des cas. Ce taux est modeste, mais significatif dans cette population, puisque les examens experts précédents n’avaient pas permis de résoudre les cas. Des études de réanalyse comparables rapportent des gains à un chiffre dans des cas déjà largement examinés; les rendements plus élevés proviennent généralement d’études comprenant de nouveaux cas ou des troubles bien connus en attente d’une confirmation génétique.
Parmi les 18 diagnostics, 7 étaient des redécouvertes : des diagnostics établis en dehors du flux de travail de recherche local, mais absents du dossier examiné par l’équipe. Dans plusieurs cas, les variants étaient déjà répertoriés comme pathogènes ou probablement pathogènes dans des bases de données publiques, ce qui met en évidence le défi opérationnel que représente la synthèse de l’information provenant de multiples sources de données.
Dans un cas de psychose précoce, le modèle a déduit la présence d’un événement structural dans le génome qui ne figurait pas dans les données d’entrée. Il a associé une série d’appels de faible qualité sur le chromosome 22 aux caractéristiques cardiaques, immunitaires, neurodéveloppementales et psychiatriques de l’enfant, puis a émis l’hypothèse d’une délétion 22q11.2 associée au syndrome de DiGeorge. Ce variant hypothétique a été confirmé par un séquençage génomique de suivi.
Même si l’invite demandait une seule cause monogénique, le modèle a parfois fait ressortir deux gènes qui expliquaient mieux une présentation complexe. Des variants dans LAMA2 et FOXP1 ont ensemble aidé à expliquer les caractéristiques musculaires et neurodéveloppementales dans un cas; un autre présentait une explication digénique jusque-là méconnue faisant intervenir TTN et SRPK3.
En plus des diagnostics, le modèle a aussi identifié une nouvelle explication mécanistique possible pour une affection appelée vitiligo. Dans un cas neurodéveloppemental, le modèle a mis en évidence une délétion de 11 acides aminés dans S1PR1 chez une personne atteinte de vitiligo. S1PR1 code un récepteur de surface cellulaire impliqué dans la signalisation, le déplacement des cellules immunitaires et la biologie des tissus. Le modèle a intégré des preuves suggérant que la délétion pourrait modifier la structure et la signalisation du récepteur de façons qui réduisent la production de pigment tout en aidant les cellules immunitaires à persister dans la peau.
La relation proposée entre S1PR1 et le vitiligo nécessite une validation expérimentale supplémentaire, mais elle illustre le rôle puissant que peut jouer l’IA en traduisant des observations dispersées issues de la biologie structurale, de l’immunologie et de la génétique clinique en hypothèses concrètes et testables.
L’équipe a aussi observé une possible expansion du phénotype dans la cohorte neuromusculaire. Des variants délétères dans HSPB8 et CDK13 ne correspondaient pas parfaitement aux troubles les mieux connus associés à ces gènes, ce qui suggère un spectre clinique plus large que d’autres cas et des travaux en laboratoire devront tester.
Étude de cas : le diagnostic de Kyra après près de deux décennies
Tout a commencé au cours de karaté, lorsque la mère de Kyra a remarqué que sa fille de 9 ans ne descendait plus aussi bas dans ses positions qu’avant. Kyra ralentissait aussi pendant les entraînements de soccer et restait sur la pointe des pieds lorsqu’elle marchait et courait. Son pédiatre n’a pas pu déterminer la cause de sa faiblesse musculaire; il l’a donc dirigée vers un spécialiste. S’en est suivi un parcours de près de 20 ans fait de tests, de traitements et de consultations, sans diagnostic.
Le cas de Kyra faisait partie des quatre diagnostics trouvés dans la cohorte des maladies neuromusculaires. L’équipe a lié son état à un variant à décalage du cadre de lecture dans HSPB8 et a diagnostiqué une forme de myopathie myofibrillaire, où des structures protéiques anormales s’accumulent dans les fibres musculaires et contribuent à la faiblesse.
À ce moment-là, Kyra avait passé une grande partie de sa vie à s’adapter à la maladie. Elle dépendait d’un ventilateur et se déplaçait en fauteuil roulant à 13 ans, même si son état s’est depuis stabilisé. Bien que la forme de myopathie myofibrillaire de Kyra soit si rare qu’on en sait peu sur son évolution à long terme, le diagnostic lui a apporté une certaine paix d’esprit.
Cette étude montre qu’un modèle de raisonnement polyvalent peut contribuer à la réanalyse génomique rétrospective en combinant phénotype, hérédité, annotations de variants, tendances de qualité des données et littérature scientifique en hypothèses examinables. Elle montre aussi pourquoi la réanalyse périodique est importante : certaines réponses n’émergent qu’après l’avancement des connaissances ou le regroupement de dossiers fragmentés.
Cette recherche ne constitue pas une preuve que les patients, les cliniciens ou les clients devraient utiliser les modèles d’OpenAI pour diagnostiquer une maladie ou prendre des décisions médicales. Elle ne décrit ni n’approuve une utilisation prévue par les clients de la recherche approfondie OpenAI o3, de ChatGPT ou de tout autre produit d’OpenAI à des fins de diagnostic. Le modèle n’a diagnostiqué aucun participant; les médecins et d’autres experts cliniques qualifiés ont posé chaque diagnostic au moyen de processus établis d’examen, de tests et de confirmation clinique.
L’étude était rétrospective, les cohortes étaient hétérogènes et les évaluateurs connaissaient le degré de confiance associé aux prédictions du modèle. Les chercheurs n’ont pas mesuré le temps économisé, les coûts, l’effort des cliniciens, la charge de travail liée aux faux positifs ni les répercussions sur les soins. Ils n’ont pas non plus évalué systématiquement d’autres formes de variation génétique, comme les variants structuraux, les expansions de répétitions, les changements introniques profonds ou le mosaïcisme.
Les grands modèles de langage peuvent mal interpréter le contexte ou produire des explications plausibles qui ne résistent pas à un examen plus poussé. C’est pourquoi chaque résultat a fait l’objet d’une adjudication humaine et d’une confirmation clinique. Le modèle a élargi la recherche et orienté l’analyse subséquente dirigée par des humains; il n’a pas décidé quelles informations ni quel diagnostic devaient être transmis à une famille.
Cette étude a utilisé des renseignements dépersonnalisés, sans que des renseignements de santé protégés soient utilisés ou transmis à l’extérieur des environnements approuvés. Un déploiement clinique plus large exigera la même attention à la confidentialité, à la sécurité, à la traçabilité et à la réglementation locale que celle qui s’applique à tous les soins médicaux. L’accès au modèle ne remplace pas l’infrastructure de séquençage, le counseling génétique, les tests de confirmation ni le jugement des spécialistes.

« Le goulot d’étranglement, c’est le temps. Un expert ne peut consacrer qu’une partie limitée de sa journée à une personne en particulier. »
Dre Catherine Brownstein, Manton Center for Orphan Disease Research du Boston Children’s Hospital

« Des chercheurs comme Catherine et moi ne pouvons pas garder 8 000 maladies différentes en tête. C’est là toute la puissance de l’IA. »
Alan Beggs, directeur du Manton Center for Orphan Disease Research
Les études prospectives et multicentriques devraient comparer la réanalyse assistée par LLM avec la pratique standard sur le rendement diagnostique, le temps jusqu’au candidat, l’effort du clinicien, le fardeau des faux positifs, le coût et les effets sur les soins. Les invites versionnées, les vérifications de références, les journaux d’audit et l’incertitude calibrée seront importants pour la reproductibilité et la sécurité. De telles études nécessiteraient toujours que des cliniciens qualifiés évaluent les preuves, prescrivent des tests appropriés et prennent tout diagnostic ou décision de traitement.
Cette étude a utilisé OpenAI o3 Deep Research. Les modèles plus récents à usage général peuvent rechercher et synthétiser davantage de matériel scientifique, tandis que des systèmes conçus spécialement comme GPT‑Rosalind sont conçus pour des travaux plus approfondis en sciences de la vie, incluant des effets variants sur la structure et la fonction des protéines. Ces capacités n’ont pas été testées ici et nécessiteront leurs propres évaluations et contrôles d’accès.
Bien qu’OpenAI ait soutenu cette étude initiale, le Manton Center dirigera la prochaine étape du travail grâce à une subvention de la Fondation OpenAI. La subvention soutiendra l’effort plus large du Centre pour développer un copilote d’IA génétique indépendant de la plateforme et à faible coût, qui aide les équipes cliniques à analyser les cas de maladies rares plus rapidement et de manière plus cohérente.
À plus long terme, l’enjeu de recherche consiste à déterminer si une réanalyse assistée par l’IA et encadrée par des experts peut aider les connaissances scientifiques à suivre le rythme des découvertes. La promesse n’est pas que l’IA remplace le diagnostic d’un médecin, mais que des outils de recherche soigneusement évalués pourraient aider les spécialistes à identifier des preuves qui méritent d’être examinées. Pour des milliers de familles, les questions sans réponse d’aujourd’hui n’ont pas à rester sans réponse pour toujours.
- 2026


