Mit KI Ärzt:innen bei der Diagnose seltener genetischer Erkrankungen bei Kindern helfen
In einer NEJM AI-Studie nutzten Fachleute ein Reasoning-Modell von OpenAI, um 376 zuvor ungelöste Fälle neu zu analysieren und Hinweise für 18 Diagnosen zu finden.
Selbst mit Genomsequenzierung erhalten viele Menschen mit seltenen Erkrankungen nie eine eindeutige genetische Diagnose. Etwa die Hälfte bleibt auch nach umfangreichen Tests und fachärztlicher Prüfung ohne Diagnose. Ihre medizinischen Daten können Hinweise enthalten. Sie zu finden kann jedoch bedeuten, Tausende bis Millionen möglicher genetischer Varianten, fragmentierte klinische Akten und eine sich schnell verändernde wissenschaftliche Literatur zu durchsuchen.
Wenn neue Gen-Krankheitsbeziehungen, Fallberichte und Klassifikationsbelege hinzukommen, können ungelöste Fälle neu interpretierbar werden.
Forschende des Manton Center for Orphan Disease Research am Boston Children’s Hospital, der Harvard University und von OpenAI nutzten das OpenAI o3‑Deep‑Research‑Reasoning‑Modell, um deidentifizierte klinische und genomische Informationen aus 376 bereits analysierten, aber weiterhin ungelösten Fällen auszuwerten. Das Modell brachte evidenzgestützte mögliche Erklärungen hervor, die Forschende und klinische Fachkräfte prüfen konnten. Nach fachlicher Prüfung, zusätzlichen Tests und klinischer Bestätigung stellten Ärzt:innen in 18 Fällen Diagnosen. Das entspricht einer zusätzlichen Diagnosequote von 4,8 % nach der früheren Analyse durch Fachleute. Die Studie wurde am 18. Juni 2026 in NEJM AI veröffentlicht und zeigt, wie ein KI-gestützter Forschungsworkflow Fachleuten helfen kann, bei der erneuten Prüfung einiger der schwierigsten Fälle neue Ansatzpunkte zu finden.
Viele dieser Fälle hatten sich jahrelanger fachlicher Analyse entzogen. In dieser Studie half OpenAI o3 Deep Research Forschenden, Ansatzpunkte zu identifizieren, die später in etablierten klinischen Verfahren bewertet wurden. Das deutet darauf hin, dass eine fachlich geleitete regelmäßige Neuanalyse bei fortschreitendem Wissensstand skalierbarer werden könnte. Das Modell diagnostizierte keine Patient:innen und traf keine klinische Entscheidung. Es erzeugte evidenzgestützte Hypothesen, die Expert:innen prüfen und, sofern angemessen, durch zusätzliche Tests untersuchen und in einem klinischen Labor bestätigen konnten.
Ein uneindeutiger Gentest ist nicht immer ein endgültiger Befund. Phänotypbeschreibungen, Testergebnisse und Familienanamnese einer Patientin oder eines Patienten können über Datenbanken verteilt sein, die unterschiedliche Kennungen, Formate und unterschiedliches Vokabular verwenden. Diese Datensätze miteinander zu verknüpfen ist schwierig. Deshalb können selbst Fachleute eine Diagnose übersehen. Expert:innen können außerdem das Genom eines Kindes sequenzieren, bevor ein relevantes Gen oder seine Varianten mit einer Erkrankung in Verbindung gebracht wurden. Mit dem wissenschaftlichen Fortschritt können dieselben Daten Antworten liefern, die zuvor nicht zu erkennen waren.
Die erneute Analyse seltener Erkrankungen ist zugleich ein wissenschaftliches Problem und eine Frage der laufenden Pflege. Das Genom einer Patientin oder eines Patienten kann gleich bleiben, doch die Evidenz darum herum verändert sich ständig: Forschende verknüpfen neue Gene und Varianten mit Erkrankungen, Labore klassifizieren alte Varianten neu, und Falldatenbanken sowie Publikationen sammeln neue Beobachtungen. Jede Aktualisierung kann es lohnend machen, einen alten uneindeutigen Fall erneut zu prüfen. Viele Einrichtungen übernehmen dadurch einen wachsenden Rückstau an Genomen, die mit einer sich bewegenden Wissensbasis abgeglichen werden müssen.
In dieser Studie gestalteten die Forschenden den Workflow so, dass das Modell als erklärungsorientierte Reasoning-Ebene auf bestehenden genomischen Pipelines aufsetzte. Statt nur ein priorisiertes Gen auszugeben, sollte es klinische Merkmale, Vererbungsmuster, Variantenevidenz und wissenschaftliche Literatur zu einer Begründung verknüpfen, die menschliche Prüfende hinterfragen konnten.
Für jeden Fall stellte das Team ein deidentifiziertes Paket zusammen. Es enthielt standardisierte Begriffe der Human Phenotype Ontology zur Beschreibung des klinischen Erscheinungsbilds, gelegentliche ärztliche Notizen und etwaige deskriptive klinische Diagnosen, Metadaten wie Alter und Geschlecht sowie eine gefilterte Variantentabelle. Die Tabelle erfasste für jede Variante ihre Seltenheit, die vorhergesagte Wirkung auf das codierte Protein, die ClinVar-Klassifikation und die Signalqualität über verfügbare Familienmitglieder hinweg. Die meisten Fälle umfassten Daten des Kindes und beider biologischer Eltern.
Das Team bat das Modell, die plausibelste molekulare Erklärung vorzuschlagen und seine Herleitung offenzulegen. Anschließend prüften die Forschenden die Ausgaben nach demselben ACMG/AMP-Rahmenwerk, das klinische Labore zur Klassifikation genetischer Varianten verwenden. Mindestens zwei Teammitglieder prüften jeden Kandidaten, Uneinigkeiten wurden im Konsens gelöst, und eine Modellausgabe wurde nie als Diagnose behandelt. Ein Befund zählte erst dann als Diagnose, wenn qualifizierte Fachkräfte die Evidenz geprüft hatten, die Variante als pathogen oder wahrscheinlich pathogen klassifiziert worden war, ein CLIA-zertifiziertes Labor sie bestätigt hatte und das klinische Team das Ergebnis an die Familie zurückgab.
Bevor das Team ungelöste Fälle analysierte, verfeinerte es den Workflow anhand von Fällen mit gesicherten Diagnosen. In Doppel-Durchläufen fand er bei 48 von 51 Fällen mit verschiedenen seltenen Erkrankungen das richtige Gen und die richtige Variante. In einer Gruppe von 57 neuromuskulären Fällen gab der Workflow in Doppel-Durchläufen bei 45 Fällen die richtige Diagnose zurück. In einem Long-Read-Genomdatensatz mit 15 Fällen nannte er in jedem Fall das richtige Gen und in 12 Fällen beide krankheitsverursachenden Allele. Diese Auswertungen unterstützten die Entwicklung des Prompts und zeigten, wo fachliche Prüfung weiterhin unverzichtbar war.
Die vom Modell selbst angegebenen Konfidenzwerte stimmten in diesen zuvor gelösten Fällen mit den richtigen Diagnosen überein: Der mittlere Mindestwert lag bei durchgehend korrekten Calls bei 85,6 und bei falschen oder unbekannten Calls bei 42,1. Die Werte waren keine kalibrierten Wahrscheinlichkeiten, und das Team nutzte sie nicht als Ersatz für Evidenz oder klinische Bewertung. Sie halfen jedoch dabei, die spezialisierten Prüfer:innen auf die vielversprechendsten Kandidatendiagnosen zu lenken.
Anschließend wandte das Team den Workflow auf vier Gruppen zuvor ungelöster Fälle an: Kinder mit Störungen der Entwicklung des Nervensystems, Menschen mit seltenen neuromuskulären Erkrankungen, Kinder und Jugendliche mit früher Psychose sowie Fälle plötzlichen unerwarteten Todes in der Pädiatrie. Das waren keine neuen Fälle, die auf eine Erstprüfung warteten. Viele waren bereits durch mehrere kommerzielle oder institutionelle Pipelines untersucht und in multidisziplinären Teams besprochen worden.
Kohorte | Fälle | Erkannte Diagnosen | Ausbeute |
Neuroentwicklung | 100 | 10 | 10,0 % |
Neuromuskuläre Erkrankung | 61 | 4 | 6,6 % |
Plötzlicher unerwarteter Tod in der Pädiatrie | 200 | 2 | 1,0 % |
Frühe Psychose | 15 | 2 | 13,3 % |
Gesamt | 376 | 18 | 4,8 % |
Die Kohorte mit früher Psychose war klein, daher hat ihr Prozentwert ein breites Konfidenzintervall. Die Diagnosequote spiegelt auch wider, wie wahrscheinlich in der jeweiligen Kohorte eine monogene Erklärung war.
Nachdem das Modell Kandidaten hervorgebracht und die Expert:innen die Prüfung und klinische Bestätigung abgeschlossen hatten, stellten Ärzt:innen in 4,8 % der Fälle Diagnosen. Diese Quote ist moderat, aber in dieser Population bedeutsam, weil frühere fachliche Prüfungen die Fälle nicht lösen konnten. Ähnliche Neuanalysestudien berichten bei intensiv geprüften Fällen von Zugewinnen im einstelligen Prozentbereich; höhere Quoten stammen meist aus Studien mit neuen Fällen oder bekannten Erkrankungen, die auf genetische Bestätigung warten.
Von den 18 Diagnosen waren 7 Wiederentdeckungen: Diagnosen, die außerhalb des lokalen Forschungsworkflows gestellt worden waren, aber in den vom Team geprüften Unterlagen fehlten. In mehreren Fällen waren die Varianten in öffentlichen Datenbanken bereits als pathogen oder wahrscheinlich pathogen gelistet. Das unterstreicht die operative Herausforderung, Informationen aus unterschiedlichen Datenquellen zusammenzuführen.
In einem Fall von früher Psychose leitete das Modell ein strukturelles Ereignis im Genom ab, das in den Eingabedaten nicht aufgeführt war. Es brachte eine Reihe von Calls niedriger Qualität auf Chromosom 22 mit den kardialen, immunologischen, die Entwicklung des Nervensystems betreffenden und psychiatrischen Merkmalen des Kindes in Verbindung und stellte daraufhin die Hypothese einer 22q11.2-Deletion auf, die mit dem DiGeorge-Syndrom assoziiert ist. Diese vermutete Variante wurde durch eine anschließende Genomsequenzierung bestätigt.
Obwohl der Prompt nach einer monogenen Ursache fragte, brachte das Modell gelegentlich zwei Gene hervor, die ein komplexes Krankheitsbild besser erklärten. Varianten in LAMA2 und FOXP1 trugen in einem Fall gemeinsam dazu bei, muskuläre und die Entwicklung des Nervensystems betreffende Merkmale zu erklären; in einem anderen Fall gab es eine zuvor nicht erkannte digenische Erklärung mit Beteiligung von TTN und SRPK3.
Neben Diagnosen identifizierte das Modell auch eine mögliche neue mechanistische Erklärung für eine Erkrankung namens Vitiligo. In einem Fall der neurologischen Entwicklung hob das Modell bei einer Person mit Vitiligo eine Deletion von 11 Aminosäuren in S1PR1 hervor. S1PR1 codiert einen Zelloberflächenrezeptor, der an Signalübertragung, Bewegung von Immunzellen und Gewebebiologie beteiligt ist. Das Modell integrierte Evidenz, die darauf hindeutet, dass die Deletion Rezeptorstruktur und Signalübertragung so verändern könnte, dass die Pigmentproduktion abnimmt und Immunzellen zugleich länger in der Haut verbleiben.
Die vorgeschlagene Beziehung zwischen S1PR1 und Vitiligo erfordert zusätzliche experimentelle Validierung. Sie zeigt jedoch, welche starke Rolle KI dabei spielen kann, verstreute Befunde aus Strukturbiologie, Immunologie und klinischer Genetik in konkrete, testbare Hypothesen zu übersetzen.
Das Team sah außerdem Hinweise auf eine mögliche Phänotyperweiterung in der neuromuskulären Kohorte. Schädigende Varianten in HSPB8 und CDK13 passten nicht vollständig zu den bekanntesten Störungen der Gene. Das deutet auf ein breiteres klinisches Spektrum hin, das in weiteren Fällen und Laborarbeiten geprüft werden muss.
Fallstudie: Kyras Diagnose nach fast zwei Jahrzehnten
Es begann im Karateunterricht, als Kyras Mutter bemerkte, dass ihre 9-jährige Tochter bei ihren Stellungen nicht mehr so tief herunterkam wie früher. Auch beim Fußballtraining wurde Kyra langsamer, und beim Gehen und Laufen blieb sie auf den Zehenspitzen. Ihr Kinderarzt konnte die Ursache ihrer Muskelschwäche nicht feststellen und überwies sie deshalb in fachärztliche Behandlung. Darauf folgte ein fast 20-jähriger Weg mit Tests, Behandlungen und Konsultationen ohne Diagnose.
Kyras Fall war eine der vier Diagnosen, die in der neuromuskulären Kohorte gefunden wurden. Das Team verknüpfte ihre Erkrankung mit einer Frameshift-Variante in HSPB8 und diagnostizierte eine Form der myofibrillären Myopathie, bei der sich abnorme Proteinstrukturen in Muskelfasern ansammeln und zur Schwäche beitragen. Eine Woche vor ihrem 28. Geburtstag erhielt Kyra einen Anruf von der Genberatung des Manton Center.
Zu diesem Zeitpunkt hatte Kyra einen Großteil ihres Lebens damit verbracht, sich an die Krankheit anzupassen. Mit 13 war sie auf ein Beatmungsgerät angewiesen und saß im Rollstuhl. Seitdem ist ihr Zustand stabil geblieben. Über Kyras Form der myofibrillären Myopathie ist wegen ihrer Seltenheit nur wenig über den Langzeitverlauf bekannt. Die Diagnose hat ihr dennoch ein Stück Gewissheit gebracht.
Diese Studie zeigt, dass ein allgemeines Reasoning-Modell zur retrospektiven genomischen Neuanalyse beitragen kann, indem es Phänotyp, Vererbung, Variantenannotationen, Muster der Datenqualität und wissenschaftliche Literatur zu prüfbaren Hypothesen verbindet. Sie zeigt auch, warum eine regelmäßige Neuanalyse wichtig ist: Manche Antworten werden erst sichtbar, wenn das Wissen voranschreitet oder fragmentierte Unterlagen zusammengeführt werden.
Diese Forschung ist kein Beleg dafür, dass Patient:innen, klinische Fachkräfte oder Kund:innen OpenAI-Modelle zur Diagnose von Krankheiten oder für medizinische Entscheidungen nutzen sollten. Sie beschreibt oder empfiehlt keine vorgesehene Nutzung von OpenAI o3 Deep Research, ChatGPT oder einem anderen OpenAI-Produkt durch Kund:innen zur Diagnosestellung. Das Modell diagnostizierte keine teilnehmende Person; Ärzt:innen sowie andere qualifizierte klinische Fachleute stellten jede Diagnose über etablierte Prüf-, Test- und klinische Bestätigungsprozesse.
Die Studie war retrospektiv, die Kohorten waren heterogen, und die Modellkonfidenz wurden nicht vor den Prüfenden verborgen. Die Forschenden maßen weder Zeitersparnis noch Kosten, klinischen Aufwand, Arbeitsbelastung durch falsch positive Ergebnisse oder Veränderungen in der Versorgung. Auch andere Formen genetischer Variation wie strukturelle Varianten, Repeat-Expansionen, tiefe Intronveränderungen oder Mosaizismus wurden nicht systematisch bewertet.
Große Sprachmodelle können Kontext falsch deuten oder plausibel klingende Erklärungen erzeugen, die einer genaueren Prüfung nicht standhalten. Deshalb durchlief jedes Ergebnis eine menschliche Bewertung und klinische Bestätigung. Das Modell erweiterte die Suche und fokussierte die anschließende, von Menschen geleitete Analyse. Es entschied nicht, welche Information oder Diagnose an eine Familie zurückgegeben werden sollte.
Diese Studie verwendete deidentifizierte Informationen; geschützte Gesundheitsinformationen wurden nicht genutzt oder außerhalb genehmigter Umgebungen übertragen. Eine breitere klinische Einführung erfordert dieselbe Berücksichtigung des Datenschutzes, der Sicherheit, Nachvollziehbarkeit und der lokalen Vorschriften und gesetzlichen Bestimmungen wie jede medizinische Versorgung. Modellzugang ersetzt weder die Sequenzierungsinfrastruktur noch die genetische Beratung, die Bestätigungstests oder fachärztliches Urteil.

„Der Engpass ist die Zeit. Eine Fachperson kann nur einen begrenzten Teil ihres Tages einer einzelnen Person widmen.“
Dr. Catherine Brownstein, Manton Center for Orphan Disease Research am Boston Children’s Hospital

„Forschende wie Catherine und ich können unmöglich 8.000 verschiedene Erkrankungen im Kopf behalten. Darin liegt die Stärke von KI.“
Alan Beggs, Director des Manton Center for Orphan Disease Research
Zukünftige, mehrere Zentren umfassende Studien sollten LLM-gestützte Neuanalyse mit der Standardpraxis vergleichen: hinsichtlich Diagnosequote, Zeit bis zu einem Kandidaten, ärztlichem Aufwand, Belastung durch falsch positive Ergebnisse, Kosten und Auswirkungen auf die Versorgung. Versionierte Prompts, Referenzprüfungen, Audit-Protokolle und kalibrierte Unsicherheit werden für Reproduzierbarkeit und Sicherheit wichtig sein. Auch solche Studien werden weiterhin qualifizierte klinische Fachkräfte erfordern, die Evidenz bewerten, geeignete Tests anordnen und jede Diagnose- oder Behandlungsentscheidung treffen.
Diese Studie nutzte OpenAI o3 Deep Research. Neuere Allzweck-Modelle können mehr wissenschaftliches Material durchsuchen und zusammenfassen, während speziell entwickelte Systeme wie GPT‑Rosalind für vertiefte Arbeiten in den Lebenswissenschaften ausgelegt sind, etwa zu Varianteneffekten auf Proteinstruktur und -funktion. Diese Fähigkeiten wurden hier nicht getestet und erfordern eigene Evaluationen sowie Zugriffskontrollen.
OpenAI hat diese erste Forschungsstudie mit unterstützt. Die nächste Arbeitsphase wird jedoch das Manton Center mit Förderung der OpenAI Foundation leiten. Die Förderung unterstützt die breiter angelegte Arbeit des Centers an einem plattformunabhängigen, kostengünstigen KI-Copiloten für Genetik, der klinischen Teams hilft, Fälle seltener Erkrankungen schneller und konsistenter zu analysieren.
Die längerfristige Forschungsfrage ist, ob fachlich geleitete, KI-gestützte Neuanalyse dazu beitragen kann, dass wissenschaftliches Verständnis mit neuen Entdeckungen Schritt hält. Das Versprechen lautet nicht, dass KI die ärztliche Diagnose ersetzt. Sorgfältig evaluierte Forschungswerkzeuge könnten Fachleuten jedoch helfen, Evidenz zu erkennen, die weitere Untersuchungen verdient. Für Tausende Familien müssen die offenen Fragen von heute nicht für immer unbeantwortet bleiben.
- 2026


