AI gebruiken om artsen te helpen zeldzame genetische ziekten bij kinderen te diagnosticeren
In een NEJM AI-studie gebruikten experts een redenerend model van OpenAI om 376 onopgeloste gevallen opnieuw te analyseren en aanwijzingen voor 18 diagnoses te vinden.
Zelfs met genoomsequencing krijgen veel mensen met zeldzame ziekten nooit een duidelijke genetische diagnose. Ongeveer de helft blijft ongediagnosticeerd na uitgebreid onderzoek en beoordeling door specialisten. Hun medische gegevens kunnen aanwijzingen bevatten, maar die vinden kan betekenen dat duizenden tot miljoenen mogelijke genetische varianten, versnipperde klinische dossiers en snel veranderende wetenschappelijke literatuur moeten worden doorzocht.
Naarmate nieuwe verbanden tussen genen en ziekten, casusbeschrijvingen en classificatiebewijs zich opstapelen, kunnen onopgeloste gevallen opnieuw interpreteerbaar worden.
Onderzoekers van het Manton Center for Orphan Disease Research van Boston Children’s Hospital, Harvard University en OpenAI gebruikten het redenerende model OpenAI o3 voor diepgaand onderzoek om geanonimiseerde klinische en genomische informatie te analyseren uit 376 eerder geanalyseerde gevallen die onopgelost waren gebleven. Het model bracht met bewijs onderbouwde kandidaatverklaringen naar voren ter beoordeling door onderzoekers en clinici. Na beoordeling door experts, aanvullend onderzoek en klinische bevestiging stelden artsen in 18 gevallen een diagnose vast: een extra diagnostische opbrengst van 4,8% na eerdere analyse door specialisten. Deze studie werd op 18 juni 2026 gepubliceerd in NEJM AI en laat zien hoe een door AI ondersteunde onderzoeksworkflow experts kan helpen aanwijzingen te vinden wanneer zij enkele van de moeilijkste gevallen opnieuw bekijken.
Veel van deze gevallen hadden zich jarenlang aan expertanalyse onttrokken. In deze studie hielp OpenAI o3 voor diepgaand onderzoek onderzoekers aanwijzingen te identificeren die later via gevestigde klinische processen werden beoordeeld, wat erop wijst dat periodieke heranalyse onder leiding van experts schaalbaarder kan worden naarmate de kennis zich ontwikkelt. Het model stelde bij geen enkele patiënt een diagnose en nam geen enkele klinische beslissing. Het leverde met bewijs onderbouwde hypothesen op die specialisten konden beoordelen en, waar passend, met aanvullende tests konden onderzoeken en in een klinisch laboratorium konden bevestigen.
Een niet-conclusieve genetische test is niet altijd een definitieve bevinding. Beschrijvingen van het fenotype van een patiënt, testresultaten en familiegeschiedenis kunnen verspreid zijn over databases die verschillende identificatoren, formats en vocabulaires gebruiken. Het koppelen van die dossiers is lastig, waardoor zelfs specialisten een diagnose kunnen missen. Experts kunnen bovendien het genoom van een kind sequencen voordat een relevant gen of de varianten ervan met ziekte in verband zijn gebracht. Naarmate de wetenschappelijke kennis voortschrijdt, kunnen dezelfde gegevens antwoorden onthullen die eerder onmogelijk te vinden waren.
Heranalyse bij zeldzame ziekten is zowel een wetenschappelijk als een onderhoudsprobleem. Het genoom van de patiënt blijft misschien hetzelfde, maar het bewijs eromheen blijft veranderen: onderzoekers koppelen nieuwe genen en varianten aan ziekte, laboratoria herclassificeren oude varianten, en casusdatabases en artikelen voegen nieuwe observaties toe. Elke update kan een oude, niet-conclusieve casus opnieuw de moeite waard maken, waardoor veel instellingen te maken krijgen met een groeiende achterstand aan genomen die synchroon gehouden moeten worden met een voortdurend veranderende kennisbasis.
In deze studie ontwierpen de onderzoekers de workflow zo dat het model fungeerde als een verklaringsgerichte redeneringslaag boven op bestaande genomische pipelines. In plaats van alleen een gerangschikt gen terug te geven, werd het gevraagd de klinische kenmerken, het overervingspatroon, het bewijs voor de variant en de wetenschappelijke literatuur te verbinden tot een onderbouwing die een menselijke beoordelaar kritisch kon onderzoeken.
Voor elk geval stelde het team een geanonimiseerd pakket samen met gestandaardiseerde termen uit de Human Phenotype Ontology om het klinische beeld van de patiënt te beschrijven, incidentele notities van clinici en eventuele beschrijvende klinische diagnoses, metadata zoals leeftijd en gender, en een gefilterde variantentabel. De tabel legde voor elke variant de zeldzaamheid vast, het voorspelde effect op het gecodeerde eiwit, de ClinVar-classificatie en de signaalkwaliteit bij beschikbare familieleden. De meeste gevallen bevatten gegevens van het kind en beide biologische ouders.
Het team vroeg het model de meest plausibele moleculaire verklaring voor te stellen en zijn redenering te tonen. Daarna beoordeelden de onderzoekers de resultaten met hetzelfde ACMG/AMP-kader dat klinische laboratoria gebruiken om genetische varianten te classificeren. Ten minste twee teamleden beoordeelden elke kandidaat, meningsverschillen werden bij consensus opgelost, en een output van het model werd nooit als diagnose behandeld. Een bevinding telde pas als diagnose nadat gekwalificeerde experts het bewijs hadden beoordeeld, de variant als pathogeen of waarschijnlijk pathogeen was geclassificeerd, een CLIA-gecertificeerd laboratorium deze had bevestigd en het klinische team het resultaat aan de familie had teruggekoppeld.
Voordat het team onopgeloste gevallen analyseerde, verfijnde het de workflow op gevallen met vastgestelde diagnoses. In dubbele runs vond het in 48 van de 51 gevallen, die uiteenlopende zeldzame aandoeningen omvatten, het juiste gen en de juiste variant terug. In een set van 57 neuromusculaire gevallen leverde de workflow in dubbele runs voor 45 van de gevallen de juiste diagnose op. In een set van 15 long-read genomen noemde het in elk geval het juiste gen en in 12 gevallen beide ziekteveroorzakende allelen. Deze evaluaties hielpen bij de ontwikkeling van de prompt en lieten zien waar expertbeoordeling essentieel bleef.
De door het model zelf gerapporteerde betrouwbaarheidsscores kwamen overeen met juiste diagnoses in deze eerder opgeloste gevallen: de gemiddelde minimumscore was 85,6 voor consequent juiste beoordelingen en 42,1 voor onjuiste of onbekende beoordelingen. De scores waren geen gekalibreerde waarschijnlijkheden, en het team gebruikte ze niet als vervanging voor bewijs of klinische beoordeling. Maar ze hielpen de expertbeoordelaars te richten op de meest veelbelovende kandidaatdiagnoses.
Vervolgens paste het team de workflow toe op vier groepen eerder onopgeloste gevallen: kinderen met neuro-ontwikkelingsstoornissen, mensen met zeldzame neuromusculaire ziekten, kinderen en adolescenten met vroege psychose, en gevallen van plotseling onverwacht overlijden bij kinderen. Dit waren geen nieuwe gevallen die nog op een eerste beoordeling wachtten. Veel waren al onderzocht door meerdere commerciële of institutionele pipelines en besproken door multidisciplinaire teams.
Cohort | Gevallen | Naar voren gebrachte diagnoses | Opbrengst |
Neuro-ontwikkelingsstoornissen | 100 | 10 | 10,0% |
Neuromusculaire ziekte | 61 | 4 | 6,6% |
Plotseling onverwacht overlijden bij kinderen | 200 | 2 | 1,0% |
Vroege psychose | 15 | 2 | 13,3% |
Totaal | 376 | 18 | 4,8% |
Het cohort met vroege psychose was klein, waardoor het percentage een breed betrouwbaarheidsinterval heeft. De opbrengst weerspiegelt ook hoe waarschijnlijk het was dat elk cohort een verklaring in één gen had.
Nadat het model kandidaten naar voren had gebracht en experts de beoordeling en klinische bevestiging hadden afgerond, stelden artsen in 4,8% van de gevallen een diagnose vast. Dat percentage is bescheiden maar betekenisvol in deze populatie, omdat eerdere expertbeoordelingen de gevallen niet hadden opgelost. Vergelijkbare heranalysestudies rapporteren enkelcijferige winst in intensief beoordeelde gevallen; hogere opbrengsten komen meestal uit studies met nieuwe gevallen of bekende aandoeningen die wachten op genetische bevestiging.
Van de 18 diagnoses waren er 7 herontdekkingen: diagnoses die buiten de lokale onderzoeksworkflow waren vastgesteld, maar ontbraken in het dossier dat het team beoordeelde. In meerdere gevallen stonden de varianten al als pathogeen of waarschijnlijk pathogeen vermeld in openbare databases, wat de operationele uitdaging benadrukt om informatie uit verschillende gegevensbronnen samen te brengen.
In één geval van vroege psychose leidde het model een structurele gebeurtenis in het genoom af die niet in de invoergegevens stond. Het bracht een reeks calls van lage kwaliteit op chromosoom 22 in verband met de cardiale, immuun-, neuro-ontwikkelings- en psychiatrische kenmerken van het kind, en stelde vervolgens een 22q11.2-deletie voor die samenhangt met het DiGeorge-syndroom. Deze veronderstelde variant werd bevestigd met vervolgsequencing van het genoom.
Hoewel de prompt vroeg om één monogene oorzaak, bracht het model soms twee genen naar voren die een complex ziektebeeld beter verklaarden. Varianten in LAMA2 en FOXP1 hielpen samen de spier- en neuro-ontwikkelingskenmerken in één geval te verklaren; een ander geval had een eerder niet-herkende digene verklaring met TTN en SRPK3.
Naast diagnoses identificeerde het model ook een mogelijke nieuwe mechanistische verklaring voor een aandoening die vitiligo heet. In één neuro-ontwikkelingscasus wees het model op een deletie van 11 aminozuren in S1PR1 bij iemand met vitiligo. S1PR1 codeert voor een celoppervlakreceptor die betrokken is bij signaaloverdracht, beweging van immuuncellen en weefselbiologie. Het model integreerde bewijs dat suggereert dat de deletie de receptorstructuur en signaaloverdracht kan veranderen op manieren die de pigmentproductie verminderen en tegelijk immuuncellen helpen in de huid aanwezig te blijven.
De voorgestelde relatie tussen S1PR1 en vitiligo vereist aanvullende experimentele validatie, maar illustreert een krachtige rol voor AI bij het vertalen van verspreide bevindingen uit structurele biologie, immunologie en klinische genetica naar concrete, toetsbare hypothesen.
Het team zag ook mogelijke uitbreiding van het fenotype in het neuromusculaire cohort. Schadelijke varianten in HSPB8 en CDK13 kwamen niet perfect overeen met de bekendste aandoeningen van de genen, wat wijst op een breder klinisch spectrum dat met meer gevallen en laboratoriumwerk moet worden getoetst.
Casus: Kyra’s diagnose na bijna twintig jaar
Het begon tijdens karate, toen Kyra’s moeder merkte dat haar 9-jarige dochter niet meer zo laag in haar houdingen zakte als vroeger. Kyra werd ook trager tijdens de voetbaltraining en bleef op haar tenen lopen en rennen. Haar kinderarts kon de oorzaak van haar spierzwakte niet achterhalen en verwees haar daarom door naar een specialist. Daarop volgde een bijna twintig jaar lange tocht langs tests, behandelingen en consulten zonder diagnose.
De casus van Kyra was een van de vier diagnoses die in het neuromusculaire cohort naar voren kwamen. Het team koppelde haar aandoening aan een frameshiftvariant in HSPB8 en stelde een vorm van myofibrillaire myopathie vast, waarbij abnormale eiwitstructuren zich ophopen in spiervezels en bijdragen aan zwakte. Een genetisch counselor van het Manton Center belde Kyra ongeveer een week vóór haar 28e verjaardag.
Tegen die tijd had Kyra een groot deel van haar leven besteed aan het aanpassen aan de ziekte. Op haar 13e was ze afhankelijk van een beademingsapparaat en zat ze in een rolstoel, al is haar toestand sindsdien gestabiliseerd. Hoewel Kyra’s vorm van myofibrillaire myopathie zo zeldzaam is dat er weinig bekend is over het langetermijnverloop, heeft de diagnose enige duidelijkheid gebracht.
Deze studie laat zien dat een redenerend model voor algemeen gebruik kan bijdragen aan retrospectieve genomische heranalyse door fenotype, overerving, variantannotaties, patronen in datakwaliteit en wetenschappelijke literatuur te combineren tot toetsbare hypothesen. Ze laat ook zien waarom periodieke heranalyse belangrijk is: sommige antwoorden komen pas naar voren nadat de kennis is gevorderd of versnipperde dossiers zijn samengebracht.
Dit onderzoek is geen bewijs dat patiënten, clinici of klanten OpenAI-modellen moeten gebruiken om ziekten te diagnosticeren of medische beslissingen te nemen. Het beschrijft of onderschrijft geen bedoeld klantgebruik van OpenAI o3 voor diepgaand onderzoek, ChatGPT of enig ander OpenAI-product voor diagnose. Het model stelde bij geen enkele deelnemer een diagnose; artsen en andere gekwalificeerde klinische experts stelden elke diagnose via gevestigde processen voor beoordeling, tests en klinische bevestiging.
De studie was retrospectief, de cohorten waren heterogeen en de beoordelaars waren niet geblindeerd voor de betrouwbaarheidsscores van het model. De onderzoekers maten niet hoeveel tijd werd bespaard, wat de kosten waren, hoeveel inspanning clinici leverden, welke werklast fout-positieven opleverden of hoe de zorg veranderde. Ook evalueerden zij andere vormen van genetische variatie, zoals structurele varianten, repeat-expansies, diep-intronische veranderingen of mosaicisme, niet systematisch.
LLM's kunnen context verkeerd lezen of plausibele verklaringen produceren die bij nadere inspectie niet standhouden. Daarom ging elk resultaat door menselijke beoordeling en klinische bevestiging. Het model verbreedde de zoekopdracht en stuurde de daaropvolgende door mensen geleide analyse; het besliste niet welke informatie of diagnose aan een familie moest worden teruggekoppeld.
Deze studie gebruikte geanonimiseerde informatie, zonder dat beschermde gezondheidsinformatie werd gebruikt of buiten goedgekeurde omgevingen werd verzonden. Bredere klinische inzet vereist dezelfde aandacht voor privacy, beveiliging, controleerbaarheid en lokale regelgeving die voor alle medische zorg geldt. Toegang tot een model vervangt geen sequencing-infrastructuur, genetische counseling, bevestigende tests of specialistisch oordeel.

“De bottleneck is tijd. Een expert kan maar een beperkt deel van de dag aan één specifieke persoon besteden.”
Dr. Catherine Brownstein, Manton Center for Orphan Disease Research van Boston Children’s Hospital

“Onderzoekers zoals Catherine en ik kunnen onmogelijk 8.000 verschillende ziekten in ons hoofd houden. Dat is de kracht van AI.”
Alan Beggs, directeur van het Manton Center for Orphan Disease Research
Prospectieve multicenterstudies moeten LLM-ondersteunde heranalyse vergelijken met de standaardpraktijk op diagnostische opbrengst, tijd tot een kandidaat, inspanning van clinici, belasting door fout-positieven, kosten en effecten op de zorg. Prompts met versiebeheer, referentiecontroles, auditlogs en gekalibreerde onzekerheid zijn belangrijk voor reproduceerbaarheid en veiligheid. Zulke studies zouden nog steeds gekwalificeerde clinici vereisen om bewijs te beoordelen, passende tests aan te vragen en elke diagnose- of behandelbeslissing te nemen.
In deze studie werd OpenAI o3 voor diepgaand onderzoek gebruikt. Nieuwere modellen voor algemeen gebruik kunnen meer wetenschappelijk materiaal doorzoeken en synthetiseren, terwijl speciaal gebouwde systemen zoals GPT‑Rosalind zijn ontworpen voor dieper levenswetenschappelijk werk, waaronder varianteffecten op eiwitstructuur en -functie. Die mogelijkheden zijn hier niet getest en vereisen eigen evaluaties en toegangscontroles.
Hoewel OpenAI dit eerste onderzoek heeft ondersteund, zal het Manton Center de volgende fase van het werk leiden met een subsidie van de OpenAI Foundation. De subsidie ondersteunt de bredere inspanning van het Center om een platformonafhankelijke, goedkope genetische AI-copilot te ontwikkelen die klinische teams helpt gevallen van zeldzame ziekten sneller en consistenter te analyseren.
De onderzoeksmogelijkheid op langere termijn is te verkennen of door experts geleide, AI-ondersteunde heranalyse kan helpen het wetenschappelijke inzicht gelijke tred te laten houden met ontdekkingen. De belofte is niet dat AI de diagnose van een arts vervangt, maar dat zorgvuldig geëvalueerde onderzoekstools specialisten kunnen helpen bewijs te vinden dat nader onderzoek verdient. Voor duizenden gezinnen hoeven de onbeantwoorde vragen van vandaag niet voor altijd onbeantwoord te blijven.
- 2026


