Gå til hovedindhold
OpenAI

18. juni 2026

Anvendt AI

AI skal hjælpe læger med at diagnosticere sjældne genetiske sygdomme hos børn

I et NEJM AI-studie brugte eksperter en OpenAI-ræsonneringsmodel til at reanalysere 376 tidligere uløste tilfælde og finde spor til 18 diagnoser.

Indlæser ...

Selv med genomsekventering får mange mennesker med sjældne sygdomme aldrig en klar genetisk diagnose. Omtrent halvdelen forbliver udiagnosticerede efter omfattende test og specialistgennemgang. Deres medicinske data kan rumme spor, men at finde dem kan kræve gennemgang af tusinder til millioner af mulige genetiske varianter, fragmenterede kliniske journaler og videnskabelig litteratur i hastig forandring.

Efterhånden som nye gen-sygdomsrelationer, kasuistikker og klassifikationsevidens hober sig op, kan uløste tilfælde blive mulige at fortolke på ny.

Forskere fra Boston Children’s Hospitals Manton Center for Orphan Disease Research, Harvard University og OpenAI brugte OpenAI o3 dybdegående research-ræsonneringsmodellen til at analysere afidentificerede kliniske og genomiske oplysninger fra 376 tidligere analyserede tilfælde, der fortsat var uløste. Modellen fremhævede evidensunderbyggede kandidatforklaringer, som forskere og klinikere kunne gennemgå. Efter ekspertgennemgang, yderligere test og klinisk bekræftelse stillede læger diagnoser i 18 tilfælde — et ekstra diagnostisk udbytte på 4,8 % efter tidligere specialistanalyse. Studiet blev offentliggjort den 18. juni 2026 i NEJM AI og viser, hvordan en AI-assisteret forskningsarbejdsgang kan hjælpe eksperter med at finde spor, når nogle af de vanskeligste tilfælde vurderes på ny.

Mange af disse tilfælde havde undgået afklaring trods flere års ekspertanalyse. I dette studie hjalp OpenAI o3 dybdegående research forskere med at identificere spor, som senere blev vurderet gennem etablerede kliniske processer, hvilket tyder på, at ekspertledet periodisk reanalyse kan blive mere skalerbar, efterhånden som viden udvikler sig. Modellen diagnosticerede ingen patienter og traf ingen kliniske beslutninger. Den producerede evidensunderbyggede hypoteser, som specialister kunne gennemgå og, hvor relevant, undersøge med yderligere test og bekræfte i et klinisk laboratorium.

Hvorfor en gammel sag kan indeholde et nyt svar

En inkonklusiv genetisk test er ikke altid et permanent fund. Beskrivelser af en patients fænotype, testresultater og familiehistorik kan være fordelt på databaser, der bruger forskellige identifikatorer, formater og ordforråd. Det er vanskeligt at forbinde disse oplysninger, så selv specialister kan overse en diagnose. Eksperter kan også sekventere et barns genom, før et relevant gen eller dets varianter er blevet knyttet til sygdom. Efterhånden som den videnskabelige viden udvikler sig, kan de samme data afsløre svar, som tidligere var umulige at finde.

Reanalyse af sjældne sygdomme er både et videnskabeligt problem og et vedligeholdelsesproblem. Patientens genom kan forblive det samme, men evidensen omkring det ændrer sig hele tiden: Forskere knytter nye gener og varianter til sygdom, laboratorier omklassificerer gamle varianter, og case-databaser og artikler samler nye observationer. Hver opdatering kan gøre det relevant at genbesøge et gammelt inkonklusivt tilfælde, så mange institutioner arver en voksende pukkel af genomer, der skal holdes ajour med et vidensgrundlag i bevægelse.

I dette studie udformede forskerne arbejdsgangen, så modellen fungerede som et forklaringsorienteret ræsonneringslag oven på eksisterende genomiske pipelines. I stedet for kun at returnere et rangeret gen blev den bedt om at forbinde de kliniske træk, nedarvningsmønstret, variantevidensen og den videnskabelige litteratur i en begrundelse, som en menneskelig bedømmer kunne efterprøve. 

Sådan fungerede reanalysen

For hvert tilfælde samlede teamet en afidentificeret pakke med standardiserede Human Phenotype Ontology-termer til at beskrive patientens kliniske præsentation, enkelte klinikernoter og eventuel beskrivende klinisk diagnose, metadata som alder og køn samt en filtreret varianttabel. Tabellen registrerede hver variants sjældenhed, dens forudsagte effekt på det kodede protein, ClinVar-klassifikation og signalkvalitet på tværs af tilgængelige familiemedlemmer. De fleste tilfælde omfattede data fra barnet og begge biologiske forældre.

Teamet bad modellen foreslå den mest sandsynlige molekylære forklaring og vise sit ræsonnement. Forskerne gennemgik derefter outputtene med den samme ACMG/AMP-ramme, som kliniske laboratorier bruger til at klassificere genetiske varianter. Mindst to teammedlemmer gennemgik hver kandidat, uenigheder blev løst ved konsensus, og et modeloutput blev aldrig behandlet som en diagnose. Et fund blev kun talt som en diagnose, efter at kvalificerede eksperter havde gennemgået evidensen, varianten var klassificeret som patogen eller sandsynligvis patogen, et CLIA-certificeret laboratorium havde bekræftet den, og det kliniske team havde givet resultatet tilbage til familien.

Før analysen af uløste tilfælde finjusterede teamet arbejdsgangen på tilfælde med etablerede diagnoser. Den fandt det korrekte gen og den korrekte variant i dobbeltkørsler for 48 ud af 51 tilfælde, der omfattede en række sjældne tilstande. I et sæt på 57 neuromuskulære tilfælde returnerede arbejdsgangen den korrekte diagnose i dobbeltkørsler for 45 af tilfældene. I et sæt på 15 long-read-genomer navngav den det korrekte gen i hvert tilfælde og begge sygdomsfremkaldende alleler i 12 tilfælde. Disse evalueringer hjalp med at udvikle prompten og viste, hvor ekspertgennemgang fortsat var afgørende.

Modellens selvrapporterede konfidensscorer fulgte de korrekte diagnoser i disse tidligere løste tilfælde: Den gennemsnitlige minimumsscore var 85,6 for konsekvent korrekte kald og 42,1 for forkerte eller ukendte kald. Scorerne var ikke kalibrerede sandsynligheder, og teamet brugte dem ikke som erstatning for evidens eller klinisk vurdering. Men de var nyttige til at lede ekspertbedømmernes opmærksomhed mod de mest lovende kandidatdiagnoser. 

Arbejdsgangsdiagram med titlen „Menneskestyret AI-arbejdsgang til genomisk reanalyse af sjældne sygdomme“, der viser afidentificerede patientdata gennem menneskelige beslutninger, LLM-evidenssyntese, ekspertgennemgang, test, klinisk bekræftelse og tilbagelevering af resultater til familien.

Hvad forskerne fandt

Teamet anvendte derefter arbejdsgangen på fire grupper af tidligere uløste tilfælde: børn med neuroudviklingsmæssige tilstande, personer med sjælden neuromuskulær sygdom, børn og unge med tidlig psykose samt tilfælde af pludselig uventet død hos børn. Det var ikke nye tilfælde, der ventede på en første gennemgang. Mange var allerede blevet undersøgt af flere kommercielle eller institutionelle pipelines og drøftet af tværfaglige teams.

Resultater efter kohorte

Kohorte

Tilfælde

Diagnoser fundet

Udbytte

Neuroudviklingsforstyrrelser

100

10

10,0 %

Neuromuskulær sygdom

61

4

6,6 %

Pludselig uventet død hos børn

200

2

1,0 %

Tidlig psykose

15

2

13,3 %

I alt

376

18

4,8 %

Kohorten med tidlig psykose var lille, så procentandelen har et bredt konfidensinterval. Udbyttet afspejler også, hvor sandsynligt det var, at hver kohorte havde en enkeltgenforklaring.

Efter at modellen havde fremhævet kandidater, og eksperter havde gennemført gennemgang og klinisk bekræftelse, stillede læger diagnoser i 4,8 % af tilfældene. Den andel er beskeden, men meningsfuld i denne population, fordi tidligere ekspertgennemgange ikke havde løst tilfældene. Lignende reanalysestudier rapporterer encifrede gevinster i grundigt gennemgåede tilfælde; højere udbytter ses som regel i studier med nye tilfælde eller velkendte sygdomme, der afventer genetisk bekræftelse.

Af de 18 diagnoser var 7 genopdagelser: diagnoser, der var etableret uden for den lokale forskningsarbejdsgang, men manglede i det materiale, teamet gennemgik. I flere tilfælde var varianterne allerede angivet som patogene eller sandsynligvis patogene i offentlige databaser, hvilket understreger den driftsmæssige udfordring ved at syntetisere information på tværs af datakilder.

Demonstrerer fleksibilitet ved identifikation af varianter

I et tilfælde med tidlig psykose udledte modellen en strukturel hændelse i genomet, som ikke var angivet i inputdataene. Den forbandt en række kald af lav kvalitet på kromosom 22 med barnets hjerte-, immun-, neuroudviklingsmæssige og psykiatriske træk og opstillede derefter en hypotese om en 22q11.2-deletion forbundet med DiGeorge-syndrom. Denne hypotetiske variant blev bekræftet med opfølgende genomsekventering.

Selvom prompten bad om én monogen årsag, fremhævede modellen nogle gange to gener, der bedre forklarede et komplekst sygdomsbillede. Varianter i LAMA2 og FOXP1 bidrog tilsammen til at forklare muskelmæssige og neuroudviklingsmæssige træk i ét tilfælde; et andet havde en tidligere uerkendt digen forklaring, der involverede TTN og SRPK3.

Udarbejdelse af en testbar, biologisk sammenhængende hypotese

Ud over diagnoser identificerede modellen også en mulig ny mekanistisk forklaring på en tilstand kaldet vitiligo. I et neurodevelopmentalt tilfælde fremhævede modellen en deletion på 11 aminosyrer i S1PR1 hos en person med vitiligo. S1PR1 koder for en celleoverfladereceptor, der er involveret i signalering, immuncellers bevægelse og vævsbiologi. Modellen integrerede evidens, der tydede på, at deletionen kunne ændre receptorens struktur og signalering på måder, der reducerer pigmentproduktion og samtidig hjælper immunceller med at blive i huden.

Den foreslåede S1PR1-vitiligo-relation kræver yderligere eksperimentel validering, men illustrerer en stærk rolle for AI i at omsætte spredte fund fra strukturbiologi, immunologi og klinisk genetik til konkrete, testbare hypoteser.

Teamet så også mulig fænotypeudvidelse i den neuromuskulære kohorte. Skadelige varianter i HSPB8 og CDK13 matchede ikke perfekt genernes bedst kendte sygdomme, hvilket tyder på et bredere klinisk spektrum, som flere tilfælde og laboratoriearbejde skal teste.

Casestudie: Kyras diagnose efter næsten to årtier

Det begyndte til karate, da Kyras mor lagde mærke til, at hendes 9-årige datter ikke længere kom lige så langt ned i sine stande som før. Kyra blev også langsommere til fodboldtræning og gik og løb oppe på tæerne. Hendes børnelæge kunne ikke finde årsagen til hendes muskelsvaghed, så han henviste hende til en specialist. Det blev begyndelsen på en næsten 20 år lang rejse gennem test, behandlinger og konsultationer uden en diagnose.

Kyras tilfælde var en af de fire diagnoser, der blev fundet i den neuromuskulære kohorte. Teamet knyttede hendes tilstand til en frameshift-variant i HSPB8 og diagnosticerede en form for myofibrillær myopati, hvor unormale proteinstrukturer ophobes i muskelfibre og bidrager til svaghed. En genetisk vejleder fra Manton Center ringede til Kyra omkring en uge før hendes 28-års fødselsdag.

På det tidspunkt havde Kyra brugt en stor del af sit liv på at tilpasse sig sygdommen. Hun var afhængig af respirator og sad i kørestol, da hun var 13, selvom hendes tilstand siden har stabiliseret sig. Selvom Kyras form for myofibrillær myopati er så sjælden, at man ved meget lidt om dens langsigtede forløb, har diagnosen givet en vis afklaring.

Begrænsninger

Dette studie viser, at en generel ræsonneringsmodel kan bidrage til retrospektiv genomisk reanalyse ved at kombinere fænotype, nedarvning, variantannoteringer, datakvalitetsmønstre og videnskabelig litteratur i hypoteser, der kan gennemgås. Det viser også, hvorfor periodisk reanalyse er vigtig: Nogle svar dukker først op, efter at viden er udviklet, eller fragmenterede journaler er blevet samlet.

Denne forskning er ikke evidens for, at patienter, klinikere eller kunder bør bruge OpenAI-modeller til at diagnosticere sygdom eller træffe medicinske beslutninger. Den beskriver eller anbefaler ikke en tilsigtet kundebrug af OpenAI o3 dybdegående research, ChatGPT eller noget andet OpenAI-produkt til diagnose. Modellen diagnosticerede ingen deltagere; læger og andre kvalificerede kliniske eksperter stillede alle diagnoser gennem etablerede processer for gennemgang, test og klinisk bekræftelse.

Studiet var retrospektivt, kohorterne var heterogene, og bedømmerne var ikke blindet for modellens konfidens. Forskerne målte ikke sparet tid, omkostninger, klinikerindsats, arbejdsbyrde fra falsk positive eller ændringer i behandling. De evaluerede heller ikke systematisk andre former for genetisk variation, såsom strukturelle varianter, repeat-ekspansioner, dybt introniske ændringer eller mosaicisme.

Store sprogmodeller kan misforstå kontekst eller producere plausible forklaringer, der ikke holder ved nærmere eftersyn. Derfor gennemgik hvert resultat menneskelig vurdering og klinisk bekræftelse. Modellen udvidede søgningen og fokuserede den efterfølgende menneskeledede analyse; den besluttede ikke, hvilke oplysninger eller hvilken diagnose der skulle gives tilbage til en familie.

Dette studie brugte afidentificerede oplysninger, uden at beskyttede helbredsoplysninger blev anvendt eller overført uden for godkendte miljøer. Bredere klinisk udrulning vil kræve samme fokus på privatliv, sikkerhed, auditérbarhed og lokal regulering, som gælder for al medicinsk behandling. Adgang til modeller erstatter ikke sekventeringsinfrastruktur, genetisk rådgivning, bekræftende test eller specialistvurdering.

Abstrakt blå gradientbaggrund med bløde overgange mellem lyseblå, cyan og dybblå toner, der skaber en jævn, sløret effekt.

„Flaskehalsen er tid. En ekspert kan kun bruge en vis del af sin dag på én bestemt person.“

Dr. Catherine Brownstein, Boston Children’s Hospitals Manton Center for Orphan Disease Research

Abstrakt blå gradientbaggrund med bløde overgange mellem lyseblå, cyan og dybblå toner, der skaber en jævn, sløret effekt.

„Forskere som Catherine og jeg kan umuligt holde 8.000 forskellige sygdomme i hovedet. Det er styrken ved AI.“

Alan Beggs, direktør for Manton Center for Orphan Disease Research

Hvad sker der nu

Prospektive multicenterstudier bør sammenligne LLM-assisteret reanalyse med standardpraksis med hensyn til diagnostisk udbytte, tid til en kandidat, klinikerindsats, falsk-positiv byrde, omkostninger og effekter på behandling. Versionsstyrede prompts, referencekontrol, auditlogs og kalibreret usikkerhed bliver vigtige for reproducerbarhed og sikkerhed. Sådanne studier vil stadig kræve kvalificerede klinikere til at vurdere evidens, bestille relevante test og stille enhver diagnose eller træffe enhver behandlingsbeslutning.

Dette studie brugte OpenAI o3 dybdegående research. Nyere generelle modeller kan søge i og sammenfatte mere videnskabeligt materiale, mens specialbyggede systemer som GPT‑Rosalind er designet til dybere arbejde inden for biovidenskab, herunder variantpåvirkninger på proteiners struktur og funktion. Disse kapaciteter blev ikke testet her og kræver egne evalueringer og adgangskontroller.

Mens OpenAI hjalp med at støtte dette indledende forskningsstudie, vil Manton Center lede næste fase af arbejdet gennem en bevilling fra OpenAI Foundation. Bevillingen vil støtte centerets bredere indsats for at udvikle en platformsagnostisk, billig genetisk AI-copilot, der hjælper kliniske teams med at analysere tilfælde af sjældne sygdomme hurtigere og mere ensartet.

Den langsigtede forskningsmulighed er at undersøge, om ekspertledet AI-assisteret reanalyse kan hjælpe den videnskabelige forståelse med at holde trit med opdagelserne. Løftet er ikke, at AI erstatter en læges diagnose, men at omhyggeligt evaluerede forskningsværktøjer kan hjælpe specialister med at identificere evidens, der er værd at undersøge. For tusindvis af familier behøver dagens ubesvarede spørgsmål ikke at forblive ubesvarede for altid.

  • 2026

Skrevet af

OpenAI