18. juni 2026

Anvendt AI

Bruker AI til å hjelpe leger med å diagnostisere sjeldne genetiske sykdommer hos barn

I en NEJM AI-studie brukte eksperter en OpenAI-resonneringsmodell til å nyanalysere 376 tidligere uløste tilfeller og finne spor til 18 diagnoser.

Les studiesammendraget hos NEJM AI

Laster inn …

Selv med genomsekvensering får mange mennesker med sjeldne sykdommer aldri en tydelig genetisk diagnose. Omtrent halvparten forblir udiagnostisert etter omfattende testing og spesialistvurdering. De medisinske dataene deres kan inneholde spor, men å finne dem kan kreve at man går gjennom tusenvis til millioner av mulige genetiske varianter, fragmenterte pasientjournaler og raskt skiftende vitenskapelig litteratur.

Etter hvert som nye gen-sykdom-sammenhenger, kasuistikker og klassifiseringsgrunnlag akkumuleres, kan uløste tilfeller bli mulige å tolke på nytt.

Forskere fra Boston Children’s Hospitals Manton Center for Orphan Disease Research, Harvard University og OpenAI brukte resonneringsmodellen OpenAI o3 Deep Research til å analysere avidentifisert klinisk og genomisk informasjon fra 376 tidligere analyserte tilfeller som fortsatt var uløste. Modellen avdekket underbygde kandidatforklaringer som forskere og klinikere kunne vurdere. Etter ekspertvurdering, ytterligere testing og klinisk bekreftelse stilte leger diagnoser i 18 tilfeller – et ekstra diagnostisk utbytte på 4,8 % etter tidligere analyse fra spesialister. Studien ble publisert 18. juni 2026 i NEJM AI og viser hvordan en AI-assistert forskningsarbeidsflyt kan hjelpe eksperter med å finne spor når de går gjennom noen av de vanskeligste tilfellene på nytt.

Mange av disse tilfellene hadde unngått avklaring gjennom flere år med ekspertanalyse. I denne studien hjalp OpenAI o3 Deep Research forskerne med å identifisere spor som senere ble vurdert gjennom etablerte kliniske prosesser. Det tyder på at ekspertledet periodisk nyanalyse kan bli mer skalerbar etter hvert som kunnskapen utvikler seg. Modellen diagnostiserte ingen pasienter og tok ingen kliniske beslutninger. Den produserte underbygde hypoteser som spesialister kunne vurdere og, der det var relevant, undersøke gjennom ytterligere testing og bekrefte i et klinisk laboratorium.

Hvorfor et gammelt tilfelle kan romme et nytt svar

En uavklart genetisk test er ikke alltid et endelig funn. Beskrivelser av pasientens fenotype, testresultater og familiehistorie kan være spredt på databaser som bruker ulike identifikatorer, formater og vokabularer. Det er vanskelig å koble disse journalene sammen, så selv spesialister kan overse en diagnose. Eksperter kan også sekvensere et barns genom før et relevant gen eller variantene av det er blitt knyttet til sykdom. Etter hvert som vitenskapelig kunnskap utvikler seg, kan de samme dataene gi svar som tidligere var umulige å avdekke.

Nyanalyse av sjeldne sykdommer er både et vitenskapelig problem og et vedlikeholdsproblem. Pasientens genom kan forbli det samme, men evidensen rundt det endrer seg hele tiden: forskere kobler nye gener og varianter til sykdom, laboratorier omklassifiserer gamle varianter, og kasusdatabaser og artikler samler nye observasjoner. Hver oppdatering kan gjøre et gammelt, uavklart tilfelle verdt å se på på nytt, slik at mange institusjoner arver et voksende etterslep av genomer som må holdes synkronisert med en kunnskapsbase i bevegelse.

I denne studien utformet forskerne arbeidsflyten slik at modellen fungerte som et forklaringsorientert resonneringslag oppå eksisterende genomiske pipelines. I stedet for bare å returnere et rangert gen ble den bedt om å koble kliniske trekk, arvemønster, variantevidens og vitenskapelig litteratur til en begrunnelse som en menneskelig gransker kunne undersøke nærmere.

Slik fungerte nyanalysen

For hvert tilfelle satte teamet sammen en avidentifisert pakke med standardiserte Human Phenotype Ontology-termer som beskrev pasientens kliniske bilde, enkelte klinikernotater og eventuell beskrivende klinisk diagnose, metadata som alder og kjønn, samt en filtrert varianttabell. Tabellen fanget opp hver variants sjeldenhet, den predikerte effekten på det kodede proteinet, ClinVar-klassifisering og signalkvalitet på tvers av tilgjengelige familiemedlemmer. De fleste tilfellene inkluderte data fra barnet og begge biologiske foreldre.

Teamet ba modellen foreslå den mest plausible molekylære forklaringen og vise arbeidet sitt. Deretter vurderte forskerne resultatene med det samme ACMG/AMP-rammeverket som kliniske laboratorier bruker til å klassifisere genetiske varianter. Minst to teammedlemmer vurderte hver kandidat, uenigheter ble løst ved konsensus, og et modellresultat ble aldri behandlet som en diagnose. Et funn telte som en diagnose først etter at kvalifiserte eksperter hadde vurdert evidensen, varianten var klassifisert som patogen eller sannsynlig patogen, et CLIA-sertifisert laboratorium hadde bekreftet den, og det kliniske teamet hadde gitt resultatet tilbake til familien.

Før teamet analyserte uløste tilfeller, finjusterte de arbeidsflyten på tilfeller med etablerte diagnoser. I duplikatkjøringer fant den riktig gen og variant i 48 av 51 tilfeller som omfattet en rekke sjeldne tilstander. I et sett med 57 nevromuskulære tilfeller returnerte arbeidsflyten riktig diagnose i duplikatkjøringer for 45 av tilfellene. I et sett med langlesningsgenomer fra 15 tilfeller oppga den riktig gen i hvert tilfelle og begge sykdomsfremkallende alleler i 12 tilfeller. Disse evalueringene bidro til prompt-utvikling og viste hvor ekspertvurdering fortsatt var avgjørende.

Modellens egenrapporterte konfidensskårer samsvarte med riktige diagnoser i disse tidligere løste tilfellene: gjennomsnittlig minimumsskår var 85,6 for konsekvent riktige kall og 42,1 for feilaktige eller ukjente kall. Skårene var ikke kalibrerte sannsynligheter, og teamet brukte dem ikke som erstatning for evidens eller klinisk vurdering. Men de var nyttige for å hjelpe ekspertgranskerne med å fokusere på de mest lovende kandidatdiagnosene.

Arbeidsflytdiagram med tittelen «Menneskestyrt AI-arbeidsflyt for genomisk nyanalyse av sjeldne sykdommer», som viser avidentifiserte pasientdata gjennom menneskelige beslutninger, LLM-basert evidenssyntese, ekspertvurdering, testing, klinisk bekreftelse og tilbakeføring av resultater til familien.

Dette fant forskerne

Teamet brukte deretter arbeidsflyten på fire grupper av tidligere uløste tilfeller: barn med nevroutviklingsforstyrrelser, personer med sjelden nevromuskulær sykdom, barn og unge med tidlig psykose og tilfeller av plutselig uventet død hos barn. Dette var ikke nye tilfeller som ventet på en første vurdering. Mange var allerede undersøkt av flere kommersielle eller institusjonelle analysepipelines og diskutert av tverrfaglige team.

Resultater etter kohort

Kohort	Tilfeller	Diagnoser avdekket	Utbytte
Nevroutvikling	100	10	10,0 %
Nevromuskulær sykdom	61	4	6,6 %
Plutselig uventet død hos barn	200	2	1,0 %
Tidlig psykose	15	2	13,3 %
Totalt	376	18	4,8 %

Kohorten med tidlig psykose var liten, så prosentandelen har et bredt konfidensintervall. Utbyttet gjenspeiler også hvor sannsynlig det var at hver kohort hadde en enkeltgenforklaring.

Etter at modellen hadde avdekket kandidater og eksperter hadde fullført vurdering og klinisk bekreftelse, stilte leger diagnoser i 4,8 % av tilfellene. Denne raten er beskjeden, men betydningsfull i denne gruppen fordi tidligere ekspertvurderinger ikke hadde løst tilfellene. Tilsvarende nyanalysestudier rapporterer ensifrede gevinster i grundig vurderte tilfeller; høyere utbytte kommer vanligvis fra studier som omfatter nye tilfeller eller velkjente lidelser som venter på genetisk bekreftelse.

Av de 18 diagnosene var 7 gjenoppdagelser: diagnoser som var etablert utenfor den lokale forskningsarbeidsflyten, men som manglet i journalen teamet gjennomgikk. I flere tilfeller var variantene allerede oppført som patogene eller sannsynlig patogene i offentlige databaser, noe som understreker den operative utfordringen ved å sammenstille informasjon på tvers av datakilder.

Demonstrerer fleksibilitet i identifisering av varianter

I ett tilfelle med tidlig psykose utledet modellen en strukturell hendelse i genomet som ikke var oppført i inndataene. Den koblet en serie kall av lav kvalitet på kromosom 22 til barnets hjerte-, immun-, nevroutviklings- og psykiatriske trekk, og fremsatte deretter en hypotese om en 22q11.2-delesjon forbundet med DiGeorges syndrom. Denne antatte varianten ble bekreftet med oppfølgende genomsekvensering.

Selv om prompten ba om én monogen årsak, avdekket modellen noen ganger to gener som bedre forklarte et komplekst sykdomsbilde. Varianter i LAMA2 og FOXP1 bidro sammen til å forklare muskel- og nevroutviklingstrekk i ett tilfelle; et annet hadde en tidligere ukjent digenisk forklaring som involverte TTN og SRPK3.

Produserer en testbar, biologisk sammenhengende hypotese

I tillegg til diagnoser identifiserte modellen også en mulig ny mekanistisk forklaring på en tilstand kalt vitiligo. I ett nevroutviklingstilfelle fremhevet modellen en delesjon på 11 aminosyrer i S1PR1 hos en person med vitiligo. S1PR1 koder for en celleoverflatereseptor som er involvert i signalering, immuncellebevegelse og vevsbiologi. Modellen integrerte evidens som tydet på at delesjonen kunne endre reseptorstruktur og signalering på måter som reduserer pigmentproduksjon, samtidig som den hjelper immunceller med å vedvare i huden.

Den foreslåtte sammenhengen mellom S1PR1 og vitiligo krever ytterligere eksperimentell validering, men den illustrerer en viktig rolle for AI i å omsette spredte funn fra strukturbiologi, immunologi og klinisk genetikk til konkrete, testbare hypoteser.

Teamet så også mulig fenotypeutvidelse i den nevromuskulære kohorten. Skadelige varianter i HSPB8 og CDK13 samsvarte ikke perfekt med genenes best kjente lidelser, noe som tyder på et bredere klinisk spekter som flere tilfeller og laboratoriearbeid må teste.

Kasusstudie: Kyras diagnose etter nesten to tiår

Det begynte på karatetrening, da moren til Kyra la merke til at den ni år gamle datteren ikke gikk like dypt ned i stillingene som før. Kyra ble også tregere på fotballtrening og gikk og løpte på tå. Barnelegen hennes klarte ikke å finne årsaken til muskelsvakheten, så han henviste henne til en spesialist. Deretter fulgte en nesten 20 år lang reise gjennom tester, behandlinger og konsultasjoner uten en diagnose.

Kyras tilfelle var én av de fire diagnosene som ble avdekket i den nevromuskulære kohorten. Teamet knyttet tilstanden hennes til en rammeskiftvariant i HSPB8 og diagnostiserte en form for myofibrillær myopati, der unormale proteinstrukturer hoper seg opp i muskelfibre og bidrar til svakhet. En genetisk veileder fra Manton Center ringte Kyra omtrent en uke før 28-årsdagen hennes.

Da hadde Kyra brukt store deler av livet på å tilpasse seg sykdommen. Hun var avhengig av respirator og satt i rullestol da hun var 13, selv om tilstanden hennes siden har stabilisert seg. Selv om Kyras form for myofibrillær myopati er så sjelden at lite er kjent om det langsiktige forløpet, har diagnosen gitt en viss avklaring.

Begrensninger

Denne studien viser at en generell resonneringsmodell kan bidra til retrospektiv genomisk nyanalyse ved å kombinere fenotype, arv, variantannotasjoner, mønstre i datakvalitet og vitenskapelig litteratur til hypoteser som kan vurderes. Den viser også hvorfor periodisk nyanalyse er viktig: Noen svar dukker først opp etter at kunnskapen har utviklet seg, eller fragmenterte journaler er blitt samlet.

Denne forskningen er ikke evidens for at pasienter, klinikere eller kunder bør bruke OpenAI-modeller til å diagnostisere sykdom eller ta medisinske beslutninger. Den beskriver eller anbefaler heller ikke en tiltenkt kundebruk av OpenAI o3 Deep Research, ChatGPT eller noe annet OpenAI-produkt til diagnostikk. Modellen diagnostiserte ingen deltakere; leger og andre kvalifiserte kliniske eksperter stilte alle diagnoser gjennom etablerte prosesser for vurdering, testing og klinisk bekreftelse.

Studien var retrospektiv, kohortene var heterogene, og granskerne var ikke blindet for modellens konfidens. Forskerne målte ikke spart tid, kostnader, klinikerinnsats, arbeidsbelastning fra falske positive eller endringer i behandling. De evaluerte heller ikke systematisk andre former for genetisk variasjon, som strukturelle varianter, repetisjonsekspansjoner, dype introniske endringer eller mosaikktilstand.

LLM-er kan feiltolke kontekst eller produsere plausible forklaringer som ikke holder ved nærmere undersøkelse. Derfor gikk hvert resultat gjennom menneskelig vurdering og klinisk bekreftelse. Modellen utvidet søket og fokuserte den påfølgende menneskeledede analysen; den avgjorde ikke hvilken informasjon eller diagnose som skulle gis til en familie.

Studien brukte avidentifisert informasjon, uten at beskyttet helseopplysning ble brukt eller overført utenfor godkjente miljøer. Bredere klinisk bruk vil kreve den samme oppmerksomheten på personvern, sikkerhet, etterprøvbarhet og lokal regulering som gjelder for all medisinsk behandling. Tilgang til modellen erstatter ikke sekvenseringsinfrastruktur, genetisk veiledning, bekreftende testing eller spesialistvurdering.

Abstrakt blå gradientbakgrunn med myke overganger mellom lyseblå, cyan og dypblå toner, som skaper en jevn, uskarp effekt.

«Flaskehalsen er tid. En ekspert kan bare bruke en viss del av dagen sin på én bestemt person.»

Dr. Catherine Brownstein, Boston Children’s Hospitals Manton Center for Orphan Disease Research

«Forskere som Catherine og jeg kan umulig holde 8000 forskjellige sykdommer i hodet. Det er kraften i AI.»

Alan Beggs, direktør for Manton Center for Orphan Disease Research

Hva skjer videre

Prospektive multisenterstudier bør sammenligne LLM-assistert nyanalyse med standard praksis når det gjelder diagnostisk utbytte, tid til en kandidat, klinikerinnsats, falsk-positiv belastning, kostnad og effekter på behandling. Versjonerte prompter, referansesjekker, revisjonslogger og kalibrert usikkerhet vil være viktig for reproduserbarhet og sikkerhet. Slike studier vil fortsatt kreve kvalifiserte klinikere til å vurdere evidens, bestille egnede tester og ta enhver diagnose- eller behandlingsbeslutning.

Denne studien brukte OpenAI o3 Deep Research. Nyere generelle modeller kan søke i og sammenstille mer vitenskapelig materiale, mens spesialbygde systemer som GPT‑Rosalind er utformet for dypere arbeid innen livsvitenskap, blant annet varianteffekter på proteinstruktur og -funksjon. Disse egenskapene ble ikke testet her og vil kreve egne evalueringer og tilgangskontroller.

Selv om OpenAI bidro til å støtte denne innledende forskningsstudien, vil Manton Center lede neste fase av arbeidet gjennom et stipend fra OpenAI Foundation. Stipendet vil støtte senterets bredere arbeid med å utvikle en plattform-agnostisk, rimelig genetikk-AI-kopilot som hjelper kliniske team med å analysere tilfeller av sjeldne sykdommer raskere og mer konsekvent.

Den langsiktige forskningsmuligheten er å undersøke om ekspertledet AI-assistert nyanalyse kan hjelpe den vitenskapelige forståelsen med å holde tritt med nye oppdagelser. Løftet er ikke at AI erstatter legens diagnose, men at nøye evaluerte forskningsverktøy kan hjelpe spesialister med å identifisere evidens som er verdt å undersøke. For tusenvis av familier trenger ikke dagens ubesvarte spørsmål å forbli ubesvart for alltid.

2026

Forfatter

OpenAI

Les videre

Se alle

A near-autonomous AI chemist improves a challenging reaction

En nær-autonom AI-kjemiker forbedrer en utfordrende reaksjon i legemiddelkjemi

Research17. juni 2026

Vi introduserer nye funksjoner i GPT-Rosalind

Produkt3. juni 2026

GPT-5 reduserer kostnadene for cellefri proteinsyntese

Research5. feb. 2026