Gå direkt till huvudinnehåll
OpenAI

18 juni 2026

Tillämpad AI

AI kan hjälpa läkare diagnostisera sällsynta genetiska sjukdomar hos barn

I en NEJM AI-studie använde experter en OpenAI-resonemangsmodell för att analysera om 376 tidigare olösta fall och hitta ledtrådar till 18 diagnoser.

Laddar …

Även med genomsekvensering får många personer med sällsynta sjukdomar aldrig en tydlig genetisk diagnos. Ungefär hälften förblir odiagnostiserade efter omfattande testning och granskning av specialister. Deras medicinska data kan innehålla ledtrådar, men att hitta dem kan kräva genomgång av tusentals till miljontals möjliga genetiska varianter, fragmenterade patientjournaler och en snabbt föränderlig vetenskaplig litteratur.

När nya samband mellan gener och sjukdomar, fallrapporter och klassificeringsunderlag samlas kan olösta fall bli möjliga att tolka på nytt.

Forskare från Boston Children’s Hospitals Manton Center for Orphan Disease Research, Harvard University och OpenAI använde resonemangsmodellen OpenAI o3 Djup forskning för att analysera avidentifierad klinisk och genomisk information från 376 tidigare analyserade fall som fortfarande var olösta. Modellen tog fram evidenskopplade kandidatförklaringar som forskare och kliniker kunde granska. Efter expertgranskning, ytterligare testning och klinisk bekräftelse fastställde läkare diagnoser i 18 fall – ett ytterligare diagnostiskt utbyte på 4,8 % efter tidigare analys av specialister. Studien publicerades den 18 juni 2026 i NEJM AI och visar hur ett AI-stött forskningsflöde kan hjälpa experter att skapa ledtrådar när de återbesöker några av de svåraste fallen.

Många av dessa fall hade undgått expertanalys i flera år. I den här studien hjälpte OpenAI o3 Djup forskning forskare att identifiera ledtrådar som senare bedömdes genom etablerade kliniska processer, vilket tyder på att expertledd periodisk nyanalys kan bli mer skalbar i takt med att kunskapen utvecklas. Modellen diagnostiserade ingen patient och fattade inga kliniska beslut. Den tog fram evidenskopplade hypoteser som specialister kunde granska och, när det var lämpligt, undersöka med ytterligare testning och bekräfta i ett kliniskt laboratorium.

Varför ett gammalt fall kan innehålla ett nytt svar

Ett ofullständigt genetiskt testsvar är inte alltid ett permanent fynd. Beskrivningar av en patients fenotyp, testresultat och familjehistoria kan vara utspridda över databaser som använder olika identifierare, format och vokabulärer. Att länka samman dessa journaler är svårt, så även specialister kan missa en diagnos. Experter kan också sekvensera ett barns genom innan en relevant gen eller dess varianter har kopplats till sjukdom. När den vetenskapliga kunskapen går framåt kan samma data avslöja svar som tidigare var omöjliga att hitta.

Nyanalys av sällsynta sjukdomar är både ett vetenskapligt problem och ett underhållsproblem. Patientens genom kan förbli detsamma, men evidensen runt det förändras hela tiden: forskare kopplar nya gener och varianter till sjukdom, laboratorier omklassificerar gamla varianter, och falldatabaser och artiklar samlar nya observationer. Varje uppdatering kan göra ett gammalt oklart fall värt att återbesöka, vilket gör att många institutioner ärver en växande kö av genom som måste hållas synkroniserade med en kunskapsbas i rörelse.

I den här studien utformade forskarna arbetsflödet så att modellen fungerade som ett resonemangslager med förklaringen först, ovanpå befintliga genomiska pipelines. I stället för att bara returnera en rankad gen ombads den att koppla samman kliniska drag, nedärvningsmönster, variantevidens och vetenskaplig litteratur till en motivering som en mänsklig granskare kunde pröva. 

Så fungerade nyanalysen

För varje fall sammanställde teamet ett avidentifierat paket med standardiserade termer från Human Phenotype Ontology för att beskriva patientens kliniska bild, enstaka klinikeranteckningar och eventuell beskrivande klinisk diagnos, metadata som ålder och kön samt en filtrerad varianttabell. Tabellen fångade varje variants sällsynthet, dess förutsagda effekt på det kodade proteinet, ClinVar-klassificering och signalkvalitet hos tillgängliga familjemedlemmar. De flesta fall innehöll data från barnet och båda biologiska föräldrarna.

Teamet bad modellen föreslå den mest sannolika molekylära förklaringen och visa sitt arbete. Därefter granskade forskarna resultaten med samma ACMG/AMP-ramverk som kliniska laboratorier använder för att klassificera genetiska varianter. Minst två teammedlemmar granskade varje kandidat, oenigheter löstes genom konsensus och ett modellresultat behandlades aldrig som en diagnos. Ett fynd räknades som en diagnos först efter att kvalificerade experter hade granskat evidensen, varianten hade klassificerats som patogen eller sannolikt patogen, ett CLIA-certifierat laboratorium hade bekräftat den och det kliniska teamet hade återkopplat resultatet till familjen.

Innan teamet analyserade olösta fall förfinade de arbetsflödet på fall med etablerade diagnoser. Det återfann rätt gen och variant i dubbla körningar för 48 av 51 fall som omfattade en rad sällsynta tillstånd. I en uppsättning med 57 neuromuskulära fall returnerade arbetsflödet rätt diagnos i dubbla körningar för 45 av fallen. I en uppsättning med 15 long-read-genom namngav det rätt gen i varje fall och båda sjukdomsorsakande allelerna i 12 fall. Dessa utvärderingar hjälpte till i utvecklingen av promptar och visade var expertgranskning fortfarande var avgörande.

Modellens självrapporterade konfidenspoäng följde korrekta diagnoser i dessa tidigare lösta fall: det genomsnittliga minimipoänget var 85,6 för konsekvent korrekta calls och 42,1 för felaktiga eller okända calls. Poängen var inte kalibrerade sannolikheter, och teamet använde dem inte som ersättning för evidens eller klinisk bedömning. Men de var användbara för att hjälpa expertgranskarna att fokusera på de mest lovande kandidatdiagnoserna. 

Arbetsflödesdiagram med titeln ”Människostyrt AI-arbetsflöde för genomisk nyanalys av sällsynta sjukdomar”, som visar hur avidentifierade patientdata flödar genom mänskliga beslut, LLM-baserad evidenssyntes, expertgranskning, testning, klinisk bekräftelse och återkoppling av resultat till familjen.

Vad forskarna fann

Teamet tillämpade sedan arbetsflödet på fyra grupper av tidigare olösta fall: barn med neurodevelopmentala tillstånd, personer med sällsynt neuromuskulär sjukdom, barn och ungdomar med tidig psykos samt fall av plötslig oväntad död hos barn. Detta var inte nya fall som väntade på en första granskning. Många hade redan granskats av flera kommersiella eller institutionella pipelines och diskuterats av multidisciplinära team.

Resultat per kohort

Kohort

Fall

Identifierade diagnoser

Diagnostiskt utbyte

Neurodevelopmental

100

10

10,0 %

Neuromuskulär sjukdom

61

4

6,6 %

Plötslig oväntad död hos barn

200

2

1,0 %

Tidig psykos

15

2

13,3 %

Totalt

376

18

4,8 %

Kohorten med tidig psykos var liten, så procenttalet har ett brett konfidensintervall. Utbytet speglar också hur sannolikt det var att varje kohort hade en singelgenförklaring.

Efter att modellen hade lyft fram kandidater och experter slutfört granskning och klinisk bekräftelse fastställde läkare diagnoser i 4,8 % av fallen. Den nivån är blygsam men betydelsefull i den här populationen, eftersom tidigare expertgranskningar inte hade löst fallen. Liknande nyanalysstudier rapporterar ensiffriga förbättringar i kraftigt granskade fall; högre utbyten kommer vanligen från studier som innehåller nya fall eller välkända sjukdomar som väntar på genetisk bekräftelse.

Av de 18 diagnoserna var 7 återupptäckter: diagnoser som fastställts utanför det lokala forskningsflödet men saknades i den journal som teamet granskade. I flera fall var varianterna redan angivna som patogena eller sannolikt patogena i offentliga databaser, vilket belyser den operativa utmaningen i att sammanställa information från olika datakällor.

Visar flexibilitet vid identifiering av varianter

I ett fall med tidig psykos drog modellen slutsatsen att det fanns en strukturell händelse i genomet som inte fanns angiven i indata. Den kopplade en rad lågkvalitativa calls på kromosom 22 till barnets kardiella, immunologiska, neurodevelopmentala och psykiatriska drag, och formulerade sedan hypotesen om en 22q11.2-deletion associerad med DiGeorges syndrom. Denna hypotetiska variant bekräftades med uppföljande genomsekvensering.

Även om prompten bad om en monogen orsak lyfte modellen ibland fram två gener som bättre förklarade en komplex klinisk bild. Varianter i LAMA2 och FOXP1 bidrog tillsammans till att förklara muskulära och neurodevelopmentala drag i ett fall; ett annat hade en tidigare okänd digen förklaring som involverade TTN och SRPK3.

Tar fram en testbar, biologiskt sammanhängande hypotes

Utöver diagnoser identifierade modellen också en möjlig ny mekanistisk förklaring till ett tillstånd som kallas vitiligo. I ett neurodevelopmentalt fall lyfte modellen fram en deletion av 11 aminosyror i S1PR1 hos en person med vitiligo. S1PR1 kodar för en cellytereceptor som är involverad i signalering, immuncellers rörelse och vävnadsbiologi. Modellen integrerade evidens som tydde på att deletionen kunde förändra receptorstruktur och signalering på sätt som minskar pigmentproduktionen samtidigt som den hjälper immunceller att finnas kvar i huden.

Det föreslagna sambandet mellan S1PR1 och vitiligo kräver ytterligare experimentell validering, men det illustrerar en kraftfull roll för AI i att översätta spridda fynd från strukturbiologi, immunologi och klinisk genetik till konkreta, testbara hypoteser.

Teamet såg också möjlig fenotyputvidgning i den neuromuskulära kohorten. Skadliga varianter i HSPB8 och CDK13 matchade inte perfekt genernas mest kända sjukdomar, vilket tyder på ett bredare kliniskt spektrum som fler fall och laboratoriearbete behöver testa.

Fallstudie: Kyras diagnos efter nästan två decennier

Det började på karateträningen, när Kyras mamma märkte att hennes 9-åriga dotter inte gick lika djupt i sina ställningar som tidigare. Kyra blev också långsammare på fotbollsträningen och gick och sprang på tå. Hennes barnläkare kunde inte hitta orsaken till muskelsvagheten och remitterade henne därför till en specialist. Det som följde var en nästan 20 år lång resa genom tester, behandlingar och konsultationer utan diagnos.

Kyras fall var en av de fyra diagnoser som identifierades i den neuromuskulära kohorten. Teamet kopplade hennes tillstånd till en frameshift-variant i HSPB8 och diagnostiserade en form av myofibrillär myopati, där onormala proteinstrukturer ansamlas i muskelfibrer och bidrar till svaghet. En genetisk vägledare från Manton Center ringde Kyra ungefär en vecka före hennes 28-årsdag.

Vid det laget hade Kyra ägnat en stor del av sitt liv åt att anpassa sig till sjukdomen. Hon var beroende av respirator och satt i rullstol när hon var 13, även om hennes tillstånd sedan dess har planat ut. Även om Kyras form av myofibrillär myopati är så sällsynt att lite är känt om dess långsiktiga förlopp har diagnosen gett viss ro.

Begränsningar

Den här studien visar att en generell resonemangsmodell kan bidra till retrospektiv genomisk nyanalys genom att kombinera fenotyp, nedärvning, variantannoteringar, datakvalitetsmönster och vetenskaplig litteratur till granskningsbara hypoteser. Den visar också varför periodisk nyanalys är viktig: vissa svar framträder först när kunskapen går framåt eller fragmenterade journaler förs samman.

Denna forskning är inte belägg för att patienter, kliniker eller kunder bör använda OpenAI-modeller för att diagnostisera sjukdom eller fatta medicinska beslut. Den beskriver eller rekommenderar inte någon avsedd kundanvändning av OpenAI o3 Djup forskning, ChatGPT eller någon annan OpenAI-produkt för diagnos. Modellen diagnostiserade ingen deltagare; läkare och andra kvalificerade kliniska experter ställde varje diagnos genom etablerade processer för granskning, testning och klinisk bekräftelse.

Studien var retrospektiv, kohorterna var heterogena och granskarna var inte blindade för modellens konfidens. Forskarna mätte inte sparad tid, kostnad, klinikers arbetsinsats, arbetsbörda från falskt positiva fynd eller förändringar i vården. De utvärderade inte heller systematiskt andra former av genetisk variation, såsom strukturella varianter, repeat-expansioner, djupintroneriska förändringar eller mosaicism.

Stora språkmodeller kan misstolka sammanhang eller producera rimligt klingande förklaringar som inte håller vid närmare granskning. Därför gick varje resultat igenom mänsklig bedömning och klinisk bekräftelse. Modellen breddade sökningen och fokuserade den efterföljande människoledda analysen; den avgjorde inte vilken information eller diagnos som skulle återkopplas till en familj.

Studien använde avidentifierad information, utan att skyddade hälsouppgifter användes eller överfördes utanför godkända miljöer. Bredare klinisk implementering kräver samma uppmärksamhet på integritet, säkerhet, spårbarhet och lokal reglering som gäller för all medicinsk vård. Tillgång till modeller ersätter inte sekvenseringsinfrastruktur, genetisk vägledning, bekräftande testning eller specialistbedömning.

Abstrakt blå gradientbakgrund med mjuka övergångar mellan ljusblå, cyan och djupblå toner, vilket skapar en jämn, oskarp effekt.

”Flaskhalsen är tid. En expert kan bara ägna en viss del av sin dag åt en enskild person.”

Dr Catherine Brownstein, Boston Children’s Hospitals Manton Center for Orphan Disease Research

Abstrakt blå gradientbakgrund med mjuka övergångar mellan ljusblå, cyan och djupblå toner, vilket skapar en jämn, oskarp effekt.

”Forskare som Catherine och jag kan omöjligen hålla 8 000 olika sjukdomar i huvudet. Det är kraften i AI.”

Alan Beggs, chef för Manton Center for Orphan Disease Research

Vad händer härnäst

Prospektiva multicenterstudier bör jämföra LLM-stödd nyanalys med standardpraxis vad gäller diagnostiskt utbyte, tid till kandidat, klinikers arbetsinsats, börda av falskt positiva fynd, kostnad och effekter på vården. Versionshanterade promptar, referenskontroller, granskningsloggar och kalibrerad osäkerhet blir viktiga för reproducerbarhet och säkerhet. Sådana studier skulle fortfarande kräva kvalificerade kliniker som utvärderar evidens, beställer lämpliga tester och fattar eventuella diagnos- eller behandlingsbeslut.

Den här studien använde OpenAI o3 Djup forskning. Nyare generella modeller kan söka igenom och syntetisera mer vetenskapligt material, medan specialbyggda system som GPT‑Rosalind är utformade för djupare arbete inom biovetenskaperna, inklusive varianteffekter på proteiners struktur och funktion. Dessa förmågor testades inte här och kommer att kräva egna utvärderingar och åtkomstkontroller.

Även om OpenAI hjälpte till att stödja denna inledande forskningsstudie kommer Manton Center att leda nästa fas av arbetet genom ett anslag från OpenAI Foundation. Anslaget ska stödja centrets bredare arbete med att utveckla en plattformsoberoende och billig AI-kopilot för genetik som hjälper kliniska team att analysera fall av sällsynta sjukdomar snabbare och mer konsekvent.

Den mer långsiktiga forskningsmöjligheten är att undersöka om expertledd, AI-stödd nyanalys kan hjälpa den vetenskapliga förståelsen att hålla jämna steg med nya upptäckter. Löftet är inte att AI ersätter läkarens diagnos, utan att noggrant utvärderade forskningsverktyg kan hjälpa specialister att identifiera evidens som är värd att undersöka. För tusentals familjer behöver dagens obesvarade frågor inte förbli obesvarade för alltid.

  • 2026

Författare

OpenAI