Przejdź do treści głównej
OpenAI

18 czerwca 2026

Zastosowania AI

AI pomaga lekarzom diagnozować rzadkie choroby genetyczne u dzieci

W badaniu NEJM AI eksperci użyli modelu rozumującego OpenAI do reanalizy 376 nierozwiązanych przypadków i wskazania tropów dla 18 diagnoz.

Ładowanie…

Nawet przy sekwencjonowaniu genomowym wiele osób z chorobami rzadkimi nigdy nie otrzymuje jednoznacznej diagnozy genetycznej. Około połowa pozostaje bez diagnozy mimo szeroko zakrojonych badań i oceny specjalistów. Ich dane medyczne mogą zawierać wskazówki, ale ich odnalezienie może wymagać przeszukania od tysięcy do milionów możliwych wariantów genetycznych, rozproszonych dokumentacji klinicznych i szybko zmieniającej się literatury naukowej.

W miarę gromadzenia się nowych powiązań gen–choroba, opisów przypadków i dowodów klasyfikacyjnych nierozwiązane przypadki mogą stać się możliwe do ponownej interpretacji.

Naukowcy z Manton Center for Orphan Disease Research przy Boston Children’s Hospital, Harvard University i OpenAI użyli modelu rozumującego OpenAI o3 do głębokich badań, aby przeanalizować pozbawione danych identyfikacyjnych informacje kliniczne i genomiczne z 376 wcześniej analizowanych, lecz nierozwiązanych przypadków. Model wskazał kandydackie wyjaśnienia powiązane z dowodami, które mogli ocenić naukowcy i klinicyści. Po ocenie ekspertów, dodatkowych badaniach i potwierdzeniu klinicznym lekarze ustalili diagnozy w 18 przypadkach — dodatkowy uzysk diagnostyczny wyniósł 4,8% po wcześniejszej analizie specjalistów. Badanie opublikowano 18 czerwca 2026 r. w NEJM AI. Pokazuje ono, jak wspomagany przez AI proces badawczy może pomagać ekspertom generować tropy przy ponownej analizie niektórych z najtrudniejszych przypadków.

Wiele z tych przypadków przez lata wymykało się analizie ekspertów. W tym badaniu OpenAI o3 do głębokich badań pomógł naukowcom wskazać tropy, które następnie oceniono w ramach ustalonych procedur klinicznych, co sugeruje, że prowadzona przez ekspertów okresowa reanaliza może stawać się bardziej skalowalna wraz z rozwojem wiedzy. Model nie zdiagnozował żadnego pacjenta ani nie podjął żadnej decyzji klinicznej. Tworzył hipotezy powiązane z dowodami, które specjaliści mogli ocenić oraz — tam, gdzie było to właściwe — zbadać w dodatkowych testach i potwierdzić w laboratorium klinicznym.

Stary przypadek może zawierać nową odpowiedź

Niejednoznaczny wynik badania genetycznego nie zawsze jest ustaleniem ostatecznym. Opisy fenotypu pacjenta, wyniki badań i wywiad rodzinny mogą być rozproszone w bazach danych używających różnych identyfikatorów, formatów i słowników. Łączenie tych dokumentacji jest trudne, dlatego nawet specjaliści mogą przeoczyć diagnozę. Eksperci mogą też zsekwencjonować genom dziecka, zanim odpowiedni gen lub jego warianty zostaną powiązane z chorobą. Wraz z postępem wiedzy naukowej te same dane mogą ujawniać odpowiedzi, których wcześniej nie dało się odkryć.

Reanaliza chorób rzadkich jest zarazem problemem naukowym i wyzwaniem z zakresu przetwarzania wiedzy. Genom pacjenta może pozostawać taki sam, ale dowody wokół niego stale się zmieniają: naukowcy łączą nowe geny i warianty z chorobami, laboratoria przeklasyfikowują dawne warianty, a bazy przypadków i publikacje gromadzą nowe obserwacje. Każda aktualizacja może sprawić, że warto wrócić do starego, niejednoznacznego przypadku, dlatego wiele instytucji dziedziczy rosnącą kolejkę genomów, które trzeba zarządzać w zgodzie ze zmieniającą się bazą wiedzy.

W tym badaniu naukowcy zaprojektowali proces tak, aby model działał jako warstwa rozumowania skoncentrowana najpierw na wyjaśnieniu, nałożona na istniejące potoki genomiczne. Zamiast zwracać wyłącznie ranking genów, miał połączyć cechy kliniczne, wzorzec dziedziczenia, dowody dotyczące wariantów i literaturę naukową w uzasadnienie, które recenzent-człowiek mógł poddać krytycznej analizie. 

Przebieg reanalizy

Dla każdego przypadku zespół przygotował pozbawiony danych identyfikacyjnych pakiet zawierający standaryzowane terminy Human Phenotype Ontology opisujące obraz kliniczny pacjenta, sporadyczne notatki klinicystów i ewentualną opisową diagnozę kliniczną, metadane takie jak wiek i płeć oraz przefiltrowaną tabelę wariantów. Tabela obejmowała rzadkość każdego wariantu, jego przewidywany wpływ na kodowane białko, klasyfikację ClinVar oraz jakość sygnału u dostępnych członków rodziny. Większość przypadków obejmowała dane dziecka i obojga biologicznych rodziców.

Zespół poprosił model o zaproponowanie najbardziej prawdopodobnego wyjaśnienia molekularnego i pokazanie toku pracy. Następnie naukowcy ocenili wyniki z użyciem tych samych ram ACMG/AMP, których laboratoria kliniczne używają do klasyfikowania wariantów genetycznych. Każdego kandydata oceniało co najmniej dwóch członków zespołu, rozbieżności rozstrzygano konsensusem, a wyniku modelu nigdy nie traktowano jako diagnozy. Ustalenie uznawano za diagnozę dopiero wtedy, gdy wykwalifikowani eksperci ocenili dowody, wariant sklasyfikowano jako patogenny lub prawdopodobnie patogenny, laboratorium certyfikowane przez CLIA go potwierdziło, a zespół kliniczny przekazał wynik rodzinie.

Przed analizą nierozwiązanych przypadków zespół dopracował proces na przypadkach z ustalonymi diagnozami. W podwójnych uruchomieniach odtworzył prawidłowy gen i wariant w 48 z 51 przypadków obejmujących różne choroby rzadkie. W zbiorze 57 przypadków nerwowo-mięśniowych proces zwrócił prawidłową diagnozę w podwójnych uruchomieniach dla 45 przypadków. W zbiorze 15 genomów sekwencjonowanych metodą długich odczytów wskazał prawidłowy gen w każdym przypadku oraz oba allele powodujące chorobę w 12 przypadkach. Te oceny pomogły w opracowaniu polecenia i pokazały, gdzie ocena ekspertów pozostawała niezbędna.

Samodzielnie deklarowane przez model wyniki pewności korelowały z prawidłowymi diagnozami w tych wcześniej rozwiązanych przypadkach: średni minimalny wynik wynosił 85,6 dla konsekwentnie prawidłowych wskazań i 42,1 dla wskazań błędnych lub nieznanych. Wyniki nie były skalibrowanymi prawdopodobieństwami, a zespół nie używał ich jako substytutu dowodów ani oceny klinicznej. Były jednak pomocne w kierowaniu uwagi recenzentów-ekspertów na najbardziej obiecujące diagnozy kandydackie. 

Schemat procesu zatytułowany „Wspomagany przez człowieka proces AI do genomowej reanalizy chorób rzadkich” pokazujący analizę zanonimizowanych danych pacjenta przez człowieka, syntezę dowodów przez LLM, ocenę ekspercką, badania, potwierdzenie kliniczne i przekazanie wyników rodzinie.

Odkrycia naukowców

Następnie zespół zastosował proces do czterech grup wcześniej nierozwiązanych przypadków: dzieci ze schorzeniami neurorozwojowymi, osób z rzadką chorobą nerwowo-mięśniową, dzieci i nastolatków z wczesną psychozą oraz przypadków nagłego nieoczekiwanego zgonu u dzieci. Nie były to świeże przypadki czekające na pierwszą ocenę. Wiele z nich przebadano już w wielu komercyjnych lub instytucjonalnych potokach i omówiono w zespołach wielodyscyplinarnych.

Wyniki według kohorty

Kohorta

Przypadki

Wskazane diagnozy

Uzysk

Neurorozwojowe

100

10

10,0%

Choroba nerwowo-mięśniowa

61

4

6,6%

Nagły nieoczekiwany zgon u dzieci

200

2

1,0%

Wczesna psychoza

15

2

13,3%

Razem

376

18

4,8%

Kohorta wczesnej psychozy była mała, więc jej odsetek ma szeroki przedział ufności. Uzysk odzwierciedla też prawdopodobieństwo, że dana kohorta miała wyjaśnienie jednogenowe.

Po wskazaniu kandydatów przez model oraz zakończeniu oceny eksperckiej i potwierdzenia klinicznego lekarze ustalili diagnozy w 4,8% przypadków. Ten odsetek jest umiarkowany, ale znaczący w tej populacji, ponieważ wcześniejsze oceny ekspertów nie rozwiązały tych przypadków. Podobne badania reanalizy raportują jednocyfrowe przyrosty w intensywnie ocenianych przypadkach; wyższe uzyski zwykle pochodzą z badań obejmujących nowe przypadki lub dobrze znane zaburzenia oczekujące na potwierdzenie genetyczne.

Spośród 18 diagnoz 7 było ponownymi odkryciami: diagnozami ustalonymi poza lokalnym procesem badawczym, lecz nieobecnymi w dokumentacji ocenianej przez zespół. W kilku przypadkach warianty były już wymienione w publicznych bazach danych jako patogenne lub prawdopodobnie patogenne, co podkreśla operacyjne wyzwanie syntezy informacji z różnych źródeł danych.

Elastyczność w identyfikowaniu wariantów

W jednym przypadku wczesnej psychozy model wywnioskował zdarzenie strukturalne w genomie, którego nie było w danych wejściowych. Połączył serię niskiej jakości odczytów na chromosomie 22 z cechami kardiologicznymi, immunologicznymi, neurorozwojowymi i psychiatrycznymi dziecka, a następnie postawił hipotezę delecji 22q11.2 związanej z zespołem DiGeorge’a. Ten hipotetyczny wariant potwierdzono w dalszym sekwencjonowaniu genomu.

Choć polecenie prosiło o jedną przyczynę monogenową, model czasem wskazywał dwa geny, które lepiej wyjaśniały złożony obraz kliniczny. Warianty w LAMA2 i FOXP1 razem pomogły wyjaśnić cechy mięśniowe i neurorozwojowe w jednym przypadku; w innym stwierdzono wcześniej nierozpoznane wyjaśnienie digeniczne obejmujące TTN i SRPK3.

Tworzenie testowalnej, biologicznie spójnej hipotezy

Oprócz diagnoz model wskazał też możliwe nowe mechanistyczne wyjaśnienie choroby zwanej bielactwem. W jednym przypadku neurorozwojowym model zwrócił uwagę na delecję 11 aminokwasów w S1PR1 u osoby z bielactwem. S1PR1 koduje receptor powierzchni komórkowej uczestniczący w sygnalizacji, przemieszczaniu komórek odpornościowych i biologii tkanek. Model zintegrował dowody sugerujące, że delecja może zmieniać strukturę i sygnalizację receptora w sposób ograniczający produkcję pigmentu, a jednocześnie pomagający komórkom odpornościowym utrzymywać się w skórze.

Proponowany związek S1PR1 z bielactwem wymaga dodatkowej walidacji eksperymentalnej, ale ilustruje ważną rolę AI w przekładaniu rozproszonych ustaleń z biologii strukturalnej, immunologii i genetyki klinicznej na konkretne, testowalne hipotezy.

Zespół zaobserwował też możliwe poszerzenie fenotypu w kohorcie nerwowo-mięśniowej. Uszkadzające warianty w HSPB8 i CDK13 nie pasowały idealnie do najlepiej znanych zaburzeń związanych z tymi genami, co sugeruje szersze spektrum kliniczne wymagające sprawdzenia w większej liczbie przypadków i w pracach laboratoryjnych.

Studium przypadku: diagnoza Kyry po prawie dwóch dekadach

Zaczęło się na zajęciach karate, gdy matka Kyry zauważyła, że jej 9-letnia córka nie schodzi w pozycjach tak nisko jak dawniej. Kyra zaczęła też zwalniać podczas treningów piłki nożnej i chodzić oraz biegać na palcach. Jej pediatra nie potrafił ustalić przyczyny osłabienia mięśni, więc skierował ją do specjalisty. Potem nastąpiła niemal 20-letnia droga przez badania, leczenie i konsultacje bez diagnozy.

Przypadek Kyry był jedną z czterech diagnoz wskazanych w kohorcie nerwowo-mięśniowej. Zespół powiązał jej chorobę z wariantem przesunięcia ramki odczytu w HSPB8 i rozpoznał postać miopatii miofibrylarnej, w której nieprawidłowe struktury białkowe gromadzą się we włóknach mięśniowych i przyczyniają się do osłabienia. Doradca genetyczny z Manton Center zadzwonił do Kyry około tydzień przed jej 28. urodzinami.

Do tego czasu Kyra spędziła dużą część życia, dostosowując się do choroby. W wieku 13 lat była już zależna od respiratora i poruszała się na wózku, choć od tamtej pory jej stan się ustabilizował. Chociaż postać miopatii miofibrylarnej Kyry jest tak rzadka, że niewiele wiadomo o jej długoterminowym przebiegu, diagnoza przyniosła pewne domknięcie.

Ograniczenia

To badanie pokazuje, że model rozumujący ogólnego przeznaczenia może wnosić wkład w retrospektywną reanalizę genomiczną, łącząc fenotyp, dziedziczenie, adnotacje wariantów, wzorce jakości danych i literaturę naukową w hipotezy możliwe do oceny. Pokazuje też, dlaczego okresowa reanaliza ma znaczenie: niektóre odpowiedzi można uzyskać dopiero wraz z rozwojem wiedzy albo po połączeniu rozproszonych dokumentacji.

To badanie nie stanowi dowodu, że pacjenci, klinicyści lub klienci powinni używać modeli OpenAI do diagnozowania chorób albo podejmowania decyzji medycznych. Nie opisuje ani nie popiera zamierzonego zastosowania przez klientów OpenAI o3 do głębokich badań, ChatGPT ani żadnego innego produktu OpenAI do diagnostyki. Model nie zdiagnozował żadnego uczestnika; wszystkie diagnozy postawili lekarze i inni wykwalifikowani eksperci kliniczni w ramach ustalonych procesów oceny, testowania i potwierdzenia klinicznego.

Badanie było retrospektywne, kohorty były niejednorodne, a recenzenci nie lekceważyli poziomu pewności modelu. Naukowcy nie mierzyli oszczędności czasu, kosztów, nakładu pracy klinicystów, obciążenia wynikami fałszywie dodatnimi ani zmian w opiece. Nie oceniali też systematycznie innych form zmienności genetycznej, takich jak warianty strukturalne, ekspansje powtórzeń, zmiany głęboko intronowe czy mozaicyzm.

Duże modele językowe mogą błędnie odczytywać kontekst lub tworzyć wiarygodnie brzmiące wyjaśnienia, które nie wytrzymują dokładniejszej analizy. Dlatego każdy wynik przechodził przez ocenę człowieka i potwierdzenie kliniczne. Model poszerzał zakres poszukiwań i ukierunkowywał późniejszą analizę prowadzoną przez ludzi; nie decydował, jakie informacje ani jaka diagnoza powinny zostać przekazane rodzinie.

W badaniu użyto informacji zanonimizowanych; nie wykorzystywano ani nie przesyłano chronionych informacji zdrowotnych poza zatwierdzone środowiska. Szersze wdrożenie kliniczne będzie wymagało takiej samej dbałości o prywatność, bezpieczeństwo, możliwości kontrolowania i zgodność z lokalnymi regulacjami, jaka dotyczy całej opieki medycznej. Dostęp do modelu nie zastępuje infrastruktury sekwencjonowania, poradnictwa genetycznego, badań potwierdzających ani osądu specjalisty.

Abstrakcyjne niebieskie tło gradientowe z miękkimi przejściami między odcieniami jasnego błękitu, cyjanu i głębokiego niebieskiego, tworzące gładki, rozmyty efekt.

„Wąskim gardłem jest czas. Ekspert może poświęcić tylko ograniczoną część dnia jednej konkretnej osobie”.

Dr Catherine Brownstein, Manton Center for Orphan Disease Research przy Boston Children’s Hospital

Abstrakcyjne niebieskie tło gradientowe z miękkimi przejściami między odcieniami jasnego błękitu, cyjanu i głębokiego niebieskiego, tworzące gładki, rozmyty efekt.

„Naukowcy tacy jak Catherine i ja nie jesteśmy w stanie trzymać w głowie 8000 różnych chorób. Na tym polega siła AI”.

Alan Beggs, dyrektor Manton Center for Orphan Disease Research

Co dalej

Prospektywne, wieloośrodkowe badania powinny porównać reanalizę wspomaganą przez LLM ze standardową praktyką pod względem uzysku diagnostycznego, czasu do wskazania kandydata, nakładu pracy klinicystów, obciążenia wynikami fałszywie dodatnimi, kosztów i wpływu na opiekę. Wersjonowane polecenia, kontrole źródeł, dzienniki audytu i skalibrowana niepewność będą ważne dla odtwarzalności i bezpieczeństwa. Takie badania nadal wymagałyby wykwalifikowanych klinicystów do oceny dowodów, zlecania odpowiednich testów oraz podejmowania wszelkich decyzji diagnostycznych lub terapeutycznych.

W badaniu użyto OpenAI o3 do głębokich badań. Nowsze modele ogólnego przeznaczenia mogą wyszukiwać i syntetyzować więcej materiału naukowego, podczas gdy systemy stworzone do konkretnych zastosowań, takie jak GPT‑Rosalind, są projektowane do głębszej pracy w naukach przyrodniczych, w tym nad wpływem wariantów na strukturę i funkcję białek. Tych możliwości tutaj nie testowano; będą wymagały własnych ocen i kontroli dostępu.

Choć OpenAI pomogło wesprzeć to wstępne badanie, kolejny etap prac poprowadzi Manton Center dzięki grantowi OpenAI Foundation. Grant wesprze szersze działania Ośrodka na rzecz opracowania niezależnego od platformy, niskokosztowego pomocnika AI do obsługi danych genetycznych, który pomaga zespołom klinicznym szybciej i bardziej konsekwentnie analizować przypadki chorób rzadkich.

Długofalową szansą badawczą jest sprawdzenie, czy prowadzona przez ekspertów reanaliza wspomagana przez AI może pomóc wiedzy naukowej nadążać za odkryciami. Obietnica nie polega na tym, że AI zastąpi diagnozę lekarza, lecz na tym, że starannie ocenione narzędzia badawcze mogą pomagać specjalistom wskazywać dowody warte zbadania. Dla tysięcy rodzin dzisiejsze pytania bez odpowiedzi nie muszą pozostawać bez odpowiedzi na zawsze.

  • 2026

Autor

OpenAI