跳到主要內容
OpenAI

2026年6月18日

應用 AI

運用 AI 協助醫生診斷影響兒童的罕見遺傳病

在一項 NEJM AI 研究中,專家使用 OpenAI 推理模型重新分析 376 宗此前未解決病例,找出 18 項診斷線索。

正在載入...

即使有基因組測序,許多罕見病患者仍然得不到清晰的遺傳診斷。經過大量檢測和專科審閱後,約有一半仍未獲診斷。他們的醫療資料可能藏有線索,但要找出這些線索,往往需要篩查成千上萬以至數以百萬計的潛在遺傳變異、零散的臨床記錄,以及快速變化的科學文獻。

隨着新的基因與疾病關係、病例報告和分類證據不斷累積,未解病例可能變得可以重新解讀。

來自波士頓兒童醫院 Manton 罕見疾病研究中心、哈佛大學和 OpenAI 的研究人員,使用 OpenAI o3 深度研究推理模型,分析了 376 宗此前已分析但仍未解決病例的去識別化臨床及基因組資料。模型找出有證據支持的候選解釋,供研究人員和臨床醫生審閱。經專家審查、額外檢測和臨床確認後,醫生在 18 宗病例中確立診斷;這是在先前專科分析後額外取得的 4.8% 診斷檢出率。這項研究於 2026 年 6 月 18 日刊登於 NEJM AI,展示 AI 輔助研究流程如何在重新審視部分最棘手病例時,幫助專家找出線索。

其中許多病例多年來一直未能被專家分析破解。在這項研究中,OpenAI o3 深度研究協助研究人員識別線索,其後再透過既定臨床流程評估;這顯示隨着知識演進,由專家主導的定期再分析或可更容易大規模推行。模型並未為任何患者作出診斷,也沒有作出任何臨床決定。它產生有證據支持的假設,供專科醫生審閱;在適當情況下,專科醫生會透過額外檢測作進一步調查,並在臨床實驗室確認。

為何舊病例可能藏有新答案

遺傳檢測結果未有定論,並不一定是永久結論。患者的表型描述、檢測結果和家族病史,可能分散於使用不同識別碼、格式和詞彙的多個數據庫。把這些記錄連結起來並不容易,因此即使是專科醫生也可能錯過診斷。專家亦可能在相關基因或其變異尚未與疾病建立關聯前,已為兒童進行基因組測序。隨着科學知識進步,同一批資料可以揭示過去不可能發現的答案。

罕見病再分析既是科學問題,也是持續維護的問題。患者的基因組或許保持不變,但圍繞它的證據一直在變:研究人員把新的基因和變異與疾病聯繫起來,實驗室重新分類舊變異,病例數據庫和論文亦不斷累積新的觀察。每一次更新都可能令一宗舊的未定病例值得重新審視,因此許多機構都累積了愈來愈多基因組個案,需要持續與不斷變動的知識庫保持同步。

在這項研究中,研究人員把流程設計成讓模型在現有基因組分析流程之上,充當以解釋為先的推理層。它不是只回傳排序後的基因,而是被要求把臨床特徵、遺傳模式、變異證據和科學文獻串連成一套可供人類審閱者查問的理據。 

再分析如何進行

團隊為每宗病例整理一份去識別化資料包,當中包括用於描述患者臨床表現的標準化人類表型本體術語、部分臨床醫生記錄和任何描述性臨床診斷、年齡和性別等元數據,以及一份經篩選的變異表。該表記錄每個變異的罕見程度、其對所編碼蛋白質的預測影響、ClinVar 分類,以及各名可用家庭成員樣本中的訊號質素。大多數病例都包含兒童及其雙方親生父母的資料。

團隊要求模型提出最合理的分子層面解釋,並展示其推理過程。研究人員其後使用臨床實驗室用於分類遺傳變異的同一套 ACMG/AMP 架構審閱輸出。每個候選解釋至少由兩名團隊成員審閱,分歧以共識解決,而模型輸出從不被視為診斷。一項發現只有在合資格專家審閱證據、變異被分類為致病或可能致病、獲 CLIA 認證實驗室確認,並由臨床團隊向家庭回報結果後,才會被計作診斷。

在分析未解病例之前,團隊先用已有確定診斷的病例完善流程。在包含多種罕見病的 51 宗病例中,該流程於重複運行中為其中 48 宗找回正確基因和變異。在一組 57 宗神經肌肉病例中,該流程於重複運行中為其中 45 宗回傳正確診斷。在一組 15 宗長讀長基因組病例中,它在每宗病例都指出正確基因,並在 12 宗病例中指出兩個致病等位基因。這些評估有助改良提示詞,並顯示專家審查仍然不可或缺之處。

在這些此前已解決的病例中,模型自行報告的置信度分數與正確診斷相符:持續正確判讀的平均最低分為 85.6,錯誤或未知判讀則為 42.1。這些分數並非經校準的概率,團隊也沒有用它們取代證據或臨床裁定。但它們有助引導專家審閱者聚焦於最有希望的候選診斷。

流程圖標題為「人類引導的 AI 罕見病基因組再分析流程」,顯示去識別化患者資料如何經過人類決策、LLM 證據綜合、專家審查、檢測、臨床確認,以及向家庭回報結果。

研究人員的發現

團隊其後把流程應用於四組此前未解決的病例:患有神經發育疾病的兒童、患有罕見神經肌肉疾病的人士、患有早期思覺失調的兒童及青少年,以及兒科突發意外死亡病例。這些並非等待首次審查的新病例。許多病例已經由多個商業或機構分析流程檢視,並由多學科團隊討論。

按組別劃分的結果

組別

病例數

找出的診斷

診斷檢出率

神經發育

100

10

10.0%

神經肌肉疾病

61

4

6.6%

兒科突發意外死亡

200

2

1.0%

早期思覺失調

15

2

13.3%

總計

376

18

4.8%

早期思覺失調組別規模較小,因此其百分比的置信區間較寬。診斷檢出率亦反映各組別有多大機會存在單基因解釋。

在模型找出候選解釋、專家完成審閱和臨床確認後,醫生在 4.8% 的病例中確立診斷。這個比率不算高,但對這個群體而言有意義,因為先前的專家審查未能解決這些病例。類似再分析研究在經嚴格審閱的病例中報告的增幅通常為個位數;較高檢出率通常來自包含新病例,或已有明確疾病、等待遺傳確認的研究。

在 18 項診斷中,有 7 項屬於重新發現:這些診斷是在本研究流程以外確立,但並未出現在團隊審閱的記錄中。在若干病例中,相關變異已在公共數據庫中列為致病或可能致病,突顯跨資料來源整合資訊的實務挑戰。

識別變異時展現靈活性

在一宗早期思覺失調病例中,模型推斷出一項未列於輸入資料的基因組結構變異。它把第 22 號染色體上一連串低質素變異判讀,與該兒童的心臟、免疫、神經發育及精神科特徵聯繫起來,繼而提出與 DiGeorge 綜合症相關的 22q11.2 缺失假設。這項假設中的變異其後透過跟進基因組測序獲得確認。

雖然提示詞要求找出一個單基因成因,但模型有時會指出兩個更能解釋複雜表現的基因。在一宗病例中,LAMA2FOXP1 的變異合起來有助解釋肌肉和神經發育特徵;另一宗病例則涉及 TTNSRPK3,呈現此前未被識別的雙基因解釋。

提出可測試且符合生物學邏輯的假說

除了診斷外,模型亦為一種稱為白蝕的疾病識別出一個可能屬新的機制性解釋。在一宗神經發育病例中,模型指出一名白蝕患者的 S1PR1 出現 11 個氨基酸缺失。S1PR1 編碼一種細胞表面受體,參與訊號傳遞、免疫細胞移動和組織生物學。模型整合證據後指出,該缺失可能改變受體結構和訊號傳遞,一方面減少色素生成,另一方面亦有助免疫細胞在皮膚中持續存在。

提出的 S1PR1–白蝕關係仍需進一步實驗驗證,但它展示了 AI 的一項重要作用:把結構生物學、免疫學和臨床遺傳學中的零散發現,轉化為具體且可測試的假說。

團隊亦在神經肌肉組別中看到可能的表型擴展。HSPB8CDK13 的有害變異,並不完全符合這些基因最廣為人知的疾病,顯示其臨床表現譜可能更廣,仍需更多病例和實驗室工作加以驗證。

個案研究:Kyra 近二十年後獲得診斷

事情始於空手道課堂,Kyra 的母親留意到,9 歲女兒做步法姿勢時無法像以往蹲得那麼低。Kyra 在足球訓練時也變得較慢,走路和跑步時都踮着腳尖。她的兒科醫生無法找出肌肉無力的成因,因此轉介她到專科醫生。接下來,是一段近 20 年在檢測、治療和會診中尋找診斷的旅程。

Kyra 的病例是神經肌肉組別中找出的四項診斷之一。團隊把她的病情與 HSPB8 的移碼變異聯繫起來,並診斷為一種肌原纖維肌病;在這種疾病中,異常蛋白質結構會在肌纖維中積聚,並導致肌肉無力。在 Kyra 28 歲生日約一星期前,Manton Center 的一名遺傳輔導員致電給她。

那時,Kyra 已花了大半生適應這種疾病。她 13 歲時已需要依賴呼吸機並使用輪椅,不過此後病情已趨於穩定。雖然 Kyra 這種肌原纖維肌病極為罕見,其長期病程仍所知甚少,但診斷讓她得到某種交代。

局限

這項研究顯示,通用推理模型能夠把表型、遺傳、變異註釋、資料質素模式和科學文獻結合成可供審閱的假說,從而為回顧性基因組再分析作出貢獻。它亦說明定期再分析為何重要:有些答案只有在知識進步或零散記錄被整合後才會浮現。

這項研究並非證據,證明患者、臨床醫生或客戶應使用 OpenAI 模型診斷疾病或作出醫療決定。它亦並非描述或認可 OpenAI o3 深度研究、ChatGPT 或任何其他 OpenAI 產品旨在供客戶用於診斷。模型沒有為任何參與者作出診斷;每一項診斷都由醫生和其他合資格臨床專家透過既定審查、檢測和臨床確認流程作出。

這項研究屬回顧性研究,組別異質性高,審閱者在審閱時知道模型的置信度分數。研究人員沒有量度節省了多少時間、成本、臨床醫生所需工作量、假陽性工作量或診療變化。他們亦沒有系統性評估其他形式的遺傳變異,例如結構變異、重複序列擴增、深內含子變化或嵌合現象。

大型語言模型可能誤讀語境,或產生看似合理但經仔細檢視後站不住腳的解釋。因此,每一項結果都經過人類裁定和臨床確認。模型擴大了搜尋範圍,並聚焦其後由人類主導的分析;它並沒有決定應向家庭回報哪些資訊或診斷。

這項研究使用去識別化資訊,沒有在核准環境以外使用或傳輸受保護健康資料。更廣泛的臨床部署,將需要像所有醫療服務一樣,重視私隱、安全、可審計性和本地規管。取得模型使用權並不能取代測序基礎設施、遺傳輔導、確認性檢測或專科判斷。

抽象藍色漸變背景,淺藍、青藍與深藍色調之間柔和過渡,營造平滑朦朧的效果。

「瓶頸在於時間。專家一天之中能投放在任何一名患者身上的時間始終有限。」

波士頓兒童醫院 Manton 罕見疾病研究中心 Catherine Brownstein 博士

抽象藍色漸變背景,淺藍、青藍與深藍色調之間柔和過渡,營造平滑朦朧的效果。

「像 Catherine 和我這樣的研究人員,不可能把 8,000 種不同疾病全記在腦中。這就是 AI 的力量。」

Manton 罕見疾病研究中心主任 Alan Beggs

下一步

前瞻性、多中心研究應比較 LLM 輔助再分析與標準做法在診斷檢出率、找出候選解釋所需時間、臨床醫生所需工作量、假陽性負擔、成本,以及對診療的影響方面的差異。版本化提示詞、參考資料檢查、審計日誌和經校準的不確定性,對可重現性和安全性都會很重要。這類研究仍需要合資格臨床醫生評估證據、安排適當檢測,並作出任何診斷或治療決定。

這項研究使用了 OpenAI o3 深度研究。較新的通用模型可以搜尋和綜合更多科學材料,而 GPT‑Rosalind 等專門構建的系統則為更深入的生命科學工作而設計,包括分析變異對蛋白質結構和功能的影響。這些能力並未在此測試,日後需要各自的評估和存取控制。

雖然 OpenAI 協助支持這項初步研究,但下一階段工作將由 Manton Center 透過 OpenAI Foundation 的資助主導。該資助將支持該中心更廣泛的工作,開發一款不受平台限制、低成本的遺傳學 AI 助手,協助臨床團隊更快速且一致地分析罕見病病例。

較長遠的研究機會,是探索由專家主導、AI 輔助的再分析能否幫助科學理解跟上發現步伐。其前景並不是讓 AI 取代醫生診斷,而是經仔細評估的研究工具或可協助專科醫生找出值得調查的證據。對成千上萬個家庭而言,今天未有答案的問題不必永遠沒有答案。

  • 2026

作者

OpenAI