運用 AI 協助醫生診斷影響兒童的罕見遺傳病

在一項 NEJM AI 研究中，專家使用 OpenAI 推理模型重新分析 376 宗此前未解決病例，找出 18 項診斷線索。

正在載入...

即使有基因組測序，許多罕見病患者仍然得不到清晰的遺傳診斷。經過大量檢測和專科審閱後，約有一半仍未獲診斷。他們的醫療資料可能藏有線索，但要找出這些線索，往往需要篩查成千上萬以至數以百萬計的潛在遺傳變異、零散的臨床記錄，以及快速變化的科學文獻。

隨着新的基因與疾病關係、病例報告和分類證據不斷累積，未解病例可能變得可以重新解讀。

來自波士頓兒童醫院 Manton 罕見疾病研究中心、哈佛大學和 OpenAI 的研究人員，使用 OpenAI o3 深度研究推理模型，分析了 376 宗此前已分析但仍未解決病例的去識別化臨床及基因組資料。模型找出有證據支持的候選解釋，供研究人員和臨床醫生審閱。經專家審查、額外檢測和臨床確認後，醫生在 18 宗病例中確立診斷；這是在先前專科分析後額外取得的 4.8% 診斷檢出率。這項研究於 2026 年 6 月 18 日刊登於 NEJM AI，展示 AI 輔助研究流程如何在重新審視部分最棘手病例時，幫助專家找出線索。

其中許多病例多年來一直未能被專家分析破解。在這項研究中，OpenAI o3 深度研究協助研究人員識別線索，其後再透過既定臨床流程評估；這顯示隨着知識演進，由專家主導的定期再分析或可更容易大規模推行。模型並未為任何患者作出診斷，也沒有作出任何臨床決定。它產生有證據支持的假設，供專科醫生審閱；在適當情況下，專科醫生會透過額外檢測作進一步調查，並在臨床實驗室確認。

為何舊病例可能藏有新答案

遺傳檢測結果未有定論，並不一定是永久結論。患者的表型描述、檢測結果和家族病史，可能分散於使用不同識別碼、格式和詞彙的多個數據庫。把這些記錄連結起來並不容易，因此即使是專科醫生也可能錯過診斷。專家亦可能在相關基因或其變異尚未與疾病建立關聯前，已為兒童進行基因組測序。隨着科學知識進步，同一批資料可以揭示過去不可能發現的答案。

罕見病再分析既是科學問題，也是持續維護的問題。患者的基因組或許保持不變，但圍繞它的證據一直在變：研究人員把新的基因和變異與疾病聯繫起來，實驗室重新分類舊變異，病例數據庫和論文亦不斷累積新的觀察。每一次更新都可能令一宗舊的未定病例值得重新審視，因此許多機構都累積了愈來愈多基因組個案，需要持續與不斷變動的知識庫保持同步。

在這項研究中，研究人員把流程設計成讓模型在現有基因組分析流程之上，充當以解釋為先的推理層。它不是只回傳排序後的基因，而是被要求把臨床特徵、遺傳模式、變異證據和科學文獻串連成一套可供人類審閱者查問的理據。

再分析如何進行

團隊為每宗病例整理一份去識別化資料包，當中包括用於描述患者臨床表現的標準化人類表型本體術語、部分臨床醫生記錄和任何描述性臨床診斷、年齡和性別等元數據，以及一份經篩選的變異表。該表記錄每個變異的罕見程度、其對所編碼蛋白質的預測影響、ClinVar 分類，以及各名可用家庭成員樣本中的訊號質素。大多數病例都包含兒童及其雙方親生父母的資料。

團隊要求模型提出最合理的分子層面解釋，並展示其推理過程。研究人員其後使用臨床實驗室用於分類遺傳變異的同一套 ACMG/AMP 架構審閱輸出。每個候選解釋至少由兩名團隊成員審閱，分歧以共識解決，而模型輸出從不被視為診斷。一項發現只有在合資格專家審閱證據、變異被分類為致病或可能致病、獲 CLIA 認證實驗室確認，並由臨床團隊向家庭回報結果後，才會被計作診斷。

在分析未解病例之前，團隊先用已有確定診斷的病例完善流程。在包含多種罕見病的 51 宗病例中，該流程於重複運行中為其中 48 宗找回正確基因和變異。在一組 57 宗神經肌肉病例中，該流程於重複運行中為其中 45 宗回傳正確診斷。在一組 15 宗長讀長基因組病例中，它在每宗病例都指出正確基因，並在 12 宗病例中指出兩個致病等位基因。這些評估有助改良提示詞，並顯示專家審查仍然不可或缺之處。

在這些此前已解決的病例中，模型自行報告的置信度分數與正確診斷相符：持續正確判讀的平均最低分為 85.6，錯誤或未知判讀則為 42.1。這些分數並非經校準的概率，團隊也沒有用它們取代證據或臨床裁定。但它們有助引導專家審閱者聚焦於最有希望的候選診斷。

流程圖標題為「人類引導的 AI 罕見病基因組再分析流程」，顯示去識別化患者資料如何經過人類決策、LLM 證據綜合、專家審查、檢測、臨床確認，以及向家庭回報結果。

研究人員的發現

團隊其後把流程應用於四組此前未解決的病例：患有神經發育疾病的兒童、患有罕見神經肌肉疾病的人士、患有早期思覺失調的兒童及青少年，以及兒科突發意外死亡病例。這些並非等待首次審查的新病例。許多病例已經由多個商業或機構分析流程檢視，並由多學科團隊討論。

按組別劃分的結果

組別	病例數	找出的診斷	診斷檢出率
神經發育	100	10	10.0%
神經肌肉疾病	61	4	6.6%
兒科突發意外死亡	200	2	1.0%
早期思覺失調	15	2	13.3%
總計	376	18	4.8%

早期思覺失調組別規模較小，因此其百分比的置信區間較寬。診斷檢出率亦反映各組別有多大機會存在單基因解釋。

在模型找出候選解釋、專家完成審閱和臨床確認後，醫生在 4.8% 的病例中確立診斷。這個比率不算高，但對這個群體而言有意義，因為先前的專家審查未能解決這些病例。類似再分析研究在經嚴格審閱的病例中報告的增幅通常為個位數；較高檢出率通常來自包含新病例，或已有明確疾病、等待遺傳確認的研究。

在 18 項診斷中，有 7 項屬於重新發現：這些診斷是在本研究流程以外確立，但並未出現在團隊審閱的記錄中。在若干病例中，相關變異已在公共數據庫中列為致病或可能致病，突顯跨資料來源整合資訊的實務挑戰。

識別變異時展現靈活性

在一宗早期思覺失調病例中，模型推斷出一項未列於輸入資料的基因組結構變異。它把第 22 號染色體上一連串低質素變異判讀，與該兒童的心臟、免疫、神經發育及精神科特徵聯繫起來，繼而提出與 DiGeorge 綜合症相關的 22q11.2 缺失假設。這項假設中的變異其後透過跟進基因組測序獲得確認。

雖然提示詞要求找出一個單基因成因，但模型有時會指出兩個更能解釋複雜表現的基因。在一宗病例中，LAMA2 和 FOXP1 的變異合起來有助解釋肌肉和神經發育特徵；另一宗病例則涉及 TTN 和 SRPK3，呈現此前未被識別的雙基因解釋。

提出可測試且符合生物學邏輯的假說

除了診斷外，模型亦為一種稱為白蝕的疾病識別出一個可能屬新的機制性解釋。在一宗神經發育病例中，模型指出一名白蝕患者的 S1PR1 出現 11 個氨基酸缺失。S1PR1 編碼一種細胞表面受體，參與訊號傳遞、免疫細胞移動和組織生物學。模型整合證據後指出，該缺失可能改變受體結構和訊號傳遞，一方面減少色素生成，另一方面亦有助免疫細胞在皮膚中持續存在。

提出的 S1PR1–白蝕關係仍需進一步實驗驗證，但它展示了 AI 的一項重要作用：把結構生物學、免疫學和臨床遺傳學中的零散發現，轉化為具體且可測試的假說。

團隊亦在神經肌肉組別中看到可能的表型擴展。HSPB8 和 CDK13 的有害變異，並不完全符合這些基因最廣為人知的疾病，顯示其臨床表現譜可能更廣，仍需更多病例和實驗室工作加以驗證。

個案研究：Kyra 近二十年後獲得診斷

事情始於空手道課堂，Kyra 的母親留意到，9 歲女兒做步法姿勢時無法像以往蹲得那麼低。Kyra 在足球訓練時也變得較慢，走路和跑步時都踮着腳尖。她的兒科醫生無法找出肌肉無力的成因，因此轉介她到專科醫生。接下來，是一段近 20 年在檢測、治療和會診中尋找診斷的旅程。

Kyra 的病例是神經肌肉組別中找出的四項診斷之一。團隊把她的病情與 HSPB8 的移碼變異聯繫起來，並診斷為一種肌原纖維肌病；在這種疾病中，異常蛋白質結構會在肌纖維中積聚，並導致肌肉無力。在 Kyra 28 歲生日約一星期前，Manton Center 的一名遺傳輔導員致電給她。

那時，Kyra 已花了大半生適應這種疾病。她 13 歲時已需要依賴呼吸機並使用輪椅，不過此後病情已趨於穩定。雖然 Kyra 這種肌原纖維肌病極為罕見，其長期病程仍所知甚少，但診斷讓她得到某種交代。

局限

這項研究顯示，通用推理模型能夠把表型、遺傳、變異註釋、資料質素模式和科學文獻結合成可供審閱的假說，從而為回顧性基因組再分析作出貢獻。它亦說明定期再分析為何重要：有些答案只有在知識進步或零散記錄被整合後才會浮現。

這項研究並非證據，證明患者、臨床醫生或客戶應使用 OpenAI 模型診斷疾病或作出醫療決定。它亦並非描述或認可 OpenAI o3 深度研究、ChatGPT 或任何其他 OpenAI 產品旨在供客戶用於診斷。模型沒有為任何參與者作出診斷；每一項診斷都由醫生和其他合資格臨床專家透過既定審查、檢測和臨床確認流程作出。

這項研究屬回顧性研究，組別異質性高，審閱者在審閱時知道模型的置信度分數。研究人員沒有量度節省了多少時間、成本、臨床醫生所需工作量、假陽性工作量或診療變化。他們亦沒有系統性評估其他形式的遺傳變異，例如結構變異、重複序列擴增、深內含子變化或嵌合現象。

大型語言模型可能誤讀語境，或產生看似合理但經仔細檢視後站不住腳的解釋。因此，每一項結果都經過人類裁定和臨床確認。模型擴大了搜尋範圍，並聚焦其後由人類主導的分析；它並沒有決定應向家庭回報哪些資訊或診斷。

這項研究使用去識別化資訊，沒有在核准環境以外使用或傳輸受保護健康資料。更廣泛的臨床部署，將需要像所有醫療服務一樣，重視私隱、安全、可審計性和本地規管。取得模型使用權並不能取代測序基礎設施、遺傳輔導、確認性檢測或專科判斷。

「瓶頸在於時間。專家一天之中能投放在任何一名患者身上的時間始終有限。」

波士頓兒童醫院 Manton 罕見疾病研究中心 Catherine Brownstein 博士，

「像 Catherine 和我這樣的研究人員，不可能把 8,000 種不同疾病全記在腦中。這就是 AI 的力量。」

Manton 罕見疾病研究中心主任 Alan Beggs

下一步

前瞻性、多中心研究應比較 LLM 輔助再分析與標準做法在診斷檢出率、找出候選解釋所需時間、臨床醫生所需工作量、假陽性負擔、成本，以及對診療的影響方面的差異。版本化提示詞、參考資料檢查、審計日誌和經校準的不確定性，對可重現性和安全性都會很重要。這類研究仍需要合資格臨床醫生評估證據、安排適當檢測，並作出任何診斷或治療決定。

這項研究使用了 OpenAI o3 深度研究。較新的通用模型可以搜尋和綜合更多科學材料，而 GPT‑Rosalind 等專門構建的系統則為更深入的生命科學工作而設計，包括分析變異對蛋白質結構和功能的影響。這些能力並未在此測試，日後需要各自的評估和存取控制。

雖然 OpenAI 協助支持這項初步研究，但下一階段工作將由 Manton Center 透過 OpenAI Foundation 的資助主導。該資助將支持該中心更廣泛的工作，開發一款不受平台限制、低成本的遺傳學 AI 助手，協助臨床團隊更快速且一致地分析罕見病病例。

較長遠的研究機會，是探索由專家主導、AI 輔助的再分析能否幫助科學理解跟上發現步伐。其前景並不是讓 AI 取代醫生診斷，而是經仔細評估的研究工具或可協助專科醫生找出值得調查的證據。對成千上萬個家庭而言，今天未有答案的問題不必永遠沒有答案。