運用 AI 協助醫師診斷影響兒童的罕見遺傳疾病

在一項 NEJM AI 研究中，專家使用 OpenAI 推理模型重新分析 376 個先前未解案例，並提出 18 項診斷線索。

載入中…

即使有基因組定序，許多罕見疾病患者仍無法獲得明確的基因診斷。經過大量檢測與專科醫師審查後，約有一半仍未獲診斷。他們的醫療資料可能藏有線索，但要找出這些線索，可能需要篩查成千上萬到數百萬個可能的基因變異、零散的臨床紀錄，以及快速變動的科學文獻。

隨著新的基因—疾病關係、病例報告與分類證據不斷累積，未解病例可能重新變得可解讀。

來自波士頓兒童醫院 Manton 孤兒疾病研究中心、哈佛大學與 OpenAI 的研究人員，使用 OpenAI o3 深度研究推理模型，分析 376 個先前已分析但仍未解決案例的去識別化臨床與基因組資訊。模型提出有證據連結的候選解釋，供研究人員與臨床醫師審查。經專家審查、追加檢測與臨床確認後，醫師在 18 個案例中確立診斷；這是在先前專科分析後額外增加 4.8% 的診斷檢出率。這項研究於 2026 年 6 月 18 日發表在 NEJM AI，顯示 AI 輔助研究工作流程如何協助專家在重新檢視部分最棘手病例時產生線索。

這些案例中有許多曾歷經多年專家分析仍無結果。在這項研究中，OpenAI o3 深度研究協助研究人員找出線索，之後再透過既有臨床流程進行評估；這顯示隨著知識演進，由專家主導的定期再分析有機會變得更具擴展性。模型並未診斷任何患者，也未做出任何臨床決策。它產生有證據連結的假說，供專科醫師審查，並在適當時透過追加檢測進一步調查，且於臨床實驗室確認。

為什麼舊病例可能藏有新答案

基因檢測未得出結論，不一定是永久性的結果。患者的表型描述、檢測結果與家族史，可能分散在使用不同識別碼、格式與詞彙的資料庫中。串連這些紀錄並不容易，因此即使是專科醫師也可能漏掉診斷。專家也可能在相關基因或其變異尚未與疾病建立關聯前，就已完成兒童的基因組定序。隨著科學知識進步，同一批資料可能揭示先前不可能發現的答案。

罕見疾病再分析既是科學問題，也是維護問題。患者的基因組可能維持不變，但周圍證據持續變化：研究人員將新的基因與變異連結到疾病，實驗室重新分類舊變異，病例資料庫與論文也不斷累積新的觀察。每一次更新都可能讓一個過去未有結論的病例值得重新檢視，因此許多機構承接了愈來愈多待處理基因組，需要讓它們與不斷移動的知識庫保持同步。

在這項研究中，研究人員將工作流程設計為讓模型作為既有基因組流程之上的「先解釋」推理層。它被要求做的不只是回傳排名最高的基因，而是把臨床特徵、遺傳模式、變異證據與科學文獻串成一套理由，讓人類審查者可以追問檢視。

再分析如何進行

針對每個案例，團隊組成一份去識別化資料包，內含用來描述患者臨床表現的標準化 Human Phenotype Ontology 術語、偶爾出現的臨床醫師筆記與任何描述性臨床診斷、年齡與性別等中繼資料，以及經篩選的變異表。該表記錄每個變異的罕見程度、其對所編碼蛋白質的預測影響、ClinVar 分類，以及可取得家族成員資料中的訊號品質。多數案例包含兒童本人及其兩位生物學父母的資料。

團隊要求模型提出最合理的分子層級解釋，並展示推理依據。接著，研究人員使用臨床實驗室用來分類基因變異的同一套 ACMG/AMP 框架審查輸出。每個候選項目至少由兩名團隊成員審查，分歧透過共識解決，且模型輸出從未被視為診斷。只有在合格專家審查證據、變異被分類為致病或可能致病、通過 CLIA 認證的實驗室確認，且臨床團隊將結果回報給家屬後，一項發現才會被計為診斷。

在分析未解病例之前，團隊先在已有診斷的案例上調整工作流程。在涵蓋多種罕見疾病的 51 個案例中，它在重複執行時於 48 個案例找回了正確的基因與變異。在一組 57 個神經肌肉案例中，該工作流程在重複執行時為其中 45 個案例回傳了正確診斷。在一組 15 個長讀長基因組案例中，它在每個案例都指出正確基因，並在 12 個案例中指出兩個致病等位基因。這些評估有助於提示詞開發，也顯示專家審查仍不可或缺之處。

在這些先前已解決的案例中，模型自行回報的信心分數與正確診斷相符：持續正確判讀的平均最低分數為 85.6，錯誤或未知判讀則為 42.1。這些分數並不是經校準的機率，團隊也未將其用作證據或臨床裁定的替代品。但它們有助於引導專家審查者把注意力放在最有希望的候選診斷上。

工作流程圖，標題為「人類引導的 AI 罕見疾病基因組再分析工作流程」，顯示去識別化患者資料流經人類決策、LLM 證據整合、專家審查、檢測、臨床確認，以及向家屬回報結果。

研究人員發現了什麼

團隊接著將此工作流程應用於四組先前未解的案例：患有神經發育疾病的兒童、患有罕見神經肌肉疾病的人、患有早發性精神病的兒童與青少年，以及兒科猝然意外死亡案例。這些並不是等待初次審查的新案例。其中許多已由多個商業或機構流程檢視，並由多專業團隊討論過。

按隊列列出的結果

隊列	病例數	提出的診斷	檢出率
神經發育	100	10	10.0%
神經肌肉疾病	61	4	6.6%
兒科猝然意外死亡	200	2	1.0%
早發性精神病	15	2	13.3%
總計	376	18	4.8%

早發性精神病隊列規模較小，因此其百分比的信賴區間較寬。檢出率也反映每個隊列具有單基因解釋的可能性。

在模型提出候選項目、專家完成審查與臨床確認後，醫師在 4.8% 的案例中確立診斷。對這個族群而言，這個比例不高但具有意義，因為先前的專家審查並未解決這些案例。類似的再分析研究在經高度審查的案例中報告個位數增益；較高檢出率通常來自包含新案例，或等待基因確認的已知疾病研究。

在 18 項診斷中，有 7 項是重新發現：這些診斷是在本地研究工作流程之外確立，但未出現在團隊審查的紀錄中。在數個案例中，相關變異已在公共資料庫中列為致病或可能致病，凸顯跨資料來源整合資訊的營運挑戰。

展現辨識變異時的靈活性

在一個早發性精神病案例中，模型推斷出基因組中一項未列於輸入資料的結構事件。它將第 22 號染色體上一連串低品質判讀，與該兒童的心臟、免疫、神經發育與精神特徵連結起來，進而假設存在與 DiGeorge 症候群相關的 22q11.2 缺失。這個假設的變異經後續基因組定序確認。

雖然提示詞要求找出一個單基因成因，但模型有時會提出兩個基因，更能解釋複雜的臨床表現。在一個案例中，LAMA2 與 FOXP1 的變異共同有助於解釋肌肉與神經發育特徵；另一個案例則有先前未被辨識出的雙基因解釋，涉及 TTN 與 SRPK3。

產生可檢驗且具生物學一致性的假說

除了診斷之外，模型也為一種稱為白斑症的疾病找出可能的新型機制解釋。在一個神經發育案例中，模型指出一名白斑症患者的 S1PR1 存在 11 個胺基酸缺失。S1PR1 編碼一種參與訊號傳遞、免疫細胞移動與組織生物學的細胞表面受體。模型整合的證據顯示，該缺失可能改變受體結構與訊號傳遞，進而降低色素生成，同時也幫助免疫細胞在皮膚中持續存在。

模型提出的 S1PR1—白斑症關係仍需更多實驗驗證，但它說明 AI 可以發揮強大作用，把結構生物學、免疫學與臨床遺傳學中零散的發現，轉化為具體且可檢驗的假說。

團隊也在神經肌肉隊列中看到可能的表型擴展。HSPB8 與 CDK13 的有害變異並不完全符合這些基因最廣為人知的疾病，暗示可能存在更廣的臨床光譜，需要更多案例與實驗室工作來檢驗。

案例研究：Kyra 近二十年後獲得診斷

事情始於空手道課，當時 Kyra 的母親注意到，9 歲的女兒做站姿時不像以前蹲得那麼低。Kyra 在足球練習時也開始變慢，走路和跑步時都踮著腳尖。她的兒科醫師無法找出肌肉無力的原因，因此將她轉介給專科醫師。接下來，是將近 20 年在檢測、治療與諮詢之間奔波，卻始終沒有診斷的歷程。

Kyra 的案例是神經肌肉隊列中提出的四項診斷之一。團隊將她的病況連結到 HSPB8 的移碼變異，並診斷為一種肌原纖維肌病變；在這種疾病中，異常蛋白質結構會在肌纖維中累積並導致無力。Manton Center 的一位遺傳諮詢師在 Kyra 28 歲生日約一週前打電話給她。

到了那時，Kyra 已花了人生大半時間適應這種疾病。她 13 歲時已需依賴呼吸器並使用輪椅，不過病情後來趨於穩定。雖然 Kyra 這型肌原纖維肌病變極為罕見，人們對其長期病程所知甚少，但這項診斷仍讓她得到某種釋然。

限制

這項研究顯示，通用推理模型可以把表型、遺傳、變異註解、資料品質模式與科學文獻整合成可審查的假說，進而為回溯性基因組再分析做出貢獻。它也顯示定期再分析為何重要：有些答案只有在知識進步，或零散紀錄被整合後才會浮現。

這項研究並不是證據，證明患者、臨床醫師或客戶應使用 OpenAI 模型診斷疾病或做出醫療決策。它並未描述或支持將 OpenAI o3 深度研究、ChatGPT 或任何其他 OpenAI 產品用於診斷的預期客戶用途。模型並未診斷任何參與者；每一項診斷都是由醫師與其他合格臨床專家，透過既有審查、檢測與臨床確認流程做出。

這項研究是回溯性研究，隊列具有異質性，且審查者並未對模型信心分數盲化。研究人員並未衡量節省的時間、成本、臨床醫師投入、偽陽性工作量，或照護變化。他們也未系統性評估其他形式的遺傳變異，例如結構變異、重複序列擴增、深內含子變化或鑲嵌現象。

大型語言模型可能誤讀脈絡，或產生乍看合理但經不起仔細檢視的解釋。因此，每項結果都經過人類裁定與臨床確認。模型擴大了搜尋範圍，並聚焦後續由人類主導的分析；它並未決定應向家屬回報哪些資訊或診斷。

這項研究使用去識別化資訊，未使用受保護健康資訊，也未在核准環境之外傳輸此類資訊。更廣泛的臨床部署，需要像所有醫療照護一樣，同樣重視隱私、安全、可稽核性與當地法規。取得模型並不能取代定序基礎設施、遺傳諮詢、確認性檢測或專科判斷。

「瓶頸在於時間。專家一天中能投入在某一位特定患者身上的時間終究有限。」

Catherine Brownstein 博士，波士頓兒童醫院 Manton 孤兒疾病研究中心

「像 Catherine 和我這樣的研究人員，不可能把 8,000 種不同疾病都記在腦中。這就是 AI 的力量。」

Alan Beggs，Manton 孤兒疾病研究中心主任

接下來是什麼

前瞻性、多中心研究應在診斷檢出率、產生候選項目的時間、臨床醫師投入、偽陽性負擔、成本，以及對照護的影響等方面，比較 LLM 輔助再分析與標準做法。版本化提示詞、參考資料檢查、稽核記錄與經校準的不確定性，對可重現性與安全性都很重要。這類研究仍需要合格臨床醫師評估證據、開立適當檢測，並做出任何診斷或治療決策。

這項研究使用的是 OpenAI o3 深度研究。較新的通用模型可以搜尋並整合更多科學材料；而 GPT‑Rosalind 等專用系統則為更深入的生命科學工作而設計，包括變異對蛋白質結構與功能的影響。這些能力並未在此測試，未來需要各自的評估與存取控制。

雖然 OpenAI 協助支持了這項初步研究，但下一階段工作將由 Manton Center 透過 OpenAI Foundation 的補助主導。這筆補助將支持該中心更廣泛的努力：開發一個平台無關、低成本的遺傳學 AI 副駕駛，協助臨床團隊更快速且一致地分析罕見疾病案例。

較長期的研究機會，在於探索由專家主導的 AI 輔助再分析，是否能協助科學理解跟上發現的步伐。其前景並不是讓 AI 取代醫師診斷，而是經過審慎評估的研究工具或許能協助專科醫師找出值得調查的證據。對數以千計的家庭而言，今天尚未回答的問題不必永遠沒有答案。