跳到主要內容
OpenAI

2026年6月3日

產品研究發佈

為 GPT‑Rosalind 引入新能力

為生命科學行業帶來更強智能,並建基於真實科學工作流程。

我們推出 GPT‑Rosalind 系列的新模型更新,專為企業規模的生命科學研究而設。它結合 GPT‑5.5 的智能代理式編碼和工具使用能力,並在藥物化學、基因組學等核心藥物發現領域具備更強模型智能,同時提升更廣泛生命科學分析、設計和實驗工作流程的表現。

生命科學的進展有賴跨不同尺度和模態整合資料與證據,包括分子、基因、通路和生命系統。在我們的評估中,更新後的 GPT‑Rosalind 在生物學專家研究任務、複雜藥物化學查詢、定量生物學和濕實驗室疑難排解方面,都帶來廣泛表現提升。

GPT‑Rosalind 現已透過我們的可信存取部署架構,以研究預覽形式向全球合資格機構提供。

提升具科學價值任務的表現

為衡量並持續改善 GPT‑Rosalind 的實際影響,我們設計了 LifeSciBench,這是一項由外部專家評審的基準,聚焦生命科學研究的基礎層面。現有基準通常孤立評估模型表現或生物領域的單一組成部分;LifeSciBench 則從端到端角度審視具科學價值的工作,任務涵蓋生命科學研究的六個核心工作流程領域:證據處理、分析、設計與優化、科學推理、驗證與營運,以及轉化與傳意。我們使用這項基準,讓進展更貼近生命科學研究的需要和實際情況。

GPT‑Rosalind 在由業界和學術專家識別的具科學價值任務上表現領先。

從論文、圖像、表格和實驗記錄中擷取、整合並審核科學證據。

評估示例

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

  • Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
  • 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
  • Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
  • 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
  • Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
  • Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
  • Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

候選回覆

結論:按目前呈現,此套件不足以支持以微肌營養不良蛋白表達作為合理可能預測臨床獲益的替代端點,從而獲得加速批准。持審慎態度的 FDA 審評員很可能認為,生物標誌物、功能、持久性、安全性和普適性證據都明顯不足。

套件項目

主要失效模式

所需內容

Western blot 定量

MANEX1A 結合內源性全長肌營養不良蛋白與微肌營養不良蛋白轉基因共有的 N 端表位,因此該測定不能清楚區分轉基因與殘留/返祖肌營養不良蛋白。以健康全長肌營養不良蛋白標準來定量 138 kDa 微肌營養不良蛋白亦無效。

使用重組微肌營養不良蛋白標準,以及可區分轉基因與內源性肌營養不良蛋白的正交方法,例如靶向質譜或轉基因特異/表位特異測定。

免疫螢光

C 端多克隆抗體並不適合,因為 138 kDa 構建體缺少 C 端結構域。許多 DMD 患者有返祖纖維,而返祖肌營養不良蛋白可保留 C 端表位。返祖纖維可隨年齡克隆擴增,使 IF 訊號產生偏差,尤其是在年齡較大的男童中。

使用針對轉基因中存在、但返祖肌營養不良蛋白中不存在的表位的抗體重複 IF。分別定量轉基因陽性纖維和返祖纖維。

替代端點有效性

該套件混淆了蛋白量與臨床功能。「健康對照蛋白質量的 38%」不等於正常肌營養不良蛋白功能的 38%,因為微肌營養不良蛋白在結構上被截短。

在把表達視為替代端點之前,應以實證驗證微肌營養不良蛋白質量百分比、肌膜定位、下游功能恢復和臨床獲益之間的關係。

活檢設計

治療前後取對側股外側肌活檢,會引入左右差異和肌肉內空間變異。疾病進展和纖維脂肪替代亦可改變按總蛋白標準化的訊號。

使用一致的解剖標誌標準化活檢位置,按肌肉特異性蛋白標準化,並同步測量纖維脂肪組成。

NSAA 比較組/統計

外部自然史隊列並非隨機同期對照。試驗資格、支持治療、參與效應、基線 NSAA、類固醇方案、年齡和外顯子類別,都可能令比較產生偏差。未配對 t 檢驗並不足夠。此外,+1.4 NSAA 變化處於此年齡組的重測變異範圍內。

進行隨機同期安慰劑對照研究,或至少使用校正分析,納入基線 NSAA、年齡、類固醇方案、外顯子類別和其他混雜因素。

年齡窗口混雜

4–7 歲男童處於發育窗口,未治療而可行走的 DMD 患者,在衰退成為主導前可能出現運動功能增長。48 週 NSAA 變化混合了發育增長、疾病進展和可能的治療效果。

使用按年齡分層的同期隨機對照,以區分發育軌跡與治療效果。

既往臨床先例

開放標籤微肌營養不良蛋白功能訊號,並未可靠預測確認性獲益;已發表先例包括微肌營養不良蛋白基因治療確認性試驗,未能重現開放標籤 NSAA 改善。

不要依賴開放標籤 NSAA 變化作為決定性支持。應要求受控功能證據。

構建體的結構限制

138 kDa 構建體刪除了含 nNOS 結合位點的血影蛋白重複 R16/17。nNOS 招募喪失可削弱運動期間的功能性交感抑制和缺血保護,形成獨立於表達水平的機制性救援上限。

加入機制研究,顯示此特定構建體是否恢復相關肌營養不良蛋白相關複合體功能、nNOS 定位、運動生理和肌肉保護。

AAV 持久性

12 週時的載體基因組不能確立持久表達。AAV9 基因組主要是不整合的附加體,可能隨時間下降。載體基因組持續存在不等於蛋白質表達持續存在。

測量超過 12 週的縱向轉基因蛋白質表達和功能生物標誌物持久性。

免疫/安全性概況

12 名患者中有 8 名出現轉氨酶升高,符合對 AAV 轉導細胞的免疫反應,但機制尚未確立。鑑於 AAV9 具有心臟嗜性,一宗心肌炎病例令人關注。

提供更深入的免疫監測、肝臟/心臟安全性表徵,以及更密切的心臟後續追蹤。

患者選擇/普適性

排除抗 AAV9 中和抗體陽性患者會限制普適性。排除外顯子 44 缺失會限制對該 DMD 亞群的適用性。n=12 太小,無法描述更廣泛 DMD 人群的安全性和療效。

在可行情況下擴大資格,或在使用結果支持廣泛批准前,預先指定按抗體狀態、基因型/外顯子類別、年齡和基線功能分層的分析。

監管結論:該套件或可顯示生物活性,但尚未證明所測得的微肌營養不良蛋白表達,是可靠且合理可能預測臨床獲益的替代指標。主要缺口包括測定特異性、無效的定量標準、可能的返祖纖維混雜、缺乏隨機對照、年齡相關 NSAA 混雜、持久性不確定,以及安全性/普適性問題未解決。

為收窄缺口,該項目需要受控、按年齡分層的臨床設計,並配備轉基因特異表達測定、正交蛋白質定量、組織組成控制、縱向持久性資料、截短構建體的機制性功能測定,以及更強的安全監測,尤其是肝臟和心臟方面。

評分標準和成績

標準
分數
Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.
+24
Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.
+22
Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.
+19
Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.
+12
Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.
+15
Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.
+8

更強的科學推理

藥物化學

GPT‑Rosalind 在藥物化學取得業界領先表現。藥物化學專注於把分子轉化為有用藥物。我們設計 MedChemBench,以反映真實藥物化學工作流程,評估多模態化學結構理解、構效關係 (SAR)、藥物效力、毒性與吸收、分佈、代謝、排泄 (ADME) 預測、多參數先導化合物優化決策,以及逆合成。在 MedChemBench 上,GPT‑Rosalind 以 27.5% 對 25.1% 的表現比 GPT‑5.5 更加優勝,同時使用的 Token 少 7.2%。

GPT‑Rosalind 在藥物化學中展現更佳多模態整合和機制推理。

基因組學與定量生物學

在 GeneBench 這項針對基因組學和定量生物學長程端到端分析的智能代理式評估中,GPT‑Rosalind 使用的 Token 較 GPT‑5.5 少 31%,同時達到更高準確率:21.6% 對 20.4%。GeneBench 評估長程定量任務上的智能代理式表現:基於真實科學資料,智能代理能否規劃有效分析、QC、建模和校正,以得出與決策相關的答案?所含問題涵蓋多個領域,包括功能基因組學、空間轉錄組學、蛋白質組學、表觀基因組學和應用遺傳學。

GPT‑Rosalind 使用的 Token 較 GPT‑5.5 少 31%,同時提升準確率。

協助真實世界的實驗室工作

我們推出一項新評估,用以測試 GPT‑Rosalind 協助科學家進行真實世界實驗室工作的能力。LabWorkBench 測試模型在科學家使用的真實濕實驗室實驗方案中,將擾動與實驗結果連繫起來的能力,用途涵蓋從疑難排解到優化。LabWorkBench 使用的資料屬專有資料,因此未受污染。GPT‑Rosalind 得分為 63.2%,GPT‑5.5 為 55.8%,同時使用的 Token 少 5.3%。

在真實濕實驗室實驗方案協助方面,GPT‑Rosalind 較 GPT‑5.5 顯著提升,同時改善 Token 效率。

從推理到工作流程執行

我們建立了 Life Sciences Research(在新視窗中開啟)Life Sciences NGS Analysis(在新視窗中開啟) 外掛程式,以實用的執行層擴展 GPT‑Rosalind 的更強智能,支援可重複的科學工作流程。這些外掛程式把附來源的證據檢索、生物學詮釋和生物資訊學執行整合到同一工作區,協助研究人員把外部證據與內部組學分析連繫起來,同時保留輸出產物和來源資訊。所有用戶現在都可透過 Codex 使用這兩個外掛程式。合資格的 GPT‑Rosalind 企業用戶亦可使用 GPT‑Rosalind 驅動這些外掛程式。

為了更好地把 Codex 用作科學家的動態工作台,我們加入了針對生物學原生檔案類型的互動檢視器。首批序列、比對和結構檢視器旨在讓科學家在 GPT‑Rosalind 跨工作流程推理時貼近證據,並直接根據目前開啟的檢視器內容回答後續問題。

上方示範展示了由 GPT‑Rosalind 編排的這些能力在實際情境中的運作。我們跟隨一位科學家研究液體腫瘤活檢,以識別可為治療提供依據的突變和其他分子變化。Life Sciences NGS Analysis 外掛程式會把對已處理 ctDNA 記錄的審閱轉化為互動式分析 notebook,呈現反覆出現的變異、低頻判讀和樣本軌跡,將研究焦點集中於 KRAS G12C。之後,Life Sciences Research 外掛程式會加入附來源的靶點、抑制劑和抗藥性背景;原生序列、比對和結構檢視器則讓科學家直接檢視突變殘基 12、其在 RAS 家族中的保守性,以及抑制劑結合口袋。工作流程最後把這些證據轉化為具體後續選項,每個步驟和輸出產物均可供專家審閱。

電腦螢幕顯示一個工作區,指示使用 NGS Analysis 外掛程式探索 ctDNA 突變資料。螢幕包含多個棒形圖,標示為「最常見詳細組織學」和「按突變 cfDNA 樣本排序的最常變異基因」,顯示癌症類型和基因變異資料。文字描述資料集、主要發現和分析參數。

Life Sciences NGS Analysis 外掛程式

scRNA-seq QC 與註釋

分割畫面生物資訊學工作流程截圖。左側面板顯示 AI 助手總結已完成的單細胞 RNA 測序(scRNA-seq)質素控制分析,包括生成檔案、QC 指標、UMAP 視覺化和細胞類型註釋。右側面板顯示「scRNA QC 審閱」報告,包含總計數、檢測到的基因和線粒體百分比直方圖,旁邊有顯示 QC 通過/不通過計數及篩選後細胞群的長條圖。介面顯示在藍綠漸變背景上。

將 10x 風格矩陣套裝轉化為經 QC 篩選、可在 Codex 中檢視和修訂的單細胞輸出產物、註釋和 UMAP。Life Sciences NGS Analysis 外掛程式會將請求轉送至 scrna-seq-qc,根據資料選擇 QC 閾值,保留篩選和註釋相關的來源資訊,並顯示缺少雙細胞偵測依賴項等阻礙因素。

Bulk RNA-seq FASTQ QC

RNA-seq 工作流程分割畫面:左側 AI 助手總結已完成的 bulk RNA-seq 質素控制結果,右側顯示包含測序統計和 Salmon 指標的互動 MultiQC 報告。

將 bulk RNA-seq 樣本表、FASTQ 套裝和參考檔案轉化為經 QC 審閱、可在 Codex 中檢視和重用的計數套裝。Life Sciences NGS Analysis 外掛程式會轉送請求、驗證輸入,並回傳可審核的執行封套,當中包含 MultiQC、Salmon 矩陣、來源資訊和清晰限制說明。

為可信機構擴大存取

我們正將 GPT‑Rosalind 系列的存取範圍擴展至全球合資格機構。GPT‑Rosalind 將透過我們的可信存取部署架構,以研究預覽形式向符合條件的機構提供;這些機構須從事具明確公共利益的合法科學研究,具備穩健的治理和安全監督,並以企業級安全措施控制存取。

作為這次全球擴展的一部分,我們很高興能協助 Novo Nordisk 透過 GPT‑Rosalind 擴展其醫學研究,支持其更快為患者帶來創新治療選項的使命。Novo Nordisk 正運用前沿 AI 能力,協助研究人員分析複雜資料集、發掘有用模式,並更快測試假設。GPT‑Rosalind 更強的生物學理解能力將協助團隊連繫文獻、基因組學、轉錄組學、序列、結構和實驗結果中的證據,讓他們更容易把資料轉化為更清晰的研究決策。

「生命科學研究複雜、資料豐富且跨學科。要為研究人員帶來有意義的價值,先進 AI 模型必須建基於可信科學資料、連接至已驗證工具,並整合到研究人員每日使用的真實工作流程中。我們很高興與 OpenAI 合作,並有機會探索 GPT‑Rosalind 如何支持更嚴謹、實用的藥物發現方法。」

Novo Nordisk 研發部 AI 與數碼創新集團副總裁 Mishal Patel

我們現亦為沒有 Enterprise 帳戶的合資格機構提供由 OpenAI 管理的工作區。

下一步

更新後的 GPT‑Rosalind 是我們更廣泛承諾的下一步:建立可協助加速科學發現的 AI 系統,同時確保先進生物能力在適當保障下部署。我們將繼續提升模型的生物學推理能力,擴大對工具密集和長程研究工作流程的支援,並與各地合資格機構合作評估實際影響。

這亦意味着把生命科學 AI 應用於具重大影響力、符合公共利益的工作,涵蓋藥物發現、轉化醫學、公共衞生、應急準備和生物防禦。透過 Rosalind Biodefense 計劃和我們的可信存取部署模式,我們希望把前沿生物能力交到致力改善人類健康、增強社會韌性的研究人員、機構和防禦工作者手中。

我們將繼續發展 GPT‑Rosalind,讓它在科學研究的完整生命週期中成為能力更強的夥伴,協助科學家更快從提出正確問題,走向更清晰證據、更佳實驗,並最終為患者帶來新療法。