在健康方面尋求協助,是大眾使用 ChatGPT 最具意義的方式之一。每星期,超過 2.3 億人使用 ChatGPT 解答健康及身心健康問題,包括理解健康資訊、解讀化驗結果、為求診作準備、處理醫療保險事宜、建立更健康的習慣,以及思考接下來應該問甚麼。
GPT‑5.5 Instant 在處理健康問題方面有顯著進步,包括更能判斷何時可能需要緊急求醫、主動了解相關背景、說明不確定性,以及以更易明的方式解釋複雜資訊。在最具挑戰性的健康評估中,GPT‑5.5 Instant 現時的表現已與我們的前沿 Thinking 模型相若。由於 ChatGPT 免費用戶亦可使用這款模型,更多人能夠受惠於這些改進。這些改進可讓大眾更容易理解健康資訊、提出更好的問題,並清楚知道下一步該怎樣做。
這些進展既來自模型能力的提升,也有賴醫生主導我們的健康評估工作。在各項工作中,來自全球的醫生會審閱模型回覆範例、描述理想表現,並找出失效模式,協助我們界定在真實健康情況下怎樣才算是「良好」回覆。透過與醫生合作,我們得以衡量健康領域的進展,並持續改進 ChatGPT 的回應方式。
在健康領域,進展代表能夠提供準確、易明,並建基於良好判斷的回覆:知道何時需要了解更多背景、在不過度肯定的情況下說明不確定性,以及協助人們判斷何時應該求醫。
為了衡量這些進展,我們採用專門針對健康領域的評估,包括 HealthBench 及 HealthBench Professional。這些評估透過貼近現實的健康對話及由醫生撰寫的評分準則,評估準確性、安全性、溝通、掌握背景資料的能力、完整性,以及能否適時建議尋求進一步醫療協助等表現。
在包括 HealthBench Professional 在內的多項健康評估綜合結果中,GPT‑5.5 Instant 的健康領域表現與我們最新的前沿模型相若,並較 GPT‑5.3 Instant 有顯著提升。5.5 Instant(2026 年 5 月發佈)及 5.3 Instant(2026 年 3 月發佈)均供所有 ChatGPT 免費用戶使用(設有使用限額);5.4 Thinking 及 5.5 Thinking 的成本則按 API 定價計算。
作為另一項比較,我們亦請醫生在不限時間、可以使用互聯網但不可使用 AI 的情況下,為具代表性的健康對話撰寫回覆。其後,另一組醫生把這些回覆與不同時期的 Instant 模型回覆作比較,並就真實互動中重要的範疇進行評審,包括準確性、溝通、完整性、遵從指示,以及對健康決策的幫助程度,合共評審了 3,500 則回覆。
在這項評估的各個維度中,GPT‑5.5 Instant 回覆的評分均高於醫生撰寫及舊模型生成的回覆。
醫生評定 GPT‑5.5 Instant 回覆出現失效模式的情況,少於舊模型及醫生撰寫的回覆。例如,與舊模型及醫生相比,GPT‑5.5 Instant 較少出現未有因應當地醫療體系調整回應、未有識別警示徵兆或建議求醫,以及在有需要時未有向用戶了解更多背景資料的情況。
鑑於我們的模型廣泛用於健康範疇,衡量正式服務流量亦是了解近期模型改進的另一種方法。我們採用保障私隱的監測機制,追蹤正式服務流量中健康回覆可能出現的事實準確性問題。比較近期每星期數十億則的健康相關正式服務訊息後,我們發現在過去兩個月,至少有一項事實準確性問題被標記的回覆比例下降了 71%。
比較模型在不同時期就真實健康問題作出的回覆,可以看出 ChatGPT 在健康領域的重要改進:判斷情況何時可能需要緊急處理、以更佳判斷應對不確定性,以及更清晰實用地指引人們下一步該怎樣做。
GPT-5.2 Instant
按一下模型名稱,即可查看該模型的其他回覆。
這些進展有賴醫生參與,他們協助我們界定、衡量及改進 ChatGPT 的健康回覆。
OpenAI 與一個由超過 260 名醫生組成的全球網絡合作,涵蓋 60 個國家、49 種語言及 26 個醫學專科。他們的意見有助改進 ChatGPT 在各種情況下回答健康問題的方式,由日常身心健康問題以至較複雜的臨床情況。
醫生會審閱模型回覆範例,評估回覆是否準確、清晰、完整、審慎得宜和實用。他們協助找出回覆可能遺漏重要背景、語氣過於肯定、需要更清楚交代後續行動,或應更直接鼓勵用戶求醫的地方。
截至目前,醫生已審閱超過 700,000 則模型回覆範例,反映臨床醫護人員及病人在現實環境中可能如何使用 ChatGPT。每隔幾分鐘,就有一名醫生審閱一則新回覆。他們的意見會轉化為評分準則及評估標準,協助研究人員衡量回覆在真實健康情況下是否準確、安全、清晰、完整、審慎得宜和實用。這讓我們更清楚了解模型在哪些方面有所改進,以及哪些方面仍需改善。
這項工作亦支援 OpenAI 在健康領域的其他工作,包括協助人們更好理解和運用健康資訊的工具,以及專為臨床醫護人員而設的工具,例如 ChatGPT 臨床醫生版及 OpenAI 醫療護理版。這些工具協助醫療專業人員處理文件記錄、研究及醫療諮詢等工作。
改善人類健康將會是 AGI 最切身、最實在的影響之一。隨着模型持續改進,我們的目標是讓 ChatGPT 在人們需要健康協助時提供更準確、更審慎和更實用的回覆,並讓更多人持續受惠於這些進展。


