強化 ChatGPT 在敏感對話中的回應
我們與 170 多位心理健康專家合作,協助 ChatGPT 更能穩定辨識情緒困擾的跡象、給予關懷並引導人們尋求實際支持;而結果顯示回應無法達到所期待行為的情況大降 65-80%。
我們最近更新了 ChatGPT 的預設模型(在新視窗中開啟),使其更能在辨識出人們情緒困擾的時刻並給予支持。現在我們將分享我們如何進行這些改良及執行方式。我們與具實際臨床經驗的心理健康專家合作,提升模型辨識情緒困擾的能力、把對話降溫,並在適當時機引導人們尋求專業照護。我們也將進一步擴大開放危機求助熱線的使用權限,將源自其他模型的敏感對話重新導向至(在新視窗中開啟)更安全的模型,也加入了溫馨提醒功能,建議在長時間對話時稍作休息。
我們相信 ChatGPT 能為人們提供支持陪伴的空間,讓他們消化及處理自身情緒,還能引導他們向朋友、家人尋求支持,並在適當時機尋求心理健康專業人士的協助。在最新的模型更新中,我們提供了數項著重於下列領域的安全改良:1) 精神病或狂躁等心理健康疑慮;2) 自殘或自殺;以及 3) 對 AI 的情感依賴。往後除了用於自殺和自殘方面的長期安全指標基準外,我們還會在未來模型發佈的標準基準安全測試集中增加情感依賴和非自殺性的心理健康緊急狀況。
這些更新是根據我們目前對模型應具行為的原則所建立;原則的概要請見我們的模型規格(在新視窗中開啟)。我們已更新了《模型規格》以進一步釐清我們的長期目標:模型應支持並尊重使用者現實生活中的人際關係;模型應避免認可沒有根據且可能與心理或情緒困擾相關的信念;模型應透過安全及同理的方式回應妄想或狂躁的可能跡象並密切關注有潛在自殘或自殺風險的間接信號。
為了改善 ChatGPT 在各優先領域的回應方式,我們遵從五步驟流程:
- 定義問題:列出各種不同的可能傷害。
- 開始評估:使用評估方法、實際對話資料和使用者研究等工具來理解何處可能發生風險以及風險發生的方式。
- 驗證方法:與外部的心理健康和安全專家合作審查各項定義和政策。
- 緩解風險:對模型進行後訓練並更新產品介入措施,藉此減少不安全的結果。
- 持續評估並反覆確認:驗證緩解措施能否改善安全性,並在必要時反覆確認。
在此流程中,我們制定並調整詳細指南 (稱為「分類」),說明敏感對話的特點以及模型的理想和不理想行為。這些分類能協助我們訓練模型進行更恰當的回應,並追蹤模型在部署前後的表現。結果是模型在面對顯現精神病、狂躁、自殺與自殘念頭,或對模型產生不健康情感依附等症狀的使用者時,能更穩定恰當地予以回應。
心理健康症狀和情緒困擾普遍存在於人類社會,而使用者人數越來越多代表著 ChatGPT 某些對話中不可免地會包含這些情況。不過,會觸發安全疑慮 (例如精神病、狂躁或自殺念頭等) 的心理健康對話仍極為罕見。由於並不常見,所以即使評估的方法差異甚微,也可能對報告數字產生顯著的影響。1
以下提供的資料是根據目前生成流量所做的流行率估算,也是目前所能提供的最合理判斷。隨著分類持續調整、我們的測量方法逐漸成熟,或使用者族群的行為改變,這些估算值可能會大幅改變。
由於相關對話的出現率極低,我們不會完全仰賴實際 ChatGPT 的使用量測量值。在部署之前,我們也會執行結構化測試 (稱為「離線評估」) 並特別關注非常困難或高風險的情境。這些評估會調高挑戰度,讓模型的表現無法達到盡善盡美,也就是在挑選範例時,刻意提高引發不理想回應的可能性。我們可以從評估中找出進一步改良的契機,然後專注於困難的、而非一般的案例,並根據多重的安全條件來為回應評分。底下章節的評估結果來自於專門設計的評估方法,目的是在接近完美表現時仍保持效能,而且錯誤率並不足以反映實際運行的平均流量。
為進一步強化模型的防護機制並了解大家使用 ChatGPT 的方式,我們定義了數種興趣範圍,並將其規模與相關的模型行為加以量化。我們在實際運行流量、自動化評估,以及由獨立的心理健康臨床專業人士所做的評估這三個範圍中,分別觀察到模型行為都有顯著的改善。我們估計,目前在各項心理健康相關的領域中,模型傳回不完全符合我們分類中所期待行為的回應頻率,已減少了 65% 到 80%。
我們的心理健康分類的設計目的,是能在使用者顯露嚴重心理健康疑慮 (例如精神病和狂躁) 以及較不嚴重的徵兆 (例如孤立妄想) 時加以辨識。我們一開始先把重點放在精神病和狂躁上是因為,相對而言,這些症狀是常見的心理健康急症且發作時症狀較為劇烈和嚴重。雖然憂鬱這類症狀也相對常見,但最嚴重的情況我們已在自殺和自殘防範工作中予以處理。在諮詢過臨床專業人士後,我們所選的重點範圍已獲認可。
- 我們估計 GPT‑5 在最近期的更新後,在實際運行流量中回應心理健康問題相關的困難對話時,模型傳回不完全符合分類中所期待行為的回應機率已降低了 65%。2
- 而且如上所述,這些對話因為相當罕見而很難偵測和測量,我們的初步分析估計每週約有 0.07% 的活躍使用者以及 0.01% 的訊息可能呈現與精神病或狂躁相關的心理健康急症跡象。3
- 而在回應心理健康的困難對話方面,專家發現與 GPT‑4o 相較,新版 GPT‑5 模型 (ChatGPT 的預設模型) 能減少不理想回應達 39% (樣本數=677)。
- 在一項包含 1,000 多筆心理健康相關困難對話的模型評估中,我們全新的自動化評估功能將 GPT‑5 模型評定為 92% 符合分類的理想行為,而前一代的 GPT‑5 模型為 27%。如前所述,這是一項困難任務,專為持續改善模型而設計。
我們的現有工作均從自殺與自殘防範出發,希望偵測出使用者有自殺和自殘念頭的情況或可能暗示考慮自殺的綜合跡象。由於這些對話相當罕見,如何在對話中偵測出自殘或自殺的可能指標仍是一項需要不斷投入的研究領域,我們也將繼續努力,以期有所進展。
- 我們訓練模型以安全方式回應,包括引導使用者求助專業資源,如危機求助熱線等。在部分罕見案例中,模型的行為可能會不合乎敏感情境的預期。隨著更多防護機制及改良模型的推出,我們觀察到模型傳回不完全符合分類中所期待行為的回應機率估計已降低 65%。
- 而且如上所述,這些對話因為相當罕見而很難偵測和測量,我們的初步分析估計每週約有 0.15% 的活躍使用者可能包含潛在自殺計畫或意圖的具體指標,0.05% 的訊息則包含自殺意念或意圖的具體或隱含指標。
- 在回應自殘和自殺對話方面,專家發現與 GPT‑4o 相較,新版 GPT‑5 模型能減少不理想回應達 52% (樣本數=630)。
- 在一項包含 1,000 多筆自殘與自殺困難對話的模型評估中,我們全新的自動化評估功能將 GPT‑5 模型評定為 91% 符合理想行為,而前一代的 GPT‑5 模型為 77%。
- 我們已持續改善 GPT‑5 在長篇對話中的可靠度。我們根據真實情境制定了一組新的困難長篇對話,這些情境是因其失敗可能性較高而獲選。我們估計最新模型在較長篇對話中仍可維持 95% 以上的可靠度,而在我們先前提及的特別困難的情況中還有進一步改善。
在評估要求自殘或自殺指示的困難長篇對話時,10 月 3 日所發佈的 GPT‑5 較為安全,且在長篇對話中有較高的機會保持安全。
我們的情感依賴分類 (基於我們在此領域的先前工作(在新視窗中開啟)) 區隔出健康互動以及令人擔憂的使用模式,比如犧牲現實中的人際關係、身心健康或責任義務而展現完全依附模型的可能跡象。
- 我們估計在近期更新後,在實際運行流量中回應心理健康問題相關的困難對話時,模型傳回不完全符合情感依賴分類中所期待行為的回應機率已降低約 80%。2
- 而且如上所述,這些對話因為相當罕見而很難偵測和測量,我們的初步分析估計每週約有 0.15% 的活躍使用者以及 0.03% 的訊息,呈現高度情感依賴 ChatGPT 的情況。3
- 在暗示情感依賴的困難對話方面,專家發現與 GPT‑4o 相較,新版 GPT‑5 模型能減少不理想回應達 42% (樣本數=507)。
- 在一項包含 1,000 多筆暗示情感依賴的困難對話的模型評估中,我們全新的自動化評估功能將 GPT‑5 模型評定為 97% 符合理想行為,而前一代的 GPT‑5 模型為 50%。
對於暗示情感依賴的對話,我們訓練模型鼓勵使用者建立實際的人際連結:
對於與妄想相關的對話,我們訓練模型以安全同理的方式回應,並避免認可沒有根據的想法:
我們已建構「全球醫師網」,這是由在 60 個國家/地區執業的近 300 位醫師和心理學家所組成的人才資源庫,能為我們的安全研究提供直接諮詢管道且具有全球代表性。過去幾個月已有 170 多名臨床專業人士 (尤其是精神科醫師、心理學家和初級保健醫師) 支援我們的研究,並提供下列一項或多項協助:
- 為心理衛生相關的提示撰寫理想回應
- 根據臨床經驗建立模型回應的分析
- 評比不同模型的回應安全性
- 對我們的方法提供高等級的指引及回饋
在這些審查中,臨床專業人士會觀察最新模型的回應是否比之前版本的更為恰當和一致。
在此項作業中,精神科醫師和心理學家審查了 1,800 多筆涉及嚴重心理健康狀況的模型回應,並將新版 GPT‑5 模型與前版模型的回應進行比較。這些專家發現與 GPT‑4o 相比,新模型已大幅改善,所有類別的不理想回應數量下降了 39-52% 不等。這項量化回饋,與我們在新模型推出時在實際運行流量所觀察到的量化改善度相仿。
如同任何複雜的主題,就算專家有時也無法對最佳回應內容取得共識。我們透過「評估者間一致性」來測量這項差異,也就是專家對模型回應理想與否達成相同結論的頻率。這種做法能協助我們進一步了解專業意見的差異,以及如何根據周全的臨床判斷調校模型的行為。我們觀察到臨床專家在評估心理健康、情感依賴和自殺相關的模型回應時,彼此間的一致性相當不錯,但某些案例仍有專家意見不一致的情況,評估者間的一致性落在 71-77% 之間。
與 HealthBench 研究類似,我們與「全球醫師網」合作以產生有特定目標的評估,然後在內部用這些評估來衡量模型在心理健康情境的表現,包括在發佈前對新模型進行評估。
這項研究對我們非常重要,我們全心感謝全球持續給予指導的眾多心理健康專家。我們已有長足進步,但仍有許多地方要努力。我們將持續改良分類方法和用於測量的技術系統,並強化模型在這些與未來領域的行為。由於工具會隨時間演進,未來的測量數據不一定可以直接與過去的資料比較,但這些工具仍會是我們記錄前進方向和進展的重要方式。
如需深入了解本項研究,請參考 GPT‑5 系統說明卡的附錄。
作者
註腳
- 1
我們面臨的是準確率和有效性之間的取捨,也就是系統標記出不安全對話的頻率多高,以及系統能偵測出多少比例的不安全對話。為了提升有效性,我們必須容忍一些假陽性的情況。這與罕見疾病的測試類似:假設疾病在每 10,000 人之中會影響 1 人,則即使準確率很高的測試仍會標記出比病人更多的健康人。
- 2
所有變化都是以 8 月 15 日發佈的(在新視窗中開啟) GPT-5 版本作為比較基準。
- 3
請注意,某些使用者和訊息可能會顯示一種以上的風險,例如同時有自殘和情感依賴,因此此處與下方報告的類別會有部分重疊。


