強化 ChatGPT 在敏感對話中的回覆
我們與超過 170 名心理健康專家合作,協助 ChatGPT 更準確地識別心理困擾的徵兆,並以關懷的方式回覆,引導人們尋求現實世界的支援,從而使不符合期望的回覆減少 65% 至 80%。
我們最近升級了 ChatGPT 的預設模型(在新視窗中開啟),以便更有效地識別並支援有心理困擾的用戶。今日我們將分享我們如何實現這些改善,以及它們的運作成效。透過與擁有真實臨床經驗的心理健康專家合作,我們已訓練模型更有效地識別心理困擾、降低對話的緊張情緒,並在適當情況下引導人們尋求專業醫療協助。我們也進一步開放危機求助熱線的使用權限,重新導向(在新視窗中開啟)由其他模型啟動的敏感對話至較安全的模型,並新增溫馨提示,建議在長時間互動間隔稍作休息。
我們深信 ChatGPT 能夠成為一個陪伴與支持的空間,協助人們理解自身的情緒,並在適當的情況下鼓勵他們聯絡朋友、家人或心理健康專業人士。我們在近期模型更新中的安全改進,著重於以下幾個領域:1)精神健康疑慮,例如精神病或躁狂症;2)自殘與自殺;3)對 AI 的情感依賴。展望未來,除了我們長期以來針對自殺和自殘的基準安全指標外,我們將在未來模型發佈的標準基準安全測試中,新增情感依賴和非自殺性心理健康緊急事件的評估項目。
這些更新建立在我們現有的模型行為原則之上,詳見我們的模型規格說明(在新視窗中開啟)。我們已經更新了模型規格說明,讓一些長期目標更加明確:模型應該支持並尊重用戶的真實世界關係,避免確信可能與心理或情緒困擾相關的無根據信念,對潛在的妄想或躁狂跡象作出安全且有同理心的回覆,並更加密切地關注潛在自殘或自殺風險的間接訊號。
為了提升 ChatGPT 在每個優先領域的回覆表現,我們採取五個步驟的流程:
- 定義問題我們歸納出各種可能造成的潛在危害。
- 開始進行測量我們使用評估工具、實際對話數據與用戶研究,來理解風險是在哪裡、以何種方式產生的。
- 驗證我們的做法我們會與外部心理健康與安全領域的專家一起檢討我們的定義與政策。
- 緩解風險我們對模型進行後續訓練並更新產品介入措施來減少不安全的結果。
- 持續測量與反覆調整我們驗證緩解措施是否提升了安全性,並在必要時進行調整。
作為流程的一部分,我們會建立並調整詳細指南(稱為「分類標準」),以說明敏感對話的特性,以及理想與不理想的模型行為模式。這些有助於我們教導模型更恰當地回應,並在部署前後追蹤其表現。最終成果是打造出一個模型,能更穩定、更適當地回覆顯呈現精神病症狀、躁狂症、自殺與自殘想法,或對模型形成不健康情緒依賴的用戶。
心理健康症狀和情緒困擾普遍存在於人類社會中,而不斷增加的用戶族群意味著部分 ChatGPT 對話會涉及這些情況。然而,會引發安全疑慮的心理健康對話,像是精神病、躁狂症或自殺念頭,則是極為罕見的。因為它們非常罕見,即使我們衡量它們的方式有微小差異,也會對我們報告的數字產生重大影響。1
下面提供的數據,是針對實際運行流量所作的普遍性估算,也是現階段最合理的判斷。這些數據可能會隨著我們持續改進分類標準、測量方法更加成熟,以及我們用戶族群的行為改變而發生實質性的變化。
鑑於相關對話的出現率極低,我們不會單獨依賴真實世界的 ChatGPT 使用量測量數據。我們還會在部署前執行結構化測試(稱為「離線評估」),重點針對特別困難或高風險的場景。這些評估被設計成有充分挑戰性,以至於我們的模型尚未能在其上達到完美表現,換句話說,這些範例是經過對抗性篩選的,用以提高誘發不理想回覆的機會率。它們可以向我們展示哪些地方有進一步改進的空間,並透過專注於難度較高的案例而非一般案例,以及根據多項安全條件評估回覆,來幫助我們更精準地測量進度。下列各節所呈現的評估結果源自特別設計,以避免在表現接近完美時過於「飽和」,其錯誤率並不反映實際運行流量的情況。
為了進一步強化我們模型的安全防護,並了解人們如何使用 ChatGPT,我們定義了幾個感興趣的領域,並對其規模及相關的模型行為進行了量化。在所有這三個領域中,我們觀察到在實際運行流量、自動化評估,以及由獨立心理健康臨床醫生評分的評估中,模型的行為都有明顯改善。我們估計,在各種精神健康相關的領域中,模型傳回不完全符合我們分類標準所期望行為的回覆頻率,已減少了 65% 到 80%。
我們的精神健康分類標準旨在識別用戶可能表現出嚴重精神健康問題的跡象,例如精神病和躁狂症,以及程度較輕微的訊號,例如單獨出現的妄想。我們首先關注精神病和躁狂症,因為這些症狀是相對常見的精神健康緊急狀況,而且它們的症狀在發生時往往非常強烈且嚴重。雖然像抑鬱這樣的症狀相對常見,但最嚴重的情況已於我們在防範自殺與自殘方面的防治工作時處理。我們諮詢過的臨床醫生認可我們的關注領域。
- 我們估計 GPT‑5 的最新更新,在最近的實際運行流量中,針對具挑戰性的心理健康問題相關對話的分類標準下,未完全符合預期行為的回覆率減少了 65%。2
- 儘管如前文所述,這些對話因為非常罕見而難以偵測與衡量,我們的初步分析顯示,在特定週內活躍的大約 0.07% 的用戶和 0.01% 的訊息,均呈現可能與精神病或躁狂症相關的心理健康危機跡象。3
- 在涉及具挑戰性的心理健康對話時,專家發現,與 GPT‑4o 相比,新的 GPT‑5 模型(ChatGPT 的預設模型)將不理想的回覆減少了 39%(n=677)。
- 在包含超過 1,000 個具挑戰性精神健康相關對話的模型評估中,我們全新的自動化評估功能顯示,新版 GPT‑5 模型依照分類標準,92% 符合我們的期望行為,而舊版 GPT‑5 僅達 27%。如前文所述,這是一項具有挑戰性的任務,目的是促進持續改善。
我們在現有預防自殺與自殘的項目基礎上繼續發展,以偵測用戶何時可能正在經歷自殺與自殘的想法,或整理可能表明對自殺感興趣的跡象。由於這類對話極為罕見,偵測帶有潛在自殘或自殺指標的對話仍然是一個持續研究的領域,我們正在不斷努力改良。
- 我們訓練我們的模型以安全的方式回覆,包括引導人們前往專業資源,例如危機求助熱線尋求協助。在某些罕見情況下,模型在這些敏感情境中可能無法如預期般運作。隨著我們推出了額外的防護措施和改良後的模型,我們觀察到我們的模型提供不完全符合我們分類標準中期望行為的回覆比率估計減少了 65%。
- 儘管如前文所述,這些對話因為非常罕見而難以偵測與衡量,我們的初步分析顯示,在特定週內活躍的用戶中,大約有 0.15% 的用戶其對話內容含有潛在自殺計劃或意圖的明確指標,並有 0.05% 的訊息含有自殺意念或意圖的明確或隱含訊號。
- 在涉及具挑戰性的自殘與自殺對話時,專家發現與 GPT‑4o 相比,新的 GPT‑5 模型將不理想的回覆減少了 52%(n=630)。
- 在包含超過 1,000 個具挑戰性自殘和自殺對話的模型評估中,我們新的自動化評估功能將新的 GPT‑5 模型評分為 91% 符合我們的期望行為,而舊版 GPT‑5 模型僅達 77%。
- 我們持續改良 GPT‑5 在長篇對話過程中的可靠程度。我們根據現實世界的情境建立了一組新的具挑戰性長篇對話,這些對話以真實場景為基礎,被選出來是因為它們失敗的概率比較高。我們估計,我們最新的模型在長篇對話中保持了超過 95% 的可靠程度,在我們之前提及的一個特別具有挑戰性的環境中得到了改善。
在對詢問具挑戰性有關自殘與自殺指示的長篇對話評估中,gpt-5-oct-3 更安全,且其安全性能在長篇對話中保持得更好。
我們的情感依賴分類(建基於我們先前(在新視窗中開啟)在此範疇的研究上)可以區分健康的使用行為與令人憂慮的使用型態,例如當某人展現出可能對模型產生獨佔性依賴的徵兆,而以犧牲真實世界的關係、個人幸福感或責任為代價時。
- 我們估計,最新的更新令在實際運行流量中,模型回覆未完全符合我們情緒依附分類標準的比率降低了約 80%。
- 儘管如前文所述,這些對話因為非常罕見而難以偵測與衡量,我們的初步分析顯示,在特定週內活躍的大約 0.15% 的用戶和 0.03% 的訊息,均呈現對 ChatGPT 可能有更高程度的情緒倚賴。
- 在顯示情感依賴的具挑戰性對話中,專家發現新的 GPT‑5 模型與 4o 相比,將不理想的答案減少了 42%(n=507)。
- 在包含超過 1,000 個具挑戰性的顯示情感依賴對話的模型評估中,我們的自動化評估功能將新的 GPT‑5 模型評分為 97% 符合我們的期望行為,而舊版 GPT‑5 模型僅達 50%。
對於表示情感依賴的對話,我們教導模型鼓勵用戶與現實世界建立連結:
對於與妄想信念相關的對話,我們教導模型以安全、具同理心的方式回覆,並避免認同沒有根據的信念:
我們建立了一個全球醫生網絡,這是一個由近 300 位曾在 60 個國家執業的醫生與心理學家組成的大型網絡,我們利用它直接為我們的安全研究提供資訊,以反映全球各地的觀點。在過去幾個月裡,超過 170 位這些臨床專業人員(特別是精神科醫生、心理學家和基層醫療人員)透過以下一種或多種方式為我們的研究提供支援:
- 為心理健康相關的提示詞撰寫理想的回覆
- 建立自訂、以臨床知識主導的模型回覆分析
- 對不同模型回覆的安全性進行評分
- 針對我們的做法提供高層次的指引及反饋
在這些評估中,臨床醫生觀察到最新模型的回覆比早期版本更加恰當而且一致。
作為這項目的一部分,精神科醫生和心理學家審查了超過 1,800 個涉及嚴重心理健康情況的模型回覆,並將新的 GPT‑5 聊天模型的回覆與先前的模型進行了比較。這些專家發現新模型比 GPT‑4o 有實質性改進,在所有類別中,不理想的回覆減少了 39-52%。這種文字或觀察性的反饋,與我們在推出新模型時於實際運行流量中觀察到的量化改善互相呼應。
如同任何複雜的議題一樣,即使是專家,有時也會對最佳的回覆持不同看法。我們衡量這種差異的方式是評估評審者之間的一致性,即專家對模型回覆為理想或不理想的判斷達成相同結論的程度。這有助於我們更好地理解專業意見的分歧之處,以及如何讓模型的行為與健全的臨床判斷保持一致。我們發現專家臨床醫生在評分與心理健康、情緒依賴以及自殺相關的模型回覆時,評分者間可靠性尚屬合理,然而某些情況下專家之間仍有分歧,評分者間一致性範圍介乎 71-77% 之間。
與我們在HealthBench上的工作類似,我們與全球醫生網絡合作,開發了針對性的評估工具,用於內部評估模型在心理健康情境中的表現,亦包括新模型發佈前的測試。
這項項目對我們來說至關重要,我們感謝全球許多心理健康專家持續給予指導。我們已取得了有意義的進展,但還有更多工作要做。我們會繼續推進我們的分類標準和技術系統,以便衡量並增強模型在這些領域及未來領域的行為表現。因為這些工具會隨著時間演化,未來的測量結果可能無法與過去的結果直接比較,但它們仍然是追蹤我們方向和發展的重要方式。
您可以在 GPT‑5 系統卡的附錄中閱讀更多有關此項目的資訊。
作者
註腳
- 1
我們面臨著對準確性(我們系統標記的對話實際為不安全的頻率)和召回率(我們系統偵測出的不安全對話比例)之間的取捨。為了取得有用的召回率,我們必須容忍一些誤報(false positives)。這類似對於罕見疾病的檢測:如果某種疾病每 10,000 人中只有一人患上,即使是高度準確的檢測,也有可能讓更多健康的人被誤判為患者。
- 2
這些改動都是以 8 月 15 日推出的(在新視窗中開啟) GPT-5 版本為基準。
- 3
請注意,某些用戶和訊息顯示出可能不只一種類型的風險跡象,例如同時具有自殘和情感依賴的風險,故此處與下方報告中的分類會有若干重疊。


