跳到主要內容
OpenAI

2025年8月26日

安全產品

於大家最有需要時提供協助

正在載入...

隨着 ChatGPT 在全球的採用率越來越高,我們看到大家不僅運用 ChatGPT 進行搜尋、編寫程式碼和寫作,也在生活建議(在新視窗中開啟)輔導(在新視窗中開啟)支援(在新視窗中開啟)等深層個人決策上使用 ChatGPT。

在這種服務範圍,我們有時會遇到在精神和情緒受到嚴重困擾的用戶。幾週前,我們曾發佈這篇文章,並計劃在下次重大更新後分享更多內容。然而,鑑於近日有用戶在重大危機期間使用 ChatGPT,我們認為有必要立即分享更多資訊,回應這些令人悲哀的案例。

我們的目標是盡可能讓旗下的工具對大家有所幫助;作為此目標的一部分,我們將持續改善自家模型如何識別心理和情緒困擾的跡象及提供相應回覆,並協助大家與醫護連繫,進而獲得專家的引導。

在全世界正努力適應這項新技術的同時,我們深感有責任協助那些最需要幫助的人。因此,我們希望說明 ChatGPT 的設計目的、該系統有待改善的地方,以及我們計劃中的未來工作。

ChatGPT 的設計目的

我們的目標並非吸引大家的注意,故此絕不以用戶花費的時間或點擊次數來衡量成功與否;反之,我們更關心是否能夠為用戶提供真正的幫助。假如對話內容顯示某人弱勢無助或可能面臨風險,我們則會動用 ChatGPT 內建的多重安全防護措施。

識別情況及以富同理心的方式回應。

自 2023 年初開始,我們的模型均接受了訓練,不會提供自殘的指示,並會改用支持鼓勵、感同身受的語言提供回覆。舉例而言,如果有人表示想傷害自己,ChatGPT 會按照訓練不依從對方的指示回覆,而是承認對方的感受,繼而引導對方尋求協助。

此外,根據我們的深度防禦措施,違反模型安全訓練的回覆(透過我們的分類器識別)會被自動攔截,而系統亦會針對未成年人士和未登入的使用情況提供進一步的保障。另外,系統更會攔截所有帶有自殘內容的圖像輸出,同時加強對未成年人士的保護。

在長篇的聊天工作階段,ChatGPT 則會提示用戶休息一下。

提供實際資源供用戶參考。

如果有人表達自殺意圖,ChatGPT 會按照訓練引導用戶尋求專業協助。在美國,ChatGPT 將轉介用戶致電 988(自殺和危機熱線);在英國,用戶會獲轉介至撒瑪利亞防止自殺會;其他國家/地區的用戶則會獲轉介至 findahelpline.com(在新視窗中開啟)。此邏輯內建於模型行為中。

我們正與 30 多個國家/地區逾 90 位醫生(包括精神科醫生、兒科醫生和全科醫生)緊密合作,並將召集心理健康、青少年發展和人機互動專家組成諮詢小組,確保我們的做法能夠反映最新的研究和實務建議。

上報對他人造成人身傷害的風險並交由人手審核。

如偵測到用戶計劃傷害他人,我們會經專門渠道將相應對話轉交專門小組按照我們的使用政策進行審核,該小組有權採取封鎖帳戶等行動。如果人手審核結果裁定個案涉及對他人造成嚴重人身傷害的即時威脅,我們可能會將個案轉交執法部門跟進。鑑於與 ChatGPT 互動的獨特私人性質,為了尊重大家的私隱,我們目前不會將自殘個案轉交執法單位跟進。

我們將持續改善模型在敏感互動中的回覆方式,而目前正針對多個範疇進行安全機制改善措施,當中包括情緒依賴、緊急心理健康狀況和諂媚等。

我們在八月推出了 GPT‑5 作為 ChatGPT 核心的預設模型。整體而言,GPT‑5 在避免不健康的情緒依賴、減少諂媚、降低在心理健康緊急狀況下提供非理想模型回覆的廣泛程度等方面都有顯著改善,相關數字比 4o 降低了超過 25%。GPT‑5 建基於全新的安全訓練方法之上,這種名為安全完成的訓練旨在教導模型盡可能在安全範圍內提供協助。這或代表模型會提供部分或高水平的答案,而不提供有可能存在安全風險的詳細資訊。

我們的系統有哪些不足之處、相關原因,以及我們的解決方法

即使設有這些保障措施,在若干敏感的情況下,我們的系統間中仍可能無法達到預期;以下是我們正致力改善的若干事項。

加強長篇對話的保障措施。

我們的保障措施在一般的短篇交流中運作較為可靠,但隨着對話長度的增長,我們發現這些保障措施有時或會站不住腳:隨着往來的次數增加,模型的部分安全訓練或會遭削弱。舉例而言,當有人第一次提到自殺意圖時,ChatGPT 可能會正確向對方提供防止自殺熱線,但經過長時間的眾多訊息往來後,最終則可能會提供違反我們保障措施的答案,而這正正是我們竭力防止的故障類型。我們正在加強相應的緩解措施,使模型在長篇對話中如常可靠,同時亦正在研究各種方法,確保模型在多次對話中的行為保持一致。這樣一來,即使有人在某次聊天中表達自殺意圖,之後又在另一次聊天中提及,模型仍然可以提供適當的回覆。

改進我們攔截內容的方式。

我們曾發現應該攔截的內容沒有被攔截的情況;出現這些漏洞的原因通常是分類器低估了相關情況的嚴重程度。有見及此,我們正在調整相應的臨界值,以便保障措施如期觸發。

我們的首要任務是確保 ChatGPT 不會令困境進一步惡化。

未來計劃

我們的工作並不止於修正上述問題,我們亦計劃: 

對更多面對困境的用戶介入協助。

雖然我們初步的緩解措施會優先應對有嚴重自殘風險的用戶,但部分用會仍會經歷其他形式的精神困擾。舉例而言,有人可能會熱情地向模型表示,相信自己可以24小時全天候駕駛,因為即使經歷兩晚通宵仍自覺所向披靡。現時,ChatGPT 可能不會意識到這存在危險,也不會推斷這是戲言,反而會好奇探索,不經意地加深相關觀點。

我們正為 GPT‑5 製作更新,使 ChatGPT 與用戶的對話更貼近現實,緩和風險。以這個例子為例,ChatGPT 會解釋睡眠不足的危險,並建議在採取任何行動之前先休息

方便用戶聯絡緊急服務並尋求專家的協助。

現時,如果有人表達自殘的意圖,我們會鼓勵他們尋求協助,並為他們提供現實世界的資源。我們現已開始為美國和歐洲的資源進行本地化,並計劃擴展至全球其他市場。此外,我們亦將透過一鍵聯絡功能,方便用戶接駁至緊急服務。

我們正在探索如何提早介入,並在用戶陷入嚴重危機之前,將他們轉介給認可的治療師。換言之,除了提供危機熱線的聯絡號碼之外,我們正思考如何建立一個由持牌專業人士組成的網絡,讓用戶可以直接透過 ChatGPT 聯絡這些專業人士。然而,相關發展需時,且需要謹慎籌備。

促成與可信聯絡人的連繫。

除了聯絡緊急服務的方式,我們亦在探索如何方便用戶與最親近的人聯繫。相應功能或包括一鍵傳送訊息或致電預先儲存的緊急聯絡人人、朋友或家人,並提供建議句子,為對話打破僵局。

我們亦考慮在嚴重的情況下,允許用戶選擇讓 ChatGPT 代表他們聯絡指定的聯絡人。

加強對青少年的保障。

一直以來,我們都為所有用戶指定單一的理想行為模式。隨着 ChatGPT 的發展,如果我們知道用戶未滿 18 歲,便會為對話增添額外的保障措施。我們將持續開發並推出保障措施,著重青少年獨特的成長需求,並針對敏感內容和高風險行為提供更穩固的防護。

我們亦即將推出家長控制功能,讓家長有更多選擇,可以進一步了解並規範青少年使用 ChatGPT 的方式。此外,我們正在探索讓青少年(在父母監督下)指定可信緊急聯絡人的可能性。如此一來,如青少年遇到嚴重困境,ChatGPT 除了可向對方提供實用資源外,還可以幫助對方直接聯絡適當的對象介入協助。

我們明白,只有在各要素都能發揮預期作用時,安全防護措施才能行之有效。我們將按照專家的指導持續改進,並對使用我們工具的用戶負起責任——希望各方都能加入我們的行列,幫助確保這項技術能夠保護最容易受到傷害的人。