跳至主要內容
OpenAI

2025年8月26日

安全產品

在他人最需要時伸出援手

載入中…

隨著 ChatGPT 在全球各地日益普及,我們發現,大家不僅用它來搜尋資料、設計程式和寫作,還會求助於它來做一些非常個人的決定,包括生活建議(在新視窗中開啟)指導(在新視窗中開啟),甚至是情感支持(在新視窗中開啟)

由於受到大家熱愛,我們有時會遇到處於嚴重心理或情緒困擾的人。我們曾在數週前聊過這個狀況,同時計劃在下一輪重要更新後分享更多內容。然而,近期發生一些讓人心碎的案例,顯示大家會在緊急危機中使用 ChatGPT,這讓我們深感沉重,我們認為現在有必要分享更多相關資訊。

我們的目標是讓工具盡可能協助使用者,為此,我們持續改進模型識別與回應心理與情緒困擾的能力,並在專家指導下協助使用者連結至適當的關懷資源。

隨著世界不斷適應這項新科技,我們深感肩負重任要去幫助最需要的人。我們希望說明 ChatGPT 的設計目的、系統可改進之處,以及我們未來的工作規劃。

ChatGPT 的設計目的

我們的目標並非留住人們的注意力。我們衡量是否成功的標準,不是使用者花了多少時間或點了多少次,而是能否真正提供幫助。當對話顯示使用者處於脆弱狀態或可能身處風險時,我們在 ChatGPT 中設置了多層防護措施。

辨識情緒並以同理心回應。

自 2023 年初,我們就已對模型進行訓練,使其不提供與自我傷害有關的指示,並會轉而使用支持性、具同理心的語言。例如,若有人表達想要傷害自己,ChatGPT 所得到的訓練是不予以執行,而是先肯定對方的感受,並引導他們尋求幫助。

此外,依循我們的縱深防禦策略,任何違背模型安全訓練的回應,都會在經由分類器識別後自動封鎖,對未成年人及未登入使用者則會實施更為嚴格的保護措施。所有包含自我傷害內容的圖像輸出也會遭到封鎖,對未成年人則實施更嚴格的保護措施。

當對話非常冗長時,ChatGPT 便會提醒使用者適時休息。

將有需要的人轉介至真實世界資源。

如果有人表達自殺意圖,ChatGPT 經過訓練,會引導其尋求專業協助。在美國,ChatGPT 會引導使用者撥打 988 (自殺與危機熱線);在英國,則會引導至 Samaritans;其他地區則會引導其前往 findahelpline.com(在新視窗中開啟) 尋求協助。在模型的行為模式中已建立起這一套邏輯。

我們正與來自 30 多個國家、超過 90 位醫師密切合作 (涵蓋精神科醫師、兒科醫師與一般科醫師),同時召集一個由心理健康、青少年發展與人機互動領域專家組成的諮詢團隊,旨在確保我們的方法符合最新研究與最佳實務。

將可能對他人造成身體傷害的風險升級,交由人工審查

當我們偵測到使用者有傷害他人的計畫時,我們會將其對話導向專門處理的流程,由一支受過使用政策訓練的小型團隊進行審查,並有權採取包括封鎖帳戶在內等行動。若人工審查員判定案件涉及對他人造成即時嚴重身體傷害的威脅,我們可能會將其通報給執法機構。鑑於 ChatGPT 互動具有高度隱私性,出於尊重使用者隱私的理由,我們目前不會將自我傷害案例通報執法機構。

我們持續改進模型在敏感互動中的回應,目前正針對多個領域進行安全性最佳化,其中包括情感依賴、心理健康緊急情況,以及諂媚行為。

今年八月,我們將 GPT‑5 設為 ChatGPT 的預設模型。與 4o 相比,GPT‑5 整體而言在多項層面展現出大幅改善,例如避免過度情感依賴、降低諂媚行為比例,以及在心理健康緊急情況下,非理想模型回應的比例減少了超過 25%。針對 GPT‑5,我們採用了名為「安全完成」的新型安全訓練方法,教導模型在保持安全範圍內的同時,盡可能提供最有幫助的回應。這可能意味著模型會提供部分或概括性的回答,而不提供可能不安全的詳細內容。

系統可能存在的不足之處、發生原因,以及我們的應對方式

即使設立了這些防護措施,在部分敏感情境中,我們的系統仍出現過不如預期運作的情況。以下是我們正在努力改進的一些項目。

在長對話中增強防護機制。

在一般內容、短時間的對話中,我們的安全防護機制運作較為可靠。但我們逐漸發現這些安全防護機制在長時間互動中有時會相對不可靠:隨著對話次數增加,模型部分的安全訓練效果可能會下降。舉例來說,當使用者第一次提到自殺意圖時,ChatGPT 可能會採取正確措施,向使用者提供自殺防治熱線資訊,但經過長時間、多次訊息交流後,最終模型可能會提供與我們安全防護機制相違的回應。這正是我們極力預防的安全防護失效情況。我們正在加強這些防護措施,確保它們在長對話中依然可靠,並且同時研究如何在多次對話中維持模型行為的穩健度。這樣一來,若有人在一次聊天中表達過自殺意圖,而之後又開始新的對話,模型仍能對此做出適當回應。

微調封鎖內容的方式。

我們也曾遇到過一些案例,即原本應該封鎖的內容未被封鎖。這些漏洞通常是因為分類器低估了所見內容的嚴重性所致。我們正在調整這些門檻,確保保護措施能在必要時啟動。

我們的第一要務是確保 ChatGPT 不會火上澆油。

針對未來的規劃

我們並不止步於上述修正措施。同時計劃進行: 

擴展干預措施,協助更多身處危機的人。

雖然我們最初的防護措施以針對急性自我傷害為優先,但仍有人會經歷其他形式的心理困擾。舉例來說,可能會有人很興奮地告訴模型,因為連續兩晚沒睡覺後覺得自己刀槍不入,所以相信自己可以 24 小時連續不停開車。目前,ChatGPT 可能還無法辨識這種情況的危險性,或者會誤以為是開玩笑,而在好奇地繼續探討時,可能會在不經意間強化這種想法。

我們正在更新 GPT‑5,讓 ChatGPT 能將使用者拉回現實以緩和情勢。在這個範例中,ChatGPT 會向使用者解釋睡眠不足很危險,並建議其在採取任何行動前先休息

讓大家更容易聯絡到緊急服務,獲得專家的協助。

現在,當有人表達出想要傷害自己的意圖時,我們會鼓勵他們尋求協助,並引導他們前往現實世界中的支援資源。我們已經開始在美國與歐洲提供在地化資源,並計劃將其拓展至其他全球市場。我們也將提升便利性,提供一鍵式緊急服務存取功能。

我們正在研究如何及早干預,在人們陷入緊急危機之前,將他們連結至合格的治療師。這表示我們不能僅僅只是提供危機熱線,更要思考如何建立一個由持照專業人士組成的網路,方便人們直接透過 ChatGPT 聯繫他們。要妥善落實,需要投入時間和細緻的工作。

建立與可信任聯絡人的連結

除了緊急服務之外,我們也在研究如何讓人們更容易聯絡到身邊最親近的人。例如一鍵傳送訊息或撥打電話給預先儲存的緊急聯絡人、朋友或家人,並附上建議語句,減少開展對話的恐懼感。

我們也在考慮新增功能,讓使用者在嚴重情況下可選擇讓 ChatGPT 代表他們聯絡指定的聯絡人。

強化針對青少年的保護措施。

過去,我們為所有使用者規定了單一的理想模型行為;隨著 ChatGPT 的使用規模逐漸擴大,我們開始在確認使用者未滿 18 歲時,加入額外的保護措施。我們持續開發並推行針對青少年獨特發展需求的保護措施,針對敏感內容與高風險行為設置更嚴密的護欄。

我們也即將推出家長控制功能,讓家長能夠更了解青少年的 ChatGPT 使用情況,並對其使用方式進行引導。我們也在研究,讓青少年能夠在家長監督下,指定一位可信任的緊急聯絡人。這樣一來,當青少年處於緊急壓力時,ChatGPT 不僅會為其指引資源,還能幫助他們直接聯絡可以介入的人士。

我們深知,只有每個環節均正常運作,防護措施才能發揮應有效果。我們將持續改進,在專家指導下,秉持對使用者負責的態度前行。同時,我們也期盼有更多人士一同投入,確保這項科技在使用者最脆弱的時刻發揮保護作用。