跳至主要内容
OpenAI

2025年8月26日

安全产品

在人们最需要的时刻施以援手

正在加载…

随着 ChatGPT 在全球范围的普及,我们发现人们不仅将其用于搜索、编程和写作,更开始寻求它在人生建议(在新窗口中打开)指导(在新窗口中打开)支持(在新窗口中打开)等深度个人决策方面的帮助。

在这个层面上,我们有时会遇到遭受严重心理和情绪困扰的人。我们数周前已就此议题发表过文章,并原计划在下次重要更新后分享更多内容。然而,最近一些用户在紧急危机中使用 ChatGPT 的令人心碎案例让我们倍感沉重,我们认为现在有必要立即分享更多信息。

我们的目标是让我们的工具尽可能地帮助人们,为此,我们正持续改进模型识别心理和情绪困扰迹象的能力,并根据专家建议引导人们获得关怀。

随着世界逐渐适应这项新技术,我们深感有责任帮助那些最需要支持的人群。我们希望阐明 ChatGPT 的设计目的、系统当前存在的改进空间,以及未来规划的工作。

ChatGPT 的设计目的

我们的目标并非吸引人们的注意力。比起用停留时间或点击量衡量成效,我们更注重提供切实的帮助。如果对话暗示用户处于脆弱状态且可能面临风险,我们会在 ChatGPT 中构建多层级安全保护机制。

识别并以同理心回应。

自 2023 年初起,我们的模型已接受训练,不再提供自残指导,转而使用支持性、共情式语言表达。例如,当用户表达自残意图时,ChatGPT 经过训练会拒绝执行指令,转而承认其情绪感受并引导其寻求专业帮助。

此外,根据我们的深度防御策略,凡被分类器识别为违反模型安全训练的回复将被自动屏蔽,对未成年人和未登录用户实施更强保护。所有用户生成的自残类图像内容均会屏蔽,未成年用户将获得更严格的防护。

在长时间使用过程中,ChatGPT 会主动提醒用户适时休息。

引导用户寻求现实世界的支持资源。

如果用户表达自杀意图,经训练的 ChatGPT 会引导其寻求专业帮助。在美国,ChatGPT 会引导用户联系 988(自杀与危机热线);在英国则引导至 Samaritans(撒玛利亚会);其他地区则引导至 findahelpline.com(在新窗口中打开)。该逻辑已内置于模型行为中。

我们正在与来自 30 多个国家的 90 余名医生(包括精神科医生、儿科医生和全科医生)紧密合作,并组建了由心理健康、青少年发展及人机交互领域专家构成的顾问团队,以确保我们的方案符合最新研究成果与最佳实践标准。

将伤害他人的人身风险上报人工审核。

当检测到用户计划伤害他人时,我们会将其对话转至专用管道,由经过使用政策培训且被授权采取行动(包括封禁账户)的小型团队进行审核。如果人工审核人员认定某个案例涉及对他人造成紧迫人身伤害的威胁,我们可能会将其提交执法部门。鉴于 ChatGPT 互动独特的私密性,我们目前不会将自残案例提交执法部门,以尊重人们的隐私。

我们持续优化模型在敏感交互中的响应机制,目前正针对多个领域推进专项安全升级,包括情感依赖、心理健康紧急事件以及谄媚性内容处理。

今年 8 月,我们推出了 GPT‑5,作为 ChatGPT 的默认驱动模型。总体而言,GPT‑5 在诸多方面取得了显著进步,例如:避免过度的情感依赖、减少谄媚性回复,并在心理健康紧急状况中将非理想模型回复的发生率较 4o 版本降低了 25% 以上。GPT‑5 还基于一种名为“安全完成”的新训练方法,该方法教导模型在严格遵守安全边界的前提下,尽可能提供最大程度的帮助。这可能意味着提供部分或概括性回答,而非可能存在安全隐患的详细信息。

我们系统可能存在的不足、原因,以及如何应对这些问题

即使采取了这些保障措施,我们的系统在敏感情况下仍然有时无法按预期运行。以下是我们正在努力改进的一些方面。

加强长对话中的安全保障措施。

我们的安全措施在常见的简短交互中运行得更为可靠。我们逐渐认识到,在长时间交互过程中,这些安全措施有时可能不太可靠:随着对话往复次数增加,模型的部分安全训练内容可能会逐渐退化。例如,当有人首次提及自杀意图时,ChatGPT 可能会正确推荐自杀热线;但在长时间的多次对话后,它最终可能会给出违背我们安全防护措施的回答。这正是我们致力防范的机制失效类型。我们正在强化这些缓解措施,确保它们在长时间对话中保持可靠性,同时研究如何确保在多轮对话中实现稳健的行为表现。通过这种方式,当用户在某次对话中表达自杀倾向后,即便开启新对话,模型仍能保持恰当回应。

优化内容屏蔽机制。

我们发现某些情况下本应屏蔽的内容并未被屏蔽。这些差距通常是由于分类器低估了其所观察到的严重程度所致。我们正在调整这些阈值,以确保防护机制在需要时及时启动。

我们的首要任务是确保 ChatGPT 不会让用户的艰难时刻雪上加霜。

我们对未来的规划

修复上述问题并非工作的终点。我们还计划: 

扩大对危机中人群的干预范围。

虽然我们最初的缓解措施侧重于紧急自残行为,但有些人会经历其他形式的心理困扰。例如,用户可能兴奋地告诉模型他们认为自己可以全天候连续驾驶,因为两天未眠后竟觉得自己无所不能。目前,ChatGPT 可能无法识别此类危险或将其误判为玩笑行为,反而会通过好奇的探索,在不知不觉中强化这种行为。

我们正在研发 GPT‑5 的更新,通过让对话对象回归现实,使 ChatGPT 的回应趋于缓和。在此示例中,模型将说明睡眠不足的危险性,并建议在采取任何行动前先休息

进一步简化紧急服务联系与专家求助流程。

如今,当用户表达自残意图时,我们会鼓励他们寻求帮助,并为其提供现实世界的支持资源。我们已启动在美国和欧洲地区的资源本地化工作,并计划扩展至全球其他市场。我们还将通过一键呼叫紧急服务功能提升可及性。

我们正在探索如何更早实施干预,在用户陷入严重危机前将他们与认证治疗师建立联系。这意味着我们需要超越危机热线的范畴,思考如何建立一个由持证专业人士组成的网络,让人们能够直接通过 ChatGPT 联系到专业人士。这需要时间与细致的工作才能完善。

启用可信联系人连接功能。

除紧急服务外,我们正在探索让人们更轻松联系亲朋好友的方式。这可能包括一键向已保存的紧急联系人、朋友或家人发送消息或拨打电话,并提供建议用语以降低开启对话的心理障碍。

我们同时考虑推出授权功能,允许用户在危急情况下让 ChatGPT 代其联系指定联系人。

加强对青少年的保护。

过去,我们为所有用户设定单一理想模型行为规范;随着 ChatGPT 的发展,我们开始为确定为 18 岁以下的用户增加额外保护措施。我们持续开发并推出针对青少年独特发展需求的防护机制,在敏感内容和高风险行为方面设置更严格的防护措施。

我们还将很快推出家长控制功能,让家长能够更深入地了解并引导青少年使用 ChatGPT 的方式。我们正在探索允许青少年(在家长监督下)指定可信赖的紧急联系人。这样,当面临严重困境时,ChatGPT 不仅能提供资源指引,更能直接帮助青少年联系到能及时介入的人员。

我们深知,唯有每个环节都按预期运作,防护措施才能发挥最大效力。我们将在专家的指导下,本着对使用我们工具的人们负责的态度不断改进,并期待更多人加入,共同确保这项技术能在人们最脆弱的时刻提供保护。