强化 ChatGPT 在敏感对话中的回复能力
我们 与 170 多位心理健康专家合作,助力 ChatGPT 更可靠地识别心理困扰迹象、给予关怀式回应,并引导用户寻求现实支持,将未达到我们预期行为的回复减少 65% 至 80%。
我们近期更新了 ChatGPT 的默认模型(在新窗口中打开),以更精准地识别处于心理困扰时刻的用户并提供支持。今天,我们将分享这些改进的具体实现方式及其实际成效。通过与具备临床实践经验的心理健康专家合作,我们训练模型能够更准确地识别心理困扰、缓和对话氛围,并在适当时机引导用户寻求专业帮助。我们还扩大了危机热线的覆盖范围,将其他模型发起的敏感对话引导至(在新窗口中打开)更安全的模型处理,并新增了长时对话中的休息提醒功能。
我们坚信,ChatGPT 能够为用户提供一个支持性空间,帮助他们梳理内心感受,并在适当时机引导其向朋友、家人或心理健康专业人士寻求支持。我们在最近的模型更新中重点关注以下几个方面的安全改进:1) 精神病或躁狂症等心理健康问题;2) 自残与自杀;3) 对 AI 的情感依赖。展望未来,除了长期沿用的自杀与自残基础安全指标外,我们还将情感依赖及非自杀性心理健康紧急场景纳入未来模型发布的基础安全测试体系。
这些更新基于我们既定的模型行为准则,该准则已在《模型规范》(在新窗口中打开)中明确阐述。我们最新修订的《模型规范》进一步明确了长期目标:模型应支持并尊重用户在现实世界中的社会关系;避免强化可能引发心理或情绪困扰的无根据信念;对潜在妄想或躁狂迹象作出安全且共情的回应;更加密切关注意向不明的自残或自杀风险信号。
为提升 ChatGPT 在各优先领域的回应表现,我们遵循五步流程:
- 定义问题 - 梳理潜在危害的不同类型。
- 启动衡量- 使用评估、真实对话数据和用户研究等工具,了解风险出现的地点和方式。
- 验证方案 - 与外部心理健康与安全专家审查定义及政策。
- 降低风险 - 对模型进行后期训练,并更新产品干预措施,以减少不安全后果。
- 持续衡量和迭代 - 验证缓解措施是否能够提高安全性,并在必要时进行迭代。
在此流程中,我们构建并完善了详细指南(称为“分类标准”),用于阐明敏感对话的特性以及理想和不良的模型行为。这些指南有助于我们训练模型做出更恰当的回应,并跟踪其部署前后的性能。最终,模型能够更可靠地回应表现出精神病、躁狂症迹象、具有自杀和自残念头,或对模型产生不健康情感依赖的用户。
心理健康症状和情绪困扰在人类社会中普遍存在,随着用户基数增长,ChatGPT 对话中必然涉及此类情况。然而,引发安全担忧的心理健康对话,例如精神病、躁狂症或自杀倾向,却极为罕见。正因为这些情况相当罕见,即使衡量方式上的细微差异,也会对我们报告的数字产生重大影响。1
我们在下文中提供的当前实际运行中的普遍性估计值是我们目前的最佳估算。随着我们不断完善分类标准、改进衡量方法,以及用户群体行为的变化,这些估算可能会发生较大变动。
鉴于相关对话的普遍性非常低,我们不会仅依赖现实中 ChatGPT 的使用数据进行衡量。我们还会在部署前进行结构化测试(称为“离线评估”),重点关注高难度或高风险场景。这些评估方案被设计得足够具有挑战性,使我们的模型尚无法在回应时表现完美,即这些示例经过对抗性挑选,旨在提高引发不良回复的可能性。这些评估可以帮助我们发现进一步改进的机会,并通过关注棘手案例而非典型案例,以及基于多项安全条件对回复进行评估,从而更精确地衡量改进进展。下文所述评估结果源自专门设计的评估方案,旨在避免“饱和”接近完美的性能表现,其错误率并不代表平均实际运行情况。
为进一步强化模型安全防护机制并深入理解用户使用 ChatGPT 的方式,我们界定了若干重点关注领域,并量化了这些领域的规模及其关联的模型行为。在这三个领域中,我们均观察到模型在实际运行、自动评估以及由独立心理健康临床医生评分的评估中的行为显著改善。我们估计,在各类心理健康相关领域中,模型当前返回不符合预期行为的回复比例已降低 65% 至 80%。
我们的心理健康分类标准旨在识别用户何时可能出现严重心理健康问题的迹象,例如精神病和躁狂症,以及较轻微的迹象,例如孤立性妄想。我们首先关注精神病和躁狂症,因为这些都是相对常见的心理健康紧急情况,而且一旦发生,其症状往往非常强烈和严重。虽然抑郁等症状相对常见,但其最严重的表现形式已通过我们预防自杀和自残的工作得到应对。我们咨询的临床医生已确认我们的工作重点。
- 我们估计,在最近的生产流量中,GPT‑5 最新更新将与心理健康问题相关的高难度对话中,根据我们的分类标准,不完全符合预期行为的回复率降低了 65%。2
- 如上所述,由于此类对话极为罕见,检测和衡量都比较困难,但我们的初步分析估计,在任意一周内的活跃用户中,约有 0.07% 显示出可能与精神病或躁狂症相关的心理健康紧急情况迹象,而在所有消息中,这一比例约为 0.01%。3
- 在高难度心理健康相关对话中,专家发现新版 GPT‑5 模型(即 ChatGPT 的默认模型)相比 GPT‑4o,将不良回复比例降低了 39%(样本量 n=677)。
- 在一项包含 1000 多场高难度心理健康相关对话的模型评估中,我们新的自动化评估结果显示,新 GPT‑5 模型符合我们分类标准预期行为的比例为 92%,而之前的 GPT‑5 模型仅为 27%。如上所述,这是一项具有挑战性的任务,旨在实现持续改进。
我们在预防自杀和自残现有工作的基础上不断改进,以检测用户何时可能出现自杀和自残想法,或可能表现出自杀意向的综合迹象。鉴于这类对话极为罕见,对潜在自残或自杀迹象的识别仍是持续改进的研究领域,我们正致力于不断提升相关能力。
- 我们通过引导用户联系危机帮助热线等专业资源等方式训练模型实现安全回应。在极少数案例中,模型在这些敏感情况下可能无法按预期运行。随着我们推出更多安全防护措施并改进模型,我们观察到,模型返回未完全符合预期行为的回复比例估计已下降约 65%。
- 如上所述,由于此类对话极为罕见,检测和衡量都比较困难,但我们的初步分析估计,在任意一周的活跃用户中,约有 0.15% 在对话中包含明确的潜在自杀计划或意图迹象,0.05% 的消息包含明确或隐含的自杀念头或意图迹象。
- 在高难度的自残和自杀相关对话中,专家发现新版 GPT‑5 模型相比 GPT‑4o,将不良回复的比例降低了 52%(样本量 n=630)。
- 在一项包含 1000 多场高难度的自残和自杀相关对话的模型评估中,我们新的自动化评估结果显示,新 GPT‑5 模型符合我们预期行为的比例为 91%,而之前的 GPT‑5 模型仅为 77%。
- 我们持续提升 GPT‑5 在长对话中的可靠性。我们根据现实世界场景创建了一组新的高难度长对话,这些场景因其失败概率较高而被选中。我们估计,最新的模型在较长对话中保持了超过 95% 的可靠性,并在此前提到的尤其具有挑战性的场景中表现有所改进。
在评估涉及自残或自杀指导的高难度长对话时,gpt-5-oct-3 更安全,且其安全性在长对话中表现更佳。
我们的情感依赖分类标准(基于我们在该领域的先前研究(在新窗口中打开))区分了健康的互动行为与令人担忧的使用模式,例如,当某人表现出对模型产生排他性依恋而忽视现实人际关系、自身幸福或责任时的潜在迹象。
- 我们估计,在最新的更新中,模型在实际运行中未完全符合我们情感依赖分类标准的回复比例已减少约 80%。
- 如上所述,由于这类对话极为罕见,检测和衡量都较为困难,但我们的初步分析估计,在任意一周内的活跃用户中,约有 0.15% 表现出对 ChatGPT 可能存在较高程度的情感依赖,而在所有消息中,约有 0.03% 显示出类似迹象。
- 在涉及情感依赖的高难度对话中,专家发现新版 GPT‑5 模型相比 GPT‑4o,将不良回复的比例降低了 42%(样本量 n=507)。
- 在一项包含 1000 多场高难度的涉及情感依赖相关对话的模型评估中,我们新的自动化评估结果显示,新 GPT‑5 模型符合我们预期行为的比例为 97%,而之前的 GPT‑5 模型仅为 50%。
对于表现出情感依赖迹象的对话,我们训练模型去鼓励用户建立现实世界中的联系:
对于涉及妄想信念的对话,我们训练模型在保持共情与安全回复的同时,避免强化无现实依据的信念:
我们建立了一个全球医生网络,该网络汇集了近 300 名在 60 个国家/地区执业的医生和心理学家,我们利用该网络为安全研究提供直接指导并代表全球多元视角。在过去几个月中,超过 170 名临床医生(特别是精神科医生、心理学家和初级保健医生)通过以下一种或多种方式支持我们的研究:
- 为与心理健康相关的提示编写理想回复
- 针对模型回复创建具有临床依据的定制分析
- 评估不同模型回复的安全性
- 就我们的研究方法提供高水平的指导与反馈
在这些评估中,专家们观察到最新模型相较于早期版本展现出更恰当且一致的回复。
在这项工作过程中,精神科医生和心理学家审查了超过 1,800 个涉及严重心理健康状况的模型回复,并将新 GPT‑5 聊天模型的回复与之前的模型进行了比较。这些专家发现,新模型与 GPT‑4o 相比有了显著改进,所有类别的不良回复减少了 39-52%。这一定性反馈与我们推出新模型时在实际运行中观察到的量化改进相呼应。
与所有复杂议题一样,即便是专家,有时也会对最佳回复标准存在分歧。我们通过“评分者间一致性”(即专家对模型回复是否达标的判定共识率)来量化这种差异。这有助于厘清专业意见分歧点,推动模型行为与合理的临床判断保持一致。我们观察到,专家临床医生在评估与心理健康、情感依赖和自杀相关的模型回复时具有较为公正的评估一致性,但在某些情况下专家之间也存在分歧,评估一致率在 71% 至 77% 之间。
与我们在 HealthBench 项目中的工作类似,我们与全球医师网络合作,共同制定了针对性评估方案。这些方案用于内部评估模型在心理健康场景中的表现,包括在发布前对新模型的评估。
这项工作对我们至关重要,我们感谢世界各地众多心理健康专家的持续指导。我们已经取得了有意义的进展,但仍有更多工作要做。我们将继续改进分类标准以及用于衡量和强化这些领域及未来领域模型行为的技术系统。由于这些工具会随时间演变,未来的衡量结果可能无法直接与过去的结果进行比较,但它们仍然是追踪我们发展方向和进展的重要方式。
请在 GPT‑5 系统卡的附录中阅读更多关于此工作的信息。
作者
脚注
- 1
我们面临精确度(系统标记的对话确属不安全对话的比例)与召回率(系统检测到的不安全对话比例)之间的权衡。为实现有意义的召回率,必须容忍部分误报情况。这与罕见疾病检测原理类似:若某疾病发病率仅为万分之一,即使采用高精度检测手段,被标记的健康个体数量仍可能远超实际患者。
- 2
所有这些变化均与 8 月 15 日发布(在新窗口中打开)的 GPT-5 版本有关。
- 3
请注意,一些用户和消息显示出多种风险类型的可能迹象,例如自残和情感依赖,因此此处和下面报告的类别存在一些重叠。


