跳至主要内容
OpenAI

2025年9月2日

安全产品

打造更有助益的 ChatGPT 体验

未来一个月内,我们将会把敏感对话推送至推理模型,并推出“家长控制”功能。

正在加载…

让 ChatGPT 尽可能地造福人类,这一工作我们从未停歇,且正在持续精进。过去几年,我们看到,人们在最艰难的时刻会向 ChatGPT 寻求帮助。因此,在专家的指导下,我们不断改进模型性能,使其能够识别人们的心理及情绪困扰并作出回应。 

这项工作已在稳步推进,但我们想主动预告我们未来 120天的计划,让大家无需等待产品发布,即可了解我们的最新动向。尽管这项工作将持续很长时间,但我们正集中精力,争取在今年内推出尽可能多的改进措施。 

上周,“在人们最需要的时刻施以援手”这篇文章中,我们分享了四个重点关注领域:

  1. 扩大对危机中人群的干预范围
  2. 进一步简化紧急服务联系与专家求助流程
  3. 启用可信联系人连接功能
  4. 加强对青少年的保护。 

这项工作中的部分内容将会迅速推进,而其他部分则需要更多时间。 

今天,我们将进一步介绍:我们如何与专家合作以指导工作的开展,如何利用推理模型应对敏感对话,以及有关加强对青少年的保护。 

与专家携手合作

AI 技术日新月异,我们希望在人类福祉和心理健康方面获得来自专家的专业洞见,从而引领我们前进的脚步。为此,我们成立了人类福祉与 AI 专家委员会全球医生网络,二者不仅带来了深厚的医疗专业知识,而且提供了我们发展中所需的广阔视角。我们将在这项 120 天的计划中分享更多关于这些工作的信息。

人类福祉与 AI 专家委员会

今年早些时候,我们开始召集青年发展、心理健康和人机交互领域的专家组成委员会。该委员会旨在制定一个清晰明了、有理有据的愿景,阐明 AI 如何助力人类提升福祉、繁荣发展。

在综合考虑最新研究的基础上,他们的意见将帮助我们定义什么是人类福祉、如何衡量,确定优先工作,并设计未来的保障措施,如未来版本的家长控制功能。尽管委员会将为我们的产品、研究和政策决策提供建议,但 OpenAI 仍将对我们所做的选择负责。 

全球医生网络

全球医生网络由来自 60 个国家、经验丰富的 250 多名医生组成,他们将与人类福祉与 AI 专家委员会协同工作。过去一年,我们已与这些医生在医疗保健基准评估等方面开展了合作,旨在更好地衡量 AI 系统在健康领域的能力。

在这个广泛的网络中,来自 30 个国家的 90 多名医生(包括精神科医生、儿科医生和全科医生)已为我们的研究做出了贡献,研究内容涉及模型在心理健康领域的表现。他们的意见直接为我们的安全研究、模型训练和其他干预措施提供了指南,使得我们在需要时能够迅速联系到合适的专家。

该网络正在吸纳更多临床医生和研究人员,包括在饮食失调、药物使用和青少年健康等领域具有深厚专业知识的专家。

利用推理模型应对敏感对话

我们的推理模型(如 GPT‑5‑thinking 和 o3)在回答问题前,能够花更多时间进行思考和上下文推理。我们的测试(在新窗口中打开)表明,通过我们称为“审慎对齐”的方法进行训练,这些推理模型能更加一致地遵循和应用安全准则,且更能抵御对抗性提示

我们最近推出了一款实时路由器,它可根据对话内容在高效的聊天模型和推理模型之间进行选择。很快我们将着手把一些敏感对话(如系统检测到用户出现极度忧伤的扰迹象时)推送至推理模型(如 GPT‑5‑thinking),以便模型能够提供更有助益的回应,无论用户最初选择的是哪个模型。对此,我们将慎重决策,不断迭代升级。

加强对青少年的保护

如今,已有许多年轻人经常使用 AI,称得上是首批“AI 原住民”。就像以前与互联网或智能手机共同成长一代人一样,AI 工具已成为他们生活中的一部分。这带来了真正的协助、学习和创造的机会,但这也意味着青少年及其家长需要获得帮助,以制定出适合青少年各个发展阶段的、健康的 AI 使用准则。

家长控制

今年早些时候,我们开始为家庭用户开发更多 ChatGPT 功能,以便决定最适合家庭使用的方法。未来一个月内,家长将能够:

  • 通过简单的电子邮件邀请,将自己的帐户与青少年(最低年龄限制:13 岁)的帐户关联起来。
  • 控制 ChatGPT 对青少年的回应方式,默认启用适龄模型行为规则。
  • 管理禁用功能,包括记忆功能和聊天记录。
  • 当系统检测到青少年出现极度忧伤的迹象时,收到通知。专家们针对此功能的意见将为我们提供指导,从而更好地在家长和青少年之间搭建起信任的桥梁。

对于我们面向所有用户推出的功能,包括长时间会话期间系统会发出应用内提醒,提醒用户休息等,此类控制功能无疑是很好的补充。

这些措施仅仅是一个开始。我们将在专家的指导下继续加强学习、优化策略,目标依然是让 ChatGPT 尽可能地造福人类。在未来的 120 天内,我们将继续分享相关进展。