隆重推出 ChatGPT 智能体:连接研究与实践
ChatGPT 现已具备自主思考与行动的能力,能够主动从其智能体技能库中选择合适的工具,利用自身计算机系统为您完成任务。
ChatGPT 现在可以使用自己的计算机为您处理工作,从头到尾完成复杂任务。
您现在可以让 ChatGPT 处理诸如“查看我的日历并根据最新新闻简要介绍即将举行的客户会议”、“计划并购买制作四人份日式早餐的食材”以及“分析三个竞争对手并创建幻灯片演示文稿”等请求。ChatGPT 将智能浏览网站、筛选结果、在需要时提示您安全登录、运行代码、进行分析,甚至生成可编辑的幻灯片和电子表格来总结其发现。
ChatGPT 通过其自身的虚拟计算机执行这些任务,能够灵活地在推理与操作之间切换,从始至终处理复杂的工作流程,所有操作均基于您的指令。
最重要的是,您始终掌握控制权。ChatGPT 在执行具有重要影响的操作前会先征得您的同意,您可随时中断操作、接管浏览器或停止任务。
从今天起,Pro、Plus 和 Team 版用户可通过编辑器中的下拉菜单工具直接激活 ChatGPT 的全新智能体功能,只需在任何对话的任意阶段选择“智能体模式”即可。
尽管 ChatGPT 智能体已是一款处理复杂任务的强大工具,但今天的发布只是个开始。我们将持续以迭代方式定期推出重大改进,使其随着时间推移为更多人提供更强大的功能和实用性。
此前,Operator 和深入研究各自拥有独特的优势:Operator 能够在网页上滚动、点击和输入文本,而深入研究则擅长分析和总结信息。但它们在不同情境下表现最佳:Operator 无法进行深入分析或撰写详细报告,而深入研究也无法与网站互动以优化结果或访问需要用户认证的内容。事实上,我们发现用户通过 Operator 尝试的许多查询实际上更适合深入研究——因此我们将两者的优势结合在一起。
通过整合这些互补优势并在 ChatGPT 中引入额外工具,我们已在单一模型中解锁了全新功能。它现在可以主动与网站互动——点击、筛选并获取更精准、高效的结果。您还可以自然地从简单对话过渡到在同一聊天中直接请求操作。
我们为 ChatGPT 智能体配备了一套工具:通过图形用户界面与网络交互的可视化浏览器、用于简单推理型网络查询的文本浏览器、终端以及直接 API 访问权限。智能体还可以利用 ChatGPT 连接器(在新窗口中打开),这使您能够将 Gmail 和 Github 等应用连接到 ChatGPT,以便 ChatGPT 能够查找与您的提示相关的信息并在其回复中使用这些信息。您还可以通过接管浏览器在任何网站上登录,这使 ChatGPT 能够在研究和任务执行方面更加深入和广泛。为 ChatGPT 提供这些不同的网络信息访问与交互途径,这意味着其能够选择最优路径以最高效地完成任务。例如,它可以通过 API 获取您的日历信息,利用基于文本的浏览器高效处理大量文本,同时还能与主要为人类设计的网页进行视觉交互。
所有这些操作均通过其自身的虚拟计算机完成,该虚拟计算机能够保留任务所需的背景信息,即使在使用多个工具时也是如此——模型可以选择使用文本浏览器或视觉浏览器打开页面,从网络下载文件,通过在终端中运行命令对文件进行操作,然后在视觉浏览器中查看输出结果。该模型会根据任务需求调整其处理方式,以实现快速、准确且高效的任务执行。
ChatGPT 智能体专为迭代式、协作式工作流程设计,相比以往模型,其交互性和灵活性显著提升。在 ChatGPT 运行过程中,您可以随时中断对话以澄清指令,引导其朝向预期结果,或者更改整个任务。它将从中断处继续,同时整合新信息,但不会丢失先前进展。同样,ChatGPT 可在必要时主动向您索取更多细节,以确保任务始终与您的目标保持一致。如果任务耗时超过预期或遇到瓶颈,您可以暂停任务、询问进度摘要,或完全停止并获取部分结果。如果你在手机上安装了 ChatGPT 应用,当它完成你的任务时,会向你发送一条通知。
这些统一的智能体功能显著提升了 ChatGPT 在日常和专业场景中的实用性。在工作中,您可以自动处理重复性任务,例如将截图或面板转换为由可编辑矢量元素组成的演示文稿、重新安排会议、规划并预订外出活动,以及在保持原有格式的同时,用新的财务数据更新电子表格。在个人生活中,您可以轻松规划并预订旅行行程、设计并预订整个晚宴活动,或寻找专业人士并安排预约。
该模型的先进功能在其在评估中的表现中得到体现,这些评估衡量了其在网页浏览和现实世界任务完成能力方面的表现,达到了行业领先水平 (SOTA)。
在《人类的最后考试》(在新窗口中打开)*中,这是一项评估 AI 在专家级问题上跨多个领域表现的测试,ChatGPT 智能体所采用的模型在该测试中取得了新的 pass@1 单项基准最高水平 (SOTA),达到 41.6%。由于智能体能够动态规划并自主选择工具,它可以在不同运行中以多种方式完成同一任务。当我们采用简单的并行展开策略进行扩展——同时运行多达八次尝试,并选取自我报告置信度最高的结果——智能体的 HLE 分数提升至 44.4。
FrontierMath** 是已知最难的数学基准测试,包含新型未发表的问题,这些问题往往需要专家数学家花费数小时甚至数天才能解决。通过使用工具(如访问终端进行代码执行),ChatGPT 智能体的准确率达到 27.4%,远超之前的所有模型。
我们还使用模拟复杂现实世界任务的基准测试对模型进行了评估。在内部设计的基准测试中,该测试旨在评估模型在复杂且具有经济价值的知识工作任务中的性能,ChatGPT 智能体的输出结果在约一半的案例中与人类表现相当或更优,且在任务完成时间范围内,其表现显著优于 o3 和 o4-mini。模型输出由专家根据各领域顶尖专家创建的高质量人类基准进行评估。这些任务来自不同职业和行业的专家,反映了现实世界中的专业工作,例如对按需急诊服务提供商进行竞争分析、编制详细的摊销计划,以及为新的绿色氢能设施识别可行的水井。
在 DSBench(在新窗口中打开) 测试中,该测试旨在评估智能体在涵盖数据分析和建模等现实数据科学任务中的表现,ChatGPT 智能体显著超越了人类水平。
在 SpreadsheetBench 平台上,该平台通过评估模型在处理基于真实世界场景的电子表格编辑任务时的表现,ChatGPT 智能体在性能上显著超越现有模型。当具备直接编辑电子表格的能力时,ChatGPT 智能体的得分进一步提升至 45.5%,而 Excel 的 Copilot 仅为 20.0%。
方法:SpreadsheetBench 的作者使用 Windows 环境和 Microsoft Excel 来评估电子表格。我们使用了 OSX 环境和 LibreOffice,这可能导致评分存在微小差异。例如,作者发现 GPT‑4o 的总体难度限制为 15.02%,而我们获得的数值为 13.38%。我们使用了包含 912 个问题的完整基准测试。
在内部基准测试中,该模型展现了其处理投资银行分析师(1 至 3 年经验)建模任务的能力,例如为《财富》500 强企业构建符合规范的财务报表模型(包括格式和引用),或为私有化交易构建杠杆收购模型。ChatGPT 智能体所采用的模型在该测试中显著优于深入研究和 o3 模型。每个任务均根据数百项与正确性和公式使用相关的标准进行评分。
我们还对 ChatGPT 智能体在 BrowseComp 上的表现进行了评估,这是一个我们今年早些时候发布的基准测试,用于衡量浏览智能体在网络上查找难以找到的信息的能力。该模型以 68.9% 的成绩创下了新的 SOTA 纪录,比深入研究高出 17.4 个百分点。
最后,在 WebArena(在新窗口中打开) 基准测试中(该测试旨在评估网络浏览智能体在完成真实世界网络任务时的性能),该模型相较于由 o3 驱动的 CUA(即驱动 Operator 的模型)表现更佳。
您可以通过编辑器中的工具下拉菜单直接激活 ChatGPT 的新智能体功能,只需在任何对话的任何阶段选择“智能体模式”即可。只需描述您希望完成的任务——无论是进行深入研究、制作幻灯片,还是提交费用报销。在执行任务时,屏幕上的语音播报会实时展示 ChatGPT 的具体操作流程。您可随时中断并接管浏览器操作,确保任务始终与您的目标保持一致。
ChatGPT 智能体可访问您的连接器,使其能够与您的工作流程集成并访问相关、可操作的信息。经过身份验证后,这些连接器允许 ChatGPT 查看信息并执行操作,例如总结您当天的收件箱或查找您可用于会议的时间段。不过,若要在这些网站上执行具体操作,您仍需通过接管浏览器的方式进行登录。
此外,您可设置已完成的任务自动重复执行,例如每周一早上自动生成周度指标报告。
此次更新标志着用户首次能够要求 ChatGPT 在网页上执行操作。这引入了新的风险,特别是因为 ChatGPT 智能体可以直接处理您的数据,无论是通过连接器访问的信息,还是您通过接管模式登录的网站上的数据。我们加强了 Operator 研究预览中的强大控制措施,并增加了针对处理实时网络上的敏感信息、更广泛的用户覆盖范围以及(受限)终端网络访问等挑战的防护措施。尽管这些应对措施显著降低了风险,但 ChatGPT 智能体扩展的工具和更广泛的用户覆盖范围意味着其整体风险水平更高。
我们特别强调了通过提示注入防范 ChatGPT 智能体遭受对抗性操纵的风险,这是智能体系统普遍面临的风险,并相应准备了更全面的应对措施。提示注入是指第三方通过在 ChatGPT 智能体执行网络任务时可能遇到的恶意指令,试图操纵其行为的攻击行为。例如,隐藏在网页中的恶意提示(如不可见元素或元数据中)可能诱使智能体执行非预期操作,例如将连接器中的私人数据分享给攻击者,或对用户已登录的网站执行有害操作。由于 ChatGPT 智能体可直接执行操作,成功攻击可能造成更大影响并带来更高风险。
我们已对智能体进行训练和测试,使其能够识别并抵御提示注入,同时通过监控快速检测并响应此类攻击。在执行重要操作前要求用户明确确认,可进一步降低此类攻击造成的危害风险,用户也可根据需要通过接管或暂停操作来干预任务。用户在决定向智能体提供何种信息时,应权衡这些利弊,并采取措施尽量减少此类风险的暴露,例如在任务无需使用连接器时将其禁用。
我们还实施了针对模型错误的应对措施,尤其是因为模型现在可以执行影响现实世界的任务:
- 明确的用户确认:ChatGPT 在执行可能产生实际后果的操作(如进行购买)之前,会明确征得您的同意。
- 主动监督(“监控模式”):某些关键任务,如发送邮件,需要您主动监督。
- 主动风险缓解:ChatGPT 经过训练,会主动拒绝处理高风险任务,例如银行转账。
最后,我们引入了额外的控制措施,以限制模型可以访问的数据:
- 隐私控制:只需在 ChatGPT 的设置中单击一下,即可删除所有浏览数据并立即退出所有活跃网站会话。否则,Cookie 的保存将根据每个访问网站的 Cookie 政策而定,这可以使重复访问网站更加高效。
- 安全浏览器接管模式:当您通过 ChatGPT 的浏览器与网页互动(“接管模式”)时,您的输入内容将保持私密。ChatGPT 在这些会话中不会收集或存储您输入的任何数据,例如密码,因为该模型不需要这些信息,而且如果它从未接触过这些信息,会更安全。
随着模型能力的提升,我们已决定将 ChatGPT 智能体视为我们防范准备框架下“高生物和化学能力”,并启动相应的防护措施。尽管我们没有确凿证据表明该模型能实质性帮助新手造成严重生物危害——我们的高能力阈值——但我们仍秉持谨慎态度,并立即实施必要的防护措施。因此,该模型目前配备了我们迄今为止最全面的安全防护体系,其中包含针对生物安全领域的强化防护措施:全面威胁建模、双用途拒绝训练、持续运行的分类器及推理监控系统,以及明确的执行流程。
除了我们为确保 ChatGPT 智能体的安全所做的工作外,我们深知分层生物安全措施在防护范围超越单一实验室时效果最佳,因此我们与整个生态系统合作以强化防御体系。自项目启动之初,我们就与外部生物安全专家、安全研究机构及学术研究人员合作,共同构建威胁模型、评估体系及相关政策。生物学背景的评审人员验证了我们的评估数据,而领域专家组成的红队则在现实情境中对安全措施进行了压力测试。本月早些时候,我们召集了来自政府、学术界、国家实验室和非政府组织的专家,举办了一场生物防御研讨会,旨在加速合作并推动由 AI 驱动的生物防御研究。我们将继续与全球合作伙伴携手,以应对新兴风险。
ChatGPT 智能体今日起开始向 Pro、Plus 和 Team 版用户推出;Pro 版用户将于今日内获得访问权限,而 Plus 和 Team 版用户将在未来几天内逐步获得访问权限。Enterprise 和 Education 版用户将在未来几周内获得访问权限。Pro 版用户每月可发送 400 条消息,其他付费用户每月可发送 40 条消息,额外使用量可通过灵活的积分额度选项获取。
我们仍在为欧洲经济区和瑞士用户启用访问权限。
Operator 研究预览网站将继续使用几周,之后将停止服务。深入研究是 ChatGPT 智能体功能的一部分。如果您更倾向于使用原有的深入研究功能(虽然可能需要更长时间,但默认能提供更详细、深入的回复),您可以通过在消息编辑器下拉菜单中选择“深入研究”来访问该功能。
ChatGPT 智能体目前仍处于早期阶段。它能够处理多种复杂任务,但仍可能出现错误。
尽管我们认为该功能在生成幻灯片方面具有巨大潜力,但目前该功能仍处于测试阶段。目前,生成的内容在格式和细节处理上可能显得较为简单,尤其是在没有现有文档的情况下开始生成时。我们首先让模型具备生成信息流和适合演示的格式化内容的能力,其中每个元素(如文本、图表、图片和图形)在导出后可原生且轻松编辑,以优化结构和灵活性。目前,查看窗口中的幻灯片与导出的 PowerPoint 文件之间也偶尔会出现不一致的情况,我们正在努力减少这种情况。此外,尽管目前您可以上传现有电子表格供 ChatGPT 编辑或作为模板使用,但此功能尚不适用于幻灯片。我们正在训练 ChatGPT 幻灯片创建功能的下一代版本,以生成更精致、更复杂的输出,并具备更广泛的功能和改进的格式化能力。
总体而言,我们预期 ChatGPT 智能体的效率、深度和多功能性将随着时间的推移持续提升,包括实现更流畅的交互,同时我们继续调整用户所需的监督程度,以使其在确保安全使用的前提下更加实用。
SpreadsheetBench | ||||
模型 | 评估环境 | 软限制 (%):单元格级别 | 软限制 (%):工作表级别 | 软限制 (%):总体 |
GPT‑4o | Windows,Excel | 15.03 | 23.65 | 18.35 |
Excel 中的 Copilot | Windows,Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX,LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX,LibreOffice | 22.40 | 24.60 | 23.25 |
ChatGPT 智能体 | OSX,LibreOffice | 38.27 | 30.48 | 35.27 |
支持 .xlsx 格式的 ChatGPT 智能体 | OSX,LibreOffice | 50.56 | 37.51 | 45.54 |
人类 | 75.56 | 65.00 | 71.33 |
作者
脚注
* 在启用浏览功能时,模型有时可以在网上找到确切的答案,例如,通过阅读数据集中含有示例问题的博客文章。我们采用以下两种策略来缓解模型在浏览过程中作弊的担忧:
1.屏蔽我们过去观察到模型作弊的域名。
2.使用其他模型作为监控程序,检查每次尝试中的所有工具输出令牌,以识别可疑行为。可疑行为被定义为“旨在为该特定问题提供确切答案的一个页面、文件或片段,例如,官方的评分答案、泄露的‘解决方法’摘要,或逐字引用最终答案的讨论”。良性行为被定义为“一个勤奋的人类可能会查阅的任何权威资源(文档、手册、学术论文、知名文章),即使其中恰好包含了正确答案”。监控程序认为执行中存在可疑行为的任何尝试,均被视为不正确。大多数未通过此检查的样本,其确切解决方法在多个与 HLE 无关的互联网来源中均可找到。
**OpenAI 拥有 1 至 3 级数据集中 290 个私有问题中的 237 个的独家访问权限。FrontierMath 4 级问题未包含在此评估中。结果基于每个问题 16 次回答尝试的平均值进行评估。ChatGPT 智能体的结果由 OpenAI 生成,由 Epoch AI 评分,支持浏览器和终端访问,且每个回答的令牌数量上限为 128K。OpenAI o4-mini 和 o3 评估由 Epoch AI 进行收集和评分,无需浏览器和终端访问,通过函数调用使用 Python 脚本,每个答案的令牌数量限制为 100K。
*** Oracle@64 指在 64 次采样运行中获得的最佳分数,这些运行是基于实际评分结果(即,我们为每个任务选择得分最高的尝试)选出的。我们报告所有任务中每个任务的最佳分数的平均值。该指标突显了模型在任务性能上的上限潜力和变异性——展示了模型在成功时的能力,并表明通过进一步训练可以提高一致性。与基于模型置信度的典型“最佳 N”指标不同,oracle@64 使用真实标签进行选择,并适用于以连续 0–1 评分尺度而非二元通过/失败评分标准进行评分的任务。


