
今天,我们将发布第一套构建模块,帮助开发人员和企业构建有用、可靠的智能体。我们将智能体视为代表用户独立完成任务的系统。在过去的一年中,我们推出了新的模型功能,如高级推理、多模态交互和新的安全技术,这些功能为我们的模型处理构建智能体所需的复杂、多步骤任务奠定了基础。不过,客户也表示,将这些功能转化为生产就绪的智能体具有挑战性,通常需要大量的提示迭代和自定义协调逻辑,而没有足够的可视性或内置支持。
为了应对这些挑战,我们推出了一套新的 API 和工具,专门用于简化智能体应用的开发:
- 新的回复 API(在新窗口中打开) 结合了聊天完成 API 的简易性和助手 API 的工具使用功能,用于构建智能体。
- 内置工具包括网络搜索(在新窗口中打开)、文件搜索(在新窗口中打开)和计算机使用(在新窗口中打开)。
- 新的智能体 SDK(在新窗口中打开),用于协调单智能体和多智能体工作流
- 集成的可观察性工具(在新窗口中打开),用于跟踪和检查智能体工作流的执行情况
这些新工具简化了核心智能体逻辑、协调和交互,大大方便了开发人员开始构建智能体。在未来几周和几个月内,我们计划发布更多工具和功能,以进一步简化和加速在我们的平台上构建智能体应用。
回复 API 是我们新推出的 API 原始接口,用于利用 OpenAI 的内置工具构建智能体。它结合了聊天完成的简单性和助手 API 的工具使用功能。随着模型功能的不断发展,我们相信,回复 API 将为开发人员构建智能体应用提供更灵活的基础。开发人员只需调用一次回复 API,就能使用多种工具和模型解决日益复杂的任务。
首先,回复 API 将支持新的内置工具,如网络搜索、文件搜索和计算机使用。这些工具旨在协同工作,将模型与现实世界连接起来,使它们在完成任务时更加有用。此外,它还带来了一些可用性改进,包括统一的基于项的设计、更简单的多态性、直观的流式事件和 SDK 助手(如 response.output_text),以便轻松访问模型的文本输出。
回复 API 专为希望将 OpenAI 模型和内置工具轻松结合到应用中的开发人员而设计,无需复杂地集成多个 API 或外部供应商。该 API 还能更方便地在 OpenAI 上存储数据,以便开发人员使用跟踪和评估等功能来评估智能体的性能。需要提醒的是,我们默认不在业务数据上训练模型,即使数据存储在 OpenAI 上也是如此。从即日起,所有开发人员均可使用 API,且无需单独付费——令牌和工具按定价页面(在新窗口中打开)中规定的标准费率计费。查看回复 API 快速入门指南(在新窗口中打开),了解更多信息。
- 聊天完成 API(在新窗口中打开):聊天完成 API 仍是我们最广泛采用的 API,我们将全力以赴通过新的模式和功能为其提供支持。不需要内置工具的开发人员可以放心地继续使用 聊天完成功能。只要聊天完成功能不依赖于内置工具或多个模型调用,我们就会不断发布新模型。不过,回复 API 是聊天完成的功能超集(在新窗口中打开),具有同样出色的性能,因此对于新的集成,我们建议从回复 API 开始。
- 助手 API(在新窗口中打开):根据助手 API 测试版中开发人员的反馈,我们在回复 API 中加入了关键改进,使其更灵活、更快速、更易用。我们正在努力实现助手和回复 API 之间的功能完全一致,包括支持类助理和类线程对象以及代码解译器工具。在完成此项工作后,我们计划正式宣布助手 API的停用计划,并设定 2026 年年中为最终停用日期。停用后,我们将提供从助手 API 到回复 API 的清晰迁移指南,以便开发人员保留所有数据并迁移应用。在我们正式宣布停用之前,我们将继续向助手 API 提供新模型。回复 API 代表了在 OpenAI 上构建智能体的未来方向。
开发人员现在可以从网络上获得快速、最新的答案,并获得清晰、相关的引用。在回复 API 中,网络搜索可作为使用 gpt-4o 和 gpt-4o-mini 时的工具,并可与其他工具或函数调用搭配使用。
在早期测试中,我们看到开发人员利用网络搜索构建了各种用例,包括购物助手、研究智能体和旅行预订智能体——任何需要及时从网络获取信息的应用。
例如,Hebbia(在新窗口中打开) 利用网络搜索工具帮助资产管理公司、私募股权和信贷公司以及律师事务所从广泛的公共和私人数据集中快速提取可操作的见解。通过将实时搜索功能集成到他们的研究工作流程中,Hebia 提供了更丰富的、针对具体情况的市场情报,并不断提高分析的精确性和相关性,超越了当前的基准。
API 中的网络搜索采用与 ChatGPT 搜索相同的模型。SimpleQA 是一个评估 LLM 回答简短事实性问题准确性的基准,GPT‑4o search preview 和 GPT‑4o mini search preview 的得分率分别为 90% 和 88%。
SimpleQA 准确率(数值越高越好)
API 中网络搜索生成的回复包括新闻文章和博客文章等来源的链接,为用户提供了了解更多信息的途径。有了这些清晰的内联引文,用户可以用一种新的方式获取信息,而内容所有者则获得了接触更多受众的新机会。
任何网站或出版商都可以选择在 API 的网络搜索中显示(在新窗口中打开)。
所有开发人员都可以在回复 API 中预览网络搜索工具。我们还通过 gpt-4o-search-preview 和 gpt-4o-mini-search-preview 让开发人员直接访问聊天完成 API 中经过微调的搜索模型。GPT‑4o 搜索和 4o-mini 搜索的定价(在新窗口中打开)分别为每千次查询 30 美元和 25 美元。在 Playground(在新窗口中打开) 中查看网络搜索,并在我们的文档(在新窗口中打开)中了解更多信息。
开发人员现在可以使用改进后的文件搜索工具从大量文件中轻松检索相关信息。该工具支持多种文件类型、查询优化、元数据过滤和自定义重排,可以提供快速、准确的搜索结果。此外,使用回复 API,只需几行代码即可集成。
文件搜索工具可用于各种实际用例,包括使客户支持智能体能够轻松访问常见问题解答,帮助法律助理快速参考合格专业人士的过往案例,以及协助编码智能体查询技术文档。例如,Navan(在新窗口中打开) 在其 AI 驱动的旅行智能体中使用文件搜索,从知识库文章(如公司的旅行政策)中快速为用户提供精确的答案。通过内置的查询优化和重排功能,他们能够建立一个强大的 RAG(检索增强生成)管道,而无需额外的调整或配置。通过为每个用户组提供专用的向量存储,Navan 能够根据个人帐户设置和用户角色定制答案,为客户及其员工节省时间,同时帮助提供准确、个性化的支持。
所有开发人员都可以通过回复 API 使用该工具。定价(在新窗口中打开)为每千次查询 2.50 美元,文件存储费为 0.10 美元/GB/天,首 GB 免费。该工具继续在助手 API 中提供。最后,我们还为 Vector Store API 对象添加了一个新的搜索端口,以便直接查询数据,供其他应用和 API 使用。在我们的文档(在新窗口中打开)中了解更多信息,并在 Playground(在新窗口中打开) 中开始测试。
要构建能够在计算机上完成任务的智能体,开发人员现在可以使用回复 API 中的计算机使用工具,该工具由与 Operator 相同的计算机使用智能体 (CUA) 模型提供支持。该研究预览模型创造了新的先进记录,在 OSWorld(在新窗口中打开) 上完成全部计算机使用任务的成功率达到 38.1%,在 WebArena(在新窗口中打开) 上达到 58.1%,在 WebVoyager(在新窗口中打开) 上完成基于网络的交互的成功率达到 87%。
内置的计算机使用工具可捕捉模型生成的鼠标和键盘操作,从而使开发人员能够将这些操作直接转化为环境中的可执行命令,实现计算机使用任务的自动化。
开发人员可以使用计算机使用工具来自动执行基于浏览器的工作流,如对网络应用执行质量保证或在传统系统中执行数据录入任务。例如,Unify(在新窗口中打开) 是一个增加收入的操作系统,它使用智能体来识别意图、研究帐户并与买家互动。通过利用 OpenAI 的计算机使用工具,Unify 的智能体可以访问以前无法通过 API 访问的信息,例如,物业管理公司可以通过在线地图核实企业是否扩大了其房产占地面积。这项研究可作为触发个性化推广的定制信号,使市场推广团队能够精准、大规模地吸引买家。
另一个例子是,Luminai(在新窗口中打开) 集成了计算机使用工具,实现了大型企业复杂的运营工作流程自动化,这些企业的传统系统缺乏 API 可用性和标准化数据。在最近与一家大型社区服务机构的试点项目中,Luminai 仅用了几天时间就实现了申请处理和用户注册流程的自动化,而传统的机器人流程自动化 (RPA) 经过数月的努力也难以实现这一目标。
去年在 Operator 中推出 CUA 之前,我们进行了大量的安全测试和红队工作,解决了三个关键领域的风险:误用、模型错误和前沿风险。为了应对通过 API 中的 CUA 将 Operator 功能扩展到本地操作系统所带来的风险,我们进行了额外的安全评估和红队测试。我们还为开发人员增加了缓解措施,包括防范提示注入的安全检查、敏感任务的确认提示、帮助开发人员隔离环境的工具,以及加强对潜在策略违规的检测。虽然这些缓解措施有助于降低风险,但该模型仍然容易在无意中犯错,尤其是在非浏览器环境中。例如,CUA 在 OSWorld(一个用于衡量 AI 智能体在实际任务中的表现的基准)上的表现目前为 38.1%,这表明该模型在操作系统上自动执行任务的可靠性还不高。在这些情况下,建议由人工进行监督。有关 API 安全性工作的更多详情,请参阅我们更新的系统卡。
| Benchmark type | Benchmark | Computer use (universal interface) | Web browsing agents | Human | |
|---|---|---|---|---|---|
| OpenAI CUA | Previous SOTA | Previous SOTA | |||
| Computer use | OSWorld | 38.1% | 22.0% | - | 72.4% |
| Browser use | WebArena | 58.1% | 36.2% | 57.1% | 78.2% |
| WebVoyager | 87.0% | 56.0% | 87.0% | - | |
从今天起,计算机使用工具可作为研究预览版在回复 API 中提供给使用层级 3 至 5(在新窗口中打开) 的特定开发人员。定价(在新窗口中打开)为 3 美元/100 万个输入令牌和 12 美元/100 万个输出令牌。在我们的文档(在新窗口中打开)中了解更多信息,并查看示例应用(在新窗口中打开),了解如何使用该工具构建。
除了构建智能体的核心逻辑并让它们能够访问工具以便发挥作用外,开发人员还需要协调智能体工作流。我们新的开源智能体 SDK 简化了多智能体工作流的协调,与 Swarm(在新窗口中打开) 相比有了显著改进,后者是我们去年发布的一个实验性 SDK,被开发人员社区广泛采用,并被多个客户成功部署。
改进包括:
- 智能体:可轻松配置的 LLM,具有清晰的指令和内置工具。
- 任务移交:在智能体之间智能地转移控制权。
- 安全护栏:可配置的输入和输出安全检查机制。
- 追踪与可观察性:可视化智能体执行轨迹,支持调试与性能优化。
智能体 SDK 适用于各种实际应用,包括客户支持自动化、多步骤研究、内容生成、代码审查和销售预测。例如,Coinbase(在新窗口中打开) 使用智能体 SDK 快速开发了 AgentKit 的原型并进行了部署,AgentKit 是一个使 AI 智能体能够与加密货币钱包和各种链上活动进行无缝交互的工具包。在短短几个小时内,Coinbase 就将开发人员平台 SDK 中的自定义操作集成到了一个功能齐全的智能体中。AgentKit 的精简架构简化了添加新智能体操作的过程,让开发人员可以将更多精力放在有意义的集成上,而不是浏览复杂的智能体设置。
在短短几天内,Box(在新窗口中打开) 就能利用网络搜索和智能体 SDK 快速创建智能体,使企业能够从存储在 Box 和公共互联网资源中的非结构化数据中搜索、查询和提取洞察力。这种方法使客户不仅能访问最新信息,还能以安全可靠的方式搜索其内部专有数据,并遵守其内部权限和安全策略。例如,金融服务公司可以建立一个自定义智能体,调用 Box AI 智能体,将其存储在 Box 中的内部市场分析与来自网络的实时新闻和经济数据整合在一起,为其分析师的投资决策提供全面的视图。
智能体 SDK 可与回复 API 和聊天完成 API 配合使用。只要其他提供商提供聊天完成风格的 API 端口,SDK 也能与这些提供商的模型配合使用。开发人员可以立即将其集成到自己的 Python 代码库中,Node.js 支持也即将推出。更多信息,请参阅我们的文档(在新窗口中打开)。
在设计智能体 SDK 的过程中,我们的团队受到了 Pydantic(在新窗口中打开)、Griffe(在新窗口中打开) 和 MkDocs(在新窗口中打开) 等其他社区优秀工作的启发。我们致力于继续将智能体 SDK 打造成一个开源框架,这样社区中的其他人就可以扩展我们的方法。
我们相信,智能体很快就会成为劳动力不可或缺的一部分,大大提高各行各业的生产力。随着公司越来越多地寻求利用 AI 来完成复杂的任务,我们致力于提供构建模块,使开发人员和企业能够有效地创建自主系统,从而产生实际影响。
通过今天的发布,我们推出了首批构建模块,使开发人员和企业能够更轻松地构建、部署和扩展可靠、高性能的 AI 智能体。随着模型功能变得越来越智能体化,我们将继续投资于 API 和新工具的深度集成,以帮助在生产中部署、评估和优化智能体。我们的目标是为开发人员提供无缝的平台体验,以构建能帮助完成各行各业各种任务的智能体。我们很期待看到开发人员下一步的开发成果。要开始使用,请浏览我们的文档(在新窗口中打开),并随时关注更多更新。