2025年5月21日

回复 API 中的新工具与功能

我们在回复 API 中引入了远程 MCP 服务器支持、图像生成、代码解译器等功能，旨在为开发人员和企业提供助力。

正在加载…

今日，我们为回复 API（构建智能体应用的核心 API 基础组件）新增了多项内置工具。其中包括对所有远程模型上下文协议 (MCP) 服务器⁠（在新窗口中打开）的支持，以及图像生成⁠（在新窗口中打开）、代码解译器⁠（在新窗口中打开）等工具，同时对文件搜索⁠（在新窗口中打开）功能进行了改进。这些工具适用于我们的 GPT‑4o 系列、GPT‑4.1 系列以及 OpenAI o 系列推理模型。如今，o3 和 o4-mini 能够在回复 API 的思维链中直接调用工具和函数，从而生成更具上下文丰富性和相关性的回答。在回复 API 中使用 o3 和 o4-mini 时，能够在请求和工具调用过程中保留推理令牌，这不仅提升了模型的智能水平，还为开发人员节省成本、降低延迟。

此外，我们还为回复 API 引入了新功能，为企业和开发人员带来更好的可靠性、可视性以及隐私保护。这些功能包括：后台模式⁠（在新窗口中打开）（可更可靠地异步处理长时间运行的任务）、推理摘要⁠（在新窗口中打开）支持以及加密推理项⁠（在新窗口中打开）支持。

自 2025 年 3 月发布回复 API 以来，该 API 提供了网页搜索、文件搜索和计算机使用等工具，已有数十万开发人员使用该 API 在我们的模型上处理了数万亿令牌的任务。客户利用该 API 构建了各种智能体应用，例如 Zencoder⁠（在新窗口中打开）的编码智能体、Revi⁠（在新窗口中打开）面向私募和投资银行的市场情报智能体，以及 MagicSchool AI⁠（在新窗口中打开）的教育助手 — 这些应用均借助网页搜索功能，将相关且最新的信息引入其应用程序中。如今，借助我们今日发布的新工具和功能，开发人员能够构建出更加实用、可靠的智能体。

新增对远程 MCP 服务支持

我们在回复 API 中增加了对远程 MCP 服务器⁠（在新窗口中打开）的支持，此举是在 Agents SDK 中的 MCP 支持⁠（在新窗口中打开）功能的基础上进行的拓展。MCP 是一种开放协议，用于规范应用程序向大语言模型 (LLM) 提供背景信息的方式。通过在回复 API 中支持 MCP 服务器，开发人员只需编写几行代码，即可将我们的模型连接到托管在任何 MCP 服务器上的工具。开发人员现在可以通过以下几个示例，了解如何在回复 API 中使用远程 MCP 服务器：

Python

1response = client.responses.create(
2  model="gpt-4.1",
3  tools=[{
4    "type": "mcp",
5    "server_label": "shopify",
6    "server_url": "https://pitchskin.com/api/mcp",
7  }],
8  input="Add the Blemish Toner Pads to my cart"
9)

The Blemish Toner Pads have been added to your cart! You can proceed to checkout here:

Pitch. Skin checkout page showing express options (Shop Pay, PayPal, G Pay), contact and delivery form fields, and an order summary for one ‘Blemish Toner Pads 200 mL (120 pads)’ priced at AUD $49.

热门的远程 MCP 服务器包括：Cloudflare⁠（在新窗口中打开）、HubSpot⁠（在新窗口中打开）、Intercom⁠（在新窗口中打开）、PayPal⁠（在新窗口中打开）、Plaid⁠（在新窗口中打开）、Shopify⁠（在新窗口中打开）、Stripe⁠（在新窗口中打开）、Square⁠（在新窗口中打开）、Twilio⁠（在新窗口中打开）、Zapier⁠（在新窗口中打开）等。我们预计，未来几个月远程 MCP 服务器的生态系统将迅速发展，这将使开发人员更容易构建功能强大的智能体，这些智能体能够连接到用户目前所依赖的工具和数据源。为了更好地支持该生态发展并为正在开发的标准做出贡献，OpenAI 也加入了 MCP 指导委员会。

若想了解如何搭建自己的远程 MCP 服务器，可查看 Cloudflare⁠（在新窗口中打开）提供的这份指南。若想了解如何在回复 API 中使用 MCP 工具，可查看我们 API Cookbook 中的这份指南⁠（在新窗口中打开）。

图像生成、代码解译器和文件搜索功能的更新

借助回复 API 中的内置工具，开发人员仅需一次 API 调用，就能轻松创建功能更强大的智能体。模型在推理过程中能够调用多个工具，如今在 Humanity’s Last Exam 等行业标准基准测试中，工具调用性能显著提升（来源）。今天，我们新增了以下工具：

图像生成：除了使用图像 API⁠（在新窗口中打开）外，开发人员现在还可以在回复 API 中将我们最新的图像生成模型 — gpt-image-1 — 作为工具使用。该工具支持实时流式传输，开发人员在图像生成过程中即可查看预览，还支持多轮编辑，开发人员可引导模型逐步精细调整图像。了解更多⁠（在新窗口中打开）。
代码解译器：开发人员现在可以在回复 API 中使用代码解译器⁠（在新窗口中打开）工具。该工具可用于数据分析、解决复杂的数学和编程问题，还能帮助模型深入理解和处理图像（例如，图像思考）。o3 和 o4-mini 等模型能够在思维链中使用代码解译器工具，这使得它们在 Humanity’s Last Exam 等多个基准测试中的性能得到了提升（来源）。了解更多⁠（在新窗口中打开）。
文件搜索：开发人员现在可以在我们的推理模型中使用文件搜索⁠（在新窗口中打开）工具。文件搜索功能使开发人员能够根据用户查询，将文档中的相关片段提取到模型的上下文中。我们还对文件搜索工具进行了更新，允许开发人员在多个向量存储中进行搜索，并支持使用数组进行属性过滤。了解更多⁠（在新窗口中打开）。

回复 API 中的新功能

除了新增工具外，我们还在回复 API 中增加了对新功能的支持，具体包括：

后台模式：正如在 Codex、深度研究以及 Operator 等智能体产品中所见，推理模型解决复杂问题可能需要数分钟时间。现在，开发人员可以在 o3 等模型上使用后台模式，构建类似体验，而无需担心超时或其他连接问题 — 后台模式会异步启动这些任务。开发人员既可以轮询这些对象以检查任务是否完成，也可以在应用程序需要获取最新状态时，开始接收事件流。了解更多⁠（在新窗口中打开）。

Python

1response = client.responses.create(
2  model="o3",
3  input="Write me an extremely long story.",
4  reasoning={ "effort": "high" },
5  background=True
6)

推理摘要：回复 API 现在能够生成模型内部思维链的简洁自然语言摘要，与您在 ChatGPT 中看到的内容类似。这使得开发人员更容易进行调试、审核，并营造更好的终端用户体验。推理摘要功能无需额外付费。了解更多⁠（在新窗口中打开）。

Python

1response = client.responses.create(
2    model="o4-mini",
3    tools=[
4        {
5            "type": "code_interpreter",
6            "container": {"type": "auto"}
7        }
8    ],
9    instructions=(
10        "You are a personal math tutor. "
11        "When asked a math question, run code to answer the question."
12    ),
13    input="I need to solve the equation `3x + 11 = 14`. Can you help me?",
14    reasoning={"summary": "auto"}
15)

加密推理项：符合零数据保留 (ZDR)⁠（在新窗口中打开）条件的客户，现在可以在 API 请求中重复使用推理项，而且任何推理项均不会存储在 OpenAI 的服务器上。对于 o3 和 o4-mini 等模型，在函数调用之间重复使用推理项，能够提升智能水平、减少令牌使用量，并提高缓存命中率，从而降低成本和延迟。了解更多⁠（在新窗口中打开）。

Python

1response = client.responses.create(
2  model="o3",
3  input="Implement a simple web server in Rust from scratch.",
4  store=False,
5  include=["reasoning.encrypted_content"]
6)

定价与可用性

上述所有工具和功能现已在回复 API 中提供，而且我们的 GPT‑4o 系列、GPT‑4.1 系列以及 OpenAI o 系列推理模型（o1、o3、o3‑mini 和 o4-mini）也均支持。在我们的推理模型系列中，仅 o3 支持图像生成功能。

现有工具的定价保持不变。图像生成的价格为：5.00 美元/百万文本输入令牌，10.00 美元/百万图像输入令牌，40.00 美元/百万图像输出令牌，缓存的输入令牌可享受 75% 的折扣。代码解译器的价格为每个容器 0.03 美元。文件搜索的价格为：每天每 GB 向量存储 0.10 美元，每 1,000 次工具调用 2.50 美元。调用远程 MCP 服务器工具无需额外费用 — 您只需为 API 的输出令牌付费。关于定价⁠（在新窗口中打开）的更多信息，请见我们的相关文档。

我们期待看到您的精彩创造！

作者

OpenAI