21 de mayo de 2025

Nuevas herramientas y funciones en Responses API

Presentamos la asistencia para servidores MCP remotos, la generación de imágenes, el intérprete de código y mucho más en la Responses API para desarrolladores y empresas.

Cargando…

Hoy añadimos nuevas herramientas integradas a la Responses API, nuestra API primitiva básica para crear aplicaciones con agentes. Esto incluye compatibilidad con todos los servidores remotos del Protocolo de contexto de modelo (MCP)⁠(se abre en una ventana nueva), así como herramientas como la generación de imágenes⁠(se abre en una ventana nueva), el intérprete de código⁠(se abre en una ventana nueva) y mejoras en la búsqueda de archivos⁠(se abre en una ventana nueva). Estas herramientas están disponibles en nuestros modelos de razonamiento de las series GPT‑4o, GPT‑4.1 y OpenAI o. Ahora, o3 y o4-mini pueden llamar a herramientas y funciones directamente desde la cadena de pensamiento en la Responses API, lo que genera respuestas más contextuales y relevantes. El uso de o3 y o4-mini con la Responses API conserva los tókenes de razonamiento entre solicitudes y llamadas a herramientas, lo que mejora la inteligencia del modelo y reduce el coste y la latencia para los desarrolladores.

También estamos introduciendo nuevas funciones en la Responses API que mejoran la fiabilidad, la visibilidad y la privacidad para las empresas y los desarrolladores. Entre ellas se incluyen el modo en segundo plano⁠(se abre en una ventana nueva) para gestionar tareas de larga duración de forma asíncrona y más fiable, la compatibilidad con resúmenes de razonamiento⁠(se abre en una ventana nueva) y la compatibilidad con elementos de razonamiento cifrados⁠(se abre en una ventana nueva).

Desde el lanzamiento de la Responses API en marzo de 2025 con herramientas como búsqueda web, búsqueda de archivos y uso del ordenador, cientos de miles de desarrolladores han utilizado la API para procesar billones de tókenes en nuestros modelos. Los clientes han utilizado la API para crear diversas aplicaciones de agentes, entre las que se incluyen el agente de programación de Zencoder⁠(se abre en una ventana nueva), el agente de inteligencia de mercado de Revi⁠(se abre en una ventana nueva) para capital privado y banca de inversión, y el asistente educativo de MagicSchool AI⁠(se abre en una ventana nueva), todas ellas basadas en búsquedas web para recopilar información pertinente y actualizada en sus aplicaciones. Ahora los desarrolladores pueden crear agentes aún más útiles y fiables gracias al acceso a las nuevas herramientas y funciones presentadas hoy.

Nuevo soporte para servidor MCP remoto

Estamos añadiendo compatibilidad con servidores MCP remotos⁠(se abre en una ventana nueva) en la Responses API, basándonos en el lanzamiento de la compatibilidad con MCP en el SDK para agentes⁠(se abre en una ventana nueva). MCP es un protocolo abierto que estandariza la forma en que las aplicaciones proporcionan contexto a los LLM. Al admitir servidores MCP en la Responses API, los desarrolladores podrán conectar nuestros modelos a herramientas alojadas en cualquier servidor MCP con solo unas pocas líneas de código. A continuación se detallan ejemplos para ilustrar la forma en que desarrolladores web pueden utilizar servidores MCP remotos con la Responses API en la actualidad:

Python

1response = client.responses.create(
2  model="gpt-4.1",
3  tools=[{
4    "type": "mcp",
5    "server_label": "shopify",
6    "server_url": "https://pitchskin.com/api/mcp",
7  }],
8  input="Add the Blemish Toner Pads to my cart"
9)

The Blemish Toner Pads have been added to your cart! You can proceed to checkout here:

Pitch. Página de pago con opciones rápidas (Shop Pay, PayPal, G Pay), campos de contacto y envío, y un resumen del pedido de un «Tónico para imperfecciones 200 ml (120 toallitas)» con un precio de 49 AUD.

Entre los servidores MCP remotos más populares se incluyen Cloudflare⁠(se abre en una ventana nueva), HubSpot⁠(se abre en una ventana nueva), Intercom⁠(se abre en una ventana nueva), PayPal⁠(se abre en una ventana nueva), Plaid⁠(se abre en una ventana nueva), Shopify⁠(se abre en una ventana nueva), Stripe⁠(se abre en una ventana nueva), Square⁠(se abre en una ventana nueva), Twilio⁠(se abre en una ventana nueva) y Zapier⁠(se abre en una ventana nueva), entre otros. Esperamos que el ecosistema de servidores MCP remotos crezca rápidamente en los próximos meses, lo que facilitará a los desarrolladores la creación de potentes agentes que puedan conectarse a las herramientas y fuentes de datos en las que ya confían sus usuarios. Con el fin de apoyar mejor el ecosistema y contribuir a este estándar en desarrollo, OpenAI también se ha unido al comité directivo de MCP.

Para aprender a poner en marcha tu propio servidor MCP remoto, consulta esta guía de Cloudflare⁠(se abre en una ventana nueva). Para aprender a utilizar la herramienta MCP en la Responses API, consulta esta guía⁠(se abre en una ventana nueva) en nuestro API Cookbook.

Actualizaciones en la generación de imágenes, el intérprete de código y la búsqueda de archivos

Con las herramientas integradas en la Responses API, los desarrolladores pueden crear fácilmente agentes más capacitados con una sola llamada a la API. Al recurrir a múltiples herramientas durante el razonamiento, los modelos ahora alcanzan un rendimiento significativamente mayor en pruebas de referencia estándar del sector, como Humanity’s Last Exam (fuente). Hoy añadimos nuevas herramientas, entre las que se incluyen:

Generación de imágenes: Además de utilizar la API de imágenes⁠(se abre en una ventana nueva), los desarrolladores pueden acceder ahora a nuestro último modelo de generación de imágenes gpt-image-1como herramienta dentro de la Responses API. Esta herramienta admite la transmisión en tiempo real, permitiendo a los desarrolladores ver vistas previas de la imagen a medida que se genera, y ediciones en varias etapas, que, por su parte, permite a los desarrolladores solicitar al modelo que refine granularmente estas imágenes paso a paso. Más información⁠(se abre en una ventana nueva).
Intérprete de código: Los desarrolladores ya pueden utilizar la herramienta de Intérprete de código dentro de la Responses API. Esta herramienta es útil para analizar datos, resolver problemas matemáticos y de programación complejos, y ayudar a los modelos a comprender y manipular imágenes en profundidad (por ejemplo, pensar con imágenes). La capacidad de modelos como o3 y o4-mini para utilizar la herramienta Intérprete de código dentro de la cadena de pensamiento ha dado lugar a un mejor rendimiento en varias pruebas de referencia, entre ellas Humanity’s Last Exam (fuente). Más información.
Búsqueda de archivos: Los desarrolladores ahora pueden acceder a la herramienta de búsqueda de archivos⁠(se abre en una ventana nueva)en nuestros modelos de razonamiento. La búsqueda de archivos permite a los desarrolladores extraer fragmentos relevantes de los documentos y colocarlos en el contexto del modelo en función de la consulta del usuario. También estamos introduciendo actualizaciones en la herramienta de búsqueda de archivos que permiten a los desarrolladores realizar búsquedas en múltiples almacenes vectoriales y admiten el filtrado de atributos con matrices. Más información⁠(se abre en una ventana nueva).

Nuevas funciones en Responses API

Además de las nuevas herramientas, también estamos añadiendo compatibilidad con nuevas funciones en la Responses API, entre las que se incluyen:

Modo en segundo plano: Como se ve en productos agente como Codex, investigación en profundidad y Operator, los modelos de razonamiento pueden tardar varios minutos en resolver problemas complejos. Ahora, los desarrolladores pueden utilizar el modo en segundo plano para crear experiencias similares en modelos como o3 sin preocuparse por los tiempos de espera u otros problemas de conectividad, puesto que el modo en segundo plano inicia estas tareas de forma asíncrona. Los desarrolladores pueden sondear estos objetos para comprobar si se han completado o iniciar la transmisión de eventos cada vez que la aplicación necesite ponerse al día con el estado más reciente. Más información⁠(se abre en una ventana nueva).

Python

1response = client.responses.create(
2  model="o3",
3  input="Write me an extremely long story.",
4  reasoning={ "effort": "high" },
5  background=True
6)

Resúmenes de razonamientos: La Responses API ahora puede generar resúmenes concisos y en lenguaje natural de la cadena de pensamiento interna del modelo, similares a los que ves en ChatGPT. Esto facilita a los desarrolladores la depuración, la auditoría y la creación de mejores experiencias para el usuario final. Los resúmenes de razonamientos están disponibles sin coste adicional. Más información⁠(se abre en una ventana nueva).

Python

1response = client.responses.create(
2    model="o4-mini",
3    tools=[
4        {
5            "type": "code_interpreter",
6            "container": {"type": "auto"}
7        }
8    ],
9    instructions=(
10        "You are a personal math tutor. "
11        "When asked a math question, run code to answer the question."
12    ),
13    input="I need to solve the equation `3x + 11 = 14`. Can you help me?",
14    reasoning={"summary": "auto"}
15)

Elementos de razonamiento cifrados: Los clientes que cumplen los requisitos para la Zero Data Retention (ZDR)⁠(se abre en una ventana nueva) ahora pueden reutilizar elementos de razonamiento en solicitudes API, sin que se almacene ningún elemento de razonamiento en los servidores de OpenAI. En modelos como o3 y o4-mini, la reutilización de elementos de razonamiento entre llamadas a funciones aumenta la inteligencia, reduce el uso de tókenes y aumenta las tasas de aciertos en la caché, lo que se traduce en menores costes y latencia. Más información⁠(se abre en una ventana nueva).

Python

1response = client.responses.create(
2  model="o3",
3  input="Implement a simple web server in Rust from scratch.",
4  store=False,
5  include=["reasoning.encrypted_content"]
6)

Precios y disponibilidad

Todas estas herramientas y funciones ya están disponibles en la Responses API, compatible con nuestra serie GPT‑4o, la serie GPT‑4.1 y nuestros modelos de razonamiento de la serie OpenAI o (o1, o3, o3‑mini y o4-mini). La generación de imágenes solo es compatible en o3 de nuestra serie de modelos de razonamiento.

El precio de las herramientas existentes no varía. La generación de imágenes cuesta 5,00 USD por cada millón de tókenes de entrada de texto, 10,00 USD por cada millón de tókenes de entrada de imágenes y 40,00 USD por cada millón de tókenes de salida de imágenes, con un 75 % de descuento en los tókenes de entrada en caché. El Intérprete de código cuesta 0,03 USD por contenedor. La búsqueda de archivos cuesta 0,10 USD/GB de almacenamiento vectorial al día y 2,50 USD/1000 llamadas a la herramienta. No hay ningún coste adicional por llamar a la herramienta del servidor MCP remoto; solo se te facturarán los tókenes de salida de la API. Más información sobre los precios⁠(se abre en una ventana nueva) en nuestra documentación.

¡Estamos deseando ver lo que creas!

Autor

OpenAI