21 de mayo de 2025

Nuevas herramientas y características en la API de Respuestas

Presentamos el soporte de servidor MCP remoto, la generación de imágenes, el intérprete de código y más en la API de Respuestas para desarrolladores y empresas.

Cargando...

Hoy, estamos incorporando nuevas herramientas integradas a la API de Respuestas, nuestra primitiva principal de API para construir aplicaciones con agentes. Esto incluye soporte para todos los servidores Model Context Protocol (MCP) remotos⁠(se abre en una nueva ventana), así como herramientas como la generación de imágenes⁠(se abre en una nueva ventana), el intérprete de código⁠(se abre en una nueva ventana) y mejoras en la búsqueda de archivos⁠(se abre en una nueva ventana). Estas herramientas están disponibles en todos los modelos de nuestras series GPT‑4o y GPT‑4.1, así como en los modelos de razonamiento de OpenAI pertenecientes a la serie o. Los modelos o3 y o4-mini ahora pueden invocar herramientas y funciones directamente dentro de su cadena de pensamiento en la API de Respuestas, lo que produce respuestas de mayor relevancia y riqueza contextual. El uso de los modelos o3 y o4-mini con la API de Respuestas conserva los tokens de razonamiento a través de las solicitudes y las invocaciones de herramientas, lo que mejora la inteligencia de los modelos y reduce el costo y la latencia para los desarrolladores.

También estamos presentando nuevas características de la API de Respuestas que mejoran la confiabilidad, la visibilidad y la privacidad de las empresas y los desarrolladores. Entre ellas, se incluyen el modo en segundo plano⁠(se abre en una nueva ventana) para manejar tareas de larga duración en forma asíncrona y más confiable, el soporte para resúmenes de razonamiento⁠(se abre en una nueva ventana) y el soporte para elementos de razonamiento cifrados⁠(se abre en una nueva ventana).

Desde el lanzamiento de la API de Respuestas en marzo de 2025 con herramientas como las de búsqueda en la web, búsqueda de archivos y uso de la computadora, cientos de miles de desarrolladores han utilizado la API para procesar billones de tokens a través de nuestros modelos. Los clientes han usado la API para desarrollar una variedad de aplicaciones con agentes, entre ellas el agente de codificación de Zencoder⁠(se abre en una nueva ventana), el agente de inteligencia de mercado de Revi⁠(se abre en una nueva ventana) para capital privado y banca de inversión y el agente educativo de MagicSchool AI⁠(se abre en una nueva ventana), todos los cuales emplean búsquedas en la web para incorporar información relevante y actualizada en sus aplicaciones. Ahora los desarrolladores pueden crear agentes que son aun más útiles y confiables con acceso a las herramientas y características nuevas que lanzamos hoy.

Nuevo soporte para servidores MCP remotos

Estamos agregando soporte para servidores MCP remotos⁠(se abre en una nueva ventana) en la API de Respuestas, ampliando el soporte que ya habíamos lanzado para MCP en el SDK (kit de desarrollo) de agentes⁠(se abre en una nueva ventana). MCP es un protocolo abierto que estandariza el modo en que las aplicaciones le proporcionan contexto a los LLM (modelos de lenguaje grandes). Gracias al soporte para servidores MCP en la API de Respuestas, los desarrolladores podrán conectar nuestros modelos a herramientas alojadas en cualquier servidor MCP con apenas unas líneas de código. Estos son algunos ejemplos de cómo los desarrolladores pueden utilizar los servidores MCP remotos con la API de Respuestas hoy en día:

Python

1response = client.responses.create(
2  model="gpt-4.1",
3  tools=[{
4    "type": "mcp",
5    "server_label": "shopify",
6    "server_url": "https://pitchskin.com/api/mcp",
7  }],
8  input="Add the Blemish Toner Pads to my cart"
9)

The Blemish Toner Pads have been added to your cart! You can proceed to checkout here:

Pitch. Página de pago personalizada que muestra opciones rápidas (Shop Pay, PayPal, G Pay), los campos del formulario de contacto y envío y un resumen del pedido de unos “Blemish Toner Pads de 200 ml (120 discos)” con un precio de AUD49.

Los servidores MCP remotos más populares son Cloudflare⁠(se abre en una nueva ventana), HubSpot⁠(se abre en una nueva ventana), Intercom⁠(se abre en una nueva ventana), PayPal⁠(se abre en una nueva ventana), Plaid⁠(se abre en una nueva ventana), Shopify⁠(se abre en una nueva ventana), Stripe⁠(se abre en una nueva ventana), Square⁠(se abre en una nueva ventana), Twilio⁠(se abre en una nueva ventana), Zapier⁠(se abre en una nueva ventana), entre otros. Esperamos que el ecosistema de servidores MCP remotos crezca con rapidez en los próximos meses, lo que facilitará a los desarrolladores la creación de agentes potentes que puedan conectarse con las herramientas y fuentes de datos en las que los usuarios ya confían. Para brindar el mejor apoyo posible al ecosistema y contribuir a este estándar en desarrollo, OpenAI también se ha sumado al comité directivo de MCP.

Para aprender a poner en marcha tu propio servidor MCP remoto, consulta esta guía de Cloudflare⁠(se abre en una nueva ventana). Para aprender a usar la herramienta MCP en la API de Respuestas, consulta esta guía⁠(se abre en una nueva ventana) en nuestro API Cookbook.

Actualizaciones en generación de imágenes, interpretación de códigos y búsqueda de archivos

Con las herramientas integradas en la API de Respuestas, los desarrolladores pueden crear agentes más capaces con gran facilidad, con una sola llamada de API. Al llamar a diversas herramientas mientras razonan, los modelos ahora adquieren un rendimiento en llamadas mucho mayor en los estándares de referencia de la industria como el “Último examen de la humanidad” (fuente). Hoy estamos incorporando nuevas herramientas como:

Generación de imágenes: Además de usar la API de Imágenes⁠(se abre en una nueva ventana), ahora los desarrolladores pueden acceder a nuestro último modelo de generación de imágenes—gpt-image-1— como una herramienta dentro de la API de Respuestas. Esta herramienta soporta transmisiones en vivo, lo que permite a los desarrolladores ver las vistas previas de la imagen a medida que se genera, y ediciones de varios turnos, lo que permite a los desarrolladores guiar al modelo para refinar estas imágenes de forma granular, paso a paso. Conoce más
Code Interpreter: Los desarrolladores ahora pueden usar la herramienta Code Interpreter⁠(se abre en una nueva ventana) dentro de la API de Respuestas. Esta herramienta es útil para analizar datos, solucionar problemas matemáticos y de codificación complejos y para ayudar a los modelos a comprender profundamente y manipular imágenes (por ejemplo, el pensamiento con imágenes). La capacidad que tienen los modelos como el o3 y el o4-mini de utilizar la herramienta Code Interpreter dentro de su cadena de pensamiento ha dado como resultado una mejora en el desempeño con respecto a varios estándares, incluido el “Último examen de la Humanidad” (fuente). Conoce más
Búsqueda de archivos: Los desarrolladores ahora pueden acceder a la herramienta de búsqueda de archivos⁠(se abre en una nueva ventana) en nuestros modelos de razonamiento. La búsqueda de archivos les permite a los desarrolladores incorporar fragmentos de sus documentos en los contextos de los modelos, sobre la base de la consulta del usuario. También estamos presentando actualizaciones a la herramienta de búsqueda de archivos, que permite a los desarrolladores realizar búsquedas a través de almacenes de vectores múltiples y dar soporte al filtrado de atributos con matrices. Conoce más

Nuevas características en la API de Respuestas

Además de las herramientas nuevas, también estamos agregando soporte para nuevas características en la API de Respuestas, entre las que se incluyen:

Modo en segundo plano: Como se ve en productos agénticos como Codex, la investigación a fondo y Operator, los modelos de razonamiento pueden demorar varios minutos en resolver problemas complejos. Los desarrolladores ahora pueden utilizar el modo en segundo plano para crear experiencias similares en modelos como el o3 sin preocuparse por los tiempos muertos u otros problemas de conectividad. El modo en segundo plano inicia estas tareas de manera asíncrona. Los desarrolladores pueden sondear estos objetos para verificar que estén completos o comenzar a transmitir eventos cada vez que su aplicación necesite ponerse al día con el estado más reciente. Conoce más

Python

1response = client.responses.create(
2  model="o3",
3  input="Write me an extremely long story.",
4  reasoning={ "effort": "high" },
5  background=True
6)

Resúmenes de razonamiento: La API de Respuestas ahora puede generar resúmenes concisos en lenguaje natural de la cadena de pensamiento interna del modelo, en forma similar a lo que se ve en ChatGPT. Esto les facilita a los desarrolladores las tareas de depuración y auditoría y una mejor creación de experiencias para el usuario final. Los resúmenes de razonamiento están disponibles sin costo adicional. Conoce más

Python

1response = client.responses.create(
2    model="o4-mini",
3    tools=[
4        {
5            "type": "code_interpreter",
6            "container": {"type": "auto"}
7        }
8    ],
9    instructions=(
10        "You are a personal math tutor. "
11        "When asked a math question, run code to answer the question."
12    ),
13    input="I need to solve the equation `3x + 11 = 14`. Can you help me?",
14    reasoning={"summary": "auto"}
15)

Elementos de razonamiento cifrados: Los clientes que cumplen los requisitos para la retención cero de datos (ZDR)⁠(se abre en una nueva ventana) ahora pueden reutilizar los elementos de razonamiento a través de las solicitudes de API, sin que ningún elemento de razonamiento se almacene en los servidores de OpenAI. Para modelos como el o3 y el o4-mini, la reutilización de elementos de razonamiento entre invocaciones de funciones aumenta la inteligencia, reduce el uso de tokens e incrementa las tasas de aciertos de caché, lo que redunda en una baja de los costos y la latencia. Conoce más

Python

1response = client.responses.create(
2  model="o3",
3  input="Implement a simple web server in Rust from scratch.",
4  store=False,
5  include=["reasoning.encrypted_content"]
6)

Acceso y disponibilidad

Todas estas herramientas y características ya están disponibles en la API de Respuestas y son compatibles con nuestras series GPT‑4o y GPT‑4.1, así como con nuestros modelos de razonamiento de la serie o de OpenAI (o1, o3, o3‑mini y o4-mini). La generación de imágenes solo es compatible con el modelo o3 de nuestra serie de modelos de razonamiento.

Los precios de las herramientas existentes siguen siendo los mismos. La generación de imágenes cuesta $5.00/1M tokens de entrada de texto, $10.00/1M tokens de entrada de imagen y $40.00/1M tokens de salida de imagen, con un 75 % de descuento en los tokens de entrada almacenados en caché. El uso del Code Interpreter cuesta $0.03 por contenedor. La búsqueda de archivos cuesta $0.10/GB de almacenamiento vectorial por día y $2.50/1k llamadas a la herramienta. No hay ningún costo adicional por invocar la herramienta del servidor MCP remoto: simplemente se cobran los tokens de salida generados por la API. Conoce más sobre los precios⁠(se abre en una nueva ventana) en nuestra documentación.

¡Queremos ver lo que logras desarrollar!

Autor/a

OpenAI