11 de marzo de 2025

Nuevas herramientas para crear agentes

Estamos mejorando nuestra plataforma para facilitar a desarrolladores y empresas la creación de agentes útiles y fiables.

Pruébalo en Playground

Una interfaz elegante y minimalista que muestra una lista de tareas para un agente de IA, entre ellas «triage_agent», «guardrail» y «update_salesforce_record», sobre un fondo abstracto azul con formas fluidas.

Hoy presentamos el primer conjunto de componentes que ayudarán a desarrolladores y empresas a crear agentes útiles y fiables. Entendemos por agentes aquellos sistemas capaces de realizar tareas de forma autónoma en nombre de los usuarios. Durante el último año, hemos incorporado nuevas capacidades a nuestros modelos, como razonamiento avanzado, interacciones multimodales y nuevas técnicas de seguridad, que sientan las bases para abordar tareas complejas y con múltiples pasos, como las que se exigen a los agentes. Sin embargo, muchos clientes nos han señalado que convertir estas capacidades en agentes listos para producir no es tarea fácil: a menudo son necesarias muchas iteraciones de indicaciones y una lógica de orquestación a medida, sin la visibilidad ni el soporte integrado necesarios.

Con el objetivo de resolver estas dificultades, hemos lanzado un nuevo conjunto de API y herramientas pensadas para simplificar el desarrollo de aplicaciones basadas en agentes:

La nueva Responses API⁠(se abre en una ventana nueva), que combina la sencillez de la API de finalizaciones de chat con la capacidad de usar herramientas de la Assistants API para crear agentes.
Herramientas integradas como búsqueda en la web⁠(se abre en una ventana nueva), búsqueda en archivos⁠(se abre en una ventana nueva) y uso del ordenador⁠(se abre en una ventana nueva).
El nuevo SDK para agentes⁠(se abre en una ventana nueva), que permite orquestar flujos de trabajo con uno o más agentes.
Herramientas de observabilidad⁠(se abre en una ventana nueva) integradas para rastrear y analizar la ejecución de los flujos de trabajo de los agentes.

Estas herramientas agilizan la lógica principal, la orquestación y la interacción de los agentes, lo que reduce de forma considerable la complejidad inicial para los desarrolladores. En las próximas semanas y meses, tenemos previsto lanzar más herramientas y capacidades para seguir simplificando y acelerando el desarrollo de aplicaciones con agentes en nuestra plataforma.

Presentamos Responses API

Responses API es nuestra nueva API fundamental que aprovecha las herramientas integradas de OpenAI para la creación de agentes. Combina la simplicidad de Chat Completions con la capacidad de usar herramientas que ofrece Assistants API. A medida que las capacidades de los modelos evolucionan, creemos que Responses API ofrecerá una base más flexible para quienes desarrollan aplicaciones con agentes. Con una sola llamada a esta API, los desarrolladores podrán resolver tareas cada vez más complejas empleando varias herramientas y turnos del modelo.

Para empezar, Responses API será compatible con nuevas herramientas integradas como la búsqueda web, la búsqueda de archivos y el uso del ordenador. Estas herramientas están diseñadas para funcionar de forma conjunta y conectar los modelos con el mundo real, haciéndolos más útiles a la hora de completar tareas. Además, esta API incorpora varias mejoras de usabilidad, entre ellas un diseño unificado basado en elementos, un enfoque más sencillo para gestionar distintos tipos de objetos, eventos de transmisión más intuitivos y utilidades en el SDK como response.output_text, que permite acceder fácilmente al texto generado por el modelo.

Responses API está pensada para desarrolladores que quieren combinar fácilmente modelos de OpenAI y herramientas integradas en sus aplicaciones, sin la complejidad de usar varias API o proveedores externos. También facilita el almacenamiento de datos en OpenAI, lo que permite evaluar el rendimiento de los agentes con funciones como el seguimiento y las evaluaciones. Como recordatorio, de forma predeterminadano entrenamos nuestros modelos con datos empresariales, ni siquiera cuando esos datos están almacenados en OpenAI. La API está disponible para todos los desarrolladores desde hoy mismo y no tiene un coste adicional: los tókenes y las herramientas se facturan según las tarifas estándar indicadas en nuestra página de precios⁠(se abre en una ventana nueva). Consulta la guía rápida⁠(se abre en una ventana nueva) de Responses API para más información.

Qué implica esto para las API existentes

API de finalizaciones de chat⁠(se abre en una ventana nueva): sigue siendo nuestra API más utilizada y mantenemos un compromiso total con el soporte y mejora continuos mediante nuevos modelos y funciones Los desarrolladores que no necesiten herramientas integradas pueden seguir usándola con total confianza. Seguiremos incorporando nuevos modelos de esta API siempre que las capacidades no dependan de herramientas integradas ni de múltiples llamadas al modelo. Sin embargo, Responses API es un superconjunto⁠(se abre en una ventana nueva) de API de finalizaciones de chat, con el mismo gran rendimiento, por lo que recomendamos usarla como base para nuevas integraciones.
Assistants API⁠(se abre en una ventana nueva): a partir de los comentarios de los desarrolladores durante la beta de Assistants API, hemos incorporado mejoras clave en Responses API, haciéndola más flexible, rápida y fácil de usar. Nuestro objetivo es alcanzar una paridad total de funcionalidades entre ambas API, incluyendo el soporte para objetos similares a Assistant y Thread, así como la herramienta Intérprete de código. Cuando esta transición esté completa, anunciaremos oficialmente la retirada de Assistants API, cuya fecha está prevista para mediados de 2026. En ese momento, ofreceremos una guía clara de migración de Assistants API a Responses API, que permitirá conservar todos los datos al trasladar las aplicaciones. Mientras no se anuncie formalmente la retirada, seguiremos incorporando nuevos modelos a Assistants API. Responses API es el camino que marca el futuro para el desarrollo de agentes en OpenAI.

Presentamos las herramientas integradas en Responses API

Búsqueda en Internet

Ahora los desarrolladores pueden obtener respuestas rápidas, actualizadas y con fuentes claras y relevantes directamente desde la web. En API Responses, la búsqueda en Internet está disponible como herramienta al usar gpt-4o y gpt-4o-mini. Además, se puede combinar con otras herramientas o llamadas a funciones.

JavaScript

1const response = await openai.responses.create({
2    model: "gpt-4o",
3    tools: [ { type: "web_search_preview" } ],
4    input: "What was a positive news story that happened today?",
5});
6
7console.log(response.output_text);

Durante las primeras pruebas, hemos visto a desarrolladores usar la búsqueda en Internet en casos muy diversos: asistentes de compras, agentes de investigación o sistemas para reservar viajes, entre otros. En general, cualquier aplicación que necesite información actualizada en tiempo real se puede beneficiar de esta herramienta.

Un ejemplo concreto es Hebbia⁠(se abre en una ventana nueva), que usa la herramienta de búsqueda en Internet para ayudar a gestores de activos, firmas de capital privado y crédito, y despachos de abogados a extraer información útil de grandes conjuntos de datos tanto públicos como privados. Al integrar búsquedas en tiempo real en los flujos de investigación, Hebbia ofrece información de mercado más rica y contextual y mejora constantemente la precisión y relevancia de sus análisis, superando los estándares actuales.

La búsqueda en Internet en la API utiliza el mismo modelo que potencia la búsqueda en ChatGPT. En SimpleQA, un conjunto de pruebas que evalúa la precisión de los modelos para responder preguntas breves y objetivas, la versión preliminar de búsqueda con GPT‑4o obtiene un 90 % de aciertos y la versión con GPT‑4o mini, un 88 %.

Precisión de SimpleQA (mejor cuanto más alta)

Las respuestas generadas con la búsqueda en Internet en la API incluyen enlaces a las fuentes, como artículos de noticias o publicaciones de blogs, lo que brinda a los usuarios la oportunidad de ampliar la información. Con estas citas exactas en el texto, los usuarios pueden interactuar con la información de un modo nuevo, mientras que los propietarios de los contenidos consiguen nuevas oportunidades de llegar a un público más amplio.

Cualquier página web o editor puede decidir aparecer⁠(se abre en una ventana nueva) en la búsqueda en Internet de la API.

La herramienta de búsqueda en Internet está disponible para todos los desarrolladores en versión anticipada en Responses API. Además, ofrecemos acceso directo a nuestros modelos de búsqueda optimizados en la API de finalizaciones de chat mediante gpt-4o-search-preview y gpt-4o-mini-search-preview. Los precios⁠(se abre en una ventana nueva) comienzan a partir de 30 y 25 USD por cada mil consultas de GPT‑4o y GPT‑4o, respectivamente. Puedes probar la búsqueda web en Playground⁠(se abre en una ventana nueva) y consultar más detalles en nuestra documentación⁠(se abre en una ventana nueva).

Búsqueda de archivos

Los desarrolladores ya pueden recuperar información relevante de grandes cantidades de documentos de forma sencilla gracias a la herramienta mejorada de búsqueda de archivos. Esta herramienta admite múltiples tipos de archivo, optimización de consultas, filtrado por metadatos y reordenamiento personalizado, lo que permite obtener resultados rápidos y precisos. Además, con Responses API, la integración se realiza con unas pocas líneas de código.

JavaScript

1const productDocs = await openai.vectorStores.create({
2    name: "Product Documentation",
3    file_ids: [file1.id, file2.id, file3.id],
4});
5
6const response = await openai.responses.create({
7    model: "gpt-4o-mini",
8    tools: [{
9        type: "file_search",
10        vector_store_ids: [productDocs.id],
11    }],
12    input: "What is deep research by OpenAI?",
13});
14
15console.log(response.output_text);

La herramienta de búsqueda de archivos puede aplicarse a numerosos casos reales: desde permitir que un agente de atención al cliente acceda rápidamente a preguntas frecuentes, hasta ayudar a un asistente legal a consultar casos anteriores o facilitar que un agente de programación recupere documentación técnica. Un ejemplo es Navan⁠(se abre en una ventana nueva), que utiliza esta herramienta en el agente de viajes con IA para ofrecer a los usuarios respuestas precisas extraídas de artículos de su base de conocimientos, como la política de viajes de su empresa. Gracias a la optimización de las consultas y al reordenamiento integrado, han podido configurar una potente arquitectura de RAG (generación mejorada por recuperación) sin necesidad de ajustes ni configuración adicionales. Gracias a los almacenes vectoriales dedicados para cada grupo de usuarios, Navan adapta las respuestas según la configuración y los roles de cada cuenta individual, lo que ahorra tiempo tanto a los usuarios como a los equipos de soporte y mejora la calidad del servicio personalizado.

Esta herramienta está disponible en Responses API para todos los desarrolladores. El precio⁠(se abre en una ventana nueva) por uso es de 2,50 USD por cada mil consultas y el almacenamiento de archivos a 0,10 USD por GB al día (el primer GB es gratuito). También continúa disponible en Assistants API. Por último, hemos añadido un nuevo punto final de búsqueda a los objetos de la Vector Store API para consultar directamente tus datos desde otras aplicaciones o API. Consulta más información en la documentación⁠(se abre en una ventana nueva) y pruébalo ya en Playground⁠(se abre en una ventana nueva).

Uso de ordenador

Para crear agentes capaces de realizar tareas directamente en un ordenador, los desarrolladores ya pueden utilizar la herramienta de uso del ordenador en Responses API. Esta función se basa en el mismo modelo de agente informático (CUA) que impulsa Operator. Este modelo, en anticipo de investigación, estableció nuevos estándares de referencia: alcanzó un 38,1 % de éxito en la prueba OSWorld⁠(se abre en una ventana nueva) para tareas que requieren el uso de todo el ordenador, un 58,1 % en WebArena⁠(se abre en una ventana nueva) y un 87 % en WebVoyager⁠(se abre en una ventana nueva) en tareas de interacción con la web.

La herramienta integrada de uso del ordenador capta las acciones del ratón y el teclado que genera el modelo, lo que permite a los desarrolladores automatizar tareas informáticas al traducir directamente esas acciones en comandos ejecutables dentro de los propios entornos.

JavaScript

1const response = await openai.responses.create({
2    model: "computer-use-preview",
3    tools: [{
4        type: "computer_use_preview",
5        display_width: 1024,
6        display_height: 768,
7        environment: "browser",
8    }],
9    truncation: "auto",
10    input: "I'm looking for a new camera. Help me find the best one.",
11});
12
13console.log(response.output);

Los desarrolladores pueden usar la herramienta de uso del ordenador para automatizar flujos de trabajo en el navegador, como por ejemplo efectuar pruebas de calidad en aplicaciones web o tareas de introducción de datos en sistemas heredados. Un ejemplo es Unify⁠(se abre en una ventana nueva), una plataforma diseñada para impulsar ingresos que emplea agentes para identificar intenciones, investigar cuentas y contactar con compradores. Gracias a la herramienta de uso del ordenador de OpenAI, los agentes de Unify pueden acceder a información que antes no era posible obtener mediante API. Por ejemplo, permiten a una empresa de gestión inmobiliaria comprobar a través de mapas en línea si un negocio ha ampliado su presencia física. Esta investigación genera señales personalizadas que activan campañas de contacto específicas, lo que permite a los equipos comerciales llegar a los compradores con más precisión y a mayor escala.

Otro caso es el de Luminai⁠(se abre en una ventana nueva), que integró esta herramienta para automatizar flujos operativos complejos en grandes empresas cuyos sistemas heredados no tienen API ni datos estandarizados. En una prueba reciente con una gran organización de servicios comunitarios, Luminai logró automatizar el procesamiento de solicitudes y la inscripción de usuarios en pocos días, algo que las soluciones tradicionales de automatización robótica de procesos (RPA) no habían conseguido tras meses de intentos.

Antes de lanzar CUA en Operator el año pasado, efectuamos pruebas de seguridad exhaustivas y ejercicios de equipo rojo centrados en tres áreas clave de riesgo: el uso indebido, los errores del modelo y los riesgos emergentes. Para extender las capacidades de Operator a sistemas operativos locales mediante CUA en la API, llevamos a cabo más evaluaciones de seguridad y nuevas rondas de equipo rojo. También incorporamos medidas de mitigación dirigidas a desarrolladores, como controles de seguridad para prevenir inyecciones de indicaciones, confirmaciones para tareas sensibles, herramientas para facilitar el aislamiento de entornos de ejecución y detección mejorada de posibles infracciones de políticas. Aunque estas medidas reducen el riesgo, el modelo sigue siendo susceptible de cometer errores, sobre todo en entornos fuera del navegador. Por ejemplo, el rendimiento de CUA en OSWorld, una prueba que evalúa agentes de IA en tareas del mundo real, es del 38,1 %, lo que indica que el modelo aún no es lo bastante fiable para automatizar tareas en sistemas operativos. Por ello, se recomienda supervisión humana en estos casos. Puedes consultar más detalles sobre las medidas de seguridad específicas para la API en la nueva versión de la tarjeta del sistema.

Tipo de prueba comparativa	Prueba comparativa	Uso del ordenador (interfaz universal)		Agentes de navegación web	Humano
		CUA de OpenAI	SOTA anterior	SOTA anterior
Uso del ordenador	OSWorld	38,1 %	22,0 %	-	72,4 %
Uso del navegador	WebArena	58,1 %	36,2 %	57,1 %	78,2 %
Uso del navegador	WebVoyager	87,0 %	56,0 %	87,0 %	-

Los detalles de la evaluación se describen aquí

A partir de hoy, la herramienta de uso del ordenador está disponible como anticipo de investigación en Responses API para algunos desarrolladores seleccionados en los niveles de uso 3 a 5⁠(se abre en una ventana nueva). El uso se factura⁠(se abre en una ventana nueva) a 3 USD por millón de tókenes de entrada y 12 USD por millón de tókenes de salida. Puedes consultar más información en la documentación⁠(se abre en una ventana nueva) y ver una aplicación de ejemplo⁠(se abre en una ventana nueva) que muestra cómo trabajar con esta herramienta.

SDK para agentes

Además de definir la lógica principal de los agentes y darles acceso a herramientas útiles, los desarrolladores también necesitan orquestar los flujos de trabajo entre ellos. Nuestro nuevo SDK para agentes, de código abierto, simplifica esa organización y ofrece mejoras importantes respecto a Swarm⁠(se abre en una ventana nueva), el SDK experimental que lanzamos el año pasado y que fue ampliamente adoptado por la comunidad de desarrolladores y clientes en producción.

Las mejoras incluyen:

Agentes: LLM fáciles de configurar, con instrucciones claras y herramientas integradas.
Traspasos: transferencias inteligentes de control entre agentes.
Barreras de seguridad: controles configurables para validar entradas y salidas.
Trazabilidad y observabilidad: visualización de las ejecuciones de los agentes para depurar y optimizar el rendimiento.

Python

1from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2
3@function_tool
4def submit_refund_request(item_id: str, reason: str):
5    # Your refund logic goes here
6    return "success"
7
8support_agent = Agent(
9    name="Support & Returns",
10    instructions="You are a support agent who can submit refunds [...]",
11    tools=[submit_refund_request],
12)
13
14shopping_agent = Agent(
15    name="Shopping Assistant",
16    instructions="You are a shopping assistant who can search the web [...]",
17    tools=[WebSearchTool()],
18)
19
20triage_agent = Agent(
21    name="Triage Agent",
22    instructions="Route the user to the correct agent.",
23    handoffs=[shopping_agent, support_agent],
24)
25
26output = Runner.run_sync(
27    starting_agent=triage_agent,
28    input="What shoes might work best with my outfit so far?",
29)

El SDK para agentes es apto para múltiples aplicaciones reales, como por ejemplo la automatización del soporte al cliente, la ejecución de investigaciones en varios pasos, la generación de contenido, la revisión de código y la prospección comercial. Coinbase⁠(se abre en una ventana nueva), por ejemplo, ha empleado el SDK para agentes para prototipar e implementar rápidamente AgentKit, un conjunto de herramientas que permite a agentes de IA interactuar de forma fluida con carteras de criptomonedas y operaciones en cadena. En apenas unas horas, Coinbase integró acciones personalizadas de su SDK para la plataforma de desarrollo en un agente totalmente funcional. La arquitectura simplificada de AgentKit facilitó la incorporación de nuevas acciones con agentes y permitió a los desarrolladores ocuparse más de las integraciones útiles sin complicarse con complejas configuraciones de agentes.

En solo un par de días, Box⁠(se abre en una ventana nueva) logró crear agentes que combinan la búsqueda en Internet con el SDK para agentes para permitir a las empresas buscar, consultar y extraer información de datos no estructurados almacenados en Box y en fuentes públicas de la web. Esta solución no solo ofrece acceso a información actualizada, sino que también permite buscar datos internos y confidenciales de forma segura, respetando los permisos y políticas de seguridad establecidos por cada organización. Por ejemplo, una firma de servicios financieros puede crear un agente personalizado que recurra al agente de IA de Box para combinar los análisis de mercado internos (almacenados en Box) con noticias en tiempo real y datos económicos disponibles en la web. Así, los analistas obtienen una visión más completa para tomar decisiones de inversión.

El SDK para agentes es compatible con Responses API y con la API de finalizaciones de chat. También funcionará con modelos de otros proveedores, siempre que ofrezcan un punto final compatible con el formato de esta última. Los desarrolladores pueden integrarlo ya en proyectos de Python; próximamente también estará disponible el soporte para Node.js. Consulta más información en nuestra documentación⁠(se abre en una ventana nueva).

En el diseño del SDK para Agentes, nos hemos inspirado en el excelente trabajo de otros proyectos de la comunidad, como Pydantic⁠(se abre en una ventana nueva), Griffe⁠(se abre en una ventana nueva) y MkDocs⁠(se abre en una ventana nueva). Nuestro compromiso es mantener el SDK para agentes como un proyecto de código abierto para que otras personas puedan ampliarlo y contribuir a su evolución.

Perspectivas de futuro: construir una plataforma para agentes

Creemos que los agentes pronto se integrarán de forma natural en el entorno laboral, optimizando de un modo significativo la productividad en todos los sectores. Ante la creciente demanda de soluciones de IA capaces de abordar tareas complejas, nuestro objetivo es proporcionar a desarrolladores y empresas las bases necesarias para construir sistemas autónomos con impacto real.

Con los lanzamientos de hoy, ponemos los cimientos para facilitar a desarrolladores y empresas la creación, la implementación y la escalabilidad de agentes de IA fiables y de alto rendimiento. A medida que los modelos evolucionen con capacidades cada vez más orientadas a tareas autónomas, seguiremos incorporando mejoras en nuestras API, así como nuevas herramientas para facilitar la implementación, la evaluación y la optimización de agentes en producción. Nuestro objetivo es ofrecer una plataforma unificada para desarrollar agentes capaces de resolver todo tipo de tareas, en cualquier sector. Estamos deseando ver qué construye la comunidad a partir de aquí. Si quieres conocer más detalles, consulta nuestra documentación⁠⁠(se abre en una ventana nueva) y no te pierdas nuestras actualizaciones próximamente.

Autores

OpenAI