11 de marzo de 2025

Nuevas herramientas para construir agentes

Hacemos que nuestra plataforma evolucione para ayudar a los desarrolladores y a las empresas a crear agentes útiles y confiables.

Pruébalo en Playground

Una interfaz elegante y minimalista que muestra una lista de tareas para un agente de IA, incluido “triage_agent”, “guardrail” y “update_salesforce_record”, sobre un fondo abstracto azul fluido.

Hoy, lanzamos el primer conjunto de módulos que ayudarán a tanto a desarrolladores como a empresas a crear agentes útiles y confiables. Para nosotros, los agentes son sistemas que realizan tareas de forma autónoma y en nombre de los usuarios. En el último año, le incorporamos nuevas capacidades al modelo, como el razonamiento avanzado, las interacciones multimodales y las nuevas técnicas de seguridad, que sentaron las bases para que nuestros modelos sean capaces de llevar a cabo las complejas tareas de varios pasos que la creación de agentes implica. Sin embargo, los clientes señalan que convertir estas capacidades en agentes listos para la producción puede resultar complicado, ya que normalmente es necesaria una gran iteración anticipada y una lógica de orquestación personalizada sin suficiente visibilidad ni soporte integrado.

Para superar estos desafíos, lanzamos un nuevo conjunto de API y herramientas diseñadas específicamente para simplificar el desarrollo de las aplicaciones autónomas:

La nueva API de respuestas⁠(se abre en una nueva ventana), que combina la sencillez de la API de finalizaciones de chat con las capacidades de uso de herramientas de la API de asistentes para crear agentes
Herramientas integradas como la búsqueda en la web⁠(se abre en una nueva ventana), la búsqueda de archivos⁠(se abre en una nueva ventana) y el uso de computadora⁠(se abre en una nueva ventana)
El nuevo SDK de agentes⁠(se abre en una nueva ventana), para coordinar flujos de trabajo con uno o varios agentes
Herramientas de observabilidad⁠(se abre en una nueva ventana) integradas para supervisar e inspeccionar la ejecución del flujo de trabajo de los agentes

Estas nuevas herramientas agilizan la lógica, la coordinación y las interacciones básicas de los agentes, lo que les facilita considerablemente a los desarrolladores la construcción de agentes. En las próximas semanas y meses, tenemos previsto lanzar herramientas y funciones adicionales destinadas a simplificar y acelerar aún más la creación de aplicaciones autónomas en nuestra plataforma.

Presentamos la API de respuesta

La API de respuestas es nuestra nueva API primitiva para aprovechar las herramientas integradas de OpenAI para crear agentes. Combina la sencillez de las finalizaciones de chat con las capacidades de uso de herramientas de la API de asistentes. En la medida en que las capacidades de los modelos sigan evolucionando, creemos que la API de respuestas proporcionará una base más flexible para los desarrolladores que construyen aplicaciones autónomas. Con una simple llamada a la API de respuestas, los desarrolladores podrán resolver tareas cada vez más complejas mediante el uso de múltiples herramientas y transformaciones de modelos.

Para comenzar, la API de respuestas será compatible con nuevas herramientas integradas como la búsqueda en la web, la búsqueda de archivos y el uso de computadora. Estas herramientas están diseñadas para trabajar juntas y conectar los modelos con el mundo real, lo que las vuelve más útiles a la hora de completar tareas. También incluye varias mejoras en el uso, como un diseño único basado en elementos, un polimorfismo más sencillo, eventos de transmisión intuitivos y ayudas del SDK como response.output_text para acceder fácilmente a la salida de texto del modelo.

La API de respuestas se diseñó pensando en los desarrolladores que desean combinar fácilmente en sus aplicaciones los modelos de OpenAI y las herramientas incorporadas, sin la complejidad que supone integrar varias API o proveedores externos. La API también facilita el almacenamiento de datos en OpenAI para que los desarrolladores puedan evaluar el rendimiento de los agentes por medio de funciones como el seguimiento y las evaluaciones. Te recordamos que, de forma predeterminada, no entrenamos nuestros modelos con datos de empresas, ni siquiera cuando esos datos se almacenan en OpenAI. La API está disponible desde hoy para todos los desarrolladores y no se cobra por separado: los tokens y las herramientas se facturan según las tarifas estándar que se especifican en nuestra página de precios⁠(se abre en una nueva ventana). Para obtener más información, consulta la guía rápida⁠(se abre en una nueva ventana) de la API de respuestas.

Qué significa esto para las API existentes

API de finalizaciones de chat⁠(se abre en una nueva ventana): La API de finalizaciones de chat sigue siendo la de mayor uso y estamos plenamente comprometidos a respaldarla con nuevos modelos y funciones. Los desarrolladores que no necesitan herramientas integradas pueden seguir utilizando las finalizaciones de chat con total libertad. Siempre que las capacidades de Finalizaciones de chat no dependan de herramientas integradas o de múltiples llamadas a modelos, seguiremos publicando nuevos modelos. Sin embargo, la API de respuestas es un superconjunto⁠(se abre en una nueva ventana) de las finalizaciones de chat con el mismo gran rendimiento, así que, en el caso de las nuevas integraciones, recomendamos empezar con la API de respuestas.
API de asistentes⁠(se abre en una nueva ventana): A partir de los comentarios de los desarrolladores acerca de la versión beta de la API de asistentes, introdujimos mejoras clave en la API de respuestas, para hacerla más flexible, rápida y fácil de usar. Estamos trabajando para lograr una paridad total de funciones entre las API de asistentes y de respuestas, como la compatibilidad con objetos tipo asistente y tipo hilo, así como con la herramienta de interpretación de código. En cuanto hayamos completado este proceso, anunciaremos formalmente la desaparición de la API de asistentes, prevista para mediados de 2026. En el momento de su eliminación, proporcionaremos una guía clara de migración de la API de asistentes a la API de respuestas para que los desarrolladores puedan conservar todos sus datos y migrar sus aplicaciones. Sin embargo, hasta que anunciemos formalmente su eliminación, seguiremos proporcionando nuevos modelos de la API de asistentes. La API de respuestas representa la orientación en el futuro a la hora de crear agentes en OpenAI.

Presentamos las herramientas integradas en la API de respuestas

Búsqueda en la web

Los desarrolladores ahora pueden recibir respuestas rápidas y actualizadas con citas claras y pertinentes procedentes de la web. En la API de respuestas, la búsqueda web está disponible como herramienta cuando se utiliza gpt-4o y gpt-4o-mini, y se puede emparejar con otras herramientas o llamadas a funciones.

JavaScript

1const response = await openai.responses.create({
2    model: "gpt-4o",
3    tools: [ { type: "web_search_preview" } ],
4    input: "What was a positive news story that happened today?",
5});
6
7console.log(response.output_text);

Durante las primeras pruebas, vimos que los desarrolladores utilizaban la búsqueda en la web para diversos casos de uso, como asistentes de compras, agentes de investigación y agentes de reservas de viajes, es decir, para cualquier aplicación que requiera información oportuna de la web.

Por ejemplo, Hebbia⁠(se abre en una nueva ventana) aprovecha la herramienta de búsqueda en la web para ayudar a administradores de activos, empresas de capital riesgo y de crédito, así como despachos de abogados, a extraer rápidamente información práctica de grandes conjuntos de datos públicos y privados. Al integrar las capacidades de búsqueda en tiempo real dentro de sus flujos de trabajo de investigación, Hebbia brinda una inteligencia de mercado más rica y contextualizada, lo que mejora a su vez la precisión y la relevancia de sus análisis y supera las referencias actuales.

La búsqueda web en la API se basa en el mismo modelo utilizado para la búsqueda mediante ChatGPT. En SimpleQA, una prueba de referencia que evalúa la precisión de los LLM a la hora de responder preguntas cortas y objetivas, la vista previa de investigación de GPT‑4o y de GPT‑4o mini obtienen un 90 % y un 88 % respectivamente.

Precisión de SimpleQA (cuanto más alta, mejor)

Las respuestas generadas con la búsqueda en la web a través de la API incluyen enlaces a fuentes, como artículos de noticias y entradas de blog, lo que les permite a los usuarios obtener más información. Con estas citas claras y en línea, los usuarios pueden interactuar con información en una forma nueva, mientras los dueños del contenido obtienen nuevas oportunidades de llegar a una audiencia más amplia.

Cualquier sitio web o editor puede optar por aparecer⁠(se abre en una nueva ventana) en la búsqueda en la web de la API.

La herramienta de búsqueda en la web está disponible en versión preliminar para todos los desarrolladores en la API de respuestas. Además, a través de la vista previa de investigación de gpt-4o y de gpt-4o-mini, les ofrecemos a los desarrolladores acceso directo a nuestros modelos de búsqueda perfeccionados en la API de finalización de chats. Los precios⁠(se abre en una nueva ventana) van desde $30 y $25 por cada mil consultas para la búsqueda en GPT‑4o y la búsqueda en 4o-mini, respectivamente. Consulta la búsqueda web en el Playground⁠(se abre en una nueva ventana) y obtén más información en nuestros documentos⁠(se abre en una nueva ventana).

Búsqueda de archivos

Ahora, los desarrolladores pueden acceder con facilidad a información relevante procedente de grandes volúmenes de documentos gracias a la herramienta mejorada de búsqueda de archivos. Gracias a la compatibilidad con varios tipos de archivos, la optimización de las consultas, el filtrado de metadatos y la reordenación personalizada, puede ofrecer resultados de búsqueda rápidos y precisos. Además, con la API de respuestas, la integración solo requiere unas pocas líneas de código.

JavaScript

1const productDocs = await openai.vectorStores.create({
2    name: "Product Documentation",
3    file_ids: [file1.id, file2.id, file3.id],
4});
5
6const response = await openai.responses.create({
7    model: "gpt-4o-mini",
8    tools: [{
9        type: "file_search",
10        vector_store_ids: [productDocs.id],
11    }],
12    input: "What is deep research by OpenAI?",
13});
14
15console.log(response.output_text);

La herramienta de búsqueda de archivos puede utilizarse para una gran variedad de casos de uso del mundo real, como permitirle a un agente de atención al cliente acceder fácilmente a las preguntas más frecuentes, ayudar a un asistente jurídico a consultar rápidamente casos anteriores para un profesional cualificado y asistir a un agente de programación en la consulta de documentación técnica. Por ejemplo, Navan⁠(se abre en una nueva ventana) utiliza la búsqueda de archivos en su agencia de viajes basada en IA para ofrecerles a sus usuarios respuestas rápidas y precisas a partir de artículos de la base de conocimientos (como la política de viajes de su empresa). Con optimización de consultas y reordenación incorporadas, puede establecer una potente canalización RAG (generación aumentada por recuperación, por sus siglas en inglés) sin necesidad de ajustes ni configuraciones adicionales. Al disponer de almacenes de vectores dedicados para cada grupo de usuarios, Navan puede adaptar las respuestas a la configuración de cada cuenta y a los roles de los usuarios, lo que les ahorra tiempo a los clientes y a su personal, al tiempo que permite ofrecer una asistencia precisa y personalizada.

Esta herramienta está disponible para todos los desarrolladores en la API de respuestas. El uso tiene un precio⁠(se abre en una nueva ventana) de $2,50 por cada mil consultas y el almacenamiento de archivos de $0,10/GB/día, con el primer GB gratuito. La herramienta aún está disponible en la API de asistentes. Por último, también les añadimos un nuevo punto final de búsqueda a los objetos API de Vector Store para consultar directamente sus datos y utilizarlos en otras aplicaciones y API. Obtén más información en nuestros documentos⁠(se abre en una nueva ventana) y empieza a probarla en Playground⁠(se abre en una nueva ventana).

Uso de la computadora

Para construir agentes capaces de completar tareas en una computadora, los desarrolladores pueden ahora utilizar la herramienta de uso de computadoras en la API de respuestas, impulsada por el mismo modelo de agente informático (CUA) en el que se basa Operator. Este modelo de vista previa de investigación estableció un nuevo récord al lograr un 38,1 % de éxito en OSWorld⁠(se abre en una nueva ventana) para tareas de uso completo de computadora, un 58,1 % en WebArena⁠(se abre en una nueva ventana) y un 87 % en WebVoyager⁠(se abre en una nueva ventana) para interacciones basadas en la web.

La herramienta integrada de uso de computadora captura las acciones del ratón y el teclado generadas por el modelo, lo que les permite a los desarrolladores automatizar las tareas de uso de la computadora traduciendo directamente estas acciones en comandos ejecutables dentro de sus entornos.

JavaScript

1const response = await openai.responses.create({
2    model: "computer-use-preview",
3    tools: [{
4        type: "computer_use_preview",
5        display_width: 1024,
6        display_height: 768,
7        environment: "browser",
8    }],
9    truncation: "auto",
10    input: "I'm looking for a new camera. Help me find the best one.",
11});
12
13console.log(response.output);

Los desarrolladores pueden utilizar esta herramienta informática para automatizar flujos de trabajo basados en navegadores, como el control de calidad de aplicaciones web o la ejecución de tareas de introducción de datos en sistemas heredados. En este sentido, Unify⁠(se abre en una nueva ventana) es un sistema de acción para aumentar los ingresos que utiliza agentes para identificar intenciones, investigar cuentas e interactuar con los compradores. Gracias a la herramienta de uso de computadoras de OpenAI, los agentes de Unify pueden acceder a información que anteriormente era inalcanzable a través de las API, como permitirle a una empresa de bienes raíces verificar a través de mapas en línea si un negocio aumentó su presencia en el sector inmobiliario. Esta investigación actúa como una señal personalizada para impulsar el alcance personalizado, lo que permite que los equipos de comercialización se dirijan a los compradores con precisión y a gran escala.

Luminai⁠(se abre en una nueva ventana), por su parte, integró la herramienta de uso de computadora con el propósito de automatizar flujos de trabajo operativos complejos en grandes empresas con sistemas heredados que no disponen de API ni de datos estandarizados. En un reciente proyecto piloto para una importante organización de servicios comunitarios, Luminai automatizó el procesamiento de solicitudes y el proceso de inscripción de usuarios en cuestión de días, algo que la automatización de procesos robóticos (RPA) tradicional no podía conseguir tras meses de esfuerzo.

El año pasado, antes de lanzar el CUA en Operator, realizamos pruebas exhaustivas de seguridad y equipo rojo, abordando tres áreas clave de riesgo: uso indebido, errores de modelo y riesgos fronterizos. Para abordar los riesgos asociados a la ampliación de las capacidades de Operator a sistemas operativos locales mediante CUA en la API, realizamos evaluaciones de seguridad y de equipo rojo adicionales. Además, añadimos medidas de mitigación para los desarrolladores, como comprobaciones de seguridad para evitar inyecciones puntuales, avisos de confirmación para tareas delicadas, herramientas para ayudar a los desarrolladores a aislar sus entornos y detección mejorada de posibles infracciones de políticas. Si bien estas mitigaciones contribuyen a reducir el riesgo, el modelo sigue siendo susceptible de errores involuntarios, especialmente en entornos sin navegador. Por ejemplo, el rendimiento del CUA en OSWorld, una prueba de referencia diseñada para medir el rendimiento de los agentes de IA en tareas reales, es actualmente del 38,1 %, lo que indica que el modelo aún no es altamente confiable para automatizar tareas en sistemas operativos. En estos casos, se recomienda la supervisión humana. Obtén más información sobre nuestro trabajo de seguridad específico para API en nuestra tarjeta de sistema actualizada.

Tipo de referencia	Referencia	Uso de la computadora (interfaz universal)		Agentes de navegación web	Humano
		CUA OpenAI	SOTA anterior	SOTA anterior
Uso de la computadora	OSWorld	38.1%	22.0%	-	72.4%
Uso del navegador	WebArena	58.1%	36.2%	57.1%	78.2%
Uso del navegador	WebVoyager	87.0%	56.0%	87.0%	-

Los detalles de la evaluación se describen aquí

A partir de hoy, la herramienta de uso de computadora está disponible como vista previa de investigación en la API de respuestas para desarrolladores seleccionados en los niveles de uso 3-5⁠(se abre en una nueva ventana). El uso tiene un precio⁠(se abre en una nueva ventana) de $3/1 millón de tokens de entrada y $12/1 millón de tokens de salida. Obtén más información en nuestros documentos⁠(se abre en una nueva ventana) y echa un vistazo a la aplicación de ejemplo⁠(se abre en una nueva ventana) que ilustra cómo crear con esta herramienta.

SDK de agentes

Además de construir la lógica central de los agentes y darles acceso a herramientas para que sean útiles, los desarrolladores también deben coordinar los flujos de trabajo autónomos. Nuestro nuevo SDK de agentes de código abierto simplifica la coordinación de flujos de trabajo con varios agentes a la vez y ofrece mejoras significativas con respecto a Swarm⁠(se abre en una nueva ventana), un SDK experimental que lanzamos el año pasado, que la comunidad de desarrolladores adoptó de forma generalizada y que varios clientes implementaron con éxito.

Las mejoras incluyen:

Agentes: LLM fácilmente configurables con instrucciones claras y herramientas integradas
Transferencias: Transferencia inteligente del control entre agentes
Medidas de protección: Controles de seguridad configurables para la validación de entradas y salidas
Seguimiento y observabilidad: Visualiza las huellas de ejecución de los agentes para depurar y optimizar su rendimiento.

Python

1from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2
3@function_tool
4def submit_refund_request(item_id: str, reason: str):
5    # Your refund logic goes here
6    return "success"
7
8support_agent = Agent(
9    name="Support & Returns",
10    instructions="You are a support agent who can submit refunds [...]",
11    tools=[submit_refund_request],
12)
13
14shopping_agent = Agent(
15    name="Shopping Assistant",
16    instructions="You are a shopping assistant who can search the web [...]",
17    tools=[WebSearchTool()],
18)
19
20triage_agent = Agent(
21    name="Triage Agent",
22    instructions="Route the user to the correct agent.",
23    handoffs=[shopping_agent, support_agent],
24)
25
26output = Runner.run_sync(
27    starting_agent=triage_agent,
28    input="What shoes might work best with my outfit so far?",
29)

El SDK de agentes es idóneo para diversas aplicaciones del mundo real, como la automatización de la atención al cliente, la investigación en varios pasos, la generación de contenidos, la revisión de código y la prospección de ventas. En el caso de Coinbase⁠(se abre en una nueva ventana), por ejemplo, se utilizó el SDK de agentes para crear rápidamente un prototipo y desplegar AgentKit, un conjunto de herramientas que les permite a los agentes de inteligencia artificial interactuar sin problemas con los monederos de criptomonedas y diversas actividades on-chain. En cuestión de horas, Coinbase logró integrar acciones personalizadas de su SDK de la plataforma para desarrolladores en un agente totalmente funcional. La arquitectura optimizada de AgentKit simplificó el proceso de añadir nuevas acciones de agente, lo que les permitió a los desarrolladores centrarse más en integraciones significativas y menos en navegar por configuraciones de agentes complejas.

En un par de días, Box⁠(se abre en una nueva ventana) pudo crear rápidamente agentes que se sirven de la búsqueda en la web y del SDK de agentes para permitirles a las empresas buscar, consultar y extraer información de datos no estructurados almacenados en Box y en fuentes públicas de Internet. Este enfoque permite que los clientes no solo tengan acceso a la información más reciente, sino que además puedan realizar búsquedas entre sus datos internos y privados, de forma segura y respetando sus permisos internos y políticas de seguridad. Así, por ejemplo, una empresa de servicios financieros puede crear un agente personalizado que utilice el agente de IA de Box para integrar sus análisis de mercado internos almacenados en Box con noticias en tiempo real y datos económicos de la web, lo que les proporcionará a sus analistas una visión completa a la hora de tomar decisiones de inversión.

El SDK de agentes funciona con la API de respuestas y la API de finalizaciones de chat. Sin embargo, el SDK también podrá utilizarse con modelos de otros proveedores, siempre y cuando proporcionen un punto final de API del estilo de las finalizaciones de chat. Los desarrolladores pueden integrarlo inmediatamente en sus bases de código Python, aunque pronto será compatible con Node.js. Obtén más información en nuestros documentos⁠(se abre en una nueva ventana).

Al diseñar el SDK de agentes, nuestro equipo se inspiró en el excelente trabajo de otros miembros de la comunidad, como Pydantic⁠(se abre en una nueva ventana), Griffe⁠(se abre en una nueva ventana) y MkDocs⁠(se abre en una nueva ventana). Tenemos el compromiso de seguir desarrollando el SDK de agentes como un marco de código abierto para que otros miembros de la comunidad puedan crecer a partir de nuestro enfoque.

¿Qué sigue?: Construir la plataforma para agentes

Creemos que los agentes pronto se convertirán en parte integrante de la mano de obra, con lo que la productividad aumentará considerablemente en todos los sectores. En un momento en el que las empresas buscan cada vez más aprovechar la IA para llevar a cabo tareas complejas, nos comprometemos a facilitar los componentes básicos que les permitan a los desarrolladores y a las empresas crear con eficacia sistemas autónomos que tengan un impacto en el mundo real.

Entre los lanzamientos de hoy, presentamos los primeros componentes básicos para que los desarrolladores y las empresas puedan crear, implementar y ampliar con mayor facilidad agentes de IA eficaces y de gran rendimiento. La capacidad de los modelos crece día a día, lo que nos impulsa a seguir invirtiendo en una mayor integración de nuestras API y en nuevas herramientas que nos ayuden a desplegar, evaluar y optimizar los agentes en producción. Nuestro objetivo es ofrecerles a los desarrolladores una experiencia de plataforma sin problemas para que creen agentes que puedan ayudarles con una gran variedad de tareas en cualquier sector. Estamos impacientes por ver qué es lo próximo que construirán los desarrolladores. Para comenzar, consulta nuestros documentos⁠(se abre en una nueva ventana) y no te pierdas las próximas actualizaciones.

Autores

OpenAI