11 de març del 2025

New tools for building agents

A sleek, minimal interface displaying a task list for an AI agent, including ‘triage_agent,’ ‘guardrail,’ and ‘update_salesforce_record,’ over a fluid blue abstract background.

Avui llancem el primer conjunt de peces bàsiques que ajudaran desenvolupadors i empreses a crear agents útils i fiables. Considerem els agents com a sistemes que duen a terme tasques de manera independent en nom dels usuaris. Durant l’últim any, hem introduït noves capacitats dels models, com ara el raonament avançat, les interaccions multimodals i noves tècniques de seguretat, que han establert les bases perquè els nostres models gestionin les tasques complexes i de diversos passos necessàries per crear agents. Tanmateix, els clients ens han dit que convertir aquestes capacitats en agents llestos per a producció pot ser difícil, i sovint requereix una iteració extensa d’indicacions i una lògica d’orquestració personalitzada sense prou visibilitat ni suport integrat.

Per afrontar aquests reptes, llancem un nou conjunt d’API i eines dissenyades específicament per simplificar el desenvolupament d’aplicacions agentiques:

La nova API de Responses⁠(s'obre en una finestra nova), que combina la simplicitat de l’API de complecions de xat amb les capacitats d’ús d’eines de l’API d’Assistants per crear agents
Eines integrades com ara la cerca web⁠(s'obre en una finestra nova), la cerca de fitxers⁠(s'obre en una finestra nova) i l’ús de l’ordinador⁠(s'obre en una finestra nova)
El nou SDK d’Agents⁠(s'obre en una finestra nova) per orquestrar fluxos de treball amb un sol agent i amb diversos agents
Eines d’observabilitat⁠(s'obre en una finestra nova) integrades per traçar i inspeccionar l’execució dels fluxos de treball dels agents

Aquestes noves eines optimitzen la lògica bàsica dels agents, l’orquestració i les interaccions, i fan que sigui molt més fàcil per als desenvolupadors començar a crear agents. En les properes setmanes i mesos, tenim previst llançar eines i capacitats addicionals per simplificar i accelerar encara més la creació d’aplicacions agentiques a la nostra plataforma.

Presentem l’API de Responses

L’API de Responses és la nostra nova primitiva d’API per aprofitar les eines integrades d’OpenAI per crear agents. Combina la simplicitat de Chat Completions amb les capacitats d’ús d’eines de l’API d’Assistants. A mesura que les capacitats dels models continuïn evolucionant, creiem que l’API de Responses proporcionarà una base més flexible per als desenvolupadors que creen aplicacions agentiques. Amb una sola crida a l’API de Responses, els desenvolupadors podran resoldre tasques cada cop més complexes utilitzant diverses eines i diversos torns del model.

Per començar, l’API de Responses admetrà noves eines integrades com ara cerca web, cerca de fitxers i ús de l’ordinador. Aquestes eines estan dissenyades per funcionar conjuntament i connectar els models amb el món real, fent-los més útils a l’hora de completar tasques. També incorpora diverses millores d’usabilitat, com ara un disseny unificat basat en elements, un polimorfisme més senzill, esdeveniments de streaming intuïtius i assistents de SDK com response.output_text per accedir fàcilment a la sortida de text del model.

L’API de Responses està dissenyada per a desenvolupadors que volen combinar fàcilment models d’OpenAI i eines integrades a les seves aplicacions, sense la complexitat d’integrar diverses API o proveïdors externs. L’API també facilita emmagatzemar dades a OpenAI perquè els desenvolupadors puguin avaluar el rendiment dels agents mitjançant funcions com el tracing i les avaluacions. Com a recordatori, no entrenem els nostres models amb dades empresarials per defecte, fins i tot quan les dades s’emmagatzemen a OpenAI. L’API està disponible per a tots els desenvolupadors a partir d’avui i no es cobra per separat: els segments i les eines es facturen a les tarifes estàndard especificades a la nostra pàgina de preus⁠(s'obre en una finestra nova). Consulteu la guia d’inici ràpid⁠(s'obre en una finestra nova) de l’API de Responses per obtenir-ne més informació.

Què significa això per a les API existents

API de complecions de xat⁠(s'obre en una finestra nova): Chat Completions continua sent la nostra API més adoptada, i estem plenament compromesos a continuar donant-li suport amb nous models i capacitats. Els desenvolupadors que no necessiten eines integrades poden continuar utilitzant Chat Completions amb total confiança. Continuarem llançant nous models a Chat Completions sempre que les seves capacitats no depenguin d’eines integrades ni de múltiples crides al model. Tot i això, l’API de Responses és un superconjunt⁠(s'obre en una finestra nova) de Chat Completions amb el mateix gran rendiment, de manera que per a integracions noves recomanem començar amb l’API de Responses.
API d’Assistants⁠(s'obre en una finestra nova): A partir dels comentaris dels desenvolupadors sobre la beta de l’API d’Assistants, hem incorporat millores clau a l’API de Responses, fent-la més flexible, més ràpida i més fàcil d’utilitzar. Estem treballant per aconseguir una paritat completa de funcionalitats entre l’API d’Assistants i l’API de Responses, inclòs el suport per a objectes semblants a Assistant i a Thread, i l’eina Intèrpret de codi. Un cop això estigui completat, tenim previst anunciar formalment l’obsolescència de l’API d’Assistants amb una data prevista de retirada a mitjan 2026. Quan això passi, proporcionarem una guia de migració clara de l’API d’Assistants a l’API de Responses que permetrà als desenvolupadors conservar totes les seves dades i migrar les seves aplicacions. Fins que no n’anunciem formalment l’obsolescència, continuarem oferint nous models a l’API d’Assistants. L’API de Responses representa la direcció de futur per crear agents a OpenAI.

Presentem eines integrades a l’API de Responses

Cerca web

Els desenvolupadors ara poden obtenir respostes ràpides i actualitzades amb cites clares i rellevants del web. A l’API de Responses, la cerca web està disponible com a eina quan s’utilitzen gpt-4o i gpt-4o-mini, i es pot combinar amb altres eines o crides de funció.

JavaScript

1const response = await openai.responses.create({
2    model: "gpt-4o",
3    tools: [ { type: "web_search_preview" } ],
4    input: "What was a positive news story that happened today?",
5});
6
7console.log(response.output_text);

Durant les primeres proves, hem vist desenvolupadors crear amb cerca web per a diversos casos d’ús, com ara assistents de compres, agents de recerca i agents de reserva de viatges: qualsevol aplicació que requereixi informació puntual del web.

Per exemple, Hebbia⁠(s'obre en una finestra nova) aprofita l’eina de cerca web per ajudar gestors d’actius, empreses de capital privat i crèdit, i despatxos d’advocats a extreure ràpidament informació accionable de grans conjunts de dades públiques i privades. En integrar capacitats de cerca en temps real als seus fluxos de treball de recerca, Hebbia ofereix una intel·ligència de mercat més rica i específica per context i millora contínuament la precisió i la rellevància de les seves anàlisis, superant els benchmarks actuals.

La cerca web a l’API funciona amb el mateix model que s’utilitza per a la cerca de ChatGPT. A SimpleQA, un benchmark que avalua la precisió dels LLM a l’hora de respondre preguntes breus i factuals, GPT‑4o search preview i GPT‑4o mini search preview obtenen puntuacions del 90% i del 88%, respectivament.

Precisió de SimpleQA (com més alta, millor)

Les respostes generades amb cerca web a l’API inclouen enllaços a les fonts, com ara articles de notícies i entrades de blog, que ofereixen als usuaris una manera d’obtenir-ne més informació. Amb aquestes cites clares en línia, els usuaris poden interactuar amb la informació d’una manera nova, mentre que els propietaris del contingut obtenen noves oportunitats per arribar a un públic més ampli.

Qualsevol lloc web o editor pot triar aparèixer⁠(s'obre en una finestra nova) a la cerca web de l’API.

L’eina de cerca web està disponible en vista prèvia per a tots els desenvolupadors a l’API de Responses. També estem donant als desenvolupadors accés directe als nostres models de cerca ajustats fi a l’API de complecions de xat mitjançant gpt-4o-search-preview i gpt-4o-mini-search-preview. El preu⁠(s'obre en una finestra nova) comença respectivament a 30 $ i 25 $ per mil consultes per a GPT‑4o search i 4o-mini search, respectivament. Proveu la cerca web al Playground⁠(s'obre en una finestra nova) i obteniu més informació a la nostra documentació⁠(s'obre en una finestra nova).

Cerca de fitxers

Els desenvolupadors ara poden recuperar fàcilment informació rellevant de grans volums de documents amb l’eina millorada de cerca de fitxers. Amb suport per a diversos tipus de fitxer, optimització de consultes, filtratge per metadades i reordenació personalitzada, pot oferir resultats de cerca ràpids i precisos. I, de nou, amb l’API de Responses, només calen unes quantes línies de codi per integrar-la.

JavaScript

1const productDocs = await openai.vectorStores.create({
2    name: "Product Documentation",
3    file_ids: [file1.id, file2.id, file3.id],
4});
5
6const response = await openai.responses.create({
7    model: "gpt-4o-mini",
8    tools: [{
9        type: "file_search",
10        vector_store_ids: [productDocs.id],
11    }],
12    input: "What is deep research by OpenAI?",
13});
14
15console.log(response.output_text);

L’eina de cerca de fitxers es pot utilitzar per a diversos casos d’ús del món real, com ara permetre que un agent d’atenció al client accedeixi fàcilment a preguntes freqüents, ajudar un assistent jurídic a consultar ràpidament casos anteriors per a un professional qualificat i ajudar un agent de codi a consultar documentació tècnica. Per exemple, Navan⁠(s'obre en una finestra nova) utilitza la cerca de fitxers en el seu agent de viatges impulsat per IA per oferir ràpidament als seus usuaris respostes precises a partir d’articles de la base de coneixement (com ara la política de viatges de la seva empresa). Amb l’optimització de consultes i la reordenació integrades, poden configurar un potent canal RAG (generació augmentada per recuperació) sense ajustos ni configuració addicionals. Amb magatzems de vectors dedicats per a cada grup d’usuaris, Navan pot adaptar les respostes a la configuració de cada compte i als rols dels usuaris, estalviant temps als clients i al seu personal alhora que ajuda a oferir una assistència precisa i personalitzada.

Aquesta eina està disponible a l’API de Responses per a tots els desenvolupadors. L’ús té un preu⁠(s'obre en una finestra nova) de 2,50 $ per mil consultes i l’emmagatzematge de fitxers costa 0,10 $/GB/dia, amb el primer GB gratuït. L’eina continua estant disponible a l’API d’Assistants. Finalment, també hem afegit un nou punt final de cerca als objectes de l’API de Vector Store per consultar directament les vostres dades i utilitzar-les en altres aplicacions i API. Obteniu més informació a la nostra documentació⁠(s'obre en una finestra nova) i comenceu a fer proves al Playground⁠(s'obre en una finestra nova).

Ús de l’ordinador

Per crear agents capaços de completar tasques en un ordinador, els desenvolupadors ara poden utilitzar l’eina d’ús de l’ordinador a l’API de Responses, impulsada pel mateix model Computer-Using Agent (CUA) que fa possible Operator. Aquest model en vista prèvia de recerca va establir un nou rècord de l’estat de l’art, assolint un 38,1% d’èxit a OSWorld⁠(s'obre en una finestra nova) per a tasques completes d’ús de l’ordinador, un 58,1% a WebArena⁠(s'obre en una finestra nova) i un 87% a WebVoyager⁠(s'obre en una finestra nova) per a interaccions basades en web.

L’eina integrada d’ús de l’ordinador captura les accions del ratolí i del teclat generades pel model, cosa que fa possible que els desenvolupadors automatitzin tasques d’ús de l’ordinador traduint directament aquestes accions en ordres executables dins dels seus entorns.

JavaScript

1const response = await openai.responses.create({
2    model: "computer-use-preview",
3    tools: [{
4        type: "computer_use_preview",
5        display_width: 1024,
6        display_height: 768,
7        environment: "browser",
8    }],
9    truncation: "auto",
10    input: "I'm looking for a new camera. Help me find the best one.",
11});
12
13console.log(response.output);

Els desenvolupadors poden utilitzar l’eina d’ús de l’ordinador per automatitzar fluxos de treball basats en navegador, com ara fer control de qualitat d’aplicacions web o executar tasques d’entrada de dades en sistemes heretats. Per exemple, Unify⁠(s'obre en una finestra nova) és un sistema d’acció per fer créixer els ingressos que utilitza agents per identificar la intenció, investigar comptes i interactuar amb compradors. Amb l’eina d’ús de l’ordinador d’OpenAI, els agents d’Unify poden accedir a informació que abans era inabastable mitjançant API, com ara permetre que una empresa de gestió immobiliària verifiqui amb mapes en línia si un negoci ha ampliat la seva empremta immobiliària. Aquesta recerca actua com un senyal personalitzat per activar una interacció personalitzada, i permet als equips de llançament interactuar amb compradors amb precisió i escala.

Com a altre exemple, Luminai⁠(s'obre en una finestra nova) va integrar l’eina d’ús de l’ordinador per automatitzar fluxos de treball operatius complexos per a grans empreses amb sistemes heretats que no tenen API disponibles ni dades estandarditzades. En una prova pilot recent amb una gran organització de serveis comunitaris, Luminai va automatitzar el processament de sol·licituds i el procés d’inscripció d’usuaris en només uns dies, una cosa que l’automatització robòtica de processos (RPA) tradicional no havia aconseguit després de mesos d’esforç.

Abans de llançar CUA a Operator l’any passat, vam dur a terme proves de seguretat exhaustives i equip vermell, abordant tres àrees clau de risc: ús indegut, errors del model i riscos d'avantguarda. Per abordar els riscos associats a l’ampliació de les capacitats d’Operator als sistemes operatius locals mitjançant CUA a l’API, vam fer avaluacions de seguretat addicionals i equip vermell. També vam afegir mitigacions per als desenvolupadors, com comprovacions de seguretat per protegir contra injeccions d'indicacions, indicacions de confirmació per a tasques sensibles, eines per ajudar els desenvolupadors a aïllar els seus entorns i una detecció millorada de possibles infraccions de polítiques. Tot i que aquestes mitigacions ajuden a reduir el risc, el model encara és susceptible a errors involuntaris, especialment en entorns que no són de navegador. Per exemple, el rendiment de CUA a OSWorld, un benchmark dissenyat per mesurar el rendiment dels agents d’IA en tasques del món real, és actualment del 38,1%, cosa que indica que el model encara no és gaire fiable per automatitzar tasques en sistemes operatius. En aquests escenaris es recomana supervisió humana. Podeu trobar més detalls sobre el nostre treball de seguretat específic per a l’API a la nostra fitxa del model actualitzada.

Punt de referència	Punt de referència	Ús de l'ordinador (interfície universal)		Agents de navegació web	Humà
		OpenAI CUA	SOTA anterior	SOTA anterior
Ús de l'ordinador	OSWorld	38,1 %	22,0 %	-	72,4 %
Ús del navegador	WebArena	58,1 %	36,2 %	57,1 %	78,2 %
Ús del navegador	WebVoyager	87,0 %	56,0 %	87,0 %	-

Els detalls de l'avaluació es descriuen aquí

A partir d’avui, l’eina d’ús de l’ordinador està disponible com a vista prèvia de recerca a l’API de Responses per a determinats desenvolupadors dels nivells d’ús 3-5⁠(s'obre en una finestra nova). L’ús té un preu⁠(s'obre en una finestra nova) de 3 $/1 M segments d’entrada i 12 $/1 M segments de sortida. Més informació a la nostra documentació⁠(s'obre en una finestra nova) i consulteu l’aplicació d’exemple⁠(s'obre en una finestra nova) que mostra com crear amb aquesta eina.

SDK d’Agents

A més de construir la lògica bàsica dels agents i donar-los accés a eines perquè siguin útils, els desenvolupadors també necessiten orquestrar fluxos de treball agentics. El nostre nou SDK d’Agents de codi obert simplifica l’orquestració de fluxos de treball amb diversos agents i ofereix millores significatives respecte de Swarm⁠(s'obre en una finestra nova), un SDK experimental que vam llançar l’any passat, que va ser àmpliament adoptat per la comunitat de desenvolupadors i desplegat amb èxit per diversos clients.

Les millores inclouen:

Agents: LLM configurables fàcilment amb instruccions clares i eines integrades.
Handoffs: Transferència intel·ligent del control entre agents.
Guardrails: Comprovacions de seguretat configurables per validar entrades i sortides.
Tracing & Observability: Visualitzeu traces d’execució dels agents per depurar i optimitzar el rendiment.

Python

1from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2
3@function_tool
4def submit_refund_request(item_id: str, reason: str):
5    # Your refund logic goes here
6    return "success"
7
8support_agent = Agent(
9    name="Support & Returns",
10    instructions="You are a support agent who can submit refunds [...]",
11    tools=[submit_refund_request],
12)
13
14shopping_agent = Agent(
15    name="Shopping Assistant",
16    instructions="You are a shopping assistant who can search the web [...]",
17    tools=[WebSearchTool()],
18)
19
20triage_agent = Agent(
21    name="Triage Agent",
22    instructions="Route the user to the correct agent.",
23    handoffs=[shopping_agent, support_agent],
24)
25
26output = Runner.run_sync(
27    starting_agent=triage_agent,
28    input="What shoes might work best with my outfit so far?",
29)

L’SDK d’Agents és adequat per a diverses aplicacions del món real, com ara l’automatització de l’atenció al client, la recerca de diversos passos, la generació de contingut, la revisió de codi i la prospecció comercial. Per exemple, Coinbase⁠(s'obre en una finestra nova) va utilitzar l’SDK d’Agents per prototipar i desplegar ràpidament AgentKit, un conjunt d’eines que permet als agents d’IA interactuar sense friccions amb carteres de criptomonedes i diverses activitats on-chain. En només unes hores, Coinbase va integrar accions personalitzades de la seva SDK de Developer Platform en un agent plenament funcional. L’arquitectura optimitzada d’AgentKit va simplificar el procés d’afegir noves accions d’agent, i va permetre als desenvolupadors centrar-se més en integracions útils i menys a navegar per configuracions complexes d’agents.

En un parell de dies, Box⁠(s'obre en una finestra nova) va poder crear ràpidament agents que aprofiten la cerca web i l’SDK d’Agents per permetre a les empreses cercar, consultar i extreure informació valuosa de dades no estructurades emmagatzemades a Box i en fonts públiques d’internet. Aquest enfocament permet als clients no només accedir a la informació més recent, sinó també cercar les seves dades internes i propietàries d’una manera segura i protegida que respecta els seus permisos interns i les seves polítiques de seguretat. Per exemple, una empresa de serveis financers pot crear un agent personalitzat que recorri a l’agent d’IA de Box per integrar la seva anàlisi interna de mercat emmagatzemada a Box amb notícies i dades econòmiques del web en temps real, i així oferir als seus analistes una visió integral per prendre decisions d’inversió.

L’SDK d’Agents funciona amb l’API de Responses i l’API de complecions de xat. L’SDK també funcionarà amb models d’altres proveïdors, sempre que ofereixin un punt final d’API d’estil Chat Completions. Els desenvolupadors poden integrar-lo immediatament als seus bases de codi Python, i el suport per a Node.js arribarà aviat. Més informació a la nostra documentació⁠(s'obre en una finestra nova).

En dissenyar l’SDK d’Agents, el nostre equip es va inspirar en l’excel·lent feina d’altres membres de la comunitat, com ara Pydantic⁠(s'obre en una finestra nova), Griffe⁠(s'obre en una finestra nova) i MkDocs⁠(s'obre en una finestra nova). Ens comprometem a continuar desenvolupant l’SDK d’Agents com un framework de codi obert perquè altres membres de la comunitat puguin ampliar el nostre enfocament.

Què ve després: construir la plataforma per a agents

Creiem que els agents aviat esdevindran una part integral de la força laboral i milloraran de manera significativa la productivitat en tots els sectors. A mesura que les empreses busquen cada cop més aprofitar la IA per a tasques complexes, ens comprometem a proporcionar les peces bàsiques que permetin als desenvolupadors i a les empreses crear de manera efectiva sistemes autònoms que tinguin impacte en el món real.

Amb els llançaments d’avui, presentem les primeres peces bàsiques per ajudar desenvolupadors i empreses a crear, desplegar i escalar més fàcilment agents d’IA fiables i d’alt rendiment. A mesura que les capacitats dels models siguin cada vegada més pròpies d’agents, continuarem invertint en integracions més profundes a les nostres API i en noves eines per ajudar a desplegar, avaluar i optimitzar agents en producció. El nostre objectiu és oferir als desenvolupadors una experiència de plataforma fluida per crear agents que puguin ajudar amb una gran varietat de tasques en qualsevol sector. Tenim moltes ganes de veure què construiran els desenvolupadors a continuació. Per començar, consulteu la nostra documentació⁠(s'obre en una finestra nova) i estigueu atents a més actualitzacions ben aviat.

Autors

OpenAI