11 mars 2025

Nya verktyg för att bygga agenter

Vi utvecklar vår plattform för att hjälpa utvecklare och företag att skapa användbara och tillförlitliga agenter.

Ett elegant och minimalistiskt gränssnitt visar en lista med uppgifter för en AI-agent på en blå, abstrakt bakgrund. I uppgifterna ingår triage_agent, guardrail och update_salesforce_record.

Idag lanserar vi den första uppsättningen byggblock som kommer att hjälpa utvecklare och företag att skapa användbara och tillförlitliga agenter. Vi ser agenter som system som på ett oberoende sätt utför uppgifter åt användare. Under det senaste året har vi introducerat nya modellfunktioner – som avancerat resonemang, multimodala interaktioner och nya säkerhetstekniker – som har lagt grunden för våra modeller att hantera de komplexa uppgifter i flera steg som krävs för att skapa agenter. Kunder har dock berättat att det kan vara utmanande att omvandla dessa funktioner till produktionsklara agenter, vilket ofta kräver omfattande iteration av promptar och anpassad orkestreringslogik, utan tillräcklig synlighet eller inbyggt stöd.

För att ta itu med dessa utmaningar lanserar vi en ny uppsättning API:er och verktyg som är specifikt utformade för att förenkla utvecklingen av agentbaserade applikationer:

Nya Svar-API⁠(öppnas i ett nytt fönster) förenar enkelheten hos API för slutförda chattar med verktygsfunktionerna hos Assistants API för att skapa agenter
Inbyggda verktyg inklusive webbsökning⁠(öppnas i ett nytt fönster), filsökning⁠(öppnas i ett nytt fönster) och datoranvändning⁠(öppnas i ett nytt fönster)
Det nya Agents SDK⁠(öppnas i ett nytt fönster) för att orkestrera arbetsflöden med en och flera agenter
Integrerade observerbara verktyg⁠(öppnas i ett nytt fönster) för att övervaka och inspektera exekveringen av agentens arbetsflöde

Dessa nya verktyg effektiviserar grundläggande agentlogik, orkestrering och interaktioner, vilket gör det betydligt enklare för utvecklare att komma igång med att skapa agenter. Under de kommande veckorna och månaderna planerar vi att släppa fler verktyg och funktioner för att ytterligare förenkla och påskynda skapandet av agentbaserade applikationer på vår plattform.

Vi presenterar Svar-API

Svar-API är vår nya API-primitiv för att utnyttja OpenAI:s inbyggda verktyg för att skapa agenter. Den förenar enkelheten hos API för slutförda chattar med verktygsfunktionerna hos Assistants API. I takt med att modellfunktionerna fortsätter att utvecklas tror vi att Svar-API kommer att ge en mer flexibel grund för utvecklare som skapar agentbaserade applikationer. Med ett enda Svar-API-anrop kommer utvecklare att kunna lösa alltmer komplexa uppgifter med hjälp av flera verktyg och modelländringar.

Till att börja med kommer Svar-API att ha stöd för nya inbyggda verktyg som webbsökning, filsökning och datoranvändning. Dessa verktyg är utformade för att fungera tillsammans för att koppla modeller till den verkliga världen, vilket gör dem mer användbara för att utföra uppgifter. Det medför också flera förbättringar av användbarheten, inklusive en enhetlig objektbaserad design, enklare polymorfism, intuitiva streamade händelser och SDK-hjälpmedel som response.output_text för enkel åtkomst till modellens textutdata.

Svar-API är utformat för utvecklare som vill kombinera OpenAI-modeller och inbyggda verktyg i sina appar på ett enkelt sätt, utan komplexiteten med att integrera flera API:er eller externa leverantörer. API:et gör det också enklare att lagra data på OpenAI så att utvecklare kan utvärdera agenters prestanda med hjälp av funktioner som spårning och utvärderingar. Vi vill bara påminna om att vi som standard inte tränar våra modeller på affärsdata, även när informationen lagras på OpenAI. API:et är tillgängligt för utvecklare från och med idag och debiteras inte separat – tokens och verktyg faktureras enligt de standardpriser som anges på vår prissida⁠(öppnas i ett nytt fönster). Kolla in snabbstartsguiden⁠(öppnas i ett nytt fönster) för Svar-API för att få mer information.

Vad detta innebär för befintliga API:er

API för slutförda chattar⁠(öppnas i ett nytt fönster): Det här API:et är det mest använda vi har och vi kommer att fortsätta erbjuda fullt stöd för det med nya modeller och funktioner. Utvecklare som inte behöver inbyggda verktyg kan tryggt fortsätta använda slutförda chattar. Vi kommer att fortsätta släppa nya modeller till slutförda chattar när deras funktioner inte är beroende av inbyggda verktyg eller anrop från flera modeller. Men Svar-API är ett superset⁠(öppnas i ett nytt fönster) av slutförda chattar med samma utmärkta prestanda, så för nya integrationer rekommenderar vi att du börjar med svar-API.
Assistants API⁠(öppnas i ett nytt fönster): Vi har införlivat viktiga förbättringar i Svar-API – utifrån den feedback vi fått från utvecklare angående betaversionen av Assistants API – och gjort det mer flexibelt, snabbare och enklare att använda. Vi arbetar för att uppnå fullständig funktionsparitet mellan Assistants- och Svar-API, inklusive stöd för Assistant-liknande och trådliknande objekt, samt verktyget kodtolkare. När detta är klart planerar vi att formellt tillkännage utfasningen av Assistants API som beräknas ske i mitten av 2026. Innan utfasningen genomförs kommer vi att tillhandahålla en tydlig migreringsguide från Assistants API till Svar-API, som gör det möjligt för utvecklare att bevara alla data och migrera applikationer. Innan vi formellt tillkännager utfasningen kommer vi att fortsätta leverera nya modeller till Assistants API. Svar-API representerar den framtida vägen för att skapa agenter på OpenAI.

Vi presenterar inbyggda verktyg i Svar-API

Webbsökning

Utvecklare kan nu få snabba, aktuella svar med tydliga och relevanta källhänvisningar från webben. Webbsökning finns som verktyg i Svar-API när du använder GPT‑4o och GPT‑4o‑mini, och kan parkopplas med andra verktyg eller funktionsanrop.

JavaScript

1const response = await openai.responses.create({
2    model: "gpt-4o",
3    tools: [ { type: "web_search_preview" } ],
4    input: "What was a positive news story that happened today?",
5});
6
7console.log(response.output_text);

Under det tidiga teststadiet såg vi att utvecklare använde webbsökning för många olika användningsfall, inklusive shoppingassistenter, researchagenter och resebokningsagenter – applikationer som kräver aktuell information från webben.

Till exempel använder Hebbia⁠(öppnas i ett nytt fönster) verktyget webbsökning för att hjälpa kapitalförvaltare, private equity- och kreditföretag samt juristbyråer att snabbt extrahera användbara insikter från omfattande offentliga och privata datamängder. Genom att integrera sökfunktioner i realtid i sina researchflöden levererar Hebbia rikare, kontextspecifik marknadsinformation och förbättrar kontinuerligt precisionen och relevansen i sina analyser, vilket överträffar nuvarande riktmärken.

För API:ets webbsökning används samma modell som för ChatGPT‑sökning. SimpleQA är ett riktmärke som utvärderar riktigheten hos LLM när det gäller att besvara korta, faktabaserade frågor, och betaversionen av GPT‑4o‑ och GPT‑4o‑mini‑sökningar uppgick till 90 % respektive 88 %.

SimpleQA-riktighet (högre är bättre)

De svar som genererades med webbsökning i API:et innehåller länkar till källor, till exempel nyhetsartiklar och blogginlägg, så att användare kan läsa mer. Tack vare dessa tydliga källhänvisningar kan användare ta del av information på ett nytt sätt, samtidigt som innehållsägare får nya möjligheter att nå ut till en bredare publik.

Webbplatser eller utgivare kan välja om de vill synas ⁠(öppnas i ett nytt fönster) i API:ets webbsökning.

Verktyget webbsökning är tillgängligt för utvecklare i betaversionen av Svar-API. Vi ger också utvecklare direktåtkomst till våra finjusterade sökmodeller i API för slutförda chattar via betaversionerna av gpt-4o-sökning och gpt-4o-mini-sökning. Priserna⁠(öppnas i ett nytt fönster) börjar från 30 $ och 25 $ per tusen förfrågningar för GPT‑4o‑sökning respektive 4o-mini-sökning. Kolla in vår webbsökning i Playground⁠(öppnas i ett nytt fönster) och läs mer i vår dokumentation⁠(öppnas i ett nytt fönster).

Filsökning

Utvecklare kan nu enkelt hämta relevant information från stora mängder dokument med hjälp av det förbättrade verktyget filsökning. Tack vare stöd för olika filtyper, frågeoptimering, metadatafiltrering och anpassad omrankning kan det leverera snabba och korrekta sökresultat. Och återigen, med Svar-API behövs det bara några få rader kod för att integrera verktyget.

JavaScript

1const productDocs = await openai.vectorStores.create({
2    name: "Product Documentation",
3    file_ids: [file1.id, file2.id, file3.id],
4});
5
6const response = await openai.responses.create({
7    model: "gpt-4o-mini",
8    tools: [{
9        type: "file_search",
10        vector_store_ids: [productDocs.id],
11    }],
12    input: "What is deep research by OpenAI?",
13});
14
15console.log(response.output_text);

Filsökning kan användas för ett antal användningsfall, bland annat för att ge kundserviceagenter snabb åtkomst till vanliga frågor, hjälpa juridiska yrkespersoner att snabbt hänvisa till tidigare fall och underlätta för kodningsagenter att söka igenom teknisk dokumentation. Till exempel använder Navan⁠(öppnas i ett nytt fönster) filsökning i sin AI-drivna resebyrå för att snabbt ge sina användare exakta svar från artiklar i kunskapsbaser (t.ex. företagets resepolicy). Med inbyggd frågeoptimering och omrankning kan resebyrån skapa en kraftfull RAG-pipeline (Retrieval Augmented Generation) utan att det behövs någon extra justering eller konfiguration. Med särskilda vektorarkiv för varje användargrupp kan Navan skräddarsy svar till individuella kontoinställningar och användarroller, vilket sparar tid för kunder och deras personal samtidigt som det blir lättare att ge korrekt och individanpassad support.

Det här verktyget är tillgängligt i Svar-API för alla utvecklare. Priset⁠(öppnas i ett nytt fönster) är 2,50 $ per tusen förfrågningar och 0,10 $/GB/dag för fillagring (första GB är gratis). Verktyget fortsätter att vara tillgängligt i Assistants API. Slutligen har vi också lagt till en ny sökslutpunkt till Vector Store API-objekt för att direkt kunna fråga dina data för användning i andra applikationer och API:er. Läs mer i vår dokumentation⁠(öppnas i ett nytt fönster) och börja testa i Playground⁠(öppnas i ett nytt fönster).

Datoranvändning

För att bygga agenter som kan utföra uppgifter på en dator kan utvecklare nu använda verktyget datoranvändning i Svar-API som använder samma modell för datoranvändande agent (CUA) som används för att aktivera Operator. Modellen för förhandsgranskning i forskningssyfte har satt ett nytt rekord där den uppnådde 38,1 % i utförda datoruppgifter på OSWorld⁠(öppnas i ett nytt fönster), 58,1 % på WebArena⁠(öppnas i ett nytt fönster) och 87 % på WebVoyager⁠(öppnas i ett nytt fönster) för webbaserade interaktioner.

Det inbyggda verktyget datoranvändning fångar upp de mus- och tangentbordsåtgärder som genereras av modellen vilket gör det möjligt för utvecklare att automatisera datoranvändningsuppgifter genom att direkt översätta dessa åtgärder till körbara kommandon i deras miljöer.

JavaScript

1const response = await openai.responses.create({
2    model: "computer-use-preview",
3    tools: [{
4        type: "computer_use_preview",
5        display_width: 1024,
6        display_height: 768,
7        environment: "browser",
8    }],
9    truncation: "auto",
10    input: "I'm looking for a new camera. Help me find the best one.",
11});
12
13console.log(response.output);

Utvecklare kan ta hjälp av datoranvändning för att automatisera webbläsarbaserade arbetsflöden som att utföra kvalitetssäkring av webbappar eller exekvera datainmatningsuppgifter i äldre system. Exempelvis Unify⁠(öppnas i ett nytt fönster) är en proaktiv plattform för att öka intäkterna som använder agenter för att identifiera avsikter, undersöka konton och interagera med köpare. Genom att använda OpenAI:s datoranvändning kan Unifys agenter komma åt information som tidigare inte kunde hämtas via API:er. Det kan på så sätt bli möjligt för ett fastighetsförvaltningsföretag att via onlinekartor ta reda på om ett företag har utökat sin närvaro i fastighetsbranschen. Denna research fungerar som en signal för att utlösa individanpassad uppsökande verksamhet – vilket ger marknadsteam möjlighet att ta kontakt med köpare med konkreta siffror.

Ett annat exempel är Luminai⁠(öppnas i ett nytt fönster) som integrerade datoranvändning för att automatisera komplexa operativa arbetsflöden för stora företag med äldre system som saknar API-tillgänglighet och standardiserade data. I ett nyligen genomfört pilotprojekt tillsammans med en stor samhällstjänstorganisation automatiserade Luminai behandlingen av ansökningar och användarregistreringen på bara några dagar – något som traditionell mjukvarurobotik (RPA) knappt hade klarat av efter flera månaders arbete.

Innan vi släppte CUA i Operator förra året genomförde vi omfattande säkerhetstester och red teaming, där vi tog itu med tre viktiga riskområden: felaktig användning, modellfel och gränsrisker. För att hantera risker kopplade till utökningen av funktioner för Operator till lokala operativsystem via CUA i API:et utförde vi ytterligare säkerhetsutvärderingar och red teaming. Vi har även tagit med förebyggande åtgärder för utvecklare inklusive säkerhetskontroller för att skydda mot injektionsattacker, bekräftelsefrågor för känsliga uppgifter, verktyg som hjälper utvecklare att isolera sina miljöer och förbättrad upptäckt av potentiella policyöverträdelser. De här åtgärderna bidrar till att minska risken, men modellen är fortfarande känslig för oavsiktliga misstag, särskilt i miljöer utan webbläsare. Till exempel ligger prestandan för datoranvändande agent på 38,1 % hos OSWorld – ett riktmärke utformat för att mäta prestandan hos AI-agenter på uppgifter i verklig miljö – vilket indikerar att modellen ännu inte är helt tillförlitlig för att automatisera uppgifter på operativsystem. Mänsklig tillsyn rekommenderas i dessa scenarier. Mer information om vårt säkerhetsarbete som rör API:er finns i vårt uppdaterade systemkort.

Typ av riktmärke	Riktmärke	Datoranvändning (universellt gränssnitt)		Webbsurfningsagenter	Mänsklig
		OpenAI CUA	Föregående SOTA	Föregående SOTA
Datoranvändning	OSWorld	38,1 %	22,0 %	-	72,4 %
Webbläsaranvändning	WebArena	58,1 %	36,2 %	57,1 %	78,2 %
Webbläsaranvändning	WebVoyager	87,0 %	56,0 %	87,0 %	-

Utvärderingsuppgifterna beskrivs här

Från och med idag är verktyget datoranvändning tillgängligt som förhandsgranskning i forskningssyfte i Svar-API för utvalda utvecklare på användningsnivåerna 3–5⁠(öppnas i ett nytt fönster). Priset⁠(öppnas i ett nytt fönster) är 3 $/1 mn indatatokens och 12 $/1 mn utdatatokens. Läs mer i vår dokumentation⁠(öppnas i ett nytt fönster) och kolla in provapplikationen⁠(öppnas i ett nytt fönster) som visar hur man bygger med det här verktyget.

Agents SDK

Förutom att skapa grundläggande logik för agenter och ge dem åtkomst till verktyg så att de är användbara, måste utvecklare även orkestrera deras arbetsflöden. Vårt nya Agents SDK med öppen källkod underlättar orkestrering av arbetsflöden med flera agenter och erbjuder betydande förbättringar i Swarm⁠(öppnas i ett nytt fönster), ett experimentellt SDK som vi släppte förra året. Det används flitigt av utvecklare och har driftsatts av flera kunder.

I förbättringarna ingår:

Agenter: LLM:er som är lätta att konfigurera och har tydliga instruktioner och inbyggda verktyg.
Handoffs: Intelligent överföring av kontroll mellan agenter.
Guardrails: Konfigurerbara säkerhetskontroller för validering av in- och utdata.
Spårning och observerbarhet: Visa agentexekveringsspår för att avlusa och optimera prestandan.

Python

1from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2
3@function_tool
4def submit_refund_request(item_id: str, reason: str):
5    # Your refund logic goes here
6    return "success"
7
8support_agent = Agent(
9    name="Support & Returns",
10    instructions="You are a support agent who can submit refunds [...]",
11    tools=[submit_refund_request],
12)
13
14shopping_agent = Agent(
15    name="Shopping Assistant",
16    instructions="You are a shopping assistant who can search the web [...]",
17    tools=[WebSearchTool()],
18)
19
20triage_agent = Agent(
21    name="Triage Agent",
22    instructions="Route the user to the correct agent.",
23    handoffs=[shopping_agent, support_agent],
24)
25
26output = Runner.run_sync(
27    starting_agent=triage_agent,
28    input="What shoes might work best with my outfit so far?",
29)

Agents SDK är lämpligt för olika applikationer i verklig miljö, inklusive automatisering av kundsupport, forskning i flera steg, innehållsgenerering, kodgranskning och försäljningsprognoser. Till exempel Coinbase⁠(öppnas i ett nytt fönster) använde Agents SDK för att snabbt skapa en prototyp av och driftsätta AgentKit, en verktygslåda som gör det möjligt för AI-agenter att interagera smidigt med kryptoplånböcker och olika aktiviteter i kedjorna. På bara några timmar integrerade Coinbase anpassade åtgärder från sitt Developer Platform SDK till en fullt fungerande agent. AgentKits effektiviserade arkitektur gjorde det enklare att lägga till nya agentåtgärder, vilket medförde att utvecklare kunde fokusera mer på meningsfulla integrationer och mindre på att ta itu med komplexa agentinställningar.

På bara några dagar kunde Box⁠(öppnas i ett nytt fönster) snabbt skapa agenter som använder sig av webbsökning och Agents SDK för att göra det möjligt för företag att söka, fråga efter och extrahera insikter från ostrukturerade data som lagras i Box och offentliga internetkällor. Tack vare den här metoden kan kunder komma åt den senaste informationen och söka bland sina egna, interna data på ett säkert sätt som följer deras interna behörigheter och säkerhetspolicyer. Ett finansföretag kan exempelvis skapa en anpassad agent som använder Box AI-agenten för att integrera sin interna marknadsanalys med nyheter och ekonomiska data i realtid från webben, vilket ger deras analytiker en heltäckande bild för investeringsbeslut. Analysen är sparad hos Box.

Agents SDK fungerar med Svar-API och API för slutförda chattar. SDK:et fungerar även med modeller från andra leverantörer, så länge de tillhandahåller en slutpunkt för API för slutförda chattar. Utvecklare kan direkt integrera det i sina Python-kodbaser, med stöd för Node.js som kommer snart. Läs mer i vår dokumentation⁠(öppnas i ett nytt fönster).

När vårt team designade Agents SDK blev de inspirerade av andra utvecklares utmärkta arbete, bland annat Pydantic⁠(öppnas i ett nytt fönster), Griffe⁠(öppnas i ett nytt fönster) och MkDocs⁠(öppnas i ett nytt fönster). Vi har åtagit oss att fortsätta bygga Agents SDK som ett ramverk med öppen källkod så att andra utvecklare kan bygga vidare på vårt tillvägagångssätt.

Vad händer härnäst? Att bygga en plattform för agenter

Vi tror att agenter snart kommer att bli en integrerad del av arbetskraften, vilket kommer att öka produktiviteten avsevärt i alla branscher. I takt med att företag i allt större utsträckning försöker dra nytta av AI för komplexa uppgifter, har vi åtagit oss att tillhandahålla de byggstenar som gör det möjligt för utvecklare och företag att effektivt skapa autonoma system som ger verklig effekt.

Med dagens lanseringar presenterar vi de första byggstenarna som gör det möjligt för utvecklare och företag att enklare bygga, driftsätta och skala upp pålitliga, högpresterande AI-agenter. I takt med att modellfunktioner blir mer och mer agentbaserade kommer vi att fortsätta investera i djupare integrationer mellan våra API:er och nya verktyg för att hjälpa till att driftsätta, utvärdera och optimera agenter i produktion. Vårt mål är att ge utvecklare en smidig plattformsupplevelse för att skapa agenter som kan hjälpa till med en mängd olika uppgifter inom alla branscher. Det ska bli spännande att se vad utvecklare kommer att bygga härnäst. Kom igång genom att utforska vår dokumentation⁠(öppnas i ett nytt fönster) och håll utkik efter fler uppdateringar inom kort.

Författare

OpenAI