11. mars 2025

Nye verktøy til å bygge agenter

Vi utvikler plattformen vår for å hjelpe utviklere og bedrifter med å bygge nyttige og pålitelige agenter.

Et elegant, minimalistisk grensesnitt som viser en oppgaveliste for en AI-agent, inkludert ‘triage_agent,’ ‘guardrail,’ og ‘update_salesforce_record,’ over en flytende blå abstrakt bakgrunn.

I dag lanserer vi det første settet med byggeklosser som vil hjelpe utviklere og bedrifter med å bygge nyttige og pålitelige agenter. Vi ser på agenter som systemer som uavhengig utfører oppgaver på vegne av brukere. Gjennom det siste året har vi introdusert nye modellfunksjoner, som avansert resonnering, mutlimodale interaksjoner og sikkerhetsteknikker, noe som har lagt grunnlaget for at modellene våre skal kunne håndtere komplekse oppgaver i flere trinn, noe som er nødvendig for å bygge agenter. Kunder har imidlertid gitt tilbakemelding om at det kan være utfordrende å omgjøre disse funksjonene til produksjonsklare agenter, da det ofte krever omfattende iterasjon av meldinger og tilpasset orkestreringslogikk uten tilstrekkelig synlighet eller innebygd støtte.

For å håndtere disse utfordringene, lanserer vi et nytt sett med API-er og verktøy som er spesielt utviklet for å forenkle utviklingen av agentapplikasjoner:

Den nye Responses API⁠(åpnes i et nytt vindu), som kombinerer enkelheten til Chat Completions API, med verktøyfunksjonene til Assistants API for å bygge agenter.
Innebygde verktøy, inkludert nettsøk⁠(åpnes i et nytt vindu), filsøk⁠(åpnes i et nytt vindu) og databruk⁠(åpnes i et nytt vindu)
Den nye Agents SDK⁠(åpnes i et nytt vindu) for å orkestrere arbeidsflyter med én og flere agenter
Integrerte observasjonsverktøy⁠(åpnes i et nytt vindu) for å spore og inspisere utførelse av agentarbeidsflyt

Disse nye verktøyene effektiviserer kjernelogikk, orkestrering og interaksjoner av agenter, noe som gjør det betydelig enklere for utviklere å komme i gang med å bygge agenter. I løpet av de kommende ukene og månedene planlegger vi å lansere flere verktøy og funksjoner for ytterligere å forenkle og akselerere utviklingen av agentapplikasjoner på plattformen vår.

Vi presenterer Responses API

Responses API er vår nye API-primitiv, som utnytter OpenAIs innebygde verktøy til å skape agenter. Den kombinerer enkelheten til Chat Completions med verktøyfunksjonaliteten til Assistants API. Etter hver som modellfunksjonene fortsetter å utvikle seg, mener vi at Responses API vil gi et mer fleksibelt grunnlag for utviklere som bygger agentapplikasjoner. Med et enkelt Responses API-kall, vil utviklere kunne løse stadig mer komplekse oppgaver ved hjelp av flere verktøy og modellinteraksjoner.

Til å begynne med vil Responses API støtte nye innebygde verktøy som nettsøk, filsøk og databruk. Disse verktøyene er utviklet for å fungere sammen for å koble modeller til den virkelige verden, noe som gjør dem mer nyttige for å fullføre oppgaver. Det fører også med seg flere forbedringer i brukervennlighet, inkludert enhetlig elementbasert design, enklere polymorfisme, intuitive strømmehendelser og SDK-hjelpere som response.output_text for enkel tilgang til modellens tekstutdata.

Responses API er utformet for utviklere som enkelt ønsker å kombinere OpenAI-modeller og innebygde verktøy i appene sine, uten kompleksiteten ved å integrere flere API-er eller eksterne leverandører. API-en gjør det også enklere å lagre data på OpenAI, slik at utviklere kan evaluere agentytelse ved hjelp av funksjoner som sporing og evalueringer. Som en påminnelse lærer vi ikke opp modellene våre på bedriftsdata som standard, selv når dataene er lagret på OpenAI. API-en er tilgjengelig for alle utviklere fra og med i dag, og belastes ikke separat. Tokens og verktøy faktureres til standardprisene som er spesifisert på prissiden⁠(åpnes i et nytt vindu) vår. Sjekk hurtigstartveiledningen⁠(åpnes i et nytt vindu) til Responses API for å finne ut mer.

Hva dette betyr for eksisterende API-er

Chat Completions API⁠(åpnes i et nytt vindu): Chat Completions er fortsatt vår mest brukte API, og vi er fullt forpliktet til å støtte den med nye modeller og funksjoner. Utviklere som ikke trenger innebygde verktøy, kan trygt fortsette å bruke Chat Completions. Vi kommer til å fortsette å lansere nye modeller i Chat Completions så lenge funksjonaliteten ikke er avhengig av innebygde verktøy eller flere modellkall. Responses API er imidlertid et supersett⁠(åpnes i et nytt vindu) av Chat Completions med den samme fantastiske ytelsen. For nye integrasjoner anbefaler vi derfor å starte med Responses API.
Assistants API⁠(åpnes i et nytt vindu): Basert på tilbakemelding fra utviklere fra betaversjonen av Assistants API, har vi innlemmet viktige forbedringer i Responses API, noe som gjør det mer fleksibelt, raskere og enklere å bruke. Vi jobber med å oppnå full funksjonsparitet mellom Assistants og Responses API, inkludert støtte for Assistants-lignende og Tråd-lignende objekter, og Kodetolker-verktøy. Når dette er fullført, planlegger vi å formelt kunngjøre avviklingen av Assistants API med en måldato for nedleggelse i midten av 2026. Ved avvikling vil vi tilby en tydelig migreringsveiledning fra Assistants API til Responses API, som lar utviklere bevare alle dataene sine og migrere applikasjonene sine. Inntil vi formelt kunngjør avviklingen, vil vi fortsette å levere nye modeller til Assistants API. Responses API representerer den fremtidige retningen for bygging av agenter på OpenAI.

Vi introduserer innebygde verktøy i Responses API

Nettsøk

Utviklere kan nå få raske, oppdaterte svar med tydelige og relevante kildehenvisninger fra nettet. I Responses API er nettsøk tilgjengelig som et verktøy når du bruker gpt-4o og gpt-4o-mini, og kan kobles sammen med andre verktøy eller funksjonskall.

JavaScript

1const response = await openai.responses.create({
2    model: "gpt-4o",
3    tools: [ { type: "web_search_preview" } ],
4    input: "What was a positive news story that happened today?",
5});
6
7console.log(response.output_text);

Under tidlig testing har vi sett utviklere bygge med nettsøk til en rekke bruksområder, inkludert handleassistenter, research-agenter og reisebestillingsagenter – enhver applikasjon som krever oppdatert informasjon fra nettet.

For eksempel bruker Hebbia⁠(åpnes i et nytt vindu) nettsøkverktøyet til å hjelpe kapitalforvaltere, private equity- og kredittfirmaer og advokatfirmaer med å raskt trekke ut handlingsrettet innsikt fra omfattende offentlige og private datasett. Ved å integrere sanntidssøk i forskningsprosessene sine leverer Hebbia rikere, kontekstavhengig markedsinnsikt og forbedrer kontinuerlig presisjonen og relevansen i analysene sine, noe som overgår dagens standarder.

Nettsøk i API-en drives av den samme modellen som brukes til ChatGPT‑søk. På SimpleQA, en referansemåling som evaluerer nøyaktigheten av store språkmodeller i å svare på korte, faktabaserte spørsmål, scorer GPT‑4os forhåndsvisning av søk og GPT‑4o minis forhåndsvisning av søk henholdsvis 90 % og 88 %.

SimpleQA-nøyaktighet (høyere er bedre)

Svar generert med nettsøk i API-en inkluderer lenker til kilder, som nyhetsartikler og blogginnlegg, noe som gir brukere en ny måte å lære mer på. Med disse tydelige, innebygde kildehenvisningene kan brukere samhandle med informasjon på en ny måte, mens innholdseiere får nye muligheter til å nå en større målgruppe.

Alle nettsteder eller utgivere kan velge å vises⁠(åpnes i et nytt vindu) i nettsøk i API-en.

Nettsøk-verktøyet er tilgjengelig for alle utviklere i forhåndsvisning i Responses API. Vi gir også utviklere direkte tilgang til våre finjusterte søkemodeller i Chat Completions via gpt-4o-search-preview og gpt-4o-mini-search-preview. Prisene⁠(åpnes i et nytt vindu) starter på henholdsvis 30 $ og 25 $ per tusen meldinger for henholdsvis GPT‑4o‑søk og 4o-mini-søk. Sjekk ut nettsøk i Playground⁠(åpnes i et nytt vindu) og finn ut mer i våre dokumenter⁠(åpnes i et nytt vindu).

Filsøk

Utviklere kan nå enkelt hente relevant informasjon fra store antall dokumenter ved hjelp av det forbedrede filsøkverktøyet. Med støtte for flere filtyper, forespørselsoptimalisering, metadatafiltrering og tilpasset omrangering, kan det levere raske og presise søkeresultater. Og igjen, med Responses API, tar det bare noen få linjer med kode å integrere.

JavaScript

1const productDocs = await openai.vectorStores.create({
2    name: "Product Documentation",
3    file_ids: [file1.id, file2.id, file3.id],
4});
5
6const response = await openai.responses.create({
7    model: "gpt-4o-mini",
8    tools: [{
9        type: "file_search",
10        vector_store_ids: [productDocs.id],
11    }],
12    input: "What is deep research by OpenAI?",
13});
14
15console.log(response.output_text);

Filsøkverktøyet kan brukes til en rekke praktiske bruksområder, inkludert å gjøre det enklere for en kundeservicemedarbeider å få tilgang til spørsmål og svar, hjelpe en juridisk assistent med å raskt finne tidligere saker for en kvalifisert fagperson, samt hjelpe en kodeagent med å søke i teknisk dokumentasjon. For eksempel bruker Navan⁠(åpnes i et nytt vindu) filsøk i sitt AI-drevne reisebyrå for å raskt gi brukerne sine presise svar fra kunnskapsbaserte artikler (som selskapets reisepolicy). Med innebygd meldingsoptimalisering og omrangering kan de sette opp en kraftig RAG (retrieval-augmented generation)-pipeline uten ekstra justering eller konfigurering. Med dedikerte vektorlagre for hver brukergruppe kan Navan tilpasse svarene til individuelle kontoinnstillinger og brukerroller, noe som sparer tid for kunder og ansatte samtidig som det bidrar til å gi nøyaktig og personlig tilpasset støtte.

Dette verktøyet er tilgjengelig i Responses API for alle utviklere. Bruk koster⁠(åpnes i et nytt vindu) 2,50 $ per tusen meldinger og fillagring til 0,10 $ per GB per dag, med første GB gratis. Verktøyet er fortsatt tilgjengelig i Assistants API. Til slutt har vi også lagt til et nytt søkeendepunkt i Vector Store API-objektene for å kunne søke direkte i dataene dine til bruk i andre applikasjoner og API-er. Finn ut mer i dokumentene⁠(åpnes i et nytt vindu) våre og start testing i Playground⁠(åpnes i et nytt vindu).

Datamaskinbruk

For å bygge agenter som er i stand til å fullføre oppgaver på en datamaskin, kan utviklere nå bruke datamaskinverktøyet i Responses API, drevet av samme databrukende agent (CUA)-modell som aktiverer Operator. Denne utprøvingsmodellen satte en ny rekord, og oppnådde 38,1 % suksess på OSWorld⁠(åpnes i et nytt vindu) for oppgaver med full databruk, 58,1 % på WebArena⁠(åpnes i et nytt vindu), og 87 % på WebVoyager⁠(åpnes i et nytt vindu) for nettbaserte interaksjoner.

Det innebygde verktøyet for databruk fanger opp mus- og tastaturhandlinger generert av modellen, noe som gjør det mulig for utviklere å automatisere databruksoppgaver ved å oversette disse handlingene direkte til kjørbare kommandoer i sine miljøer.

JavaScript

1const response = await openai.responses.create({
2    model: "computer-use-preview",
3    tools: [{
4        type: "computer_use_preview",
5        display_width: 1024,
6        display_height: 768,
7        environment: "browser",
8    }],
9    truncation: "auto",
10    input: "I'm looking for a new camera. Help me find the best one.",
11});
12
13console.log(response.output);

Utviklere kan bruke verktøyet for databruk til å automatisere nettleserbaserte arbeidsflyter, som å utføre kvalitetssikring på nettapper eller gjennomføre dataregistrering på tvers av eldre systemer. For eksempel er Unify⁠(åpnes i et nytt vindu) et handlingssystem for å øke inntektene som bruker agenter til å identifisere intensjoner, utføre research på kontoer og engasjere seg med kjøpere. Ved hjelp av OpenAIs dataverktøy kan Unifys agenter få tilgang til informasjon som tidligere ikke var tilgjengelig via API-er, for eksempel ved å gjøre det mulig for et eiendomsforvaltningsselskap å bekrefte via et nettbasert kart om en bedrift har utvidet eiendomsavtrykket sitt. Denne forskningen fungerer som et tilpasset signal for å utløse personlig oppsøkende virksomhet, og gir markedsledende team mulighet til å engasjere søkere med presisjon og skala.

Som et annet eksempel integrerte Luminai⁠(åpnes i et nytt vindu) verktøyet for databruk til å automatisere komplekse arbeidsflyter for store bedrifter med eldre systemer som mangler API-tilgjengelighet og standardiserte data. I et nylig pilotprosjekt med en stor organisasjon for samfunnstjenester automatiserte Luminai søknadsbehandlingen og prosessen for brukerregistrering på bare noen få dager, noe tradisjonell robotisert prosessautomatisering (RPA) slet med å oppnå etter flere måneders innsats.

Før vi lanserte CUA i Operator i fjor, utførte vi omfattende sikkerhetstesting og “red-teaming” og tok for oss tre viktige risikoområder: misbruk, modellfeil og banebrytende risikoer. For å håndtere risikoer knyttet til utvidelse av Operators funksjonalitet til lokale operativsystemer gjennom CUA i API-et, utførte vi ytterligere sikkerhetsvurderinger og red-teaming. Vi har også lagt til begrensninger for utviklere, inkludert sikkerhetskontroller for å beskytte mot umiddelbare injeksjoner, bekreftelsesspørsmål for sensitive oppgaver, verktøy som hjelper utviklere med å isolere miljøene sine og forbedret deteksjon av potensielle brudd på retningslinjene. Selv om disse tiltakene bidrar til å redusere risiko, er modellen fortsatt sårbar for utilsiktede feil, spesielt i miljøer uten nettleser. For eksempel er CUAs ytelse på OSWorld, en referansemåling designet for å måle ytelsen til AI-agenter på oppgaver i den virkelige verden, for tiden på 38,1 %, noe som indikerer at modellen ennå ikke er svært pålitelig for å automatisere oppgaver på operativsystemer. Menneskelig tilsyn anbefales i slike situasjoner. Du finner mer informasjon om vårt API-spesifikke sikkerhetsarbeid i det oppdaterte systemkortet.

Type referansemåling	Referansemåling	Datamaskinbruk (universelt grensesnitt)		Nettleseragenter	Menneskelig
		OpenAI CUA	Forrige SOTA	Forrige SOTA
Datamaskinbruk	OSWorld	38,1 %	22,0 %	-	72,4 %
Nettleserbruk	WebArena	58,1 %	36,2 %	57,1 %	78,2 %
Nettleserbruk	WebVoyager	87,0 %	56,0 %	87,0 %	-

Evalueringsdetaljer beskrives her

Fra og med i dag er verktøyet for databruk tilgjengelig som en forhåndsvisning av research i Responses API for valgte utviklere i bruksnivå 3–5⁠(åpnes i et nytt vindu). Bruk er priset⁠(åpnes i et nytt vindu) til 3 $ per 1 mill. inndatatokens og 12 $ per 1 mill. utdatatokens. Finn ut mer i våre dokumenter⁠(åpnes i et nytt vindu) og sjekk ut eksempelapplikasjonen⁠(åpnes i et nytt vindu) som illustrerer hvordan du bygger med dette verktøyet.

Agenter SDK

I tillegg til å bygge kjernelogikken til agenter og gi dem tilgang til verktøy slik at de er nyttige, må utviklere også orkestrere agentens arbeidsflyt. Vår nye Agents SDK med åpen kildekode forenkler orkestreringen av arbeidsflyter med flere agenter og tilbyr betydelige forbedringer sammenlignet med Swarm⁠(åpnes i et nytt vindu), en eksperimentelt SDK vi lanserte i fjor, som ble bredt tatt i bruk av utviklermiljøet og vellykket implementert av flere kunder.

Forbedringer inkluderer:

Agenter: Enkelt konfigurerbare store språkmodeller med tydelige instruksjoner og innebygde verktøy.
Handoffs: Overfør kontroll intelligent mellom agenter.
Sikkerhetsmekanismer: Konfigurerbare sikkerhetskontroller for validering av inndata og utdata.
Sporing og observerbarhet: Visualiser kjøringsspor for agenter for å feilsøke og optimalisere ytelsen.

Python

1from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2
3@function_tool
4def submit_refund_request(item_id: str, reason: str):
5    # Your refund logic goes here
6    return "success"
7
8support_agent = Agent(
9    name="Support & Returns",
10    instructions="You are a support agent who can submit refunds [...]",
11    tools=[submit_refund_request],
12)
13
14shopping_agent = Agent(
15    name="Shopping Assistant",
16    instructions="You are a shopping assistant who can search the web [...]",
17    tools=[WebSearchTool()],
18)
19
20triage_agent = Agent(
21    name="Triage Agent",
22    instructions="Route the user to the correct agent.",
23    handoffs=[shopping_agent, support_agent],
24)
25
26output = Runner.run_sync(
27    starting_agent=triage_agent,
28    input="What shoes might work best with my outfit so far?",
29)

Agents SDK er egnet for applikasjoner i den virkelige verden, inkludert automatisering av kundestøtte, research med flere trinn, innholdsgenerering, kodegjennomgang og salgsprospektering. For eksempel brukte Coinbase⁠(åpnes i et nytt vindu) Agents SDK til raskt å prototype og distribuere AgentKit, et verktøysett som lar AI-agenter samhandle sømløst med kryptolommebøker og ulike aktiviteter på blokkjeden. På bare noen få timer integrerte Coinbase tilpassede handlinger fra sin Developer Platform SDK i en fullt funksjonell agent. AgentKits strømlinjeformede arkitektur forenklet prosessen med å legge til nye agenthandlinger, slik at utviklere kan fokusere mer på meningsfulle integrasjoner og mindre på å navigere komplekse agentoppsett.

På et par dager klarte Box⁠(åpnes i et nytt vindu) å lage agenter som utnytter nettsøk og Agents SDK for å gjøre det mulig for bedrifter å søke, spørre etter og hente ut innsikt fra ustrukturerte data lagret i Box og offentlige internettkilder. Denne tilnærmingen gjør det mulig for kundene å ikke bare få tilgang til den nyeste informasjonen, men også søke i sine interne, proprietære data på en trygg og sikker måte som respekterer deres interne tillatelser og sikkerhetspolicyer. For eksempel kan et finansielt tjenestefirma bygge en tilpasset agent som benytter seg av Box AI-agenten for å integrere interne markedsanalyser lagret i Box med nyheter i sanntid og økonomiske data fra nettet, og dermed gi analytikerne et helhetlig bilde for investeringsbeslutninger.

Agents SDK fungerer med Responses API og Chat Completions API. SDK-en vil også fungere med modeller fra andre leverandører, så lenge de tilbyr et API-endepunkt i Chat Completions-stil. Utviklere kan umiddelbart integrere det i sine Python-kodebaser. Støtte for Node.js kommer snart. Finn ut mer i dokumentene⁠(åpnes i et nytt vindu) våre.

Da vi designet Agents SDK, ble teamet inspirert av det utmerkede arbeidet til andre i fellesskapet, inkludert Pydantic⁠(åpnes i et nytt vindu), Griffe⁠(åpnes i et nytt vindu) og MkDocs⁠(åpnes i et nytt vindu). Vi er forpliktet til å fortsette å utvikle Agents SDK som et rammeverk med åpen kildekode, slik at andre i fellesskapet kan bygge videre på tilnærmingen vår.

Veien videre: å bygge plattformen for agenter

Vi tror at agenter snart vil bli en integrert del av arbeidsstyrken, noe som vil øke produktiviteten betydelig på tvers av bransjer. Etter hvert som selskaper i økende grad ønsker å utnytte AI for komplekse oppgaver, er vi forpliktet til å tilby blokkene som gjør det mulig for utviklere og virksomheter å effektivt skape autonome systemer som gir reell effekt i praksis.

Med dagens utgivelser introduserer vi de første byggeblokkene som gir utviklere og bedrifter muligheten til å enklere bygge, distribuere og skalere pålitelige og høytytende AI-agenter. Etter hvert som modellfunksjoner blir mer og mer agentmessige, fortsetter vi investeringen i dypere integrasjoner på tvers av API-ene våre og nye verktøy for å hjelpe med å distribuere, evaluere og optimalisere agenter i produksjon. Målet vårt er å gi utviklere en sømløs plattformopplevelse for å bygge agenter, som kan hjelpe med ulike oppgaver på tvers av alle bransjer. Vi gleder oss til å se hva utviklerne bygger videre. For å komme i gang, utforsk dokumentene⁠(åpnes i et nytt vindu) våre og hold deg oppdatert for flere nyheter.

Forfattere

OpenAI