Nye værktøjer til at bygge agenter
Vi udvikler vores platform for at hjælpe udviklere og virksomheder med at bygge nyttige og pålidelige agenter.

I dag udgiver vi det første sæt byggeklodser, der vil hjælpe udviklere og virksomheder med at bygge nyttige og pålidelige agenter. Vi ser agenter som systemer, der uafhængigt fuldfører opgaver på vegne af brugere. I løbet af det sidste år har vi introduceret nyt modelfunktioner – bl.a. avanceret tænkning, multimodale interaktioner og nye sikkerhedsteknikker – der har lagt grundlaget for vores modeller til at håndtere de komplekse opgaver i flere trin, der er påkrævet for at bygge agenter. Kunder har dog sagt, at det kan være udfordrende at omdanne disse funktioner til produktionsklare agenter, og det kræver ofte omfattende iteration af forespørgsler og brugerdefineret orkestreringslogik uden tilstrækkelig synlighed eller indbygget support.
For at håndtere disse udfordringer lancerer vi et nyt sæt af API'er og værktøjer, der er specifikt designet til at simplificere udvikingen af handlende applikationer:
- Den nye Responses API(åbner i et nyt vindue) kombinerer simpliciteten ved API'en for chatsvar, Chat Completions API, med evnen til at bruge værktøjerne i Assistants API til at skabe agenter.
- Indbyggede værktøjer inkluderer internetsøgning(åbner i et nyt vindue), filsøgning(åbner i et nyt vindue) og computerbrug(åbner i et nyt vindue)
- Det nye Agents SDK(åbner i et nyt vindue) til at organisere arbejdsprocesser for enkeltagent såvel som multiagent
- Integrerede observationsværktøjer(åbner i et nyt vindue) til at spore og inspicere udførelsen af agentarbejdsprocessen
Disse nye værktøjer strømliner agenternes kernelogik, orkestrering og interaktioner, hvilket gør det væsentligt nemmere for udviklere at komme i gang med at skabe agenter. I løbet af de næste uger og måneder planlægger vi at udgive yderligere værktøjer og funktioner for yderligere at simplificere og fremskynde skabelsen af handlende applikationer på vores platform.
Responses API er vores nye API-primitiv, der udnytter OpenAI’s indbyggede værktøjer til at skabe agenter. Den kombinerer simpliciteten ved Chat Completions med Assistants API'ens evner til at bruge værktøjerne. Efterhånden som modelfunktioner fortsat udvikler sig, mener vi, at Responses API'en vil give et mere fleksibelt grundlag for udviklere, der bygger handlende applikationer. Med et enkelt Responses API-opkald vil udviklere kunne løse mere og mere komplekse opgaver ved brug af forskellige værktøjer og modelændringer.
Til at starte med vil Responses API'en understøtte nye indbyggede værktøjer som f.eks. internetsøgning, filsøgning og computerbrug. Disse værktøjer er designet til at fungere sammen for at forbinde modeller til den virkelige verden og gøre dem nyttigere, når det kommer til at fuldføre opgaver. Den har også adskillige forbedringer af brugbarhed, herunder et samlet elementbaseret design, simplere polymorfisme, intuitive streaminghændelser og SDK-hjælpere som f.eks. response.output_text, der giver nem adgang til modellens tekstoutput.
Responses API'en er designet til udviklere, der nemt vil kombinere OpenAI-modeller og indbyggede værktøjer i deres apps uden kompleksiteten ved at integrere flere API'er eller eksterne leverandører. API'en gør det også nemmere at lagre data på OpenAI, så udviklere kan evaluere agentpræstation ved brug af funktioner såsom sporing og evalueringer. Som en påmindelse træner vi som standard ikke vores modeller ved brug af virksomhedsdata, selv når dataene er lagret på OpenAI. API'en er tilgængelig for alle udviklere fra og med i dag og opkræves ikke separat – tokens og værktøjer faktureres til standardpriserne, der er angivet på vores side med priser(åbner i et nyt vindue). Se vores vejledning til hurtigt at komme i gang(åbner i et nyt vindue) til Responses API for at læse mere.
- Chat Completions API(åbner i et nyt vindue): Chat Completions forbliver den mest udbredte API, og vi er fuldt ud forpligtede til at støtte den med nye modeller og funktioner. Udviklere, der ikke behøver indbyggede værktøjer, kan roligt fortsætte med at bruge Chat Completions. Vi fortsætter med at udgive nye modeller af Chat Completions, når deres funktioner ikke afhænger af indbyggede værktøjer eller flere forskellige modelopkald. Responses API'en er dog et supersæt(åbner i et nyt vindue) af Chat Completions med den samme fantastiske ydeevne, så for nye integrationer anbefaler vi at starte med Responses API'en.
- Assistants API(åbner i et nyt vindue): Baseret på udviklerfeedback fra Assistants API-beta har vi indarbejdet vigtige forbedringer i Responses API'en, hvilket gør den mere fleksibel, hurtigere og nemmere at bruge. Vi arbejder på at opnå fuld funktionsparitet mellem henholdsvis Assistants API'en og Responses API'en, herunder understøttelse af trådlignende objekter og Kodefortolker-værktøjet. Når den er fuldført, planlægger vi formelt at annoncere udfasningen af Assistants API'en med en foreløbig dato i midten af 2026. Ved udfasning vil vi offentliggøre en præcis migreringsvejledning fra Assistants API til Responses API, der gør det muligt for udviklere at bevare alle deres data og migrere deres applikationer. Indtil vi formelt annoncerer udfasningen, vil vi fortsætte med at levere nye modeller til Assistants API'en. Responses API'en repræsenterer den fremtidige retning til skabelse af agenter på OpenAI.
Udviklere kan nu få hurtige, opdaterede svar med præcise og relevante henvisninger fra internettet. I Responses API'en er internetsøgning tilgængelig som et værktøj ved brug af gpt-4o og gpt-4o-mini og kan parres med andre værktøjer eller funktionsopkald.
Under den tidlige testning har vi set udviklere bygge med internetsøgning i forbindelse med en lang række use cases, herunder shoppingassistenter, researchagenter og rejsebookingagenter – en hvilken som helst applikation, der kræver rettidige oplysninger fra internettet.
F.eks. bruger Hebbia(åbner i et nyt vindue) internetsøgningsværktøjet til at hjælpe aktivforvaltere, kapitalfonde og kreditvirksomheder samt advokatpraksisser med hurtigt at uddrage brugbare indsigter fra omfattende offentlige og private datasæt. Ved at integrere søgefunktioner i realtid i deres arbejdsprocesser i forbindelse med research leverer Hebbia rigere, kontekstspecifik markedsinformation og forbedrer hele tiden præcisionen og relevansen af deres analyser, og overgår aktuelle benchmarks.
Internetsøgning i API'en er drevet af den samme model, der anvendes til ChatGPT‑søgning. På SimpleQA, som er et benchmark, der evaluerer nøjagtigheden af LLM'er i besvarelsen af korte, faktuelle spørgsmål, scorer GPT‑4o's forhåndsvisning af søgning og GPT‑4o minis forhåndsvisning af søgning henholdsvis 90 % og 88 %.
SimpleQA-nøjagtighed (højere er bedre)
Svar genereret med internetsøgning i API'en inkluderer links til kilder som f.eks. nyhedsartikler og blogopslag, hvilket giver brugere en ny måde at lære mere på. Med disse præcise, indbyggede henvisninger kan brugere interagere med information på en ny måde, mens kontekstejere får nye muligheder for at nå ud til en bredere målgruppe.
Et hvilket som helst website eller en hvilken som helst udgiver kan vælge at blive vist(åbner i et nyt vindue) i en internetsøgning i API'en.
Internetsøgningsværktøjet er tilgængeligt for alle udviklere som forhåndsvisning i Responses API'en. Vi giver også udviklere direkte adgang til vores finjusterede søgemodeller i API'en for chatsvar (Chat Completions) via gpt-4o-search-preview og gpt-4o-mini-search-preview. Prisen(åbner i et nyt vindue) starter ved henholdsvis 30 USD og 25 USD pr. tusind forespørgsler for henholdsvis GPT‑4o‑ og 4o-mini-søgning. Se vores internetsøgning i Playground(åbner i et nyt vindue), og læs mere i vores dokumenter(åbner i et nyt vindue).
Udviklere kan nu nemt hente relevant information fra store mængder dokumenter ved brug af det forbedrede filsøgningsværktøj. Det understøtter flere forskellige filtyper, optimering af forespørgsel, filtrering af metadata og brugerdefineret omarrangering, og det kan levere hurtige, præcise søgeresultater. Som allerede nævnt tager det med Responses API'en kun nogle få linjers kodning at integrere det.
Filsøgningsværktøjet kan bruges til en lang række use cases i den virkelige verden, herunder at gøre det muligt for en kundesupportagent at tilgå ofte stillede spørgsmål, hjælpe en juridisk assistent med hurtigt at finde tidligere sager for en kvalificeret professionel samt hjælpe en kodningsagent med at søge i teknisk dokumentation. F.eks. bruger Navan(åbner i et nyt vindue) filsøgning i sin AI-drevne rejseagent til hurtigt at give sine brugere præcise svar fra artikler i vidensbasen (som f.eks. virksomhedens rejsepolitik). Med indbygget optimering af forespørgsel og omarrangering kan de opsætte en effektiv RAG-pipeline (retrieval-augmented generation) uden ekstra tilpasning eller konfiguration. Med dedikerede vektorlagre for hver brugergruppe kan Navan tilpasse svar til enkelte kontoindstillinger og brugerroller, hvilket sparer kunder og medarbejdere tid og hjælper samtidig med at give præcis, tilpasset support.
Dette værktøj er tilgængeligt i Responses API'en for alle udviklere. Brugen er prissat(åbner i et nyt vindue) til 2,50 USD pr. tusind forespørgsler og fillagring til 0,10 USD/GB/dag med den første GB gratis. Værktøjet vil fortsat være tilgængeligt i Assistants API'en. Endelig har vi også tilføjet et nyt søgningsendepunkt til Vector Store API-objekterne for at kunne søge direkte i dine data til brug i andre applikationer og API'er. Læs mere i vores dokumenter(åbner i et nyt vindue), og begynd at teste i Playground(åbner i et nyt vindue).
For at bygge agenter, som er i stand til at fuldføre opgaver på en computer, kan udviklere nu bruge værktøjet til brug af computer i Responses API, der er drevet af samme CUA-model (Computer-Using Agent), der muliggør Operator. Denne model til forhåndsvisning af research satte en ny, avanceret rekord og opnåede 38,1% succes på OSWorld(åbner i et nyt vindue) for opgaver med fuld computerbrug, 58,1 % på WebArena(åbner i et nyt vindue) og 87 % på WebVoyager(åbner i et nyt vindue) for webbaserede interaktioner.
Det indbyggede værktøj til brug af computer registrerer muse- og tastaturhandlinger, der er genereret af modellen, og gør det muligt for udviklere at automatisere opgaver til computerbrug ved direkte at oversætte disse handlinger til eksekverbare kommandoer i deres miljøer.
Udviklere kan bruge værktøjet til brug af computer til at automatisere browserbaserede arbejdsprocesser som f.eks. at foretage kvalitetssikring på webapplikationer eller udføre opgaver inden for dataindtastning på tværs af ældre systemer. F.eks. er Unify(åbner i et nyt vindue) et handlingssystem til at øge indtægter, som bruger agenter til at identificere hensigt, udføre research af konti og interagere med købere. Ved brug af OpenAI’s værktøj til brug af computer kan Unifys agenter få adgang til information, der tidligere ikke var tilgængelige via API'er, f.eks. ved at gøre det muligt for en ejendomsadministrationsvirksomhed gennem online kort at verificere, om en virksomhed har udvidet sin fysiske størrelse. Denne research fungerer som et brugerdefineret signal til at udløse en tilpasset kontakt og giver salgsteams mulighed for at interagere med købere præcist og i stor skala.
Et andet eksempel er Luminai(åbner i et nyt vindue), som har integreret værktøjet til brug af computer for at automatisere komplekse driftsmæssige arbejdsprocesser til store virksomheder med ældre systemer, der mangler API-tilgængelighed og standardiserede data. I et nyligt pilotprojekt med en stor organisation for samfundstjenester automatiserede Luminai ansøgningsbehandlingen og brugerregistreringsprocessen på blot nogle få dage – noget som traditionel robotprocesautomatisering (RPA) havde problemer med at opnå efter flere måneders bestræbelser.
Før lanceringen af CUA i Operator sidste år foretog vi omfattende sikkerhedstestning og red teaming og fokuserede på tre vigtige risikoområder: misbrug, modelfejl og nye risici. For at håndtere risici forbundet med udvidelsen af Operators funktioner til lokale operativsystemer gennem CUA i API'en foretog vi yderligere sikkerhedsevalueringer og red teaming. Vi har også afbødet risici for udviklere, herunder sikkerhedskontroller for at beskytte mod forespørgsel-injektioner, bekræftelsesforespørgsler ved følsomme opgaver, værktøjer til at hjælpe udviklere med at isolere deres miljøer og forbedret registrering af potentielle politikovertrædelser. Selv om disse afbødende foranstaltninger hjælper med at reducere risici, er modellen stadig sårbar over for utilsigtede fejl, særligt i miljøer uden browser. For eksempel er CUA’s præstation på OSWorld, som er et benchmark designet til at måle effektiviteten af AI-agenter på opgaver i den virkelige verden, på nuværende tidspunkt på 38,1 %, hvilket angiver, at modellen endnu ikke er højt pålidelig til automatiseringsopgaver på operativsystemer. Menneskeligt opsyn anbefales i disse scenarier. Der er yderligere oplysninger om vores API-specifikke sikkerhedsarbejde i vores opdaterede systemkort.
| Benchmarktype | Benchmark | Computerbrug (universel grænseflade) | Agenter til internetsøgning | Menneske | |
|---|---|---|---|---|---|
| OpenAI CUA | Forrige SOTA | Forrige SOTA | |||
| Computerbrug | OSWorld | 38,1 % | 22,0 % | - | 72,4 % |
| Brug af browser | WebArena | 58,1 % | 36,2 % | 57,1 % | 78,2 % |
| WebVoyager | 87,0 % | 56,0 % | 87,0 % | - | |
Fra og med i dag er værktøjet til computerbrug tilgængeligt som en forhåndsvisning af research i Responses API'en for udvalgte udviklere på brugsniveau 3-5(åbner i et nyt vindue). Brugen er prissat(åbner i et nyt vindue) til 3 USD/1 million inputtokens og til 12 USD/1 million outputtokens. Læs mere i vores dokumenter(åbner i et nyt vindue), og se prøveapplikationen(åbner i et nyt vindue), der viser, hvordan du kan bygge med dette værktøj.
Udover at bygge kernelogikken til agenter og give dem adgang til værktøjer, så de er nyttige, skal udviklere også organisere handlingsarbejdsprocesser. Vores nye open-source Agents SDK simplificerer orkestrering af arbejdsprocesser med flere agenter og tilbyder væsentlige forbedringer sammenlignet med Swarm(åbner i et nyt vindue), som er et eksperimenterende SDK, vi udgav sidste år, og som blev taget bredt i brug af udviklerfællesskabet og implementeret af flere kunder.
Forbedringer inkluderer:
- Agenter: LLM'er, der nemt kan konfigureres med præcise instruktioner og indbyggede værktøjer.
- Overdragelser: Overfør på intelligent vis kontrollen mellem agenter.
- Sikkerhedsforanstaltninger: Konfigurerbare sikkerhedskontroller til validering af input og output.
- Sporing og observerbarhed: Visualiser agentudførelsesspor for at foretage fejlsøgning og optimere præstationen.
Agents SDK er egnet til forskellige anvendelser i den virkelige verden, herunder automatisering af kundesupport, research i flere trin, indholdsgenerering, kodegennemgang og salgsopstilling. F.eks. brugte Coinbase(åbner i et nyt vindue) Agents SDK til hurtigt at lave en prototype af og implementere AgentKit, som er et værktøjssæt, der gør det muligt for AI-agenter at interagere med krypto-wallets og forskellige aktiviteter på kæden uden problemer. På blot nogle timer integrerede Coinbase brugerdefinerede handlinger fra deres Developer Platform SDK i en fuldt funktionel agent. AgentKits strømlinede arkitektur simplificerede processen med at tilføje nye agenthandlinger, hvilket gav udviklerne mere tid til at fokusere på meningsfulde integrationer og mindre tid på at navigere i komplekse agentopsætninger.
På nogle få dage kunne Box(åbner i et nyt vindue) hurtigt skabe agenter, der udnytter internetsøgning og Agents SDK til at give virksomheder mulighed for at søge efter, forespørge om og udtrække indblik fra ustrukturerede data, der er lagret i Box, samt i offentlige kilder på internettet. Denne tilgang gav kunder mulighed for ikke kun at få adgang til de seneste oplysninger, men også at søge i deres interne, proprietære data på en sikker måde, der overholder deres interne tilladelser og sikkerhedspolitikker. F.eks. kan en virksomhed, der leverer finansielle tjenester, bygge en brugerdefineret agent, der kalder på Box AI-agenten for at integrere deres interne markedsanalyse, som er lagret i Box, med nyheder og økonomiske data i realtid fra internettet, hvilket giver deres analytikere en omfattende oversigt til investeringsbeslutninger.
Agents SDK fungerer med Responses API'en og Chat Completions API'en. SDK'et vil også fungere med modeller fra andre leverandører, så længe de tilbyder et endepunkt i stil med Chat Completions-API'en. Udviklere kan med det samme integrere det i deres Python-kodebaser, og understøttelse af Node.js kommer snart. Læs mere i vores dokumenter(åbner i et nyt vindue).
Da vi designede Agents SDK blev vores team inspireret af det fortrinlige arbejde udført af andre i fællesskabet, herunder Pydantic(åbner i et nyt vindue), Griffe(åbner i et nyt vindue) og MkDocs(åbner i et nyt vindue). Vi er forpligtet til at fortsætte med at udvikle Agents SDK som et open source-rammeværk, så andre i fællesskabet kan bygge videre på vores tilgang.
Vi mener, at agenter snart vil blive en integreret del af arbejdskraften, hvilket i væsentlig grad vil forbedre produktiviteten på tværs af brancher. Efterhånden som virksomheder i stigende grad søger at anvende AI til komplekse opgaver, er vi forpligtet til at levere byggeklodserne, der giver udviklere og virksomheder mulighed for på effektiv vis at skabe autonome systemer, som giver reel effekt i praksis.
Med dagens udgivelser introducerer vi de første byggeklodser for at give udviklere og virksomheder mulighed for nemmere at bygge, implementere og skalere pålidelige, højeffektive AI-agenter. Efterhånden som modelfunktioner bliver mere og mere handlende, fortsætter vi med at forske i dybere integrationer på tværs af vores API'er og nye værktøjer som hjælp til at implementere, evaluere og optimere agenter i produktion. Vores mål er at give udviklere en problemfri platformsoplevelse til bygning af agenter, der kan hjælpe med en række forskellige opgaver på tværs af branchen. Vi glæder os til at se, hvad udviklere bygger som det næste. For at komme i gang kan du udforske vores dokumenter(åbner i et nyt vindue) og følge med for flere opdateringer snart.