Nieuwe tools voor het bouwen van agents
We ontwikkelen ons platform om ontwikkelaars en ondernemingen te helpen nuttige en betrouwbare agents te bouwen.

Vandaag brengen we de eerste set bouwstenen uit die ontwikkelaars en bedrijven zullen helpen om nuttige en betrouwbare agents te bouwen. We zien agenten als systemen die zelfstandig taken uitvoeren namens gebruikers. In het afgelopen jaar hebben we nieuwe modelmogelijkheden geïntroduceerd, zoals geavanceerd redeneren, multimodale interacties en nieuwe veiligheidstechnieken, die de basis hebben gelegd voor onze modellen om de complexe, uit meerdere stappen bestaande taken aan te kunnen die nodig zijn om agents te bouwen. Klanten hebben echter gedeeld dat het omzetten van deze mogelijkheden in gebruiksklare agents een uitdaging kan zijn, waarbij vaak uitgebreide promptherhaling en aangepaste orkestratielogica nodig zijn zonder voldoende zichtbaarheid of ingebouwde ondersteuning.
Om deze uitdagingen aan te pakken, lanceren we een nieuwe set API's en tools die speciaal ontworpen zijn om de ontwikkeling van zelfstandige toepassingen te vereenvoudigen:
- De nieuwe Responses API(opent in een nieuw venster) combineert de eenvoud van de Chat Completions API met de mogelijkheden van de Assistants API voor het bouwen van agents.
- Ingebouwde tools zoals zoeken op internet(opent in een nieuw venster), zoeken in bestanden(opent in een nieuw venster), en computergebruik(opent in een nieuw venster)
- De nieuwe Agents SDK(opent in een nieuw venster) om single-agent en multi-agent workflows te orkestreren
- Geïntegreerde observatietools(opent in een nieuw venster) om de uitvoering van de agent-workflow te traceren en te inspecteren
Deze nieuwe tools stroomlijnen de belangrijkste agentlogica, orkestratie en interacties, waardoor het voor ontwikkelaars aanzienlijk eenvoudiger wordt om aan de slag te gaan met het bouwen van agents. In de komende weken en maanden zijn we van plan om extra tools en mogelijkheden uit te brengen om het bouwen van zelfstandige toepassingen op ons platform verder te vereenvoudigen en te versnellen.
De Responses API is onze nieuwe API-primitieve voor het gebruik van OpenAI's ingebouwde tools om agents te bouwen. Het combineert de eenvoud van Chat Completions met de gebruiksmogelijkheden van de Assistants API. Naarmate de modelmogelijkheden zich blijven ontwikkelen, denken we dat de Responses API een flexibelere basis zal bieden voor ontwikkelaars die zelfstandige toepassingen bouwen. Met een enkele Responses API-aanroep kunnen ontwikkelaars steeds complexere taken oplossen met behulp van meerdere tools en modelwendingen.
Om te beginnen zal de Responses API nieuwe ingebouwde tools ondersteunen, zoals zoeken op het internet, zoeken naar bestanden en computergebruik. Deze tools zijn ontworpen om samen te werken om modellen te verbinden met de echte wereld, waardoor ze nuttiger worden bij het voltooien van taken. Het brengt ook verschillende gebruiksverbeteringen met zich mee, waaronder een uniform itemgebaseerd ontwerp, eenvoudiger polymorfisme, intuïtieve streaming-events en SDK-hulpmiddelen zoals response.output_text om eenvoudig toegang te krijgen tot de tekstuitvoer van het model.
De Responses API is ontworpen voor ontwikkelaars die OpenAI-modellen en ingebouwde tools eenvoudig willen combineren in hun apps, zonder de complexiteit van het integreren van meerdere API's of externe leveranciers. De API maakt het ook makkelijker om gegevens op te slaan op OpenAI, zodat ontwikkelaars de prestaties van agenten kunnen evalueren met functies zoals tracing en evaluaties. Ter herinnering: we trainen onze modellen niet op ondernemingsgegevens, zelfs niet als de gegevens zijn opgeslagen op OpenAI. De API is vanaf vandaag beschikbaar voor alle ontwikkelaars en wordt niet apart in rekening gebracht - tokens en tools worden gefactureerd tegen de standaardtarieven die op onze prijzenpagina(opent in een nieuw venster)worden vermeld. Bekijk de Response API snelstartgids(opent in een nieuw venster) voor meer informatie.
- Chat Completions API(opent in een nieuw venster): Chat Completions blijft onze meest gebruikte API en we zetten ons volledig in om deze te ondersteunen met nieuwe modellen en mogelijkheden. Ontwikkelaars die geen ingebouwde tools nodig hebben, kunnen met een gerust hart Chat Completions blijven gebruiken. We blijven nieuwe modellen uitbrengen voor Chat Completions zodra hun mogelijkheden niet afhankelijk zijn van ingebouwde tools of meerdere modelaanroepen. De Responses API is echter een superset(opent in een nieuw venster) van Chat Completions met dezelfde geweldige prestaties, dus voor nieuwe integraties raden we aan te beginnen met de Responses API.
- Assistants API(opent in een nieuw venster): Op basis van de feedback van ontwikkelaars uit de Assistants API-bèta hebben we belangrijke verbeteringen aangebracht in de Response API, waardoor deze flexibeler, sneller en gebruiksvriendelijker is geworden. We werken eraan om volledige functionele gelijkwaardigheid te bereiken tussen de Assistants API en de Responses API, inclusief ondersteuning voor Assistant-achtige en Thread-achtige objecten, en de Code Interpreter-tool. Zodra dit is voltooid, zijn we van plan om de uitfasering van de Assistants API officieel aan te kondigen, met als beoogde einddatum medio 2026. Na de afschaffing bieden we een duidelijke migratiegids van de Assistants API naar de Responses API, zodat ontwikkelaars al hun gegevens kunnen behouden en hun applicaties kunnen migreren. Totdat we de afschaffing formeel aankondigen, blijven we nieuwe modellen leveren aan de Assistants API. De Response API vertegenwoordigt de toekomstige richting voor het bouwen van agents op OpenAI.
Ontwikkelaars kunnen nu snelle, actuele antwoorden krijgen met duidelijke en relevante citaten van het internet. In de Responses API is zoeken op internet beschikbaar als tool bij het gebruik van gpt-4o en gpt-4o-mini en kan het worden gekoppeld aan andere tools of functieaanroepen.
Tijdens de eerste testen zagen we dat ontwikkelaars zoeken op internet gebruikten voor uiteenlopende toepassingen, zoals shopping-agents, onderzoeksagents en reisboekingsagents — kortom, elke toepassing die actuele webinformatie vereist.
Zo maakt Hebbia(opent in een nieuw venster) bijvoorbeeld gebruik van de webzoektool om vermogensbeheerders, private-equity- en kredietfirma's en advocatenkantoren te helpen snel bruikbare inzichten te halen uit uitgebreide publieke en particuliere gegevenssets. Door realtime zoekmogelijkheden te integreren in hun onderzoeksworkflows, levert Hebbia rijkere, contextspecifieke marktinformatie en verbeteren ze voortdurend de precisie en relevantie van hun analyses, waardoor ze beter presteren dan de huidige benchmarks.
Zoeken op het web in de API wordt aangedreven door hetzelfde model dat wordt gebruikt voor ChatGPT.Zoeken. Op SimpleQA, een benchmark die de nauwkeurigheid van LLM's beoordeelt bij het beantwoorden van korte, feitelijke vragen, scoren GPT‑4o zoekvoorbeeld en GPT‑4o mini zoekvoorbeeld respectievelijk 90% en 88%.
SimpleQA-nauwkeurigheid (hoger is beter)
Antwoorden die worden gegenereerd met zoeken op het web in de API bevatten links naar bronnen, zoals nieuwsartikelen en blogberichten, zodat gebruikers meer te weten kunnen komen. Met deze duidelijke, inline citaties kunnen gebruikers op een nieuwe manier met informatie omgaan, terwijl eigenaren van content nieuwe mogelijkheden krijgen om een breder publiek te bereiken.
Elke website of uitgever kan ervoor kiezen om te worden weergegeven(opent in een nieuw venster) in de API bij het zoeken op internet.
De webzoektool is beschikbaar voor alle ontwikkelaars als voorbeeld in de Responses API. We geven ontwikkelaars ook directe toegang tot onze verfijnde zoekmodellen in de Chat Completions API via gpt-4o zoekvoorbeeld en gpt-4o-mini-zoekvoorbeeld. Prijzen(opent in een nieuw venster) beginnen bij respectievelijk 30 dollar en 25 dollar per duizend zoekopdrachten voor GPT‑4o‑zoekopdrachten en 4o-mini-zoekopdrachten. Probeer zoeken op internet in Playground(opent in een nieuw venster) en vind meer info in onze documentatie(opent in een nieuw venster).
Ontwikkelaars kunnen nu eenvoudig relevante informatie uit grote hoeveelheden documenten halen met behulp van de verbeterde zoekfunctie voor bestanden. Met ondersteuning voor meerdere bestandstypen, zoekoptimalisatie, filteren van metagegevens en aangepaste herrangschikking kan het snelle, accurate zoekresultaten leveren. En nogmaals, met de Responses API kost het maar een paar regels code om te integreren.
De zoekfunctie voor bestanden kan worden gebruikt voor een groot aantal praktische toepassingen, zoals een medewerker van de klantenservice in staat stellen om eenvoudig FAQ's te raadplegen, een juridisch medewerker helpen om snel te zoeken naar zaken uit het verleden voor een gekwalificeerde professional en een programmeeragent helpen om technische documentatie op te vragen. Navan(opent in een nieuw venster) gebruikt bijvoorbeeld zoeken in bestanden in haar AI-reisagent om haar gebruikers snel te voorzien van precieze antwoorden uit kennisbankartikelen (zoals het reisbeleid van hun onderneming). Met ingebouwde zoekoptimalisatie en herrangschikking kunnen ze een krachtige RAG-pijplijn (retrieval-augmented generation) opzetten zonder extra afstemming of configuratie. Met speciale vectoropslag voor elke gebruikersgroep is Navan in staat antwoorden af te stemmen op individuele accountinstellingen en gebruikersrollen, waardoor klanten en hun personeel tijd besparen en nauwkeurige, persoonlijke ondersteuning kunnen bieden.
Deze tool is beschikbaar in de Responses API voor alle ontwikkelaars. De prijzen(opent in een nieuw venster) van het gebruik zijn 2,50 dollar per duizend zoekopdrachten en bestandsopslag kost 0,10 dollar/GB/dag, waarbij de eerste GB gratis is. De tool blijft beschikbaar in de Assistants API. Tot slot hebben we ook een nieuw zoeken-endpoint toegevoegd aan Vector Store API-objecten om direct je gegevens op te vragen voor gebruik in andere toepassingen en API's. Meer info in onze documentatie(opent in een nieuw venster) en begin alvast met testen in de Playground(opent in een nieuw venster).
Om agents te bouwen die taken op een computer kunnen uitvoeren, kunnen ontwikkelaars nu de tool voor computergebruik gebruiken in de Response API, die wordt aangedreven door hetzelfde Computer-Using Agent (CUA)-model dat Operatorinschakelt. Dit voorbeeldmodel voor onderzoek vestigde een nieuw record met 38,1% succes op OSWorld(opent in een nieuw venster) voor volledige computergebruikstaken, 58,1% op WebArena(opent in een nieuw venster) en 87% op WebVoyager(opent in een nieuw venster) voor webgebaseerde interacties.
De ingebouwde tool voor computergebruik legt muis- en toetsenbordhandelingen vast die door het model worden gegenereerd, waardoor ontwikkelaars computergebruikstaken kunnen automatiseren door deze handelingen direct te vertalen naar uitvoerbare commando's binnen hun omgevingen.
Ontwikkelaars kunnen de computertool gebruiken om browsergebaseerde workflows te automatiseren, zoals het uitvoeren van kwaliteitscontrole op internettoepassingen of het uitvoeren van gegevensinvoer taken in legacy-systemen. Unify(opent in een nieuw venster) is bijvoorbeeld een handelingssysteem voor het verhogen van inkomsten dat agents gebruikt om intentie te identificeren, accounts te onderzoeken en contact te leggen met afnemers. Met behulp van de tool voor computergebruik van OpenAI krijgen de agents van Unify toegang tot informatie die voorheen niet beschikbaar was via API's. Zo kan een vastgoedbeheerder via online kaarten controleren of een onderneming zijn vastgoedportefeuille heeft uitgebreid. Dit onderzoek is een soort signaal om gepersonaliseerde acquisitie te starten, waardoor je teams die zich met de marktintroductie bezighouden, afnemers op een precieze en grootschalige manier kunnen benaderen.
Een ander voorbeeld is Luminai(opent in een nieuw venster) dat de tool voor computergebruik heeft geïntegreerd om complexe operationele workflows te automatiseren voor grote ondernemingen met verouderde systemen die niet beschikken over API's en gestandaardiseerde gegevens. In een recente pilot met een grote organisatie voor maatschappelijke dienstverlening heeft Luminai de aanvraagprocedure en de registratie van gebruikers in slechts enkele dagen geautomatiseerd - iets waar traditionele robotische procesautomatisering (RPA) na maanden van inspanningen nog niet in slaagde.
Voordat we CUA vorig jaar in Operator lanceerden, hebben we uitgebreide veiligheidstests en red teaming uitgevoerd, waarbij we drie belangrijke risicogebieden hebben aangepakt: misbruik, modelfouten en grensrisico's. Om de risico's aan te pakken die gepaard gaan met de uitbreiding van de mogelijkheden van Operator naar lokale besturingssystemen via CUA in de API, hebben we aanvullende veiligheidsevaluaties en red teaming uitgevoerd. We hebben ook beperkingen toegevoegd voor ontwikkelaars, zoals veiligheidscontroles om promptinjecties te voorkomen, bevestigingsprompts voor gevoelige taken, tools om ontwikkelaars te helpen hun structuren te isoleren en verbeterde detectie van mogelijke beleidsschendingen. Hoewel deze risicobeperkende maatregelen helpen om het risico te verminderen, is het model nog steeds gevoelig voor onbedoelde fouten, vooral in niet-browseromgevingen. Zo scoort CUA op OSWorld, een benchmark die is ontworpen om de prestaties van AI-agents bij echte taken te meten, momenteel 38,1%. Dit is een indicatie dat het model nog niet super betrouwbaar is voor het automatiseren van taken op besturingssystemen. In deze scenario's wordt menselijk toezicht aanbevolen. Meer details over onze API-specifieke veiligheidswerkzaamheden zijn te vinden in onze bijgewerkte systeemkaart.
| Benchmarktype | Benchmark | Computergebruik (universele interface) | Webbrowser-assistenten | Mens | |
|---|---|---|---|---|---|
| OpenAI CUA | Vorige SOTA | Vorige SOTA | |||
| Computergebruik | OSWorld | 38,1% | 22,0% | - | 72,4% |
| Browsergebruik | WebArena | 58,1% | 36,2% | 57,1% | 78,2% |
| WebVoyager | 87,0% | 56,0% | 87,0% | - | |
Vanaf vandaag is de tool voor computergebruik beschikbaar als onderzoeksvoorbeeld in de Responses API voor geselecteerde ontwikkelaars in de gebruiksniveaus 3-5.(opent in een nieuw venster). De prijzen(opent in een nieuw venster) zijn 3 dollar per 1 miljoen invoertokens en 12 dollar per 1 miljoen uitvoertokens. Lees meer in onze documentatie(opent in een nieuw venster) en bekijk de voorbeeldtoepassing(opent in een nieuw venster) die laat zien hoe je met deze tool bouwt.
Bovendien moeten ontwikkelaars niet alleen de kernlogica van agents bouwen en ze toegang geven tot tools zodat ze praktisch blijven, maar ook de workflows van de agents regelen. Onze nieuwe open-source Agents SDK maakt het makkelijker om multi-agent workflows te regelen en biedt een heleboel verbeteringen ten opzichte van Swarm(opent in een nieuw venster), een experimentele SDK die we vorig jaar hebben uitgebracht en die door veel ontwikkelaars is gebruikt en door verschillende klanten is ingezet.
Verbeteringen zijn onder andere:
- Agents: Eenvoudig configureerbare LLM's met heldere instructies en ingebouwde tools.
- Overdrachten: Intelligente besturingsoverdracht tussen agents.
- Vangrails: Configureerbare veiligheidscontroles voor invoer- en uitvoervalidatie.
- Traceerbaarheid en zichtbaarheid: Bekijk de uitvoering van agents om fouten op te sporen en de prestaties te verbeteren.
De Agents SDK is geschikt voor verschillende toepassingen in de praktijk, waaronder automatisering van klantenondersteuning, onderzoek in meerdere stappen, het genereren van inhoud, het beoordelen van code en voorspellingen over sales. Coinbase(opent in een nieuw venster) gebruikte bijvoorbeeld de Agents SDK om snel een prototype te maken van AgentKit, een toolkit waarmee AI-agents naadloos kunnen samenwerken met cryptowallets en verschillende activiteiten in de keten. In slechts een paar uur tijd integreerde Coinbase aangepaste acties van hun Developer Platform SDK in een volledig functionele agent. De gestroomlijnde architectuur van AgentKit heeft het proces van het toevoegen van nieuwe agent-handelingen vereenvoudigd, waardoor ontwikkelaars zich meer kunnen richten op zinvolle integraties en minder op het navigeren door complexe agent-instellingen.
Binnen een paar dagen kon Box(opent in een nieuw venster) snel agents creëren die gebruikmaken van zoeken op internet en de Agents SDK, zodat bedrijven kunnen zoeken, vragen stellen en inzichten halen uit ongestructureerde gegevens die zijn opgeslagen in Box en uit openbare internetbronnen. Dankzij deze aanpak hebben klanten niet alleen toegang tot de meest recente informatie, maar kunnen ze ook hun interne, ondernemingseigen gegevens doorzoeken op een veilige manier die voldoet aan hun interne machtigingen en beveiligingsbeleid. Een financiële dienstverlener kan bijvoorbeeld een aangepaste agent bouwen die een beroep doet op de Box AI-agent om hun interne marktanalyse die is opgeslagen in Box te integreren met realtime nieuws en economische gegevens van het internet, zodat hun analisten een uitgebreid beeld krijgen voor investeringsbeslissingen.
De Agents SDK werkt met de Response API en de Chat Completions API. De SDK werkt ook met modellen van andere aanbieders, zolang ze een API-endpoint in de stijl van Chat Completions bieden. Ontwikkelaars kunnen het direct integreren in hun Python-codebases, met binnenkort ondersteuning voor Node.js. Meer info in onze documentatie(opent in een nieuw venster).
Bij het ontwerpen van de Agents SDK werd ons team geïnspireerd door het uitstekende werk van anderen in de gemeenschap, waaronder Pydantic(opent in een nieuw venster), Griffe(opent in een nieuw venster) en MkDocs(opent in een nieuw venster). We zijn vastbesloten om de Agents SDK als open source-framework te blijven ontwikkelen, zodat anderen in de community onze benadering kunnen uitbreiden.
We denken dat agents snel een integraal onderdeel van het personeelsbestand zullen worden, waardoor de productiviteit in verschillende sectoren aanzienlijk zal toenemen. Nu ondernemingen steeds vaker AI willen gebruiken voor complexe taken, zetten we ons in om de bouwstenen te leveren die ontwikkelaars en ondernemingen in staat stellen om op een effectieve manier autonome systemen te creëren, die een echte impact in de praktijk hebben.
Met de releases van vandaag introduceren we de eerste bouwstenen waarmee ontwikkelaars en ondernemingen eenvoudiger betrouwbare, hoogwaardige AI-agents kunnen bouwen, implementeren en opschalen. Naarmate de mogelijkheden van modellen steeds meer op die van agents gaan lijken, zullen we blijven investeren in diepere integraties tussen onze API's en nieuwe tools om agents in productie te helpen implementeren, controleren en optimaliseren. Ons doel is om ontwikkelaars een soepele platformervaring te bieden voor het bouwen van agents die kunnen helpen bij allerlei taken in elke branche. We zijn benieuwd naar de volgende stap van ontwikkelaars. Bekijk onze documentatie(opent in een nieuw venster) om aan de slag te gaan en blijf op de hoogte voor meer updates binnenkort.