11. März 2025

Neue Tools für die Entwicklung von Agenten

Wir entwickeln unsere Plattform weiter, damit Entwickler und Unternehmen nützliche und zuverlässige Agenten erstellen können.

In Playground ausprobieren

Eine elegante, minimalistische Benutzeroberfläche zeigt eine Aufgabenliste für einen KI-Agenten, darunter „triage_agent“, „guardrail“ und „update_salesforce_record“, vor einem fließenden, blauen, abstrakten Hintergrund.

Heute veröffentlichen wir die ersten Bausteine, mit denen Entwickler und Unternehmen nützliche und zuverlässige Agenten erstellen können. Wir sehen Agenten als Systeme, die Aufgaben eigenständig im Auftrag der Nutzer erledigen. Im vergangenen Jahr haben wir neue Modellfunktionen eingeführt, darunter Advanced Reasoning, multimodale Interaktionen und neue Sicherheitsverfahren. Diese schaffen die Grundlage dafür, dass unsere Modelle komplexe, mehrstufige Aufgaben zur Entwicklung von Agenten bewältigen können. Kunden berichten jedoch, dass es herausfordernd sein kann, diese Funktionen in produktionsreife Agenten zu überführen. Häufig sind dafür umfangreiche Anpassungen der Eingaben und eine individuelle Orchestrierungslogik nötig, ohne ausreichende Transparenz oder integrierte Unterstützung.

Wir meistern diese Herausforderungen, indem wir eine neue Reihe von APIs und Tools einführen. Diese sind speziell darauf ausgelegt, die Entwicklung agentenbasierter Anwendungen zu vereinfachen:

Die neue Responses API⁠(wird in einem neuen Fenster geöffnet) vereint die Einfachheit der Chat Completions API mit den Tool-Funktionen der Assistants API zum Erstellen von Agenten.
Eingebaute Tools, darunter Websuche⁠(wird in einem neuen Fenster geöffnet), Dateisuche⁠(wird in einem neuen Fenster geöffnet) und Computersteuerung⁠(wird in einem neuen Fenster geöffnet)
Das neue Agents SDK⁠(wird in einem neuen Fenster geöffnet) zur Steuerung von Einzel- und Multi-Agenten-Workflows
Integrierte Observability-Tools⁠(wird in einem neuen Fenster geöffnet) zur Nachverfolgung und Analyse der Ausführung von Agenten-Workflows

Diese neuen Tools vereinfachen die zentrale Agentenlogik, Orchestrierung und Interaktionen und machen es Entwicklern deutlich leichter, mit dem Erstellen von Agenten zu beginnen. In den kommenden Wochen und Monaten planen wir, weitere Tools und Funktionen zu veröffentlichen, um das Entwickeln agentenbasierter Anwendungen auf unserer Plattform noch einfacher und schneller zu machen.

Vorstellung der Responses API

Die Responses API ist unsere neue API-Grundfunktion, mit der du OpenAIs integrierte Tools nutzen kannst, um Agenten zu entwickeln. Sie verbindet die Einfachheit der Chat Completions mit den Tool-Funktionen der Assistants API. Da sich die Modellfunktionen weiterentwickeln, sind wir überzeugt, dass die Responses API Entwicklern eine flexiblere Grundlage für die Erstellung agentenbasierter Anwendungen bietet. Mit einem einzigen Aufruf der Responses API können Entwickler komplexere Aufgaben lösen, indem sie mehrere Tools und Modellaufrufe kombinieren.

Zu Beginn unterstützt die Responses API neue integrierte Tools wie Websuche, Dateisuche und Computersteuerung. Diese Tools sind so konzipiert, dass sie zusammenarbeiten, um die Modelle mit der realen Welt zu verbinden und sie bei der Erledigung von Aufgaben nützlicher zu machen. Sie bringt außerdem mehrere Verbesserungen der Benutzerfreundlichkeit mit sich, darunter ein einheitliches, elementbasiertes Design, einfacheres Polymorphismus-Handling, intuitive Streaming-Events und SDK-Hilfen wie response.output_text, mit denen der Textoutput des Modells einfach abgerufen werden kann.

Die Responses API richtet sich an Entwickler, die OpenAI-Modelle und integrierte Tools einfach in ihre Apps einbinden möchten – ohne die Komplexität, mehrere APIs oder externe Anbieter integrieren zu müssen. Die API erleichtert zudem das Speichern von Daten bei OpenAI, sodass Entwickler die Leistung von Agenten mithilfe von Funktionen wie Nachverfolgung und Bewertungen besser analysieren können. Zur Erinnerung: Standardmäßig trainieren wir unsere Modelle nicht mit Geschäftsdaten, selbst wenn diese bei OpenAI gespeichert sind. Die API steht ab sofort allen Entwicklern zur Verfügung und wird nicht separat berechnet – Tokens und Tools werden zu den auf unserer Preisseite⁠(wird in einem neuen Fenster geöffnet) angegebenen Standardtarifen abgerechnet.. Sieh dir den Responses API Quickstart-Guide⁠(wird in einem neuen Fenster geöffnet) an, um mehr zu erfahren.

Was das für bestehende APIs bedeutet

Chat Completions-API⁠(wird in einem neuen Fenster geöffnet): Chat Completions bleibt unsere am weitesten verbreitete API, und wir sind voll darauf konzentriert, sie mit neuen Modellen und Funktionen weiter zu unterstützen. Entwickler, die keine integrierten Tools benötigen, können Chat Completions weiterhin problemlos verwenden. Wir werden weiterhin neue Modelle für Chat Completions veröffentlichen, solange deren Funktionen nicht von integrierten Tools oder mehreren Modellaufrufen abhängen. Die Responses API ist jedoch ein Superset⁠(wird in einem neuen Fenster geöffnet) von Chat Completions mit ebenso guter Leistung. Daher empfehlen wir für neue Integrationen, mit der Responses API zu beginnen.
Assistants API⁠(wird in einem neuen Fenster geöffnet): Basierend auf dem Feedback von Entwicklern aus der Assistants API-Beta haben wir wichtige Verbesserungen in die Responses API integriert, die sie flexibler, schneller und einfacher in der Nutzung machen. Wir arbeiten daran, eine vollständige Funktionalität zwischen der Assistants API und der Responses API zu erreichen, einschließlich der Unterstützung für Assistant-ähnliche und Thread-ähnliche Objekte sowie das Code Interpreter Tool. Sobald dies abgeschlossen ist, planen wir, die Assistants API offiziell als veraltet zu erklären und deren Einstellung für Mitte 2026 anzukündigen. Bei der Einstellung der Assistants API stellen wir eine klare Migrationsanleitung zur Verfügung, mit der Entwickler alle ihre Daten behalten und ihre Anwendungen auf die Responses API umstellen können. Bis zur offiziellen Ankündigung der Einstellung werden wir weiterhin neue Modelle für die Assistants API bereitstellen. Die Responses API steht für die zukünftige Ausrichtung beim Entwickeln von Agenten auf OpenAI.

Neu: integrierte Tools in der Responses API

Internetsuche

Entwickler können jetzt schnelle, aktuelle Antworten mit klaren und relevanten Quellenangaben aus dem Web erhalten. In der Responses API steht die Websuche als Tool bei der Nutzung von gpt-4o und gpt-4o-mini zur Verfügung und kann mit anderen Tools oder Funktionsaufrufen kombiniert werden.

JavaScript

1const response = await openai.responses.create({
2    model: "gpt-4o",
3    tools: [ { type: "web_search_preview" } ],
4    input: "What was a positive news story that happened today?",
5});
6
7console.log(response.output_text);

Während der frühen Testphase haben wir beobachtet, wie Entwickler die Websuche für verschiedene Anwendungsfälle nutzen, darunter Einkaufsassistenten, Rechercheagenten und Reisebuchungsagenten, also für jede Anwendung, die aktuelle Informationen aus dem Web benötigt.

Zum Beispiel nutzt Hebbia⁠(wird in einem neuen Fenster geöffnet) das Websuche-Tool, um Asset Manager, Private-Equity- und Kreditfirmen sowie Anwaltskanzleien dabei zu unterstützen, schnell umsetzbare Erkenntnisse aus umfangreichen öffentlichen und privaten Datensätzen zu gewinnen. Durch die Integration von Echtzeit-Suchfunktionen in ihre Rechercheprozesse liefert Hebbia umfassendere kontextspezifische Marktinformationen und verbessert kontinuierlich die Genauigkeit und Relevanz ihrer Analysen – mit besseren Ergebnissen als bisherige Benchmarks.

Die Websuche in der API wird vom selben Modell angetrieben, das auch für die ChatGPT‑Suche verwendet wird. Beim SimpleQA-Benchmark, die die Genauigkeit von LLMs bei der Beantwortung kurzer, faktischer Fragen bewertet, erreichen GPT‑4o Search Preview und GPT‑4o Mini Search Preview jeweils 90 % bzw. 88 %.

SimpleQA-Genauigkeit (je höher, desto besser)

Antworten, die mit der Websuche in der API erzeugt werden, enthalten Links zu Quellen wie Nachrichtenartikeln und Blogbeiträgen, sodass Nutzer weiterführende Informationen erhalten. Dank dieser klaren eingebetteten Quellenangaben können Nutzer Informationen auf neue Weise nutzen, während Content-Anbieter neue Chancen erhalten, ein breiteres Publikum zu erreichen.

Jede Website oder jeder Verlag kann sich dafür entscheiden⁠(wird in einem neuen Fenster geöffnet), in der Websuche der API aufzutauchen.

Das Websuche-Tool steht allen Entwicklern in der Responses API als Preview zur Verfügung. Wir geben Entwicklern außerdem direkten Zugriff auf unsere feinabgestimmten Suchmodelle in der Chat Completions API über gpt-4o-search-preview und gpt-4o-mini-search-preview. Die Preise⁠(wird in einem neuen Fenster geöffnet) beginnen jeweils bei 30 USD bzw. 25 USD pro 1.000 Anfragen für GPT‑4o Search bzw. GPT‑4o Mini Search. Teste die Websuche im Playground⁠(wird in einem neuen Fenster geöffnet) und erfahre mehr in unserer Dokumentation⁠(wird in einem neuen Fenster geöffnet).

Dateisuche

Entwickler können jetzt mit dem verbesserten Dateisuche-Tool einfach relevante Informationen aus großen Dokumentenmengen abrufen. Das verbesserte Dateisuche-Tool unterstützt verschiedene Dateitypen, optimiert Suchanfragen, filtert Metadaten und ermöglicht benutzerdefinierte Neuordnungen, um schnelle und präzise Suchergebnisse zu liefern. Und mit der Responses API genügen nur wenige Zeilen Code für die Integration.

JavaScript

1const productDocs = await openai.vectorStores.create({
2    name: "Product Documentation",
3    file_ids: [file1.id, file2.id, file3.id],
4});
5
6const response = await openai.responses.create({
7    model: "gpt-4o-mini",
8    tools: [{
9        type: "file_search",
10        vector_store_ids: [productDocs.id],
11    }],
12    input: "What is deep research by OpenAI?",
13});
14
15console.log(response.output_text);

Das Dateisuche-Tool lässt sich in vielfältigen realen Anwendungsfällen einsetzen, etwa damit ein Kundensupport-Agent problemlos FAQs findet, ein juristischer Assistent schnell frühere Fälle für einen Fachanwalt heranzieht oder ein Programmieragent technische Dokumentationen abfragt. Zum Beispiel nutzt Navan⁠(wird in einem neuen Fenster geöffnet) die Dateisuche in seinem KI-gestützten Reiseassistenten, um Benutzern schnell präzise Antworten aus Wissensdatenbankartikeln (wie der Reisepolitik des Unternehmens) zu liefern. Dank integrierter Abfrageoptimierung und Neuordnung können sie eine leistungsstarke RAG-(retrieval-augmented generation)-Pipeline einrichten, ganz ohne zusätzlichen Aufwand für Feinabstimmung oder Konfiguration. Navan nutzt dedizierte Vektor-Speicher für jede Benutzergruppe, um Antworten individuell an Kontoeinstellungen und Benutzerrollen anzupassen. Dadurch sparen Kunden und Mitarbeiter Zeit und erhalten gleichzeitig einen präzisen, personalisierten Support.

Dieses Tool steht allen Entwicklern in der Responses API zur Verfügung. Die Nutzung kostet⁠(wird in einem neuen Fenster geöffnet) 2,50 USD pro 1.000 Anfragen, die Dateispeicherung 0,10 USD pro GB und Tag, wobei das erste GB kostenlos ist. Das Tool bleibt weiterhin in der Assistants API verfügbar. Abschließend haben wir auch einen neuen Such-Endpunkt für Vector Store API-Objekte hinzugefügt, mit dem du deine Daten direkt für andere Anwendungen und APIs abfragen kannst. Erfahre mehr in unserer Dokumentation⁠(wird in einem neuen Fenster geöffnet) und teste es im Playground⁠(wird in einem neuen Fenster geöffnet).

Computernutzung

Um Agenten zu entwickeln, die Aufgaben am Computer erledigen können, können Entwickler jetzt das Computersteuerungs-Tool in der Responses API nutzen. Es basiert auf demselben Computer-Using Agent (CUA) Modell, das auch Operator ermöglicht. Dieses Research-Preview-Modell stellte einen neuen Spitzenwert auf, indem es 38,1 % Erfolg bei vollständigen Computersteuerungsaufgaben auf OSWorld⁠(wird in einem neuen Fenster geöffnet), 58,1 % auf WebArena⁠(wird in einem neuen Fenster geöffnet) und 87 % auf WebVoyager⁠(wird in einem neuen Fenster geöffnet) bei webbasierten Interaktionen erzielte.

Das integrierte Computersteuerungs-Tool zeichnet vom Modell erzeugte Maus- und Tastaturaktionen auf. So können Entwickler Computeraufgaben automatisieren, indem sie diese Aktionen direkt in ausführbare Befehle für ihre Umgebung übersetzen.

JavaScript

1const response = await openai.responses.create({
2    model: "computer-use-preview",
3    tools: [{
4        type: "computer_use_preview",
5        display_width: 1024,
6        display_height: 768,
7        environment: "browser",
8    }],
9    truncation: "auto",
10    input: "I'm looking for a new camera. Help me find the best one.",
11});
12
13console.log(response.output);

Entwickler können das Computersteuerungs-Tool nutzen, um browserbasierte Abläufe zu automatisieren – etwa für Qualitätssicherung bei Webanwendungen oder Dateneingaben in Altsystemen. Zum Beispiel ist Unify⁠(wird in einem neuen Fenster geöffnet) ein Aktionssystem zur Umsatzsteigerung, das Agenten einsetzt, um Absichten zu erkennen, Konten zu recherchieren und mit Käufern in Kontakt zu treten. Mit OpenAIs Computersteuerungs-Tool können Unifys Agenten auf Informationen zugreifen, die zuvor über APIs nicht erreichbar waren. Zum Beispiel ermöglicht es einer Immobilienverwaltung, über Online-Karten zu überprüfen, ob ein Unternehmen seinen Immobilienbestand erweitert hat. Diese Forschung dient als individuelles Signal, um personalisierte Ansprache auszulösen – so können Go-to-Market-Teams Käufer gezielt und effizient erreichen.

Ein weiteres Beispiel: Luminai⁠(wird in einem neuen Fenster geöffnet) hat das Computersteuerungs-Tool integriert, um komplexe operative Abläufe für große Unternehmen mit Altsystemen zu automatisieren, die über keine API-Anbindung oder standardisierte Daten verfügen. In einem aktuellen Pilotprojekt mit einer großen gemeinnützigen Organisation automatisierte Luminai die Antragsbearbeitung und Nutzerregistrierung in nur wenigen Tagen. Traditionelle Robotic Process Automation (RPA) benötigte dafür monatelange Arbeit und erzielte dennoch kaum vergleichbare Ergebnisse.

Bevor wir das CUA-Modell im Operator im vergangenen Jahr eingeführt haben, führten wir umfangreiche Sicherheitstests und Red-Teaming durch und konzentrierten uns dabei auf drei wesentliche Risikobereiche: Missbrauch, Modellfehler und Grenzrisiken. Wir haben zusätzliche Sicherheitsbewertungen und Red-Teaming durchgeführt, um Risiken zu minimieren, die mit der Erweiterung der Operator-Funktionen auf lokale Betriebssysteme über das CUA in der API verbunden sind. Außerdem haben wir Maßnahmen für Entwickler eingeführt, darunter Sicherheitsprüfungen zum Schutz vor Prompt-Injections, Bestätigungsabfragen bei sensiblen Aufgaben, Tools zur Isolierung ihrer Umgebungen sowie verbesserte Erkennung möglicher Policy-Verstöße. Obwohl diese Maßnahmen das Risiko verringern, ist das Modell insbesondere in Nicht-Browser-Umgebungen weiterhin anfällig für unbeabsichtigte Fehler. Beispielsweise erreicht CUA auf OSWorld eine Leistung von 38,1 %. OSWorld ist eine Benchmark, die die Leistungsfähigkeit von KI-Agenten bei realen Aufgaben misst. Das zeigt, dass das Modell für die Automatisierung von Aufgaben auf Betriebssystemen noch nicht sehr zuverlässig ist. In solchen Fällen empfehlen wir eine menschliche Aufsicht. Weitere Informationen zu unserer API-spezifischen Sicherheitsarbeit findest du in unserer aktualisierten Systemkarte.

Benchmark-Typ	Benchmark	Computernutzung (universelle Schnittstelle)		Agenten zum Surfen im Web	Human
		OpenAI CUA	Vorherige SOTA	Vorherige SOTA
Computer nutzen	OSWorld	38,1 %	22,0 %	-	72,4 %
Browser-Nutzung	WebArena	58,1 %	36,2 %	57,1 %	78,2 %
Browser-Nutzung	WebVoyager	87,0 %	56,0 %	87,0 %	-

Details zur Beurteilung findest du hier

Ab sofort steht das Computersteuerungs-Tool als Research-Preview in der Responses API für ausgewählte Entwickler in den Nutzungskategorien 3–5⁠(wird in einem neuen Fenster geöffnet) zur Verfügung. Die Nutzung kostet⁠(wird in einem neuen Fenster geöffnet) 3 USD pro 1 Million Eingabetokens und 12 USD pro 1 Million Ausgabetokens. Erfahre mehr in unserer Dokumentation⁠(wird in einem neuen Fenster geöffnet) und sieh dir die Beispielanwendung⁠(wird in einem neuen Fenster geöffnet)an, die zeigt, wie du mit diesem Tool arbeiten kannst.

Agents SDK

Neben der Entwicklung der Kernlogik von Agenten und der Bereitstellung von Tools, damit diese nützlich sind, müssen Entwickler auch agentenbasierte Workflows orchestrieren. Unser neues Open-Source Agents SDK vereinfacht die Orchestrierung von Multi-Agenten-Workflows und bietet deutliche Verbesserungen gegenüber Swarm⁠(wird in einem neuen Fenster geöffnet), das wir im vergangenen Jahr veröffentlicht haben. Die Entwicklercommunity nutzte es weit verbreitet, und mehrere Kunden setzten es erfolgreich ein.

Die Verbesserungen umfassen:

Agenten: Einfach konfigurierbare LLMs mit klaren Anweisungen und integrierten Tools.
Handoffs: Intelligente Steuerübergabe zwischen Agenten.
Guardrails: Konfigurierbare Sicherheitsprüfungen zur Validierung von Ein- und Ausgaben.
Tracing und Observability: Visualisiere Ausführungsprotokolle von Agenten, um Leistung zu debuggen und zu optimieren.

Python

1from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2
3@function_tool
4def submit_refund_request(item_id: str, reason: str):
5    # Your refund logic goes here
6    return "success"
7
8support_agent = Agent(
9    name="Support & Returns",
10    instructions="You are a support agent who can submit refunds [...]",
11    tools=[submit_refund_request],
12)
13
14shopping_agent = Agent(
15    name="Shopping Assistant",
16    instructions="You are a shopping assistant who can search the web [...]",
17    tools=[WebSearchTool()],
18)
19
20triage_agent = Agent(
21    name="Triage Agent",
22    instructions="Route the user to the correct agent.",
23    handoffs=[shopping_agent, support_agent],
24)
25
26output = Runner.run_sync(
27    starting_agent=triage_agent,
28    input="What shoes might work best with my outfit so far?",
29)

Das Agents SDK eignet sich für verschiedene reale Anwendungsfälle, darunter Automatisierung im Kundensupport, mehrstufige Recherche, Content-Erstellung, Code-Überprüfung und Vertriebsakquise. Zum Beispiel nutzte Coinbase⁠(wird in einem neuen Fenster geöffnet) das Agents SDK, um AgentKit schnell zu prototypisieren und bereitzustellen – ein Toolkit, das KI-Agenten eine nahtlose Interaktion mit Krypto-Wallets und verschiedenen On-Chain-Aktivitäten ermöglicht. Innerhalb weniger Stunden integrierte Coinbase individuelle Aktionen aus ihrem Developer Platform SDK in einen voll funktionsfähigen Agenten. Die schlanke Architektur von AgentKit vereinfachte das Hinzufügen neuer Agentenaktionen, sodass Entwickler sich stärker auf sinnvolle Integrationen konzentrieren können und weniger auf die komplexe Agenten-Konfiguration.

Innerhalb weniger Tage konnte Box⁠(wird in einem neuen Fenster geöffnet) Agenten erstellen, die Websuche und das Agents SDK nutzen, um Unternehmen das Suchen, Abfragen und Gewinnen von Erkenntnissen aus unstrukturierten Daten in Box sowie aus öffentlichen Internetquellen zu ermöglichen. Dieser Ansatz ermöglicht es Kunden, nicht nur auf aktuelle Informationen zuzugreifen, sondern auch ihre internen, proprietären Daten sicher und geschützt zu durchsuchen – stets unter Einhaltung ihrer internen Berechtigungen und Sicherheitsrichtlinien. Zum Beispiel kann ein Finanzdienstleister einen maßgeschneiderten Agenten entwickeln, der den Box AI-Agenten nutzt, um interne Marktanalysen aus Box mit aktuellen Nachrichten und Wirtschaftsdaten aus dem Web zu verknüpfen und so Analysten eine umfassende Grundlage für Investitionsentscheidungen zu bieten.

Das Agents SDK funktioniert mit der Responses API und der Chat Completions API. Das SDK funktioniert auch mit Modellen anderer Anbieter, sofern diese einen API-Endpunkt im Stil von Chat Completions bereitstellen. Entwickler können sie sofort in ihre Python-Codebasen integrieren; die Unterstützung für Node.js folgt in Kürze. Erfahre mehr in unserer Dokumentation⁠(wird in einem neuen Fenster geöffnet).

Bei der Entwicklung des Agents SDK ließ sich unser Team von der hervorragenden Arbeit anderer Community-Mitglieder inspirieren, darunter Pydantic⁠(wird in einem neuen Fenster geöffnet), Griffe⁠(wird in einem neuen Fenster geöffnet) und MkDocs⁠(wird in einem neuen Fenster geöffnet). Wir verpflichten uns, das Agents SDK weiterhin als Open-Source-Framework zu entwickeln, damit andere in der Community auf unserem Ansatz aufbauen können.

Was als Nächstes kommt: Aufbau der Plattform für Agenten

Wir sind überzeugt, dass Agenten bald ein fester Bestandteil der Arbeitswelt werden und die Produktivität in vielen Branchen deutlich steigern werden. Da Unternehmen immer stärker auf KI für komplexe Aufgaben setzen, verpflichten wir uns, die Bausteine bereitzustellen, mit denen Entwickler und Unternehmen autonome Systeme mit echtem Mehrwert erstellen können.

Mit den heutigen Veröffentlichungen stellen wir die ersten Bausteine vor. Damit können Entwickler und Unternehmen zuverlässige, leistungsstarke KI-Agenten einfacher bereitstellen und skalieren. Da die Fähigkeiten der Modelle zunehmend agentenbasiert werden, investieren wir weiter in tiefere Integrationen unserer APIs und in neue Tools, die bei der Bereitstellung, Bewertung und Optimierung von Agenten im Produktiveinsatz unterstützen. Wir wollen Entwicklern eine nahtlose Plattform bieten, mit der sie Agenten erstellen können, die in verschiedensten Branchen bei vielfältigen Aufgaben unterstützen. Wir sind gespannt, was Entwickler als Nächstes erschaffen. Um loszulegen, schau dir unsere Dokumentation⁠(wird in einem neuen Fenster geöffnet) an und bleib gespannt auf weitere Updates in Kürze.

Autoren

OpenAI