Heute starten wir AgentKit, ein vollständiges Set an Tools für Entwickler und Unternehmen, um Agents zu entwickeln, bereitzustellen und zu optimieren. Bis jetzt bedeutete das Erstellen von Agents, mit fragmentierten Tools zu jonglieren, komplexe Orchestrierung ohne Versionierung, eigene Konnektoren, manuelle Eval-Pipelines, Prompt-Feinabstimmung und wochenlange Frontend-Arbeit vor dem Start. Mit AgentKit können Entwickler Workflows jetzt visuell gestalten und agentische Benutzeroberflächen schneller einbetten – mithilfe neuer Bausteine wie:
- Agent Builder: eine visuelle Arbeitsfläche zum Erstellen und Versionieren von Multi-Agent-Workflows
- Connector Registry: eine zentrale Plattform für Admins, um zu steuern, wie Daten und Tools in OpenAI-Produkten verbunden werden.
- ChatKit: ein Toolkit zum Einbetten anpassbarer, chatbasierter Agent-Erlebnisse in dein Produkt
Wir erweitern außerdem die Evals-Funktionen mit neuen Features wie Datasets, Trace-Grading, automatisierter Prompt-Optimierung und Unterstützung für Drittanbieter-Modelle, um die Agent-Leistung zu messen und zu verbessern.
Seit der Einführung der Responses API und des Agents SDK im März haben wir beobachtet, wie Entwickler und Unternehmen End-to-End-Agenten-Workflows für Deep Research, Kundensupport und vieles mehr aufbauen. Klarna hat einen Support-Agent entwickelt, der zwei Drittel aller Tickets bearbeitet, und Clay verzeichnete mit einem Sales-Agent das Zehnfache an Wachstum. AgentKit baut auf der Responses API auf, um Entwicklern zu helfen, Agents effizienter und zuverlässiger zu erstellen.
Da Agent-Workflows zunehmend komplexer werden, brauchen Entwickler mehr Transparenz darüber, wie sie funktionieren. Agent Builder(wird in einem neuen Fenster geöffnet) bietet eine visuelle Arbeitsfläche zum Erstellen von Logik mit Drag-and-Drop-Knoten, zum Verbinden von Tools und zum Einrichten individueller Guardrails. Er unterstützt Preview-Runs, Inline-Eval-Konfiguration und vollständige Versionierung – ideal für schnelle Iterationen.

Builder können entweder mit einer leeren Canvas oder mit vorgefertigten Templates starten.
Bei Ramp entwickelte das Team aus einer leeren Arbeitsfläche in nur wenigen Stunden einen Beschaffungs-Agent.
Agent Builder verwandelte Prozesse, die früher Monate komplexer Orchestrierung, individuellen Code und manueller Optimierung erforderten, in nur wenigen Stunden. Die visuelle Canvas bringt Produkt-, Rechts- und Engineering-Teams auf eine gemeinsame Basis, verkürzt Iterationszyklen um 70 % und ermöglicht es, einen Agent in zwei Sprints statt zwei Quartalen live zu bringen.
Ebenso hat die LY Corporation – ein führendes japanisches Technologie- und Internetunternehmen – mit dem Agent Builder in weniger als zwei Stunden einen Arbeitsassistenten-Agent erstellt.
„Agent Builder hat es uns ermöglicht, Agents auf völlig neue Weise zu orchestrieren – mit Engineers und Fachexperten, die alle in einer Oberfläche zusammenarbeiten. Wir haben unseren ersten Multi-Agent-Workflow erstellt und in weniger als zwei Stunden ausgeführt und damit die Zeit für Entwicklung und Bereitstellung von Agents deutlich verkürzt.“
Wir starten außerdem eine Connector Registry für Unternehmen, um Daten über mehrere Workspaces und Organisationen hinweg zu verwalten und zu steuern. Die Connector Registry(wird in einem neuen Fenster geöffnet) fasst Datenquellen in einem zentralen Admin-Panel zusammen – über ChatGPT und die API hinweg. Das Verzeichnis umfasst alle vorgefertigten Konnektoren wie Dropbox, Google Drive, SharePoint und Microsoft Teams sowie MCPs von Drittanbietern.
Entwickler können im Agent Builder auch Guardrails(wird in einem neuen Fenster geöffnet) aktivieren – eine Open-Source-, modulare Sicherheitsebene, die Agents vor unbeabsichtigtem oder bösartigem Verhalten schützt. Guardrails können personenbezogene Daten maskieren oder kennzeichnen, Jailbreaks erkennen und weitere Sicherheitsmaßnahmen anwenden. So lassen sich zuverlässige, sichere Agents einfacher entwickeln und bereitstellen. Guardrails können eigenständig oder über die Guardrails-Bibliothek für Python(wird in einem neuen Fenster geöffnet) und JavaScript(wird in einem neuen Fenster geöffnet) bereitgestellt werden.
Das Bereitstellen von Chat-UIs für Agents kann überraschend komplex sein – etwa beim Verarbeiten von Streaming-Antworten, Verwalten von Threads, Anzeigen des Modell-Denkprozesses und Gestalten ansprechender Chat-Erlebnisse. ChatKit macht es einfach, chatbasierte Agents einzubetten, die sich in deinem Produkt natürlich anfühlen. Es kann in Apps oder Websites eingebettet und an dein Design oder Branding angepasst werden.
Wir haben über zwei Wochen Entwicklungszeit gespart, als wir mit ChatKit einen Support-Agent für die Canva Developers Community aufgebaut und in weniger als einer Stunde integriert haben.“ Dieser Support-Agent wird die Art und Weise verändern, wie Entwickler mit unserer Dokumentation interagieren, indem er sie in ein konversationelles Erlebnis verwandelt und es einfach macht, Apps und Integrationen auf Canva zu erstellen.“
ChatKit treibt bereits eine Vielzahl von Anwendungsfällen an – von internen Wissensassistenten und Onboarding-Guides bis hin zu Kundensupport- und Research-Agents. Ein Beispiel ist der Kundensupport-Agent von HubSpot(wird in einem neuen Fenster geöffnet):

Der Aufbau zuverlässiger, produktionsreifer Agents erfordert gründliche Performance-Evaluierungen. Letztes Jahr haben wir Evals(wird in einem neuen Fenster geöffnet) eingeführt, um Entwicklern zu helfen, Prompts zu testen und das Verhalten von Modellen zu messen. Jetzt fügen wir vier neue Funktionen hinzu, die das Erstellen von Evals noch einfacher machen:
- Datasets erstellen Agent-Evals schnell von Grund auf und erweitern sie im Laufe der Zeit mit automatisierten Bewertungen und menschlichen Annotationen.
- Trace Grading führt End-to-End-Bewertungen agentischer Workflows durch und automatisiert die Bewertung, um Schwachstellen gezielt zu erkennen.
- Automated Prompt Optimization generiert verbesserte Prompts auf Basis menschlicher Annotationen und Bewertungs-Outputs.
- Third-party Model Support ermöglicht die Bewertung von Modellen anderer Anbieter innerhalb der OpenAI-Evals-Plattform.
Wir haben bereits erhebliche Performance-Steigerungen bei Kunden beobachtet, die Evals nutzen.
„Die Evaluierungsplattform hat die Entwicklungszeit in unserem Multi-Agent-Due-Diligence-Framework um über 50 % verkürzt und die Agent-Genauigkeit um 30 % erhöht.“

Reinforcement Fine-Tuning(wird in einem neuen Fenster geöffnet) (RFT) ermöglicht es Entwicklern, Reasoning-Modelle individuell anzupassen. Es ist allgemein verfügbar für OpenAI o4-mini und in einer privaten Beta für GPT‑5. Wir arbeiten eng mit Dutzenden Kunden zusammen, um die RFT-Version für GPT‑5 vor dem breiten Rollout weiter zu verfeinern.
Heute führen wir zwei neue Funktionen in dieser RFT-Beta ein, um die Agent-Leistung noch weiter zu steigern:
- Custom Tool Calls trainieren Modelle, um zur richtigen Zeit die passenden Tools aufzurufen und dadurch besser zu schlussfolgern.
- Custom Graders definiert eigene Bewertungskriterien für das, was in deinem Use Case am wichtigsten ist.
Ab heute sind ChatKit und die neuen Evals-Funktionen allgemein für alle Entwickler verfügbar. Agent Builder ist in der Beta verfügbar, und die Connector Registry startet ihr Beta-Rollout für einige API-, ChatGPT‑Enterprise‑ und Edu-Kunden mit einer Global Admin Console (in der globale Administratoren Domains, SSO und mehrere API-Organisationen verwalten können). Die Global Admin Console ist (wird in einem neuen Fenster geöffnet)eine Voraussetzung, um die Connector Registry zu aktivieren. Alle diese Tools sind in der Standard-API-Preisgestaltung enthalten.
Wir planen, bald eine eigenständige Workflow-API und Optionen für die Bereitstellung von Agents in ChatGPT hinzuzufügen.
Wir sind gespannt, was du damit entwickelst.


