Die nächste Evolutionsstufe des Agents SDK
Das aktualisierte Agents SDK hilft Entwickler:innen dabei, Agenten zu entwickeln, die Dateien prüfen, Befehle ausführen, Code bearbeiten und in kontrollierten Sandbox-Umgebungen an langfristigen Aufgaben arbeiten können.
Wir führen neue Funktionen für das Agents SDK ein, die Entwickler:innen eine standardisierte Infrastruktur bieten, mit der sich leicht loslegen lässt und die für OpenAI-Modelle korrekt aufgebaut ist: ein Modell-natives Harness, mit dem Agenten Datei- und Tool-übergreifend auf einem Computer arbeiten können, sowie native Sandbox-Ausführung, um diese Arbeit sicher auszuführen.
Zum Beispiel können Entwickler:innen einem Agenten einen kontrollierten Workspace, klare Anweisungen und die Tools geben, die er benötigt, um Beweise zu prüfen:
Entwickler:innen brauchen mehr als nur die besten Modelle, um nützliche Agenten zu entwickeln – sie brauchen Systeme, die Agenten dabei unterstützen, Dateien zu prüfen, Befehle auszuführen, Code zu schreiben und über viele Schritte hinweg weiterzuarbeiten.
Die Systeme, die heute existieren, bringen Kompromisse mit sich, wenn Teams von Prototypen in die Produktion übergehen. Modellagnostische Frameworks sind flexibel, nutzen die Fähigkeiten von Frontier-Modellen jedoch nicht vollständig aus; SDKs von Modellanbietern können näher am Modell sein, bieten aber oft nicht genügend Einblick in das Harness; und und APIs für verwaltete Agenten können die Bereitstellung vereinfachen, schränken jedoch ein, wo Agenten ausgeführt werden und wie sie auf sensible Daten zugreifen.
Das sagen einige der Kund:innen, die das neue SDK mit uns getestet haben:
„GPT-5.4 setzt einen neuen Maßstab für dokumentenintensive juristische Arbeit. Bei unserer „BigLaw Bench“-Eval erreichte es 91 %. Im Vergleich zu anderen Modellen ist GPT-5.4 derzeit besser darin, komplexe transaktionsbezogene Analysen zu strukturieren, die Genauigkeit über umfangreiche Verträge hinweg aufrechtzuerhalten und das hohe Maß an Detailgenauigkeit zu liefern, das Jurist:innen benötigen.”
Mit dem heutigen Release wird das Agents SDK leistungsfähiger für Agenten, die mit Dokumenten, Dateien und Systemen arbeiten. Es fügt jetzt konfigurierbaren Speicher, Sandbox-fähige Orchestrierung, Codex-ähnliche Dateisystem-Tools und standardisierte Integrationen mit grundlegenden Bausteinen (Primitives) hinzu, die in Frontier-Agentensystemen zunehmend üblich werden.
Diese Primitives umfassen Tool-Nutzung über MCP(wird in einem neuen Fenster geöffnet), progressive Offenlegung über Skills(wird in einem neuen Fenster geöffnet), benutzerdefinierte Anweisungen über AGENTS.md(wird in einem neuen Fenster geöffnet), Codeausführung mit dem shell(wird in einem neuen Fenster geöffnet)-Tool, Dateibearbeitungen mit dem apply patch(wird in einem neuen Fenster geöffnet)-Tool und mehr. Das Harness wird im Laufe der Zeit weiterhin neue agentenbasierte Muster und Primitives integrieren, sodass Entwickler:innen weniger Zeit mit Aktualisierungen der Kerninfrastruktur und mehr Zeit mit der bereichsspezifischen Logik verbringen können, die ihre Agenten nützlich macht.
Das Harness hilft Entwickler:innen außerdem, mehr von den Fähigkeiten eines Frontier-Modells nutzbar zu machen, indem es die Ausführung an die Arbeitsweise anpasst, in der diese Modelle die bestmögliche Leistung erbringen. Dadurch orientieren sich die Agenten stärker am natürlichen Verhaltensmuster des Modells, was die Zuverlässigkeit und Leistung bei komplexen Aufgaben verbessert – insbesondere bei lang andauernden Prozessen oder bei der koordinierten Zusammenarbeit über eine Vielzahl von Tools und Systemen hinweg.
Außerdem ist uns bewusst, dass jedes Produkt einzigartig ist und sich nur selten in eine Schablone pressen lässt. Wir haben das Agents SDK entwickelt, um diese Vielfalt zu unterstützen. Entwickler:innen erhalten ein Harness, das sofort einsatzbereit und dennoch flexibel ist, sodass es sich leicht an ihren eigenen Stack anpassen lässt – einschließlich Tool-Nutzung, Speicher und Sandbox-Umgebung.
Das aktualisierte Agents SDK unterstützt die Sandbox-Ausführung nativ, sodass Agenten in kontrollierten Computerumgebungen mit den Dateien, Tools und Abhängigkeiten ausgeführt werden können, die sie für eine Aufgabe benötigen.
Viele nützliche Agenten benötigen einen Workspace, in dem sie Dateien lesen und schreiben, Abhängigkeiten installieren, Code ausführen und Tools sicher nutzen können. Native Sandbox-Unterstützung gibt Entwickler:innen diese Ausführungsebene direkt an die Hand, anstatt sie dazu zu zwingen, sie in Eigenregie zusammenzubasteln.
Entwickler:innen können ihre eigene Sandbox mitbringen oder die integrierte Unterstützung für Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop und Vercel nutzen.
Um diese Umgebungen anbieterübergreifend portierbar zu machen, führt das SDK auch eine Manifest-Abstraktion zur Beschreibung des Workspace des Agenten ein. Entwickler:innen können lokale Dateien einbinden, Ausgabeverzeichnisse festlegen und Daten von Speicheranbietern wie AWS S3, Google Cloud Storage, Azure Blob Storage und Cloudflare R2 einbinden.
Dies gibt Entwickler:innen eine einheitliche Möglichkeit, die Umgebung des Agenten vom lokalen Prototyp bis zur Produktionsbereitstellung zu gestalten. Es gibt dem Modell außerdem einen vorhersehbaren Workspace: wo Eingaben zu finden sind, wo Ausgaben geschrieben werden und wie die Arbeit während einer lang andauernden Aufgabe organisiert bleibt.

Agentensysteme sollten so konzipiert werden, dass von vornherein von Prompt Injection- und Exfiltrationsversuchen ausgegangen wird. Die Trennung von Harness und Compute hilft dabei, Anmeldedaten aus Umgebungen herauszuhalten, in denen vom Modell erzeugter Code ausgeführt wird.
Außerdem ermöglicht es eine dauerhafte Ausführung. Wenn der Zustand des Agenten externalisiert wird, bedeutet der Verlust eines Sandbox-Containers nicht, dass die Ausführung verloren geht. Mit integrierter Snapshot-Erstellung und Rehydrierung kann das Agents SDK den Zustand des Agenten in einem neuen Container wiederherstellen und beim letzten Checkpoint fortfahren, wenn die ursprüngliche Umgebung ausfällt oder abläuft.
Und zu guter Letzt macht es Agenten besser skalierbar. Agenten-Ausführungen können eine oder mehrere Sandboxen nutzen, Sandboxen nur bei Bedarf aufrufen, Subagenten in isolierte Umgebungen leiten und die Arbeit über Container hinweg parallelisieren, um die Ausführung zu beschleunigen.
Diese neuen Funktionen des Agents SDK sind über die API allgemein für alle Kund:innen verfügbar und unterliegen der Standard-API-Preisgestaltung auf Basis von Tokens und Tool-Nutzung.
Im Zuge der Weiterentwicklung des Agents SDK werden wir die Möglichkeiten für Entwickler:innen kontinuierlich erweitern, sodass sie leistungsfähigere Agenten mit weniger maßgeschneiderter Infrastruktur in die Produktion bringen können – und dabei die Flexibilität und Kontrolle bewahren, die Entwickler:innen benötigen, um die Agenten in ihre eigenen Umgebungen zu integrieren.
Die neuen Harness- und Sandbox-Funktionen werden zunächst für Python eingeführt; die Unterstützung für TypeScript ist für eine zukünftige Version geplant. Wir arbeiten außerdem daran, zusätzliche Fähigkeiten für Agenten, darunter Code-Modus und Subagenten, sowohl für Python als auch für TypeScript bereitzustellen.
Darüber hinaus möchten wir dazu beitragen, das allgemeinere Agenten-Ökosystem im Laufe der Zeit zusammenzuführen – mit Unterstützung für mehr Sandbox-Anbieter, mehr Integrationen und mehr Möglichkeiten für Entwickler:innen, das SDK in die Tools und Systeme einzubinden, die sie bereits nutzen.


