21. Mai 2025

Neue Tools und Funktionen in der Reaktionen-API

Neu: Remote-MCP-Server-Support, Bildgenerierung, Code-Interpreter und mehr in der Reaktionen-API für Entwickler und Unternehmen.

Laden …

Heute fügen wir der Reaktionen-API – unserem API-Kernelement zum Erstellen von Agentenanwendungen – neue integrierte Tools hinzu. Dies umfasst Support für alle Remote-MCP-Server (Model Context Protocol)⁠(wird in einem neuen Fenster geöffnet) sowie Tools wie die Bildgenerierung⁠(wird in einem neuen Fenster geöffnet), Code-Interpreter⁠(wird in einem neuen Fenster geöffnet) und Verbesserungen an der Dateisuche⁠(wird in einem neuen Fenster geöffnet). Diese Tools sind in unseren schlussfolgernden Modellen der GPT‑4o‑Serie, GPT‑4.1‑Serie und OpenAI-o-Serie verfügbar. o3 und o4-mini können jetzt Tools und Funktionen direkt in ihrer Gedankenreihe in der Reaktionen-API aufrufen und so kontextreichere und relevantere Antworten erzeugen. Durch die Nutzung von o3 und o4-mini mit der Reaktionen-API bleiben Reasoning-Token über Anfragen und Tool-Aufrufe hinweg erhalten, was die Modellintelligenz verbessert und die Kosten und Latenz für Entwickler senkt.

Wir führen außerdem neue Funktionen in der Reaktionen-API ein, die die Zuverlässigkeit, Sichtbarkeit und den Datenschutz für Unternehmen und Entwickler verbessern. Dazu gehören ein Background-Modus⁠(wird in einem neuen Fenster geöffnet), um lang andauernde Aufgaben asynchron und zuverlässiger zu verarbeiten, Support für Reasoning-Zusammenfassungen⁠(wird in einem neuen Fenster geöffnet) sowie für verschlüsselte Reasoning-Elemente⁠(wird in einem neuen Fenster geöffnet).

Seit Veröffentlichung der Reaktionen-API im März 2025 mit Tools wie Websuche, Dateisuche und Computernutzung haben Hunderttausende Entwickler die API verwendet, um Billionen von Token in unseren Modellen zu verarbeiten. Kunden haben mithilfe der API eine Vielzahl von Agentenanwendungen entwickelt, einschließlich den Coding-Agent von Zencoder⁠(wird in einem neuen Fenster geöffnet), den Market Intelligence Agent für Private Equity und Investment Banking von Revi⁠(wird in einem neuen Fenster geöffnet) und den Bildungsassistenten von MagicSchool AI⁠(wird in einem neuen Fenster geöffnet) – sie alle nutzen die Websuche, um relevante und aktuelle Informationen an die jeweiligen Apps zu übertragen. Entwickler können jetzt dank Zugriff auf die heute veröffentlichten neuen Tools und Funktionen noch nützlichere und zuverlässigere Agenten erstellen.

Neuer Remote-MCP-Server-Support

Wir fügen Support für Remote-MCP-Server⁠(wird in einem neuen Fenster geöffnet) in der Reaktionen-API hinzu, aufbauend auf der Veröffentlichung des MCP-Supports im Agents SDK⁠(wird in einem neuen Fenster geöffnet). MCP ist ein offenes Protokoll, das die Art und Weise standardisiert, wie Anwendungen Kontext an LLMs übertragen. Durch den Support von MCP-Servern in der Reaktionen-API können Entwickler unsere Modelle mithilfe von nur wenigen Codezeilen mit Tools vernetzen, die auf einem beliebigen MCP-Server gehostet werden. Hier sind einige Beispiele, die zeigen, wie Entwickler heute Remote-MCP-Server mit der Reaktionen-API verwenden können:

Python

1response = client.responses.create(
2  model="gpt-4.1",
3  tools=[{
4    "type": "mcp",
5    "server_label": "shopify",
6    "server_url": "https://pitchskin.com/api/mcp",
7  }],
8  input="Add the Blemish Toner Pads to my cart"
9)

The Blemish Toner Pads have been added to your cart! You can proceed to checkout here:

Pitch. Bezahlseite von Skin mit Express-Optionen (Shop Pay, PayPal, G Pay), Feldern mit Kontakt- und Zustellungsformularen und einer Bestellübersicht für „Blemish Toner Pads 200 ml (120 Pads)“ zum Preis von 49 AUD.

Einige gängige Remote-MCP-Server sind: Cloudflare⁠(wird in einem neuen Fenster geöffnet), HubSpot⁠(wird in einem neuen Fenster geöffnet), Intercom⁠(wird in einem neuen Fenster geöffnet), PayPal⁠(wird in einem neuen Fenster geöffnet), Plaid⁠(wird in einem neuen Fenster geöffnet), Shopify⁠(wird in einem neuen Fenster geöffnet), Stripe⁠(wird in einem neuen Fenster geöffnet), Square⁠(wird in einem neuen Fenster geöffnet), Twilio⁠(wird in einem neuen Fenster geöffnet), Zapier⁠(wird in einem neuen Fenster geöffnet) und weitere. Wir gehen in den kommenden Monaten von einem schnellen Wachstum des Ökosystems der Remote-MCP-Server aus, sodass es für Entwickler einfacher wird, leistungsstarke Agenten zu erstellen, die eine Verbindung zu den Tools und Datenquellen herstellen können, auf die ihre Benutzer bereits vertrauen. Um das Ökosystem bestmöglich zu unterstützen und zu diesem sich entwickelnden Standard beizutragen, ist OpenAI auch dem Lenkungsausschuss für MCP beigetreten.

In dieser Anleitung von Cloudflare⁠(wird in einem neuen Fenster geöffnet) erfährst du, wie du deinen eigenen Remote-MCP-Server starten kannst.. In diesem Leitfaden⁠(wird in einem neuen Fenster geöffnet) in unserem API Cookbook erfährst du, wie das MCP-Tool in der Reaktionen-API verwenden kannst.

Updates im Bereich Bildgenerierung, Code-Interpreter und Dateisuche

Mit integrierten Tools in der Reaktionen-API können Entwickler mit nur einem einzigen API-Aufruf mühelos leistungsstärkere Agenten erstellen. Durch den Aufruf mehrerer Tools beim Reasoning erreichen Modelle jetzt eine deutlich höhere Leistung beim Tool-Aufruf bei branchenüblichen Benchmarks wie Humanity’s Last Exam (Quelle). Heute führen wir u. a. die folgenden neuen Tools ein:

Bildgenerierung: Zusätzlich zum Einsatz der Images API⁠(wird in einem neuen Fenster geöffnet) können Entwickler jetzt auf unser neuestes Bildgenerierungsmodell– gpt-image-1 – als Tool innerhalb der Reaktionen-API zugreifen. Dieses Tool unterstützt Echtzeit-Streaming, was Entwicklern eine Vorschau des Bilds während der Bildgenerierung ermöglicht, sowie Multi-Turn-Bearbeitungen, wodurch Entwickler das Modell dazu auffordern können, diese Bilder Schritt für Schritt granular zu verfeinern. Mehr erfahren⁠(wird in einem neuen Fenster geöffnet).
Code-Interpreter: Entwickler können jetzt das Code-Interpreter⁠(wird in einem neuen Fenster geöffnet)-Tool innerhalb der Reaktionen-API verwenden. Dieses Tool ist nützlich für die Datenanalyse, das Lösen komplexer Mathematik- und Codierungsprobleme und hilft den Modellen, Bilder gründlich zu verstehen und zu bearbeiten (z. B. Denken in Bildern). Die Möglichkeit für Modelle wie o3 und o4-mini, das Code-Interpreter-Tool in ihrer Gedankenreihe zu verwenden, hat zu einer verbesserten Leistung bei mehreren Benchmarks geführt, darunter Humanity’s Last Exam (Quelle). Mehr erfahren⁠(wird in einem neuen Fenster geöffnet).
Dateisuche: Entwickler können jetzt auf das Tool zur Dateisuche⁠(wird in einem neuen Fenster geöffnet) in unseren schlussfolgernden Modellen zugreifen. Mithilfe der Dateisuche können Entwickler basierend auf der Benutzerabfrage relevante Teile ihrer Dokumente in den Kontext des Modells übertragen. Wir führen zudem Updates am Tool für die Dateisuche ein, die es Entwicklern ermöglichen, Suchvorgänge in mehreren Vektorspeichern durchzuführen und die Attributfilterung mit Arrays zu unterstützen. Mehr erfahren⁠(wird in einem neuen Fenster geöffnet).

Neue Funktionen in der Reaktionen-API

Zusätzlich zu den neuen Tools fügen wir auch Unterstützung für neue Funktionen in der Reaktionen-API hinzu, darunter:

Background-Modus: Wie in Agentic-Produkten wie Codex, Deep Research und Operator beobachtet, kann das Lösen komplexer Probleme durch schlussfolgernde Modelle mehrere Minuten dauern. Entwickler können jetzt den Background-Modus verwenden, um ähnliche Erlebnisse auf Modellen wie o3 zu erstellen, ohne sich um Zeitüberschreitungen oder andere Verbindungsprobleme sorgen zu müssen – der Background-Modus startet diese Aufgaben asynchron. Entwickler können diese Objekte entweder abfragen, um die Fertigstellung zu prüfen, oder mit dem Streamen von Ereignissen beginnen, wenn ihre Anwendung den neuesten Status abrufen muss. Mehr erfahren⁠(wird in einem neuen Fenster geöffnet).

Python

1response = client.responses.create(
2  model="o3",
3  input="Write me an extremely long story.",
4  reasoning={ "effort": "high" },
5  background=True
6)

Reasoning-Zusammenfassungen: Die Reaktionen-API kann jetzt prägnante Zusammenfassungen der internen Gedankenreihe des Modells in natürlicher Sprache generieren, ähnlich wie in ChatGPT zu sehen ist. Dies erleichtert Entwicklern das Debuggen, Prüfen und Erstellen besserer Endnutzererlebnisse. Reasoning-Zusammenfassungen sind ohne zusätzliche Kosten verfügbar. Mehr erfahren⁠(wird in einem neuen Fenster geöffnet).

Python

1response = client.responses.create(
2    model="o4-mini",
3    tools=[
4        {
5            "type": "code_interpreter",
6            "container": {"type": "auto"}
7        }
8    ],
9    instructions=(
10        "You are a personal math tutor. "
11        "When asked a math question, run code to answer the question."
12    ),
13    input="I need to solve the equation `3x + 11 = 14`. Can you help me?",
14    reasoning={"summary": "auto"}
15)

Verschlüsselte Reasoning-Elemente: Kunden, die Anspruch auf Keine Datenaufbewahrung (Zero Data Retention, ZDR)⁠(wird in einem neuen Fenster geöffnet) haben, können jetzt Reasoning-Elemente für mehrere API-Anfragen wiederverwenden – ohne dass Reasoning-Elemente auf den Servern von OpenAI gespeichert werden. Bei Modellen wie o3 und o4-mini steigert die Wiederverwendung von Reasoning-Elementen zwischen Funktionsaufrufen die Intelligenz, reduziert die Token-Nutzung und erhöht die Cache-Trefferquoten, was die Kosten und Latenz senkt. Mehr erfahren⁠(wird in einem neuen Fenster geöffnet).

Python

1response = client.responses.create(
2  model="o3",
3  input="Implement a simple web server in Rust from scratch.",
4  store=False,
5  include=["reasoning.encrypted_content"]
6)

Preisgestaltung und Verfügbarkeit

Alle diese Tools und Funktionen sind jetzt in der Reaktionen-API verfügbar und werden in unseren GPT‑4o‑Serien, GPT‑4.1‑Serien und unseren schlussfolgernden Modellen der OpenAI o-Serie (o1, o3, o3‑mini und o4-mini) unterstützt. Die Bildgenerierung wird nur auf o3 unserer Serie der schlussfolgernden Modelle unterstützt.

Die Preise für bestehende Tools ändern sich nicht. Die Bildgenerierung kostet 5,00 $/1 Mio. Texteingabe-Token, 10,00 $/1 Mio. Bildeingabe-Token und 40,00 $/1 Mio. Bildausgabe-Token, mit 75 % Rabatt auf zwischengespeicherte Eingabe-Token. Code Interpreter kostet 0,03 $ pro Container. Die Dateisuche kostet 0,10 $/GB Vektorspeicher pro Tag und 2,50 $/1000 Tool-Aufrufe. Für den Aufruf des Remote-MCP-Servertools fallen keine zusätzlichen Kosten an. Es werden lediglich die Ausgabe-Token der API in Rechnung gestellt. In unserer Dokumentation erfährst du mehr über die Preisgestaltung⁠(wird in einem neuen Fenster geöffnet).

Wir freuen uns bereits auf deine Builds!

Autor

OpenAI