Zum Hauptinhalt springen
OpenAI

Neu: Updates an gpt-realtime und der Echtzeit-API für Sprachagenten in der Produktion

Wir veröffentlichen ein fortgeschritteneres Spracherkennungsmodell und neue API-Funktionen, darunter MCP-Server-Unterstützung, Bildeingabe und Unterstützung für SIP-Anrufe.

Stilisierte Schnittstelle, die eine Audiointeraktion zeigt. In der Mitte ist ein abgerundeter rechteckiger Audioplayer mit einer wellenförmigen Visualisierung, einer Wiedergabe-/Pause-Taste, der Statusanzeige „Agent online“ und einem Zeitstempel von 00:35 zu sehen. Weiße, geschwungene Linien mit Punkten verlaufen über das Bild und weisen auf Live-Audio oder Signalbewegungen hin. Der Hintergrund ist in einem leuchtenden Blau mit verschwommenen Blumenformen in Rosa- und Lilatönen gehalten.
Laden …

Heute haben wir die Echtzeit-API mit neuen Funktionen, die es Entwicklern und Unternehmen ermöglichen, zuverlässige, produktionsreife Sprachagenten zu erstellen, allgemein verfügbar gemacht. Die API unterstützt jetzt Remote-MCP-Server, Bildeingaben und Anrufe über das Session Initiation Protocol (SIP). So werden Sprachagenten durch den Zugriff auf zusätzliche Tools und Kontext leistungsfähiger.

Außerdem veröffentlichen wir mit gpt-realtime unser bisher fortschrittlichstes Sprache-zu-Sprache-Modell. Das neue Modell zeigt Verbesserungen beim Befolgen komplexer Anweisungen, beim präzisen Aufrufen von Tools und beim Produzieren von natürlicherer und ausdrucksstärkerer Sprache. Es kann Systemmeldungen und Entwickleraufforderungen besser interpretieren – sei es das wortwörtliche Vorlesen von Haftungsausschlussskripten bei einem Supportanruf, das Wiederholen alphanumerischer Zeichen oder das nahtlose Wechseln zwischen Sprachen mitten in einem Satz. Wir stellen außerdem zwei neue Stimmen, Cedar und Marin, vor, die ab heute exklusiv in der Echtzeit-API verfügbar sind.

Seit wir die Echtzeit-API im vergangenen Oktober erstmals in der öffentlichen Betaversion einführten, haben Tausende von Entwicklern mit der API gearbeitet und die Verbesserungen mitgestaltet, die heute veröffentlicht werden – optimiert für Verlässlichkeit, geringe Latenz und hohe Qualität, um Sprachagenten erfolgreich in der Produktion einzusetzen. Im Gegensatz zu konventionellen Pipelines, die mehrere Modelle für Sprache-zu-Text und Text-zu-Sprache miteinander verketten, verarbeitet und generiert die Echtzeit-API Audio direkt über ein einziges Modell und eine API. Dies verringert die Latenz, Sprachnuancen bleiben erhalten und es werden natürlichere, ausdrucksstärkere Reaktionen erzeugt.

„Das neue Sprache-zu-Sprache-Modell in der Echtzeit-API von OpenAI zeichnet sich durch stärkeres Reasoning und natürlichere Sprache aus und ermöglicht so die Verarbeitung komplexer, mehrstufiger Anfragen, wie etwa das Eingrenzen von Angeboten nach Lifestyle-Bedürfnissen oder geführte Diskussionen zur Erschwinglichkeit mit Tools wie unserem BuyAbility-Score. So könnte die Suche nach einem Haus auf Zillow oder die Erkundung von Finanzierungsmöglichkeiten natürlicher gestaltet werden, und Entscheidungen wie der Kauf, Verkauf oder das Mieten einer Wohnung könnten vereinfacht werden.“

– Josh Weisberg, Head of AI bei Zillow

Neu: gpt-realtime

Das neue Sprache-zu-Sprache-Modell –gpt-realtime – ist unser bisher fortgeschrittenstes, produktionsfähiges Sprachmodell. Das Modell wurde in enger Zusammenarbeit mit Kunden trainiert, um es bei praxisbezogenen Aufgaben wie Kundensupport, persönlicher Unterstützung und Training hervorzuragen. Dabei haben wir das Modell an die Art und Weise angeglichen, wie Entwickler Sprachagenten erstellen und einsetzen. Das Modell zeigt Verbesserungen im Bezug auf Audioqualität, Intelligenz, Befolgung von Anweisungen und Funktionsaufruf.

Audioqualität

Für den Einsatz von Sprachagenten in der Praxis ist es entscheidend, dass Gespräche natürlich klingen. Modelle müssen mit menschlicher Intonation, Emotion und Geschwindigkeit sprechen, um ein angenehmes Erlebnis zu schaffen und einen fließenden Gesprächsverlauf mit Benutzern zu fördern. Wir haben gpt-realtime darauf trainiert, qualitativ hochwertigere Sprache zu erzeugen, die natürlicher klingt und genauere Anweisungen befolgen kann, wie etwa „Sprich schnell und professionell“ oder „Sprich einfühlsam und mit französischem Akzent“.

Wir veröffentlichen zwei neue Stimmen in der API, Marin und Cedar, mit den bislang bedeutendsten Verbesserungen für natürlich klingende Sprache. Zudem aktualisieren wir unsere acht bestehenden Stimmen, um von diesen Verbesserungen zu profitieren.

Audiobeispiel - Marin
Audiobeispiel - Cedar

Intelligenz und Verständnis

gpt-realtime zeigt einen höheren Intelligenzgrad und kann natives Audio mit größerer Genauigkeit verstehen. Das Modell kann nonverbale Hinweise (z. B. Lachen) erfassen, mitten im Satz die Sprache wechseln und den Ton anpassen („flott und professionell“ oder „freundlich und einfühlsam“). Laut internen Bewertungen zeigt das Modell außerdem eine genauere Leistung beim Erkennen alphanumerischer Sequenzen (wie Telefonnummern, Fahrzeug-Identifizierungsnummer usw.) in anderen Sprachen, darunter Spanisch, Chinesisch, Japanisch und Französisch. Bei der Big Bench Audio-Bewertung zur Messung der Reasoning-Funktionen erreicht gpt-realtime eine Genauigkeit von 82,8 % und übertrifft damit unser vorheriges Modell vom Dezember 2024, das 65,6 % erreichte.

Der Benchmark Big Bench Audio(wird in einem neuen Fenster geöffnet) ist ein Evaluationsdatensatz zur Bewertung der Reasoning-Funktionen von Sprachmodellen, die Audioeingaben unterstützen. Dieser Datensatz adaptiert Fragen aus Big Bench Hard – ausgewählt aufgrund seiner rigorosen Tests für fortgeschrittenes Reasoning – in den Audiobereich.

Befolgt Anweisungen

Beim Entwickeln einer Speech-to-Speech-Anwendung geben Programmierer dem Modell eine Reihe von Verhaltensanweisungen, einschließlich der Sprechweise, was in einer bestimmten Situation gesagt werden soll und was getan oder nicht getan werden soll. Wir haben uns auf die Verbesserung der Einhaltung dieser Anweisungen konzentriert, sodass auch kleinere Anweisungen mehr Signalwirkung für das Modell haben. Beim MultiChallenge-Audio-Benchmark zur Messung der Genauigkeit der Befolgung von Anweisungen erreicht gpt-realtime 30,5 %, eine deutliche Verbesserung gegenüber unserem Vorgängermodell vom Dezember 2024, das 20,6 % erreichte.

MultiChallenge(wird in einem neuen Fenster geöffnet) bewertet, wie gut LLMs bei mehrstufigen Gesprächen mit Menschen abschneiden. Der Schwerpunkt liegt auf vier Kategorien realistischer Herausforderungen, mit denen aktuelle Grenzmodelle Schwierigkeiten haben. Für diese Herausforderungen sind Modelle erforderlich, die das Befolgen von Anweisungen, Kontextmanagement und kontextbezogenes Reasoning gleichzeitig miteinander kombinieren. Wir haben eine audiogerechte Teilmenge der Testfragen von Text in Sprache umgewandelt, um eine Audioversion dieser Bewertung zu erstellen.

Funktionsaufruf

Um einen leistungsfähigen Sprachagenten mit einem Speech-to-Speech-Modell zu entwickeln, muss das Modell in der Lage sein, die entsprechenden Tools zum richtigen Zeitpunkt aufzurufen, um in der Produktion nützlich zu sein. Wir haben den Funktionsaufruf in dreierlei Hinsicht verbessert: Aufruf relevanter Funktionen, Aufruf von Funktionen zum richtigen Zeitpunkt und Aufruf von Funktionen mit den richtigen Argumenten (dies verbessert die Genauigkeit). Bei der Audiobewertung von ComplexFuncBench, die die Leistung von Funktionsaufrufen misst, erreicht gpt-realtime 66,5 %, im Vergleich zu den 49,7 % unseres Vorgängermodells vom Dezember 2024.

Wir haben außerdem Verbesserungen am asynchronen Funktionsaufruf(wird in einem neuen Fenster geöffnet) vorgenommen. Funktionsaufrufe mit langer Laufzeit unterbrechen den Ablauf einer Sitzung nicht mehr – das Modell kann während des Wartens auf Ergebnisse ein fließendes Gespräch fortsetzen. Diese Funktion ist nativ in gpt-realtime verfügbar, sodass Entwickler ihren Code nicht aktualisieren müssen.

ComplexFuncBench(wird in einem neuen Fenster geöffnet) misst, wie gut Modelle anspruchsvolle Funktionsaufrufaufgaben verarbeiten. Es bewertet die Leistung in verschiedenen Szenarien, zum Beispiel bei mehrstufigen Aufrufen, beim Begründen von Einschränkungen oder impliziten Parametern sowie bei der Verarbeitung sehr langer Eingaben. Wir haben die ursprünglichen Text-Prompts zu Sprache konvertiert, um diese Bewertung für unser Modell zu erstellen.

Neu in der Echtzeit-API

Remote-MCP-Server-Support

Du kannst den MCP-Support in einer Echtzeit-API-Sitzung aktivieren, indem du die URL eines Remote-MCP-Servers an die Sitzungskonfiguration übergibst. Sobald die Verbindung hergestellt ist, übernimmt die API automatisch die Tool-Aufrufe für dich, sodass du die Integrationen nicht manuell vernetzen musst.

Mit dieser Einstellung kannst du deinen Agent ganz einfach um neue Funktionen erweitern. Richte die Sitzung einfach auf einen anderen MCP-Server aus, und diese Tools sind sofort verfügbar. In diesem Leitfaden(wird in einem neuen Fenster geöffnet) erfährst du mehr über die Konfiguration von MCP mit Realtime.

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Bildeingabe

Mit der Möglichkeit von Bildeingaben in gpt-realtime kannst du einer Echtzeit-API-Sitzung neben Audio oder Text auch Bilder, Fotos und Screenshots hinzufügen. Das Modell kann das Gespräch jetzt darauf stützen, was der Benutzer tatsächlich sieht, und Benutzern ermöglichen, Fragen zu stellen wie „Was siehst du?“ oder „Lies den Text in diesem Screenshot“.

Statt ein Bild wie einen Live-Videostream zu behandeln, verhält sich das System eher so, als würde man ein Bild in das Gespräch einfügen. Deine App kann entscheiden, welche Bilder mit dem Modell geteilt werden und wann. So behältst du die Kontrolle darüber, was das Modell sieht und wann es reagiert.

Schau in unsere Dokumentation(wird in einem neuen Fenster geöffnet) rein, um mit der Bildeingabe loszulegen.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Zusätzliche Funktionen

Wir haben einige weitere Funktionen hinzugefügt, um die Integration der Echtzeit-API zu vereinfachen und sie für den Einsatz in der Produktion flexibler zu gestalten.

Sicherheit und Datenschutz

Die Echtzeit-API umfasst mehrere Ebenen von Sicherheits- und Abhilfemaßnahmen, um Missbrauch zu verhindern. Im Blog „Beta-Ankündigungen“ findest du weitere Infos zu unserem Sicherheitsansatz und den Systemkartendetails. Wir setzen aktive Klassifikatoren für Echtzeit-API-Sitzungen ein, sodass bestimmte Gespräche gestoppt werden können, wenn sie gegen unsere Richtlinien zu schädlichen Inhalten verstoßen sollten. Entwickler können mit dem Agents SDK(wird in einem neuen Fenster geöffnet) auch ganz einfach ihre eigenen Sicherheitsschienen hinzufügen.

Unsere Nutzungsrichtlinien untersagen die Zweckentfremdung oder Verbreitung von Outputs unserer Dienste für Spam, Täuschung oder andere schädliche Zwecke. Entwickler müssen Endbenutzern außerdem klar mitteilen, wann sie mit KI interagieren, es sei denn, dies ist bereits aus dem Kontext ersichtlich. Die Echtzeit-API verwendet voreingestellte Stimmen, um zu verhindern, dass Cyberkriminelle sich als jemand anderes ausgeben.

Die Echtzeit-API unterstützt die EU-Datenresidenz(wird in einem neuen Fenster geöffnet) für EU-basierte Anwendungen vollständig und unterliegt unserem Enterprise-Datenschutzversprechen.

Preisgestaltung und Verfügbarkeit

Die allgemein verfügbare Echtzeit-API und das neue GPT‑Echtzeitmodell sind ab heute für alle Entwickler verfügbar. Wir senken die Preise für gpt-realtime um 20 % im Vergleich zu gpt-4o-realtime-preview – 32 USD/1M Audio-Eingabe-Tokens (0,40 USD für zwischengespeicherte Eingabe-Tokens) und 64 USD/1M Audio-Ausgabe-Tokens (siehe Preisgestaltung im Detail(wird in einem neuen Fenster geöffnet)). Wir haben außerdem eine genaue Kontrolle für den Gesprächskontext hinzugefügt, damit Entwickler intelligente Token-Limits festlegen und mehrere Turns gleichzeitig abschneiden können. So werden die Kosten für lange Sitzungen erheblich reduziert.

Livestream-Wiedergabe

Autor

OpenAI