Przejdź do treści głównej
OpenAI

28 sierpnia 2025

ProduktWersja

Model gpt-realtime i aktualizacje interfejsu Realtime API na potrzeby agentów głosowych w zastosowaniach produkcyjnych

Udostępniamy bardziej zaawansowany model zamiany mowy na mowę oraz nowe funkcje API, w tym obsługę serwerów MCP, obsługę danych wejściowych w postaci obrazów oraz obsługę rozmów telefonicznych SIP.

Stylowy interfejs przedstawiający interakcję głosową. Na środku znajduje się zaokrąglony prostokątny odtwarzacz dźwięku z wizualizacją przebiegu fali, przyciskiem odtwarzania/pauzy, wskaźnikiem statusu „Agent online” oraz znacznikiem czasu 00:35. Białe zakrzywione linie z kropkami przepływają przez obraz, sugerując dźwięk na żywo lub ruch sygnału. Tło ma żywy, niebieski kolor z rozmytymi kształtami kwiatów w odcieniach różu i fioletu.
Ładowanie…

Dzisiaj opublikowaliśmy ogólnodostępną wersję interfejsu Realtime API z nowymi funkcjami umożliwiającymi programistom i przedsiębiorstwom tworzenie niezawodnych agentów głosowych, gotowych do wdrożenia w środowisku produkcyjnym. Interfejs API obsługuje teraz zdalne serwery MCP, dane wejściowe w postaci obrazów i połączenia telefoniczne SIP (Session Initiation Protocol), co podnosi sprawność agentów głosowych dzięki dodatkowym narzędziom i kontekstom.

Udostępniamy też nasz najbardziej zaawansowany model zamiany mowy na mowę — gpt-realtime. Ma on ulepszenia pomagające wykonywać złożone instrukcje i precyzyjne wywołania narzędzi oraz generować bardziej naturalne i ekspresyjne wypowiedzi. Lepiej interpretuje komunikaty systemu i polecenia programistów — bez względu na to, czy chodzi o dosłowne odczytanie zastrzeżeń prawnych podczas telefonicznej obsługi technicznej, powtarzanie znaków alfanumerycznych, czy płynne przełączanie się między językami w środku zdania. Udostępniamy też dwa nowe głosy, Cedar i Marin, które od dzisiaj są dostępne wyłącznie przez interfejs Realtime API.

Od chwili udostępnienia interfejsu Realtime API w wersji beta w październiku ubiegłego roku skorzystało z niego tysiące programistów, którzy pomogli wypracować udostępniane dzisiaj ulepszenia — zoptymalizowane pod kątem niezawodności, niskich opóźnień i wysokiej jakości i pozwalające pomyślnie wdrażać agenty głosowe w środowisku produkcyjnym. W przeciwieństwie do tradycyjnych procesów, w których zamianę mowy na tekst i tekstu na mowę wykonuje szereg połączonych modeli, interfejs Realtime API przetwarza i generuje dźwięk bezpośrednio przy użyciu pojedynczego modelu i interfejsu API. Zmniejsza to opóźnienia, pozwala zachować niuanse mowy i zapewnia bardziej naturalne i ekspresyjne odpowiedzi.

„Nowy model zamiany mowy na mowę udostępniany przez interfejs Realtime API firmy OpenAI wykazuje lepsze zdolności rozumowania i budowania bardziej naturalnych wypowiedzi, dlatego możemy go używać do obsługi bardziej złożonych, wieloetapowych żądań, na przykład zawężania ofert zależnie od deklarowanego trybu życia lub prowadzenia rozmów na temat przystępności cenowej przy użyciu narzędzi takich jak nasz wskaźnik BuyAbility. Dzięki temu wyszukiwanie nieruchomości w serwisie Zillow lub analizowanie możliwości finansowania może stać się tak naturalne jak rozmowa z przyjacielem, co ułatwia podejmowanie decyzji na temat zakupu, sprzedaży lub wynajmu domu“.

– Josh Weisberg, dyrektor ds. AI w firmie Zillow

Przedstawiamy model gpt-realtime

Nowy model zamiany mowy na mowę — gpt-realtime — to nasz najbardziej zaawansowany i gotowy do wdrożenia model głosowy. Wytrenowaliśmy go w ścisłej współpracy z klientami, aby doskonale sprawdzał się w rzeczywistych zastosowaniach, takich jak obsługa klienta, pomoc osobista i edukacja, i był przydatny dla programistów podczas tworzenia i wdrażania agentów głosowych. Model ma ulepszenia dotyczące jakości dźwięku, inteligencji, wykonywania instrukcji i wywoływania funkcji.

Jakość dźwięku

Naturalne brzmienie konwersacji ma kluczowe znaczenie w rzeczywistych zastosowaniach agentów głosowych. Modele muszą zachować intonację, ładunek emocjonalny i tempo typowe dla człowieka, aby zapewnić przyjemne wrażenia słuchowe i zachęcić użytkowników do kontynuowania rozmowy. Model gpt-realtime wytrenowaliśmy tak, aby generował mowę o wysokiej jakości, która brzmi bardziej naturalnie, i wykonywał szczegółowe instrukcje, takie jak „mów szybko i profesjonalnie” lub „mów empatycznie z francuskim akcentem”.

Udostępniamy dwa nowe głosy przez API, Marin i Cedar. Charakteryzują się największą poprawą naturalności wypowiedzi. Te ulepszenia wprowadzamy również w przypadku naszych ośmiu dotychczasowych głosów.

Próbka głosu – Marin
Próbka głosu – Cedar

Inteligencja i umiejętność rozumienia

Model gpt-realtime cechuje się wyższą inteligencją i lepiej rozumie oryginalny materiał dźwiękowy. Potrafi wychwycić elementy komunikacji niewerbalnej (np. śmiech), przełączać się między językami w ramach zdania i dostosowywać ton wypowiedzi („energiczny i profesjonalny” bądź „miły i empatyczny”). Według wewnętrznych ocen model umie też z większą dokładnością wykrywać sekwencje alfanumeryczne (takie jak numery telefonów, numery VIN itp.) w innych językach, w tym w hiszpańskim, chińskim, japońskim i francuskim. W ocenie Big Bench Audio mierzącej zdolności rozumowania model gpt-realtime uzyskał wynik 82,8% (dokładność), pokonując nasz poprzedni model z grudnia 2024 r., który uzyskał wynik 65,6%.

Test porównawczy Big Bench Audio(otwiera nowe okno) to zestaw danych do oceny zdolności rozumowania modeli językowych obsługujących dźwiękowe dane wejściowe. Ten zestaw danych zawiera dostosowane pod kątem dźwięku pytania z zestawu danych Big Bench Hard wybranego ze względu na rygorystyczne testowanie zaawansowanego rozumowania.

Wykonywanie instrukcji

Podczas tworzenia aplikacji do zamiany mowy na mowę programiści przekazują modelowi zestaw instrukcji dotyczących zachowania, w tym sposobu mówienia, tego, co należy powiedzieć w danej sytuacji oraz tego, co jest dopuszczalne, a co nie. Skoncentrowaliśmy się na poprawnym wykonywaniu tych instrukcji, tak aby nawet drobne wskazówki miały większe znaczenie dla modelu. W dźwiękowym teście porównawczym MultiChallenge mierzącym dokładność wykonywania instrukcji model gpt-realtime uzyskał wynik 30,5%, co stanowi znaczną poprawę w porównaniu z naszym poprzednim modelem z grudnia 2024 r., który uzyskał wynik 20,6%.

Test porównawczy MultiChallenge(otwiera nowe okno) służy do oceny, jak dobrze modele LLM radzą sobie podczas wieloetapowych konwersacji z ludźmi. Koncentruje się na czterech kategoriach realistycznych wyzwań, które obecnie sprawiają problemy najbardziej zaawansowanym modelom. Te wyzwania wymagają od modeli jednoczesnego łączenia wykonywania instrukcji, zarządzania kontekstem i rozumowania w kontekście. Przekształciliśmy odpowiedni podzbiór pytań testowych z tekstu na mowę w celu przygotowania dźwiękowej wersji tego testu.

Wywoływanie funkcji

Aby można było stworzyć sprawnego i praktycznie przydatnego agenta głosowego przy użyciu modelu zamiany mowę na mowę, model musi umieć wywoływać odpowiednie narzędzia we właściwym czasie. Usprawniliśmy wywoływanie funkcji w trzech obszarach: wywoływanie odpowiednich funkcji, wywoływanie funkcji w odpowiednim czasie oraz wywoływanie funkcji z odpowiednimi argumentami (co skutkuje wyższą dokładnością). W dźwiękowym teście ComplexFuncBench mierzącym wywoływanie funkcji model gpt-realtime uzyskał wynik 66,5%, podczas gdy nasz poprzedni model z grudnia 2024 r. osiągnął tylko 49,7%.

Wprowadziliśmy również usprawnienia w asynchronicznym wywoływaniu funkcji(otwiera nowe okno). Wywołania funkcji o długim czasie działania nie zakłócają już działania sesji — model może kontynuować konwersację bez przerw, czekając na wyniki. Jest to wbudowana funkcja modelu gpt-realtime, dlatego programiści nie muszą aktualizować swojego kodu.

Test porównawczy ComplexFuncBench(otwiera nowe okno) pozwala mierzyć, na ile dobrze modele radzą sobie z trudnymi zadaniami wywoływania funkcji. Umożliwia ocenę modelu w różnych zastosowaniach, takich jak wywołania wieloetapowe, rozumowanie dotyczące ograniczeń lub parametrów niejawnych oraz obsługa bardzo długich danych wejściowych. Aby stworzyć tę ocenę dla naszego modelu, przekształciliśmy oryginalne polecenia tekstowe na mowę.

Nowości w interfejsie Realtime API

Obsługa zdalnego serwera MCP

Obsługę protokołu MCP można włączyć podczas sesji interfejsu Realtime API, podając adres URL zdalnego serwera MCP w konfiguracji sesji. Po nawiązaniu połączenia interfejs API będzie automatycznie obsługiwał wywołania narzędzi, dlatego ręczne konfigurowanie integracji nie jest wymagane.

Dzięki temu można rozszerzać agenta o nowe zdolności. Wystarczy podczas sesji wskazać inny serwer MCP, a jego narzędzia staną się natychmiast dostępne. Więcej informacji o konfigurowaniu protokołu MCP z interfejsem Realtime zawiera ten przewodnik(otwiera nowe okno).⁠

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Dane wejściowe w postaci obrazów

Ponieważ model gpt-realtime dopuszcza teraz dane wejściowe w postaci obrazów, podczas sesji interfejsu Realtime API można wprowadzać grafikę, zdjęcia i zrzuty ekranu razem z dźwiękiem lub tekstem. Model może teraz prowadzić konwersację, opierając się na tym, co widzi użytkownik. Pozwala to użytkownikom zadawać pytania typu „co widzisz?” lub „przeczytaj tekst na tym zrzucie ekranu”.

Zamiast traktować obraz jak strumień wideo na żywo, system traktuje go bardziej jak zdjęcie dodane do konwersacji. Aplikacja użytkownika może zdecydować, które obrazy udostępnić modelowi i kiedy. Pozwala to zachować kontrolę nad tym, co widzi model i kiedy ma zareagować.

Nasza dokumentacja(otwiera nowe okno) zawiera więcej informacji na temat pracy z obrazami.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Dodatkowe funkcje

Dodaliśmy też inne funkcje, aby ułatwić integrację interfejsu Realtime API i poprawić jego elastyczność w zastosowaniach produkcyjnych.

Bezpieczeństwo i prywatność

Interfejs API Realtime ma wiele warstw zabezpieczeń i środków ograniczających ryzyko, które pomagają zapobiegać nadużyciom. Więcej informacji na temat naszych standardów bezpieczeństwa i szczegółów kart systemu zawiera nasz wpis na blogu dotyczący ogłoszenia wersji beta⁠. Podczas sesji interfejsu API Realtime stosujemy aktywne klasyfikatory, dlatego niektóre konwersacje mogą zostać przerwane w razie stwierdzenia, że naruszają nasze wytyczne dotyczące szkodliwych treści. Programiści mogą też łatwo wdrażać własne dodatkowe zabezpieczenia, korzystając z zestawu Agents SDK(otwiera nowe okno).

Nasze zasady użytkowania⁠ zabraniają używania i rozpowszechniania danych wynikowych naszych usług do spamowania, oszustw bądź w innych szkodliwych celach. Programiści muszą również wyraźnie informować użytkowników końcowych, że rozmawiają z AI, chyba że wynika to w sposób oczywisty z kontekstu. Interfejs Realtime API wykorzystuje udostępnione przez nas gotowe głosy, aby uniknąć podszywania się pod inne osoby w złych zamiarach.

Interfejs Realtime API w pełni obsługuje rezydencję danych w UE(otwiera nowe okno) w przypadku aplikacji stworzonych w UE i jest objęty naszymi zobowiązaniami dotyczącymi prywatności przedsiębiorstw.

Ceny i dostępność

Wersja ogólnodostępna interfejsu Realtime API i nowy model gpt-realtime są od dzisiaj dostępne dla wszystkich programistów. Obniżamy ceny za model gpt-realtime o 20% w porównaniu z modelem gpt-4o-realtime-preview — 32 USD za 1 mln dźwiękowych tokenów wejściowych (0,40 USD za buforowane tokeny wejściowe) i 64 USD za 1 mln dźwiękowych tokenów wyjściowych (zobacz szczegółowy cennik(otwiera nowe okno)). Dodaliśmy również precyzyjną kontrolę kontekstu konwersacji, aby umożliwić programistom ustawianie inteligentnych limitów tokenów i skracanie wielu tur jednocześnie, co znacznie obniża koszty długich sesji.

Nagranie transmisji na żywo

Autor

OpenAI