Preskočite na glavni sadržaj
OpenAI

28. kolovoza 2025.

ProizvodIzdanje

Predstavljanje GPT‑realtimea i ažuriranja Realtime API-ja za produkcijske glasovne agente

Objavljujemo napredniji model speech-to-speech, nove API-jeve potencijale, uključujući podršku za MCP poslužitelj, upis slika i podršku za SIP telefonske pozive.

Stilizirano sučelje koje prikazuje glasovnu interakciju. U sredini se nalazi zaobljeni pravokutni audio player s vizualizacijom valnog oblika, tipkom za reprodukciju/pauzu, indikatorom statusa „Agent online“ i vremenskom oznakom 00:35. Bijele zakrivljene linije s točkicama teku preko slike, sugerirajući kretanje uživo zvuka ili signala. Pozadina je živo plava s mutnim oblicima cvjetova u ružičastim i ljubičastim tonovima.
Učitavanje…

Danas Realtime API činimo općenito dostupnim s novim značajkama koje omogućuju razvojnim inženjerima i poduzećima da nadograđuju pouzdane, za produkciju spremne glasovne agente. API sada podržava udaljene MCP poslužitelje, upise slika i telefonske pozive putem Protokola za pokretanje sesije (SIP), čineći glasovne agente sposobnijima zahvaljujući pristupu dodatnim alatima i kontekstu.

Također objavljujemo naš dosad najnapredniji model speech-to-speech:gpt-realtime. Novi model pokazuje poboljšanja u praćenju složenih uputa, preciznom korištenju alata i produkciji govora koji zvuči prirodnije i izražajnije. Bolji je u tumačenju poruka sustava i odzivnika razvojnog inženjera, bilo da čita skripte s odricanjem od odgovornosti riječ po riječ na pozivu podrške, ponavlja alfanumeričke znakove ili besprijekorno prelazi između jezika usred rečenice. Također predstavljamo dva nova glasa, Cedara i Marina, koji su od danas dostupni isključivo u Realtime API-ju.

Otkako smo prvi put predstavili Realtime API u javnoj beta verziji prošlog listopada, tisuće razvojnih inženjera radili su s API-jem i pomogli oblikovati poboljšanja koja danas objavljujemo: optimiziran je za pouzdanost, nisko kašnjenje i visoku kvalitetu kako bi se glasovni agenti uspješno implementirali u produkciji. Za razliku od tradicionalnih kanala koji povezuju više modela za pretvaranje govora u tekst i teksta u govor, Realtime API obrađuje i smišlja zvuk izravno putem jednog modela i API-ja. Ovo smanjuje kašnjenje, čuva nijanse u govoru i proizvodi prirodnije, izražajnije odgovore.

„Novi model pretvaranja govora u govor u OpenAI-jevom Realtime API-ju pokazuje jače prosuđivanje i prirodniji govor, što mu omogućuje rukovanje složenim, višekoračnim zahtjevima poput sužavanja popisa prema potrebama životnog stila ili vođenja rasprava o pristupačnosti pomoću alata poput našeg BuyAbility score. To bi moglo učiniti da potraga za domom u Zillowu ili istraživanje opcija financiranja bude jednako prirodno kao razgovor s prijateljem, pomažući u pojednostavljenju odluka poput kupnje, prodaje i najma doma.

– Josh Weisberg, direktor umjetne inteligencije u tvrtki Zillow

Predstavljamo model gpt-realtime

Novi model pretvaranja govora u govor,gpt-realtime, naš je najnapredniji glasovni model spreman za produkciju. Model smo trenirali u bliskoj suradnji s korisnicima kako bismo postigli izvrsnost u stvarnim zadacima poput korisničke podrške, osobne asistencije i obrazovanja, usklađujući model s načinom na koji razvojni inženjeri nadograđuju i implementiraju glasovne agente. Model pokazuje poboljšanja u kvaliteti audiozapisa, inteligenciji, praćenju uputa i pozivanju funkcija.

Kvaliteta audiozapisa

Razgovor koji zvuči prirodno ključan je za primjenu glasovnih agenata u stvarnom svijetu. Modeli trebaju govoriti s intonacijom, emocijama i tempom čovjeka kako bi stvorili ugodno iskustvo i potaknuli kontinuirani razgovor s korisnicima. Obučili smo gpt-realtime da proizvodi kvalitetniji govor koji zvuči prirodnije i može slijediti precizne upute, poput „govorite brzo i profesionalno" ili „govorite empatično s francuskim naglaskom".

Objavljujemo dva nova glasa u API-ju, Marina i Cedara, s najznačajnijim poboljšanjima u govoru koji zvuči prirodno. Također ažuriramo naših osam postojećih glasova kako bismo iskoristili ova poboljšanja.

Uzorak glasa - Marin
Uzorak glasa - Cedar

Inteligencija i razumijevanje

gpt-realtime pokazuje veću inteligenciju i može razumjeti izvorni audiozapis s većom točnošću. Model može prepoznati neverbalne znakove (poput smijeha), promijeniti jezik usred rečenice i prilagoditi ton („oštar i profesionalan“ naspram „ljubazan i empatičan“). Prema internim evaluacijama model također pokazuje točniju izvedbu u prepoznavanju alfanumeričkih nizova (poput telefonskih brojeva, VIN-ova itd.) na drugim jezicima, uključujući španjolski, kineski, japanski i francuski. Na audio evaluaciji Big Bench koja mjeri sposobnosti prosuđivanja, gpt-realtime postiže točnost od 82,8 %, nadmašujući naš prethodni model iz prosinca 2024., koji je postigao 65,6 %.

Evaluacija Big Bench Audio(otvara se u novom prozoru) je evaluacijski skup podataka za procjenu potencijala prosuđivanja jezičnih modela s podrškom za audio upis. Ovaj skup podataka adaptira pitanja iz Big Bench Harda, odabranog zbog rigoroznog testiranja naprednog prosuđivanja, u audio domenu.

Praćenje uputa

Prilikom nadogradnje aplikacije za pretvaranje govora u govor, razvojni inženjeri daju modelu skup uputa o tome kako se ponašati, uključujući kako govoriti, što reći u određenoj situaciji te što učiniti ili ne učiniti. Usmjerili smo svoja poboljšanja na pridržavanje ovih uputa, kako bi čak i manje upute nosile više signala za model. Na audio testu MultiChallenge koji mjeri točnost praćenja instrukcija, gpt-realtime postiže rezultat od 30,5 %, što je značajno poboljšanje u odnosu na naš prethodni model iz prosinca 2024., koji postiže 20,6 %.

MultiChallenge(otvara se u novom prozoru) procjenjuje koliko dobro LLM-ovi upravljaju višestrukim razgovorima s ljudima. Usredotočuje se na četiri kategorije stvarnih izazova s kojima se suočavaju trenutni napredni modeli. Ovi izazovi zahtijevaju da modeli istovremeno kombiniraju praćenje uputa, upravljanje kontekstom i prosuđivanje u kontekstu. Pretvorili smo audioprilagođeni podskup testnih pitanja iz teksta u govor kako bismo stvorili audio verziju ove evaluacije.

Pozivanje funkcija

Kako bi se nadogradio sposoban glasovni agent s modelom speech-to-speech, model mora biti sposoban pozvati odgovarajuće alate u pravo vrijeme kako bi bio koristan u produkciji. Poboljšali smo pozivanje funkcija u tri aspekta: pozivanje relevantnih funkcija, pozivanje funkcija u odgovarajuće vrijeme i pozivanje funkcija s odgovarajućim argumentima (što rezultira većom točnošću). Na audio evaluaciji ComplexFuncBench za mjerenje performansi pozivanja funkcija, gpt-realtime postiže 66,5 %, dok naš prethodni model iz prosinca 2024. postiže 49,7 %.

Također smo poboljšali asinkrono pozivanje funkcija(otvara se u novom prozoru). Dugotrajni pozivi funkcija više neće ometati tijek sesije, model može nastaviti fluidan razgovor dok čeka rezultate. Ova je značajka izvorno dostupna u gpt-realtime, tako da razvojni inženjeri ne moraju ažurirati svoj kod.

ComplexFuncBench(otvara se u novom prozoru) mjeri koliko dobro modeli rješavaju izazovne zadatke pozivanja funkcija. Procjenjuje performanse u različitim scenarijima kao što su višestupanjski pozivi, prosuđivanje o ograničenjima ili implicitnim parametrima, rukovanje vrlo dugim upisima. Pretvorili smo izvorne tekstualne odzivnike u govor kako bismo izradili ovu evaluaciju za naš model.

Novo u Realtime API-ju

Podrška za udaljeni MCP poslužitelj

MCP podršku možete omogućiti u Realtime API-jevoj sesiji tako da u konfiguraciju sesije unesete URL udaljenog MCP poslužitelja. Nakon povezivanja API automatski obrađuje pozive alata umjesto vas, tako da nema potrebe za ručnim povezivanjem integracija.

Ova postavka olakšava proširenje vašeg agenta novim potencijalima, samo usmjerite sesiju na drugi MCP poslužitelj i ti alati odmah postaju dostupni. Kako biste saznali više o konfiguriranju MCP-a s modelom Realtime, pogledajte ovaj vodič(otvara se u novom prozoru).

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Upis slike

Sada kada su upisi slike podržani u gpt-realtime, možete dodati slike, fotografije i snimke zaslona uz zvuk ili tekst u sesiju Realtime API-ja. Sada model može utemeljiti razgovor na onome što korisnik zapravo vidi, omogućujući korisnicima da postavljaju pitanja poput „što vidite?“ ili „pročitajte tekst na ovoj snimci zaslona“.

Umjesto da sliku tretira kao prijenos uživo, sustav je tretira više kao dodavanje slike u razgovor. Vaša aplikacija može odlučiti koje slike podijeliti s modelom i kada ih podijeliti. Na ovaj način ostajete u kontroli nad onim što model vidi i kada odgovara.

Pogledajte našu dokumentaciju(otvara se u novom prozoru) kako biste započeli s upisom slika.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Dodatni potencijali

Dodali smo nekoliko drugih značajki kako bismo olakšali integraciju Realtime API-ja i učinili ga fleksibilnijim za produkcijsku upotrebu.

Sigurnost i privatnost

Realtime API uključuje više slojeva zaštitnih mjera i mjera ublažavanja kako bi se spriječila zlouporaba. Više o našem sigurnosnom pristupu i detaljima o karticama sustava možete saznati u blogu o najavi beta verzije. Koristimo aktivne klasifikatore tijekom sesija Realtime API-ja, što znači da se određeni razgovori mogu zaustaviti ako se otkrije da prekrše naše smjernice o štetnom sadržaju. Razvojni inženjeri također mogu jednostavno dodati vlastite dodatne sigurnosne ograde pomoću Agents SDK(otvara se u novom prozoru).

Naši pravilnici o upotrebi zabranjuju prenamjenu ili distribuciju rezultata naših usluga za neželjenu poštu, obmanu ili ostale štetne svrhe. Razvojni inženjeri također to moraju jasno dati do znanja krajnjim korisnicima kada komuniciraju s AI-jem, osim ako to već nije očito iz konteksta. Realtime API koristi unaprijed postavljene glasove kako bi spriječio zlonamjerne aktere da se lažno predstavljaju kao drugi.

Realtime API u potpunosti podržava Rezidentnost EU podataka(otvara se u novom prozoru) za aplikacije sa sjedištem u EU i pokriven je našim obvezama o privatnosti za poduzeća.

Određivanje cijene i dostupnost

Općenito dostupni Realtime API i novi model gpt-realtime dostupni su svim razvojnim inženjerima od danas. Snižavamo cijene za gpt-realtime za 20 % u usporedbi s GPT‑4o‑realtime‑prview32 USD / 1 milijun audio tokena za upis (0,40 USD za predmemorirane ulazne tokene) i 64 USD / 1 milijun audio izlaznih tokena (pogledajte detaljne cijene(otvara se u novom prozoru)). Također smo dodali preciznu kontrolu za kontekst razgovora kako bismo omogućili razvojnim inženjerima postavljanje inteligentnih ograničenja tokena i skraćivanje više koraka odjednom, značajno smanjujući troškove za duge sesije.

Repriza prijenosa uživo

Autor

OpenAI