Predstavljamo gpt-realtime i ažuriranja Realtime API-ja za glasovne agente u produkciji
Objavljujemo napredniji model za pretvaranje govora u govor i nove API mogućnosti, uključujući podršku za MCP server, unos slika i podršku za SIP telefonske pozive.

Danas činimo Realtime API općenito dostupnim s novim funkcijama koje omogućuju programerima i preduzećima da izgrade pouzdane, produkcijski spremne glasovne agente. API sada podržava udaljene MCP servere, unos slika i telefonske pozive putem Protokola za inicijaciju sesije (SIP), čineći glasovne agente sposobnijim kroz pristup dodatnim alatima i kontekstu.
Također objavljujemo naš do sada najnapredniji model pretvaranja govora u govor—gpt-realtime. Novi model pokazuje poboljšanja u praćenju složenih uputa, preciznom korištenju alata i produkciji govora koji zvuči prirodnije i izražajnije. Bolji je u tumačenju sistemskih poruka i programerskih upita — bilo da čita skripte za odricanje od odgovornosti riječ po riječ na pozivu podrške, ponavlja nazad alfanumeričke znakove ili besprijekorno prelazi između jezika usred rečenice. Također predstavljamo dva nova glasa, Cedar i Marin, koji su od danas dostupni isključivo u Realtime API-ju.
Otkako smo prvi put predstavili Realtime API u javnoj beta verziji prošlog oktobra, hiljade programera su radile s API-jem i pomogle u oblikovanju poboljšanja koja danas objavljujemo – optimizovana za pouzdanost, nisku latenciju i visok kvalitet kako bi se glasovni agenti uspješno implementirali u produkciji. Za razliku od tradicionalnih tokova koji povezuju više modela kroz pretvaranje govora u tekst i teksta u govor, Realtime API obrađuje i generiše zvuk direktno putem jednog modela i API-ja. Ovo smanjuje latentnost, čuva nijanse u govoru i proizvodi prirodnije, izražajnije odgovore.
„Novi model pretvaranja govora u govor u OpenAI-jevom Realtime API-ju pokazuje snažnije rezonovanje i prirodniji govor—omogućavajući mu da obradi složene, višestepene zahtjeve poput sužavanja lista prema životnim potrebama ili vođenja diskusija o pristupačnosti pomoću alata kao što je naš BuyAbility rezultat. Ovo bi moglo učiniti da potraga za domom na Zillowu ili istražiti opcije finansiranja bude prirodno kao razgovor s prijateljem, pomažući u pojednostavljenju odluka poput kupovine, prodaje i iznajmljivanja doma.“
– Josh Weisberg, voditelj AI-a u Zillowu
Novi model pretvaranja govora u govor—gpt-realtime—je naš najnapredniji, spreman za proizvodnju glasovni model. Model smo obučili u bliskoj saradnji s kupcima kako bismo se istaknuli u stvarnim zadacima kao što su korisnička podrška, lična asistencija i edukacija – usklađujući model s načinom na koji programeri grade i implementiraju glasovne agente. Model pokazuje poboljšanja u kvaliteti zvuka, inteligenciji, praćenju uputa i pozivanju funkcija.
Prirodno zvučeći razgovor je ključan za implementaciju glasovnih agenata u stvarnom svijetu. Modeli trebaju govoriti intonacijom, emocijama i tempom čovjeka kako bi kreirali ugodno iskustvo i potaknuli kontinuirani razgovor s korisnicima. Obučili smo gpt-realtime da proizvodi govor višeg kvaliteta koji zvuči prirodnije i može slijediti precizne upute, kao što su "govorite brzo i profesionalno" ili "govorite empatično s francuskim akcentom."
Objavljujemo dva nova glasa u API-ju, Marin i Cedar, s najznačajnijim poboljšanjima u prirodnosti zvuka govora. Također ažuriramo naših osam postojećih glasova kako bismo iskoristili ova poboljšanja.
gpt-realtime pokazuje viši nivo inteligencije i može razumjeti izvorni zvuk s većom preciznošću. Model može prepoznati neverbalne znakove (kao što su smijeh), promijeniti jezik usred rečenice i prilagoditi ton („oštar i profesionalan“ naspram „ljubazan i empatičan“). Prema internim evaluacijama, model također pokazuje preciznije performanse u prepoznavanju alfanumeričkih nizova (kao što su brojevi telefona, VIN-ovi itd.) na drugim jezicima, uključujući španski, kineski, japanski i francuski. Na Big Bench Audio evaluaciji koja mjeri sposobnosti rezonovanja, gpt-realtime postiže 82,8% tačnosti — nadmašujući naš prethodni model iz decembra 2024., koji je ostvario 65,6%.
Big Bench Audio(otvara se u novom prozoru) benchmark je evaluacijski skup podataka za procjenu sposobnosti rezonovanja jezičkih modela koji imaju podršku za audio unos. Ovaj skup podataka prilagođava pitanja iz Big Bench Hard—odabranog zbog rigoroznog testiranja naprednog rezonovanja—u audio domen.
Prilikom izrade aplikacije za pretvaranje govora u govor, programeri daju modelu skup uputa o tome kako se ponašati, uključujući kako govoriti, što reći u određenoj situaciji i što učiniti ili ne učiniti. Usmjerili smo svoja poboljšanja na pridržavanje ovih uputa, kako bi čak i manje upute nosile više signala za model. Na MultiChallenge audio benchmarku koji mjeri tačnost praćenja instrukcija, gpt-realtime postiže rezultat od 30,5%, što je značajno poboljšanje u odnosu na naš prethodni model iz decembra 2024, koji je postigao rezultat od 20,6%.
MultiChallenge(otvara se u novom prozoru) procjenjuje koliko dobro LLM-ovi upravljaju višestrukim razgovorima s ljudima. Fokusira se na četiri kategorije realističnih izazova s kojima se suočavaju trenutni napredni modeli. Ovi izazovi zahtijevaju da modeli istovremeno kombinuju praćenje instrukcija, upravljanje kontekstom i rezonovanje u kontekstu. Pretvorili smo podskup testnih pitanja prilagođen za audio iz teksta u govor kako bismo kreirali audio verziju ove evaluacije.
Da biste izgradili sposobnog glasovnog agenta s modelom pretvaranja govora u govor, model mora biti u stanju pozvati prave alate u pravo vrijeme kako bi bio koristan u produkciji. Poboljšali smo pozivanje funkcija na tri osi: pozivanje relevantnih funkcija, pozivanje funkcija u odgovarajuće vrijeme i pozivanje funkcija s odgovarajućim argumentima (što rezultira većom preciznošću). Na ComplexFuncBench audio evaluaciji za mjerenje performansi pozivanja funkcija, gpt-realtime postiže rezultat od 66,5%, dok naš prethodni model iz decembra 2024. postiže rezultat od 49,7%.
Također smo poboljšali asinhrono pozivanje funkcija(otvara se u novom prozoru). Dugotrajni pozivi funkcija više neće ometati tok sesije—model može nastaviti fluidan razgovor dok čeka rezultate. Ova funkcija je nativno dostupna u gpt-realtime, tako da programeri ne moraju ažurirati svoj kod.
ComplexFuncBench(otvara se u novom prozoru) mjeri koliko dobro modeli rješavaju izazovne zadatke pozivanja funkcija. Procjenjuje performanse u različitim scenarijima kao što su višestepeni pozivi, rezonovanje o ograničenjima ili implicitnim parametrima, te rukovanje vrlo dugim unosima. Originalne tekstualne upite smo pretvorili u govor kako bismo izradili ovu evaluaciju za naš model.
Možete omogućiti podršku za MCP u Realtime API sesiji prosljeđivanjem URL-a udaljenog MCP servera u konfiguraciju sesije. Nakon povezivanja, API automatski obrađuje pozive alata umjesto vas, tako da nema potrebe da ručno povezujete integracije.
Ova postavka olakšava proširenje vašeg agenta novim mogućnostima—samo usmjerite sesiju na drugi MCP server i ti alati odmah postaju dostupni. Da biste saznali više o konfiguriranju MCP-a s Realtimeom, pogledajte ovaj vodič(otvara se u novom prozoru).
Sada kada su gpt-realtime podržani unosi slika, možete dodati slike, fotografije i snimke ekrana uz zvuk ili tekst u sesiju Realtime API-ja. Sada model može utemeljiti razgovor na onome što korisnik zapravo vidi, omogućavajući korisnicima da postavljaju pitanja poput „šta vidite?“ ili „pročitajte tekst na ovom snimku ekrana.“
Umjesto da tretira sliku kao prijenos uživo, sistem je tretira više kao dodavanje slike u razgovor. Vaša aplikacija može odlučiti koje slike podijeliti s modelom i kada ih podijeliti. Na ovaj način, vi zadržavate kontrolu nad onim što model vidi i kada odgovara.
Pogledajte našu dokumentaciju(otvara se u novom prozoru) kako biste započeli s unosom slika.
Dodali smo nekoliko drugih funkcija kako bismo olakšali integraciju Realtime API-ja i učinili ga fleksibilnijim za produkcijsku upotrebu.
- Podrška za Session Initiation Protocol (SIP): Povežite svoje aplikacije s javnom telefonskom mrežom, PBX sistemima, stolnim telefonima i drugim SIP krajnje tačke uz direktnu podršku u Realtime API-ju. Pročitajte o tome u dokumentaciji.(otvara se u novom prozoru)
- Višekratno upotrebljivi upiti: Sada možete sačuvati i ponovo koristiti upite—koji se sastoje od poruka za programer, alata, varijabli i primjera korisničkih/asistentnih poruka—u sesijama Realtime API-ja, kao u Responses API-ju. Saznajte više u dokumentaciji.(otvara se u novom prozoru)
Realtime API uključuje više slojeva zaštitnih mjera i mjera ublažavanja kako bi se spriječila zloupotreba. Možete saznati više o našem sigurnosnom pristupu i detaljima sistemske kartice u blogu s najavom beta verzije. Koristimo aktivne klasifikatore tokom sesija Realtime API-ja, što znači da se određeni razgovori mogu zaustaviti ako se otkrije da prekršavaju naše smjernice o štetnom sadržaju. Programeri također mogu lako dodati vlastite dodatne sigurnosne mjere koristeći Agents SDK(otvara se u novom prozoru).
Naša pravila upotrebe zabranjuju prenamjenu ili distribuciju rezultata naših usluga za neželjenu poštu, obmanu ili druge štetne svrhe. Programeri također moraju jasno staviti do znanja krajnjim korisnicima kada komuniciraju s AI, osim ako to već nije očigledno iz konteksta. Realtime API koristi unaprijed postavljene glasove kako bi spriječio zlonamjerne aktere da se predstavljaju kao drugi.
Realtime API u potpunosti podržava EU Data Residency(otvara se u novom prozoru) za aplikacije sa sjedištem u EU i pokriven je našim obavezama o privatnosti kompanije.
Općenito dostupni Realtime API i novi gpt-realtime model dostupni su svim programerima počevši od danas. Smanjujemo cijene za gpt-realtime za 20% u poređenju sa gpt-4o-realtime-preview—$32 / 1M audio ulaznih tokena (0,40 USD za keširane ulazne tokene) i 64 USD / 1M audio izlaznih tokena (vidi detaljna cijena(otvara se u novom prozoru)). Također smo dodali preciznu kontrolu za kontekst razgovora kako bismo programerima omogućili postavljanje inteligentnih ograničenja tokena i skraćivanje više koraka odjednom, značajno smanjujući troškove za duge sesije.
Za početak, posjetite našu dokumentaciju za Realtime API(otvara se u novom prozoru), testirajte novi model u Playgroundu(otvara se u novom prozoru) i pogledajte naš vodič za Realtime API(otvara se u novom prozoru).


