Пређите на главни садржај
OpenAI

28. август 2025.

ПроизводИздање

Predstavljamo gpt-realtime i novosti u Realtime API-ju za produkcijske glasovne agente

Objavljujemo napredniji model za конвертовање из говора у говор i nove API mogućnosti, uključujući podršku za MCP servere, unos slika i podršku za SIP telefonske pozive.

Stilizovani interfejs koji prikazuje glasovnu interakciju. U sredini je zaobljeni pravougaoni audio plejer sa vizualizacijom talasnog oblika, dugmetom za reprodukciju/pauzu, indikatorom statusa „Agent online” i vremenskom oznakom 00:35. Bele zakrivljene linije sa tačkama protiču preko slike, sugerišući prenos zvuka uživo ili kretanje signala. Pozadina je jarko plava sa zamućenim oblicima cveća u ružičastim i ljubičastim tonovima.
Учитавање…

Danas Realtime API činimo opšte dostupnim uz nove funkcije koje programerima i kompanijama omogućavaju da grade pouzdane, za produkciju spremne glasovne agente. API sada podržava udaljene MCP servere, ulazne slike i telefonske pozive preko protokola Session Initiation Protocol (SIP), čime glasovni agenti postaju sposobniji zahvaljujući pristupu dodatnim alatima i kontekstu.

Takođe objavljujemo naš do sada najnapredniji model za конвертовање из говора у говор — gpt-realtime. Novi model donosi poboljšanja u praćenju složenih instrukcija, preciznom pozivanju alata i generisanju govora koji zvuči prirodnije i izražajnije. Bolji je u tumačenju sistemskih poruka i instrukcija programera — bilo da je to čitanje tekstova odricanja odgovornosti od reči do reči u pozivu podršci, ponavljanje alfanumeričkih nizova ili neprimetno prebacivanje između jezika usred rečenice. Danas objavljujemo i dva nova glasa, Cedar i Marin, koji su od danas dostupni ekskluzivno u Realtime API-ju.

Od kada smo prošlog oktobra prvi put predstavili Realtime API u javnoj beta verziji, hiljade programera je gradilo uz ovaj API i pomoglo da se oblikuju poboljšanja koja danas objavljujemo — optimizovana za pouzdanost, malo kašnjenje i visok kvalitet radi uspešnog uvođenja glasovnih agenata u produkciju. Za razliku od tradicionalnih tokova koji povezuju više modela kroz pretvaranje govora u tekst i teksta u govor, Realtime API direktno obrađuje i generiše zvuk kroz jedan model i jedan API. Time se smanjuje kašnjenje, čuvaju nijanse u govoru i dobijaju prirodniji, izražajniji odgovori.

„Novi model za конвертовање из говора у говор u OpenAI-jevom Realtime API-ju pokazuje snažnije rezonovanje i prirodniji govor — što mu omogućava da obrađuje složene, višekoračne zahteve, poput sužavanja ponude prema životnim potrebama ili vođenja razgovora o pristupačnosti uz alate kao što je naš BuyAbility skor. To bi moglo učiniti pretragu doma na Zillow-u ili istraživanje opcija finansiranja prirodnim poput razgovora s prijateljem, pomažući da se pojednostave odluke kao što su kupovina, prodaja i iznajmljivanje doma.”

– Josh Weisberg, direktor AI-ja u kompaniji Zillow

Predstavljamo gpt-realtime

Novi model za конвертовање из говора у говор — gpt-realtime — naš je najnapredniji glasovni model spreman za produkciju. Model smo trenirali u bliskoj saradnji sa korisnicima kako bi briljirao u stvarnim zadacima kao što su korisnička podrška, lična asistencija i obrazovanje — usklađujući model sa načinom na koji programeri grade i uvode glasovne agente. Model pokazuje poboljšanja u kvalitetu zvuka, inteligenciji, praćenju instrukcija i позивање функције.

Kvalitet zvuka

Razgovor koji zvuči prirodno ključan je za uvođenje glasovnih agenata u stvarni svet. Modeli moraju da govore intonacijom, emocijom i tempom čoveka kako bi stvorili prijatno iskustvo i podstakli kontinuirani razgovor sa korisnicima. Trenirali smo gpt-realtime da proizvodi kvalitetniji govor koji zvuči prirodnije i može da prati detaljna uputstva, kao što su „govori brzo i profesionalno” ili „govori sa empatijom uz francuski akcenat”.

U API objavljujemo dva nova glasa, Marin i Cedar, sa najznačajnijim poboljšanjima prirodnog govora. Takođe ažuriramo naših postojećih osam glasova kako bi imali koristi od ovih poboljšanja.

Uzorak glasa - Marin
Uzorak glasa - Cedar

Inteligencija i razumevanje

gpt-realtime pokazuje višu inteligenciju i može preciznije da razume izvorni zvuk. Model može da uhvati neverbalne signale (poput smeha), prebacuje jezike usred rečenice i prilagodi ton („britak i profesionalan” naspram „ljubazan i empatičan”). Prema internim evaluacijama, model takođe pokazuje preciznije rezultate u prepoznavanju alfanumeričkih nizova (kao što su brojevi telefona, VIN-ovi itd.) na drugim jezicima, uključujući španski, kineski, japanski i francuski. Na Big Bench Audio evaluaciji koja meri sposobnosti rezonovanja, gpt-realtime postiže tačnost od 82,8% — nadmašujući naš prethodni model iz decembra 2024, koji postiže 65,6%.

Benchmark Big Bench Audio(отвара се у новом прозору) je evaluacioni skup podataka za procenu sposobnosti rezonovanja jezičkih modela koji podržavaju audio ulaz. Ovaj skup podataka prilagođava pitanja iz Big Bench Hard — izabranog zbog strogog testiranja naprednog rezonovanja — audio domenu.

Praćenje instrukcija

Kada grade aplikaciju za конвертовање из говора у говор, programeri modelu daju skup instrukcija o tome kako da se ponaša, uključujući kako da govori, šta da kaže u određenoj situaciji i šta da radi ili ne radi. Naša poboljšanja usmerili smo na pridržavanje tih instrukcija, tako da čak i manje smernice nose više signala za model. Na audio benchmarku MultiChallenge koji meri tačnost praćenja instrukcija, gpt-realtime postiže 30,5%, što je značajno poboljšanje u odnosu na naš prethodni model iz decembra 2024, koji postiže 20,6%.

MultiChallenge(отвара се у новом прозору) procenjuje koliko dobro veliki jezički model (LLM)-i rešavaju višekružne razgovore sa ljudima. Fokusira se na četiri kategorije realističnih izazova sa kojima se trenutni гранични modeli muče. Ovi izazovi zahtevaju da modeli istovremeno kombinuju praćenje instrukcija, upravljanje kontekstom i rezonovanje u kontekstu. Podskup test pitanja prilagođenih zvuku pretvorili smo iz teksta u govor kako bismo napravili audio verziju ove evaluacije.

Pozivanje funkcije

Da bi se izgradio sposoban glasovni agent pomoću modela za конвертовање из говора у говор, model mora da može da pozove odgovarajuće alate u pravo vreme da bi bio koristan u produkciji. Pozivanje funkcije smo unapredili po tri ose: pozivanje relevantnih funkcija, pozivanje funkcija u odgovarajućem trenutku i pozivanje funkcija sa odgovarajućim argumentima (što rezultira većom tačnošću). Na audio evaluaciji ComplexFuncBench koja meri učinak pozivanja funkcije, gpt-realtime postiže 66,5%, dok naš prethodni model iz decembra 2024 postiže 49,7%.

Unapredili smo i asinhrono pozivanje funkcije(отвара се у новом прозору). Dugotrajni pozivi funkcija više neće remetiti tok sesije — model može da nastavi tečan razgovor dok čeka rezultate. Ova funkcija je izvorno dostupna u gpt-realtime, tako da programeri ne moraju da ažuriraju svoj kod.

ComplexFuncBench(отвара се у новом прозору) meri koliko dobro modeli rešavaju zahtevne zadatke позивање функције. Procena obuhvata scenarije kao što su višekoračni pozivi, rezonovanje o ograničenjima ili implicitnim parametrima i obrada veoma dugih ulaza. Originalne tekstualne instrukcije pretvorili smo u govor da bismo izgradili ovu evaluaciju za naš model.

Novo u Realtime API-ju

Podrška za udaljene MCP servere

MCP podršku u Realtime API sesiji možete omogućiti prosleđivanjem URL-a udaljenog MCP servera u konfiguraciju sesije. Kada se poveže, API automatski obrađuje pozive alata umesto vas, tako da nema potrebe da ručno povezujete integracije.

Ova postavka olakšava proširenje vašeg agenta novim mogućnostima — samo usmerite sesiju na drugi MCP server i ti alati odmah postaju dostupni. Da biste saznali više o konfigurisanju MCP-a uz Realtime, pogledajte ovaj vodič(отвара се у новом прозору).

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Unos slika

Pošto je unos slika sada podržan u gpt-realtime, u Realtime API sesiju možete dodavati slike, fotografije i snimke ekrana zajedno sa zvukom ili tekstom. Model sada može da zasnuje razgovor na onome što korisnik zaista vidi, omogućavajući korisnicima da postavljaju pitanja kao što su „šta vidiš?” ili „pročitaj tekst na ovom snimku ekrana”.

Umesto da sliku tretira kao video prenos uživo, sistem je tretira više kao dodavanje slike u razgovor. Vaša aplikacija može da odluči koje slike da podeli sa modelom i kada da ih podeli. Tako zadržavate kontrolu nad tim šta model vidi i kada odgovara.

Pogledajte našu dokumentaciju(отвара се у новом прозору) da biste počeli sa unosom slika.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Dodatne mogućnosti

Dodali smo još nekoliko funkcija kako bismo Realtime API učinili lakšim za integraciju i fleksibilnijim za upotrebu u produkciji.

Bezbednost i privatnost

Realtime API uključuje više slojeva zaštitnih mera i ublažavanja rizika kako bi pomogao u sprečavanju zloupotrebe. Više o našem pristupu bezbednosti i detaljima sistemske kartice možete saznati u blog objavi o beta najavi. Aktivno primenjujemo klasifikatore nad Realtime API sesijama, što znači da određeni razgovori mogu biti zaustavljeni ako se otkrije da krše naše smernice za štetan sadržaj. Programeri takođe mogu lako da dodaju sopstvene dodatne bezbednosne ograde koristeći Agents SDK(отвара се у новом прозору).

Naše politike korišćenja zabranjuju prenamenu ili distribuciju izlaza iz naših usluga za neželjenu poštu, obmanu ili druge štetne svrhe. Programeri takođe moraju jasno da stave do znanja krajnjim korisnicima kada stupaju u interakciju sa AI-jem, osim ako to već nije očigledno iz konteksta. Realtime API koristi unapred podešene glasove kako bi pomogao u sprečavanju da zlonamerni akteri oponašaju druge.

Realtime API u potpunosti podržava EU Data Residency(отвара се у новом прозору) za aplikacije sa sedištem u EU i obuhvaćen je našim obavezama zaštite privatnosti za preduzeća.

Cene i dostupnost

Opšte dostupni Realtime API i novi model gpt-realtime od danas su dostupni svim programerima. Smanjujemo cene za gpt-realtime za 20% u odnosu na gpt-4o-realtime-preview — $32 / 1M ulaznih audio tokena ($0.40 za keširane ulazne tokene) i $64 / 1M izlaznih audio tokena (pogledajte detaljne cene(отвара се у новом прозору)). Dodali smo i detaljnu kontrolu konteksta razgovora kako bismo programerima omogućili da postave inteligentna ograničenja tokena i skrate više smena odjednom, značajno smanjujući troškove dugih sesija.

Snimak prenosa uživo

Аутор

OpenAI