Preskočite na glavni sadržaj
OpenAI

28. august 2025.

ProductObjavljivanje

Predstavljamo gpt-realtime i ažuriranja Realtime API-ja za glasovne agente u produkciji

Objavljujemo napredniji model za pretvaranje govora u govor i nove API mogućnosti, uključujući podršku za MCP server, unos slika i podršku za SIP telefonske pozive.

Stilizirano sučelje koje prikazuje glasovnu interakciju. Centriran je zaobljeni pravougaoni audio plejer sa vizuelizacijom talasnog oblika, dugmetom za reprodukciju/pauzu, indikatorom statusa „Agent online“ i vremenskom oznakom 00:35. Bijele zakrivljene linije s tačkama teku preko slike, sugerirajući kretanje uživo zvuka ili signala. Pozadina je jarko plava sa zamućenim oblicima cvijeća u ružičastim i ljubičastim tonovima.
Učitavanje…

Danas činimo Realtime API općenito dostupnim s novim funkcijama koje omogućuju programerima i preduzećima da izgrade pouzdane, produkcijski spremne glasovne agente. API sada podržava udaljene MCP servere, unos slika i telefonske pozive putem Protokola za inicijaciju sesije (SIP), čineći glasovne agente sposobnijim kroz pristup dodatnim alatima i kontekstu.

Također objavljujemo naš do sada najnapredniji model pretvaranja govora u govor—gpt-realtime. Novi model pokazuje poboljšanja u praćenju složenih uputa, preciznom korištenju alata i produkciji govora koji zvuči prirodnije i izražajnije. Bolji je u tumačenju sistemskih poruka i programerskih upita — bilo da čita skripte za odricanje od odgovornosti riječ po riječ na pozivu podrške, ponavlja nazad alfanumeričke znakove ili besprijekorno prelazi između jezika usred rečenice. Također predstavljamo dva nova glasa, Cedar i Marin, koji su od danas dostupni isključivo u Realtime API-ju.

Otkako smo prvi put predstavili Realtime API u javnoj beta verziji prošlog oktobra, hiljade programera su radile s API-jem i pomogle u oblikovanju poboljšanja koja danas objavljujemo – optimizovana za pouzdanost, nisku latenciju i visok kvalitet kako bi se glasovni agenti uspješno implementirali u produkciji. Za razliku od tradicionalnih tokova koji povezuju više modela kroz pretvaranje govora u tekst i teksta u govor, Realtime API obrađuje i generiše zvuk direktno putem jednog modela i API-ja. Ovo smanjuje latentnost, čuva nijanse u govoru i proizvodi prirodnije, izražajnije odgovore.

„Novi model pretvaranja govora u govor u OpenAI-jevom Realtime API-ju pokazuje snažnije rezonovanje i prirodniji govor—omogućavajući mu da obradi složene, višestepene zahtjeve poput sužavanja lista prema životnim potrebama ili vođenja diskusija o pristupačnosti pomoću alata kao što je naš BuyAbility rezultat. Ovo bi moglo učiniti da potraga za domom na Zillowu ili istražiti opcije finansiranja bude prirodno kao razgovor s prijateljem, pomažući u pojednostavljenju odluka poput kupovine, prodaje i iznajmljivanja doma.“

– Josh Weisberg, voditelj AI-a u Zillowu

Predstavljamo gpt-realtime

Novi model pretvaranja govora u govor—gpt-realtime—je naš najnapredniji, spreman za proizvodnju glasovni model. Model smo obučili u bliskoj saradnji s kupcima kako bismo se istaknuli u stvarnim zadacima kao što su korisnička podrška, lična asistencija i edukacija – usklađujući model s načinom na koji programeri grade i implementiraju glasovne agente. Model pokazuje poboljšanja u kvaliteti zvuka, inteligenciji, praćenju uputa i pozivanju funkcija.

Kvalitet zvuka

Prirodno zvučeći razgovor je ključan za implementaciju glasovnih agenata u stvarnom svijetu. Modeli trebaju govoriti intonacijom, emocijama i tempom čovjeka kako bi kreirali ugodno iskustvo i potaknuli kontinuirani razgovor s korisnicima. Obučili smo gpt-realtime da proizvodi govor višeg kvaliteta koji zvuči prirodnije i može slijediti precizne upute, kao što su "govorite brzo i profesionalno" ili "govorite empatično s francuskim akcentom."

Objavljujemo dva nova glasa u API-ju, Marin i Cedar, s najznačajnijim poboljšanjima u prirodnosti zvuka govora. Također ažuriramo naših osam postojećih glasova kako bismo iskoristili ova poboljšanja.

Uzorak glasa - Marin
Uzorak glasa - Cedar

Inteligencija i razumijevanje

gpt-realtime pokazuje viši nivo inteligencije i može razumjeti izvorni zvuk s većom preciznošću. Model može prepoznati neverbalne znakove (kao što su smijeh), promijeniti jezik usred rečenice i prilagoditi ton („oštar i profesionalan“ naspram „ljubazan i empatičan“). Prema internim evaluacijama, model također pokazuje preciznije performanse u prepoznavanju alfanumeričkih nizova (kao što su brojevi telefona, VIN-ovi itd.) na drugim jezicima, uključujući španski, kineski, japanski i francuski. Na Big Bench Audio evaluaciji koja mjeri sposobnosti rezonovanja, gpt-realtime postiže 82,8% tačnosti — nadmašujući naš prethodni model iz decembra 2024., koji je ostvario 65,6%.

Big Bench Audio(otvara se u novom prozoru) benchmark je evaluacijski skup podataka za procjenu sposobnosti rezonovanja jezičkih modela koji imaju podršku za audio unos. Ovaj skup podataka prilagođava pitanja iz Big Bench Hard—odabranog zbog rigoroznog testiranja naprednog rezonovanja—u audio domen.

Praćenje uputstava

Prilikom izrade aplikacije za pretvaranje govora u govor, programeri daju modelu skup uputa o tome kako se ponašati, uključujući kako govoriti, što reći u određenoj situaciji i što učiniti ili ne učiniti. Usmjerili smo svoja poboljšanja na pridržavanje ovih uputa, kako bi čak i manje upute nosile više signala za model. Na MultiChallenge audio benchmarku koji mjeri tačnost praćenja instrukcija, gpt-realtime postiže rezultat od 30,5%, što je značajno poboljšanje u odnosu na naš prethodni model iz decembra 2024, koji je postigao rezultat od 20,6%.

MultiChallenge(otvara se u novom prozoru) procjenjuje koliko dobro LLM-ovi upravljaju višestrukim razgovorima s ljudima. Fokusira se na četiri kategorije realističnih izazova s kojima se suočavaju trenutni napredni modeli. Ovi izazovi zahtijevaju da modeli istovremeno kombinuju praćenje instrukcija, upravljanje kontekstom i rezonovanje u kontekstu. Pretvorili smo podskup testnih pitanja prilagođen za audio iz teksta u govor kako bismo kreirali audio verziju ove evaluacije.

Pozivanje funkcija

Da biste izgradili sposobnog glasovnog agenta s modelom pretvaranja govora u govor, model mora biti u stanju pozvati prave alate u pravo vrijeme kako bi bio koristan u produkciji. Poboljšali smo pozivanje funkcija na tri osi: pozivanje relevantnih funkcija, pozivanje funkcija u odgovarajuće vrijeme i pozivanje funkcija s odgovarajućim argumentima (što rezultira većom preciznošću). Na ComplexFuncBench audio evaluaciji za mjerenje performansi pozivanja funkcija, gpt-realtime postiže rezultat od 66,5%, dok naš prethodni model iz decembra 2024. postiže rezultat od 49,7%.

Također smo poboljšali asinhrono pozivanje funkcija(otvara se u novom prozoru). Dugotrajni pozivi funkcija više neće ometati tok sesije—model može nastaviti fluidan razgovor dok čeka rezultate. Ova funkcija je nativno dostupna u gpt-realtime, tako da programeri ne moraju ažurirati svoj kod.

ComplexFuncBench(otvara se u novom prozoru) mjeri koliko dobro modeli rješavaju izazovne zadatke pozivanja funkcija. Procjenjuje performanse u različitim scenarijima kao što su višestepeni pozivi, rezonovanje o ograničenjima ili implicitnim parametrima, te rukovanje vrlo dugim unosima. Originalne tekstualne upite smo pretvorili u govor kako bismo izradili ovu evaluaciju za naš model.

Novo u Realtime API-ju

Podrška za udaljeni MCP server

Možete omogućiti podršku za MCP u Realtime API sesiji prosljeđivanjem URL-a udaljenog MCP servera u konfiguraciju sesije. Nakon povezivanja, API automatski obrađuje pozive alata umjesto vas, tako da nema potrebe da ručno povezujete integracije.

Ova postavka olakšava proširenje vašeg agenta novim mogućnostima—samo usmjerite sesiju na drugi MCP server i ti alati odmah postaju dostupni. Da biste saznali više o konfiguriranju MCP-a s Realtimeom, pogledajte ovaj vodič(otvara se u novom prozoru).

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Unos slike

Sada kada su gpt-realtime podržani unosi slika, možete dodati slike, fotografije i snimke ekrana uz zvuk ili tekst u sesiju Realtime API-ja. Sada model može utemeljiti razgovor na onome što korisnik zapravo vidi, omogućavajući korisnicima da postavljaju pitanja poput „šta vidite?“ ili „pročitajte tekst na ovom snimku ekrana.“

Umjesto da tretira sliku kao prijenos uživo, sistem je tretira više kao dodavanje slike u razgovor. Vaša aplikacija može odlučiti koje slike podijeliti s modelom i kada ih podijeliti. Na ovaj način, vi zadržavate kontrolu nad onim što model vidi i kada odgovara.

Pogledajte našu dokumentaciju(otvara se u novom prozoru) kako biste započeli s unosom slika.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Dodatne mogućnosti

Dodali smo nekoliko drugih funkcija kako bismo olakšali integraciju Realtime API-ja i učinili ga fleksibilnijim za produkcijsku upotrebu.

Sigurnost i privatnost

Realtime API uključuje više slojeva zaštitnih mjera i mjera ublažavanja kako bi se spriječila zloupotreba. Možete saznati više o našem sigurnosnom pristupu i detaljima sistemske kartice u blogu s najavom beta verzije. Koristimo aktivne klasifikatore tokom sesija Realtime API-ja, što znači da se određeni razgovori mogu zaustaviti ako se otkrije da prekršavaju naše smjernice o štetnom sadržaju. Programeri također mogu lako dodati vlastite dodatne sigurnosne mjere koristeći Agents SDK(otvara se u novom prozoru).

Naša pravila upotrebe zabranjuju prenamjenu ili distribuciju rezultata naših usluga za neželjenu poštu, obmanu ili druge štetne svrhe. Programeri također moraju jasno staviti do znanja krajnjim korisnicima kada komuniciraju s AI, osim ako to već nije očigledno iz konteksta. Realtime API koristi unaprijed postavljene glasove kako bi spriječio zlonamjerne aktere da se predstavljaju kao drugi.

Realtime API u potpunosti podržava EU Data Residency(otvara se u novom prozoru) za aplikacije sa sjedištem u EU i pokriven je našim obavezama o privatnosti kompanije.

Cijene i dostupnost

Općenito dostupni Realtime API i novi gpt-realtime model dostupni su svim programerima počevši od danas. Smanjujemo cijene za gpt-realtime za 20% u poređenju sa gpt-4o-realtime-preview—$32 / 1M audio ulaznih tokena (0,40 USD za keširane ulazne tokene) i 64 USD / 1M audio izlaznih tokena (vidi detaljna cijena(otvara se u novom prozoru)). Također smo dodali preciznu kontrolu za kontekst razgovora kako bismo programerima omogućili postavljanje inteligentnih ograničenja tokena i skraćivanje više koraka odjednom, značajno smanjujući troškove za duge sesije.

Repriza prijenosa uživo

Autor

OpenAI