Îți prezentăm gpt-realtime și actualizările API-ului Realtime pentru agenții vocali de producție
Lansăm un model mai avansat de vorbire transformată în vorbire și noi capacități API, inclusiv compatibilitatea cu serverul MCP, introducere de imagini și compatibilitatea cu apeluri telefonice SIP.

Astăzi, punem la dispoziția publicului larg API-ul Realtime cu noi funcții care le permit dezvoltatorilor și companiilor să creeze agenți vocali fiabili, pregătiți pentru producție. API-ul acceptă acum servere MCP la distanță, intrări de imagini și apeluri telefonice prin Protocolul de inițiere a sesiunii (SIP), ceea ce sporește capacitatea agenților vocali prin accesul la instrumente și context suplimentare.
De asemenea, lansăm cel mai avansat model de conversie vocală de până acum — gpt-realtime. Noul model arată îmbunătățiri în urmărirea instrucțiunilor complexe, apelarea precisă a instrumentelor și generarea unei vorbiri care sună mai natural și mai expresiv. Este mai eficient la interpretarea mesajelor de sistem și a solicitărilor dezvoltatorului - fie că este vorba de citirea cuvânt cu cuvânt a scripturilor de declinare a responsabilității într-un apel de asistență, repetarea caracterelor alfanumerice sau comutarea fluidă între limbi în mijlocul propoziției. De asemenea, lansăm două voci noi, Cedar și Marin, care sunt disponibile exclusiv în Realtime API începând de astăzi.
De când am introdus pentru prima dată API-ul Realtime în versiunea Beta publică în octombrie anul trecut, mii de dezvoltatori au lucrat cu API-ul și au ajutat la conturarea îmbunătățirilor pe care le lansăm astăzi - optimizate pentru fiabilitate, latență redusă și calitate înaltă pentru a implementa cu succes agenți vocali în producție. Spre deosebire de fluxurile tradiționale care leagă mai multe modele pentru conversia vorbirii în text și invers, API-ul Realtime procesează și generează audio direct printr-un singur model și API. Acest lucru reduce latența, păstrează nuanțele în vorbire și produce răspunsuri mai naturale și expresive.
„Noul model de la OpenAI speech-to-speech din API-ul Realtime demonstrează un raționament mai avansat și o vorbire mai naturală, permițând gestionarea cererilor complexe, în mai mulți pași, cum ar fi restrângerea listărilor în funcție de nevoile stilului de viață sau ghidarea discuțiilor despre accesibilitate cu instrumente precum scorul nostru BuyAbility. Acest lucru ar putea face căutarea unei case pe Zillow sau explorarea opțiunilor de finanțare să fie la fel de naturală ca o conversație cu un prieten, ajutând la simplificarea deciziilor precum cumpărarea, vânzarea și închirierea unei case.”
– Josh Weisberg, directorul departamentului de inteligență artificială de la Zillow
Noul model speech-to-speech — gpt-realtime — este cel mai avansat model vocal pregătit pentru producție. Am instruit modelul în strânsă colaborare cu clienții pentru a excela în sarcini reale precum suport clienți, asistență personală și educație — aliniind modelul la modul în care dezvoltatorii construiesc și implementează agenți vocali. Modelul arată îmbunătățiri în calitatea audio, inteligență, urmărirea instrucțiunilor și apelarea funcțiilor.
Conversațiile care sună natural sunt critice pentru implementarea agenților vocali în lumea reală. Modelele trebuie să vorbească cu intonația, emoția și ritmul unui om pentru a crea o experiență plăcută și a încuraja conversația continuă cu utilizatorii. Am antrenat gpt-realtime să producă un discurs de calitate superioară, care să sune mai natural și să poată urma instrucțiuni detaliate, cum ar fi „vorbește rapid și profesional” sau „vorbește empatic cu accent francez”.
Lansăm două voci noi în API, Marin și Cedar, cu cele mai semnificative îmbunătățiri ale redării sunetului natural al vorbirii. De asemenea, actualizăm cele opt voci existente pentru a profita de aceste îmbunătățiri.
gpt-realtime demonstrează o inteligență sporită și poate înțelege sunetul nativ cu o precizie mai mare. Modelul poate capta indicii non-verbale (cum ar fi râsul), poate schimba limbile la mijlocul propoziției și poate adapta tonul („scurt și profesional” vs. „amabil și empatic”). Conform evaluărilor interne, modelul prezintă și o performanță mai precisă în detectarea secvențelor alfanumerice (cum ar fi numere de telefon, VIN-uri etc.) în alte limbi, inclusiv în spaniolă, chineză, japoneză și franceză. În cadrul evaluării Big Bench Audio, care măsoară capacitățile de raționament, gpt-realtime are o precizie de 82,8%, depășindu-ne modelul anterior din decembrie 2024, care obținuse un scor de 65,6%.
Testul de performanță Big Bench Audio(se deschide într-o fereastră nouă) este un set de date de evaluare pentru analiza capacităților de raționament ale modelelor lingvistice care acceptă intrări audio. Acest set de date adaptează întrebări din Big Bench Hard — ales pentru testarea riguroasă a raționamentului avansat — în domeniul audio.
Când construiești o aplicație de tip speech-to-speech, dezvoltatorii oferă un set de instrucțiuni modelului despre cum să se comporte, inclusiv cum să vorbească, ce să spună într-o anumită situație și ce să facă sau să nu facă. Ne-am concentrat îmbunătățirile pe respectarea acestor instrucțiuni, astfel încât chiar și indicațiile minore să transmită mai mult semnal modelului. La benchmark-ul audio MultiChallenge care măsoară acuratețea urmării instrucțiunilor, gpt-realtime obține un scor de 30,5%, o îmbunătățire semnificativă față de modelul nostru anterior din decembrie 2024, care a obținut un scor de 20,6%.
MultiChallenge(se deschide într-o fereastră nouă) evaluează cât de bine gestionează LLM-urile conversațiile pe mai multe rânduri cu oamenii. Se concentrează pe patru categorii de provocări realiste cu care se confruntă modelele actuale de frontieră. Aceste provocări necesită modele care să combine urmărirea instrucțiunilor, gestionarea contextului și raționamentul în context, toate simultan. Am transformat un subset de întrebări ale testului, prietenos cu redarea audio, din text-to-speech pentru a crea o versiune audio a acestei evaluări.
Pentru a construi un agent vocal capabil folosind un model de tip speech-to-speech, modelul trebuie să poată apela instrumentele potrivite la momentul potrivit pentru a fi util în producție. Am îmbunătățit apelarea funcțiilor pe trei direcții: apelarea funcțiilor relevante, apelarea funcțiilor la momentul potrivit și apelarea funcțiilor cu argumente adecvate (ceea ce duce la o precizie mai mare). În evaluarea audio ComplexFuncBench care măsoară performanța apelării funcțiilor, gpt-realtime obține un scor de 66,5%, în timp ce modelul nostru anterior din decembrie 2024 obține un scor de 49,7%.
De asemenea, am adus îmbunătățiri la apelarea funcțiilor asincrone(se deschide într-o fereastră nouă). Apelările de funcții de lungă durată nu vor mai întrerupe fluxul unei sesiuni — modelul poate continua o conversație fluidă în timp ce așteaptă rezultatele. Această funcție este disponibilă nativ în gpt-realtime, deci dezvoltatorii nu trebuie să-și actualizeze codul.
ComplexFuncBench(se deschide într-o fereastră nouă) măsoară cât de bine gestionează modelele sarcinile dificile de apelare a funcțiilor. Evaluează performanța în diverse scenarii, cum ar fi apelările în mai mulți pași, raționamentul privind constrângerile sau parametri impliciți, gestionarea intrărilor foarte lungi. Am convertit solicitările textuale originale în vorbire pentru a crea această evaluare pentru modelul nostru.
Poți activa compatibilitatea cu MCP într-o sesiune cu API-ul Realtime transmițând URL-ul unui server MCP la distanță în configurația sesiunii. După conectare, API-ul gestionează automat apelările instrumentelor în locul tău, așa că nu va mai fi nevoie să conectezi manual integrările.
Această configurare facilitează extinderea agentului cu noi capacități — trebuie doar să direcționezi sesiunea către un alt server MCP, iar acele instrumente vor deveni disponibile imediat. Pentru a afla mai multe despre configurarea MCP cu Realtime, consultă acest ghid(se deschide într-o fereastră nouă).
Acum că gpt-realtime acceptă intrări de imagini, poți adăuga imagini, fotografii și capturi de ecran alături de fișiere audio sau text într-o sesiune API Realtime. Acum, modelul poate fundamenta conversația în ceea ce vede de fapt utilizatorul, permițându-le utilizatorilor să pună întrebări precum „ce vezi?” sau „citește textul din această captură de ecran”.
În loc să trateze o imagine ca pe un flux video live, sistemul o tratează mai mult ca și cum ar adăuga o fotografie în conversație. Aplicația ta poate decide care imagini să partajeze cu modelul și când să le partajeze. În acest fel, deții controlul asupra a ceea ce vede modelul și a momentului în care acesta răspunde.
Consultă documentația(se deschide într-o fereastră nouă) noastră pentru a începe să utilizezi intrarea imaginilor.
Am adăugat mai multe funcționalități pentru a face API-ul Realtime mai ușor de integrat și mai flexibil pentru utilizarea în producție.
- Compatibilitate cu Protocolul de inițiere a sesiunii (SIP): Conectează-ți aplicațiile la rețeaua telefonică publică, sistemele PBX, telefoanele fixe și alte terminale SIP cu compatibilitate directă în API-ul Realtime. Citește despre asta în documentație.(se deschide într-o fereastră nouă)
- Solicitări reutilizabile: Acum poți salva și reutiliza solicitări – constând în mesaje pentru dezvoltatori, instrumente, variabile și exemple de mesaje pentru utilizatori/asistenți — în sesiunile cu API-ul Realtime, la fel ca în API-ul Responses. Află mai multe din documentație.(se deschide într-o fereastră nouă)
API-ul Realtime încorporează mai multe straturi de măsuri de protecție și atenuare pentru a ajuta la prevenirea utilizării abuzive. Poți afla mai multe despre abordarea noastră privind siguranța și detaliile fișei de sistem în blogul cu anunțuri beta. Utilizăm clasificatori activi în sesiunile API în timp real, ceea ce înseamnă că anumite conversații pot fi oprite dacă sunt detectate ca încălcând ghidurile noastre privind conținutul dăunător. Dezvoltatorii pot adăuga cu ușurință propriile măsuri de siguranță suplimentare folosind Agents SDK(se deschide într-o fereastră nouă).
Politicile noastre de utilizare interzic reutilizarea sau distribuirea rezultatelor serviciilor noastre în scopuri de spam, înșelăciune sau alte scopuri dăunătoare. De asemenea, dezvoltatorii trebuie să le explice utilizatorilor finali în mod clar când interacționează cu inteligența artificială, cu excepția cazului în care acest lucru este deja evident din context. API-ul Realtime folosește voci prestabilite pentru a împiedica actorii rău intenționați să-și asume identitatea altor persoane.
API-ul Realtime acceptă pe deplin rezidența datelor în UE(se deschide într-o fereastră nouă) pentru aplicațiile bazate în UE și este acoperit de angajamentele noastre de confidențialitate la nivel enterprise.
API-ul Realtime, disponibil la nivel general, și noul model gpt-realtime sunt disponibile pentru toți dezvoltatorii începând de astăzi. Reducem prețurile pentru gpt-realtime cu 20% față de gpt-4o-realtime-preview— 32 USD / 1 milion de tokenuri de intrare audio (0,40 USD pentru tokenuri de intrare salvate în cache) și 64 USD / 1 milion de tokenuri de ieșire audio (consultă prețurile detaliate(se deschide într-o fereastră nouă)). De asemenea, am adăugat un control detaliat al contextului conversațiilor, pentru a le permite dezvoltatorilor să seteze limite inteligente pentru tokenuri și să trunchieze mai multe ture simultan, reducând semnificativ costurile pentru sesiunile lungi.
Pentru a începe, vizitează documentația noastră API Realtime(se deschide într-o fereastră nouă), testează noul model în Playground(se deschide într-o fereastră nouă) și consultă ghidul nostru API Realtime pentru solicitări(se deschide într-o fereastră nouă).


