Presentem gpt-realtime i les actualitzacions de l'API Realtime per a agents de veu de producció
Publiquem un model de veu a veu més avançat i noves capacitats d'API, incloent-hi compatibilitat amb servidor MCP, entrada d'imatges i compatibilitat amb trucades telefòniques SIP.

Avui fem que l'API Realtime estigui disponible de manera general amb noves funcions que permeten als desenvolupadors i a les empreses crear agents de veu fiables i preparats per a producció. Ara l'API admet servidors MCP remots, entrades d'imatge i trucades telefòniques mitjançant el Session Initiation Protocol (SIP), fent que els agents de veu siguin més capaços gràcies a l'accés a eines i context addicionals.
També publiquem el nostre model de veu a veu més avançat fins ara: gpt-realtime. El nou model mostra millores en el seguiment d'instruccions complexes, en la invocació precisa d'eines i en la producció d'una parla que sona més natural i expressiva. Interpreta millor els missatges del sistema i les indicacions dels desenvolupadors, tant si es tracta de llegir textos d'exempció de responsabilitat paraula per paraula en una trucada d'assistència, repetir seqüències alfanumèriques o canviar d'idioma amb fluïdesa a mitja frase. També publiquem dues veus noves, Cedar i Marin, disponibles exclusivament a l'API Realtime a partir d'avui.
Des que vam presentar per primer cop l'API Realtime en beta pública l'octubre passat, milers de desenvolupadors han creat amb l'API i han ajudat a donar forma a les millores que publiquem avui, optimitzades per a la fiabilitat, la baixa latència i l'alta qualitat per desplegar amb èxit agents de veu en producció. A diferència dels pipelines tradicionals que encadenen diversos models entre speech-to-text i text-to-speech, l'API Realtime processa i genera àudio directament mitjançant un únic model i una única API. Això redueix la latència, preserva els matisos de la parla i produeix respostes més naturals i expressives.
«El nou model de veu a veu de l'API Realtime d'OpenAI mostra un raonament més sòlid i una parla més natural, cosa que li permet gestionar sol·licituds complexes de diversos passos, com ara refinar anuncis segons necessitats d’estil de vida o guiar converses sobre assequibilitat amb eines com la nostra puntuació BuyAbility. Això podria fer que buscar una llar a Zillow o explorar opcions de finançament fos tan natural com una conversa amb un amic, ajudant a simplificar decisions com comprar, vendre i llogar una llar.»
– Josh Weisberg, Head of AI a Zillow
El nou model de veu a veu —gpt-realtime— és el nostre model de veu més avançat i preparat per a producció. Hem entrenat el model en estreta col·laboració amb clients perquè excel·leixi en tasques del món real com l'atenció al client, l'assistència personal i l'educació, alineant-lo amb la manera com els desenvolupadors creen i despleguen agents de veu. El model mostra millores en qualitat d'àudio, intel·ligència, seguiment d'instruccions i crida a funcions.
Una conversa amb so natural és fonamental per desplegar agents de veu al món real. Els models han de parlar amb la entonació, l'emoció i el ritme d'un humà per crear una experiència agradable i fomentar la conversa contínua amb els usuaris. Hem entrenat gpt-realtime perquè produeixi una parla de més qualitat, que soni més natural i que pugui seguir instruccions detallades, com ara «parla ràpid i de manera professional» o «parla amb empatia amb accent francès».
Publiquem dues veus noves a l'API, Marin i Cedar, amb les millores més significatives en parla de so natural. També actualitzem les nostres vuit veus existents perquè es beneficiïn d'aquestes millores.
gpt-realtime mostra una intel·ligència superior i pot comprendre àudio natiu amb més precisió. El model pot captar senyals no verbals (com ara rialles), canviar d'idioma a mitja frase i adaptar el to («àgil i professional» vs. «amable i empàtic»). Segons avaluacions internes, el model també mostra un rendiment més precís en la detecció de seqüències alfanumèriques (com ara números de telèfon, VIN, etc.) en altres idiomes, com l'espanyol, el xinès, el japonès i el francès. En l'avaluació Big Bench Audio que mesura les capacitats de raonament, gpt-realtime obté un 82,8% de precisió, superant el nostre model anterior del desembre de 2024, que obté un 65,6%.
El benchmark Big Bench Audio(s'obre en una finestra nova) és un conjunt de dades d’avaluació per valorar les capacitats de raonament dels models de llenguatge que admeten entrada d’àudio. Aquest conjunt de dades adapta preguntes de Big Bench Hard —triat per la seva prova rigorosa del raonament avançat— al domini de l’àudio.
Quan es crea una aplicació de veu a veu, els desenvolupadors proporcionen al model un conjunt d'instruccions sobre com s'ha de comportar, incloent-hi com ha de parlar, què ha de dir en una situació determinada i què ha de fer o no fer. Hem centrat les nostres millores en l'adhesió a aquestes instruccions, de manera que fins i tot les indicacions menors aportin més senyal al model. En el benchmark d'àudio MultiChallenge que mesura la precisió del seguiment d'instruccions, gpt-realtime obté un 30,5%, una millora significativa respecte del nostre model anterior del desembre de 2024, que obté un 20,6%.
MultiChallenge(s'obre en una finestra nova) avalua fins a quin punt els LLM gestionen converses de diversos torns amb humans. Se centra en quatre categories de reptes realistes amb què els models d'avantguarda actuals tenen dificultats. Aquests reptes exigeixen que els models combinin simultàniament el seguiment d’instruccions, la gestió del context i el raonament en context. Vam convertir a veu un subconjunt de les preguntes de prova adaptades a l’àudio per crear una versió d’àudio d’aquesta avaluació.
Per crear un agent de veu capaç amb un model de veu a veu, el model ha de poder cridar les eines adequades en el moment adequat perquè sigui útil en producció. Hem millorat la crida a funcions en tres eixos: cridar funcions rellevants, cridar funcions en el moment adequat i cridar funcions amb arguments adequats (cosa que dona com a resultat més precisió). En l'avaluació d'àudio ComplexFuncBench que mesura el rendiment de la crida a funcions, gpt-realtime obté un 66,5%, mentre que el nostre model anterior del desembre de 2024 obté un 49,7%.
També hem introduït millores a la crida a funcions asíncrona(s'obre en una finestra nova). Les crides a funcions de llarga durada ja no interrompran el flux d'una sessió: el model pot continuar una conversa fluida mentre espera els resultats. Aquesta funció està disponible de manera nativa a gpt-realtime, de manera que els desenvolupadors no han d'actualitzar el seu codi.
ComplexFuncBench(s'obre en una finestra nova) mesura fins a quin punt els models gestionen tasques difícils de crida a funcions. Avalua el rendiment en escenaris com ara crides de diversos passos, raonament sobre restriccions o paràmetres implícits, i gestió d’entrades molt llargues. Vam convertir les indicacions de text originals en veu per crear aquesta avaluació per al nostre model.
Pots habilitar la compatibilitat amb MCP en una sessió de l'API Realtime passant l'URL d'un servidor MCP remot a la configuració de la sessió. Un cop connectat, l'API gestiona automàticament les crides d'eines per tu, de manera que no cal configurar integracions manualment.
Aquesta configuració facilita ampliar el teu agent amb capacitats noves: només cal apuntar la sessió a un servidor MCP diferent i aquestes eines estaran disponibles immediatament. Per obtenir més informació sobre com configurar MCP amb Realtime, consulta aquesta guia(s'obre en una finestra nova).
Com que ara gpt-realtime admet entrades d'imatge, pots afegir imatges, fotos i captures de pantalla a una sessió de l'API Realtime juntament amb àudio o text. Ara el model pot basar la conversa en allò que l'usuari està veient realment, i permetre preguntes com «què veus?» o «llegeix el text d'aquesta captura de pantalla».
En comptes de tractar una imatge com un flux de vídeo en directe, el sistema la tracta més aviat com si afegissis una fotografia a la conversa. La teva aplicació pot decidir quines imatges comparteix amb el model i quan les comparteix. D'aquesta manera, mantens el control del que veu el model i de quan respon.
Consulta la nostra documentació(s'obre en una finestra nova) per començar amb l'entrada d'imatges.
Hem afegit diverses funcions més per fer que l'API Realtime sigui més fàcil d'integrar i més flexible per a l'ús en producció.
- Compatibilitat amb Session Initiation Protocol (SIP): Connecta les teves aplicacions a la xarxa telefònica pública, sistemes PBX, telèfons de sobretaula i altres punts finals SIP amb compatibilitat directa a l'API Realtime. Llegeix-ne més a la documentació.(s'obre en una finestra nova)
- Indicacions reutilitzables: Ara pots desar i reutilitzar indicacions —compostes per missatges de desenvolupador, eines, variables i exemples de missatges d'usuari/assistent— entre sessions de l'API Realtime, com a l'API Responses. Més informació a la documentació.(s'obre en una finestra nova)
L'API Realtime incorpora múltiples capes de salvaguardes i mitigacions per ajudar a prevenir-ne el mal ús. Pots obtenir més informació sobre el nostre enfocament de seguretat i els detalls de la fitxa del model al blog d'anunci de la beta. Utilitzem classificadors actius sobre les sessions de l'API Realtime, cosa que significa que determinades converses es poden aturar si es detecta que infringeixen les nostres directrius sobre contingut perjudicial. Els desenvolupadors també poden afegir fàcilment les seves pròpies baranes de seguretat addicionals amb l'SDK d'Agents(s'obre en una finestra nova).
Les nostres polítiques d'ús prohibeixen reutilitzar o distribuir sortides dels nostres serveis per a correu brossa, engany o altres finalitats perjudicials. Els desenvolupadors també han de deixar clar als usuaris finals quan interactuen amb IA, tret que ja sigui evident pel context. L'API Realtime utilitza veus predefinides per ajudar a evitar que actors maliciosos suplantin altres persones.
L'API Realtime és totalment compatible amb la ubicació de les dades a la UE(s'obre en una finestra nova) per a aplicacions basades a la UE i està coberta pels nostres compromisos de privadesa empresarial.
L'API Realtime amb disponibilitat general i el nou model gpt-realtime estan disponibles per a tots els desenvolupadors a partir d'avui. Reduïm els preus de gpt-realtime un 20% en comparació amb gpt-4o-realtime-preview: 32 $ / 1 M segments d'entrada d'àudio (0,40 $ per segments d'entrada en memòria cau) i 64 $ / 1 M segments de sortida d'àudio (consulta els preus detallats(s'obre en una finestra nova)). També hem afegit un control detallat del context de la conversa per permetre als desenvolupadors establir límits intel·ligents de segments i truncar diversos torns alhora, reduint significativament el cost de les sessions llargues.
Per començar, visita la nostra documentació de l'API Realtime(s'obre en una finestra nova), prova el nou model al Playground(s'obre en una finestra nova) i consulta la nostra guia d'indicacions de l'API Realtime(s'obre en una finestra nova).


