Impulsant la intel·ligència de veu amb nous models a l'API
Una nova generació de models de veu en temps real que poden raonar, traduir i transcriure mentre la gent parla.
Presentem tres models d'àudio a l'API que obren una nova categoria d'aplicacions de veu per a desenvolupadors. Amb aquests models, els desenvolupadors poden crear experiències de veu que semblen més naturals, responen amb més intel·ligència i actuen en temps real:
- GPT‑Realtime‑2, el nostre primer model de veu amb raonament de classe GPT‑5 que pot gestionar sol·licituds més difícils i fer avançar la conversa de manera natural.
- GPT‑Realtime‑Translate, un nou model de traducció en directe que tradueix la parla de més de 70 llengües d'entrada a 13 llengües de sortida mantenint el ritme de qui parla.
- GPT‑Realtime‑Whisper, una nova transcripció en streaming de parla a text que transcriu la parla en directe mentre la persona parla.
Prova GPT-Realtime-2
Què puc preguntar?
Quan iniciïs la sessió, prova de dir una d’aquestes frases:
- Organitzo un sopar d’última hora aquesta nit. Tinc 30 minuts, dos amics vegetarians, una persona que odia els bolets i una cuina minúscula. Ajuda'm a planificar un menú senzill.
- Estic donant la benvinguda als convidats a un esdeveniment en directe al Japó. Dona'm una benvinguda càlida i natural en japonès, com un amfitrió que dona el tret de sortida a alguna cosa especial.
- El meu número de comanda és Orbit-742Q. Repeteix-m’ho clarament perquè pugui confirmar que és correcte.
- Ajuda'm a practicar com dir al meu equip que hem assolit la nostra fita de llançament, si us plau. Primer digues-ho amb una confiança serena, després amb més entusiasme.
- Estic preparant un joc de preguntes per a un viatge per carretera. Dona’m tres preguntes trampa que semblin enganyosament senzilles i després explica cada resposta en una frase.
Aquesta demostració té un límit de temps. En fer-ne ús, acceptes les condicions d'OpenAI i reconeixes la nostra política de privacitat.
La veu s'està convertint en una de les formes més naturals perquè les persones facin servir programari. Permet demanar ajuda mentre es condueix, canviar un pla de viatge mentre es camina per un aeroport, obtenir assistència en la llengua preferida o avançar en una tasca sense haver d'aturar-se a escriure.
Però crear productes de veu útils requereix més que torns de paraula ràpids o una veu que soni natural. Un agent de veu ha d'entendre què vol dir una persona, mantenir el context, recuperar-se quan canvia una petició, utilitzar eines mentre la conversa continua i respondre d'una manera adequada al moment.
En conjunt, els models que llancem fan avançar l'àudio en temps real des d'un simple intercanvi de pregunta i resposta cap a interfícies de veu que realment poden fer feina: escoltar, raonar, traduir, transcriure i actuar a mesura que es desenvolupa una conversa.
A mesura que la veu esdevé una manera més natural de fer servir programari, veiem desenvolupadors construint al voltant de tres patrons emergents en la IA de veu:
- Veu a acció, on les persones poden descriure què necessiten i el sistema pot raonar sobre la petició, fer servir eines i completar la tasca. Per exemple, Zillow està construint un assistent que pot escoltar, raonar i actuar sobre peticions com: «troba'm habitatges dins del meu BuyAbility, evita els carrers transitats i programa una visita per dissabte».
- Sistemes a veu, on el programari pot convertir el context en orientació parlada en directe. Per exemple, una aplicació de viatges podria dir proactivament a un viatger: «El teu vol d'arribada va amb retard, però encara pots agafar la connexió. He trobat la nova porta, he traçat la ruta més ràpida per la terminal i encara es preveu que la teva maleta es transbordi».
- Veu a veu, on la IA pot ajudar que les converses en directe continuïn entre llengües, tasques o contextos canviants. Per exemple, Deutsche Telekom està construint experiències d'assistència per veu en què els clients poden parlar en la llengua amb què se senten més còmodes, mentre el model tradueix la conversa en temps real.
Aquests patrons també poden funcionar conjuntament. Priceline treballa cap a un futur en què els viatgers puguin gestionar viatges complets per veu: cercar vols i hotels conversacionalment, gestionar canvis com ajustar una reserva d'hotel després d'un retard de vol o obtenir actualitzacions en temps real sobre els temps d'espera de la TSA, i traduir converses un cop els viatgers ja han arribat.
GPT‑Realtime‑2 està dissenyat per a interaccions de veu en directe en què el model manté la conversa en marxa mentre raona sobre una petició, crida eines, gestiona correccions o interrupcions i respon d'una manera adequada al moment.
- Preàmbuls: Els desenvolupadors poden activar frases curtes abans d'una resposta principal, com ara «deixa'm comprovar-ho» o «un moment mentre ho reviso», perquè els usuaris sàpiguen que l'agent està treballant en la petició.
- Crides d'eines en paral·lel i transparència d'eines: El model pot cridar diverses eines alhora i fer que aquestes accions siguin audibles amb frases com ara «estic comprovant el teu calendari» o «ara mateix ho estic consultant», ajudant els agents a mantenir la capacitat de resposta mentre completen tasques.
- Comportament de recuperació més sòlid: El model pot recuperar-se amb més elegància dient coses com ara «ara mateix tinc problemes amb això», en lloc de fallar en silenci o trencar la conversa.
- Context més llarg per a fluxos de treball amb agents: Estem augmentant la finestra de context de 32K a 128K per donar suport a sessions més llargues i coherents i a fluxos de tasques més complexos.
- Comprensió de domini més sòlida: El model reté millor la terminologia especialitzada, els noms propis, els termes sanitaris i altres vocabularis importants en entorns de producció.
- To i expressivitat més controlables: El model pot ajustar millor el seu to: parlar amb calma mentre resol un problema, amb empatia quan un usuari està frustrat o amb entusiasme quan confirma una acció reeixida.
- Esforç de raonament ajustable: Ara els desenvolupadors poden seleccionar entre nivells de raonament minimal, low, medium, high i xhigh, amb low com a valor predeterminat, equilibrant una latència més baixa per a interaccions senzilles amb un raonament més deliberat per a peticions complexes.
Els guanys es veuen en avaluacions d'àudio molt properes als agents de veu de producció: GPT‑Realtime‑2 (high) obté una puntuació un 15,2% més alta a Big Bench Audio en intel·ligència d'àudio que GPT‑Realtime‑1.5. GPT‑Realtime‑2 (xhigh) obté una puntuació un 13,8% més alta a Audio MultiChallenge en seguiment d'instruccions, millorant respecte de GPT‑Realtime‑1.5 i mostrant un raonament, una gestió del context i un control més sòlids en converses en directe.
Big Bench Audio avalua capacitats de raonament exigents en models de llenguatge que admeten entrada d'àudio. Audio MultiChallenge(s'obre en una finestra nova) avalua la intel·ligència conversacional multitorn en sistemes de diàleg parlat, incloent-hi el seguiment d'instruccions, la integració del context, l'autoconsistència i la gestió de correccions naturals de la parla.
La màgia de GPT‑Realtime‑2 es fa evident en una gran varietat de casos d'ús:
Durant les primeres proves, les empreses van utilitzar GPT‑Realtime‑2 per crear agents de veu que ajuden clients i empleats a fer coses mitjançant una conversa natural:
«Els creadors volen un progrés continu, no una iteració interminable. GPT-5.5 trenca les barreres amb què la gent sol topar en tasques més complexes, com ara els fluxos d’autenticació i la sincronització en temps real, en moltes menys interaccions. El model realment destaca quan la feina es complica, gestionant tasques difícils amb molta menys anada i tornada.»
GPT‑Realtime‑Translate ajuda els desenvolupadors a crear experiències de veu multilingües en directe en què cada persona pot parlar en la seva llengua preferida, escoltar la conversa traduïda en temps real i llegir les transcripcions en temps real. Admet més de 70 llengües d'entrada i 13 llengües de sortida, cosa que el fa útil per a assistència al client, vendes transfrontereres, educació, esdeveniments, mitjans i plataformes per a creadors que serveixen audiències globals.
Per als desenvolupadors, la traducció en directe ha de preservar el significat mentre manté el ritme de qui parla, fins i tot quan les persones parlen de manera natural, canvien de context o fan servir pronunciació regional i llenguatge específic del domini. Per exemple, Deutsche Telekom està provant el model per a interaccions de veu multilingües, on una latència més baixa i una fluïdesa més gran poden fer que les converses entre llengües semblin més naturals.
En aquest vídeo, Vimeo mostra com GPT‑Realtime‑Translate pot traduir en directe un vídeo educatiu sobre un producte mentre es reprodueix, de manera que els clients globals puguin sentir les actualitzacions en la seva llengua preferida sense haver d'esperar una versió produïda per separat.
«Crear IA de veu per a l'Índia significa gestionar una fonètica regional diversa. En les nostres avaluacions en hindi, tàmil i telugu, GPT-Realtime-Translate va oferir taxes d'error de paraula un 12,5% més baixes que qualsevol altre model que vam provar, juntament amb taxes de fallback més baixes, una finalització de tasques més alta i una latència que mantenia una conversa natural. Marca un nou estàndard per a la IA de veu multilingüe.»
GPT‑Realtime‑Whisper és un nou model de transcripció en streaming pensat per a la conversió de parla a text amb baixa latència. Transcriu l'àudio mentre la gent parla, de manera que els productes en directe poden semblar més ràpids, més reactius i més naturals, des de subtítols que apareixen al moment fins a notes de reunió que segueixen el ritme de la conversa.
El model fa que la parla en directe sigui utilitzable dins dels fluxos de treball empresarials a mesura que passa. Els equips poden generar subtítols per a reunions, aules, emissions i esdeveniments; crear notes i resums mentre les converses encara estan en curs; construir agents de veu que necessiten entendre contínuament els usuaris; i crear fluxos de seguiment més ràpids per a assistència al client, sanitat, vendes, selecció de personal i altres interaccions parlades d'alt volum.
L'API Realtime incorpora diverses capes de proteccions i mitigacions per ajudar a prevenir usos indeguts. Fem servir classificadors actius sobre les sessions de l'API Realtime, cosa que significa que certes converses es poden aturar si es detecta que infringeixen les nostres directrius sobre contingut nociu. Els desenvolupadors també poden afegir fàcilment les seves pròpies barreres de seguretat addicionals amb l'Agents SDK.(s'obre en una finestra nova)
Les nostres polítiques d'ús prohibeixen reutilitzar o distribuir resultats dels nostres serveis per a correu brossa, engany o altres finalitats perjudicials. Els desenvolupadors també han d'indicar clarament als usuaris finals quan interactuen amb IA, tret que això ja sigui evident pel context.
L'API Realtime és totalment compatible amb la ubicació de les dades a la UE(s'obre en una finestra nova) per a aplicacions basades a la UE i està coberta pels nostres compromisos de privacitat empresarial.
GPT‑Realtime‑2, GPT‑Realtime‑Translate i GPT‑Realtime‑Whisper estan disponibles a l'API Realtime. GPT‑Realtime‑2 té un preu de 32 $ / 1 M de segments d'entrada d'àudio (0,40 $ per segments d'entrada en memòria cau) i 64 $ / 1 M de segments de sortida d'àudio. GPT‑Realtime‑Translate té un preu de 0,034 $ per minut. GPT‑Realtime‑Whisper té un preu de 0,017 $ per minut.
Pots provar els nous models de veu en temps real al Playground(s'obre en una finestra nova).
Per començar a construir, obre aquesta indicació a Codex per afegir GPT‑Realtime‑2 a una aplicació existent o començar-ne una de nova. Si encara no tens Codex, baixa primer l'aplicació Codex.


