Presentamos las actualizaciones de gpt-realtime y la API en tiempo real para agentes de voz de producción
Estamos lanzando un modelo de voz a voz más avanzado y nuevas funcionalidades de la API, como soporte para servidores MCP, entrada de imágenes y soporte para llamadas telefónicas SIP.

Hoy lanzamos la API en tiempo real con nuevas funciones que permiten a los desarrolladores y a las empresas crear agentes de voz confiables y listos para su uso en producción. La API ahora es compatible con servidores MCP remotos, entradas de imágenes y llamadas telefónicas a través del Protocolo de Inicio de Sesión (SIP), lo que mejora la capacidad de los agentes de voz al permitirles acceder a herramientas y contexto adicionales.
También lanzamos nuestro modelo de voz a voz más avanzado hasta la fecha: gpt-realtime. El nuevo modelo muestra mejoras en el seguimiento de instrucciones complejas, el uso preciso de herramientas de llamadas y la producción de voz más natural y expresiva. Es mejor en la interpretación de mensajes del sistema e indicaciones de los desarrolladores, ya sea para leer scripts de descargo de responsabilidad palabra por palabra en una llamada de soporte técnico, repetir secuencias alfanuméricas o cambiar de idioma sin problemas a mitad de una frase. También lanzamos dos voces, Cedar y Marin, que ya están disponibles exclusivamente en la API en tiempo real a partir de hoy.
Desde que presentamos por primera vez al público la versión beta de la API en tiempo real en octubre del año pasado, miles de desarrolladores crearon con la API y ayudaron a dar forma a las mejoras que lanzamos hoy: optimizadas para brindar confiabilidad, baja latencia y alta calidad para implementar con éxito agentes de voz en la producción. A diferencia de los procesos tradicionales, que encadenan varios modelos entre conversión de voz a texto y de texto a voz, la API en tiempo real procesa y genera audio directamente a través de un solo modelo y una sola API. Esto reduce la latencia, conserva los matices del habla y produce respuestas más naturales y expresivas.
“El nuevo modelo de voz a voz de la API en tiempo real de OpenAI muestra un razonamiento más potente y un discurso más natural, lo que le permite gestionar solicitudes complejas y de varios pasos, como acotar listados según las necesidades del estilo de vida o guiar debates sobre la asequibilidad con herramientas como nuestro puntaje BuyAbility. Esto podría hacer que buscar una vivienda en Zillow o explorar opciones de financiamiento sea tan natural como una conversación con un amigo, lo que ayudaría a simplificar decisiones como comprar, vender y alquilar una vivienda”.
– Josh Weisberg, jefe de IA en Zillow
El nuevo modelo de voz a voz,gpt-realtime, es nuestro modelo de voz más avanzado y listo para la producción. Entrenamos al modelo en estrecha colaboración con los clientes para que se destacara en tareas del mundo real, como la atención al cliente, la asistencia personal y la educación, y lo adaptamos a la forma en que los desarrolladores crean e implementan los agentes de voz. El modelo muestra mejoras en la calidad del audio, el nivel de inteligencia, el seguimiento de instrucciones y la llamada de funciones.
Las conversaciones que suenan naturales son fundamentales para implementar agentes de voz en el mundo real. Los modelos deben hablar con la entonación, la emoción y el ritmo de un humano para crear una experiencia placentera y fomentar la continuidad de la conversación con los usuarios. Entrenamos a gpt-realtime para que produzca un discurso de alta calidad, que suene más natural y pueda seguir instrucciones precisas, tales como “habla rápido y en forma profesional” o “habla con empatía y acento francés”.
Lanzamos dos nuevas voces en la API, Marin y Cedar, con las mejoras más importantes en cuanto a naturalidad del habla. También estamos actualizando las ocho voces existentes para incorporar estas mejoras.
gpt-realtime demuestra ser más inteligente y puede comprender el audio nativo con mayor precisión. El modelo puede captar señales no verbales (como las risas), cambiar de idioma a mitad de una frase y adaptar el tono (“enérgico y profesional” frente a “amable y empático”). Según evaluaciones internas, el modelo también muestra un rendimiento más preciso en la detección de secuencias alfanuméricas (como números de teléfono, números de identificación de vehículos [VIN], etc.) en otros idiomas, como español, chino, japonés y francés. En la evaluación Big Bench Audio que mide las capacidades de razonamiento, gpt-realtime obtuvo una precisión del 82,8 %, lo que supera a nuestro modelo anterior de diciembre de 2024, que obtuvo una precisión del 65,6 %.
La prueba de referencia Big Bench Audio(se abre en una nueva ventana) es un conjunto de datos de evaluación que permite medir las funcionalidades de razonamiento de los modelos de lenguaje que son compatibles con la entrada de audio. Este conjunto de datos adapta las preguntas de Big Bench Hard, seleccionadas por sus rigurosas pruebas de razonamiento avanzado, al domino del audio.
Al crear una aplicación de voz a voz, los desarrolladores brindan al modelo un conjunto de instrucciones sobre cómo comportarse, lo que incluye cómo hablar, qué decir en una situación determinada y qué hacer o no hacer. Nos centramos en mejorar el seguimiento de estas instrucciones, para que el modelo capte mejor los detalles más pequeños. En la prueba de referencia de audio MultiChallenge que mide la precisión en el seguimiento de instrucciones, gpt-realtime obtuvo un puntaje del 30,5 %, una mejora significativa con respecto a nuestro modelo anterior de diciembre de 2024, que obtuvo un puntaje del 20,6 %.
MultiChallenge(se abre en una nueva ventana) evalúa la capacidad de los LLM para manejar conversaciones de varios turnos con humanos. Se centra en cuatro categorías de desafíos realistas con los que los modelos de vanguardia actuales tienen dificultades. Estos desafíos requieren modelos que combinen simultáneamente el seguimiento de instrucciones, la gestión del contexto y el razonamiento contextual. Convertimos un subconjunto de preguntas de la prueba, adecuado para su reproducción en audio, de texto a voz para crear una versión en audio de esta evaluación.
Para crear un agente de voz competente con un modelo de voz a voz, el modelo debe ser capaz de llamar a las herramientas adecuadas en el momento preciso para ser útil en la producción. Mejoramos la llamada de funciones en tres ejes: llamada de funciones relevantes, llamada de funciones en el momento adecuado y llamada de funciones con argumentos adecuados (lo que mejora la precisión). En la evaluación de audio ComplexFuncBench que mide el rendimiento en la llamada de funciones, gpt-realtime obtuvo un puntaje del 66,5 %, mientras que nuestro modelo de diciembre de 2024 obtuvo un puntaje del 49,7 %.
También hemos realizado mejoras en la llamada asíncrona de funciones(se abre en una nueva ventana). Las llamadas de funciones de ejecución prolongada ya no interrumpirán el flujo de una sesión: el modelo puede continuar una conversación fluida mientras espera los resultados. Esta función está disponible de forma nativa en gpt-realtime, por lo que los desarrolladores no necesitan actualizar el código.
ComplexFuncBench(se abre en una nueva ventana) mide la capacidad de los modelos para gestionar tareas complejas de llamada de funciones. Evalúa el rendimiento en diferentes escenarios, como llamadas de varios pasos, razonamiento sobre restricciones o parámetros implícitos, y gestión de entradas muy largas. Convertimos los mensajes de texto originales en voz para crear esta evaluación para nuestro modelo.
Puedes habilitar el soporte para servidores MCP en una sesión de la API en tiempo real al pasar la URL de un servidor MCP remoto a la configuración de la sesión. Una vez conectada, la API gestiona automáticamente las llamadas a herramientas por ti, por lo que ya no es necesario conectar las integraciones de forma manual.
Esta configuración hace que extender las capacidades de tu agente sea muy fácil: solo tienes que dirigir la sesión a un servidor MCP diferente, y esas herramientas estarán disponibles de inmediato. Para obtener más información sobre cómo configurar los servidores MCP con la API en tiempo real, consulta esta guía(se abre en una nueva ventana).
Ahora que gpt-realtime admite entradas de imágenes, puedes agregar imágenes, fotos y capturas de pantalla junto con audio o texto a una sesión de la API en tiempo real. Ahora el modelo puede basar la conversación en lo que el usuario realmente está viendo, lo que le permite hacer preguntas como “¿Qué ves?” o “Lee el texto de esta captura de pantalla”.
En lugar de tratar una imagen como un video en vivo, el sistema lo trata más como agregar una foto a la conversación. Tu aplicación puede decidir qué imágenes compartir con el modelo y cuándo compartirlas. De esta manera, mantienes el control sobre lo que ve el modelo y cuándo responde.
Consulta nuestros documentos(se abre en una nueva ventana) para empezar a utilizar la entrada de imágenes.
Agregamos otras funciones para que la API en tiempo real sea más fácil de integrar y más flexible para su uso en producción.
- Soporte para Protocolo de Inicio de Sesión (SIP): conecta tus aplicaciones a la red telefónica pública, los sistemas PBX, los teléfonos de escritorio y otros puntos finales SIP con soporte directo en la API en tiempo real. Lee sobre el tema en Documentos.(se abre en una nueva ventana)
- Mensajes reutilizables: ahora puedes guardar y reutilizar mensajes, ya sean mensajes de desarrolladores, herramientas, variables y mensajes de ejemplo de usuarios/asistentes, en sesiones de la API en tiempo real, como en la API de respuestas. Obtén más información en Documentos.(se abre en una nueva ventana)
La API en tiempo real incorpora varias capas de medidas de seguridad y mitigación para ayudar a prevenir el uso indebido. Puedes obtener más información sobre nuestro enfoque de seguridad y los detalles de la tarjeta del sistema en el blog de anuncios de la versión beta. Empleamos clasificadores activos en las sesiones de la API en tiempo real, lo que significa que ciertas conversaciones pueden interrumpirse si se detecta que infringen nuestras pautas sobre contenido perjudicial. Los desarrolladores también pueden agregar con facilidad sus propias medidas de seguridad con el SDK de agentes(se abre en una nueva ventana).
Nuestras Políticas de uso prohíben reutilizar o distribuir las salidas de nuestros servicios con fines de publicidad no deseada, engaño u otros fines maliciosos. Los desarrolladores también deben informar a los usuarios finales cuando están interactuando con la IA, a menos que ya sea obvio por el contexto. La API en tiempo real utiliza voces predeterminadas para ayudar a evitar que personas malintencionadas se hagan pasar por otras.
La API en tiempo real es totalmente compatible con la Residencia de datos en la UE(se abre en una nueva ventana) para aplicaciones con sede en la UE, y se rige por nuestros compromisos con la privacidad empresarial.
A partir de hoy, todos los desarrolladores tienen a su disposición la API en tiempo real y el nuevo modelo gpt-realtime. Reducimos los precios de gpt-realtime en un 20 % en comparación con los de gpt-4o-realtime-preview: $32 por cada millón de tokens de entrada de audio ($0,40 por los tokens de entrada en caché) y $64 por cada millón de tokens de salida de audio (consulte los precios detallados(se abre en una nueva ventana)). También agregamos un control detallado del contexto de las conversaciones para que los desarrolladores puedan establecer límites inteligentes de tokens y truncar varios turnos a la vez, lo que reduce significativamente el costo en sesiones largas.
Para comenzar, visita la documentación de nuestra API en tiempo real(se abre en una nueva ventana), prueba el nuevo modelo en Playground(se abre en una nueva ventana) y consulta nuestra guía de mensajes de la API en tiempo real(se abre en una nueva ventana).


