Presentamos gpt-realtime y las actualizaciones de la API Realtime para agentes de voz de producción
Vamos a lanzar un modelo de voz a voz más avanzado y nuevas capacidades de la API, incluyendo la compatibilidad con servidores MCP, la entrada de imágenes y el soporte para llamadas telefónicas mediante SIP.

Hoy ponemos la API Realtime a disposición de todos con nuevas funciones que permiten a desarrolladores y empresas crear agentes de voz fiables y listos para producción. La API ahora admite servidores MCP remotos, entradas de imágenes y llamadas telefónicas a través del Protocolo de Inicio de Sesión (SIP), lo que hace que los agentes de voz sean más capaces gracias al acceso a herramientas y contexto adicionales.
También vamos a lanzar nuestro modelo de voz a voz más avanzado hasta la fecha, gpt-realtime. El nuevo modelo muestra mejoras en el seguimiento de instrucciones complejas, en el uso preciso de herramientas y en la generación de un habla que suena más natural y expresiva. Además, interpreta mejor los mensajes del sistema y las indicaciones de los desarrolladores, ya sea leyendo palabra por palabra guiones de aviso en una llamada de soporte, repitiendo cadenas alfanuméricas o cambiando de idioma sin problemas a mitad de frase. También presentamos dos voces nuevas, Cedar y Marin, disponibles en exclusiva en la API Realtime desde hoy.
Desde que lanzamos la API Realtime en beta pública el pasado octubre, miles de desarrolladores han trabajado con ella y han contribuido a dar forma a las mejoras que presentamos hoy, optimizadas para ofrecer fiabilidad, baja latencia y alta calidad, y así facilitar la implementación de agentes de voz en producción. A diferencia de los flujos tradicionales que encadenan varios modelos para convertir voz en texto y texto en voz, la API Realtime procesa y genera audio directamente mediante un único modelo y una sola API. Esto reduce la latencia, preserva los matices de la voz y produce respuestas más naturales y expresivas.
«El nuevo modelo de voz a voz de la API Realtime de OpenAI ofrece un razonamiento más sólido y una voz más natural, lo que le permite gestionar solicitudes complejas y de varios pasos, como filtrar listados según el estilo de vida o guiar conversaciones sobre asequibilidad con herramientas como nuestra puntuación BuyAbility. Esto podría hacer que buscar una casa en Zillow o explorar opciones de financiación parezca tan natural como hablar con un amigo, ayudando a simplificar decisiones como comprar, vender o alquilar una vivienda».
Josh Weisberg, director de IA de Zillow
Nuestro nuevo modelo de voz a voz, gpt-realtime, es el más avanzado hasta la fecha y está listo para producción. Lo hemos entrenado en estrecha colaboración con clientes para que destaque en tareas reales como la atención al cliente, la asistencia personal y la educación, adaptando el modelo a la forma en que los desarrolladores crean e implementan agentes de voz. El modelo presenta mejoras en calidad del audio, inteligencia, seguimiento de instrucciones y ejecución de funciones.
Una conversación natural es fundamental para implementar agentes de voz en el mundo real. Los modelos deben hablar con la entonación, la emoción y el ritmo de una persona para ofrecer una experiencia satisfactoria y fomentar un diálogo continuo con los usuarios. Hemos entrenado gpt-realtime para producir un habla de mayor calidad, con un sonido más natural y capaz de seguir instrucciones detalladas como «habla rápido y con profesionalidad» o «habla de forma empática con acento francés».
Lanzamos dos voces nuevas en la API, Marin y Cedar, que incorporan las mejoras más significativas en el habla natural. También estamos actualizando nuestras ocho voces existentes para que se beneficien de estos avances.
gpt-realtime muestra mayor inteligencia y una mejor capacidad de comprensión del audio nativo. El modelo puede captar señales no verbales (como risas), cambiar de idioma a mitad de una frase y adaptar el tono («ágil y profesional» frente a «amable y empático»). Según nuestras evaluaciones internas, el modelo también ofrece un rendimiento más preciso al detectar secuencias alfanuméricas (como números de teléfono, VIN, etc.) en otros idiomas, incluyendo español, chino, japonés y francés. En la evaluación Big Bench Audio, que mide la capacidad de razonamiento, gpt-realtime alcanza un 82,8 % de precisión, superando a nuestro modelo anterior de diciembre de 2024, que obtuvo un 65,6 %.
La prueba comparativa Big Bench Audio(se abre en una ventana nueva) es un conjunto de datos de evaluación para medir las capacidades de razonamiento de los modelos de lenguaje que admiten entrada de audio. Este conjunto de datos adapta preguntas de Big Bench Hard, elegido por su rigor en la evaluación del razonamiento avanzado, al ámbito del audio.
Al crear una aplicación de voz a voz, los desarrolladores proporcionan al modelo un conjunto de instrucciones sobre cómo debe comportarse: cómo hablar, qué decir en determinadas situaciones y qué hacer o evitar. Hemos centrado nuestras mejoras en la capacidad de seguir estas instrucciones, de modo que incluso las indicaciones más pequeñas transmitan más señal al modelo. En la evaluación de audio MultiChallenge, que mide la precisión en el seguimiento de instrucciones, gpt-realtime alcanza un 30,5 %, una mejora significativa frente a nuestro modelo anterior de diciembre de 2024, que obtuvo un 20,6 %.
MultiChallenge(se abre en una ventana nueva) evalúa cómo manejan los LLM las conversaciones de varios turnos con humanos. Se centra en cuatro categorías de retos realistas con los que los modelos de vanguardia actuales aún tienen dificultades. Estos retos requieren que los modelos combinen el seguimiento de instrucciones, la gestión del contexto y el razonamiento en contexto de forma simultánea. Hemos convertido de texto a voz un subconjunto de preguntas de prueba adaptadas a audio para crear una versión en audio de esta evaluación.
Para crear un agente de voz eficaz con un modelo de voz a voz, el modelo debe ser capaz de llamar a las herramientas correctas en el momento adecuado para ser útil en producción. Hemos mejorado las llamadas a funciones en tres aspectos: elegir las funciones relevantes, llamarlas en el momento apropiado y llamarlas con los argumentos correctos (lo que da como resultado una mayor precisión). En la evaluación de audio ComplexFuncBench, que mide el rendimiento de la llamada a funciones, gpt-realtime obtiene un 66,5 %, frente al 49,7 % de nuestro modelo anterior de diciembre de 2024.
También hemos realizado mejoras en las llamadas a funciones asíncronas(se abre en una ventana nueva). Las llamadas a funciones de larga duración ya no interrumpirán el flujo de una sesión: el modelo puede mantener una conversación fluida mientras espera los resultados. Esta función está disponible de forma nativa en gpt-realtime, por lo que los desarrolladores no necesitan actualizar su código.
ComplexFuncBench(se abre en una ventana nueva) mide la eficacia con la que los modelos manejan tareas complejas de llamadas a funciones. Evalúa el rendimiento en situaciones como llamadas en varios pasos, razonamiento sobre limitaciones o parámetros implícitos, y manejo de entradas muy largas. Hemos convertido en voz las indicaciones originales de texto para crear esta evaluación para nuestro modelo.
Puedes habilitar la compatibilidad con MCP en una sesión de la API Realtime pasando la URL de un servidor MCP remoto en la configuración de la sesión. Una vez que se ha conectado, la API gestiona automáticamente las llamadas de herramientas por ti, sin necesidad de configurar integraciones de forma manual.
Esta configuración facilita ampliar tu agente con nuevas funciones: basta con configurar la sesión con otro servidor MCP y esas herramientas estarán disponibles de inmediato. Para obtener más información sobre cómo configurar MCP con la API Realtime, consulta esta guía(se abre en una ventana nueva).
Con la compatibilidad de entradas de imagen ahora en gpt-realtime, puedes añadir imágenes, fotos y capturas de pantalla junto con audio o texto en una sesión de la API Realtime. Ahora el modelo puede basar la conversación en lo que el usuario está viendo, lo que permite hacer preguntas como «¿qué ves?» o «lee el texto de esta captura de pantalla».
En lugar de tratar una imagen como si fuera una transmisión de vídeo en directo, el sistema la integra como si añadieras una foto a la conversación. Tu aplicación puede decidir qué imágenes compartir con el modelo y en qué momento hacerlo. Así mantienes el control sobre lo que el modelo ve y cuándo responde.
Consulta nuestra documentación(se abre en una ventana nueva) para empezar a usar la entrada de imágenes.
Hemos añadido varias funciones nuevas para que la API Realtime sea más fácil de integrar y más flexible en entornos de producción.
- Compatibilidad con el protocolo de inicio de sesión (SIP, por sus siglas en inglés): Conecta tus aplicaciones a la red telefónica pública, sistemas PBX, teléfonos de escritorio y otros puntos SIP con compatibilidad directa en la API Realtime. Obtén más información sobre ello en la documentación.(se abre en una ventana nueva)
- Indicaciones reutilizables: Ahora puedes guardar y reutilizar indicaciones, que incluyen mensajes de desarrollador, herramientas, variables y ejemplos de mensajes de usuario/asistente, en diferentes sesiones de la API Realtime, igual que en la API Responses. Obtén más información en la documentación.(se abre en una ventana nueva)
La API Realtime incorpora múltiples capas de medidas de protección y mitigaciones para ayudar a evitar un uso indebido. Puedes obtener más información sobre nuestro enfoque de seguridad y los detalles de la ficha del sistema en el blog del anuncio beta. Utilizamos clasificadores activos en las sesiones de la API Realtime, lo que significa que ciertas conversaciones pueden interrumpirse si se detecta que infringen nuestras directrices sobre contenido perjudicial. Los desarrolladores también pueden añadir fácilmente sus propias medidas de protección adicionales mediante el SDK para agentes(se abre en una ventana nueva).
Nuestras políticas de uso prohíben reutilizar o distribuir resultados de nuestros servicios con fines de spam, engaño u otros usos perjudiciales. Los desarrolladores también deben dejar claro a los usuarios finales cuándo están interactuando con una IA, salvo que ya sea evidente por el contexto. La API Realtime utiliza voces predefinidas para ayudar a evitar que personas con intenciones maliciosas suplanten a otras personas.
La API Realtime es totalmente compatible con la residencia de datos en la UE(se abre en una ventana nueva) para aplicaciones con sede en la UE y está cubierta por nuestros compromisos de privacidad para empresas.
La API Realtime con disponibilidad para el público general y el nuevo modelo gpt-realtime están disponibles para todos los desarrolladores desde hoy. Estamos reduciendo los precios de gpt-realtime en un 20 % en comparación con gpt-4o-realtime-preview: 32 $/1 millón de tókenes de entrada de audio (0,40 $ para tókenes de entrada en caché) y 64 $/1 millón de tókenes de salida de audio (consulta los precios detallados(se abre en una ventana nueva)). También hemos añadido un control más preciso para el contexto de las conversaciones, que permite a los desarrolladores establecer límites inteligentes de tókenes y truncar varios turnos a la vez, lo que reduce significativamente el coste de las sesiones largas.
Para empezar, visita nuestra documentación de la API Realtime(se abre en una ventana nueva), prueba el nuevo modelo en el Playground(se abre en una ventana nueva) y consulta nuestra guía de indicaciones para la API Realtime(se abre en una ventana nueva).


