Mises à jour de gpt-realtime et de l’API Realtime concernant les agents vocaux en production
Nous lançons un modèle speech-to-speech encore plus poussé ainsi que de nouvelles fonctionnalités pour notre API Realtime : entre autres, prise en charge des serveurs MCP, utilisation d’images comme sources d’information et appels SIP.

Désormais accessible partout, l’API Realtime comporte de nouvelles fonctionnalités qui permettent aux développeurs et aux entreprises de créer des agents vocaux fiables et utilisables en production. Bénéficiant d’un accès à du contexte et des outils additionnels, notamment grâce aux serveurs MCP à distance, à l’utilisation d’images comme sources d’information et aux appels SIP (Session Initiation Protocol), les agents vocaux gagnent en efficacité.
Nous lançons également gpt-realtime, notre modèle de traduction vocale le plus avancé à ce jour. En termes d’amélioration, celui-ci respecte davantage les consignes complexes, réalise des appels d’outils avec précision et produit un discours oral plus naturel et expressif. Il est également plus à même d’interpréter les messages système et les prompts de développeurs et sait, par exemple, lire les scripts d’avertissement mot à mot lors d’un appel, répéter les suites de chiffres et/ou de lettres, et passer d’une langue à une autre en milieu de phrase sans interruption. Enfin, deux nouvelles voix, Cedar et Marin, sont disponibles, dès aujourd’hui, dans l’API Realtime exclusivement.
Depuis la sortie de l’API Realtime dans sa version bêta publique, en octobre dernier, l’utilisation de l’API par des milliers de développeurs a contribué aux améliorations d’aujourd’hui. Grâce à une fiabilité optimisée, une faible latence et une haute qualité, les agents vocaux peuvent être déployés en production. Contrairement aux pipelines traditionnels qui associent plusieurs modèles speech-to-text et text-to-speech, l’API Realtime traite et génère des données audio directement via un modèle et une API uniques. Ainsi, la latence se retrouve réduite, le discours reste nuancé et les réponses sont douées d’émotions et naturelles.
« Le nouveau modèle speech-to-speech dans l’API Realtime d’OpenAI est doté d’un raisonnement plus puissant et produit un discours oral davantage naturel. Il arrive ainsi à traiter des demandes complexes à plusieurs étapes, telles que le filtrage des annonces par besoins en matière de style de vie ou les discussions autour de l’accessibilité, avec des outils comme notre score « BuyAbility ». La recherche de biens immobiliers sur Zillow ou l’exploration des options financières se fait de manière naturelle, à l’instar d’une conversation avec un ami qui nous aiderait à prendre des décisions, comme l’achat, la vente ou la location d’un bien immobilier. »
– Josh Weisberg, Responsable IA chez Zillow
gpt-realtime est notre modèle de traduction vocale le plus avancé, utilisable en production. Lors de l’entraînement, nous avons travaillé en étroite collaboration avec les clients pour, d’une part, obtenir les meilleurs résultats dans des scénarios concrets (service clientèle, aide personnalisée et éducation) et, d’autre part, adapter le modèle à la façon dont les développeurs créent et déploient des agents vocaux. Le modèle a connu des améliorations sur le plan de la qualité audio, de l’intelligence, du respect des consignes et des appels de fonctions.
Pour déployer des agents vocaux dans le monde pratique, il est essentiel que les conversations aient l’air naturelles. Les modèles doivent parler avec l’intonation, l’émotion et la vitesse d’un humain afin de créer une expérience agréable et d’encourager la suite de la discussion avec les utilisateurs. Nous avons entraîné gpt-realtime afin qu’il produise un discours de meilleure qualité, plus authentique, et qu’il puisse suivre des instructions détaillées, comme : « parle vite et de manière professionnelle » ou « parle de manière empathique avec un accent français ».
Nous lançons deux nouvelles voix dans l’API, Marin et Cedar, qui sont dotées des améliorations les plus importantes concernant le discours naturel. Nous allons également mettre à jour les huit voix existantes afin qu’elles bénéficient également de ces améliorations.
gpt-realtime fait preuve d’une plus grande intelligence et peut comprendre des audios natifs avec encore plus de précision. Le modèle peut capter les messages non verbaux (comme les rires), passer d’une langue à une autre en milieu de phrase et adapter son ton (« percutant et professionnel » ou « bienveillant et empathique »). D’après les évaluations internes, le modèle affiche également de meilleurs résultats dans la détection de séquences alphanumériques (numéros de téléphone, VIN, etc.) dans d’autres langues, notamment l’espagnol, le chinois, le japonais et le français. Dans l’évaluation Big Bench Audio, servant à mesurer les capacités de raisonnement, gpt-realtime a atteint un score de précision de 82,8 %, battant le score de notre ancien modèle de décembre 2024 qui se situait à 65,6 %.
Le benchmark Big Bench Audio(ouverture dans une nouvelle fenêtre) est un ensemble de données d’évaluation permettant de mesurer les capacités de raisonnement des modèles de langue qui prennent en charge l’entrée audio. Ce jeu de données reprend les questions de Big Bench Hard (benchmark choisi pour ses tests rigoureux en matière de raisonnement avancé) et les applique au domaine de l’audio.
Lors de la création d’une application speech-to-speech, les développeurs donnent un ensemble d’instructions au modèle qui définit son comportement, notamment sa manière de parler, ses propos selon les situations et les actions qu’il peut ou ne peut pas faire. Nous avons axé nos améliorations sur le respect de ces consignes afin que même les instructions les plus insignifiantes influencent le comportement du modèle. Lors du benchmark audio MultiChallenge, servant à mesurer le niveau de précision en matière de respect des instructions, gpt-realtime a atteint un score de 30,5 %, soit une nette amélioration par rapport au modèle précédent de décembre 2024, qui se situait à 20,6 %.
Le benchmark MultiChallenge(ouverture dans une nouvelle fenêtre) évalue les performances des LLM dans les échanges conversationnels avec des humains. Cette évaluation porte sur quatre catégories de difficultés réalistes auxquels les modèles de pointe se heurtent. Ceux-ci doivent alors allier respect des instructions, gestion du contexte et raisonnement en contexte. Pour créer une version « audio » de cette évaluation, nous avons utilisé un système text-to-speech qui a transformé les questions adaptables au format audio.
Pour créer un agent vocal performant avec un modèle speech-to-speech, celui-ci doit pouvoir appeler les bons outils au bon moment en production. Nos améliorations se concentrent sur trois axes : les fonctions doivent être pertinentes, l’appel des fonctions doit se faire au moment opportun et avec les bons arguments (menant à une meilleure précision). Dans l’évaluation audio ComplexFuncBench, servant à mesure les performances de l’appel des fonctions, gpt-realtime a atteint un score de 66,5 %, là où notre modèle précédent de décembre 2024 se situait à 49,7 %.
Nous avons également amélioré l’appel de fonctions asynchrones(ouverture dans une nouvelle fenêtre). Les appels de fonctions trop longs n’interrompront plus le flux d’une session. Le modèle peut continuer à mener une conversation fluide tout en attendant les résultats. Cette fonctionnalité est disponible nativement dans gpt-realtime afin que les développeurs n’aient pas à mettre à jour leur code.
Le benchmark ComplexFuncBench(ouverture dans une nouvelle fenêtre) mesure les performances des modèles lors de tâches d’appel de fonctions difficiles dans différents scénarios (appels en plusieurs étapes, raisonnement sur les contraintes ou paramètres implicites), qui doivent gérer des entrées très longues. Nous avons converti les prompts textuels initiaux en discours oral afin de créer cette évaluation pour notre modèle.
Vous pouvez activer la compatibilité MCP dans une session de l’API Realtime. Pour cela, indiquez l’URL d’un serveur MCP distant dans la configuration de la session. Une fois le serveur connecté, l’API traite automatiquement les appels d’outils à votre place. Nul besoin donc de connecter les intégrations manuellement.
Cette configuration vous permet d’élargir les fonctionnalités de votre agent en toute facilité. En effet, il vous suffit de pointer la session vers un serveur MCP différent et les outils seront tout de suite accessibles. Pour en savoir plus sur la configuration des MCP avec Realtime, consultez ce guide(ouverture dans une nouvelle fenêtre).
Grâce à la prise en charge des images comme source d’information dans gpt-realtime, vous pouvez ajouter des illustrations, des photos et des captures d’écran ainsi que de l’audio ou du texte dans une session de l’API Realtime. Désormais, le modèle peut ancrer la conversation autour de ce que l’utilisateur voit. Les utilisateurs peuvent ainsi poser des questions, comme : « que vois-tu ? » ou « lis le texte dans la capture d’écran ».
Au lieu de traiter une image comme un flux vidéo en direct, le système la voit comme un ajout à la conversation. Votre application peut choisir les images qu’elle partage avec le modèle ainsi que le moment. De cette manière, vous gardez le contrôle sur ce que le modèle voit et sur le moment de sa réponse.
Consultez notre documentation(ouverture dans une nouvelle fenêtre) pour commencer à utiliser les images comme sources d’information.
Nous avons ajouté d’autres fonctionnalités pour faciliter l’intégration de l’API Realtime et la rendre plus flexible en production.
- Prise en charge du Session Initiation Protocol (SIP) : connectez vos applications au réseau téléphonique public, aux systèmes PBX, aux téléphones de bureau et à d’autres terminaux SIP avec la prise en charge directe de l’API Realtime. En savoir plus.(ouverture dans une nouvelle fenêtre)
- Prompts réutilisables : désormais, vous pouvez enregistrer et réutiliser des prompts (message de développeurs, outils, variables et messages d’exemple de l’assistant ou d’utilisateurs) dans les sessions API, comme dans l’API Responses. En savoir plus.(ouverture dans une nouvelle fenêtre)
L’API Realtime comprend plusieurs couches de protection et d’atténuation pour prévenir les abus. Vous pouvez en apprendre plus sur notre approche de la sécurité et la fiche système dans cet article portant sur la version bêta. Nous utilisons des classifications actives dans les sessions de l’API Realtime. Par conséquent, certaines conversations peuvent être interrompues si elles enfreignent les règles relatives au contenu dangereux. Les développeurs peuvent également ajouter en toute facilité leurs propres mesures de protection à l’aide du SDK Agents(ouverture dans une nouvelle fenêtre).
Nos politiques d’utilisation interdisent le détournement ou la distribution des résultats de nos services dans le but de spammer ou de tromper autrui, ou à d’autres finalités dangereuses. Les développeurs doivent aussi préciser aux utilisateurs finaux les moments où ils interagissent avec l’IA, sauf si cette interaction est évidente en contexte. L’API Realtime utilise des voix prédéfinies pour éviter que les auteurs malveillants se fassent passer pour d’autres.
Avec l’API Realtime, les données des applications basées en Europe ne sortent pas de l’Union européenne(ouverture dans une nouvelle fenêtre), conformément à nos engagements en matière de confidentialité des entreprises.
L’API Realtime disponible partout et le nouveau modèle gpt-realtime sont désormais utilisables par tous les développeurs, dès aujourd’hui. Nous offrons des tarifs réduits pour gpt-realtime, 20 % moins chers que ceux de gpt-4o-realtime-preview : 32 $ par million de jetons d’entrée audio (0,40 $ pour les jetons d’entrée mis en mémoire cache) et 64 $ par million de jetons de sortie audio (voir la tarification en détail(ouverture dans une nouvelle fenêtre)). Les développeurs peuvent également contrôler le contexte des conversations avec précision, et définir des limites de jetons intelligentes ou abréger plusieurs échanges à la fois, afin de réduire de manière significative les coûts des sessions les plus longues.
Pour commencer, consultez notre documentation sur l’API Realtime(ouverture dans une nouvelle fenêtre), testez le nouveau modèle dans Playground(ouverture dans une nouvelle fenêtre) et consultez notre guide sur les promptes de l’API Realtime(ouverture dans une nouvelle fenêtre).


