Présentation de GPT‑realtime et des mises à jour de Realtime API pour les agents vocaux en production
Nous lançons un modèle plus avancé de conversion de la parole en parole et de nouvelles fonctionnalités API, notamment la prise en charge du serveur MCP, l'entrée d'images et la prise en charge des appels téléphoniques SIP.

Désormais accessible partout, l’API Realtime comporte de nouvelles fonctionnalités qui permettent aux développeurs et aux entreprises de créer des agents vocaux fiables et utilisables en production. Bénéficiant d’un accès à du contexte et des outils additionnels, notamment grâce aux serveurs MCP à distance, à l’utilisation d’images comme sources d’information et aux appels SIP (Session Initiation Protocol), les agents vocaux gagnent en efficacité.
Nous lançons également notre modèle parole en parole le plus avancé à ce jour : gpt-realtime. Le nouveau modèle présente des améliorations dans le suivi des consignes complexes, l’utilisation précise des outils et la production d’un discours plus naturel et expressif. Il est également plus à même d’interpréter les messages système et les invites de développeurs et sait, par exemple, lire les scripts d’avertissement mot à mot lors d’un appel, répéter les suites de chiffres et/ou de lettres, et passer d’une langue à une autre en milieu de phrase sans interruption. Enfin, deux nouvelles voix, Cedar et Marin, sont disponibles, dès aujourd’hui, dans l’API Realtime exclusivement.
Depuis la sortie de l’API Realtime dans sa version bêta publique en octobre dernier, des milliers de développeurs ont utilisé l’API et contribué aux améliorations que nous lançons aujourd’hui — optimisées pour la fiabilité, la faible latence et la haute qualité afin de déployer avec succès des agents vocaux en production. Contrairement aux canalisations traditionnelles qui relient plusieurs modèles entre la conversion de la parole en texte et le texte en parole, l'API Realtime traite et génère l'audio directement via un seul modèle et une seule API. Ainsi, la latence se retrouve réduite, le discours reste nuancé et les réponses sont douées d’émotions et naturelles.
« Le nouveau modèle parole en parole dans l’API Realtime d’OpenAI est doté d’un raisonnement plus puissant et produit un discours oral davantage naturel — lui permettant de gérer des demandes complexes à plusieurs étapes, comme le filtrage des annonces selon les besoins en matière de style de vie ou l’orientation des discussions sur l’accessibilité avec des outils tels que notre score « BuyAbility ». » La recherche de biens immobiliers sur Zillow ou l’exploration des options financières se fait de manière naturelle, à l’instar d’une conversation avec un ami qui nous aiderait à prendre des décisions, comme l’achat, la vente ou la location d’un bien immobilier. »
– Josh Weisberg, chef de l’IA chez Zillow
Le nouveau modèle parole en parole—gpt-realtime—est notre modèle vocal le plus avancé et prêt pour la production. Nous avons formé le modèle en étroite collaboration avec nos clients afin qu'il excelle dans des tâches concrètes telles que l'assistance à la clientèle, l'assistance personnelle et l'éducation, en l'adaptant à la manière dont les développeurs créent et déploient les agents vocaux. Le modèle a connu des améliorations sur le plan de la qualité audio, de l’intelligence, du respect des consignes et des appels de fonctions.
Une conversation naturelle est essentielle pour le déploiement des agents vocaux dans le monde réel. Les modèles doivent parler avec l’intonation, l’émotion et la vitesse d’un humain afin de créer une expérience agréable et d’encourager la suite de la discussion avec les utilisateurs. Nous avons formé gpt-realtime à produire une parole de meilleure qualité, plus naturelle, et capable de suivre des instructions précises, telles que « parler rapidement et professionnellement » ou « parler avec empathie et un accent français ».
Nous lançons deux nouvelles voix dans l’API, Marin et Cedar, qui sont dotées des améliorations les plus importantes concernant le discours naturel. Nous allons également mettre à jour les huit voix existantes afin qu’elles bénéficient également de ces améliorations.
gpt-realtime démontre une intelligence supérieure et est capable de comprendre l'audio natif avec une précision accrue. Le modèle peut capter les messages non verbaux (comme les rires), passer d’une langue à une autre en milieu de phrase et adapter son ton (« percutant et professionnel » ou « bienveillant et empathique »). D’après les évaluations internes, le modèle affiche également de meilleurs résultats dans la détection de séquences alphanumériques (numéros de téléphone, VIN, etc.) dans d’autres langues, notamment l’espagnol, le chinois, le japonais et le français. Lors de l'évaluation Big Bench Audio mesurant les capacités de raisonnement, gpt-realtime atteint une précision de 82,8 %, surpassant notre modèle précédent de décembre 2024, qui avait une précision de 65,6 %.
La référence Big Bench Audio(s'ouvre dans une nouvelle fenêtre) est un ensemble de données d'évaluation permettant d'évaluer les capacités de raisonnement des modèles de langage prenant en charge les entrées audio. Ce jeu de données reprend les questions de Big Bench Hard (référence choisie pour ses tests rigoureux en matière de raisonnement avancé) et les applique au domaine de l’audio.
Lors de la création d’une application parole en parole, les développeurs donnent un ensemble d’instructions au modèle sur la manière de se comporter, notamment comment parler, quoi dire dans une certaine situation, et ce qu’il faut faire ou ne pas faire. Nous avons axé nos améliorations sur le respect de ces consignes, afin que même les indications mineures aient plus d’impact sur le modèle. Dans le cadre du test de référence audio MultiChallenge mesurant la précision du suivi des instructions, gpt-realtime obtient un score de 30,5 %, ce qui représente une amélioration significative par rapport à notre modèle précédent de décembre 2024, qui avait obtenu un score de 20,6 %.
MultiChallenge(s'ouvre dans une nouvelle fenêtre) évalue comment les LLMs gèrent les conversations à tour de rôle avec des humains. Cette évaluation porte sur quatre catégories de difficultés réalistes auxquels les modèles de pointe actuels se heurtent. Ces défis exigent que les modèles allient simultanément respect des instructions, gestion du contexte et raisonnement en contexte. Pour créer une version audio de cette évaluation, nous avons converti un sous-ensemble de questions adaptées à l’audio à l’aide d’un système texte en parole.
Pour créer un agent vocal performant avec un modèle parole en parole, le modèle doit pouvoir appeler les bons outils au bon moment pour être utile en production. Nos améliorations se concentrent sur trois axes : les fonctions doivent être pertinentes, l’appel des fonctions doit se faire au moment opportun et avec les bons arguments (menant à une meilleure précision). Lors de l'évaluation audio ComplexFuncBench mesurant les performances d'appel de fonction, gpt-realtime obtient un score de 66,5 %, tandis que notre modèle précédent de décembre 2024 obtient un score de 49,7 %.
Nous avons également apporté des améliorations à l'appel de fonction asynchrone(s'ouvre dans une nouvelle fenêtre). Les appels de fonctions trop longs n’interrompront plus le flux d’une session. Le modèle peut continuer à mener une conversation fluide tout en attendant les résultats. Cette fonctionnalité est disponible nativement dans gpt-realtime, donc les développeurs n'ont pas besoin de mettre à jour leur code.
ComplexFuncBench(s'ouvre dans une nouvelle fenêtre) évalue la capacité des modèles à gérer des tâches complexes d'appel de fonctions. Il évalue les performances dans différents scénarios, tels que les appels en plusieurs étapes, le raisonnement sur les contraintes ou les paramètres implicites, et le traitement d'entrées très longues. Nous avons converti les invites textuelles initiales en discours oral afin de créer cette évaluation pour notre modèle.
Vous pouvez activer la compatibilité MCP dans une session de l’API Realtime en indiquant l’URL d’un serveur MCP distant dans la configuration de la session. Une fois le serveur connecté, l’API traite automatiquement les appels d’outils à votre place. Nul besoin donc de connecter les intégrations manuellement.
Cette configuration facilite l’extension des capacités de votre agent : il vous suffit de pointer la session vers un autre serveur MCP, et ces outils deviennent immédiatement disponibles. Pour en savoir plus sur la configuration du MCP avec Realtime, consultez ce guide(s'ouvre dans une nouvelle fenêtre).
Avec la prise en charge des entrées d'images dans gpt-realtime, vous pouvez ajouter des images, des photos et des captures d'écran à une session API en temps réel, en plus de l'audio ou du texte. Désormais, le modèle peut ancrer la conversation autour de ce que l’utilisateur voit. Les utilisateurs peuvent ainsi poser des questions, comme : « que vois-tu ? » ou « lis le texte dans la capture d’écran ».
Au lieu de traiter une image comme un flux vidéo en direct, le système la considère plutôt comme un ajout d’une image à la conversation. Votre appli peut choisir les images qu’elle partage avec le modèle ainsi que le moment. De cette manière, vous gardez le contrôle sur ce que le modèle voit et sur le moment de sa réponse.
Consultez notre documentation(s'ouvre dans une nouvelle fenêtre) pour commencer avec l'entrée d'images.
Nous avons ajouté d’autres fonctionnalités pour faciliter l’intégration de l’API Realtime et la rendre plus flexible en production.
- Prise en charge du protocole SIP (Session Initiation Protocol) : connectez vos applis au réseau téléphonique public, aux systèmes PBX, aux téléphones fixes et à d'autres point de terminaison SIP grâce à la prise en charge directe dans l'API Realtime. Lisez à ce sujet dans la documentation.(s'ouvre dans une nouvelle fenêtre)
- Invites réutilisables : Vous pouvez maintenant enregistrer et réutiliser des invites, composées de messages de développeurs, d'outils, de variables et d'exemples de messages utilisateur/assistant, dans les sessions API en temps réel, comme dans l'API des Réponses. En savoir plus dans la documentation.(s'ouvre dans une nouvelle fenêtre)
L’API Realtime comprend plusieurs couches de protection et d’atténuation pour prévenir les abus. Vous pouvez en apprendre davantage sur notre approche de sécurité et les détails de la fiche système dans le blogue d'annonce de la version bêta. Nous utilisons des classifications actives dans les sessions de l’API Realtime, ce qui signifie que certaines conversations peuvent être interrompues si elles sont détectées comme enfreignant nos règles relatives au contenu dangereux. Les développeurs peuvent également ajouter facilement leurs propres garde-fous de sécurité supplémentaires à l'aide du SDK Agents(s'ouvre dans une nouvelle fenêtre).
Nos politiques d’utilisation interdisent la réutilisation ou la distribution des résultats de nos services à des fins de pourriel, de tromperie ou à d’autres fins nuisibles. Les développeurs doivent aussi préciser aux utilisateurs finaux les moments où ils interagissent avec l’IA, sauf si cette interaction est évidente en contexte. L’API Realtime utilise des voix prédéfinies pour éviter que les auteurs malveillants se fassent passer pour d’autres.
L'API Realtime offre un soutien complet à la résidence des données de l'UE(s'ouvre dans une nouvelle fenêtre) pour les applications basées dans l'UE et est couverte par nos engagements en matière de confidentialité d'entreprise.
L'API Realtime généralement disponible et le nouveau modèle gpt-realtime sont accessibles à tous les développeurs dès aujourd'hui. Nous réduisons les prix de gpt-realtime de 20 % par rapport à gpt-4o-realtime-preview—32 $ / 1 M de jetons d'entrée audio (0,40 $ pour les jetons d'entrée mis en cache) et 64 $ / 1 M de jetons de sortie audio (voir la tarification détaillée(s'ouvre dans une nouvelle fenêtre)). Nous avons également ajouté un contrôle précis du contexte des conversations, permettant aux développeurs de définir des limites de jetons intelligentes et d’abréger plusieurs échanges à la fois, ce qui réduit de manière significative les coûts des sessions prolongées.
Pour commencer, visitez notre documentation de l'API Realtime(s'ouvre dans une nouvelle fenêtre), testez le nouveau modèle dans le Playground(s'ouvre dans une nouvelle fenêtre), et consultez notre guide de l'API Realtime(s'ouvre dans une nouvelle fenêtre).


