Comment Tolan développe une IA axée sur la voix avec GPT‑5.1

Avec GPT‑5.1, Tolan a développé une application vocale optimisée pour une faible latence, un contexte précis et des personnalités stables au fur et à mesure que les conversations évoluent.

Chargement...

Compagnon d’IA axé sur les interactions vocales, Tolan⁠(ouverture dans une nouvelle fenêtre) propose un personnage animé et personnalisé qui apprend de ses échanges au fil du temps.

Développée par Portola – dont l’équipe chevronnée a déjà une revente à succès à son actif – l’application est conçue pour favoriser un dialogue continu et ouvert plutôt que des échanges brefs de type « prompt-réponse ». « Nous avions observé l’essor de ChatGPT, et nous savions que parvenir à une interaction vocale fluide serait le prochain défi majeur », déclare Quinten Farmer. « Mais celle-ci est, par nature, plus complexe. Il ne s’agit plus simplement de réagir à des prompts saisis ; vous entretenez une conversation fluide et en direct. »

L’IA vocale place la barre plus haut pour la latence et la gestion du contexte tout en permettant des interactions plus ouvertes et exploratoires que le texte.

À mesure que les modèles fondateurs deviennent plus rapides, moins chers et plus performants, l’équipe a concentré ses efforts sur deux leviers fondamentaux : la mémoire et la conception des personnages. Portola a bâti un univers centré sur les personnages, façonné par des animateurs primés et par un écrivain de science-fiction, en s’appuyant notamment sur un système de gestion du contexte en temps réel pour garantir la cohérence de la personnalité et de la mémoire au fil des échanges.

Le lancement des modèles GPT‑5.1 a marqué un tournant, car ceux-ci ont apporté des améliorations majeures en matière de pilotabilité et de latence, améliorations qui ont permis de créer une synergie technologique inédite pour offrir une expérience vocale plus réactive et immersive.

« GPT-5.1 nous a donné la capacité de piloter enfin l’expression des personnages telle que nous l’avions en tête. Ce n’était pas seulement une question de justesse. Le modèle reflétait bien mieux le ton et la personnalité que nous voulions créer. »

– Quinten Farmer, directeur général (CEO) de Portola

Concevoir des interactions vocales naturelles

L’architecture de Tolan est dictée par les impératifs de l’interaction vocale. Les utilisateurs d’interfaces vocales s’attendent à des réponses instantanées et naturelles, même lorsque le fil de la conversation change subitement. Tolan devait répondre avec célérité, suivre l’évolution des sujets et maintenir une personnalité cohérente, sans latence ni dérive de ton.

Pour être fluides, les conversations exigeaient une latence quasi nulle. Présentation de GPT‑5.1 d’OpenAI et de l’API Responses : réduction du délai de déclenchement de la parole de plus de 0,7 seconde, qui améliore sensiblement la fluidité des conversations.

La manière dont le système gérait le contexte était tout aussi cruciale. Contrairement à de nombreux agents qui mettent en cache des prompts sur plusieurs tours de conversation, Tolan reconstruit intégralement sa fenêtre de contexte à chaque échange. Chaque reconstruction de contexte intègre un résumé des messages récents, une fiche de persona, des souvenirs récupérés par l’intermédiaire de vecteurs, des indications de ton et des signaux d’application en temps réel. Cette architecture permet à Tolan de s’adapter en temps réel aux changements brusques de sujet, une exigence essentielle pour une interaction vocale naturelle.

« Nous avons vite compris que les prompts mis en cache ne suffisaient pas », explique M. Farmer. « Les utilisateurs changent tout le temps de sujet. Pour que le système puisse être perçu comme transparent, il devait s’adapter à la volée.

Cette approche de reconstruction en temps réel est à la fois techniquement exigeante et fondamentale pour le succès de Tolan.

Diagramme de flux montrant la boucle conversationnelle de Tolan. Une étape « Recompute persona » fournit quatre entrées : le récapitulatif du chat, les messages bruts récents, les personas de l’utilisateur et de Tolan, ainsi que d’autres éléments de contexte, de mémoire et de ton. Ces entrées se combinent pour générer une réponse de Tolan, qui appelle à son tour une réponse de l’utilisateur. La réponse de l’utilisateur déclenche ensuite deux processus parallèles : la définition d’un ton mis à jour et l’extraction de souvenirs. Les souvenirs extraits mettent à jour la mémoire, le ton actualisé alimente le ton, et l’historique est périodiquement récapitulé et compressé pour mettre à jour le récapitulatif du chat du tour suivant.

Construire une mémoire et une personnalité qui se maintiennent dans le temps

La gestion du contexte était importante, mais elle ne suffisait pas à maintenir la cohérence des conversations au fil du temps. Pour entretenir des conversations longues et non linéaires, Tolan a développé un système de mémoire qui retient non seulement des faits et des préférences, mais aussi des signaux émotionnels de type « vibe », c’est à dire des indices qui aident à orienter la manière dont un Tolan doit répondre.

Les souvenirs sont intégrés à l’aide du modèle OpenAI text-embedding-3-large et stockés dans Turbopuffer, une base de données vectorielle à haute vitesse qui permet des temps de recherche inférieurs à 50 ms. Cette vitesse est essentielle pour les interactions vocales en temps réel. À chaque tour, Tolan utilise le dernier message de l’utilisateur et les questions synthétisées par le système (par exemple, « À qui l’utilisateur est-il marié ? ») pour déclencher le rappel de mémoire. Pour maintenir une qualité de mémoire élevée, Tolan exécute chaque nuit une tâche de compression qui supprime les entrées à faible valeur ou redondantes (par exemple, « L’utilisateur a bu du café aujourd’hui ») et résout les contradictions.

La personnalité est tout aussi soigneusement gérée. Chaque Tolan est doté d’une structure de personnage unique (« seeds »), créée par l’écrivain de science-fiction interne de l’équipe et perfectionnée par un chercheur en comportement. Ces seeds offrent aux Tolans de la cohérence, mais aussi la flexibilité nécessaire pour s’adapter au fil du temps et évoluer parallèlement à l’utilisateur.

Un système parallèle surveille la tonalité émotionnelle de la conversation et ajuste dynamiquement la manière dont Tolan s’exprime. Cela permet à un Tolan de passer sans effort d’un ton ludique à un ton plus sérieux en fonction des indications de l’utilisateur, sans perdre son identité de base.

La transition vers GPT‑5.1 a été un tournant décisif. Dès lors, les instructions de prompt superposées – structure du ton, injections de mémoire, traits de caractère – étaient suivies plus fidèlement. Les prompts, qui nécessitaient auparavant des solutions de contournement, fonctionnent désormais comme prévu.

« Pour la première fois, nos experts ont eu l’impression que le modèle “écoutait” vraiment », déclare M. Farmer. « Le respect des instructions est resté constant au fil de longues conversations, les traits de personnalité ont été respectés, et nous avons constaté beaucoup moins de dérives. »

Ces changements ont abouti à une personnalité plus cohérente et crédible, ce qui a créé une expérience utilisateur plus engageante. L’équipe de Tolan a constaté des gains nets et mesurables : les ratés du rappel de mémoire ont chuté de 30 % (d’après les signaux de frustration relevés dans le produit) et la rétention à J+1 a bondi de plus de 20 % suite au déploiement des personas basés sur GPT‑5.1.

Schéma de flux illustrant comment Tolan récupère et affine des souvenirs au cours de la conversation. Un message utilisateur (« J’ai hâte de partir en voyage ce week-end ») déclenche une étape qui synthétise des questions de suivi, telles que les voyages à venir, les projets pour une semaine donnée et les préférences de l’utilisateur. Ces questions sont intégrées et utilisées pour interroger une base de données vectorielle de mémoire, et les résultats sont fusionnés à l’aide du rang réciproque moyen. Le contexte récupéré alimente la réponse de Tolan (« camping avec Steven à Yosemite »). Un message ultérieur de l’utilisateur concernant un voyage en Islande est enregistré comme une nouvelle mémoire, analysé, puis regroupé avec des souvenirs connexes en utilisant l'algorithme des k plus proches voisins (k-NN) basé sur des embeddings. Ces souvenirs sont enfin compressés par fusion et affinage au sein de chaque groupe.

Les principes fondamentaux de Tolan pour développer des agents vocaux qui offrent une interaction naturelle

À mesure que Tolan évoluait, quelques principes ont émergé qui guident désormais la manière dont l’équipe construit et fait évoluer son architecture de communication orale :

Penser l’expérience pour la volatilité conversationnelle : les conversations vocales peuvent bifurquer en plein milieu d’une phrase. Les systèmes doivent s’ajuster avec la même rapidité pour rester naturels.
Considérer la latence comme une composante de l’expérience produit : une réactivité inférieure à la seconde détermine si un agent vocal donne une impression naturelle ou mécanique.
Considérer la mémoire comme un système de récupération et non comme une transcription : une compression de haute qualité associée à une recherche vectorielle rapide offre une personnalité plus cohérente que des fenêtres de contexte surdimensionnées.
Reconstruire le contexte à chaque tour : ne tentez pas de contrer la dérive avec des prompts de plus en plus longs. La régénération du contexte à chaque tour permet aux agents de rester ancrés lorsque les conversations perdent leur fil.

Ensemble, ces enseignements constituent la base de la prochaine phase d’innovation de Tolan et définissent la direction que prendra l’IA vocale à l’avenir.

Étendre le champ des possibilités offertes par l’IA vocale

Depuis son lancement en février 2025, Tolan a dépassé les 200 000 utilisateurs actifs mensuels. Sa note de 4,8 étoiles et ses plus de 100 000 avis sur l’App Store attestent de la capacité du système à maintenir la cohérence à travers de longues conversations changeantes. Un évaluateur a noté : « Les personnages se souviennent des choses dont nous avons parlé il y a deux jours et en tiennent compte dans la conversation que nous avons aujourd’hui. »

Ces signaux sont directement mappés sur l’architecture sous-jacente : appels à un modèle à faible latence, reconstruction du contexte à chaque tour et systèmes modulaires de mémoire et de persona Ensemble, ces composants permettent à Tolan de suivre les changements de sujet, de préserver le ton et de maintenir les réponses ancrées sans dépendre de longs prompts fragiles.

À l’avenir, Tolan prévoit d’approfondir ses investissements dans la maniabilité et l’affinement de la mémoire, en concentrant ses efforts sur une compression plus poussée, une logique de récupération améliorée et un réglage des personas élargi. L’objectif à long terme est de redéfinir les possibilités des interfaces vocales : elles doivent être non seulement réactives, mais aussi sensibles au contexte et dynamiques dans les conversations.

« Le prochain défi majeur, explique M. Farmer, est de développer des agents vocaux qui seront non seulement réactifs, mais aussi véritablement multimodaux, capables d’intégrer la voix, la vision et le contexte dans un système unique et pilotable. »

Poursuivez votre lecture

Tout afficher

Le pari de Warp sur l’open source avec GPT-5.5

Startup27 mai 2026

Parloa builds service agents customers want to talk to

Startup7 mai 2026

Gradient Labs offre un conseiller IA à chaque client bancaire

Startup1 avr. 2026