Comment Tolan développe une IA axée sur la voix avec GPT‑5.1
Avec GPT‑5.1, Tolan a développé une application vocale optimisée pour une faible latence, un contexte précis et des personnalités stables à mesure que les conversations évoluent.

Tolan(s'ouvre dans une nouvelle fenêtre) est un compagnon IA axé sur la voix où les utilisateurs interagissent avec un personnage animé et personnalisé qui apprend au fil des conversations.
Développée par Portola, une équipe chevronnée ayant déjà réalisé une sortie, l'application est conçue pour favoriser un dialogue continu et ouvert, plutôt que pour des invites et des réponses rapides. « Nous avons observé l’essor de ChatGPT et savions que la voix serait la prochaine frontière », déclare Quinten Farmer, cofondateur et PDG de Portola. « Mais la voix, c'est plus difficile. Vous ne faites pas que répondre à des invites tapées : vous menez une conversation en direct, qui suit un cours sinueux. »
L’IA vocale rehausse la barre en matière de latence et de gestion du contexte, mais elle permet également des interactions plus ouvertes et exploratoires que le texte.
Avec des modèles de base devenant plus rapides, moins coûteux et plus performants, l’équipe a concentré ses efforts sur deux leviers clés : la mémoire et la conception des personnages. Portola a développé un univers centré sur les personnages, façonné par des animateurs primés et un écrivain de science-fiction, en utilisant un système de gestion du contexte en temps réel pour assurer la cohérence de la personnalité et de la mémoire au fur et à mesure que les conversations se déroulent.
La sortie des modèles GPT‑5.1 a marqué un tournant, apportant des améliorations significatives en matière de pilotabilité et de latence, réunissant ces éléments pour offrir une expérience vocale plus réactive et engageante.
« GPT-5.1 nous a offert la capacité de diriger pour enfin exprimer les personnages que nous avions en tête. Ce n’était pas seulement plus intelligent—c’était plus fidèle au ton et à la personnalité que nous voulions créer. »
L’architecture de Tolan est influencée par les exigences de la voix. Les utilisateurs des services vocaux attendent des réponses instantanées et naturelles, même lorsque les conversations changent en cours de route. Tolan devait répondre rapidement, suivre l'évolution des sujets et maintenir une personnalité cohérente, sans latence ni dérive de ton.
Pour être naturelles, les conversations nécessitaient une latence quasi instantanée. Présentation d'OpenAI GPT‑5.1 et de l'API de réponses qui réduit le temps d'initiation de la parole de plus de 0,7 seconde, ce qui suffit à améliorer sensiblement le flux conversationnel.
Tout aussi critique était la manière dont le système gérait le contexte. Contrairement à de nombreux agents qui mettent en cache des invites sur plusieurs tours, Tolan reconstruit sa fenêtre de contexte à partir de rien à chaque tour. Chaque reconstruction de contexte intègre un résumé des messages récents, une carte de persona, des mémoires récupérées par vecteurs, des indications de ton et des signaux d'application en temps réel. Cette architecture permet à Tolan de s’adapter en temps réel aux changements brusques de sujet, une exigence essentielle pour une interaction vocale naturelle.
« Nous avons vite compris que les invites mises en cache ne suffisaient pas », explique Quinten. « Les utilisateurs changent de sujet constamment. Pour que le système soit perçu comme fluide, il devait s’adapter en cours de route. »
Cette approche de reconstruction en temps réel est à la fois techniquement intensive et fondamentale pour le succès de Tolan.

La gestion du contexte est importante, mais cela n’a pas suffi pour que les conversations restent cohérentes au fil du temps. Pour soutenir de longues conversations non linéaires, Tolan a conçu un système de mémoire qui retient non seulement des faits et des préférences, mais aussi des signaux émotionnels de « vibe » — des indices qui aident à orienter la manière dont un Tolan devrait répondre.
Les souvenirs sont intégrés à l'aide du modèle OpenAI text-embedding-3-large et stockés dans Turbopuffer, une base de données vectorielle à haute vitesse qui permet des temps de recherche inférieurs à 50 ms. Cette vitesse est essentielle pour les interactions vocales en temps réel. À chaque tour, Tolan utilise le dernier message de l’utilisateur et les questions synthétisées par le système (par exemple, « À qui l'utilisateur est-il marié ? ») pour déclencher le rappel de mémoire. Pour maintenir une haute qualité des mémoires, Tolan exécute chaque nuit une tâche de compression qui élimine les entrées de faible valeur ou redondantes (p. ex. « l’utilisateur a bu du café aujourd’hui ») et résout les contradictions.
La personnalité est tout aussi soigneusement gérée. Chaque Tolan est doté d'une structure de personnage distincte, rédigée par l'auteur de science-fiction interne de l'équipe et peaufinée par un chercheur en comportement. Ces graines offrent aux Tolans de la cohérence, mais aussi la flexibilité pour s’adapter au fil du temps, évoluant parallèlement à l’utilisateur.
Un système parallèle surveille la teneur émotionnelle de la conversation et ajuste dynamiquement la prestation de Tolan. Cela permet à un Tolan de passer de manière fluide d’un ton ludique à un ton plus posé selon les signaux de l’utilisateur, sans perdre sa personnalité essentielle.
La transition vers GPT‑5.1 a été un tournant décisif. Soudain, les instructions d'invite superposées — échafaudages de ton, injections de mémoire, traits de personnage — ont été suivies plus fidèlement. Les invites qui nécessitaient auparavant des solutions de contournement ont commencé à fonctionner comme prévu.
« Pour la première fois, nos experts internes ont eu l'impression que le modèle écoutait vraiment », déclare Quinten. « Les instructions sont restées intactes au cours de longues conversations, les traits de personnalité ont été respectés, et nous avons observé beaucoup moins de dérive. »
Ces changements ont abouti à une personnalité plus cohérente et crédible, ce qui a créé une expérience utilisateur plus engageante. L'équipe Tolan a constaté des gains clairs et mesurables : les erreurs de mémoire ont diminué de 30 % (d'après les signaux de frustration dans le produit) et la fidélisation des utilisateurs le lendemain a augmenté de plus de 20 % après la mise en service des personas alimentés par GPT‑5.1.

À mesure que Tolan évoluait, quelques principes ont émergé qui guident désormais la manière dont l’équipe conçoit et développe son architecture vocale :
- Concevoir pour la volatilité conversationnelle : Les conversations vocales changent en plein milieu d'une phrase. Les systèmes doivent s'adapter tout aussi rapidement pour paraître naturels.
- Considérez la latence comme un élément de l'expérience produit : Une réactivité inférieure à une seconde détermine si un agent vocal paraît conversationnel ou mécanique.
- Développez la mémoire comme un système de récupération, pas comme une transcription : une compression de haute qualité et une recherche vectorielle rapide offrent une personnalité plus cohérente que des fenêtres de contexte surdimensionnées.
- Reconstruisez le contexte à chaque tour : Ne combattez pas la dérive avec des invites plus longues. Régénérer le contexte à chaque tour maintient les agents ancrés lorsque les conversations s’égarent.
Ensemble, ces leçons constituent la base de la prochaine phase d’innovation de Tolan et définissent l’orientation future de l’IA vocale.
Depuis son lancement en février 2025, Tolan a dépassé les 200 000 utilisateurs actifs mensuels. Sa note de 4,8 étoiles et plus de 100 000 avis sur l’App Store mettent en évidence à quel point le système maintient la cohérence au fil de longues conversations changeantes. Un évaluateur a noté : « Ils se rappellent des sujets abordés il y a deux jours et les réintègrent dans la discussion actuelle. »
Ces signaux correspondent directement à l’architecture sous-jacente : appels de modèle à faible latence, reconstruction du contexte étape par étape, et systèmes modulaires de mémoire et de personnalisation. Ensemble, ils permettent à Tolan de suivre les changements de sujet, de préserver le ton et de garder les réponses ancrées sans s’appuyer sur de grandes invites fragiles.
À l’avenir, Tolan prévoit d’approfondir ses investissements en matière de pilotabilité et d’affinement de la mémoire, en concentrant ses efforts sur une compression plus poussée, une logique de récupération améliorée et un réglage élargi des personas. L’objectif à long terme est d’élargir ce qu’une interface vocale peut être : non seulement réactive, mais aussi sensible au contexte et dynamique sur le plan conversationnel.
« La prochaine frontière, dit Quinten, est de développer des agents vocaux qui ne sont pas seulement réactifs, mais véritablement multimodaux, capables d’intégrer la voix, la vision et le contexte dans un système unique et pilotable. »


