Com Tolan crea IA centrada en la veu amb GPT‑5.1
Amb GPT‑5.1, Tolan va crear una app de veu optimitzada per a baixa latència, context precís i personalitats estables a mesura que evolucionen les converses.

Tolan(s'obre en una finestra nova) és un company d’IA centrat en la veu on les persones parlen amb un personatge personalitzat i animat que aprèn de les converses amb el temps.
Creada per Portola, un equip veterà amb una sortida prèvia, l’app està dissenyada per a un diàleg continu i obert, en lloc d’indicacions i respostes ràpides. «Vam veure l’ascens de ChatGPT i vam saber que la veu era la següent frontera», diu Quinten Farmer, cofundador i CEO de Portola. «Però la veu és més difícil. No et limites a respondre indicacions escrites; mantens una conversa en viu i divagant.»
La IA de veu eleva el llistó de la latència i de la gestió del context, però també permet interaccions més obertes i exploratòries que el text.
A mesura que els models fundacionals es feien més ràpids, barats i capaços, l’equip va centrar els seus esforços en dues palanques clau: la memòria i el disseny de personatges. Portola va crear un univers impulsat per personatges, modelat per animadors guardonats i un escriptor de ciència-ficció, utilitzant un sistema de gestió del context en temps real per mantenir la personalitat i la memòria coherents a mesura que es desenvolupen les converses.
El llançament dels models GPT‑5.1 va marcar un punt d’inflexió, amb grans millores en controlabilitat i latència que van unir aquestes peces, desbloquejant una experiència de veu més reactiva i atractiva.
«GPT-5.1 ens va donar la controlabilitat per expressar finalment els personatges que teníem al cap. No era només més intel·ligent: era més fidel al to i a la personalitat que volíem crear.»
L’arquitectura de Tolan està modelada per les exigències de la veu. Els usuaris de veu esperen respostes instantànies i naturals, fins i tot quan les converses canvien de rumb a mitja interacció. Tolan havia de respondre ràpidament, seguir els temes canviants i mantenir una personalitat coherent sense retard ni desviacions de to.
Per semblar naturals, les converses requerien una latència gairebé instantània. La introducció d’OpenAI GPT‑5.1 i de la Responses API va reduir el temps d’inici de la parla en més de 0,7 segons, prou per millorar de manera perceptible el flux conversacional.
Igualment crítica era la manera com el sistema gestionava el context. A diferència de molts agents que emmagatzemen indicacions en memòria cau al llarg de diversos torns, Tolan reconstrueix la seva finestra de context des de zero a cada torn. Cada reconstrucció del context incorpora un resum dels missatges recents, una fitxa de persona, records recuperats amb vectors, guia de to i senyals de l’app en temps real. Aquesta arquitectura permet a Tolan adaptar-se en temps real a canvis bruscos de tema, un requisit essencial per a una interacció natural basada en la veu.
«Vam adonar-nos ràpidament que les indicacions en memòria cau senzillament no n’hi havia prou», diu Quinten. «Els usuaris canvien de tema constantment. Perquè l’experiència fos fluida, el sistema s’havia d’adaptar sobre la marxa.»
Aquest enfocament de reconstrucció en temps real és alhora tècnicament intensiu i fonamental per a l’èxit de Tolan.

La gestió del context és important, però no n’hi havia prou per mantenir la sensació de coherència de les converses al llarg del temps. Per donar suport a converses llargues i no lineals, Tolan va crear un sistema de memòria que conserva no només fets i preferències, sinó també senyals emocionals de «vibra», pistes que ajuden a orientar com ha de respondre un Tolan.
Els records s’incorporen mitjançant el model text-embedding-3-large d’OpenAI i s’emmagatzemen a Turbopuffer, una base de dades vectorial d’alta velocitat que permet temps de consulta inferiors a 50 ms. Aquesta velocitat és essencial per a les interaccions de veu en temps real. A cada torn, Tolan utilitza l’últim missatge de l’usuari i preguntes sintetitzades pel sistema (p. ex., «Amb qui està casat l’usuari?») per activar el record de memòria. Per mantenir alta la qualitat de la memòria, Tolan executa cada nit una tasca de compressió que elimina entrades de poc valor o redundants (p. ex. «l’usuari ha pres cafè avui») i resol contradiccions.
La personalitat es gestiona amb la mateixa cura. Cada Tolan s’inicialitza amb una estructura de personatge diferenciada, escrita per l’escriptor intern de ciència-ficció de l’equip i refinada per un investigador conductual. Aquestes llavors donen coherència als Tolans, però també flexibilitat per adaptar-se amb el temps, evolucionant al costat de l’usuari.
Un sistema paral·lel supervisa el to emocional de la conversa i ajusta dinàmicament l’expressió del Tolan. Això permet que un Tolan passi sense friccions d’un registre juganer a un de més assenyat segons els senyals de l’usuari, sense perdre la seva personalitat central.
La transició a GPT‑5.1 va ser un punt d’inflexió. De sobte, les instruccions d’indicació en capes —estructures de to, injeccions de memòria, trets de caràcter— es seguien amb més fidelitat. Indicacions que abans requerien solucions alternatives van començar a comportar-se com s’esperava.
«Per primera vegada, els nostres experts interns van sentir que el model realment escoltava», diu Quinten. «Les instruccions es mantenien intactes durant converses llargues, es respectaven els trets de persona i vam veure molta menys deriva.»
Aquests canvis es van traduir en una personalitat més coherent i creïble, que al seu torn va generar una experiència d’usuari més atractiva. L’equip de Tolan va observar millores clares i mesurables: els errors de record de memòria van caure un 30% (segons els senyals de frustració dins del producte), i la retenció d’usuaris l’endemà va augmentar més d’un 20% després que les persones impulsades per GPT‑5.1 es posessin en marxa.

A mesura que Tolan evolucionava, van emergir alguns principis que ara guien com l’equip construeix i evoluciona la seva arquitectura de veu:
- Dissenya per a la volatilitat conversacional: Les converses de veu canvien a mitja frase. Els sistemes han de pivotar igual de ràpid per semblar naturals.
- Tracta la latència com a part de l’experiència del producte: Una capacitat de resposta inferior a un segon determina si un agent de veu sembla conversacional o mecànic.
- Construeix la memòria com un sistema de recuperació, no com una transcripció: Una compressió d’alta qualitat i una cerca vectorial ràpida ofereixen una personalitat més coherent que les finestres de context sobredimensionades.
- Reconstrueix el context a cada torn: No lluitis contra la deriva amb indicacions més grans. Regenerar el context a cada torn manté els agents centrats mentre les converses divaguen.
En conjunt, aquestes lliçons formen la base de la següent fase d’innovació de Tolan i marquen la direcció cap a on es dirigeix la IA de veu.
Des del seu llançament el febrer de 2025, Tolan ha crescut fins a superar els 200.000 usuaris actius mensuals. La seva valoració de 4,8 estrelles i més de 100.000 ressenyes a l’App Store destaquen fins a quin punt el sistema manté la coherència al llarg de converses llargues i canviants. Un crític va assenyalar: «Recorden coses de què vam parlar fa dos dies i les tornen a portar a la conversa que tenim avui.»
Aquests senyals corresponen directament a l’arquitectura subjacent: crides al model de baixa latència, reconstrucció del context torn a torn i sistemes modulars de memòria i persona. En conjunt, permeten a Tolan seguir els canvis de tema, preservar el to i mantenir les respostes arrelades sense dependre d’indicacions grans i fràgils.
Mirant cap al futur, Tolan preveu aprofundir les seves inversions en controlabilitat i refinament de la memòria, centrant els esforços en una compressió més ajustada, una lògica de recuperació millorada i una afinació de persones ampliada. L’objectiu a llarg termini és ampliar el que pot ser una interfície de veu: no només reactiva, sinó també conscient del context i dinàmica en l’àmbit conversacional.
«La següent frontera», diu Quinten, «és crear agents de veu que no siguin només reactius, sinó veritablement multimodals, capaços d’integrar veu, visió i context en un únic sistema controlable.»


