Cum dezvoltă Tolan AI orientat pe voce cu GPT‑5.1
Cu ajutorul GPT‑5.1, Tolan a creat o aplicație vocală optimizată pentru latență redusă, context precis și personalități stabile pe parcursul conversațiilor.

Tolan(se deschide într-o fereastră nouă) este un companion AI axat pe voce, unde oamenii discută cu un personaj animat și personalizat care învață din conversații de-a lungul timpului.
Dezvoltată de Portola, o echipă cu experiență, aplicația este concepută pentru un dialog continuu și deschis, mai degrabă decât pentru solicitări și răspunsuri rapide. „Am urmărit ascensiunea ChatGPT și am știut că vocea era următoarea frontieră”, spune Quinten Farmer, cofondator și director executiv al Portola. „Dar cu vocea e mai complicat. Nu doar răspunzi la solicitări tastate; porți o conversație liberă în timp real.”
Inteligența artificială vocală ridică ștacheta în ce privește latența și gestionarea contextului, dar permite și interacțiuni mai deschise decât textul.
Odată cu creșterea rapidității, a costurilor și a capacității modelelor fundamentale, echipa s-a concentrat pe două pârghii-cheie: memoria și designul personajelor. Portola a creat un univers centrat pe personaje, modelate de animatori premiați și un autor de science fiction, folosind un sistem de gestionare a contextului în timp real pentru a menține personalitatea și memoria consecvente pe parcursul conversațiilor.
Lansarea modelelor GPT‑5.1 a marcat un punct de cotitură, aducând îmbunătățiri semnificative în manevrabilitate și latență, reunind aceste elemente și deblocând o experiență vocală mai receptivă și captivantă.
„GPT-5.1 ne-a oferit flexibilitatea necesară pentru a exprima în sfârșit personajele pe care le aveam în minte. Nu era doar mai inteligent — era mai fidel tonului și personalității pe care voiam să le creăm.”
Arhitectura Tolan este influențată de cerințele vocale. Utilizatorii vocali vor răspunsuri instantanee și naturale, chiar și atunci când conversațiile își schimbă direcția pe parcurs. Tolan trebuia să răspundă rapid, să urmărească subiectele care se schimbă și să mențină o personalitate consecventă, fără întârzieri sau schimbări de ton.
Pentru a părea naturale, conversațiile aveau nevoie de o latență aproape instantanee. Introducerea OpenAI GPT‑5.1 și a API-ului Responses a redus timpul de inițiere a vorbirii cu peste 0,7 secunde — suficient pentru a îmbunătăți considerabil fluxul conversațional.
La fel de important a fost modul în care sistemul a gestionat contextul. Spre deosebire de mulți agenți care stochează în memoria cache solicitări pe parcursul mai multor sesiuni, Tolan își reconstruiește fereastra contextuală de la zero la fiecare sesiune. Fiecare reconstrucție a contextului include un rezumat al mesajelor recente, o fișă de personaj, amintiri recuperate vectorial, sugestii de ton și semnale în timp real ale aplicației. Această arhitectură îi permite lui Tolan să se adapteze în timp real la schimbări bruște de subiect, o cerință esențială pentru o interacțiune vocală naturală.
„Ne-am dat seama rapid că solicitările memorate în cache nu erau suficiente”, spune Quinten. „Utilizatorii schimbă des subiectul. Pentru o experiență curgătoare, sistemul trebuia să se adapteze din mers.”
Această abordare a reconstrucției în timp real este atât intensivă din punct de vedere tehnic, cât și esențială pentru succesul Tolan.

Gestionarea contextului este importantă, dar nu suficientă pentru a menține coerența conversațiilor în timp. Pentru a susține conversații lungi, neliniare, Tolan a construit un sistem de memorie care reține nu doar fapte și preferințe, ci și semnale emoționale de „vibe” — indicii care ajută la orientarea modului în care ar trebui să răspundă un Tolan.
Memoriile sunt încorporate folosind modelul OpenAI text-embedding-3-large și stocate în Turbopuffer, o bază de date vectorială de mare viteză care permite timpi de căutare sub 50 ms. Această viteză este esențială pentru interacțiunile vocale în timp real. La fiecare sesiune, Tolan folosește cel mai recent mesaj al utilizatorului și întrebări sintetizate de sistem (de exemplu, „Cu cine este căsătorit utilizatorul?”) pentru a declanșa reamintirea. Pentru a menține o calitate ridicată a memoriei, Tolan rulează zilnic o compresie care elimină intrările cu valoare mică sau redundante (de exemplu, „utilizatorul a băut cafea astăzi”) și rezolvă contradicțiile.
Personalitatea este gestionată la fel de atent. Fiecare Tolan este dotat cu un schelet de personaj distinct, creat de scriitorul de science fiction al echipei și rafinat de un cercetător comportamental. Aceste semințe le oferă Tolanilor nu doar consecvență, ci și flexibilitatea de a se adapta în timp, evoluând împreună cu utilizatorul.
Un sistem paralel monitorizează tonul emoțional al conversației și ajustează dinamic exprimarea Tolanu. Acest lucru permite unui Tolan să treacă fără probleme de la jucăuș la serios, în funcție de indiciile utilizatorului, fără să-și piardă personalitatea de bază.
Tranziția la GPT‑5.1 a fost un punct de cotitură. Dintr-odată, instrucțiunile stratificate ale solicitărilor — schele de ton, injecții de memorie, trăsături de caracter — au fost urmate mai fidel. Solicitările care necesitau în trecut soluții alternative au început să funcționeze conform așteptărilor.
„Pentru prima dată, experții noștri interni au simțit că modelul chiar asculta”, spune Quinten. „Instrucțiunile au rămas intacte pe parcursul unor conversații lungi, trăsăturile de personalitate au fost respectate și am observat mult mai puține abateri.”
Aceste schimbări au dus la o personalitate mai consecventă și mai credibilă, ceea ce a creat o experiență de utilizare mai captivantă. Echipa Tolan a observat îmbunătățiri clare și măsurabile: erorile de reamintire au scăzut cu 30% (pe baza semnalelor de frustrare din produs), iar retenția utilizatorilor a doua zi a crescut cu peste 20% după implementarea GPT‑5.1 personajele au fost lansate.

Pe măsură ce Tolan a evoluat, au apărut câteva principii care ghidează modul în care echipa își construiește și dezvoltă arhitectura vocală:
- Proiectare pentru volatilitatea conversațiilor: Conversațiile vocale se schimbă la mijlocul propoziției. Sistemele trebuie să se adapteze la fel de rapid pentru a părea naturale.
- Tratează latența ca parte a experienței produsului: Reactivitatea sub o secundă determină dacă un agent vocal pare conversațional sau mecanic.
- Construiește memoria ca un sistem de regăsire, nu ca o transcriere: Compresia de înaltă calitate și căutarea vectorială rapidă oferă o personalitate mai consecventă decât ferestrele contextuale supradimensionate.
- Reconstruiește contextul la fiecare sesiune: Nu combați abaterile cu solicitări mai ample. Regenerarea contextului în fiecare sesiune îi menține pe agenți conectați pe măsură ce conversațiile deviază.
Împreună, aceste lecții constituie fundamentul pentru următoarea etapă de inovație a lui Tolan și stabilesc direcția în care se îndreaptă inteligența artificială vocală.
De la lansarea din februarie 2025, Tolan a crescut la peste 200.000 de utilizatori activi lunar. Evaluarea sa de 4,8 stele și peste 100.000 de recenzii din App Store evidențiază cât de bine menține sistemul consecvența pe parcursul unor conversații lungi și în continuă schimbare. Un recenzent a remarcat: „Își amintesc lucruri despre care am vorbit acum două zile și le readuc în discuția pe care o purtăm azi.”
Aceste semnale se mapează direct pe arhitectura subiacentă: apeluri de model cu latență redusă, reconstrucție contextuală pas-cu-pas și sisteme modulare de memorie și personalitate. Împreună, ele îi permit lui Tolan să urmărească schimbările de subiect, să păstreze tonul și să mențină răspunsurile ancorate, fără a se baza pe solicitări ample și fragile.
În perspectivă, Tolan plănuiește să își aprofundeze investițiile în manevrabilitate și rafinarea memoriei, concentrându-și eforturile pe o compresie mai eficientă, o logică de recuperare îmbunătățită și o ajustare extinsă a personalităților. Obiectivul pe termen lung este să extindem capabilitățile unei interfețe vocale, pentru a fi nu doar receptivă, ci și conștientă de context și dinamică din punct de vedere conversațional.
„Următoarea frontieră”, spune Quinten, „este construirea de agenți vocali care nu sunt doar reactivi, ci cu adevărat multimodali, capabili să integreze vocea, viziunea și contextul într-un singur sistem ușor de controlat.”


