Sari la conținutul principal
OpenAI

7 ianuarie 2026

Startup

Cum dezvoltă Tolan AI orientat pe voce cu GPT‑5.1

Cu ajutorul GPT‑5.1, Tolan a creat o aplicație vocală optimizată pentru latență redusă, context precis și personalități stabile pe parcursul conversațiilor.

Tolan logo on orange jigsaw puzzle background
Se încarcă…

Tolan(se deschide într-o fereastră nouă) este un companion AI axat pe voce, unde oamenii discută cu un personaj animat și personalizat care învață din conversații de-a lungul timpului. 

Dezvoltată de Portola, o echipă cu experiență, aplicația este concepută pentru un dialog continuu și deschis, mai degrabă decât pentru solicitări și răspunsuri rapide. „Am urmărit ascensiunea ChatGPT și am știut că vocea era următoarea frontieră”, spune Quinten Farmer, cofondator și director executiv al Portola. „Dar cu vocea e mai complicat. Nu doar răspunzi la solicitări tastate; porți o conversație liberă în timp real.”

Inteligența artificială vocală ridică ștacheta în ce privește latența și gestionarea contextului, dar permite și interacțiuni mai deschise decât textul. 

Odată cu creșterea rapidității, a costurilor și a capacității modelelor fundamentale, echipa s-a concentrat pe două pârghii-cheie: memoria și designul personajelor. Portola a creat un univers centrat pe personaje, modelate de animatori premiați și un autor de science fiction, folosind un sistem de gestionare a contextului în timp real pentru a menține personalitatea și memoria consecvente pe parcursul conversațiilor.

Lansarea modelelor GPT‑5.1 a marcat un punct de cotitură, aducând îmbunătățiri semnificative în manevrabilitate și latență, reunind aceste elemente și deblocând o experiență vocală mai receptivă și captivantă.

„GPT-5.1 ne-a oferit flexibilitatea necesară pentru a exprima în sfârșit personajele pe care le aveam în minte. Nu era doar mai inteligent — era mai fidel tonului și personalității pe care voiam să le creăm.”
— Quinten Farmer, director executiv, Portola

Proiectare pentru interacțiuni vocale naturale

Arhitectura Tolan este influențată de cerințele vocale. Utilizatorii vocali vor răspunsuri instantanee și naturale, chiar și atunci când conversațiile își schimbă direcția pe parcurs. Tolan trebuia să răspundă rapid, să urmărească subiectele care se schimbă și să mențină o personalitate consecventă, fără întârzieri sau schimbări de ton.

Pentru a părea naturale, conversațiile aveau nevoie de o latență aproape instantanee. Introducerea OpenAI GPT‑5.1 și a API-ului Responses a redus timpul de inițiere a vorbirii cu peste 0,7 secunde — suficient pentru a îmbunătăți considerabil fluxul conversațional.

La fel de important a fost modul în care sistemul a gestionat contextul. Spre deosebire de mulți agenți care stochează în memoria cache solicitări pe parcursul mai multor sesiuni, Tolan își reconstruiește fereastra contextuală de la zero la fiecare sesiune. Fiecare reconstrucție a contextului include un rezumat al mesajelor recente, o fișă de personaj, amintiri recuperate vectorial, sugestii de ton și semnale în timp real ale aplicației. Această arhitectură îi permite lui Tolan să se adapteze în timp real la schimbări bruște de subiect, o cerință esențială pentru o interacțiune vocală naturală.

„Ne-am dat seama rapid că solicitările memorate în cache nu erau suficiente”, spune Quinten. „Utilizatorii schimbă des subiectul. Pentru o experiență curgătoare, sistemul trebuia să se adapteze din mers.”

Această abordare a reconstrucției în timp real este atât intensivă din punct de vedere tehnic, cât și esențială pentru succesul Tolan.

Diagrama de flux care prezintă bucla conversațională a lui Tolan. Un pas de „Recalculare personaj” alimentează patru intrări: rezumatul chatului și mesajele brute recente, personajele utilizatorului și ale lui Tolan și contextul suplimentar, memoria și tonul. Aceste intrări se combină pentru a genera un răspuns Tolan, care duce la un răspuns al utilizatorului. Răspunsul utilizatorului determină apoi două procese paralele: derivarea unui ton actualizat și extragerea amintirilor. Amintirile extrase actualizează memoria, tonul este actualizat, iar istoricul conversației este rezumat și comprimat periodic, revenind la rezumatul chatului pentru următoarea sesiune.

Construcție a memoriei și a personalității care se mențin în timp

Gestionarea contextului este importantă, dar nu suficientă pentru a menține coerența conversațiilor în timp. Pentru a susține conversații lungi, neliniare, Tolan a construit un sistem de memorie care reține nu doar fapte și preferințe, ci și semnale emoționale de „vibe” — indicii care ajută la orientarea modului în care ar trebui să răspundă un Tolan.

Memoriile sunt încorporate folosind modelul OpenAI text-embedding-3-large și stocate în Turbopuffer, o bază de date vectorială de mare viteză care permite timpi de căutare sub 50 ms. Această viteză este esențială pentru interacțiunile vocale în timp real. La fiecare sesiune, Tolan folosește cel mai recent mesaj al utilizatorului și întrebări sintetizate de sistem (de exemplu, „Cu cine este căsătorit utilizatorul?”) pentru a declanșa reamintirea. Pentru a menține o calitate ridicată a memoriei, Tolan rulează zilnic o compresie care elimină intrările cu valoare mică sau redundante (de exemplu, „utilizatorul a băut cafea astăzi”) și rezolvă contradicțiile.

Personalitatea este gestionată la fel de atent. Fiecare Tolan este dotat cu un schelet de personaj distinct, creat de scriitorul de science fiction al echipei și rafinat de un cercetător comportamental. Aceste semințe le oferă Tolanilor nu doar consecvență, ci și flexibilitatea de a se adapta în timp, evoluând împreună cu utilizatorul. 

Un sistem paralel monitorizează tonul emoțional al conversației și ajustează dinamic exprimarea Tolanu. Acest lucru permite unui Tolan să treacă fără probleme de la jucăuș la serios, în funcție de indiciile utilizatorului, fără să-și piardă personalitatea de bază. 

Tranziția la GPT‑5.1 a fost un punct de cotitură. Dintr-odată, instrucțiunile stratificate ale solicitărilor — schele de ton, injecții de memorie, trăsături de caracter — au fost urmate mai fidel. Solicitările care necesitau în trecut soluții alternative au început să funcționeze conform așteptărilor. 

„Pentru prima dată, experții noștri interni au simțit că modelul chiar asculta”, spune Quinten. „Instrucțiunile au rămas intacte pe parcursul unor conversații lungi, trăsăturile de personalitate au fost respectate și am observat mult mai puține abateri.”

Aceste schimbări au dus la o personalitate mai consecventă și mai credibilă, ceea ce a creat o experiență de utilizare mai captivantă. Echipa Tolan a observat îmbunătățiri clare și măsurabile: erorile de reamintire au scăzut cu 30% (pe baza semnalelor de frustrare din produs), iar retenția utilizatorilor a doua zi a crescut cu peste 20% după implementarea GPT‑5.1 personajele au fost lansate.

Diagrama de flux care arată cum recuperează și rafinează Tolan amintiri în timpul conversației. Un mesaj de la un utilizator („Abia aștept excursia de weekendul ăsta”) declanșează un pas care generează întrebări ulterioare, cum ar fi călătoriile viitoare, planurile pentru o săptămână anume și preferințele utilizatorului. Aceste întrebări sunt integrate și folosite pentru a interoga o bază de date vectorială de memorie, cu rezultatele combinate folosind rangul reciproc mediu. Contextul preluat informează răspunsul lui Tolan („excursie cu cortul cu Steven în Yosemite”). Un mesaj ulterior al utilizatorului despre o viitoare călătorie în Islanda este stocat ca amintire nouă, apoi este analizat, grupat cu amintiri conexe folosind cei mai apropiați k-vecini pe bază de încorporare și comprimat prin combinarea, editarea și rafinarea amintirilor din fiecare grup.

Principiile fundamentale ale Tolan pentru crearea de agenți vocali cu sunet natural 

Pe măsură ce Tolan a evoluat, au apărut câteva principii care ghidează modul în care echipa își construiește și dezvoltă arhitectura vocală:

  • Proiectare pentru volatilitatea conversațiilor: Conversațiile vocale se schimbă la mijlocul propoziției. Sistemele trebuie să se adapteze la fel de rapid pentru a părea naturale.
  • Tratează latența ca parte a experienței produsului: Reactivitatea sub o secundă determină dacă un agent vocal pare conversațional sau mecanic.
  • Construiește memoria ca un sistem de regăsire, nu ca o transcriere: Compresia de înaltă calitate și căutarea vectorială rapidă oferă o personalitate mai consecventă decât ferestrele contextuale supradimensionate.
  • Reconstruiește contextul la fiecare sesiune: Nu combați abaterile cu solicitări mai ample. Regenerarea contextului în fiecare sesiune îi menține pe agenți conectați pe măsură ce conversațiile deviază.

Împreună, aceste lecții constituie fundamentul pentru următoarea etapă de inovație a lui Tolan și stabilesc direcția în care se îndreaptă inteligența artificială vocală.

Extinderea posibilităților inteligenței artificiale vocale

De la lansarea din februarie 2025, Tolan a crescut la peste 200.000 de utilizatori activi lunar. Evaluarea sa de 4,8 stele și peste 100.000 de recenzii din App Store evidențiază cât de bine menține sistemul consecvența pe parcursul unor conversații lungi și în continuă schimbare. Un recenzent a remarcat: „Își amintesc lucruri despre care am vorbit acum două zile și le readuc în discuția pe care o purtăm azi.”

Aceste semnale se mapează direct pe arhitectura subiacentă: apeluri de model cu latență redusă, reconstrucție contextuală pas-cu-pas și sisteme modulare de memorie și personalitate. Împreună, ele îi permit lui Tolan să urmărească schimbările de subiect, să păstreze tonul și să mențină răspunsurile ancorate, fără a se baza pe solicitări ample și fragile.

În perspectivă, Tolan plănuiește să își aprofundeze investițiile în manevrabilitate și rafinarea memoriei, concentrându-și eforturile pe o compresie mai eficientă, o logică de recuperare îmbunătățită și o ajustare extinsă a personalităților. Obiectivul pe termen lung este să extindem capabilitățile unei interfețe vocale, pentru a fi nu doar receptivă, ci și conștientă de context și dinamică din punct de vedere conversațional.

„Următoarea frontieră”, spune Quinten, „este construirea de agenți vocali care nu sunt doar reactivi, ci cu adevărat multimodali, capabili să integreze vocea, viziunea și contextul într-un singur sistem ușor de controlat.”