Kako Tolan razvija glasovnu umjetnu inteligenciju uz GPT‑5.1

Uz GPT‑5.1, Tolan je razvio glasovnu aplikaciju optimiziranu za nisku latenciju, precizan kontekst i stabilne osobnosti kako se razgovori razvijaju.

Učitavanje…

Tolan⁠(otvara se u novom prozoru) je glasovno usmjeren AI suputnik AI suputnik u kojem ljudi razgovaraju s personaliziranim, animiranim likom koji s vremenom uči iz razgovora.

Aplikaciju je izradio iskusni tim tvrtke Portola, a osmišljena je za kontinuirani, otvoreni dijalog, a ne za kratke upite i odgovore. „Vidjeli smo uspon ChatGPT‑a i znali da je glas sljedeća granica”, kaže Quinten Farmer, suosnivač i izvršni direktor Portole. „Ali glas je zahtjevniji. Ne odgovarate samo na pismene upite; vodite razgovor uživo koji se prirodno razvija i skreće.”.

Glasovna umjetna inteligencija postavlja više zahtjeve u pogledu latencije i upravljanja kontekstom, ali istodobno omogućuje otvorenije, istraživačke interakcije u usporedbi s tekstom.

Kako temeljni modeli postaju brži, jeftiniji i sposobniji, tim je usmjerio svoje napore na dva ključna elementa: pamćenje i dizajn likova. Tvrtka Portola stvorila je svemir vođen likovima, oblikovan uz pomoć nagrađivanih animatora i jednog pisca znanstvene fantastike, koristeći sustav upravljanja kontekstom u stvarnom vremenu kako bi osobnost i pamćenje ostali dosljedni dok se razgovori razvijaju.

Objava modela GPT‑5.1 označila je prekretnicu, donijevši velika poboljšanja u upravljivosti i latenciji koja su te elemente povezala u cjelinu te omogućila brže i atraktivnije glasovno iskustvo.

„GPT-5.1 dao nam je razinu upravljivosti koja nam je napokon omogućila kreiranje likova kakve smo zamislili. Nije bio samo pametniji – bio je vjerniji tonu i osobnosti koje smo željeli stvoriti.”

—Quinten Farmer, izvršni direktor Portole

Dizajniranje za prirodne glasovne interakcije

Arhitektura Tolana oblikovana je zahtjevima glasovne interakcije. Korisnici očekuju trenutačne, prirodne odgovore, čak i kad se tijek razgovora promijeni. Tolan je morao reagirati brzo, pratiti promjene tema i zadržati dosljednu osobnost bez kašnjenja ili odstupanja u tonu.

Kako bi razgovori djelovali prirodno, bila je potrebna gotovo trenutačna latencija. Uvođenjem OpenAI-jeva modela GPT‑5.1 i API-ja Responses, vrijeme početka govora skraćeno je za više od 0,7 sekundi – dovoljno da se osjetno poboljša tijek razgovora.

Jednako je važno bilo i kako sustav upravlja kontekstom. Za razliku od mnogih agenata koji zadržavaju kontekst upita kroz više uzastopnih razmjena, Tolan u svakom koraku iznova gradi kontekstualni prozor. Svaka rekonstrukcija konteksta uključuje sažetak nedavnih poruka, karticu osobnosti, memorije dohvaćene vektorskim pretraživanjem, smjernice za ton te signale aplikacije u stvarnom vremenu. Ova arhitektura omogućuje Tolanu da se u stvarnom vremenu prilagodi naglim promjenama tema, što je ključni uvjet za prirodnu glasovnu interakciju.

„Brzo smo shvatili da predmemorirani upiti jednostavno nisu bili dovoljni”, kaže Quinten. „Korisnici stalno mijenjaju teme. Kako bi se sve odvijalo glatko, sustav se morao prilagoditi usred procesa.”

Ovaj pristup rekonstrukciji u stvarnom vremenu istodobno je tehnički zahtjevan, ali i predstavlja temelj Tolanova uspjeha.

Dijagram toka koji prikazuje Tolanovu petlju razgovora. Korak „Recompute persona” objedinjuje četiri ulaza: sažetak razgovora i nedavne izvorne poruke, osobnosti korisnika i Tolana te dodatni kontekst, memoriju i ton. Ti se ulazi spajaju u Tolanov odgovor, nakon čega slijedi korisnički odgovor. Korisnički odgovor zatim pokreće dva paralelna procesa: ažuriranje tona i izdvajanje memorija. Izdvojene memorije nadopunjuju memoriju, ažurirani ton vraća se u sustav tona, a povijest razgovora povremeno se ponovno sažima i komprimira te vraća u sažetak razgovora za sljedeći korak.

Izgradnja memorije i osobnosti koje ostaju povezane tijekom vremena

Upravljanje kontekstom je važno, ali nije bilo dovoljno da razgovori ostanu koherentni tijekom vremena. Kako bi podržao duge, nelinearne razgovore, Tolan je razvio sustav pamćenja koji zadržava ne samo činjenice i preferencije, nego i suptilne emocionalne naznake koje pomažu usmjeriti način na koji Tolan odgovara.

Sjećanja se ugrađuju pomoću modela OpenAI text-embedding-3-large i pohranjuju u Turbopuffer, brzu vektorsku bazu podataka koja omogućuje vrijeme dohvaćanja kraće od 50 ms. Ta je brzina ključna za glasovne interakcije u stvarnom vremenu. U svakom koraku Tolan koristi najnoviju poruku korisnika i pitanja koja sintetizira sustav (npr. „S kim je korisnik u braku?”) kako bi potaknuo dohvat sjećanja. Kako bi kvaliteta memorije ostala visoka, Tolan svake noći pokreće postupak kompresije koji uklanja zapise niske vrijednosti ili suvišne zapise (npr. „korisnik je danas popio kavu“) i rješava proturječnosti.

Jednako se pažljivo upravlja i osobnošću. Svaki Tolan započinje s posebnim temeljnim okvirom lika koji je osmislio interni pisac znanstvene fantastike, a doradio ga je bihevioralni stručnjak. Ti početni okviri Tolanima daju dosljednost, ali i fleksibilnost da se s vremenom prilagođavaju i razvijaju zajedno s korisnikom.

Paralelni sustav prati emocionalni ton razgovora i dinamički prilagođava način na koji se Tolan izražava. To Tolanu omogućuje da se neprimjetno prebaci s razigranog na smireniji pristup, ovisno o signalima koje daje korisnik, bez gubitka temeljne osobnosti.

Prijelaz na GPT‑5.1 bio je prekretnica. Odjednom su se slojevite upute u upitima – strukture tona, ubacivanje memorije i osobine likova – počele dosljednije slijediti. Upiti koji su nekoć zahtijevali zaobilazna rješenja počeli su funkcionirati onako kako je i zamišljeno.

„Po prvi put naši su interni stručnjaci imali osjećaj da ih model doista sluša”, kaže Quinten.„Upute su ostajale očuvane kroz duge razgovore, osobnost se poštivala, a odstupanja su bila znatno rjeđa.”

Te su se promjene nadogradile u dosljedniju i uvjerljiviju osobnost, što je dovelo do boljeg i uvjerljivijeg korisničkog iskustva. Tolanov je tim zabilježio jasne, mjerljive pomake: promašaji u pozivima memorije smanjeni su za 30 % (na temelju internih signala frustracije), a zadržavanje korisnika sljedećeg dana poraslo je za više od 20 % nakon uvođenja osobnosti temeljenih na modelu GPT‑5.1.

Dijagram toka koji prikazuje kako Tolan tijekom razgovora dohvaća i usavršava memorije. Korisnička poruka („Jako se veselim putovanju ovog vikenda”) pokreće korak u kojem se sintetiziraju dodatna pitanja, poput nadolazećih putovanja, planova za određeni tjedan i korisničkih preferencija. Ta se pitanja ugrađuju i koriste za pretraživanje vektorske baze memorije, a rezultati se spajaju metodom srednjeg recipročnog ranga. Dohvaćeni kontekst zatim oblikuje Tolanov odgovor („kampiranje sa Stevenom u Yosemiteu”). Kasnija korisnička poruka o budućem putovanju na Island pohranjuje se kao nova memorija, zatim se analizira i grupira sa srodnim memorijama na temelju semantičke sličnosti te sažima kombiniranjem, uređivanjem i dorađivanjem unutar svake skupine.

Tolanova osnovna načela za izradu prirodnih glasovnih agenata

Kako se Tolan razvijao, pojavila su se neka načela koja sada usmjeravaju tim u izgradnji i razvoju njegove glasovne arhitekture:

Dizajn za nepredvidivost razgovora: glasovni se razgovori mogu promijeniti usred rečenice. Sustavi se moraju jednako brzo prilagođavati kako bi djelovali prirodno.
Latencija kao dio iskustva proizvoda: kraći od sekunde određuje hoće li glasovni agent djelovati razgovorno ili mehanički.
Memorija kao sustav dohvaćanja, a ne transkript: visokokvalitetna kompresija i brzo vektorsko pretraživanje osiguravaju dosljedniju osobnost od prevelikih konteksualnih prozora.
Obnova konteksta u svakom koraku: kontekst se ne održava gomilanjem sve više informacija. Umjesto toga, ponovno se generira u svakom koraku kako bi razgovor ostao jasan i smislen i kad skrene s teme.

Zajedno, ove lekcije čine temelj za Tolanovu sljedeću fazu inovacija i postavljaju smjer u kojem se kreće glasovna umjetna inteligencija.

Proširivanje mogućnosti uz glasovnu umjetnu inteligenciju

Od pokretanja u veljači 2025., Tolan bilježi rast na više od 200 000 aktivnih korisnika mjesečno. Ocjena od 4,8 zvjezdica i više od 100 000 recenzija u App Storeu pokazuju koliko dobro sustav održava dosljednost kroz duge razgovore koji se s vremenom mijenjaju. Jedan je recenzent primijetio: „Pamti stvari o kojima smo razgovarali prije dva dana i ponovno ih uvodi u današnji razgovor.”

Zahvaljujući tome, Tolan može prirodno pratiti promjene tema, zadržati isti ton komunikacije i davati dosljedne, smislenе odgovore, bez potrebe za dugim i složenim uputama. Zajedno omogućuju Tolanu da prati promjene tema, očuva ton i zadrži utemeljenost odgovora, bez oslanjanja na velike, krhke upite.

Gledajući unaprijed, Tolan planira dodatno ulagati u upravljivost i usavršavanje memorije, s naglaskom na učinkovitiju kompresiju, poboljšanu logiku dohvaćanja i šire podešavanje osobnosti. Dugoročni je cilj proširiti pojam glasovnog sučelja – da ono ne bude samo reaktivno, nego i svjesno konteksta te konverzacijski dinamično.

„Sljedeća granica”, kaže Quinten, „jest razvoj glasovnih agenata koji nisu samo reaktivni, nego uistinu multimodalni, sposobni objediniti glas, vid i kontekst u jedan upravljivi sustav.”

Nastavite čitati

Prikaži sve

Warpov veliki iskorak u razvoj otvorenog koda uz GPT-5.5

Startup27. svi 2026.

Parloa builds service agents customers want to talk to

Startup7. svi 2026.

Gradient Labs svakom klijentu banke omogućava AI voditelja računa

Startup1. tra 2026.