Пређите на главни садржај
OpenAI

7. јануар 2026.

Стартап

Kako Tolan gradi voice-first AI uz GPT‑5.1

Uz GPT‑5.1, Tolan je izgradio glasovnu aplikaciju optimizovanu za nisku latenciju, tačan kontekst i stabilne ličnosti kako se razgovori razvijaju.

Tolan logo na narandžastoj pozadini slagalice
Учитавање…

Tolan(отвара се у новом прозору) je voice-first AI saputnik u kom ljudi razgovaraju sa personalizovanim, animiranim likom koji vremenom uči iz razgovora. 

Aplikaciju je napravio Portola, iskusan tim koji je ranije već imao uspešan izlazak, i osmišljena je za kontinuiran, otvoren dijalog, a ne za brze instrukcije i odgovore. „Videli smo uspon ChatGPT‑a i znali da je glas sledeća granica“, kaže Kvinten Farmer, suosnivač i izvršni direktor kompanije Portola. „Ali glas je teži. Ne odgovarate samo na otkucane instrukcije; vodite razgovor uživo koji luta.“

Glasovni AI podiže lestvicu za latenciju i upravljanje kontekstom, ali omogućava i otvorenije, istraživačke interakcije nego tekst. 

Kako su foundation modeli postajali brži, jeftiniji i sposobniji, tim je svoje napore usmerio na dve ključne poluge: memoriju i dizajn karaktera. Portola je izgradio univerzum vođen karakterima, koji su oblikovali nagrađivani animatori i pisac naučne fantastike, koristeći sistem za upravljanje kontekstom u realnom vremenu kako bi ličnost i memorija ostale dosledne dok se razgovori odvijaju.

Objavljivanje GPT‑5.1 modela označilo je prekretnicu, donoseći velika poboljšanja u upravljivosti i latenciji koja su spojila te delove i omogućila odzivnije i privlačnije glasovno iskustvo.

„GPT-5.1 nam je dao upravljivost da konačno izrazimo likove koje smo imali na umu. Nije bio samo pametniji — bio je verniji tonu i ličnosti koje smo želeli da stvorimo.“
—Kvinten Farmer, izvršni direktor, Portola

Projektovanje prirodnih glasovnih interakcija

Tolanova arhitektura oblikovana je zahtevima glasa. Korisnici glasovnih interfejsa očekuju trenutne, prirodne odgovore, čak i kada razgovori promene smer usred toka. Tolan je morao brzo da odgovara, prati promene tema i održava doslednu ličnost bez kašnjenja ili pomeranja tona.

Da bi razgovori delovali prirodno, bila je potrebna gotovo trenutna latencija. Uvođenje OpenAI GPT‑5.1 i Responses API-ja skratilo je vreme do početka govora za više od 0,7 sekundi — dovoljno da se tok razgovora primetno poboljša.

Jednako kritično bilo je i to kako je sistem obrađivao kontekst. Za razliku od mnogih agenata koji keširaju instrukcije kroz više uzastopnih poteza, Tolan pri svakom potezu iznova gradi svoj prozor konteksta. Svaka rekonstrukcija konteksta uključuje sažetak nedavnih poruka, karticu persone, memorije dohvaćene vektorima, smernice za ton i signale aplikacije u realnom vremenu. Ova arhitektura omogućava Tolanu da se u realnom vremenu prilagodi naglim promenama teme, što je ključan zahtev za prirodnu glasovnu interakciju.

„Brzo smo shvatili da keširane instrukcije jednostavno nisu dovoljne“, kaže Kvinten. „Korisnici stalno menjaju temu. Da bi sve delovalo neprimetno, sistem je morao da se prilagođava usred toka.“

Ovaj pristup rekonstrukcije u realnom vremenu istovremeno je tehnički zahtevan i temelj Tolanovog uspeha.

Dijagram toka koji prikazuje Tolanovu konverzacionu petlju. Korak „Ponovno izračunavanje persone” koristi četiri ulaza: sažetak ćaskanja i nedavne neobrađene poruke, persone korisnika i Tolana i drugi kontekst, memoriju i ton. Ovi ulazi se kombinuju da bi generisali Tolanov odgovor, koji vodi do odgovora korisnika. Odgovor korisnika zatim pokreće dva paralelna procesa: izvođenje ažuriranog tona i izdvajanje memorija. Izdvojene memorije ažuriraju memoriju, ažurirani ton se vraća u ton, a istorija razgovora se periodično ponovo sažima i kompresuje, vraćajući se u sažetak ćaskanja za sledeći potez.

Izgradnja memorije i ličnosti koje ostaju povezane tokom vremena

Rukovanje kontekstom je važno, ali nije bilo dovoljno da razgovori s vremenom ostanu koherentni. Da bi podržao duge, nelinearne razgovore, Tolan je izgradio memorijski sistem koji zadržava ne samo činjenice i preference već i emocionalne signale „vajba“ — naznake koje pomažu da se usmeri kako Tolan treba da odgovori.

Memorije se ugrađuju pomoću OpenAI modela text-embedding-3-large i čuvaju u Turbopufferu, brzoj vektorskoj bazi podataka koja omogućava vreme pretrage kraće od 50 ms. Ova brzina je ključna za glasovne interakcije u realnom vremenu. U svakom potezu, Tolan koristi najnoviju korisnikovu poruku i pitanja koja sintetiše sistem (npr. „Za koga je korisnik u braku?“) da pokrene prisećanje memorije. Da bi kvalitet memorije ostao visok, Tolan svake noći pokreće proces kompresije koji uklanja unose male vrednosti ili duplikate (npr. „korisnik je danas popio kafu“) i razrešava protivrečnosti.

Ličnošću se upravlja jednako pažljivo. Svaki Tolan započinje sa posebnom strukturom karaktera, koju je napisao interni pisac naučne fantastike, a doradio istraživač ponašanja. Te osnove Tolanu daju doslednost, ali i fleksibilnost da se vremenom prilagođava i razvija zajedno sa korisnikom. 

Paralelni sistem prati emocionalni ton razgovora i dinamički prilagođava Tolanov način izražavanja. To omogućava Tolanu da glatko prelazi iz razigranog u prizemniji ton u zavisnosti od korisničkih signala, bez gubitka svoje osnovne ličnosti. 

Prelazak na GPT‑5.1 bio je prelomni trenutak. Odjednom su se slojevite instrukcije u promptu — okviri tona, ubacivanje memorije, karakterne osobine — pratile mnogo vernije. Instrukcije koje su ranije zahtevale zaobilazna rešenja počele su da funkcionišu onako kako je zamišljeno. 

„Po prvi put su naši interni stručnjaci imali osećaj da model zaista sluša“, kaže Kvinten. „Instrukcije su ostajale očuvane kroz duge razgovore, osobine persone su se poštovale, a primećivali smo mnogo manje odstupanja.“

Te promene zajedno su dovele do doslednije i uverljivije ličnosti, što je zauzvrat stvorilo privlačnije korisničko iskustvo. Tolan tim je video jasne, merljive dobitke: promašaji pri prisećanju memorije pali su za 30% (na osnovu signala frustracije unutar proizvoda), a zadržavanje korisnika narednog dana poraslo je za više od 20% nakon što su persone pokretane GPT‑5.1 puštene uživo.

Dijagram toka koji ilustruje kako Tolan pronalazi i usavršava memorije tokom razgovora. Korisnička poruka („Jedva čekam put ovog vikenda”) pokreće korak koji sintetiše dopunska pitanja, kao što su predstojeća putovanja, planovi za određenu nedelju i korisničke preference. Ta pitanja se ugrađuju i koriste za upit nad vektorskom bazom memorije, a rezultati se spajaju pomoću srednjeg recipročnog ranga. Dohvaćeni kontekst informiše Tolanov odgovor („kampovanje sa Stivenom u Josemitima”). Kasnija korisnička poruka o budućem putovanju na Island čuva se kao nova memorija, zatim se analizira, grupiše sa povezanim memorijama pomoću k-najbližih suseda zasnovanih na embeddingu i kompresuje kombinovanjem, uređivanjem i usavršavanjem memorija unutar svake grupe.

Tolanovi osnovni principi za izgradnju prirodnih glasovnih agenata 

Kako se Tolan razvijao, pojavilo se nekoliko principa koji sada usmeravaju način na koji tim gradi i razvija svoju glasovnu arhitekturu:

  • Projektujte za promenljivost razgovora: Glasovni razgovori menjaju smer usred rečenice. Sistemi moraju jednako brzo da se preusmere da bi delovali prirodno.
  • Tretirajte latenciju kao deo iskustva proizvoda: Odzivnost ispod jedne sekunde određuje da li glasovni agent deluje kao sagovornik ili kao mašina.
  • Gradite memoriju kao sistem za pretragu, a ne kao transkript: Kvalitetna kompresija i brza vektorska pretraga daju dosledniju ličnost od prevelikih prozora konteksta.
  • Obnavljajte kontekst pri svakom potezu: Ne borite se protiv odstupanja većim instrukcijama. Ponovno generisanje konteksta u svakom potezu drži agente prizemljenim dok razgovori lutaju.

Zajedno, ove lekcije čine osnovu sledeće faze Tolanovih inovacija i određuju pravac u kom se glasovni AI kreće.

Proširivanje mogućnosti glasovnog AI-ja

Od lansiranja u februaru 2025, Tolan je porastao na više od 200.000 mesečno aktivnih korisnika. Ocena od 4,8 zvezdica i više od 100.000 recenzija u App Store-u pokazuju koliko dobro sistem održava doslednost kroz duge razgovore koji menjaju tok. Jedan recenzent je primetio: „Sećaju se stvari o kojima smo pričali pre dva dana i vraćaju ih u razgovor koji vodimo danas.“

Ovi signali direktno se preslikavaju na osnovnu arhitekturu: model pozive sa niskom latencijom, rekonstrukciju konteksta iz poteza u potez i modularne sisteme memorije i persone. Zajedno, oni omogućavaju Tolanu da prati promene tema, sačuva ton i zadrži odgovore utemeljenim bez oslanjanja na velike, krhke instrukcije.

Gledajući unapred,  Tolan planira da dodatno ulaže u upravljivost i usavršavanje memorije, usmeravajući napore na snažniju kompresiju, poboljšanu logiku pretrage i prošireno podešavanje persona. Dugoročni cilj je da se proširi ono što glasovni interfejs može da bude: ne samo odzivan, već svestan konteksta i dinamičan u razgovoru.

„Sledeća granica“, kaže Kvinten, „jeste izgradnja glasovnih agenata koji nisu samo odzivni, već istinski multimodalni, sposobni da integrišu glas, viziju i kontekst u jedinstven, upravljiv sistem.“