Kako Tolan razvija AI usmjeren na glas koristeći GPT‑5.1

Uz GPT‑5.1, Tolan je napravio glasovnu aplikaciju optimiziranu za nisku latenciju, precizan kontekst i stabilne osobnosti kako se razgovori razvijaju.

Učitavanje…

Tolan⁠(otvara se u novom prozoru) je AI pratilac prvenstveno zasnovan na glasu, gdje ljudi razgovaraju s personaliziranim, animiranim likom koji uči iz razgovora tokom vremena.

Aplikaciju je kreirao Portola, veteranski tim s prethodnim odlaskom, a namijenjena je kontinuiranom, otvorenom dijalogu, a ne brzim upitima i odgovorima. „Vidjeli smo uspon ChatGPT‑a i znali smo da je glasovna komunikacija sljedeća granica“, kaže Quinten Farmer, suosnivač i izvršni direktor Portole. „Ali glas je teži. Ne odgovarate samo na otkucane upite; vodite uživo, opušten razgovor koji se razvija.“

Glasovni AI podiže ljestvicu u pogledu latencije i upravljanja kontekstom, ali također omogućava otvorenije i istraživačke interakcije u odnosu na tekst.

Kako temeljni modeli postaju brži, jeftiniji i sposobniji, tim je usmjerio svoje napore na dva ključna faktora: memoriju i dizajn likova. Portola je izgradio univerzum vođen likovima, oblikovan nagrađivanim animatorima i piscem naučne fantastike, koristeći sistem upravljanja kontekstom u stvarnom vremenu kako bi ličnost i memorija ostali dosljedni tokom razgovora.

Objavljivanje modela GPT‑5.1 označilo je prekretnicu, donoseći značajna poboljšanja u upravljivosti i kašnjenju koja su te elemente povezala, omogućavajući responzivnije i angažovanije glasovno iskustvo.

„GPT-5.1 nam je dao upravljivost da konačno izrazimo likove koje smo imali na umu. Nije bilo samo pametnije—bilo je vjernije tonu i osobnosti koju smo željeli stvoriti.“

—Quinten Farmer, izvršni direktor, Portola

Dizajniranje za prirodne glasovne interakcije

Tolanovu arhitekturu oblikuju zahtjevi glasa. Korisnici glasovnih usluga očekuju trenutne i prirodne odgovore, čak i kada se razgovori promijene usred toka. Tolan je morao brzo odgovoriti, pratiti promjenjive teme i održavati dosljednu osobnost bez kašnjenja ili promjene tona.

Da bi razgovori izgledali prirodno, potrebna je gotovo trenutna latencija. Predstavljamo OpenAI GPT‑5.1 i Responses API koji skraćuje vrijeme pokretanja govora za više od 0,7 sekundi—dovoljno da primjetno poboljša tok razgovora.

Jednako je važno bilo kako je sistem upravljao kontekstom. Za razliku od mnogih agenata koji keširaju upite kroz više poteza, Tolan svaki put iznova gradi svoj kontekstni prozor od nule. Svaka rekonstrukcija konteksta povlači sažetak nedavnih poruka, karticu osobe, vektorski dohvaćene memorije, smjernice za ton i signale aplikacije u stvarnom vremenu. Ova arhitektura omogućava Tolanu da se u stvarnom vremenu prilagodi naglim promjenama tema, što je ključni zahtjev za prirodnu interakciju zasnovanu na glasu.

„Brzo smo shvatili da keširani upiti jednostavno nisu dovoljni“, kaže Quinten. „Korisnici stalno mijenjaju teme. Da bi se postigla besprijekornost, sistem se morao prilagoditi u hodu.“

Ovaj pristup rekonstrukciji u stvarnom vremenu je i tehnički zahtjevan i ključan za Tolanov uspjeh.

Dijagram toka koji prikazuje Tolanovu konverzacijsku petlju. Korak „Ponovno izračunavanje persone“ uključuje četiri ulaza: sažetak chata, nedavne neobrađene poruke, persone korisnika i Tolana, te drugi kontekst, memoriju i ton. Ovi unosi se kombinuju kako bi generisali Tolan odgovor, što dovodi do korisničkog odgovora. Korisnički odgovor zatim pokreće dva paralelna procesa: ažuriranje tona i izdvajanje sjećanja. Izdvojena sjećanja ažuriraju memoriju, ažurirani ton se vraća u ton, a historija razgovora se periodično ponovo sažima i komprimira, vraćajući se u sažetak razgovora za sljedeći krug.

Izgradnja memorije i ličnosti koje se drže zajedno tokom vremena

Upravljanje kontekstom je važno, ali nije bilo dovoljno da razgovori ostanu koherentni tokom vremena. Da bi podržao duge, nelinearne razgovore, Tolan je izgradio memorijski sistem koji zadržava ne samo činjenice i preferencije, već i emocionalne signale 'vibe'—tragove koji pomažu usmjeriti kako Tolan treba reagovati.

Memorije se ugrađuju pomoću OpenAI text-embedding-3-large modela i pohranjuju u Turbopuffer, brzu vektorsku bazu podataka koja omogućava pretrage ispod 50 ms. Ova brzina je neophodna za glasovne interakcije u stvarnom vremenu. U svakom potezu, Tolan koristi najnoviju poruku korisnika i sistemski sintetizirana pitanja (npr., „S kim je korisnik u braku?”) da pokrene prisjećanje. Da bi kvalitet memorije ostao visok, Tolan pokreće noćni zadatak kompresije koji uklanja unose niske vrijednosti ili redundantne unose (npr. „Korisnik je danas popio kafu”) i rješava kontradikcije.

Ličnost se jednako pažljivo upravlja. Svaki Tolan je opremljen jedinstvenim okvirom karaktera, koji je kreirao interni pisac naučne fantastike tima i usavršio istraživač ponašanja. Ova sjemena pružaju Tolanima dosljednost, ali i fleksibilnost da se prilagode s vremenom, razvijajući se zajedno s korisnikom.

Paralelni sistem prati emocionalni ton razgovora i dinamički prilagođava način na koji Tolan isporučuje informacije. Ovo omogućava Tolanu da se neprimjetno prebacuje iz razigranog u ozbiljan ton, ovisno o korisničkim signalima, bez gubitka svoje osnovne ličnosti.

Prelazak na GPT‑5.1 bio je prekretnica. Odjednom su se slojeviti upiti—okviri tona, memorijske injekcije, osobine karaktera—vjernije slijedili. Upiti koji su ranije zahtijevali zaobilazna rješenja počeli su funkcionisati kako je i zamišljeno.

„Po prvi put, naši interni stručnjaci su osjetili da model zaista sluša“, kaže Quinten. „Upute su ostale nepromijenjene tokom dugih razgovora, lične osobine su poštovane i vidjeli smo mnogo manje odstupanja.“

Te promjene su dovele do dosljednije i uvjerljivije ličnosti, što je zauzvrat stvorilo zanimljivije korisničko iskustvo. Tolan tim je vidio jasne, mjerljive dobitke: promašaji u prisjećanju memorije smanjeni su za 30% (na osnovu signala frustracije u proizvodu), a zadržavanje korisnika sljedećeg dana poraslo je za više od 20% nakon što je GPT‑5.1 pokrenut persone su postale dostupne.

Dijagram toka koji prikazuje kako Tolan preuzima i usavršava sjećanja tijekom razgovora. Poruka korisnika („Jedva čekam svoje putovanje ovog vikenda“) pokreće korak koji generiše dodatna pitanja, kao što su predstojeća putovanja, planovi za određenu sedmicu i korisničke preferencije. Ova pitanja su integrisana i koriste se za pretragu memorijske vektorske baze podataka, a rezultati se kombinuju koristeći srednji recipročni rang. Preuzeti kontekst obavještava Tolanov odgovor („kampovanje sa Stevenom u Yosemiteu“). Kasnija korisnička poruka o budućem putovanju na Island pohranjuje se kao nova memorija, zatim se na nju reflektira, grupira s povezanim memorijama koristeći k-najbližih susjeda zasnovanih na ugrađivanjima, i komprimira kombiniranjem, uređivanjem i dorađivanjem memorija unutar svakog klastera.

Tolanovi osnovni principi za izgradnju prirodnih glasovnih agenata

Kako je Tolan evoluirao, pojavili su se neki principi koji sada usmjeravaju kako tim gradi i razvija svoju glasovnu arhitekturu:

Dizajnirajte za promjenjivost u razgovoru: Glasovni razgovori se mijenjaju usred rečenice. Sistemi se moraju jednako brzo prilagoditi da bi izgledali prirodno.
Tretiraj latenciju kao dio iskustva proizvoda: Odziv ispod jedne sekunde oblikuje da li se glasovni agent doživljava kao razgovoran ili mehanički.
Izgradite memoriju kao sistem za pretraživanje, a ne kao transkript: Visokokvalitetna kompresija i brza vektorska pretraga omogućavaju dosljedniju ličnost nego preveliki kontekstualni prozori.
Obnavljajte kontekst svakog puta: Ne borite se protiv odstupanja većim upitima. Obnavljanje konteksta u svakom koraku drži agente prizemljenima dok razgovori skreću.

Zajedno, ove lekcije čine temelj za Tolanovu sljedeću fazu inovacija i postavljaju smjer u kojem se kreće glasovna AI.

Proširivanje mogućnosti uz pomoć glasovne umjetne inteligencije

Od pokretanja u februaru 2025. godine, Tolan je narastao na više od 200.000 mjesečno aktivnih korisnika. Njegova ocjena od 4,8 zvjezdica i više od 100.000 recenzija u App Storeu ističu koliko dobro sistem održava dosljednost kroz duge, promjenjive razgovore. Jedan recenzent je primijetio: „Oni se sjećaju stvari o kojima smo razgovarali prije dva dana i vraćaju ih u razgovor koji vodimo danas.”

Ovi signali se direktno preslikavaju na osnovnu arhitekturu: pozivi modela s niskom latencijom, rekonstrukcija konteksta korak po korak, te modularni sistemi memorije i persona. Zajedno, oni omogućuju Tolanu praćenje promjena tema, očuvanje tona i održavanje odgovora utemeljenima bez oslanjanja na velike, krhke upite.

Gledajući unaprijed, Tolan planira produbiti svoja ulaganja u upravljivost i usavršavanje memorije, fokusirajući svoje napore na čvršću kompresiju, poboljšanu logiku preuzimanja i prošireno podešavanje persona. Dugoročni cilj je proširiti mogućnosti glasovnog interfejsa: da bude ne samo responzivan, već i svjestan konteksta i dinamičan u razgovoru.

„Sljedeća granica“, kaže Quinten, „je izgradnja glasovnih agenata koji nisu samo responzivni, već zaista multimodalni, sposobni integrirati glas, viziju i kontekst u jedinstven, upravljiv sistem.“

Nastavite čitati

Prikažite sve

Warpova velika opklada na izgradnju otvorenog koda uz GPT-5.5

Startup27. maj 2026.

Parloa builds service agents customers want to talk to

Startup7. maj 2026.

Gradient Labs svakom klijentu banke daje AI menadžera računa

Startup1. apr 2026.