Preskočite na glavno vsebino
OpenAI

7. januar 2026

Zagonsko podjetje

Kako pri Tolanu gradijo glasovno usmerjeno UI z modelom GPT‑5.1

Z modelom GPT‑5.1 so pri podjetju ustvarili glasovno aplikacijo Tolan, optimizirano za nizko zakasnitev, natančen kontekst in stabilne osebnosti, ki sledijo razvoju pogovorov.

Tolan logo on orange jigsaw puzzle background
Nalaganje …

Tolan(odpre se v novem oknu) je glasovno usmerjen spremljevalec z umetno inteligenco, kjer se ljudje pogovarjajo s prilagojenim, animiranim likom, ki se uči iz pogovorov skozi čas. 

Aplikacija, ki jo je razvila izkušena ekipa podjetja Portola, ki se je nato umaknilo iz nadaljnjega razvoja, je zasnovana za neprekinjen, odprt dialog namesto uporabe hitrih pozivov in odgovorov. »Opazili smo vzpon storitve ChatGPT in vedeli, da je glas naslednji mejnik,« pravi Quinten Farmer, soustanovitelj in izvršni direktor podjetja Portola. »Ampak z glasom je težje. Ne gre le za odgovarjanje na vtipkane pozive, pač pa za vodenje pogovora v živo, ki lahko krene v različne smeri.«

Glasovna umetna inteligenca dviguje merila glede zakasnitve in upravljanja konteksta, vendar hkrati omogoča tudi bolj odprte, raziskovalne interakcije od uporabe besedila. 

Ker temeljni modeli postajajo hitrejši, cenejši in zmogljivejši, je ekipa svoja prizadevanja usmerila v dva ključna dejavnika: spomin in oblikovanje likov. V podjetju Portola so ustvarili svet likov, ki so ga oblikovali nagrajeni animatorji in pisec znanstvene fantastike, in sicer z uporabo sistema za upravljanje konteksta v realnem času, ki poskrbi, da osebnost in spomin ostajata dosledna z vsakim novim pogovorom.

Izdaja modelov GPT‑5.1 je pomenila prelomnico, saj je prinesla velike izboljšave v usmerljivosti in zakasnitvi, ki so te elemente povezale ter omogočile odzivnejšo in privlačnejšo glasovno izkušnjo.

»Model GPT-5.1 nam je omogočil usmerljivost, da smo končno lahko oblikovali like, kakršne smo si zamislili. Pristop ni bil le pametnejši, temveč je omogočil tudi točnejše oblikovanje tona in osebnosti, ki smo jih želeli ustvariti.«
– Quinten Farmer, izvršni direktor, Portola

Snovanje za interakcije z naravnim glasom

Tolanova arhitektura je izdelana po merilih, ki jih zahteva uporaba glasu. Uporabniki glasovnih funkcij pričakujejo takojšnje, naravne odzive – tudi ob zamenjavi teme sredi pogovora. Tolan se je moral hitro odzivati, slediti menjavam tem in ohranjati dosledno osebnost brez zakasnitev ali sprememb tona.

Za naraven potek pogovorov je bila potrebna skoraj ničelna zakasnitev. Uvedba modela OpenAI GPT‑5.1 in API-ja za odgovore (Responses API) je skrajšala čas začetka govora za več kot 0,7 sekunde – dovolj, da opazno izboljša tok pogovora.

Prav tako ključnega pomena je bilo, kako je sistem obravnaval kontekst. Za razliko od mnogih agentov, ki predpomnijo pozive čez več izmenjav, Tolan po vsaki izmenjavi znova zgradi svoje kontekstno okno od začetka. Vsaka rekonstrukcija konteksta vključuje povzetek nedavnih sporočil, kartico lika, vektorsko pridobljene spomine, smernice za ton in signale aplikacije v realnem času. Ta arhitektura Tolanu omogoča, da se sproti prilagaja nenadnim menjavam teme, kar je bistvena zahteva pri interakcijah z naravnim glasom.

»Hitro smo ugotovili, da predpomnjeni pozivi preprosto niso zadostovali,« pravi Quinten. »Uporabniki vseskozi menjajo teme. Da bi pogovor tekel nemoteno, se je moral sistem sproti prilagajati.«

Ta pristop sprotne rekonstrukcije je tehnično zahteven in predstavlja temelj Tolanovega uspeha.

Diagram poteka, ki prikazuje Tolanovo pogovorno zanko. Korak »Preračun lika« zapolni štiri vhode: povzetek klepeta in nedavna neobdelana sporočila, uporabnikove in Tolanove like ter drugi kontekst, spomin in ton. Ti vhodi se združijo, da ustvarijo Tolanov odziv, ki vodi do uporabnikovega odziva. Uporabnikov odziv nato sproži dva vzporedna procesa: izpeljavo posodobljenega tona in izluščenje spominov. Z izluščenimi spomini se posodobi spomin, posodobljeni ton se povratno vključi v ton, zgodovina pogovora pa se periodično povzame in stisne ter se v zanki vrne v povzetek klepeta za naslednjo izmenjavo.

Izgradnja spomina in osebnosti, ki ostaneta povezana skozi čas

Obravnava konteksta je pomembna, vendar ni bila dovolj, da bi pogovori ohranjali koherentnost skozi čas. Za podporo dolgim, nelinearnim pogovorom je Tolan zgradil spominski sistem, ki ne ohranja le dejstev in preferenc, temveč tudi čustvene signale 'vzdušja' – namige, ki pomagajo usmerjati odzivanje Tolana.

Spomini so vdelani z uporabo modela OpenAI text-embedding-3-large in shranjeni v visokohitrostni vektorski podatkovni zbirki Turbopuffer, ki omogoča čase iskanja pod 50 ms. Ta hitrost je ključnega pomena za glasovne interakcije v realnem času. V vsaki izmenjavi Tolan uporabi uporabnikovo najnovejše sporočilo in sistemsko sintetizirana vprašanja (npr. »S kom je uporabnik poročen?«), da sproži priklic spomina. Za ohranjanje visoke kakovosti spomina Tolan vsako noč izvede opravilo stiskanja, pri katerem odstrani vnose z nizko vrednostjo ali odvečne vnose (npr. »uporabnik je danes pil kavo«) in razreši protislovja.

Osebnost je prav tako skrbno upravljana. Vsak UI-spremljevalec Tolan je opremljen z edinstvenim ogrodjem lika, ki ga je ustvaril ekipni interni pisec znanstvene fantastike in izpopolnil vedenjski raziskovalec. To Tolanom zagotavlja doslednost ter hkrati tudi prilagodljivost skozi čas in razvoj skupaj z uporabnikom. 

Vzporedni sistem spremlja čustveni ton pogovora in dinamično prilagaja Tolanovo izreko. To Tolanu omogoča, da nemoteno preklaplja med igrivostjo in prizemljenostjo glede na uporabnikove namige, ne da bi pri tem izgubil svojo osrednjo osebnost. 

Prehod na model GPT‑5.1 je predstavljal prelomnico. Nenadoma so se večplastna pozivna navodila – tonska ogrodja, vbrizgavanje spominov, značilnosti likov – upoštevala natančneje. Pozivi, ki so nekoč zahtevali obhodne rešitve, so začeli delovati, kakor je bilo predvideno. 

»Naši notranji strokovnjaki so prvič imeli občutek, da model resnično posluša,« pravi Quinten. »Navodila so ostala nespremenjena skozi dolge pogovore, osebnostne lastnosti so bile spoštovane in opazili smo precej manj odklonov.«

Te spremembe so prispevale k oblikovanju doslednejše in prepričljivejše osebnosti, kar je posledično ustvarilo privlačnejšo uporabniško izkušnjo. Tolanova ekipa je zabeležila jasne, merljive izboljšave: zgrešeni priklici iz spomina so se zmanjšali za 30 % (na podlagi signalov nezadovoljstva v produktu), stopnja ohranitve uporabnikov tudi naslednji dan pa se je povečala za več kot 20 % po objavi likov, ki jih poganja model GPT‑5.1.

Diagram poteka, ki prikazuje, kako Tolan med pogovorom pridobiva in izpopolnjuje spomine. Uporabnikovo sporočilo (»Komaj čakam na potovanje ta konec tedna«) sproži korak, ki sintetizira nadaljnja vprašanja, kot so prihajajoča potovanja, načrti za določen teden in uporabnikove preference. Ta vprašanja se vdelajo in uporabljajo za poizvedovanje po podatkovni zbirki spominskih vektorjev, pri čemer se rezultati združijo na podlagi povprečne recipročne razvrstitve. Pridobljeni kontekst poda informacije za Tolanov odgovor (»kampiranje s Štefanom v narodnem parku Yosemite«). Poznejše uporabniško sporočilo o prihodnjem potovanju na Islandijo se shrani kot nov spomin, nato se o njem razmisli, združi se v gruče s sorodnimi spomini z uporabo vdelav in algoritma kNN (k-Nearest Neighbors) ter se stisne z združevanjem, urejanjem in izpopolnjevanjem spominov znotraj posamezne gruče.

Tolanova temeljna načela za gradnjo agentov z naravnim glasom 

Skozi Tolanov razvoj so se izoblikovala nekatera načela, ki zdaj usmerjajo, kako ekipa gradi in razvija svojo glasovno arhitekturo:

  • Pri snovanju je treba upoštevati nepredvidljivost pogovorov: Glasovni pogovori se lahko spremenijo sredi stavka. Sistemi se morajo prav tako hitro prilagoditi, da pogovor deluje naravno.
  • Zakasnitev je treba obravnavati kot del izkušnje s produktom: Od odzivnosti, ki je krajša od ene sekunde, je odvisno, ali je pogovor z glasovnim agentom tekoč ali deluje mehansko.
  • Spomin je treba graditi kot sistem za priklic, ne kot prepis: Visokokakovostno stiskanje in hitro vektorsko iskanje zagotavljata bolj dosledno osebnost kot preobsežna kontekstualna okna.
  • Kontekst je treba znova zgraditi po vsaki izmenjavi: Odmikov od teme ne poskušajte preprečiti z daljšimi pozivi. Obnavljanje konteksta po vsaki izmenjavi zagotavlja, da se agenti držijo rdeče niti, kadar pogovori morda zaidejo s teme.

Skupaj te lekcije predstavljajo temelj za naslednjo fazo inovacij v Tolanu in določajo smer, v katero se razvija glasovna umetna inteligenca.

Širjenje meja mogočega z glasovno umetno inteligenco

Od uvedbe februarja 2025 je Tolan presegel 200.000 mesečnih aktivnih uporabnikov. Njegova ocena 4,8 zvezdice in več kot 100.000 mnenj v trgovini App Store poudarjata, kako dobro sistem ohranja doslednost v dolgih pogovorih o različnih temah. Eden od ocenjevalcev je zapisal: »Spomni se stvari, o katerih sva govorila pred dvema dnevoma, in jih znova vključi v današnji pogovor.«

Ti signali se neposredno preslikajo v osnovno arhitekturo: priklici modela z nizko zakasnitvijo, rekonstrukcija konteksta po korakih in modularni sistemi spomina in osebnosti. Vsi skupaj Tolanu omogočajo, da spremlja menjave tem ter ohranja ton in dobro utemeljene odzive, ne da bi se zanašal na obsežne, šibko oblikovane pozive.

V prihodnosti pri Tolanu načrtujejo povečanje naložb v usmerljivost in izpopolnjevanje spomina, pri čemer bodo svoja prizadevanja osredotočili na močnejše stiskanje, izboljšano logiko pridobivanja in razširjeno natančno prilagajanje osebnosti. Dolgoročni cilj je razširiti možnosti, ki jih glasovni vmesnik ponuja: ne le odzivnost, temveč tudi zavedanje konteksta in pogovorno dinamičnost.

»Naslednji mejnik,« pravi Quinten, »je gradnja glasovnih agentov, ki niso le odzivni, temveč resnično multimodalni, sposobni integrirati glas, vid in kontekst v enoten, vodljiv sistem.«