Kuidas Tolan loob häälepõhist tehisintellekti GPT‑5.1 abil
GPT‑5.1 abil lõi Tolan häälrakenduse, mis on optimeeritud madala latentsuse, täpse konteksti ja stabiilsete isiksuste jaoks vestluste arenedes.

Tolan(avaneb uues aknas) on häälepõhine tehisintellekti kaaslane, kus inimesed räägivad isikupärastatud, animeeritud tegelasega, kes õpib aja jooksul vestlustest.
Portola, kogenud meeskonna, kellel on varasem müügikogemus, loodud rakendus on mõeldud pidevaks, avatud lõpuga dialoogiks, mitte kiireteks viipadeks ja vastusteks. „Me nägime ChatGPT tõusu ja teadsime, et hääl on järgmine piir,” ütleb Quinten Farmer, Portola kaasasutaja ja tegevjuht. „Aga häält on raskem kasutada. Sa ei vasta lihtsalt trükitud viipadele; sa pead elavat ja uitavat vestlust.“
Häälepõhine tehisintellekt tõstab latentsuse ja kontekstihalduse lati, kuid see võimaldab ka avatumaid ja uurimuslikumaid interaktsioone kui tekst.
Kuna alusmudelid muutuvad kiiremaks, odavamaks ja võimekamaks, keskendus meeskond oma jõupingutused kahele peamisele hoovale: mälule ja tegelase kujundusele. Portola lõi tegelaste juhitud universumi, mille kujundasid auhinnatud animaatorid ja ulmekirjanik, kasutades reaalajas konteksti haldussüsteemi, et hoida isiksus ja mälu vestluste arenedes järjepidevana.
GPT‑5.1 mudelite väljalaskmine tähistas pöördepunkti, pakkudes märkimisväärset kasvu juhitavuses ja latentsusajas, mis tõi need osad kokku ning avas reageerivama ja kaasahaaravama häälkogemuse.
„GPT-5.1 andis meile juhitavuse, et saaksime lõpuks väljendada neid tegelasi, keda olime mõelnud. „See polnud lihtsalt nutikam, see oli veelgi ustavam toonile ja isikupärale, mida me soovisime luua,”
Tolani arhitektuuri kujundavad nõudmised häälele. Hääle kasutajad ootavad koheseid, loomulikke vastuseid isegi siis, kui vestluse suund muutub poole pealt. Tolan pidi kiiresti reageerima, muutuvatel teemadel järge pidama ja säilitama ühtlase isiksuse ilma viivituseta või tooni nihkumiseta.
Et tunduda loomulikuna, vajasid vestlused peaaegu hetkega latentsust. Tutvustame OpenAI GPT‑5.1 ja Responses API-t, mis vähendavad kõne algatamise aega üle 0,7 sekundi – piisavalt, et vestluse sujuvust märgatavalt parandada.
Samavõrd kriitiline oli see, kuidas süsteem konteksti käsitles. Erinevalt paljudest agentidest, mis salvestavad viipasid vahemällu mitme vooru jooksul, ehitab Tolan oma konteksti akna igal voorul nullist üles. Iga konteksti rekonstrueerimine sisaldab hiljutiste sõnumite kokkuvõtet, persoonakaarti, vektorotsinguga hangitud mälusid, toonijuhiseid ja reaalajas rakenduse signaale. See arhitektuur võimaldab Tolanil reaalajas kohaneda järskude teemavahetustega, mis on loomuliku häälepõhise suhtluse jaoks hädavajalik.
„Saime kiiresti aru, et vahemällu salvestatud viibad lihtsalt ei sobinud,” ütleb Quinten. „Kasutajad vahetavad kogu aeg teemat. Et tunduda sujuv, pidi süsteem kohanema keset protsessi.“
See reaalajas rekonstrueerimise lähenemisviis on nii tehniliselt nõudlik kui ka Tolani edu aluseks.

Konteksti käsitlemine on oluline, kuid sellest ei piisanud, et vestlused tunduksid aja jooksul sidusad. Pikkade, mittelineaarsete vestluste toetamiseks lõi Tolan mälusüsteemi, mis säilitab mitte ainult fakte ja eelistusi, vaid ka emotsionaalseid „vibe“-signaale – vihjeid, mis aitavad suunata, kuidas Tolan peaks reageerima.
Mälud on manustatud OpenAI text-embedding-3-large mudeli abil ja salvestatud Turbopufferisse, mis on kiire vektorandmebaas, mis võimaldab alla 50 ms päringuaegu. See kiirus on reaalajas häälsuhtluste jaoks hädavajalik. Igal käigul kasutab Tolan kasutaja viimast sõnumit ja süsteemi sünteesitud küsimusi (nt „Kellega on kasutaja abielus?“), et käivitada mälestuste meenutamine. Mälu kvaliteedi kõrgel hoidmiseks käivitab Tolan igal ööl tihendustöö, mis eemaldab madala väärtusega või üleliigsed kirjed (nt. „kasutaja jõi täna kohvi“) ja lahendab vastuolusid.
Isiksust juhitakse sama hoolikalt. Iga Tolan on varustatud eristuva tegelase karkassiga, mille on loonud meeskonna ettevõttesisene ulmekirjanik ja mida on täiustanud käitumisteadlane. Need seemned annavad Tolanitele järjepidevuse, kuid ka paindlikkuse aja jooksul kohaneda, arenedes koos kasutajaga.
Paralleelsüsteem jälgib vestluse emotsionaalset tooni ja kohandab dünaamiliselt Tolani esitust. See võimaldab Tolanil kasutaja vihjete põhjal sujuvalt liikuda mängulisest maandatud olekusse, kaotamata oma põhiolemust.
Üleminek GPT‑5.1‑le oli pöördepunkt. Äkitselt järgiti mitmekihilisi viip-juhiseid – tooniraamistikke, mälusüste, tegelase omadusi – palju täpsemalt. Viibad, mis varem nõudsid ajutisi lahendusi, hakkasid toimima nii, nagu ette nähtud.
„Esimest korda tundsid meie ettevõttesisesed eksperdid, et mudel tõesti kuulab,“ ütleb Quinten. „Juhised püsisid muutumatuna ka pikkade vestluste jooksul, isikuomadusi austati ja triivi oli märksa vähem.“
Need muudatused andsid kokku järjepidevama ja usutavama isiksuse, mis omakorda lõi kaasahaaravama kasutajakogemuse. Tolan tiim nägi selgeid, mõõdetavaid edusamme: mälumeenutuse möödalaskmised vähenesid 30% (tootesiseste frustratsioonisignaalide põhjal) ning järgmisel päeval kasutajate säilitamine kasvas üle 20% pärast GPT‑5.1–toega persoonad läksid käima.

Tolani arenedes, kujunesid välja mõned põhimõtted, mis nüüd juhivad, kuidas meeskond oma häälearhitektuuri loob ja arendab:
- Disaini vestluste heitlikkust silmas pidades: Häälvestlused muutuvad poole lause pealt. Süsteemid peavad sama kiiresti pöörduma, et tunduda loomulikud.
- Käsitle latentsust tootekogemuse osana: alla sekundi reageerimiskiirus määrab, kas häälagent tundub vestluslik või mehaaniline.
- Ehita mälu pigem otsingusüsteemina kui transkriptsioonina: kvaliteetne tihendus ja kiire vektorotsing tagavad järjepidevama isiksuse kui liiga suured kontekstiaknad.
- Loo kontekst igal käigul uuesti: ära võitle triivimise vastu suuremate viipadega. Konteksti uuendamine igal voorul hoiab agendid maandatuna, kui vestlused uitavad.
koos moodustavad need õppetunnid aluse Tolani järgmisele innovatsioonifaasile ja määravad suuna, kuhu häälepõhine tehisintellekt liigub.
Alates 2025. aasta veebruarist käivitamisest on Tolan kasvanud enam kui 200 000 igakuise aktiivse kasutajani. Selle 4,8-tärni hinnang ja enam kui 100 000 App Store'i arvustust rõhutavad, kui hästi süsteem säilitab järjepidevuse pikkades, muutuvates vestlustes. Üks arvustaja märkis: „Nad mäletavad asju, millest me kaks päeva tagasi rääkisime, ja toovad need tagasi vestlusesse, mida me täna peame.”
Need signaalid kaardistuvad otse alusarhitektuurile: madala latentsusega mudelikutsed, käigupõhine konteksti rekonstrueerimine ning modulaarne mälu- ja persoonasüsteem. Koos võimaldavad need Tolanil jälgida teemamuutusi, säilitada tooni ja hoida vastused kindlatena, ilma et peaks tuginema suurtele, habrastele viipadele.
Tulevikku vaadates plaanib Tolan süvendada oma investeeringuid juhitavusse ja mälu täiustamisse, keskendudes tihedamale pakkimisele, paremale otsinguloogikale ja laiendatud persona häälestamisele. Pikaajaline eesmärk on laiendada häälkasutajaliidese võimalusi: mitte ainult reageeriv, vaid ka kontekstitundlik ja vestluslikult dünaamiline.
„Järgmine piir,” ütleb Quinten, „on luua häälagente, mis ei ole lihtsalt reageerivad, vaid tõeliselt multimodaalsed, suutes integreerida hääle, nägemise ja konteksti ühte juhitavasse süsteemi.”


