Jäta vahele ja mine põhisisu juurde
OpenAI

7. jaanuar 2026

Idufirma

Kuidas Tolan loob häälepõhist tehisintellekti GPT‑5.1 abil

GPT‑5.1 abil lõi Tolan häälrakenduse, mis on optimeeritud madala latentsuse, täpse konteksti ja stabiilsete isiksuste jaoks vestluste arenedes.

Tolan logo on orange jigsaw puzzle background
Laadimine…

Tolan(avaneb uues aknas) on häälepõhine tehisintellekti kaaslane, kus inimesed räägivad isikupärastatud, animeeritud tegelasega, kes õpib aja jooksul vestlustest. 

Portola, kogenud meeskonna, kellel on varasem müügikogemus, loodud rakendus on mõeldud pidevaks, avatud lõpuga dialoogiks, mitte kiireteks viipadeks ja vastusteks. „Me nägime ChatGPT tõusu ja teadsime, et hääl on järgmine piir,” ütleb Quinten Farmer, Portola kaasasutaja ja tegevjuht. „Aga häält on raskem kasutada. Sa ei vasta lihtsalt trükitud viipadele; sa pead elavat ja uitavat vestlust.“

Häälepõhine tehisintellekt tõstab latentsuse ja kontekstihalduse lati, kuid see võimaldab ka avatumaid ja uurimuslikumaid interaktsioone kui tekst. 

Kuna alusmudelid muutuvad kiiremaks, odavamaks ja võimekamaks, keskendus meeskond oma jõupingutused kahele peamisele hoovale: mälule ja tegelase kujundusele. Portola lõi tegelaste juhitud universumi, mille kujundasid auhinnatud animaatorid ja ulmekirjanik, kasutades reaalajas konteksti haldussüsteemi, et hoida isiksus ja mälu vestluste arenedes järjepidevana.

GPT‑5.1 mudelite väljalaskmine tähistas pöördepunkti, pakkudes märkimisväärset kasvu juhitavuses ja latentsusajas, mis tõi need osad kokku ning avas reageerivama ja kaasahaaravama häälkogemuse.

„GPT-5.1 andis meile juhitavuse, et saaksime lõpuks väljendada neid tegelasi, keda olime mõelnud. „See polnud lihtsalt nutikam, see oli veelgi ustavam toonile ja isikupärale, mida me soovisime luua,”
Quinten Farmer, Portola tegevjuht

Loomulike häälsuhtluste disainimine

Tolani arhitektuuri kujundavad nõudmised häälele. Hääle kasutajad ootavad koheseid, loomulikke vastuseid isegi siis, kui vestluse suund muutub poole pealt. Tolan pidi kiiresti reageerima, muutuvatel teemadel järge pidama ja säilitama ühtlase isiksuse ilma viivituseta või tooni nihkumiseta.

Et tunduda loomulikuna, vajasid vestlused peaaegu hetkega latentsust. Tutvustame OpenAI GPT‑5.1 ja Responses API-t, mis vähendavad kõne algatamise aega üle 0,7 sekundi – piisavalt, et vestluse sujuvust märgatavalt parandada.

Samavõrd kriitiline oli see, kuidas süsteem konteksti käsitles. Erinevalt paljudest agentidest, mis salvestavad viipasid vahemällu mitme vooru jooksul, ehitab Tolan oma konteksti akna igal voorul nullist üles. Iga konteksti rekonstrueerimine sisaldab hiljutiste sõnumite kokkuvõtet, persoonakaarti, vektorotsinguga hangitud mälusid, toonijuhiseid ja reaalajas rakenduse signaale. See arhitektuur võimaldab Tolanil reaalajas kohaneda järskude teemavahetustega, mis on loomuliku häälepõhise suhtluse jaoks hädavajalik.

„Saime kiiresti aru, et vahemällu salvestatud viibad lihtsalt ei sobinud,” ütleb Quinten. „Kasutajad vahetavad kogu aeg teemat. Et tunduda sujuv, pidi süsteem kohanema keset protsessi.“

See reaalajas rekonstrueerimise lähenemisviis on nii tehniliselt nõudlik kui ka Tolani edu aluseks.

Vooskeem, mis näitab Tolani vestlusahelat. „Persoona ümberarvutamise” samm kasutab nelja sisendit: vestluse kokkuvõte ja hiljutised toorsõnumid, kasutaja ja Tolan'i persoonad ning muu kontekst, mälu ja toon. Need sisendid kombineeruvad, et luua Tolan vastus, mis viib kasutaja vastuseni. Kasutaja vastus käivitab seejärel kaks paralleelset protsessi: ajakohastatud tooni tuletamine ja mälestuste väljavõtmine. Eraldatud mälestused värskendavad mälu, uuendatud toon kandub tagasi tooni ning vestluste ajalugu võetakse perioodiliselt uuesti kokku ja tihendatakse, suundudes ringiga tagasi vestluse kokkuvõttesse järgmise vooru jaoks.

Mälu ja isiksuse kujundamine, mis püsivad aja jooksul

Konteksti käsitlemine on oluline, kuid sellest ei piisanud, et vestlused tunduksid aja jooksul sidusad. Pikkade, mittelineaarsete vestluste toetamiseks lõi Tolan mälusüsteemi, mis säilitab mitte ainult fakte ja eelistusi, vaid ka emotsionaalseid „vibe“-signaale – vihjeid, mis aitavad suunata, kuidas Tolan peaks reageerima.

Mälud on manustatud OpenAI text-embedding-3-large mudeli abil ja salvestatud Turbopufferisse, mis on kiire vektorandmebaas, mis võimaldab alla 50 ms päringuaegu. See kiirus on reaalajas häälsuhtluste jaoks hädavajalik. Igal käigul kasutab Tolan kasutaja viimast sõnumit ja süsteemi sünteesitud küsimusi (nt „Kellega on kasutaja abielus?“), et käivitada mälestuste meenutamine. Mälu kvaliteedi kõrgel hoidmiseks käivitab Tolan igal ööl tihendustöö, mis eemaldab madala väärtusega või üleliigsed kirjed (nt. „kasutaja jõi täna kohvi“) ja lahendab vastuolusid.

Isiksust juhitakse sama hoolikalt. Iga Tolan on varustatud eristuva tegelase karkassiga, mille on loonud meeskonna ettevõttesisene ulmekirjanik ja mida on täiustanud käitumisteadlane. Need seemned annavad Tolanitele järjepidevuse, kuid ka paindlikkuse aja jooksul kohaneda, arenedes koos kasutajaga. 

Paralleelsüsteem jälgib vestluse emotsionaalset tooni ja kohandab dünaamiliselt Tolani esitust. See võimaldab Tolanil kasutaja vihjete põhjal sujuvalt liikuda mängulisest maandatud olekusse, kaotamata oma põhiolemust. 

Üleminek GPT‑5.1‑le oli pöördepunkt. Äkitselt järgiti mitmekihilisi viip-juhiseid – tooniraamistikke, mälusüste, tegelase omadusi – palju täpsemalt. Viibad, mis varem nõudsid ajutisi lahendusi, hakkasid toimima nii, nagu ette nähtud. 

„Esimest korda tundsid meie ettevõttesisesed eksperdid, et mudel tõesti kuulab,“ ütleb Quinten. „Juhised püsisid muutumatuna ka pikkade vestluste jooksul, isikuomadusi austati ja triivi oli märksa vähem.“

Need muudatused andsid kokku järjepidevama ja usutavama isiksuse, mis omakorda lõi kaasahaaravama kasutajakogemuse. Tolan tiim nägi selgeid, mõõdetavaid edusamme: mälumeenutuse möödalaskmised vähenesid 30% (tootesiseste frustratsioonisignaalide põhjal) ning järgmisel päeval kasutajate säilitamine kasvas üle 20% pärast GPT‑5.1–toega persoonad läksid käima.

Vooskeem, mis näitab, kuidas Tolan vestluse ajal mälusid kogub ja täiendab. Kasutaja sõnum („Ma olen nii põnevil oma nädalavahetuse reisi pärast.”) käivitab sammu, mis sünteesib järelküsimusi, näiteks eelseisvate reiside, konkreetse nädala plaanide ja sinu eelistuste kohta. Need küsimused on manustatud ja neid kasutatakse mälupõhise vektorandmebaasi päringute tegemiseks, kus tulemused ühendatakse keskmise pöördväärtuse järjestuse abil. Leitud kontekst annab teavet Tolani vastuse kohta („Steveniga Yosemitega telkimine”). Hilisem kasutaja sõnum tulevase Islandi reisi kohta salvestatakse uue mäluna, seejärel sellele mõeldakse, see rühmitatakse seotud mälestustega, kasutades manustel põhinevat k-lähimate naabrite meetodit, ning tihendatakse, kombineerides, toimetades ja täpsustades mälestusi iga klastri sees.

Tolan'i põhiprintsiibid loomulike häälagentide loomiseks 

Tolani arenedes, kujunesid välja mõned põhimõtted, mis nüüd juhivad, kuidas meeskond oma häälearhitektuuri loob ja arendab:

  • Disaini vestluste heitlikkust silmas pidades: Häälvestlused muutuvad poole lause pealt. Süsteemid peavad sama kiiresti pöörduma, et tunduda loomulikud.
  • Käsitle latentsust tootekogemuse osana: alla sekundi reageerimiskiirus määrab, kas häälagent tundub vestluslik või mehaaniline.
  • Ehita mälu pigem otsingusüsteemina kui transkriptsioonina: kvaliteetne tihendus ja kiire vektorotsing tagavad järjepidevama isiksuse kui liiga suured kontekstiaknad.
  • Loo kontekst igal käigul uuesti: ära võitle triivimise vastu suuremate viipadega. Konteksti uuendamine igal voorul hoiab agendid maandatuna, kui vestlused uitavad.

koos moodustavad need õppetunnid aluse Tolani järgmisele innovatsioonifaasile ja määravad suuna, kuhu häälepõhine tehisintellekt liigub.

Laiendades hääletehisintellekti võimalusi

Alates 2025. aasta veebruarist käivitamisest on Tolan kasvanud enam kui 200 000 igakuise aktiivse kasutajani. Selle 4,8-tärni hinnang ja enam kui 100 000 App Store'i arvustust rõhutavad, kui hästi süsteem säilitab järjepidevuse pikkades, muutuvates vestlustes. Üks arvustaja märkis: „Nad mäletavad asju, millest me kaks päeva tagasi rääkisime, ja toovad need tagasi vestlusesse, mida me täna peame.”

Need signaalid kaardistuvad otse alusarhitektuurile: madala latentsusega mudelikutsed, käigupõhine konteksti rekonstrueerimine ning modulaarne mälu- ja persoonasüsteem. Koos võimaldavad need Tolanil jälgida teemamuutusi, säilitada tooni ja hoida vastused kindlatena, ilma et peaks tuginema suurtele, habrastele viipadele.

Tulevikku vaadates plaanib Tolan süvendada oma investeeringuid juhitavusse ja mälu täiustamisse, keskendudes tihedamale pakkimisele, paremale otsinguloogikale ja laiendatud persona häälestamisele. Pikaajaline eesmärk on laiendada häälkasutajaliidese võimalusi: mitte ainult reageeriv, vaid ka kontekstitundlik ja vestluslikult dünaamiline.

„Järgmine piir,” ütleb Quinten, „on luua häälagente, mis ei ole lihtsalt reageerivad, vaid tõeliselt multimodaalsed, suutes integreerida hääle, nägemise ja konteksti ühte juhitavasse süsteemi.”