Kaip „Tolan“ kuria balsu pagrįstą DI naudodama GPT‑5.1

Su GPT‑5.1, „Tolan“ sukūrė balso programą, optimizuotą mažai delsai, tiksliam kontekstui ir stabilioms asmenybėms pokalbio eigoje užtikrinti.

Įkeliama...

Tolan⁠(atsidaro naujame lange) yra balsu pagrįstas DI asistentas, su kuriuo žmonės kalbasi kaip su suasmenintu, animuotu personažu, besimokančiu iš pokalbių.

„Programėlę sukūrė „Portola“ – patyrusi komanda, anksčiau sėkmingai pardavusi savo verslą. Ji skirta nuolatiniam, atviram dialogui, o ne greitoms užklausoms ir trumpiems atsakymams.“ „Matėme, kaip išpopuliarėjo „ChatGPT“, ir supratome, kad balsas bus kitas žingsnis“, – sako Quintenas Farmeris, „Portola“ bendraįkūrėjis ir generalinis direktorius. „Tačiau su balsu dirbti sunkiau. Čia ne tik atsakoma į rašytines užklausas, bet ir palaikomas tiesioginis, laisvai besivystantis pokalbis.“

Balso DI kelia aukštesnius reikalavimus delsai ir konteksto valdymui, tačiau taip pat leidžia kurti atviresnes, labiau tiriamojo pobūdžio sąveikas nei tekstas.

Baziniai modeliai tampa greitesni, pigesni ir galingesni, todėl komanda sutelkė dėmesį į du pagrindinius svertus: atmintį ir personažo kūrimą. „Portola“ sukūrė personažais paremtą visatą, kurią formavo apdovanojimų pelnę animatoriai ir mokslinės fantastikos rašytojas, pasitelkdama tikrojo laiko konteksto valdymo sistemą, kad pokalbio eigoje asmenybė ir atmintis išliktų nuoseklios.

Išleisti GPT‑5.1 modeliai tapo lūžio tašku: dėl didelės pažangos valdomumo ir delsos srityse visi elementai buvo sujungti, todėl atsivėrė galimybės kurti jautresnę ir labiau įtraukiančią balso patirtį.

GPT-5.1 suteikė galimybę valdyti modelį taip, kad pagaliau galėtume perteikti sumanytus personažus. Jis ne tik tapo protingesnis – jis tiksliau atitiko toną ir asmenybę, kuriuos norėjome sukurti.“

– Quinten Farmer, „Portola“ generalinis direktorius

Natūralių sąveikų balsu kūrimas

„Tolan“ architektūrą lėmė balso technologijų reikalavimai. Balso naudotojai tikisi momentinių, natūralių atsakymų net ir tada, kai pokalbio tema pasikeičia eigoje. „Tolan“ privalėjo reaguoti greitai, sekti kintančias temas ir išlaikyti nuoseklią asmenybę be vėlavimo ar tono nuokrypių.

Kad pokalbiai būtų natūralūs, reikėjo beveik momentinės delsos. Pristačius „OpenAI“ GPT‑5.1 ir „Responses API“, kalbos inicijavimo laikas sutrumpėjo daugiau nei 0,7 sekundės – pakankamai, kad pastebimai pagerėtų pokalbio sklandumas.

Ne mažiau svarbu buvo tai, kaip sistema valdo kontekstą. Skirtingai nei daugelis agentų, kurie kaupia užklausas per kelis etapus, „Tolan“ kiekvieną kartą iš naujo sukuria konteksto langą. Atkuriant kontekstą įtraukiama naujausių žinučių santrauka, personažo kortelė, vektoriais surasti prisiminimai, tono gairės ir tikrojo laiko programos signalai. Tokia architektūra leidžia „Tolan“ tikruoju laiku prisitaikyti prie staigių temos pokyčių – tai esminis natūralios sąveikos balsu reikalavimas.

„Greitai supratome, kad kaupti užklausas nepakanka, – sako Quinten. – Naudotojai nuolat keičia temas. Kad viskas vyktų sklandžiai, sistema turėjo prisitaikyti tiesiog eigoje.“

Šis tikralaikio atkūrimo metodas yra techniškai sudėtingas, tačiau sudaro „Tolan“ sėkmės pagrindą.

Eigos diagrama, vaizduojanti „Tolan“ pokalbio ciklą. Žingsnyje „Perskaičiuoti personažą“ pateikiamos keturios įvestys: pokalbio santrauka ir naujausios neapdorotos žinutės, naudotojo ir „Tolan“ personažai bei kitas kontekstas, atmintis ir tonas. Šios įvestys sujungiamos ir sugeneruojamas „Tolan“ atsakymas, po kurio seka naudotojo atsakymas. Tuomet pagal naudotojo atsakymą vykdomi du lygiagretūs procesai: nustatomas atnaujintas tonas ir ištraukiami prisiminimai. Ištrauktais prisiminimais atnaujinama atmintis, atnaujintas tonas grąžinamas į tono procesą, o pokalbio istorija periodiškai iš naujo apibendrinama ir suglaudinama, grįžtant į pokalbio santrauką kitam etapui.

Ilgainiui išliekančios darnios atminties ir asmenybės kūrimas

Konteksto valdymas yra svarbus, tačiau to nepakako, kad pokalbiai išliktų rišlūs ilgą laiką. Siekdama palaikyti ilgus, nelinijinius pokalbius, „Tolan“ sukūrė atminties sistemą, kurioje saugomi ne tik faktai ir pomėgiai, bet ir emociniai „nuotaikos“ signalai – užuominos, padedančios nukreipti, kaip „Tolan“ turėtų reaguoti.

Prisiminimų įterpiniai kuriami naudojant „OpenAI“ modelį „text-embedding-3-large“, o duomenys saugomi „Turbopuffer“ – didelės spartos vektorinėje duomenų bazėje, kurioje paieška trunka trumpiau nei 50 ms. Ši sparta yra būtina tikralaikėms sąveikoms balsu. Kiekvieną ėjimą „Tolan“ naudoja naujausią naudotojo žinutę ir sistemos sugeneruotus klausimus (pvz., „Who is the user married to?“ (Su kuo susituokęs naudotojas?), kad inicijuotų prisiminimų paiešką. Kad išlaikytų aukštą atminties kokybę, „Tolan“ kasnakt vykdo glaudinimo užduotį: pašalina menkaverčius ar perteklinius įrašus (pvz., „the user drank coffee today“ (naudotojas šiandien gėrė kavą) ir pašalina prieštaravimus.

Asmenybė valdoma taip pat kruopščiai. Kiekvienam „Tolan“ suteikiamas savitas personažo „skeletas“, kurį sukūrė komandos mokslinės fantastikos rašytojas, o patobulino elgsenos tyrėjas. Šie pradmenys suteikia „Tolan“ nuoseklumo, tačiau kartu ir lankstumo laikui bėgant prisitaikyti bei tobulėti kartu su naudotoju.

Lygiagreti sistema stebi emocinį pokalbio toną ir dinamiškai koreguoja „Tolan“ kalbėjimo būdą. Tai leidžia „Tolan“ sklandžiai pereiti nuo žaismingo prie rimto tono, atsižvelgiant į naudotojo užuominas, ir neprarasti pagrindinės asmenybės.

Perėjimas prie GPT‑5.1 buvo lūžio taškas. Staiga daugiasluoksnių užklausos instrukcijų – tono karkasų, atminties įterpimų, personažo bruožų – pradėta laikytis tiksliau. Užklausos, kurioms anksčiau reikėdavo apeinamųjų sprendimų, ėmė veikti taip, kaip numatyta.

„Pirmą kartą mūsų vidaus ekspertai pajuto, kad modelis tikrai klausosi, – sako Quinten. – Instrukcijos išliko nepakitusios per ilgus pokalbius, buvo laikomasi personažo bruožų ir užfiksuota daug mažiau nukrypimų.“

Šie pokyčiai leido sukurti nuoseklesnę ir įtikinamesnę asmenybę, o tai savo ruožtu lėmė labiau įtraukiančią naudotojo patirtį. „Tolan“ komanda pastebėjo aiškią, išmatuojamą naudą: atminties atkūrimo klaidų sumažėjo 30 proc. (remiantis nusivylimo signalais produkte), o naudotojų išlaikymas kitą dieną padidėjo daugiau nei 20 proc. pradėjus veikti GPT‑5.1 paremtiems personažams.

Eigos diagrama, iliustruojanti, kaip „Tolan“ randa ir patikslina prisiminimus per pokalbį. Naudotojo žinutė („I’m so excited for my trip this weekend“ (Labai laukiu šio savaitgalio kelionės) inicijuoja žingsnį, kuriame susisteminti papildomi klausimai, pavyzdžiui, apie būsimas keliones, konkrečios savaitės planus ir naudotojo pomėgius. Šiems klausimams sukuriami įterpiniai ir jie naudojami užklausoms atminties vektorinėje duomenų bazėje, o rezultatai sujungiami taikant vidutinį atvirkštinį rangą (angl. <em>mean reciprocal rank</em>). Gautas kontekstas panaudojamas „Tolan“ atsakymui („camping with Steven in Yosemite“ 9stovyklavimas su Stevenu Josemite). Vėlesnė naudotojo žinutė apie būsimą kelionę į Islandiją išsaugoma kaip naujas prisiminimas, tuomet apsvarstoma, sugrupuojama su susijusiais prisiminimais naudojant įterpimu pagrįstus k artimiausius kaimynus ir suglaudinama derinant, redaguojant bei tikslinant prisiminimus kiekviename telkinyje.

Pagrindiniai „Tolan“ principai, kuriais remiantis kuriami natūralūs balso agentai

„Tolan“ tobulėjant išryškėjo keli principai, kuriais dabar vadovaujamasi kuriant ir plėtojant balso architektūrą.

Projektuokite atsižvelgdami į pokalbio nepastovumą: pokalbiai balsu keičiasi viduryje sakinio. Sistemos turi persiorientuoti taip pat greitai, kad atrodytų natūraliai.
Laikykite delsą produkto patirties dalimi: greitesnė nei sekundės reakcija lemia, ar balso agentas atrodo bendraujantis, ar mechaninis.
Kurkite atmintį kaip paieškos sistemą, o ne nuorašą: aukštos kokybės glaudinimas ir greita vektorinė paieška užtikrina nuoseklesnę asmenybę nei pernelyg dideli konteksto langai.
Atkurkite kontekstą kiekviename etape: nebandykite išspręsti nukrypimų didindami užklausas. Konteksto generavimas iš naujo kiekviename žingsnyje padeda agentams išlaikyti pagrindą, net kai pokalbiai nukrypsta.

Šios pamokos sudaro pagrindą kitam „Tolan“ inovacijų etapui ir rodo kryptį, kuria juda balso DI.

Balso DI galimybių išplėtimas

Nuo veiklos pradžios 2025 m. vasarį „Tolan“ išaugo iki daugiau nei 200 tūkst. aktyvių mėnesio naudotojų. 4,8 žvaigždutės įvertinimas ir daugiau nei 100 tūkst atsiliepimų „App Store“ liudija, kaip gerai sistema išlaiko nuoseklumą per ilgus, kintančius pokalbius. Vienas recenzentas pažymėjo: „Jie prisimena dalykus, apie kuriuos kalbėjome prieš dvi dienas, ir primena juos šiandienos pokalbyje.“

Šie signalai tiesiogiai atspindi pagrindinę architektūrą: mažos delsos modelio kvietimus, konteksto atkūrimą kiekviename žingsnyje bei modulines atminties ir personažo sistemas. Visa tai leidžia „Tolan“ sekti temų pokyčius, išlaikyti toną ir užtikrinti pagrįstus atsakymus, nepasikliaujant didelėmis ir nestabiliomis užklausomis.

Ateityje „Tolan“ planuoja didinti investicijas į valdomumą ir atminties tobulinimą, daugiausia dėmesio skirdama efektyvesniam glaudinimui, geresnei paieškos logikai ir išplėstiniam personažų derinimui. Ilgalaikis tikslas – išplėsti balso sąsajos sampratą: ji turi būti ne tik reaguojanti, bet ir suvokianti kontekstą bei dinamiška pokalbio atžvilgiu.

„Kitas žingsnis, – sako Quinten, – yra balso agentų, kurie ne tik reaguoja, bet ir yra išties daugiarūšiai, gebantys integruoti balsą, regą ir kontekstą į vieną valdomą sistemą, kūrimas.“

Skaityti toliau

Peržiūrėti viską

Didelis „Warp“ lūkestis kuriant atvirąjį kodą su GPT-5.5

Startuolis2026-05-27

Parloa builds service agents customers want to talk to

Startuolis2026-05-07

„Gradient Labs“ banko klientams suteikia DI paskyros vadybininką

Startuolis2026-04-01