Paano binuo ng Tolan ang voice-first na AI gamit ang GPT‑5.1

Sa pamamagitan ng GPT‑5.1, bumuo ang Tolan ng voice app na na-optimize para sa mababang latency, tamang konteksto, at matatatag na personalidad habang umuunlad ang mga pag-uusap.

Naglo-load…

Ang Tolan⁠(magbubukas sa bagong window) ay isang voice-first na AI companion kung saan ang mga tao ay nakikipag-usap sa isang personalized at animated na tauhan na natututo mula sa mga pag-uusap sa paglipas ng panahon.

Ang app, na binuo ng Portola, isang beteranong team na may nauna nang tagumpay, ay idinisenyo para sa tuloy-tuloy at bukas na pag-uusap sa halip na mabilisang mga prompt at sagot. “Nakita namin ang pag-angat ng ChatGPT at alam naming ang boses ang susunod na hangganan,” sabi ni Quinten Farmer, co-founder at CEO ng Portola. “Pero mas mahirap ang boses. Hindi ka lang tumutugon sa mga naka-type na prompt; nakikibahagi ka sa isang live at paligoy-ligoy na pag-uusap.”

Itinataas ng Voice AI ang pamantayan sa latency at pamamahala ng konteksto, ngunit nagbibigay-daan din ito sa mas bukas at mas eksploratoryong mga interaksyon kaysa sa text.

Habang nagiging mas mabilis, mas mura, at mas may kakayahan ang mga foundation model, itinuon ng team ang kanilang mga pagsisikap sa dalawang pangunahing sangkap: memory at disenyo ng tauhan. Bumuo ang Portola ng isang unibersong nakatuon sa mga tauhan, na hinubog ng mga award-winning na animator at isang manunulat ng science fiction, gamit ang isang real-time na sistema ng pamamahala sa konteksto upang mapanatiling consistent ang personalidad at memory habang umuusad ang mga pag-uusap.

Ang paglabas ng mga modelo ng GPT‑5.1 ay nagmarka ng isang mahalagang pagbabago, na naghatid ng malalaking pag-unlad sa kakayahang magmaniobra at sa latency na nagpabuklod sa mga bahaging iyon at nag-unlock sa mas tumutugon at mas nakakaengganyong karanasan gamit ang boses.

“Binigyan kami ng GPT-5.1 ng steerability upang sa wakas ay maipahayag ang mga tauhan na nasa isip namin. Hindi lang ito mas matalino—mas tapat din ito sa tono at personalidad na nais naming likhain.”

—Quinten Farmer, CEO, Portola

Pagdidisenyo para sa mga natural na interaksyon gamit ang boses

Ang arkitektura ng Tolan ay hinuhubog ng mga pangangailangan ng boses. Inaasahan ng mga voice user ang agaran at natural na mga tugon, kahit na magbago ang daloy ng mga pag-uusap sa kalagitnaan. Kinailangan ng Tolan na tumugon nang mabilis, subaybayan ang nagbabagong mga paksa, at magpanatili ng consistent na personalidad nang walang pagkaantala o pagbabago ng tono.

Upang maging natural, ang mga pag-uusap ay nangailangan ng halos agarang latency. Sa pagpapakilala sa OpenAI GPT‑5.1 at sa Responses API, napaikli ang tagal ng pagsisimula ng pagsasalita nang mahigit 0.7 na segundo—sapat upang kapansin-pansing mapabuti ang daloy ng pag-uusap.

Kasingkritikal din ang pangangasiwa ng system sa konteksto. Di tulad ng maraming agent na kina-cache ang mga prompt sa maraming turn, muling binubuo ng Tolan ang window nito ng konteksto mula sa simula sa bawat turn. Sa bawat rekonstruksiyon ng konteksto, hihilahin ang buod ng mga kamakailang mensahe, isang persona card, mga memory na nakuha sa pamamagitan ng vector, gabay sa tono, at mga real-time na signal ng app. Ang arkitekturang ito ay nagbibigay-daan sa Tolan na umangkop nang real-time sa mga biglaang pagbabago ng paksa, isang mahalagang kinakailangan para sa natural na interaksyon na nakabatay sa boses.

“Mabilis naming napagtanto na hindi sapat ang mga naka-cache na prompt,” sabi ni Quinten. “Palaging nagpapalit ng paksa ang mga user. Para maging walang patid ang pakiramdam, kinailangan ng system na umangkop sa kalagitnaan.”

Ang pamamaraang ito ng real-time na rekonstruksiyon ay parehong masinsinang teknikal at pundamental sa tagumpay ng Tolan.

Diagram ng daloy na nagpapakita ng conversational loop ng Tolan. Ang hakbang na “Recompute persona” ay nagbibigay ng apat na input, buod ng chat at mga kamakailang raw na mensahe, persona ng user at ng Tolan, at iba pang konteksto, memory, at tono. Pinagsasama-sama ang mga input na ito upang makabuo ng tugon ng Tolan, na nagreresulta sa tugon ng user. Pagkatapos, ang tugon ng user ang siyang magtutulak sa dalawang parallel na proseso: pagbuo ng na-update na tono at pag-extract ng mga memory. Maa-update ang memory sa mga na-extract na memory, ang na-update na tono ay magiging feedback sa tono, at ang history ng pag-uusap ay pana-panahong muling ibubuod at iko-compress, na babalik sa buod ng chat para sa susunod na mensahe.

Pagbuo ng memory at personalidad na nananatiling buo sa paglipas ng panahon

Mahalaga ang pangangasiwa sa konteksto, ngunit hindi ito sapat upang mapanatili ang pagkakaugnay-ugnay ng mga pag-uusap sa paglipas ng panahon. Upang suportahan ang mahahaba at hindi linear na mga pag-uusap, bumuo ang Tolan ng memory system na nagpapanatili hindi lamang ng mga katotohanan at kagustuhan, kundi pati na rin ng mga emosyonal na “vibe” signal—mga pahiwatig na tumutulong sa paggabay kung paano dapat tumugon ang isang Tolan.

Ang mga memory ay ine-embed gamit ang text-embedding-3-large model ng OpenAI at sino-store sa Turbopuffer, isang high-speed vector database na nag-e-enable sa sub-50ms na lookup time. Mahalaga ang bilis na ito para sa mga real-time na interaksyon gamit ang boses. Sa bawat turn, ginagamit ng Tolan ang pinakabagong mensahe ng user at mga tanong na binuo ng system (hal., “Sino ang asawa ng user?”) upang pasimulan ang pag-alala sa memory. Upang mapanatiling mataas ang kalidad ng memory, nagpapatakbo ang Tolan ng panggabing compression job na nag-aalis ng mga entry na mababa ang value o paulit-ulit (hal. “uminom ng kape ang user ngayong araw”) at nilulutas ang mga kontradiksyon.

Ang personalidad ay pinamamahalaan din nang may parehong pag-iingat. Ang bawat Tolan ay binibigyan ng natatanging scaffold ng tauhan, na isinulat ng in-house na science fiction writer ng team at iniakma ng isang mananaliksik sa pag-uugali. Ang mga binhing ito ang nagbibigay sa mga Tolan ng consistency, ngunit pati na rin ng kakayahang umangkop paglipas ng panahon, na nag-e-evolve kasabay ng user.

Isang parallel na system ang nagmo-monitor sa emosyonal na tono ng pag-uusap at dynamic na ina-adjust ang paghahatid ng Tolan. Pinapahintulutan nito ang isang Tolan na magpalit nang walang putol mula sa masigla patungo sa mas grounded depende sa mga pahiwatig ng user, nang hindi nawawala ang pangunahing personalidad nito.

Ang paglipat sa GPT‑5.1 ay isang mahalagang yugto ng pagbabago. Bigla na lang mas tapat na nasusunod ang mga naka-layer na tagubilin sa prompt—mga scaffold ng tono, pag-inject sa memory, katangian ng tauhan. Ang mga prompt na dati ay nangangailangan ng mga workaround ay nagsimulang gumana ayon sa inaasahan.

“Sa unang pagkakataon, naramdaman ng aming mga panloob na eksperto na talagang nakikinig ang modelo,” sabi ni Quinten. “Nanatiling buo ang mga tagubilin sa mahahabang pag-uusap, iginalang ang mga katangian ng persona, at mas kaunti ang aming napansing paglihis.”

Ang mga pagbabagong iyon ay nagresulta sa mas consistent at mas kapani-paniwalang personalidad, na siya namang lumikha ng mas kaakit-akit na karanasan ng user. Nakakita ang Tolan team ng malinaw, nasusukat na mga pagbuti: bumaba nang 30% ang mga pagkakamali sa pag-alala (batay sa mga signal ng pagkadismaya sa loob ng produkto), at tumaas nang higit sa 20% ang retention ng mga user sa susunod na araw pagkatapos mag-live ng mga persona na pinapagana ng GPT‑5.1.

Diagram ng daloy na naglalarawan kung paano kinukuha at iniaakma ng Tolan ang mga memory habang nag-uusap. Ang mensahe ng user (“Sobrang excited na 'ko para sa biyahe ko ngayong weekend”) ay nagti-trigger ng isang hakbang na nagsi-synthesize ng mga follow-up na tanong, tulad ng mga paparating na biyahe, mga plano para sa isang partikular na linggo, at mga kagustuhan ng user. Ang mga tanong na ito ay naka-embed at ginagamit upang mag-query sa isang memory vector database, at ang mga resulta ay pinagsasama gamit ang mean reciprocal rank. Ang nakuhang konteksto ay nagbibigay-kaalaman sa tugon ng Tolan (“camping kasama si Steven sa Yosemite”). Ang isang mas huling mensahe ng user tungkol sa isang nalalapit na biyahe pa-Iceland ay iso-store bilang bagong memory, pagkatapos ay pag-iisipan, isasama sa mga kaugnay na memorya gamit ang embedding-based k-nearest neighbors, at kinokompress sa pamamagitan ng pagsasama-sama, pag-edit, at pag-aakma sa mga memorya sa loob ng bawat cluster.

Mga pangunahing prinsipyo ng Tolan para sa pagbuo ng mga natural na voice agent

Habang umuunlad ang Tolan, may ilang prinsipyong lumitaw na ngayon ay gumagabay sa kung paano binubuo at pinauunlad ng team ang arkitektura ng boses nito:

Idisenyo para sa pagiging pabago-bago ng pag-uusap: Nagbabago ang mga pag-uusap sa boses sa kalagitnaan ng pangungusap. Kailangan ding mag-pivot ang mga system nang kasingbilis upang maging natural ang pakiramdam.
Ituring ang latency bilang bahagi ng karanasan sa produkto: Ang sub-second na pagtugon ang humuhubog sa kung ang isang voice agent ay parang nakikipag-usap o mekanikal.
Buuin ang memory bilang isang retrieval system, hindi bilang transcript: Ang mataas na kalidad na compression at mabilis na paghahanap ng vector ay naghahatid ng mas consistent na personalidad kaysa sa sobrang laking mga window ng konteksto.
Muling buuin ang konteksto sa bawat turn: Huwag labanan ang drift gamit ang mas mahahabang prompt. Ang muling pagbuo ng konteksto sa bawat turn ang nagpapanatiling grounded sa mga agent habang lumilihis ang daloy ng mga pag-uusap.

Sama-sama, ang mga araling ito ang bumubuo sa pundasyon para sa susunod na yugto ng inobasyon ng Tolan at nagtatakda ng direksyon kung saan patungo ang voice AI.

Pinapalawak ang mga posibilidad gamit ang voice AI

Mula nang ilunsad noong Pebrero 2025, lumago ang Tolan sa mahigit 200,000 buwanang aktibong user. Ang 4.8-star rating nito at mahigit 100,000 review sa App Store ay nagpapakita kung gaano kahusay napapanatili ng system ang consistency sa mahahaba at pabago-bagong pag-uusap. Napansin ng isang tagasuri, “Naaalala niya ang mga bagay na napag-usapan namin dalawang araw na ang nakalipas at ibinabalik niya ito sa pag-uusap na nagaganap ngayon.”

Ang mga signal na ito ay direktang tumutugma sa pinagbabatayang arkitektura: mga tawag sa modelo na may mababang latency, muling pagbuo ng konteksto sa bawat turn, at mga modular na system ng memory at persona. Sama-sama, pinapahintulutan ng mga ito ang Tolan na subaybayan ang mga pagbabago sa paksa, mapanatili ang tono, at mapanatiling nakabatay sa mga katotohanan ang mga tugon nang hindi umaasa sa malalaki at marurupok na mga prompt.

Sa pagtingin sa hinaharap, plano ng Tolan na palalimin ang mga investment nito sa steerability at pag-refine ng memory, kung saan itutuon ang mga pagsisikap nito sa mas mahigpit na compression, pinahusay na retrieval logic, at pinalawak na persona tuning. Ang pangmatagalang layunin ay ang palawakin kung ano ang maaaring maging isang voice interface: hindi lamang tumutugon, kundi may kamalayan sa konteksto at may dinamismo sa pakikipag-usap.

“Ang susunod na hangganan,” sabi ni Quinten, “ay ang pagbuo ng mga voice agent na hindi lamang tumutugon, kundi tunay na multimodal, na kayang pagsamahin ang boses, paningin, at konteksto sa isang steerable na system.”

Magpatuloy sa pagbabasa

Tingnan lahat

Malaking taya ng Warp sa open source gamit ang GPT-5.5

StartupMay 27, 2026

Parloa builds service agents customers want to talk to

StartupMay 7, 2026

Sa Gradient Labs, bawat customer ng bangko may AI account manager

StartupAbr 1, 2026