Paano binuo ng Tolan ang voice-first na AI gamit ang GPT‑5.1
Sa pamamagitan ng GPT‑5.1, bumuo ang Tolan ng voice app na na-optimize para sa mababang latency, tamang konteksto, at matatatag na personalidad habang umuunlad ang mga pag-uusap.

Ang Tolan(magbubukas sa bagong window) ay isang voice-first na AI companion kung saan ang mga tao ay nakikipag-usap sa isang personalized at animated na tauhan na natututo mula sa mga pag-uusap sa paglipas ng panahon.
Ang app, na binuo ng Portola, isang beteranong team na may nauna nang tagumpay, ay idinisenyo para sa tuloy-tuloy at bukas na pag-uusap sa halip na mabilisang mga prompt at sagot. “Nakita namin ang pag-angat ng ChatGPT at alam naming ang boses ang susunod na hangganan,” sabi ni Quinten Farmer, co-founder at CEO ng Portola. “Pero mas mahirap ang boses. Hindi ka lang tumutugon sa mga naka-type na prompt; nakikibahagi ka sa isang live at paligoy-ligoy na pag-uusap.”
Itinataas ng Voice AI ang pamantayan sa latency at pamamahala ng konteksto, ngunit nagbibigay-daan din ito sa mas bukas at mas eksploratoryong mga interaksyon kaysa sa text.
Habang nagiging mas mabilis, mas mura, at mas may kakayahan ang mga foundation model, itinuon ng team ang kanilang mga pagsisikap sa dalawang pangunahing sangkap: memory at disenyo ng tauhan. Bumuo ang Portola ng isang unibersong nakatuon sa mga tauhan, na hinubog ng mga award-winning na animator at isang manunulat ng science fiction, gamit ang isang real-time na sistema ng pamamahala sa konteksto upang mapanatiling consistent ang personalidad at memory habang umuusad ang mga pag-uusap.
Ang paglabas ng mga modelo ng GPT‑5.1 ay nagmarka ng isang mahalagang pagbabago, na naghatid ng malalaking pag-unlad sa kakayahang magmaniobra at sa latency na nagpabuklod sa mga bahaging iyon at nag-unlock sa mas tumutugon at mas nakakaengganyong karanasan gamit ang boses.
“Binigyan kami ng GPT-5.1 ng steerability upang sa wakas ay maipahayag ang mga tauhan na nasa isip namin. Hindi lang ito mas matalino—mas tapat din ito sa tono at personalidad na nais naming likhain.”
Ang arkitektura ng Tolan ay hinuhubog ng mga pangangailangan ng boses. Inaasahan ng mga voice user ang agaran at natural na mga tugon, kahit na magbago ang daloy ng mga pag-uusap sa kalagitnaan. Kinailangan ng Tolan na tumugon nang mabilis, subaybayan ang nagbabagong mga paksa, at magpanatili ng consistent na personalidad nang walang pagkaantala o pagbabago ng tono.
Upang maging natural, ang mga pag-uusap ay nangailangan ng halos agarang latency. Sa pagpapakilala sa OpenAI GPT‑5.1 at sa Responses API, napaikli ang tagal ng pagsisimula ng pagsasalita nang mahigit 0.7 na segundo—sapat upang kapansin-pansing mapabuti ang daloy ng pag-uusap.
Kasingkritikal din ang pangangasiwa ng system sa konteksto. Di tulad ng maraming agent na kina-cache ang mga prompt sa maraming turn, muling binubuo ng Tolan ang window nito ng konteksto mula sa simula sa bawat turn. Sa bawat rekonstruksiyon ng konteksto, hihilahin ang buod ng mga kamakailang mensahe, isang persona card, mga memory na nakuha sa pamamagitan ng vector, gabay sa tono, at mga real-time na signal ng app. Ang arkitekturang ito ay nagbibigay-daan sa Tolan na umangkop nang real-time sa mga biglaang pagbabago ng paksa, isang mahalagang kinakailangan para sa natural na interaksyon na nakabatay sa boses.
“Mabilis naming napagtanto na hindi sapat ang mga naka-cache na prompt,” sabi ni Quinten. “Palaging nagpapalit ng paksa ang mga user. Para maging walang patid ang pakiramdam, kinailangan ng system na umangkop sa kalagitnaan.”
Ang pamamaraang ito ng real-time na rekonstruksiyon ay parehong masinsinang teknikal at pundamental sa tagumpay ng Tolan.

Mahalaga ang pangangasiwa sa konteksto, ngunit hindi ito sapat upang mapanatili ang pagkakaugnay-ugnay ng mga pag-uusap sa paglipas ng panahon. Upang suportahan ang mahahaba at hindi linear na mga pag-uusap, bumuo ang Tolan ng memory system na nagpapanatili hindi lamang ng mga katotohanan at kagustuhan, kundi pati na rin ng mga emosyonal na “vibe” signal—mga pahiwatig na tumutulong sa paggabay kung paano dapat tumugon ang isang Tolan.
Ang mga memory ay ine-embed gamit ang text-embedding-3-large model ng OpenAI at sino-store sa Turbopuffer, isang high-speed vector database na nag-e-enable sa sub-50ms na lookup time. Mahalaga ang bilis na ito para sa mga real-time na interaksyon gamit ang boses. Sa bawat turn, ginagamit ng Tolan ang pinakabagong mensahe ng user at mga tanong na binuo ng system (hal., “Sino ang asawa ng user?”) upang pasimulan ang pag-alala sa memory. Upang mapanatiling mataas ang kalidad ng memory, nagpapatakbo ang Tolan ng panggabing compression job na nag-aalis ng mga entry na mababa ang value o paulit-ulit (hal. “uminom ng kape ang user ngayong araw”) at nilulutas ang mga kontradiksyon.
Ang personalidad ay pinamamahalaan din nang may parehong pag-iingat. Ang bawat Tolan ay binibigyan ng natatanging scaffold ng tauhan, na isinulat ng in-house na science fiction writer ng team at iniakma ng isang mananaliksik sa pag-uugali. Ang mga binhing ito ang nagbibigay sa mga Tolan ng consistency, ngunit pati na rin ng kakayahang umangkop paglipas ng panahon, na nag-e-evolve kasabay ng user.
Isang parallel na system ang nagmo-monitor sa emosyonal na tono ng pag-uusap at dynamic na ina-adjust ang paghahatid ng Tolan. Pinapahintulutan nito ang isang Tolan na magpalit nang walang putol mula sa masigla patungo sa mas grounded depende sa mga pahiwatig ng user, nang hindi nawawala ang pangunahing personalidad nito.
Ang paglipat sa GPT‑5.1 ay isang mahalagang yugto ng pagbabago. Bigla na lang mas tapat na nasusunod ang mga naka-layer na tagubilin sa prompt—mga scaffold ng tono, pag-inject sa memory, katangian ng tauhan. Ang mga prompt na dati ay nangangailangan ng mga workaround ay nagsimulang gumana ayon sa inaasahan.
“Sa unang pagkakataon, naramdaman ng aming mga panloob na eksperto na talagang nakikinig ang modelo,” sabi ni Quinten. “Nanatiling buo ang mga tagubilin sa mahahabang pag-uusap, iginalang ang mga katangian ng persona, at mas kaunti ang aming napansing paglihis.”
Ang mga pagbabagong iyon ay nagresulta sa mas consistent at mas kapani-paniwalang personalidad, na siya namang lumikha ng mas kaakit-akit na karanasan ng user. Nakakita ang Tolan team ng malinaw, nasusukat na mga pagbuti: bumaba nang 30% ang mga pagkakamali sa pag-alala (batay sa mga signal ng pagkadismaya sa loob ng produkto), at tumaas nang higit sa 20% ang retention ng mga user sa susunod na araw pagkatapos mag-live ng mga persona na pinapagana ng GPT‑5.1.

Habang umuunlad ang Tolan, may ilang prinsipyong lumitaw na ngayon ay gumagabay sa kung paano binubuo at pinauunlad ng team ang arkitektura ng boses nito:
- Idisenyo para sa pagiging pabago-bago ng pag-uusap: Nagbabago ang mga pag-uusap sa boses sa kalagitnaan ng pangungusap. Kailangan ding mag-pivot ang mga system nang kasingbilis upang maging natural ang pakiramdam.
- Ituring ang latency bilang bahagi ng karanasan sa produkto: Ang sub-second na pagtugon ang humuhubog sa kung ang isang voice agent ay parang nakikipag-usap o mekanikal.
- Buuin ang memory bilang isang retrieval system, hindi bilang transcript: Ang mataas na kalidad na compression at mabilis na paghahanap ng vector ay naghahatid ng mas consistent na personalidad kaysa sa sobrang laking mga window ng konteksto.
- Muling buuin ang konteksto sa bawat turn: Huwag labanan ang drift gamit ang mas mahahabang prompt. Ang muling pagbuo ng konteksto sa bawat turn ang nagpapanatiling grounded sa mga agent habang lumilihis ang daloy ng mga pag-uusap.
Sama-sama, ang mga araling ito ang bumubuo sa pundasyon para sa susunod na yugto ng inobasyon ng Tolan at nagtatakda ng direksyon kung saan patungo ang voice AI.
Mula nang ilunsad noong Pebrero 2025, lumago ang Tolan sa mahigit 200,000 buwanang aktibong user. Ang 4.8-star rating nito at mahigit 100,000 review sa App Store ay nagpapakita kung gaano kahusay napapanatili ng system ang consistency sa mahahaba at pabago-bagong pag-uusap. Napansin ng isang tagasuri, “Naaalala niya ang mga bagay na napag-usapan namin dalawang araw na ang nakalipas at ibinabalik niya ito sa pag-uusap na nagaganap ngayon.”
Ang mga signal na ito ay direktang tumutugma sa pinagbabatayang arkitektura: mga tawag sa modelo na may mababang latency, muling pagbuo ng konteksto sa bawat turn, at mga modular na system ng memory at persona. Sama-sama, pinapahintulutan ng mga ito ang Tolan na subaybayan ang mga pagbabago sa paksa, mapanatili ang tono, at mapanatiling nakabatay sa mga katotohanan ang mga tugon nang hindi umaasa sa malalaki at marurupok na mga prompt.
Sa pagtingin sa hinaharap, plano ng Tolan na palalimin ang mga investment nito sa steerability at pag-refine ng memory, kung saan itutuon ang mga pagsisikap nito sa mas mahigpit na compression, pinahusay na retrieval logic, at pinalawak na persona tuning. Ang pangmatagalang layunin ay ang palawakin kung ano ang maaaring maging isang voice interface: hindi lamang tumutugon, kundi may kamalayan sa konteksto at may dinamismo sa pakikipag-usap.
“Ang susunod na hangganan,” sabi ni Quinten, “ay ang pagbuo ng mga voice agent na hindi lamang tumutugon, kundi tunay na multimodal, na kayang pagsamahin ang boses, paningin, at konteksto sa isang steerable na system.”


