Jinsi Tolan inavyounda AI ya sauti-kwanza kwa kutumia GPT‑5.1

Pamoja na GPT‑5.1, Tolan iliunda programu ya sauti iliyoboreshwa kwa ucheleweshaji mdogo, muktadha sahihi, na utu thabiti kadri mazungumzo yanavyoendelea.

Inapakia…

Tolan⁠(fungua katika dirisha jipya) ni msaidizi wa AI anayezingatia sauti ambapo watu huzungumza na mhusika wa kibinafsi, aliyehuishwa ambaye hujifunza kutokana na mazungumzo kadri muda unavyopita.

Iliyoundwa na Portola, timu yenye uzoefu na iliyowahi kufanya mauzo hapo awali, programu imeundwa kwa mazungumzo yanayoendelea, yasiyo na kikomo badala ya dokezo za haraka na majibu. “Tuliona kuongezeka kwa ChatGPT na tukajua sauti ndiyo mpaka unaofuata,” anasema Quinten Farmer, mwanzilishi mwenza na afisa mtendaji mkuu wa Portola. “Lakini sauti ni ngumu zaidi. Hujibu tu dokezo zilizoandikwa; unaendesha mazungumzo ya moja kwa moja na yenye kutatanisha.”

Voice AI inaboresha viwango vya ucheleweshaji na usimamizi wa muktadha, lakini pia inawezesha mwingiliano wa wazi na wa kuchunguza zaidi kuliko maandishi.

Kadri miundo ya msingi inavyozidi kuwa ya haraka, ya bei nafuu, na yenye uwezo zaidi, timu ilielekeza juhudi zao kwenye vichocheo viwili muhimu: kumbukumbu na usanifu wa Mhusika. Portola iliunda ulimwengu unaoongozwa na wahusika, ulioundwa na wahuishaji walioshinda tuzo na mwandishi wa hadithi za kisayansi, kwa kutumia mfumo wa usimamizi wa muktadha wa wakati halisi ili kudumisha utu na kumbukumbu thabiti kadri mazungumzo yanavyoendelea.

Kutolewa kwa miundo ya GPT‑5.1 kuliashiria hatua ya mabadiliko, kukileta faida kubwa katika uelekezaji na ucheleweshaji ambazo ziliunganisha vipande hivyo pamoja, na kufungua uzoefu wa sauti unaojibu zaidi na unaovutia.

“GPT-5.1 ilitupa uwezo wa kuielekeza ili hatimaye kueleza Wahusika tuliokuwa tumewawazia. "Haikuwa tu bora zaidi—ilikuwa mwaminifu zaidi kwa sauti na haiba tuliyotaka kuunda.”

—Quinten Farmer, Afisa Mtendaji Mkuu, Portola

Kubuni kwa ajili ya mwingiliano wa sauti asilia

Usanifu wa Tolan umeundwa na mahitaji ya sauti. Watumiaji wa sauti wanatarajia majibu ya haraka, ya kiasili, hata mazungumzo yanapobadilika ghafla. Tolan ililazimika kujibu haraka, kufuatilia mada zinazobadilika na kudumisha utu thabiti bila kuchelewa au kupotoka kwa sauti.

Ili mazungumzo yahisi kuwa ya asili, yalihitaji ucheleweshaji wa karibu wa papo hapo. Kuanzisha OpenAI GPT‑5.1 na API ya Majibu ilipunguza muda wa kuanzisha usemi kwa zaidi ya sekunde 0.7—ya kutosha kuboresha mtiririko wa mazungumzo kwa kiasi kikubwa.

Jambo muhimu pia lilikuwa jinsi mfumo ulivyoshughulikia muktadha. Tofauti na mawakala wengi wanaohifadhi dokezo katika zamu nyingi, Tolan hujenga upya dirisha lake la muktadha kutoka mwanzo kila zamu. Kila uundaji upya wa muktadha hujumuisha muhtasari wa jumbe za hivi karibuni, kadi ya mtu binafsi, kumbukumbu zilizopatikana kwa vekta, mwongozo wa sauti na mawimbi ya programu ya wakati halisi. Usanifu huu huwezesha Tolan kubadilika papo hapo kwa mabadiliko ya ghafla ya mada, hitaji muhimu kwa mwingiliano wa sauti wa kiasili.

“Tuligundua haraka kwamba dokezo zilizohifadhiwa hazikutosha,” anasema Quinten. “Watumiaji hubadilisha mada kila mara. "Ili kuhisi hakuna hitilafu, mfumo ulilazimika kubadilika katikati ya mchakato.”

Mbinu hii ya uundaji upya wa wakati halisi ni ngumu kiufundi na ni msingi wa mafanikio ya Tolan.

Mchoro wa mtiririko unaoonyesha mzunguko wa mazungumzo wa Tolan. Hatua ya "Kuhesabu upya utu" hulisha ingizo nne, muhtasari wa gumzo na jumbe ghafi za hivi karibuni, utu wa mtumiaji na Tolan na muktadha mwingine, kumbukumbu, na sauti. Ingizo hizi zinaunganishwa ili kutoa jibu la Tolan, ambalo linaongoza kwa jibu la mtumiaji. Kisha jibu la mtumiaji huendesha michakato miwili sambamba: kupata toni iliyosasishwa na kutoa kumbukumbu. Kumbukumbu zilizotolewa husasisha kumbukumbu, toni iliyosasishwa hurudi kwenye toni, na historia ya mazungumzo hufupishwa na kubanwa mara kwa mara, ikirudi kwenye muhtasari wa mazungumzo kwa zamu inayofuata.

Kujenga kumbukumbu na utu unaodumu pamoja kwa muda

Ushughulikiaji wa muktadha ni muhimu, lakini haukutosha kuweka mazungumzo yakihisi kuwa na uthabiti baada ya muda. Ili kusaidia mazungumzo marefu na yasiyo ya mstari mmoja, Tolan alijenga mfumo wa kumbukumbu unaohifadhi si tu ukweli na mapendeleo, bali pia ishara za kihisia za “vibe”—vidokezo vinavyosaidia kuelekeza jinsi Tolan inavyopaswa kujibu.

Kumbukumbu huingizwa kwa kutumia muundo wa OpenAI text-embedding-3-large na kuhifadhiwa katika Turbopuffer, hifadhidata ya vekta ya kasi ya juu inayowezesha nyakati za utafutaji za chini ya 50ms. Kasi hii ni muhimu kwa mwingiliano wa sauti wa wakati halisi. Kila zamu, Tolan hutumia ujumbe wa hivi punde wa mtumiaji na maswali yaliyotungwa na mfumo (kwa mfano, “Mtumiaji ameolewa na nani?”) ili kuchochea urejeshaji wa kumbukumbu. Ili kuweka ubora wa kumbukumbu kuwa wa juu, Tolan hufanya kazi ya kubana kila usiku ambayo huondoa viingilio vya thamani ya chini au visivyohitajika (km. “mtumiaji alikunywa kahawa leo”) na kutatua migongano.

Utu unasimamiwa kwa uangalifu vile vile. Kila Tolan hupandikizwa na kiunzi mahususi cha mhusika, kilichoandikwa na mwandishi wa hadithi za kisayansi wa ndani wa timu na kuboreshwa na mtafiti wa tabia. Upandikizaji huu huipa Tolans uthabiti, lakini pia unyumbufu wa kubadilika baada ya muda, ukibadilika sambamba na mtumiaji.

Mfumo sambamba hufuatilia mwelekeo wa kihisia wa mazungumzo na hurekebisha uwasilishaji wa Tolan kwa njia inayobadilika. Hii huruhusu Tolan kubadilika kwa urahisi kutoka kwa ucheshi hadi kuwa thabiti kulingana na viashiria vya mtumiaji, bila kupoteza utu wake wa msingi.

Mpito wa GPT‑5.1 ulikuwa hatua muhimu ya mabadiliko. Ghafla, maagizo ya dokezo yaliyopangwa kwa tabaka—miundo ya toni, sindikizo za kumbukumbu, sifa za mhusika—yalifuatwa kwa uaminifu zaidi. Dokezo ambazo hapo awali zilihitaji mbinu mbadala zilianza kufanya kazi kama ilivyokusudiwa.

“Kwa mara ya kwanza, wataalamu wetu wa ndani walihisi kama muundo ulikuwa unasikiliza kwa kweli,” anasema Quinten. “Maelekezo yalibaki bila kubadilika katika mazungumzo marefu, sifa za tabia ziliheshimiwa na tuliona mkengeuko mdogo sana.”

Mabadiliko hayo yaliongezeka na kuunda utu thabiti zaidi na unaoaminika, ambao kwa upande wake uliunda uzoefu wa mtumiaji unaovutia zaidi. Timu ya Tolan iliona mafanikio ya wazi, yanayopimika: makosa ya kukumbuka yalipungua kwa 30% (kulingana na ishara za kukatishwa tamaa ndani ya bidhaa), na uhifadhi wa watumiaji wa siku inayofuata uliongezeka kwa zaidi ya 20% baada ya GPT‑5.1 personas ilionyeshwa moja kwa moja.

Mchoro wa mtiririko unaoonyesha jinsi Tolan inavyorejesha na kuboresha kumbukumbu wakati wa mazungumzo. Ujumbe wa mtumiaji (“Ninafuraha sana kwa safari yangu ya wikendi hii”) huchochea hatua inayounda maswali ya ufuatiliaji, kama vile safari zijazo, mipango ya wiki fulani, na mapendeleo ya mtumiaji. Maswali haya yamepachikwa na kutumika kuuliza hifadhidata ya vekta ya kumbukumbu, huku matokeo yakiunganishwa kwa kutumia kiwango cha wastani wa kurudiwa. Muktadha uliopatikana unaarifu jibu la Tolan (“kupiga kambi na Steven huko Yosemite”). Ujumbe wa baadaye wa mtumiaji kuhusu safari ya baadaye kwenda Iceland huhifadhiwa kama kumbukumbu mpya, kisha hutafakariwa, huunganishwa katika makundi pamoja na kumbukumbu zinazohusiana kwa kutumia mbinu ya embedding-based k-nearest neighbors, na hatimaye hubanwa kwa kuchanganya, kuhariri, na kuboresha kumbukumbu ndani ya kila kundi.

Kanuni za msingi za Tolan za kuunda mawakala wa sauti asilia

Kadri Tolan ilivyokua, kanuni chache ziliibuka ambazo sasa zinaongoza jinsi timu inavyounda na kuendeleza usanifu wa sauti yake:

Buni kwa ajili ya mabadiliko ya mazungumzo: Mazungumzo ya sauti hubadilika katikati ya sentensi. Mifumo inahitaji kubadilika kwa haraka ili kuhisi kuwa ya kawaida.
Chukulia ucheleweshaji kama sehemu ya uzoefu wa bidhaa: Uitikio wa chini ya sekunde moja huamua ikiwa wakala wa sauti anahisi kuwa wa mazungumzo au wa kimekanika.
Jenga kumbukumbu kama mfumo wa urejeshaji, si nakala: Ubanaji wa ubora wa juu na utafutaji wa haraka wa vekta hutoa utu thabiti zaidi kuliko madirisha ya muktadha makubwa kupita kiasi.
Jenga upya muktadha kila zamu: Usipambane na mkengeuko kwa kutumia dokezo ndefu zaidi. Kuzalisha upya muktadha kila zamu huweka mawakala thabiti wakati mazungumzo yanapozunguka.

Pamoja, masomo haya yanaunda msingi wa awamu inayofuata ya uvumbuzi wa Tolan na kuweka mwelekeo wa mahali ambapo AI ya sauti inaelekea.

Kupanua uwezekano kwa kutumia AI ya sauti

Tangu kuzinduliwa mnamo Februari 2025, Tolan imekua na zaidi ya watumiaji 200,000 wanaiotumia kila mwezi. Ukadiriaji wake wa nyota 4.8 na zaidi ya hakiki 100,000 kwenye App Store zinaonyesha jinsi mfumo unavyodumisha uthabiti katika mazungumzo marefu yanayobadilika. Mhakiki mmoja alibainisha, “Hukumbuka mambo tuliyozungumza siku mbili zilizopita na huyarejesha katika mazungumzo ya leo.”

Ishara hizi huambatana moja kwa moja na usanifu wa msingi: simu za modeli za muda mfupi, ujenzi upya wa muktadha wa hatua kwa hatua, na mifumo ya kumbukumbu ya moduli na utu. Kwa pamoja, vinamruhusu Tolan kufuatilia mabadiliko ya mada, kuhifadhi toni, na kuweka majibu yakiwa yamejikita katika uhalisia bila kutegemea dokezo kubwa, dhaifu.

Tukiangalia mbele, Tolan inapanga kuimarisha uwekezaji wake katika uelekezaji na uboreshaji wa kumbukumbu, ikilenga juhudi zake kwenye ukandamizaji mkali zaidi, mantiki bora ya urejeshaji na urekebishaji wa persona uliopanuliwa. Lengo la muda mrefu ni kupanua kile ambacho kiolesura cha sauti kinaweza kuwa: si tu chenye kuitikia, bali pia chenye ufahamu wa muktadha na chenye uwezo wa kubadilika katika mazungumzo.

“Mpaka unaofuata,” anasema Quinten, “ni kujenga mawakala wa sauti ambao si tu wanaoitikia, bali ni wa kweli wa aina nyingi, wenye uwezo wa kuunganisha sauti, maono, na muktadha katika mfumo mmoja unaoweza kuelekezwa.”

Endelea kusoma

Tazama zote

Dau kubwa la Warp kujenga chanzo huria kwa GPT-5.5

Biashara ya kuanza27 Mei 2026

Parloa builds service agents customers want to talk to

Biashara ya kuanza7 Mei 2026

Gradient Labs humpa kila mteja wa benki meneja wa akaunti wa AI

Biashara ya kuanza1 Apr 2026