Jinsi Tolan inavyounda AI ya sauti-kwanza kwa kutumia GPT‑5.1
Pamoja na GPT‑5.1, Tolan iliunda programu ya sauti iliyoboreshwa kwa ucheleweshaji mdogo, muktadha sahihi, na utu thabiti kadri mazungumzo yanavyoendelea.

Tolan(fungua katika dirisha jipya) ni msaidizi wa AI anayezingatia sauti ambapo watu huzungumza na mhusika wa kibinafsi, aliyehuishwa ambaye hujifunza kutokana na mazungumzo kadri muda unavyopita.
Iliyoundwa na Portola, timu yenye uzoefu na iliyowahi kufanya mauzo hapo awali, programu imeundwa kwa mazungumzo yanayoendelea, yasiyo na kikomo badala ya dokezo za haraka na majibu. “Tuliona kuongezeka kwa ChatGPT na tukajua sauti ndiyo mpaka unaofuata,” anasema Quinten Farmer, mwanzilishi mwenza na afisa mtendaji mkuu wa Portola. “Lakini sauti ni ngumu zaidi. Hujibu tu dokezo zilizoandikwa; unaendesha mazungumzo ya moja kwa moja na yenye kutatanisha.”
Voice AI inaboresha viwango vya ucheleweshaji na usimamizi wa muktadha, lakini pia inawezesha mwingiliano wa wazi na wa kuchunguza zaidi kuliko maandishi.
Kadri miundo ya msingi inavyozidi kuwa ya haraka, ya bei nafuu, na yenye uwezo zaidi, timu ilielekeza juhudi zao kwenye vichocheo viwili muhimu: kumbukumbu na usanifu wa Mhusika. Portola iliunda ulimwengu unaoongozwa na wahusika, ulioundwa na wahuishaji walioshinda tuzo na mwandishi wa hadithi za kisayansi, kwa kutumia mfumo wa usimamizi wa muktadha wa wakati halisi ili kudumisha utu na kumbukumbu thabiti kadri mazungumzo yanavyoendelea.
Kutolewa kwa miundo ya GPT‑5.1 kuliashiria hatua ya mabadiliko, kukileta faida kubwa katika uelekezaji na ucheleweshaji ambazo ziliunganisha vipande hivyo pamoja, na kufungua uzoefu wa sauti unaojibu zaidi na unaovutia.
“GPT-5.1 ilitupa uwezo wa kuielekeza ili hatimaye kueleza Wahusika tuliokuwa tumewawazia. "Haikuwa tu bora zaidi—ilikuwa mwaminifu zaidi kwa sauti na haiba tuliyotaka kuunda.”
Usanifu wa Tolan umeundwa na mahitaji ya sauti. Watumiaji wa sauti wanatarajia majibu ya haraka, ya kiasili, hata mazungumzo yanapobadilika ghafla. Tolan ililazimika kujibu haraka, kufuatilia mada zinazobadilika na kudumisha utu thabiti bila kuchelewa au kupotoka kwa sauti.
Ili mazungumzo yahisi kuwa ya asili, yalihitaji ucheleweshaji wa karibu wa papo hapo. Kuanzisha OpenAI GPT‑5.1 na API ya Majibu ilipunguza muda wa kuanzisha usemi kwa zaidi ya sekunde 0.7—ya kutosha kuboresha mtiririko wa mazungumzo kwa kiasi kikubwa.
Jambo muhimu pia lilikuwa jinsi mfumo ulivyoshughulikia muktadha. Tofauti na mawakala wengi wanaohifadhi dokezo katika zamu nyingi, Tolan hujenga upya dirisha lake la muktadha kutoka mwanzo kila zamu. Kila uundaji upya wa muktadha hujumuisha muhtasari wa jumbe za hivi karibuni, kadi ya mtu binafsi, kumbukumbu zilizopatikana kwa vekta, mwongozo wa sauti na mawimbi ya programu ya wakati halisi. Usanifu huu huwezesha Tolan kubadilika papo hapo kwa mabadiliko ya ghafla ya mada, hitaji muhimu kwa mwingiliano wa sauti wa kiasili.
“Tuligundua haraka kwamba dokezo zilizohifadhiwa hazikutosha,” anasema Quinten. “Watumiaji hubadilisha mada kila mara. "Ili kuhisi hakuna hitilafu, mfumo ulilazimika kubadilika katikati ya mchakato.”
Mbinu hii ya uundaji upya wa wakati halisi ni ngumu kiufundi na ni msingi wa mafanikio ya Tolan.

Ushughulikiaji wa muktadha ni muhimu, lakini haukutosha kuweka mazungumzo yakihisi kuwa na uthabiti baada ya muda. Ili kusaidia mazungumzo marefu na yasiyo ya mstari mmoja, Tolan alijenga mfumo wa kumbukumbu unaohifadhi si tu ukweli na mapendeleo, bali pia ishara za kihisia za “vibe”—vidokezo vinavyosaidia kuelekeza jinsi Tolan inavyopaswa kujibu.
Kumbukumbu huingizwa kwa kutumia muundo wa OpenAI text-embedding-3-large na kuhifadhiwa katika Turbopuffer, hifadhidata ya vekta ya kasi ya juu inayowezesha nyakati za utafutaji za chini ya 50ms. Kasi hii ni muhimu kwa mwingiliano wa sauti wa wakati halisi. Kila zamu, Tolan hutumia ujumbe wa hivi punde wa mtumiaji na maswali yaliyotungwa na mfumo (kwa mfano, “Mtumiaji ameolewa na nani?”) ili kuchochea urejeshaji wa kumbukumbu. Ili kuweka ubora wa kumbukumbu kuwa wa juu, Tolan hufanya kazi ya kubana kila usiku ambayo huondoa viingilio vya thamani ya chini au visivyohitajika (km. “mtumiaji alikunywa kahawa leo”) na kutatua migongano.
Utu unasimamiwa kwa uangalifu vile vile. Kila Tolan hupandikizwa na kiunzi mahususi cha mhusika, kilichoandikwa na mwandishi wa hadithi za kisayansi wa ndani wa timu na kuboreshwa na mtafiti wa tabia. Upandikizaji huu huipa Tolans uthabiti, lakini pia unyumbufu wa kubadilika baada ya muda, ukibadilika sambamba na mtumiaji.
Mfumo sambamba hufuatilia mwelekeo wa kihisia wa mazungumzo na hurekebisha uwasilishaji wa Tolan kwa njia inayobadilika. Hii huruhusu Tolan kubadilika kwa urahisi kutoka kwa ucheshi hadi kuwa thabiti kulingana na viashiria vya mtumiaji, bila kupoteza utu wake wa msingi.
Mpito wa GPT‑5.1 ulikuwa hatua muhimu ya mabadiliko. Ghafla, maagizo ya dokezo yaliyopangwa kwa tabaka—miundo ya toni, sindikizo za kumbukumbu, sifa za mhusika—yalifuatwa kwa uaminifu zaidi. Dokezo ambazo hapo awali zilihitaji mbinu mbadala zilianza kufanya kazi kama ilivyokusudiwa.
“Kwa mara ya kwanza, wataalamu wetu wa ndani walihisi kama muundo ulikuwa unasikiliza kwa kweli,” anasema Quinten. “Maelekezo yalibaki bila kubadilika katika mazungumzo marefu, sifa za tabia ziliheshimiwa na tuliona mkengeuko mdogo sana.”
Mabadiliko hayo yaliongezeka na kuunda utu thabiti zaidi na unaoaminika, ambao kwa upande wake uliunda uzoefu wa mtumiaji unaovutia zaidi. Timu ya Tolan iliona mafanikio ya wazi, yanayopimika: makosa ya kukumbuka yalipungua kwa 30% (kulingana na ishara za kukatishwa tamaa ndani ya bidhaa), na uhifadhi wa watumiaji wa siku inayofuata uliongezeka kwa zaidi ya 20% baada ya GPT‑5.1 personas ilionyeshwa moja kwa moja.

Kadri Tolan ilivyokua, kanuni chache ziliibuka ambazo sasa zinaongoza jinsi timu inavyounda na kuendeleza usanifu wa sauti yake:
- Buni kwa ajili ya mabadiliko ya mazungumzo: Mazungumzo ya sauti hubadilika katikati ya sentensi. Mifumo inahitaji kubadilika kwa haraka ili kuhisi kuwa ya kawaida.
- Chukulia ucheleweshaji kama sehemu ya uzoefu wa bidhaa: Uitikio wa chini ya sekunde moja huamua ikiwa wakala wa sauti anahisi kuwa wa mazungumzo au wa kimekanika.
- Jenga kumbukumbu kama mfumo wa urejeshaji, si nakala: Ubanaji wa ubora wa juu na utafutaji wa haraka wa vekta hutoa utu thabiti zaidi kuliko madirisha ya muktadha makubwa kupita kiasi.
- Jenga upya muktadha kila zamu: Usipambane na mkengeuko kwa kutumia dokezo ndefu zaidi. Kuzalisha upya muktadha kila zamu huweka mawakala thabiti wakati mazungumzo yanapozunguka.
Pamoja, masomo haya yanaunda msingi wa awamu inayofuata ya uvumbuzi wa Tolan na kuweka mwelekeo wa mahali ambapo AI ya sauti inaelekea.
Tangu kuzinduliwa mnamo Februari 2025, Tolan imekua na zaidi ya watumiaji 200,000 wanaiotumia kila mwezi. Ukadiriaji wake wa nyota 4.8 na zaidi ya hakiki 100,000 kwenye App Store zinaonyesha jinsi mfumo unavyodumisha uthabiti katika mazungumzo marefu yanayobadilika. Mhakiki mmoja alibainisha, “Hukumbuka mambo tuliyozungumza siku mbili zilizopita na huyarejesha katika mazungumzo ya leo.”
Ishara hizi huambatana moja kwa moja na usanifu wa msingi: simu za modeli za muda mfupi, ujenzi upya wa muktadha wa hatua kwa hatua, na mifumo ya kumbukumbu ya moduli na utu. Kwa pamoja, vinamruhusu Tolan kufuatilia mabadiliko ya mada, kuhifadhi toni, na kuweka majibu yakiwa yamejikita katika uhalisia bila kutegemea dokezo kubwa, dhaifu.
Tukiangalia mbele, Tolan inapanga kuimarisha uwekezaji wake katika uelekezaji na uboreshaji wa kumbukumbu, ikilenga juhudi zake kwenye ukandamizaji mkali zaidi, mantiki bora ya urejeshaji na urekebishaji wa persona uliopanuliwa. Lengo la muda mrefu ni kupanua kile ambacho kiolesura cha sauti kinaweza kuwa: si tu chenye kuitikia, bali pia chenye ufahamu wa muktadha na chenye uwezo wa kubadilika katika mazungumzo.
“Mpaka unaofuata,” anasema Quinten, “ni kujenga mawakala wa sauti ambao si tu wanaoitikia, bali ni wa kweli wa aina nyingi, wenye uwezo wa kuunganisha sauti, maono, na muktadha katika mfumo mmoja unaoweza kuelekezwa.”


