Ինչպես է Tolan-ը կառուցում ձայնային-առաջնահերթ ԱԲ՝ GPT‑5.1‑ով

GPT‑5.1‑ի միջոցով, Tolan-ը ստեղծել է ձայնային հավելված, որը օպտիմալացված է ցածր հապաղման, ճշգրիտ համատեքստի և կայուն անհատականությունների համար՝ զրույցների զարգացման ընթացքում։

Բեռնվում է…

Tolan-ը⁠(բացվում է նոր պատուհանում) ձայնային-առաջին ԱԲ ուղեկից է, որտեղ մարդիկ զրուցում են անհատականացված, անիմացիոն կերպարի հետ, որը սովորում է զրույցներից ժամանակի ընթացքում։

Portola-ի կողմից ստեղծված՝ փորձառու թիմի կողմից, որն արդեն ունեցել է հաջող ելք, հավելվածը նախատեսված է շարունակական, բաց ավարտով երկխոսության համար՝ այլ ոչ թե արագ հարցումների և պատասխանների։ «Մենք տեսանք ChatGPT‑ի վերելքը և հասկացանք, որ ձայնը հաջորդ սահմանն է», ասում է Portola-ի համահիմնադիր և գործադիր տնօրեն Քուինթեն Ֆարմերը։ «Բայց ձայնը ավելի բարդ է։ Դուք պարզապես չեք արձագանքում մուտքագրված հարցումներին, այլ վարում եք կենդանի, անկանոն ընթացքով զրույց։

Ձայնային ԱԲ-ը բարձրացնում է հապաղման և համատեքստի կառավարման նշաձողը, բայց այն նաև հնարավորություն է տալիս ավելի բաց ավարտով և հետազոտական փոխազդեցություններ, քան տեքստը։

Քանի որ հիմնարար մոդելները դառնում են ավելի արագ, ավելի էժան և ավելի կարողունակ, թիմը կենտրոնացրեց իր ջանքերը երկու հիմնական լծակների վրա՝ հիշողության և կերպարի դիզայնի վրա։ Portola-ն ստեղծեց կերպարների վրա հիմնված տիեզերք, որը ձևավորվել է մրցանակակիր անիմատորների և գիտաֆանտաստիկայի գրողի կողմից՝ օգտագործելով իրական ժամանակում համատեքստի կառավարման համակարգ՝ խոսակցությունների ընթացքում անհատականությունն ու հիշողությունը հետևողական պահելու համար։

GPT‑5.1 մոդելների թողարկումը նշանավորեց շրջադարձային պահ՝ ապահովելով կառավարելիության և հապաղման զգալի բարելավումներ, որոնք այդ բաղադրիչները միավորեցին՝ բացելով ավելի արագ արձագանքող և ներգրավող ձայնային փորձառություն։

“GPT-5.1-ը մեզ հնարավորություն տվեց վերջապես արտահայտելու այն կերպարները, որոնք մտքում ունեինք։ Դա պարզապես ավելի խելացի չէր՝ այն ավելի հավատարիմ էր այն տոնին և անհատականությանը, որը մենք ցանկանում էինք ստեղծել։

—Քուինթեն Ֆարմեր, Portola-ի Գործադիր տնօրեն

Բնական ձայնային փոխազդեցությունների համար նախագծում

Tolan-ի ճարտարապետությունը ձևավորվում է ձայնի պահանջների համաձայն։ Ձայնային օգտատերերը ակնկալում են անմիջական և բնական արձագանքներ, նույնիսկ երբ խոսակցությունները փոխվում են ընթացքի մեջ։ Tolan-ը պետք է արագ արձագանքեր, հետևեր փոփոխվող թեմաներին և պահպաներ հետևողական անհատականություն՝ առանց ուշացման կամ տոնային շեղման։

Բնական թվալու համար, զրույցները պահանջում էին գրեթե ակնթարթային հապաղում։ Ներկայացնում ենք OpenAI GPT‑5.1‑ը և Պատասխանների API-ն, որոնք կրճատում են խոսքի մեկնարկի ժամանակը ավելի քան 0.7 վայրկյան՝ բավական, որպեսզի նկատելիորեն բարելավվի զրույցի հոսքը։

Նույնքան կարևոր էր նաև այն, թե ինչպես էր համակարգը մշակում համատեքստը։ Ի տարբերություն շատ ագենտների, որոնք մի քանի հերթափոխերի ընթացքում պահպանում են հարցումները, Tolan-ը յուրաքանչյուր հերթափոխի համար իր համատեքստի պատուհանը վերակառուցում է զրոյից։ Յուրաքանչյուր համատեքստի վերակառուցում ներառում է վերջին հաղորդագրությունների ամփոփում, անձի քարտ, վեկտորային որոնմամբ ստացված հիշողություններ, տոնի ուղեցույց և հավելվածի իրական ժամանակի ազդանշաններ։ Այս ճարտարապետությունը թույլ է տալիս Tolan-ին իրական ժամանակում հարմարվել թեմայի կտրուկ փոփոխություններին, ինչը կարևոր պահանջ է բնական ձայնային փոխազդեցության համար։

«Մենք արագ հասկացանք, որ քեշավորված հարցումները պարզապես չեն բավարարում», - ասում է Քուինթենը: «Օգտատերերը անընդհատ փոխում են թեմաները»։ Անխափան լինելու համար համակարգը պետք է հարմարվեր ընթացքի մեջ»։

Այս իրական ժամանակում վերակառուցման մոտեցումը և՛ տեխնիկապես բարդ է, և՛ հիմնարար է Tolan-ի հաջողության համար։

Tolan-ի խոսակցական ցիկլը ցուցադրող հոսքի դիագրամ։ «Վերահաշվարկել կերպարը» քայլը ներառում է չորս մուտք՝ զրույցի ամփոփում և վերջին հում հաղորդագրություններ, օգտատիրոջ և Tolan-ի կերպարնաներ, ինչպես նաև այլ համատեքստ, հիշողություն և տոն։ Այս մուտքերը համակցվում են՝ Tolan-ի պատասխան ստեղծելու համար, որը հանգեցնում է օգտատիրոջ պատասխանին։ Այնուհետև օգտատիրոջ պատասխանը խթանում է երկու զուգահեռ գործընթաց՝ թարմացված տոնի ածանցում և հիշողությունների արդյունահանում։ Քաղված հիշողությունները թարմացնում են հիշողությունը, թարմացված տոնը հետադարձ կապով ազդում է տոնի վրա, իսկ զրույցների պատմությունը պարբերաբար վերաամփոփվում և սեղմվում է՝ կրկին ներառվելով չաթի ամփոփման մեջ հաջորդ հերթափոխի համար։

Կառուցել հիշողություն և անհատականություն, որոնք ժամանակի ընթացքում միասնական են մնում

Համատեքստի կառավարումը կարևոր է, բայց դա բավարար չէր, որպեսզի խոսակցությունները ժամանակի ընթացքում համահունչ մնային։ Երկար, ոչ գծային խոսակցություններին աջակցելու համար Tolan-ը ստեղծեց հիշողության համակարգ, որը պահպանում է ոչ միայն փաստերն ու նախընտրությունները, այլ նաև հուզական «վայբ» ազդանշանները՝ հուշումներ, որոնք օգնում են որոշել, թե ինչպես պետք է Tolan-ը արձագանքի։

Հիշողությունները ներդրվում են OpenAI text-embedding-3-large մոդելի միջոցով և պահվում են Turbopuffer բարձր արագությամբ վեկտորային տվյալների բազայում, որը հնարավորություն է տալիս 50 միլիվայրկյանից պակաս որոնման ժամանակներ։ Այս արագությունը կարևոր է իրական ժամանակի ձայնային փոխազդեցությունների համար։ Յուրաքանչյուր հերթափոխի ընթացքում Tolan-ը օգտագործում է օգտատիրոջ վերջին հաղորդագրությունը և համակարգի կողմից սինթեզված հարցերը (օրինակ՝ «Օգտատերը ում է ամուսնացած՞»)՝ հիշողության վերականգնումը գործարկելու համար։ Հիշողության որակը բարձր պահելու համար Tolan-ը ամեն գիշեր գործարկում է սեղմման առաջադրանք, որը հեռացնում է ցածր արժեք ունեցող կամ կրկնվող գրառումները (օրինակ՝ «օգտատերը այսօր սուրճ խմեց») և հակասությունները լուծում է։

Անհատականությունը նույնպես նույնքան ուշադիր է կառավարվում։ Յուրաքանչյուր Tolan-ի համար ստեղծվում է առանձնահատուկ կերպարի կառուցվածքային հիմք, որը հեղինակել է թիմի ներքին գիտաֆանտաստիկ գրողը և կատարելագործել վարքագծային հետազոտողը։ Այս սերմերը Tolan-ներին տալիս են հետևողականություն, բայց նաև ճկունություն՝ ժամանակի ընթացքում հարմարվելու և զարգանալու՝ օգտատիրոջ հետ զուգընթաց։

Զուգահեռ համակարգը հետևում է խոսակցության զգացմունքային տոնին և դինամիկ կերպով հարմարեցնում է Տոլանի մատուցումը։ Սա թույլ է տալիս Tolan-ին օգտատիրոջ հուշումներից կախված անխափան անցնել խաղայինից դեպի հիմնավորված՝ առանց կորցնելու իր հիմնական անհատականությունը։

GPT‑5.1‑ին անցումը շրջադարձային պահ էր։ Հանկարծ, շերտավորված հարցումների հրահանգները՝ տոնի հենակառույցներ, հիշողության ներարկումներ, կերպարի գծեր, ավելի հավատարմորեն էին կատարվում։ Հարցումները, որոնք նախկինում պահանջում էին շրջանցումներ, սկսեցին գործել ինչպես նախատեսված էր։

«Առաջին անգամ մեր ներքին փորձագետները զգացին, որ մոդելն իսկապես լսում է», - ասում է Քուինթենը: «Հրահանգները պահպանվում էին երկար զրույցների ընթացքում, կերպարի գծերը հարգվում էին, և մենք նկատեցինք շատ ավելի քիչ շեղում»:

Այդ փոփոխությունները հանգեցրին ավելի հետևողական և հավատալի անհատականության, ինչը իր հերթին ստեղծեց ավելի հետաքրքիր օգտատիրոջ փորձառություն։ Tolan թիմը տեսավ հստակ, չափելի բարելավումներ. հիշողության վերականգնման բացթողումները նվազեցին 30%-ով (հիմնված՝ արտադրանքի ներսում հիասթափության ազդանշանների վրա), իսկ հաջորդ օրվա օգտատերերի պահպանումը աճեց ավելի քան 20%-ով GPT‑5.1‑ի միջոցով։ Կերպարները գործարկվեցին։

Հոսքի դիագրամ, որը ցույց է տալիս, թե ինչպես է Tolan-ը զրույցի ընթացքում հիշողությունները հետ բերում և կատարելագործում։ Օգտատիրոջ հաղորդագրությունը («Ես այնքան ոգևորված եմ այս հանգստյան օրերին իմ ուղևորության համար») առաջացնում է քայլ, որը սինթեզում է հետագա հարցեր, օրինակ՝ առաջիկա ուղևորությունների, կոնկրետ շաբաթվա պլանների և օգտատիրոջ նախընտրությունների վերաբերյալ։ Այս հարցերը ներդրվում են և օգտագործվում են հիշողության վեկտորային տվյալների բազայում հարցումներ կատարելու համար, իսկ արդյունքները միավորվում են միջին փոխադարձ վարկանիշի միջոցով։ Ստացված համատեքստը տեղեկացնում է Tolan-ի պատասխանը («Սթիվենի հետ ճամբարելը Յոսեմիթում»)։ Օգտատիրոջ ավելի ուշ հաղորդագրությունը Իսլանդիա ապագա ուղևորության մասին պահվում է որպես նոր հիշողություն, ապա դրա շուրջ կատարվում է անդրադարձ, այն խմբավորվում է հարակից հիշողությունների հետ՝ ներդրումային հիմքով k-մոտակա հարևանների մեթոդով, և սեղմվում է՝ յուրաքանչյուր կլաստերի ներսում հիշողությունները համադրելով, խմբագրելով և կատարելագործելով։

Tolan-ի հիմնական սկզբունքները բնական ձայնային գործակալներ ստեղծելու համար

Քանի որ Tolan-ը զարգացավ, ձևավորվեցին մի քանի սկզբունքներ, որոնք այժմ ուղղորդում են, թե ինչպես է թիմը կառուցում և զարգացնում իր ձայնային ճարտարապետությունը:

Նախագծում խոսակցական անկայունության համար՝ ձայնային զրույցները փոխվում են նախադասության կեսին։ Համակարգերը պետք է նույնքան արագ հարմարվեն, որպեսզի բնական թվան։
Լատենտությունը դիտարկեք որպես պրոդուկտի փորձի մաս. Ենթավայրկյանային արձագանքողականությունը որոշում է՝ արդյոք ձայնային ագենտը կընկալվի որպես զրույցային, թե մեխանիկական։
Կառուցեք հիշողությունը որպես վերականգնման համակարգ, ոչ թե տառադարձություն. Բարձրորակ սեղմումն ու արագ վեկտորային որոնումը ապահովում են ավելի կայուն անհատականություն, քան չափազանց մեծ համատեքստային պատուհանները։
Վերակառուցեք համատեքստը յուրաքանչյուր հերթափոխում. Մի պայքարեք շեղման դեմ ավելի մեծ հարցումներով։ Յուրաքանչյուր հերթափոխում համատեքստի վերականգնումը պահպանում է գործակալների հիմնավորվածությունը, երբ խոսակցությունները շեղվում են։

Այս դասերը միասին հիմք են հանդիսանում Tolan-ի նորարարության հաջորդ փուլի համար և ուղղություն են սահմանում, թե ուր է շարժվում ձայնային ԱԲ-ը։

Ձայնային ԱԲ-ի միջոցով հնարավորությունների ընդլայնում

2025 թվականի փետրվարին գործարկումից ի վեր, Tolan-ը աճել է՝ ունենալով ավելի քան 200,000 ամսական ակտիվ օգտատերեր։ 4.8 աստղանի գնահատականը և ավելի քան 100,000 ակնարկները App Store-ում ընդգծում են, թե որքան լավ է համակարգը պահպանում հետևողականությունը երկար, փոփոխվող զրույցների ընթացքում։ Մեկ գրախոս նշել է. «Նրանք հիշում են այն բաները, որոնց մասին խոսել ենք երկու օր առաջ, և դրանք կրկին բերում են մեր այսօրվա զրույցի մեջ»։

Այս ազդանշանները ուղղակիորեն համապատասխանում են հիմքում ընկած ճարտարապետությանը՝ ցածր ուշացմամբ մոդելի կանչեր, հերթական համատեքստի վերակառուցում և մոդուլային հիշողության ու անձնային համակարգեր։ Միասին դրանք թույլ են տալիս Tolan-ին հետևել թեմաների փոփոխություններին, պահպանել տոնը և պատասխանները հիմնավորված պահել՝ առանց մեծ, փխրուն հարցումների վրա հենվելու։

Նայելով առաջ, Tolan-ը նախատեսում է խորացնել իր ներդրումները կառավարելիության և հիշողության կատարելագործման մեջ՝ կենտրոնացնելով իր ջանքերը խստացված սեղմման, բարելավված որոնման տրամաբանության և ընդլայնված անձնային կարգաբերման վրա։ Երկարաժամկետ նպատակը ձայնային ինտերֆեյսի հնարավորությունները ընդլայնելն է՝ այն դարձնելով ոչ միայն արձագանքող, այլև համատեքստին տեղյակ և խոսակցականորեն դինամիկ։

«Հաջորդ սահմանը», ասում է Քուինթենը, «ձայնային գործակալներ կառուցելն է, որոնք ոչ միայն արձագանքող են, այլև իսկապես բազմամոդալ՝ կարողանալով ձայնը, տեսողությունը և համատեքստը միավորել մեկ՝ կառավարվող համակարգում»։

Շարունակել կարդալ

Դիտել բոլորը

Warp-ի մեծ խաղադրույքը GPT-5.5-ով բաց կոդ ստեղծելու վրա

Ստարտափ27 մյս, 2026 թ.

Parloa builds service agents customers want to talk to

Ստարտափ7 մյս, 2026 թ.

Gradient Labs-ը ամեն բանկային հաճախորդի տալիս է AI հաշվի մենեջեր

Ստարտափ1 ապր, 2026 թ.