Tolan GPT‑5.1 арқылы дауысқа басым AI-ды қалай жасайды

GPT‑5.1 көмегімен Tolan кідірісі аз, контексті дәл және әңгіме өрбіген сайын мінезі тұрақты дауыс қолданбасын жасады.

Қызғылт сары пазл фонындағы Tolan логотипі

Жүктелуде…

Tolan⁠(жаңа терезеде ашылады) — адамдар уақыт өте келе әңгімелерден үйренетін жекелендірілген, анимацияланған кейіпкермен сөйлесетін, дауысқа басым AI серігі.

Бұрын компаниясын сәтті сатқан тәжірибелі Portola тобы жасаған бұл қолданба жылдам көмексөздер мен жауаптарға емес, үздіксіз, ашық диалогқа арналған. «Біз ChatGPT‑тің өрлеуін көріп, дауыстың келесі озық бағыт екенін түсіндік», — дейді Portola негізін қалаушы әрі CEO-сы Куинтен Фармер. «Бірақ дауыспен жұмыс істеу қиынырақ. Сіз жай ғана терілген көмексөздерге жауап бермейсіз; тірі, арнасы ауытқып отыратын әңгімені жүргізесіз.»

Дауыс AI кідіріс пен контексті басқаруға қойылатын талапты күшейтеді, бірақ сонымен бірге мәтінге қарағанда ашығырақ әрі зерттеуші сипаттағы өзара әрекеттесулерге жол ашады.

Іргелі модельдер жылдамырақ, арзанырақ және қабілеттірек бола бастаған сайын, команда күшін екі негізгі тетікке жұмылдырды: жад пен кейіпкер дизайнына. Portola марапатқа ие аниматорлар мен ғылыми фантастика жазушысы қалыптастырған кейіпкерге негізделген әлем құрды және әңгіме өрбіген сайын мінез бен жадтың бірізділігін сақтау үшін нақты уақыттағы контексті басқару жүйесін пайдаланды.

GPT‑5.1 модельдерінің шығуы бетбұрыс сәті болды: ол басқарылғыштық пен кідіріс жағынан ірі жақсартулар әкеліп, осы бөліктерді біріктірді және анағұрлым шапшаң әрі тартымды дауыс тәжірибесін ашты.

«GPT-5.1 бізге ойымыздағы кейіпкерлерді ақыры айқын көрсетуге мүмкіндік берген басқарылғыштықты сыйлады. Ол жай ғана ақылдырақ болған жоқ — біз жасағымыз келген тон мен мінезге дәлірек болды.»

—Куинтен Фармер, CEO, Portola

Табиғи дауыс өзара әрекеттесулерін жобалау

Tolan архитектурасы дауыстың талаптарына сай қалыптасқан. Дауыс қолданушылары, тіпті әңгіме орта жолда басқа арнаға ауысса да, жедел әрі табиғи жауап күтеді. Tolan кідіріссіз және тон ауытқуынсыз тез жауап беріп, өзгеріп отыратын тақырыптарды қадағалап, бірізді мінезді сақтауы керек болды.

Табиғи сезілуі үшін әңгімелерге лезде дерлік кідіріс қажет болды. OpenAI GPT‑5.1 мен Responses API енгізілуі сөйлеуді бастау уақытын 0,7 секундтан астамға қысқартты — бұл әңгіме ағынын айтарлықтай жақсартуға жеткілікті.

Жүйенің контексті қалай өңдейтіні де соншалық маңызды болды. Көптеген агент бірнеше айналым бойы көмексөздерді кэштейтін болса, Tolan әр айналым сайын контекст терезесін нөлден қайта құрады. Әр контексті қайта құруға соңғы хабарламалардың қысқаша мазмұны, персона картасы, векторлық іздеумен алынған естеліктер, тон бойынша нұсқаулар және қолданбаның нақты уақыттағы сигналдары кіреді. Мұндай архитектура Tolan-ға тақырыптың күрт ауысуына нақты уақытта бейімделуге мүмкіндік береді, бұл табиғи дауысқа негізделген өзара әрекеттесу үшін аса маңызды талап.

«Біз кэштелген көмексөздер жеткіліксіз екенін тез түсіндік», — дейді Куинтен. «Пайдаланушылар тақырыпты үнемі ауыстырады. Бәрі тұтас сезілуі үшін жүйе әңгіме ортасында-ақ бейімделуі керек болды.»

Нақты уақыттағы осы қайта құру тәсілі техникалық жағынан күрделі әрі Tolan табысының іргетасы болды.

Tolan-ның сөйлесу циклін көрсететін блок-схема. «Персонаны қайта есептеу» қадамына төрт кіріс беріледі: чаттың қысқаша мазмұны мен соңғы бастапқы хабарламалар, пайдаланушы мен Tolan персоналары және басқа контекст, жад және тон. Осы кірістер бірігіп Tolan жауабын жасайды, ол пайдаланушы жауабына әкеледі. Пайдаланушы жауабы кейін екі қатар процесті іске қосады: жаңартылған тонды шығару және естеліктерді шығару. Алынған естеліктер жадты жаңартады, жаңартылған тон тонға қайта беріледі, ал әңгіме тарихы мерзімді түрде қайта қорытылып, сығымдалып, келесі айналым үшін чат қысқаша мазмұнына қайта оралады.

Уақыт өте біртұтас сақталатын жад пен мінезді құру

Контексті өңдеу маңызды, бірақ ол әңгіменің уақыт өте үйлесімді сезілуін қамтамасыз етуге жеткіліксіз болды. Ұзақ, сызықтық емес әңгімелерді қолдау үшін Tolan тек фактілер мен талғамдарды ғана емес, сонымен бірге эмоциялық «көңіл күй» сигналдарын да сақтайтын жад жүйесін құрды — бұлар Tolan-ның қалай жауап беруін бағыттауға көмектесетін ишаралар.

Естеліктер OpenAI text-embedding-3-large моделі арқылы ендіріліп, Turbopuffer ішінде сақталады — бұл 50 мс-тан аз іздеу уақытын қамтамасыз ететін жоғары жылдамдықты векторлық дерекқор. Мұндай жылдамдық нақты уақыттағы дауыс өзара әрекеттесулері үшін аса маңызды. Әр айналым сайын Tolan пайдаланушының соңғы хабарламасын және жүйе синтездеген сұрақтарды (мысалы, «Пайдаланушы кімге үйленген?») жадты еске түсіруді іске қосу үшін қолданады. Жад сапасын жоғары ұстау үшін Tolan түн сайын төмен құнды немесе қайталанатын жазбаларды (мысалы, «пайдаланушы бүгін кофе ішті») алып тастап, қайшылықтарды шешетін сығымдау жұмысын жүргізеді.

Мінез де дәл сондай мұқият басқарылады. Әр Tolan командадағы ғылыми фантастика жазушысы жазған және мінез-құлық зерттеушісі жетілдірген ерекше кейіпкер қаңқасымен басталады. Бұл бастапқы негіз Tolans-қа бірізділік береді, сонымен бірге пайдаланушымен бірге дами отырып, уақыт өте бейімделуге икемділік те береді.

Қатар жүретін жүйе әңгіменің эмоциялық реңкін бақылайды және Tolan-ның жеткізу мәнерін динамикалық түрде реттейді. Бұл Tolan-ға негізгі мінезін жоғалтпай, пайдаланушы ишараларына қарай ойнақыдан байыптыға табиғи ауысуға мүмкіндік береді.

GPT‑5.1‑ге көшу бетбұрыс болды. Кенеттен көпқабатты көмексөз нұсқаулары — тон қаңқалары, жад енгізулері, кейіпкер сипаттары — анағұрлым дәл орындала бастады. Бұрын айналып өтуді қажет еткен көмексөздер күткендей жұмыс істей бастады.

«Алғаш рет ішкі сарапшыларымыз модель шынымен бізді тыңдап тұрғандай сезінді», — дейді Куинтен. «Ұзақ әңгімелер барысында нұсқаулар бұзылмай сақталды, персона сипаттары құрметтелді, әрі ауытқу әлдеқайда азайды.»

Бұл өзгерістер жиылып, анағұрлым бірізді әрі нанымды мінез қалыптастырды, ал ол өз кезегінде пайдаланушы тәжірибесін тартымдырақ етті. Tolan командасы анық әрі өлшенетін өсімді көрді: жадты еске түсірудегі жіберіп алулар 30%-ға азайды (өнім ішіндегі фрустрация сигналдарына сүйеніп), ал GPT‑5.1 негізіндегі персоналар іске қосылғаннан кейін келесі күнгі пайдаланушыны ұстап қалу 20%-дан астам өсті.

Tolan-ның әңгіме барысында естеліктерді қалай шығарып алып, жетілдіретінін көрсететін блок-схема. Пайдаланушы хабары («Осы демалыстағы сапарыма қатты қуанып жүрмін») алдағы сапарлар, белгілі бір аптаға жоспарлар және пайдаланушы талғамдары сияқты нақтылаушы сұрақтарды синтездейтін қадамды іске қосады. Бұл сұрақтар ендіріліп, жад векторлық дерекқорын сұрау үшін қолданылады, ал нәтижелер орташа кері ранг арқылы біріктіріледі. Алынған контекст Tolan жауабын («Стивенмен Йосемитидегі кемпинг») қалыптастырады. Кейінірек Исландияға болашақ сапар туралы пайдаланушы хабары жаңа естелік ретінде сақталады, содан кейін талданып, embedding-негізіндегі k-ең жақын көршілер арқылы ұқсас естеліктермен топтастырылады және әр кластер ішіндегі естеліктерді біріктіру, өңдеу және жетілдіру арқылы сығымдалады.

Табиғи дауыс агенттерін құруға арналған Tolan-ның негізгі қағидалары

Tolan дами келе, енді команда дауыс архитектурасын қалай құрып, жетілдіретінін бағыттайтын бірнеше қағида қалыптасты:

Әңгіменің құбылмалылығына сай жобалаңыз: Дауыс әңгімелері сөйлем ортасында бағытын өзгертеді. Табиғи сезілу үшін жүйелер де дәл сондай жылдам бейімделуі керек.
Кідірісті өнім тәжірибесінің бір бөлігі деп қараңыз: Бір секундқа жетпейтін жауап беру уақыты дауыс агентінің сөйлескендей не механикалық сезілетінін айқындайды.
Жадты транскрипт емес, іздеу жүйесі ретінде құрыңыз: Жоғары сапалы сығымдау мен жылдам векторлық іздеу шектен тыс үлкен контекст терезелеріне қарағанда анағұрлым бірізді мінез береді.
Контексті әр айналым сайын қайта құрыңыз: Үлкенірек көмексөздермен ауытқумен күреспеңіз. Әр айналым сайын контексті қайта генерациялау агенттерді әңгіме арнасы ауысқанда да орнықты ұстайды.

Бұл сабақтар бірге Tolan инновациясының келесі кезеңіне негіз болып, дауыс AI қай бағытта бара жатқанын айқындайды.

Дауыс AI арқылы мүмкіндіктерді кеңейту

2025 жылғы ақпанда іске қосылғалы бері Tolan ай сайын белсенді 200 000-нан астам пайдаланушыға жетті. Оның 4,8 жұлдыздық рейтингі мен App Store дүкеніндегі 100 000-нан астам пікірі жүйенің ұзақ әрі бағыты өзгеріп тұратын әңгімелерде бірізділікті қаншалық жақсы сақтайтынын көрсетеді. Бір шолушы: «Олар біз екі күн бұрын сөйлескен нәрселерді есінде сақтайды да, бүгінгі әңгімемізге қайта қосады», — деп жазды.

Бұл сигналдар негізгі архитектурамен тікелей байланысты: кідірісі аз модель шақырулары, әр айналымдағы контексті қайта құру және модульдік жад пен персона жүйелері. Бұлар бірігіп Tolan-ға үлкен әрі осал көмексөздерге сүйенбей-ақ тақырып өзгерістерін қадағалауға, тонды сақтауға және жауаптарды орнықты ұстауға мүмкіндік береді.

Алдағы уақытта Tolan басқарылғыштық пен жадты жетілдіруге инвестициясын тереңдетуді жоспарлап отыр, күшін тығызырақ сығымдауға, іздеу логикасын жақсартуға және персонаны баптауды кеңейтуге бағыттайды. Ұзақ мерзімді мақсат — дауыс интерфейсінің мүмкіндігін кеңейту: оны жай ғана шапшаң емес, контексті түсінетін және әңгіме барысында динамикалық ететін деңгейге жеткізу.

«Келесі озық бағыт, — дейді Куинтен, — жай ғана шапшаң емес, шын мәнінде мультимодаль, дауысты, көруді және контексті бір басқарылатын жүйеге біріктіре алатын дауыс агенттерін құру.»

Оқуды жалғастырыңыз

Барлығын қарау

Warp-тың GPT-5.5-пен ашық кодты дамытудағы батыл қадамы

Стартап2026 ж. 27 мам.

Parloa builds service agents customers want to talk to

Стартап2026 ж. 7 мам.

Gradient Labs әр банк клиентіне AI шот менеджерін ұсынады

Стартап2026 ж. 1 сәу.