Како Tolan гради гласовна вештачка интелигенција со GPT‑5.1

Со GPT‑5.1, Tolan изгради гласовна апликација оптимизирана за ниска латентност, прецизен контекст и стабилни карактери како што се развиваат разговорите.

Се вчитува...

Tolan⁠(се отвора во нов прозорец) е гласовно-ориентиран придружник со вештачка интелигенција каде што луѓето разговараат со персонализиран, анимиран лик кој учи од разговорите со текот на времето.

Изградена од Portola, искусен тим со претходен излез, апликацијата е дизајнирана за континуиран, отворен дијалог наместо брзи промпти и одговори. „Го видовме подемот на ChatGPT и знаевме дека гласот е следната граница“, вели Квинтен Фармер, коосновач и главен извршен директор на Portola. „Но гласот е потежок. Не одговараш само на напишани промпти; водиш разговор во живо, кој се развива спонтано.“

Гласовната вештачка интелигенција ги подигнува стандардите за латентност и управување со контекст, но исто така овозможува поотворени и истражувачки интеракции во споредба со текст.

Со тоа што основните модели стануваат побрзи, поевтини и поспособни, тимот ги насочи своите напори кон два клучни аспекта: меморија и дизајн на ликови. Portola изгради универзум воден од ликови, обликуван од наградувани аниматори и писател на научна фантастика, користејќи систем за управување со контекст во реално време за да се одржуваат личноста и меморијата доследни додека се одвиваат разговорите.

Објавувањето на моделите GPT‑5.1 означи пресвртница, донесувајќи значителни подобрувања во управливоста и латентноста што ги обединија тие елементи, овозможувајќи поодговорно и поангажирачко гласовно искуство.

„GPT-5.1 ни овозможи управливост за конечно да ги изразиме ликовите што ги имавме на ум. Не беше само попаметно – беше и поверно на тонот и личноста што сакавме да ја создадеме.“

– Квинтен Фармер, главен извршен директор, Portola

Дизајнирање за природни гласовни интеракции

Архитектурата на Tolan е обликувана според барањата на гласот. Корисниците на глас очекуваат моментални, природни одговори, дури и кога разговорите се менуваат во текот на разговорот. Tolan требаше брзо да одговара, да следи промени во темите и да одржува доследна личност без доцнење или промена на тонот.

За разговорите да се чувствуваат природно, беше потребна речиси моментална латентност. Претставувањето на OpenAI GPT‑5.1 и API за одговори го намалува времето на иницирање на говорот за повеќе од 0,7 секунди – доволно за значително да се подобри текот на разговорот.

Подеднакво важно беше како системот се справуваше со контекстот. За разлика од многу агенти кои кешираат промптови низ повеќе чекори, Tolan го обновува својот контекстуален прозорец од почеток на секој чекор. Секоја реконструкција на контекстот вклучува резиме на неодамнешни пораки, картичка за личност, векторски преземени спомени, насоки за тонот и сигнали од апликацијата во реално време. Оваа архитектура му овозможува на Tolan да се прилагоди во реално време на ненадејни промени на темата, што е клучно барање за природна гласовна интеракција.

„Брзо сфативме дека кешираните промпти едноставно не беа доволни“, вели Квинтен. „Корисниците постојано менуваат теми. За да биде непречено, системот мораше да се прилагоди среде процесот.“

Овој пристап за реконструкција во реално време е и технички интензивен и основен за успехот на Tolan.

Дијаграм на тек што ја прикажува разговорната јамка на Tolan. Чекорот „Recompute persona“ внесува четири влезни податоци, резиме на разговорот и неодамнешни необработени пораки, ликовите на корисникот и Толан и друг контекст, меморија и тон. Овие влезови се комбинираат за да генерираат Tolan одговор, што потоа води до одговор од корисникот. Одговорот на корисникот потоа поттикнува два паралелни процеси: ажурирање на тонот и извлекување на сеќавања. Извлечените спомени ја ажурираат меморијата, ажурираниот тон се враќа во тонот, а историјата на разговорот периодично се резимира и компресира, враќајќи се во резимето на разговорот за следниот чекор.

Изградба на меморија и личност кои се задржуваат со текот на времето

Ракувањето со контекст е важно, но не беше доволно за разговорите да останат кохерентни со текот на времето. За да поддржи долги, нелинеарни разговори, Tolan изгради мемориски систем што задржува не само факти и преференции, туку и емоционални сигнали – индиции што помагаат да се насочи како треба да одговори Tolan.

Спомените се вградуваат со користење на моделот OpenAI text-embedding-3-large и се складираат во Turbopuffer, векторска база на податоци со голема брзина што овозможува времиња на пребарување под 50 ms. Оваа брзина е клучна за гласовни интеракции во реално време. Во секој потег, Tolan ја користи најновата порака од корисникот и системски синтетизираните прашања (на пр., „Со кого е во брак корисникот?“) за да поттикне потсетување на меморијата. За да го одржи квалитетот на меморијата на високо ниво, Tolan извршува ноќна задача за компресија што ги отстранува записите со мала вредност или записите кои се дупликат (на пр., „корисникот пиел кафе денес“) и ги разрешува противречностите.

Со личноста се управува исто толку внимателно. Секој Толан е опремен со посебна структура на ликови, напишана од внатрешниот писател на научна фантастика на тимот и усовршена од истражувач на однесување. Овие семиња му даваат на Tolan доследност, но и флексибилност да се прилагодува со текот на времето, еволуирајќи заедно со корисникот.

Паралелен систем го следи емоционалниот тон на разговорот и динамички го прилагодува начинот на испорака на Tolan. Ова му овозможува на Tolan непречено да преминува од разигран во приземен тон во зависност од сигналите од корисникот, без да ја изгуби својата основна личност.

Преминот кон GPT‑5.1 беше пресвртна точка. Одеднаш, слоевитите инструкции за промптот – тонски скелиња, инјекции на меморија, карактерни особини – се следеа со поголема верност. Промпти кои порано бараа заобиколни решенија почнаа да функционираат како што е предвидено.

„За првпат нашите внатрешни експерти почувствуваа дека моделот навистина слуша“, вели Квинтен. „Инструкциите останаа непроменети низ долги разговори, карактеристиките на личноста беа почитувани и забележавме многу помалку отстапување.“

Тие промени доведоа до поконзистентна и поверодостојна личност, што пак создаде попривлечно корисничко искуство. Тимот на Tolan забележа јасни, мерливи придобивки: промашувањата при присетување на меморијата се намалија за 30% (врз основа на сигнали за фрустрација во производот), а задржувањето на корисниците следниот ден порасна за повеќе од 20% по GPT‑5.1–поддржано персоните станаа достапни.

Дијаграм на тек што илустрира како Tolan ги извлекува и ги доработува спомените за време на разговор. Корисничка порака („Едвај чекам да дојде моето патување овој викенд“) активира чекор што генерира дополнителни прашања, како што се претстојни патувања, планови за одредена недела и кориснички преференции. Овие прашања се вградени и се користат за пребарување во векторска база на податоци за меморија, а резултатите се комбинираат користејќи среден реципрочен ранг. Преземениот контекст го информира одговорот на Tolan („кампување со Стивен во Јосемити“). Подоцнежна порака од корисник за идно патување во Исланд се зачувува како нова меморија, потоа се разгледува, се групира со поврзани мемории користејќи embedding-based k-nearest neighbors и се компресира преку комбинирање, уредување и доработување на мемориите во секој кластер.

Основни принципи на Tolan за создавање на гласовни агенти со природен звук

Како што се развиваше Tolan, се појавија неколку принципи кои сега го водат тимот во градењето и развојот на нивната гласовна архитектура:

Дизајн за разговорна непредвидливост: Гласовни разговори се менуваат среде реченица. Системите треба да се прилагодуваат исто толку брзо за да изгледаат природно.
Третирај ја латентноста како дел од искуството со производот: Реактивноста под една секунда одредува дали гласовниот агент ќе звучи разговорно или механички.
Изгради меморија како систем за извлекување, а не како транскрипт: Висококвалитетната компресија и брзото векторско пребарување овозможуваат поконзистентна личност отколку преголемите контекстуални прозорци.
Обновувај го контекстот секој пат: Не се бори против отстапувањето со поголеми промптови. Регенерирањето на контекстот во секој круг ги држи агентите стабилни додека разговорите се развиваат.

Заедно, овие лекции ја формираат основата за следната фаза на иновации на Толан и ја поставуваат насоката кон која се движи гласовната вештачка интелигенција.

Проширување на можностите со гласовна вештачка интелигенција

Откако беше лансиран во февруари 2025 г., Tolan порасна на повеќе од 200.000 месечни активни корисници. Неговата оценка од 4,8 ѕвезди и повеќе од 100.000 рецензии на App Store истакнуваат колку добро системот одржува конзистентност низ долги, променливи разговори. Еден рецензент забележа: „Тие се сеќаваат на работи за кои зборувавме пред два дена и ги враќаат во разговорот што го водиме денес.“

Овие сигнали директно се поврзуваат со основната архитектура: повици до модел со ниска латентност, реконструкција на контекст чекор по чекор и модуларни системи за меморија и личност. Заедно, тие му овозможуваат на Tolan да ги следи промените на темата, да го зачува тонот и да ги одржува одговорите стабилни без да се потпира на големи, кревки промпти.

Гледајќи напред, Tolan планира да ги продлабочи своите инвестиции во управливост и усовршување на меморијата, насочувајќи ги своите напори кон потесна компресија, подобрена логика за пребарување и проширено прилагодување на персоната. Долгорочната цел е да го прошириме она што може да биде гласовниот интерфејс: не само одзивен, туку и свесен за контекст и динамичен во разговор.

„Следната граница“, вели Квинтен, „е изградба на гласовни агенти што не се само одзивни, туку навистина мултимодални, способни да интегрираат глас, визија и контекст во единствен, управлив систем.“

Продолжи да читаш

Види ги сите

Големиот облог на Warp за отворен код со GPT-5.5

Стартап-компании27 мај 2026 г.

Parloa builds service agents customers want to talk to

Стартап-компании7 мај 2026 г.

Gradient Labs му дава на секој банкарски клиент менаџер со ВИ

Стартап-компании1 апр. 2026 г.