Преминаване към основното съдържание
OpenAI

7 януари 2026 г.

Стартъп

Как Tolan изгражда гласов ИИ с GPT‑5.1

С GPT‑5.1, Tolan създаде гласово приложение, оптимизирано за ниска латентност, точен контекст и стабилни характеристики на личността, докато разговорите се развиват.

Tolan logo on orange jigsaw puzzle background
Зареждане…

Tolan(отваря се в нов прозорец) е гласов ИИ спътник, чрез който хората разговарят с персонализиран, анимиран персонаж, който се учи от разговорите с течение на времето. 

Създадено от Portola, опитен екип с предишен успешен изход на пазара, приложението е проектирано за продължителен, отворен диалог, а не за бързи подкани и отговори. „Видяхме възхода на ChatGPT и знаехме, че гласът е следващoто предизвикателство“, казва Куинтин Фармър, съосновател и главен изпълнителен директор на Portola „Но гласът е по-труден.“ „Вие не просто отговаряте на въведени подкани, а водите жив, лъкатушещ разговор.“

Гласовият ИИ повишава стандартите за забавяне и управление на контекста, но също така позволява по-отворено и проучващо общуване в сравнение с текста. 

С развитието на фундаменталните модел, които стават по-бързи, по-евтини и по-умели, екипът насочи усилията си към два ключови аспекта: паметта и дизайна на персонажите. Portola изгради вселена, водена от персонажи, която бе сътворена от награждавани аниматори и писател на научна фантастика, използвайки система за управление на контекста в реално време, за да поддържа последователност на личността и паметта, докато разговорите се развиват.

Пускането на моделите GPT‑5.1 отбеляза повратна точка, като внесе значителни подобрения в управляемостта и латентността, които обединиха тези елементи, отключвайки по-отзивчиво и ангажиращо гласово изживяване.

“GPT-5.1 ни предостави възможността за управление, за да можем най-накрая да създадем персонажите, които си представяхме. Не беше просто по-интелигентно решение, а отговаряше по-точно на тона и личностите, които искахме да създадем.“
—Куинтин Фармър, главен изпълнителен директор, Portola

Проектиране на естествена гласова комуникация

Архитектурата на Tolan е оформена от изискванията на гласовите команди. Потребителите на гласови услуги очакват незабавни и естествени отговори, дори когато разговорите се променят в хода си. Tolan трябва да отговаря бързо, да следи променящите се теми и да поддържа последователна личност без забавяне или отклонение в тона.

За да звучат естествено, разговорите изискваха почти мигновена латентност. Представяме OpenAI GPT‑5.1 и Responses API, които съкращават времето за иницииране на речта с над 0,7 секунди – достатъчно, за да подобрят забележимо плавността на разговора.

От също толкова критично значение е как системата се справя с контекста. За разлика от много агенти, които кешират подкани през няколко хода, Tolan възстановява контекстния си прозорец от нулата при всеки ход. Всяка реконструкция на контекста включва обобщение на последните съобщения, карта на персона, спомени, извлечени чрез вектори, насоки за тона и сигнали от приложението в реално време. Тази архитектура позволява на Tolan да се адаптира в реално време към внезапни промени в темата, което е основно изискване за естествено гласово взаимодействие.

„Бързо осъзнахме, че кешираните подкани просто не вършат работа“, казва Куинтин. „Потребителите постоянно сменят темите. За да бъде усещането плавно, системата трябваше да се адаптира в движение.“

Този подход за реконструкция в реално време е както технически сложен, така и основополагащ за успеха на Tolan.

Блок схема, показваща разговор на Tolan. Стъпка „Recompute persona“ подава четири входа: обобщение на чата и последните необработени съобщения, персони на потребителя и Tolan, както и друг контекст, памет и тон. Тези входни данни се комбинират, за да генерират отговор на Tolan, който води до отговор от потребителя. След това отговорът на потребителя задвижва два паралелни процеса: извеждане на актуализиран тон и извличане на спомени. Извлечените спомени актуализират паметта, актуализираният тон се обновява, а историята на разговора периодично се обобщава и компресира, като се връща в обобщението на чата за следващия ход.

Изграждане на памет и личностни черти, които се запазват във времето

Справянето с контекста е важно, но не е достатъчно, за да се запази последователността в разговорите с течение на времето. За да поддържа дълги и нелинейни разговори, Tolan изгражда система за памет, която запазва не само факти и предпочитания, но и емоционални „вибрации“ — сигнали, които помагат да се определи как трябва да отговори Tolan.

Спомените се вграждат с помощта на модела OpenAI text-embedding-3-large и се съхраняват в Turbopuffer, високоскоростна векторна база данни, която позволява времена за търсене под 50 милисекунди. Тази скорост е от съществено значение за гласови взаимодействия в реално време. При всеки ход Tolan използва най-новото съобщение на потребителя и синтезираните от системата въпроси (напр. „За кого е женен потребителят?“), за да задейства извикване на спомени. За да поддържа високо качество на паметта, Tolan изпълнява нощно компресиране, което премахва записи с ниска стойност или дублиращи се записи (напр. „Потребителят е пил кафе днес“ и разрешава противоречия.

Личността се управлява също толкова внимателно. Всеки Tolan е снабден с уникален скелет на персонаж, създаден от вътрешния научнофантастичен писател на екипа и усъвършенстван от изследовател на поведението. Тези семена придават на персонажите на Tolan последователност, но също така и гъвкавост да се адаптират с течение на времето, развивайки се заедно с потребителя. 

Паралелна система наблюдава емоционалния тон на разговора и динамично настройва представянето на Tolan. Това позволява на персонажът да преминава безпроблемно от игрив към сериозен в зависимост от сигналите на потребителя, без да губи основната си индивидуалност. 

Преходът към GPT‑5.1 беше повратна точка. Изведнъж, слоевете от инструкции за подкана – тонални рамки, инжекции на памет, черти на персонажа – започнаха да се следват по-точно. Подкани, които преди изискваха заобиколни решения, започнаха да функционират според очакванията. 

„За първи път нашите вътрешни експерти почувстваха, че моделът наистина слуша“, казва Куинтин. „Инструкциите останаха непокътнати в дълги разговори, чертите на персонажа бяха уважени и забелязахме значително по-малко отклонение.“

Тези промени доведоха до по-последователна и убедителна личност, което от своя страна създаде по-ангажиращо потребителско преживяване. Екипът на Tolan отчете ясни, измерими подобрения: пропуските при припомняне на информация намаляха с 30% (въз основа на сигнали за неудовлетвореност от продукта), а задържането на потребителите на следващия ден се повиши с повече от 20% след внедряването на персоните, активирани с GPT‑5.1.

Блок-схема, илюстрираща как Tolan извлича и прецизира спомени по време на разговор. Потребителско съобщение („Вълнувам се за пътуването си този уикенд“) задейства стъпка, която генерира последващи въпроси, като например за предстоящи пътувания, планове за конкретна седмица и предпочитания на потребителя. Тези въпроси са вградени и се използват за запитване към векторна база данни за памет, като резултатите се обединяват чрез средна реципрочна стойност. Извлеченият контекст информира отговора на Tolan („къмпинг със Стивън в Йосемити“). По-късно съобщение от потребител за предстоящо пътуване до Исландия се съхранява като нова памет, след което се анализира, групира със свързани спомени чрез най-близки съседи, базирани на вграждания, и се компресира чрез комбиниране, редактиране и прецизиране на спомените във всеки клъстер.

Основните принципи на Tolan за създаване на естествени гласови агенти. 

С развитието на Tolan се очертаха няколко принципа, които сега ръководят как екипът изгражда и развива своята архитектура на гласа:

  • Проектиране за променлив разговор: Гласови разговори се променят по средата на изречението. Системите трябва да се променят също толкова бързо, за да изглеждат естествени.
  • Третирайте забавянето като част от продуктовото изживяване: Реакция под една секунда определя дали гласовият агент звучи естествено или механично.
  • Изграждайте паметта като система за извличане, а не като стенограма: Висококачественото компресиране и бързото векторно търсене осигуряват по-последователна личност в сравнение с прекалено големите контекстни прозорци.
  • Изграждайте контекста наново при всеки ход: Не се борете с отклонението с по-дълги подкани. Регенерирането на контекста при всяко завъртане поддържа агентите стабилни, докато разговорите се отклоняват.

Заедно тези уроци формират основата за следващата фаза на иновации на Tolan и определят посоката, в която се развива гласовият изкуствен интелект.

Разширяване на възможностите с гласов ИИ.

От стартирането през февруари 2025 г. Tolan се разрасна до над 200 000 месечни активни потребители. Оценката му от 4,8 звезди и повече от 100 000 отзива в App Store подчертават колко добре системата поддържа последователност в дълги, променящи се разговори. Един рецензент отбеляза: „Те помнят неща, за които сме говорили преди два дни, и ги споменават в разговора, който водим днес.“

Тези сигнали се съпоставят директно с основната архитектура: заявки на модела с ниска латентност, реконструкция на контекста стъпка по стъпка и модулни системи за памет и персона. Заедно те позволяват на Tolan да следи промените в темите, да запазва тона и да поддържа отговорите обосновани, без да разчита на големи и крехки подкани.

Занапред Tolan планира да задълбочи инвестициите си в управляемостта и усъвършенстването на паметта, като насочи усилията си към по-ефективна компресия, подобрена логика за извличане и разширено настройване на персона. Дългосрочната цел е да разширим възможностите на гласовия интерфейс. Не само да бъде отзивчив, но и да осъзнава контекста и да бъде динамичен в разговорите.

„Следващото предизвикателство“, казва Куинтин, „е изграждането на гласови агенти, които не са просто отзивчиви, а наистина мултимодални, способни да интегрират глас, визия и контекст в една-единствена, управляема система.“