Переход к основному контенту
OpenAI

7 января 2026 г.

Стартап

Tolan — голосовой ИИ на базе GPT‑5.1

За счет GPT‑5.1 голосовой помощник Tolan получил оптимизацию, необходимую для сокращения задержки, точного контекста и формирования стабильного профиля в процессе разговоров с пользователем.

Tolan logo on orange jigsaw puzzle background
Загрузка…

Tolan(открывается в новом окне) — это голосовой ИИ-компаньон в виде персонализированного под каждого пользователя анимированного персонажа, который со временем учится на разговорах. 

Созданное опытной командой разработчиков Portola, данное приложение предназначено для постоянного, открытого диалога, а не просто для быстрого обмена запросами и ответами. «Наблюдая за ростом ChatGPT, мы поняли, что развиваться следует в сторону именно голосовых помощников», — рассказывает Куинтен Фармер, сооснователь и генеральный директор Portola «Но с голосом работать сложнее. Нужен не просто ответ на набранный запрос; вы ведете с помощником живой, непринужденный разговор.»

Голосовой ИИ повышает планку в области задержки и управления контекстом, но также позволяет более открытые и экспериментальные взаимодействия, чем текст. 

С каждым днем базовые модели становятся все быстрее и дешевле, и получают расширенные наборы функций. Команда сосредоточила свои усилия на двух ключевых аспектах: памяти и дизайне персонажей. Заручившись помощью отмеченных наградами аниматоров и престижного писателя-фантаста, Portola создали вселенную со своими особенными персонажами, используя систему управления контекстом в режиме реального времени для поддержания согласованности личности и памяти в ходе разговоров.

Поворотным моментом стал релиз модели GPT‑5.1: она обеспечила значительное улучшение управляемости и сокращение задержки ответа, что позволило объединить эти элементы и создать более отзывчивый и увлекательный опыт взаимодействия с голосовым ассистентом.

«Модель GPT-5.1 дала нам возможность управлять желаемыми особенностями наших персонажей. Дело не только в том, что модель стала умнее — она позволяет более точно поддерживать тон и характер персонажей, которые мы хотели создать.»
— Куинтен Фармер, генеральный директор Portola

Разработка естественного голосового взаимодействия

Архитектура Tolan формируется под влиянием требований к голосовым помощникам. Пользователи голосовых интерфейсов ожидают мгновенного и естественного ответа, даже когда в разговоре внезапно меняется тема. Tolan должен был научиться быстро реагировать, отслеживать смену тем и поддерживать последовательность развития своего характера без задержек или изменения тона.

Чтобы разговоры казались более естественными, нужно было сократить задержку ответа до максимума. Благодаря использованию GPT‑5.1 и Responses API от OpenAI время начала речи Tolan сократилось более чем на 0,7 секунды — этого оказалось достаточно, чтобы заметно улучшить плавность диалога.

Не менее важным было то, как система обрабатывала контекст. В отличие от многих агентов, которые кэшируют запросы на несколько ходов, Tolan каждый ход создает свое контекстное окно заново, с нуля. При каждой реконструкции контекста включается сводка последних сообщений, профиль персонажа, найденные векторные данные из воспоминаний, рекомендации по тону и сигналы приложения в реальном времени. Такая архитектура позволяет Tolan в реальном времени адаптироваться к резким изменениям темы, что является важным требованием для естественного голосового взаимодействия.

«Мы быстро поняли, что кэшированные запросы не позволяют справляться с нашей задачей», — говорит Куинтен. «Пользователи склонны постоянно менять темы. Для большей естественности система должна адаптироваться на ходу.»

Этот подход к реконструкции в реальном времени стал техническим вызовом, но в то же время обеспечил успех Tolan.

Схема, показывающая разговорный цикл Tolan. Из этапа «Расчет профиля» схема ведет к четырем компонентам: сводка чата и последние необработанные сообщения, профили пользователя и Tolan, а также прочий контекст, память и тон. Эти входные данные объединяются для генерирования ответа Tolan, на который далее дается ответ от пользователя. Ответ пользователя запускает два параллельных процесса: обновление тона и загрузка воспоминаний. Загруженные воспоминания дописывают память, обновленный тон возвращается в общий тон, а история разговора периодически пересматривается и сжимается, возвращая помощника в сводку чата для следующего ответа.

Формирование стабильной памяти и характера персонажа

Работа с контекстом важна, но этого недостаточно, чтобы разговоры оставались связными с течением времени. Чтобы поддерживать длинные, нелинейные разговоры, Tolan создает систему памяти, которая сохраняет не только факты и предпочтения, но и эмоциональные сигналы, так называемые «вайбы» — подсказки, которые помогают направлять ожидаемую реакцию Tolan.

Воспоминания интегрируются с использованием модели OpenAI text-embedding-3-large и хранятся в Turbopuffer — высокоскоростной векторной базе данных, обеспечивающей время поиска менее 50 мс. Такая скорость необходима для голосового взаимодействия в реальном времени. На каждом шаге Tolan использует последнее сообщение пользователя и синтезированные системой вопросы (например, «На ком женат пользователь?»), чтобы запускать извлечение воспоминаний. Чтобы поддерживать высокое качество памяти, Tolan каждую ночь запускает задачу сжатия, которая удаляет записи с низкой ценностью или дублирующиеся записи (например, «Пользователь сегодня выпил кофе») и устраняет противоречия.

Личность также тщательно контролируется. Каждый Tolan создается на основе уникального каркаса персонажа, разработанного писателем-фантастом и доработанного исследователем поведения. Эта база обеспечивает каждому персонажу Tolan стабильность, но также и гибкость, позволяя со временем адаптироваться, развиваясь вместе с пользователем. 

Параллельная система отслеживает эмоциональный тон беседы и динамически корректирует манеру речи Tolan. Это позволяет Tolan беспрепятственно переключаться между тонами от веселого к серьезному в зависимости от сигналов пользователя, не теряя своей основной индивидуальности. 

Переход на GPT‑5.1 стал поворотным моментом. Внезапно многослойные инструкции каждого запроса — тональные каркасы, инъекции памяти, черты персонажей — стали соблюдаться более строго. Запросы, которые раньше требовали обходных решений, начали работать так, как было задумано. 

«Впервые наши внутренние эксперты почувствовали, что модель действительно их слушает», — делится Куинтен. «Инструкции оставались неизменными на протяжении долгих разговоров, черты личности соблюдались, и мы наблюдали гораздо меньше отклонений.»

Эти изменения в совокупности делали личность помощника более последовательной и убедительной, что, в свою очередь, создало более увлекательный пользовательский опыт. Команда, работающая над Tolan, отметила явные, измеримые улучшения: количество промахов при воспроизведении из памяти снизилось на 30% (на основе сигналов разочарования в продукте), а удержание пользователей на следующий день выросло более чем на 20% после запуска персонажей на базе GPT‑5.1.

Блок-схема, показывающая, как Tolan ищет и уточняет воспоминания в ходе беседы. Сообщение пользователя («Жду не дождусь поездки в эти выходные») запускает шаг, который формулирует последующие вопросы, в частности о предстоящих поездках, планах на конкретную неделю и предпочтениях пользователя. Эти вопросы интегрируются и используются для отправки запросов к векторной базе данных памяти, а результаты объединяются с использованием среднего обратного ранга. Полученный контекст определяет ответ персонажа Tolan («кемпинг со Стивеном в Йосемити»). Одно из последних сообщений пользователя о предстоящей поездке в Исландию сохраняется как новое воспоминание, которое затем анализируется, группируется с похожими воспоминаниями с использованием метода k-ближайших соседних на основе векторов и сжимается путем объединения, редактирования и уточнения воспоминаний в каждом кластере.

Основные принципы Tolan для создания естественных голосовых агентов 

По мере развития Tolan возникли несколько принципов, которые теперь направляют команду в создании и развитии архитектуры голосового интерфейса:

  • Проектируйте с учетом гибкости разговоров: Голосовые разговоры могут внезапно менять тему. Чтобы звучать естественно, системы должны настолько же быстро адаптироваться.
  • Рассматривайте задержку как часть пользовательского опыта: Отклик менее чем за секунду определяет, будет ли голосовой агент восприниматься как непринужденный или роботизированный.
  • Создавайте память как систему извлечения, а не как стенограмму: Высококачественное сжатие и быстрый векторный поиск обеспечивают более согласованную личность, чем чрезмерно большие контекстные окна.
  • Пересобирайте контекст на каждом шаге: Не боритесь с отклонением от темы, используя более длинные запросы. Повторная генерация контекста на каждом шаге помогает агентам оставаться естественными, когда разговоры отклоняются от темы.

Этот опыт формирует основу для следующего этапа инноваций Tolan и определяет направление, в котором движется голосовой ИИ.

Расширение возможностей с помощью голосового ИИ

С момента запуска в феврале 2025 года прирост количества активных пользователей в месяц у Tolan составил более чем 200 000. Рейтинг приложения 4,8 и более 100 000 отзывов в App Store подчеркивают, насколько хорошо система поддерживает последовательность в длительных и разнообразных разговорах. Как отметил один из комментаторов: «Он [Tolan] помнит то, о чем мы говорили два дня назад, и вспоминает об этом в разговоре, который мы ведем сегодня».

Эти сигналы напрямую соответствуют базовой архитектуре: вызовы моделей с низкой задержкой, пошаговая реконструкция контекста и модульные системы памяти и профилей персонажей. Вместе эти особенности позволяют Tolan отслеживать изменения тем, сохранять тон и обеспечивать обоснованность ответов, не полагаясь на большие, хрупкие запросы.

Что ждет Tolan в будущем?  Планируется углубить инвестиции в управляемость и уточнение памяти, сосредоточив усилия на большем сжатии, улучшенной логике поиска и расширенной настройке профилей. Долгосрочная цель — расширить возможности голосового интерфейса: не только сделать его отзывчивым, но и способным учитывать контекст и быть динамичным в общении.

«Следующий рубеж, — говорит Куинтен, — это создание голосовых агентов, которые не просто реагируют, а действительно являются мультимодальными, способны интегрировать голос, визуал и контекст в единую управляемую систему.»