Tolan — голосовий ШІ на базі GPT‑5.1

За рахунок GPT‑5.1 голосовий помічник Tolan отримав оптимізацію, необхідну для скорочення затримки, точного контексту та формування стабільного профілю у процесі розмов із користувачем.

Завантаження…

Tolan⁠(відкривається у новому вікні) — це голосовий ШІ-компаньйон у вигляді персоналізованого під кожного користувача анімованого персонажа, який з часом навчається на розмовах.

Створений досвідченою командою розробників Portola, цей застосунок призначений для постійного, відкритого діалогу, а не просто для швидкого обміну запитами та відповідями. «Спостерігаючи за зростанням ChatGPT, ми зрозуміли, що розвиватися слід у бік саме голосових помічників,» — розповідає Квінтен Фармер, співзасновник і генеральний директор Portola. «Але з голосом працювати важче. Потрібна не просто відповідь на набраний запит; ви ведете з помічником живу, невимушену розмову.»

Голосовий ШІ підвищує планку в галузі затримки та управління контекстом, але також дозволяє більш відкриті та експериментальні взаємодії, ніж текст.

З кожним днем базові моделі стають все швидше і дешевшими, і отримують розширені набори функцій. Команда зосередила свої зусилля на двох ключових аспектах: пам'яті та дизайні персонажів. Заручившись допомогою відзначених нагородами аніматорів та престижного письменника-фантаста, Portola створили всесвіт зі своїми особливими персонажами, використовуючи систему управління контекстом у режимі реального часу для підтримки узгодженості особистості та пам'яті під час розмов.

Поворотним моментом став реліз моделі GPT‑5.1: вона забезпечила значне покращення керованості та скорочення затримки відповіді, що дозволило об'єднати ці елементи та створити більш чуйний та захоплюючий досвід взаємодії з голосовим помічником.

«Модель GPT-5.1 дала можливість управляти бажаними особливостями наших персонажів. Справа не тільки в тому, що модель стала розумнішою — вона дозволяє більш точно підтримувати тон і характер персонажів, які ми хотіли створити».

— Квінтен Фармер, генеральний директор Portola

Розробка природної голосової взаємодії

Архітектура Tolan формується під впливом вимог до голосових помічників. Користувачі голосових інтерфейсів очікують миттєвої та природної відповіді, навіть коли у розмові раптово змінюється тема. Tolan повинен був навчитися швидко реагувати, відстежувати зміну тем і підтримувати послідовність розвитку свого характеру без затримок чи зміни тону.

Щоб розмови здавалися природнішими, потрібно було скоротити затримку відповіді до максимуму. Завдяки використанню GPT‑5.1 та Responses API від OpenAI час початку промови Tolan скоротився більш ніж на 0,7 секунди — цього виявилося достатньо, щоб помітно покращити плавність діалогу.

Не менш важливим було те, як система опрацьовувала контекст. На відміну від багатьох агентів, які кешують запити на кілька ходів, Tolan кожен хід створює своє контекстне вікно наново, з нуля. При кожній реконструкції контексту включається зведення останніх повідомлень, профіль персонажа, знайдені векторні дані зі спогадів, рекомендації щодо тону та сигнали програми в реальному часі. Така архітектура дозволяє Tolan в реальному часі адаптуватися до різких змін теми, що є важливою вимогою для голосової природної взаємодії.

«Ми швидко зрозуміли, що кешовані запити не дозволяють справлятися з нашим завданням», — говорить Квінтен. «Користувачі схильні постійно міняти теми. Для більшої природності система має адаптуватися на ходу.»

Цей підхід до реконструкції в реальному часі став технічним викликом, але водночас забезпечив успіх Tolan.

Схема, що показує розмовний цикл Tolan. З етапу «Розрахунок профілю» схема веде до чотирьох компонентів: зведення чату та останні необроблені повідомлення, профілі користувача та Tolan, а також інший контекст, пам'ять та тон. Ці вхідні дані поєднуються для генерування відповіді Tolan, на яку далі дається відповідь від користувача. Відповідь користувача запускає два паралельні процеси: оновлення тону та завантаження спогадів. Завантажені спогади дописують пам'ять, оновлений тон повертається до загального тону, а історія розмови періодично переглядається і стискається, повертаючи помічника у зведенні чату для наступної відповіді.

Формування стабільної пам'яті та характеру персонажа

Робота з контекстом важлива, але цього недостатньо, щоб розмови залишалися зв'язними з часом. Щоб підтримувати тривалі, нелінійні розмови, Tolan створює систему пам'яті, яка зберігає не лише факти та уподобання, а й емоційні сигнали, так звані «вайби» — підказки, які допомагають спрямовувати очікувану реакцію Tolan.

Спогади інтегруються з використанням моделі OpenAI text-embedding-3-large та зберігаються в Turbopuffer — високошвидкісній векторній базі даних, що забезпечує час пошуку менше 50 мс. Така швидкість необхідна для голосової взаємодії в реальному часі. На кожному кроці Tolan використовує останнє повідомлення користувача та синтезовані системою питання (наприклад, «На кому одружений користувач?»), щоб запускати вилучення спогадів. Щоб підтримувати високу якість пам'яті, Tolan щоночі запускає завдання стиснення, яке видаляє записи з низькою цінністю або дублюючі записи (наприклад, «Користувач сьогодні пив каву») та усуває протиріччя.

Особистість також ретельно контролюється. Кожен Tolan створюється на основі унікального каркасу персонажа, розробленого письменником-фантастом та доопрацьованого дослідником поведінки. Ця база забезпечує кожному персонажу Tolan стабільність, але також гнучкість, дозволяючи з часом адаптуватися, розвиваючись разом з користувачем.

Паралельна система відстежує емоційний тон розмови та динамічно коригує манеру промови Tolan. Це дозволяє Tolan безперешкодно перемикатися між тонами від веселого до серйозного, залежно від сигналів користувача, не втрачаючи своєї основної індивідуальності.

Перехід на GPT‑5.1 став поворотним моментом. Раптом багатошарові інструкції кожного запиту — тональні каркаси, ін'єкції пам'яті, риси персонажів — стали дотримуватися суворіше. Запити, які раніше вимагали обхідних рішень, почали працювати так, як було задумано.

«Уперше наші внутрішні експерти відчули, що модель дійсно їх слухає», — ділиться Квінтен. «Інструкції залишалися незмінними протягом довгих розмов, рис особистості дотримувалися, і ми спостерігали набагато менше відхилень.»

Ці зміни в сукупності робили особистість помічника більш послідовною і переконливою, що, у свою чергу, створило більш захоплюючий досвід користувача. Команда, яка працює над Tolan, відзначила явні, вимірні покращення: кількість промахів при відтворенні з пам'яті знизилася на 30% (на основі сигналів розчарування в продукті), а утримання користувачів наступного дня зросло більш ніж на 20% після запуску персонажів на базі GPT‑5.1.

Схема, що показує, як Tolan шукає та уточнює спогади під час розмови. Повідомлення користувача («Не дочекаюся поїздки в ці вихідні») запускає крок, який формулює наступні питання, зокрема про майбутні поїздки, плани на конкретний тиждень і переваги користувача. Ці питання інтегруються і використовуються для надсилання запитів до векторної бази даних пам'яті, а результати поєднуються з використанням середнього рангу. Отриманий контекст визначає відповідь персонажа Tolan («кемпінг зі Стівеном в Йосеміті»). Одне з останніх повідомлень користувача про майбутню поїздку до Ісландії зберігається як новий спогад, який потім аналізується, групується зі схожими спогадами з використанням методу k-найближчих сусідніх на основі векторів і стискається шляхом об'єднання, редагування та уточнення спогадів у кожному кластері.

Основні принципи Tolan для створення природних голосових агентів

У міру розвитку Tolan виникло кілька принципів, які тепер спрямовують команду у створенні та розвитку архітектури голосового інтерфейсу:

Проєктуйте з урахуванням гнучкості розмов: Голосові розмови можуть раптово змінювати тему. Щоб звучати природно, системи мають так само швидко адаптуватися.
Розглядайте затримку як частину досвіду користувача: Відповідь менш ніж за секунду визначає, чи голосовий агент буде сприйматися як невимушений або роботизований.
Створюйте пам'ять як систему пошуку, а не як стенограму: Високоякісне стискування та швидкий векторний пошук забезпечують більш узгоджену особу, ніж надмірно великі контекстні вікна.
Перезбирайте контекст на кожному кроці: Не боріться з відхиленням від теми, використовуючи довші запити. Повторне створення контексту на кожному кроці допомагає агентам залишатися природними, коли розмови відхиляються від теми.

Цей досвід формує основу для наступного етапу інновацій Tolan та визначає напрямок, у якому рухається голосовий ШІ.

Розширення можливостей за допомогою голосового ШІ

З моменту запуску в лютому 2025 року приріст кількості активних користувачів на місяць у Tolan становив більш ніж 200 000. Рейтинг програми 4,8 та більше 100 000 відгуків у App Store підкреслюють, наскільки добре система підтримує послідовність у тривалих та різноманітних розмовах. Як зазначив один із коментаторів: «Він [Tolan] пам'ятає те, про що ми говорили два дні тому, і згадує про це у розмові, яку ми ведемо сьогодні».

Ці сигнали безпосередньо відповідають базовій архітектурі: виклики моделей з низькою затримкою, покрокова реконструкція контексту та модульні системи пам'яті та профілів персонажів. Разом ці особливості дозволяють Tolan відстежувати зміни тем, зберігати тон і забезпечувати обґрунтованість відповідей, не покладаючись на великі, тендітні запити.

Що чекає Tolan у майбутньому? Планується поглибити інвестиції в керованість та уточнення пам'яті, зосередивши зусилля на більшому стисканні, покращеній логіці пошуку та розширеному налаштуванні профілів. Довгострокова мета — розширити можливості голосового інтерфейсу: не лише зробити його чуйним, а й здатним враховувати контекст та бути динамічним у спілкуванні.

«Наступний рубіж, — каже Квінтен, — це створення голосових агентів, які не просто реагують, а справді є мультимодальними, здатні інтегрувати голос, візуал та контекст у єдину керовану систему».

Продовжити читати

Переглянути всі

Ставка Warp на розробку open source з GPT-5.5

Стартап27 трав. 2026 р.

Parloa builds service agents customers want to talk to

Стартап7 трав. 2026 р.

Gradient Labs дає кожному клієнту банку ШІ-менеджера

Стартап1 квіт. 2026 р.