Jak Tolan tworzy głosową AI z użyciem modelu GPT‑5.1
Dzięki modelowi GPT‑5.1 firma Tolan stworzyła aplikację głosową zoptymalizowaną pod kątem niskiego opóźnienia, dokładnego kontekstu i stabilnych osobowości w miarę przebiegu rozmowy.

Tolan(otwiera nowe okno) to głosowy asystent AI, w którym użytkownicy mogą rozmawiać ze spersonalizowaną, animowaną postacią, która z biegiem czasu uczy się na podstawie rozmów.
Aplikacja ta, stworzona przez doświadczony zespół Portola o udokumentowanych dokonaniach, została zaprojektowana z myślą o ciągłym, otwartym dialogu, a nie szybkich poleceniach i odpowiedziach. „Zauważyliśmy, jak szybko rozwija się ChatGPT i zrozumieliśmy, że przyszłość należy do technologii głosowej” – mówi Quinten Farmer, współzałożyciel i dyrektor generalny firmy Portola. „Ale z głosem jest trudniej. Nie chodzi tylko o odpowiedzi na wpisane polecenia, lecz prowadzenie żywej, swobodnej rozmowy”.
Głosowa sztuczna inteligencja podnosi poprzeczkę w zakresie opóźnień i zarządzania kontekstem, ale umożliwia również bardziej otwarte, eksploracyjne interakcje niż w przypadku formy tekstowej.
Wraz z rozwojem modeli podstawowych, które stały się szybsze, tańsze i bardziej wydajne, zespół skoncentrował swoje wysiłki na dwóch kluczowych obszarach: pamięci i projektowaniu postaci. Zespół Portola stworzył świat oparty na postaciach, ukształtowany przez wielokrotnie nagradzanych animatorów oraz autora science fiction, wykorzystując system zarządzania kontekstem w czasie rzeczywistym, aby zachować spójność osobowości i pamięci w trakcie rozmów.
Wprowadzenie modeli GPT‑5.1 stanowiło punkt zwrotny, zapewniając znaczny wzrost możliwości sterowania i redukcję opóźnień. Pozwoliło to połączyć te elementy w spójną całość, zapewniając bardziej responsywne i atrakcyjne doświadczenie głosowe.
„Model GPT-5.1 dał nam swobodę, dzięki której mogliśmy w końcu nadać postaciom taki charakter, jaki mieliśmy na myśli. Nie tylko było to inteligentniejsze rozwiązanie, ale także bardziej wierne tonowi i osobowości, które chcieliśmy stworzyć”.
Architektura modelu Tolan jest kształtowana przez wymagania związane z głosem. Użytkownicy funkcji głosowej oczekują natychmiastowych, naturalnych odpowiedzi, nawet gdy rozmowa zmienia kierunek. Tolan musiał szybko reagować, śledzić zmieniające się tematy i zachować spójną osobowość bez opóźnień i zmieniania tonu.
Naturalność rozmowy wymagała niemal zerowego opóźnienia. Wprowadzenie OpenAI GPT‑5.1 i interfejsu API Responses skróciło czas inicjacji mowy o ponad 0,7 sekundy – to wystarczająco dużo, aby zauważalnie poprawić płynność rozmowy.
Równie istotne było to, w jaki sposób system radził sobie z kontekstem. W przeciwieństwie do wielu agentów, którzy buforują polecenia przez wiele tur, Tolan odbudowuje swoje okno kontekstowe od podstaw w każdej turze. Każda rekonstrukcja kontekstu zawiera podsumowanie ostatnich wiadomości, kartę osobowości, wspomnienia pobrane wektorowo, wskazówki dotyczące tonu oraz sygnały aplikacji w czasie rzeczywistym. Ta architektura pozwala modelowi Tolan dostosowywać się w czasie rzeczywistym do nagłych zmian tematu, co jest niezbędnym wymogiem dla naturalnej interakcji głosowej.
„Szybko zdaliśmy sobie sprawę, że samo buforowane poleceń nie wystarcza” – mówi Quinten. „Użytkownicy cały czas zmieniają tematy. Aby działać płynnie, system musiał dostosowywać się na bieżąco”.
To podejście oparte na rekonstrukcji w czasie rzeczywistym jest zarówno wymagające pod względem technicznym, jak i fundamentalne dla sukcesu modelu Tolan.

Obsługa kontekstu jest ważna, ale nie była wystarczająca, aby rozmowy były spójne z biegiem czasu. Aby umożliwić długie, nieliniowe rozmowy, model Tolan stworzył system pamięci, który przechowuje nie tylko fakty i preferencje, ale także sygnały emocjonalne – wskazówki, które pomagają kierować jego reakcjami.
Pamięci są osadzane przy użyciu modelu OpenAI text-embedding-3-large i przechowywane w Turbopuffer, szybkiej bazie danych wektorowej, która umożliwia wyszukiwanie w czasie poniżej 50 ms. Ta prędkość jest niezbędna do interakcji głosowych w czasie rzeczywistym. W każdej turze Tolan wykorzystuje ostatnią wiadomość użytkownika i pytania generowane przez system (np. „Z kim użytkownik jest w związku małżeńskim?”) w celu przywołania pamięci. Aby utrzymać wysoką jakość pamięci, model Tolan uruchamia co noc zadanie kompresji, które usuwa mało wartościowe lub zbędne wpisy (np. „użytkownik wypił dzisiaj kawę”) i rozwiązuje sprzeczności.
Osobowość jest traktowana z taką samą starannością. Każdy Tolan ma swoją własną strukturę postaci, stworzoną przez autora science fiction zatrudnionego wewnętrznie przez zespół i dopracowaną przez behawiorystę. Te dane wejściowe zapewniają modelowi Tolan spójność, ale także elastyczność pozwalającą na dostosowywanie się w miarę upływu czasu i ewoluowanie wraz z użytkownikiem.
Równoległy system monitoruje emocjonalny ton rozmowy i dynamicznie dostosowuje sposób przekazywania informacji przez model Tolan. Dzięki temu Tolan może płynnie przechodzić między trybem żartobliwym a poważnym w zależności od sygnałów użytkownika, nie tracąc przy tym swojej podstawowej osobowości.
Przejście na GPT‑5.1 było punktem zwrotnym. Nagle, wielowarstwowe polecenia – szablony tonu, wprowadzenie pamięci, cechy charakteru postaci – były wykonywane w bardziej wierny sposób. Polecenia, które wcześniej wymagały obejścia, zaczęły działać zgodnie z zamierzeniami.
„Po raz pierwszy nasi wewnętrzni eksperci poczuli, że model naprawdę ich słucha” – mówi Quinten. „Instrukcje pozostawały niezmienione podczas długich rozmów i cechy osobowości były respektowane, a ponadto zauważyliśmy znacznie mniej odchyleń”.
Zmiany te przyczyniły się do stworzenia bardziej spójnej i wiarygodnej osobowości, co z kolei zapewniło użytkownikom bardziej angażujące doświadczenia. Zespół Tolan odnotował wyraźne, wymierne korzyści: liczba błędów w przywoływaniu pamięci spadła o 30% (na podstawie sygnałów frustracji w produkcie), a retencja użytkowników następnego dnia wzrosła o ponad 20% po uruchomieniu person opartych na modelu GPT‑5.1 .

W miarę ewolucji modelu Tolan pojawiło się kilka zasad, które obecnie kierują sposobem, w jaki zespół buduje i rozwija swoją architekturę głosową:
- Projektowanie z uwzględnieniem zmienności konwersacji: konwersacje głosowe zmieniają się w połowie zdania. Systemy muszą reagować równie szybko, aby umożliwić naturalne działanie.
- Traktowanie opóźnień jako elementu doświadczenia związanego z produktem: reakcja trwająca mniej niż sekundę decyduje o tym, czy agent głosowy sprawia wrażenie rozmownego, czy mechanicznego.
- Budowanie pamięci jako systemu odzyskiwania informacji, a nie transkrypcji: kompresja wysokiej jakości i szybkie wyszukiwanie wektorowe zapewniają bardziej spójny charakter niż zbyt duże okna kontekstowe.
- Odtwarzanie kontekstu w każdej turze: nie należy walczyć z dryfem za pomocą większych poleceń. Odnawianie kontekstu w każdej turze pozwala agentom zachować równowagę podczas zawiłych konwersacji.
Wszystkie te doświadczenia stanowią podstawę dla kolejnego etapu innowacji firmy Tolan i wyznaczają kierunek rozwoju sztucznej inteligencji głosowej.
Od momentu uruchomienia w lutym 2025 r. model Tolan zyskał ponad 200 000 aktywnych użytkowników miesięcznie. Jego ocena 4,8 gwiazdek i ponad 100 000 opinii w sklepie App Store podkreślają, jak dobrze system zachowuje spójność podczas długich, zmieniających się rozmów. Jeden z oceniających zauważył: „Pamięta sprawy, o których rozmawialiśmy dwa dni temu, oraz wraca do nich w dzisiejszej rozmowie”.
Sygnały te odzwierciedlają bezpośrednio architekturę bazową: wywołania modeli o niskim opóźnieniu, rekonstrukcja kontekstu krok po kroku oraz modułowe systemy pamięci i osobowości. Dzięki nim Tolan może śledzić zmiany tematu, zachować ton wypowiedzi i zapewnić racjonalność odpowiedzi bez konieczności stosowania długich, niezbyt precyzyjnych poleceń.
W przyszłości firma Tolan planuje rozszerzyć inwestycje w zakresie możliwości sterowania i udoskonalania pamięci, koncentrując swoje działania na ściślejszej kompresji, ulepszonej logice wyszukiwania i rozszerzonym dostosowywaniu osobowości. Celem długoterminowym jest rozszerzenie możliwości interfejsu głosowego: nie tylko responsywnego, ale także rozpoznającego kontekst i dynamicznego w rozmowie.
„Kolejnym wyzwaniem” – mówi Quinten – „jest stworzenie agentów głosowych, które będą nie tylko responsywne, ale także prawdziwie multimodalne, zdolne do integracji głosu, obrazu i kontekstu w jednym, możliwym do sterowania systemie”.


