Przejdź do treści głównej
OpenAI

7 stycznia 2026

Start-up

Jak Tolan tworzy głosową AI z użyciem modelu GPT‑5.1

Dzięki modelowi GPT‑5.1 firma Tolan stworzyła aplikację głosową zoptymalizowaną pod kątem niskiego opóźnienia, dokładnego kontekstu i stabilnych osobowości w miarę przebiegu rozmowy.

Tolan logo on orange jigsaw puzzle background
Ładowanie…

Tolan(otwiera nowe okno) to głosowy asystent AI, w którym użytkownicy mogą rozmawiać ze spersonalizowaną, animowaną postacią, która z biegiem czasu uczy się na podstawie rozmów. 

Aplikacja ta, stworzona przez doświadczony zespół Portola o udokumentowanych dokonaniach, została zaprojektowana z myślą o ciągłym, otwartym dialogu, a nie szybkich poleceniach i odpowiedziach. „Zauważyliśmy, jak szybko rozwija się ChatGPT i zrozumieliśmy, że przyszłość należy do technologii głosowej” – mówi Quinten Farmer, współzałożyciel i dyrektor generalny firmy Portola. „Ale z głosem jest trudniej. Nie chodzi tylko o odpowiedzi na wpisane polecenia, lecz prowadzenie żywej, swobodnej rozmowy”.

Głosowa sztuczna inteligencja podnosi poprzeczkę w zakresie opóźnień i zarządzania kontekstem, ale umożliwia również bardziej otwarte, eksploracyjne interakcje niż w przypadku formy tekstowej. 

Wraz z rozwojem modeli podstawowych, które stały się szybsze, tańsze i bardziej wydajne, zespół skoncentrował swoje wysiłki na dwóch kluczowych obszarach: pamięci i projektowaniu postaci. Zespół Portola stworzył świat oparty na postaciach, ukształtowany przez wielokrotnie nagradzanych animatorów oraz autora science fiction, wykorzystując system zarządzania kontekstem w czasie rzeczywistym, aby zachować spójność osobowości i pamięci w trakcie rozmów.

Wprowadzenie modeli GPT‑5.1 stanowiło punkt zwrotny, zapewniając znaczny wzrost możliwości sterowania i redukcję opóźnień. Pozwoliło to połączyć te elementy w spójną całość, zapewniając bardziej responsywne i atrakcyjne doświadczenie głosowe.

„Model GPT-5.1 dał nam swobodę, dzięki której mogliśmy w końcu nadać postaciom taki charakter, jaki mieliśmy na myśli. Nie tylko było to inteligentniejsze rozwiązanie, ale także bardziej wierne tonowi i osobowości, które chcieliśmy stworzyć”.
– Quinten Farmer, dyrektor generalny firmy Portola

Projektowanie naturalnych interakcji głosowych

Architektura modelu Tolan jest kształtowana przez wymagania związane z głosem. Użytkownicy funkcji głosowej oczekują natychmiastowych, naturalnych odpowiedzi, nawet gdy rozmowa zmienia kierunek. Tolan musiał szybko reagować, śledzić zmieniające się tematy i zachować spójną osobowość bez opóźnień i zmieniania tonu.

Naturalność rozmowy wymagała niemal zerowego opóźnienia. Wprowadzenie OpenAI GPT‑5.1 i interfejsu API Responses skróciło czas inicjacji mowy o ponad 0,7 sekundy – to wystarczająco dużo, aby zauważalnie poprawić płynność rozmowy.

Równie istotne było to, w jaki sposób system radził sobie z kontekstem. W przeciwieństwie do wielu agentów, którzy buforują polecenia przez wiele tur, Tolan odbudowuje swoje okno kontekstowe od podstaw w każdej turze. Każda rekonstrukcja kontekstu zawiera podsumowanie ostatnich wiadomości, kartę osobowości, wspomnienia pobrane wektorowo, wskazówki dotyczące tonu oraz sygnały aplikacji w czasie rzeczywistym. Ta architektura pozwala modelowi Tolan dostosowywać się w czasie rzeczywistym do nagłych zmian tematu, co jest niezbędnym wymogiem dla naturalnej interakcji głosowej.

„Szybko zdaliśmy sobie sprawę, że samo buforowane poleceń nie wystarcza” – mówi Quinten. „Użytkownicy cały czas zmieniają tematy. Aby działać płynnie, system musiał dostosowywać się na bieżąco”.

To podejście oparte na rekonstrukcji w czasie rzeczywistym jest zarówno wymagające pod względem technicznym, jak i fundamentalne dla sukcesu modelu Tolan.

Schemat blokowy przedstawiający pętlę konwersacyjną modelu Tolan. Krok „Przeliczenie persony” dostarcza cztery rodzaje danych wejściowych: podsumowanie czatu i ostatnie nieprzetworzone wiadomości, persony użytkownika i modelu Tolan, a także inne informacje kontekstowe, pamięć i ton. Te dane wejściowe łączą się, generując odpowiedź modelu Tolan, która prowadzi do odpowiedzi użytkownika. Reakcja użytkownika powoduje następnie uruchomienie dwóch równoległych procesów: uzyskanie zaktualizowanego tonu i wyodrębnienie wspomnień. Wyodrębnione wspomnienia aktualizują pamięć, zaktualizowany ton trafia z powrotem do ustawień tonu, a historia rozmowy jest okresowo podsumowywana i kompresowana, wracając następnie do podsumowania czatu dla kolejnej tury.

Budowanie pamięci i osobowości, które przetrwają próbę czasu

Obsługa kontekstu jest ważna, ale nie była wystarczająca, aby rozmowy były spójne z biegiem czasu. Aby umożliwić długie, nieliniowe rozmowy, model Tolan stworzył system pamięci, który przechowuje nie tylko fakty i preferencje, ale także sygnały emocjonalne – wskazówki, które pomagają kierować jego reakcjami.

Pamięci są osadzane przy użyciu modelu OpenAI text-embedding-3-large i przechowywane w Turbopuffer, szybkiej bazie danych wektorowej, która umożliwia wyszukiwanie w czasie poniżej 50 ms. Ta prędkość jest niezbędna do interakcji głosowych w czasie rzeczywistym. W każdej turze Tolan wykorzystuje ostatnią wiadomość użytkownika i pytania generowane przez system (np. „Z kim użytkownik jest w związku małżeńskim?”) w celu przywołania pamięci. Aby utrzymać wysoką jakość pamięci, model Tolan uruchamia co noc zadanie kompresji, które usuwa mało wartościowe lub zbędne wpisy (np. „użytkownik wypił dzisiaj kawę”) i rozwiązuje sprzeczności.

Osobowość jest traktowana z taką samą starannością. Każdy Tolan ma swoją własną strukturę postaci, stworzoną przez autora science fiction zatrudnionego wewnętrznie przez zespół i dopracowaną przez behawiorystę. Te dane wejściowe zapewniają modelowi Tolan spójność, ale także elastyczność pozwalającą na dostosowywanie się w miarę upływu czasu i ewoluowanie wraz z użytkownikiem. 

Równoległy system monitoruje emocjonalny ton rozmowy i dynamicznie dostosowuje sposób przekazywania informacji przez model Tolan. Dzięki temu Tolan może płynnie przechodzić między trybem żartobliwym a poważnym w zależności od sygnałów użytkownika, nie tracąc przy tym swojej podstawowej osobowości. 

Przejście na GPT‑5.1 było punktem zwrotnym. Nagle, wielowarstwowe polecenia – szablony tonu, wprowadzenie pamięci, cechy charakteru postaci – były wykonywane w bardziej wierny sposób. Polecenia, które wcześniej wymagały obejścia, zaczęły działać zgodnie z zamierzeniami. 

„Po raz pierwszy nasi wewnętrzni eksperci poczuli, że model naprawdę ich słucha” – mówi Quinten. „Instrukcje pozostawały niezmienione podczas długich rozmów i cechy osobowości były respektowane, a ponadto zauważyliśmy znacznie mniej odchyleń”.

Zmiany te przyczyniły się do stworzenia bardziej spójnej i wiarygodnej osobowości, co z kolei zapewniło użytkownikom bardziej angażujące doświadczenia. Zespół Tolan odnotował wyraźne, wymierne korzyści: liczba błędów w przywoływaniu pamięci spadła o 30% (na podstawie sygnałów frustracji w produkcie), a retencja użytkowników następnego dnia wzrosła o ponad 20% po uruchomieniu person opartych na modelu GPT‑5.1 .

Schemat blokowy ilustrujący sposób, w jaki Tolan przywołuje i dopracowuje wspomnienia podczas rozmowy. Wiadomość użytkownika („Nie mogę się doczekać wyjazdu w ten weekend”) uruchamia etap, w którym generowane są pytania uzupełniające, np. dotyczące nadchodzących wyjazdów, planów na konkretny tydzień i preferencji użytkownika. Pytania te są osadzone i wykorzystywane do przeszukiwania pamięciowej bazy danych wektorowej, a wyniki są łączone przy użyciu średniej wzajemnej rangi. Odzyskany kontekst wpływa na odpowiedź modelu Tolan („biwakowanie ze Stevenem w Yosemite”). Późniejsza wiadomość użytkownika dotycząca przyszłej podróży na Islandię jest przechowywana jako nowa pamięć, a następnie jest analizowana, grupowana z powiązanymi wspomnieniami przy użyciu algorytmu k-nearest neighbors opartego na osadzaniu, a następnie kompresowana poprzez łączenie, edytowanie i udoskonalanie pamięci w ramach każdej grupy.

Podstawowe zasady firmy Tolan dotyczące tworzenia naturalnych agentów głosowych 

W miarę ewolucji modelu Tolan pojawiło się kilka zasad, które obecnie kierują sposobem, w jaki zespół buduje i rozwija swoją architekturę głosową:

  • Projektowanie z uwzględnieniem zmienności konwersacji: konwersacje głosowe zmieniają się w połowie zdania. Systemy muszą reagować równie szybko, aby umożliwić naturalne działanie.
  • Traktowanie opóźnień jako elementu doświadczenia związanego z produktem: reakcja trwająca mniej niż sekundę decyduje o tym, czy agent głosowy sprawia wrażenie rozmownego, czy mechanicznego.
  • Budowanie pamięci jako systemu odzyskiwania informacji, a nie transkrypcji: kompresja wysokiej jakości i szybkie wyszukiwanie wektorowe zapewniają bardziej spójny charakter niż zbyt duże okna kontekstowe.
  • Odtwarzanie kontekstu w każdej turze: nie należy walczyć z dryfem za pomocą większych poleceń. Odnawianie kontekstu w każdej turze pozwala agentom zachować równowagę podczas zawiłych konwersacji.

Wszystkie te doświadczenia stanowią podstawę dla kolejnego etapu innowacji firmy Tolan i wyznaczają kierunek rozwoju sztucznej inteligencji głosowej.

Rozszerzanie możliwości głosowej AI

Od momentu uruchomienia w lutym 2025 r. model Tolan zyskał ponad 200 000 aktywnych użytkowników miesięcznie. Jego ocena 4,8 gwiazdek i ponad 100 000 opinii w sklepie App Store podkreślają, jak dobrze system zachowuje spójność podczas długich, zmieniających się rozmów. Jeden z oceniających zauważył: „Pamięta sprawy, o których rozmawialiśmy dwa dni temu, oraz wraca do nich w dzisiejszej rozmowie”.

Sygnały te odzwierciedlają bezpośrednio architekturę bazową: wywołania modeli o niskim opóźnieniu, rekonstrukcja kontekstu krok po kroku oraz modułowe systemy pamięci i osobowości. Dzięki nim Tolan może śledzić zmiany tematu, zachować ton wypowiedzi i zapewnić racjonalność odpowiedzi bez konieczności stosowania długich, niezbyt precyzyjnych poleceń.

W przyszłości firma Tolan planuje rozszerzyć inwestycje w zakresie możliwości sterowania i udoskonalania pamięci, koncentrując swoje działania na ściślejszej kompresji, ulepszonej logice wyszukiwania i rozszerzonym dostosowywaniu osobowości. Celem długoterminowym jest rozszerzenie możliwości interfejsu głosowego: nie tylko responsywnego, ale także rozpoznającego kontekst i dynamicznego w rozmowie.

„Kolejnym wyzwaniem” – mówi Quinten – „jest stworzenie agentów głosowych, które będą nie tylko responsywne, ale także prawdziwie multimodalne, zdolne do integracji głosu, obrazu i kontekstu w jednym, możliwym do sterowania systemie”.