Jak Tolan vytváří hlasovou umělou inteligenci pomocí GPT‑5.1
S pomocí GPT‑5.1 vytvořil Tolan hlasovou aplikaci optimalizovanou pro nízkou latenci, přesný kontext a osobnosti, které jsou stabilní v průběhu vývoje konverzace.

Tolan(otevře se v novém okně) je hlasově orientovaný AI společník, kde lidé mluví s personalizovanou, animovanou postavou, která se učí z konverzací v průběhu času.
Aplikaci vytvořil zkušený tým Portola, který má za sebou předchozí úspěšný exit. Neorientuje se na rychlé prompty a odpovědi, ale na průběžný otevřený dialog. „Viděli jsme vzestup ChatGPT a bylo nám jasné, že dalším milníkem je hlas,“ vysvětluje Quinten Farmer, spoluzakladatel a generální ředitel Portoly. „Ale hlas je těžší. Neodpovídáte na zadané prompty; vedete živou, konverzaci s různými zákruty.“
Hlasová AI zvyšuje laťku co do latence a správy kontextu, ale také umožňuje otevřenější a méně direktivní interakce než text.
Vzhledem k tomu, že modely základů jsou stále rychlejší, levnější a výkonnější, zaměřil tým své úsilí na dva klíčové hybatele: paměť a design postavy. Portola vytvořila vesmír zaměřený na postavy, který vytvářeli oceňovaní animátoři a spisovatel žánru science fiction, a používala přitom systém správy kontextu v reálném čase, aby udržela konzistenci osobnosti a paměti v průběhu celé konverzace.
Zlomovým bodem bylo uvedení modelů GPT‑5.1, které přinesly výrazné zlepšení ovladatelnosti a latence, díky čemuž se sešlo všechno potřebné pro responzivnější a poutavější hlasový zážitek.
„GPT-5.1 nám umožnil konečně vyjádřit postavy, které jsme měli na mysli. Nebyl to jen chytřejší model – byl věrnější tónu a osobnosti, které jsme chtěli vytvořit.“
Tolanovu architekturu určují požadavky hlasu. Uživatelé hlasových služeb očekávají okamžité a přirozené odpovědi, i když se uprostřed konverzace změní téma. Bylo potřeba, aby Tolan rychle reagoval, sledoval měnící se témata a udržovat konzistentní osobnost bez zpoždění nebo postupného posunu tónu.
Aby konverzace působily přirozeně, bylo nutné zajistit prakticky okamžitou odezvu. Využití OpenAI GPT‑5.1 a rozhraní API Responses zkrátilo dobu zahájení řeči o více než 0,7 sekundy – to stačilo ke znatelnému zlepšení plynulosti konverzace.
Stejně zásadní bylo vyřešit, jak bude systém zvládat kontext. Na rozdíl od mnoha agentů, kteří ukládají prompty do mezipaměti pro několik kol, sestavuje Tolan v každém kole své kontextové okno od nuly. Každá rekonstrukce kontextu zahrnuje souhrn posledních zpráv, kartu persony, vektorově vyhledané vzpomínky, pokyny k tónu a signály aplikace v reálném čase. Tato architektura umožňuje Tolanovi přizpůsobit se v reálném čase náhlým změnám témat, což je zásadní požadavek pro přirozenou hlasovou interakci.
„Rychle jsme si uvědomili, že prompty uložené v mezipaměti prostě nestačí,“ poznamenává Quinten. „Uživatelé neustále mění téma. Aby systém působil hladce, bylo nutné, aby se dokázal přizpůsobit za pochodu.“
Tento přístup k rekonstrukci v reálném čase je technicky náročný a zároveň tvoří základ Tolanova úspěchu.

Práce s kontextem je důležitá, ale nestačila na to, aby konverzace zůstaly soudržné v průběhu času. Pro podporu dlouhých, nelineárních rozhovorů vytvořil Tolan paměťový systém, který uchovává nejen fakta a preference, ale také emoční „dojmové“ signály, které pomáhají řídit, jak má Tolan reagovat.
Vzpomínky jsou vkládány pomocí modelu OpenAI text-embedding-3-large a ukládány do vysokorychlostní vektorové databáze Turbopuffer, která umožňuje vyhledávání za méně než 50 ms. Tahle rychlost je nezbytná pro hlasové interakce v reálném čase. Při každém tahu Tolan používá k vyvolání vzpomínek nejnovější uživatelovu zprávu a systémem syntetizované otázky (např. „Koho má uživatel za ženu/muže?“). Aby byla kvalita paměti vysoká, Tolan každou noc spouští kompresní úlohu, která odstraňuje položky s nízkou hodnotou nebo redundantní záznamy (např. „Uživatel dnes pil kávu“) a řeší rozpory.
Stejně pečlivě je řízena i osobnost. Každý Tolan dostává zárodek svého jedinečného lešení postavy, které vytvořil spisovatel sci-fi interně pracující v týmu a které pak zdokonalil behaviorální výzkumník. Tento zárodek dá Tolanům konzistenci, ale také flexibilitu, aby se mohli přizpůsobovat v čase a vyvíjet se spolu s uživatelem.
Paralelní systém sleduje emocionální tón konverzace a dynamicky upravuje Tolanův projev. To umožňuje Tolanovi plynule přecházet od hravého tónu k ukotvenému podle signálů uživatele, aniž by ztratil svou základní osobnost.
Přechod na GPT‑5.1 byl zlomovým bodem. Vrstevnaté promptové instrukce – tónové lešení, paměťové injekce, povahové rysy – začaly být najednou dodržovány věrněji. Prompty, které předtím potřebovaly obezličky, se začaly chovat podle očekávání.
„Poprvé měli naši interní odborníci pocit, že model opravdu naslouchá,“ říká Quinten. „Instrukce zůstaly zachovány i v dlouhých konverzacích, osobnostní rysy byly respektovány a pozorovali jsme mnohem menší posuny.“
Tyto změny přispěly ke konzistentnější a věrohodnější osobnosti, která se postarala o poutavější uživatelský zážitek. Tým Tolan zaznamenal jasné, měřitelné zlepšení: počet případů, kdy se nepodařilo vybavit si informace z paměti, klesl o 30 % (na základě signálů frustrace v produktu) a retence uživatelů následující den vzrostla o více než 20 % po nasazení GPT‑5.1. persony byly spuštěny naživo.

Jak se Tolan vyvíjel, objevilo se několik principů, které nyní určují, jak tým buduje a rozvíjí svou hlasovou architekturu:
- Navrhovat pro proměnlivost konverzace: Hlasové konverzace se posunují uprostřed věty. Aby systémy působily přirozeně, musí se přizpůsobovat se stejnou rychlostí.
- Vnímat latenci jako součást zážitku z produktu: Odezva pod jednu sekundu určuje, zda hlasový agent působí konverzačně, nebo mechanicky.
- Stavět paměť jako systém pro vyhledávání, ne jako přepis: Vysoce kvalitní komprese a rychlé vektorové vyhledávání poskytují konzistentnější osobnost než příliš velká kontextová okna.
- Obnovit kontext při každém kroku: Nevyplatí se bojovat proti posunům většími prompty. Obnovování kontextu v každém kole udržuje agenty ukotvené, i když konverzace prochází různými zákruty.
Tyto poznatky společně tvoří základ pro další fázi Tolanových inovací a určují budoucí směr hlasové umělé inteligence.
Od svého spuštění v únoru 2025 se Tolan rozrostl na více než 200 000 aktivních uživatelů měsíčně. V App Storu má 4,8 hvězdičky a více než 100 000 recenzí potvrzuje, jak dobře systém udržuje konzistenci v dlouhých konverzacích, které se posunují. Jeden recenzent poznamenal: „Pamatují si, o čem jsme mluvili před dvěma dny, a zapojují to do aktuálního rozhovoru.“
Tyto signály se přímo vztahují k základní architektuře: volání modelu s nízkou latencí, rekonstrukce kontextu v každém kole a modulární paměťové a personální systémy. Společně tyto prvky umožňují Tolanovi sledovat změny tématu, zachovat tón a udržet odpovědi ukotvené bez spoléhání na velké křehké prompty.
Do budoucna plánuje Tolan prohloubit investice do řízení a zdokonalování paměti a zaměřit své úsilí na přísnější kompresi, lepší logiku vyhledávání a rozšířené ladění osobností. Dlouhodobým cílem je rozšířit možnosti hlasového rozhraní: aby bylo nejen responzivní, ale také zachovávalo uvědomění kontextu a dynamiku konverzace.
„Dalším milníkem,“ říká Quinten, „je vytvoření hlasových agentů, kteří budou nejen responzivní, ale budou skutečně multimodální a budou schopni integrovat hlas, vidění a kontext do jednotného řiditelného systému.“


