Jak Tolan vytváří hlasovou umělou inteligenci pomocí GPT‑5.1

S pomocí GPT‑5.1 vytvořil Tolan hlasovou aplikaci optimalizovanou pro nízkou latenci, přesný kontext a osobnosti, které jsou stabilní v průběhu vývoje konverzace.

Načítání…

Tolan⁠(otevře se v novém okně) je hlasově orientovaný AI společník, kde lidé mluví s personalizovanou, animovanou postavou, která se učí z konverzací v průběhu času.

Aplikaci vytvořil zkušený tým Portola, který má za sebou předchozí úspěšný exit. Neorientuje se na rychlé prompty a odpovědi, ale na průběžný otevřený dialog. „Viděli jsme vzestup ChatGPT a bylo nám jasné, že dalším milníkem je hlas,“ vysvětluje Quinten Farmer, spoluzakladatel a generální ředitel Portoly. „Ale hlas je těžší. Neodpovídáte na zadané prompty; vedete živou, konverzaci s různými zákruty.“

Hlasová AI zvyšuje laťku co do latence a správy kontextu, ale také umožňuje otevřenější a méně direktivní interakce než text.

Vzhledem k tomu, že modely základů jsou stále rychlejší, levnější a výkonnější, zaměřil tým své úsilí na dva klíčové hybatele: paměť a design postavy. Portola vytvořila vesmír zaměřený na postavy, který vytvářeli oceňovaní animátoři a spisovatel žánru science fiction, a používala přitom systém správy kontextu v reálném čase, aby udržela konzistenci osobnosti a paměti v průběhu celé konverzace.

Zlomovým bodem bylo uvedení modelů GPT‑5.1, které přinesly výrazné zlepšení ovladatelnosti a latence, díky čemuž se sešlo všechno potřebné pro responzivnější a poutavější hlasový zážitek.

„GPT-5.1 nám umožnil konečně vyjádřit postavy, které jsme měli na mysli. Nebyl to jen chytřejší model – byl věrnější tónu a osobnosti, které jsme chtěli vytvořit.“

– Quinten Farmer, generální ředitel, Portola

Design přirozených hlasových interakcí

Tolanovu architekturu určují požadavky hlasu. Uživatelé hlasových služeb očekávají okamžité a přirozené odpovědi, i když se uprostřed konverzace změní téma. Bylo potřeba, aby Tolan rychle reagoval, sledoval měnící se témata a udržovat konzistentní osobnost bez zpoždění nebo postupného posunu tónu.

Aby konverzace působily přirozeně, bylo nutné zajistit prakticky okamžitou odezvu. Využití OpenAI GPT‑5.1 a rozhraní API Responses zkrátilo dobu zahájení řeči o více než 0,7 sekundy – to stačilo ke znatelnému zlepšení plynulosti konverzace.

Stejně zásadní bylo vyřešit, jak bude systém zvládat kontext. Na rozdíl od mnoha agentů, kteří ukládají prompty do mezipaměti pro několik kol, sestavuje Tolan v každém kole své kontextové okno od nuly. Každá rekonstrukce kontextu zahrnuje souhrn posledních zpráv, kartu persony, vektorově vyhledané vzpomínky, pokyny k tónu a signály aplikace v reálném čase. Tato architektura umožňuje Tolanovi přizpůsobit se v reálném čase náhlým změnám témat, což je zásadní požadavek pro přirozenou hlasovou interakci.

„Rychle jsme si uvědomili, že prompty uložené v mezipaměti prostě nestačí,“ poznamenává Quinten. „Uživatelé neustále mění téma. Aby systém působil hladce, bylo nutné, aby se dokázal přizpůsobit za pochodu.“

Tento přístup k rekonstrukci v reálném čase je technicky náročný a zároveň tvoří základ Tolanova úspěchu.

Diagram znázorňující Tolanovu konverzační smyčku. Krok „Přepočítat personu“ využívá čtyři vstupy: shrnutí chatu a nedávné nezpracované zprávy, uživatelovu a Tolanovu personu a další kontext, paměť a tón. Kombinací těchto vstupů vzniká Tolanova reakce, která vede k reakci uživatele. Reakce uživatele pak nastartuje dva paralelní procesy: odvození aktualizovaného tónu a extrakci vzpomínek. Extrahované vzpomínky aktualizují paměť, aktualizovaný tón se promítá zpět do tónu; historie konverzace se pravidelně znovu shrnuje a komprimuje, čímž se vrací zpět do shrnutí chatu pro další kolo.

Budování soudržné paměti a osobnosti

Práce s kontextem je důležitá, ale nestačila na to, aby konverzace zůstaly soudržné v průběhu času. Pro podporu dlouhých, nelineárních rozhovorů vytvořil Tolan paměťový systém, který uchovává nejen fakta a preference, ale také emoční „dojmové“ signály, které pomáhají řídit, jak má Tolan reagovat.

Vzpomínky jsou vkládány pomocí modelu OpenAI text-embedding-3-large a ukládány do vysokorychlostní vektorové databáze Turbopuffer, která umožňuje vyhledávání za méně než 50 ms. Tahle rychlost je nezbytná pro hlasové interakce v reálném čase. Při každém tahu Tolan používá k vyvolání vzpomínek nejnovější uživatelovu zprávu a systémem syntetizované otázky (např. „Koho má uživatel za ženu/muže?“). Aby byla kvalita paměti vysoká, Tolan každou noc spouští kompresní úlohu, která odstraňuje položky s nízkou hodnotou nebo redundantní záznamy (např. „Uživatel dnes pil kávu“) a řeší rozpory.

Stejně pečlivě je řízena i osobnost. Každý Tolan dostává zárodek svého jedinečného lešení postavy, které vytvořil spisovatel sci-fi interně pracující v týmu a které pak zdokonalil behaviorální výzkumník. Tento zárodek dá Tolanům konzistenci, ale také flexibilitu, aby se mohli přizpůsobovat v čase a vyvíjet se spolu s uživatelem.

Paralelní systém sleduje emocionální tón konverzace a dynamicky upravuje Tolanův projev. To umožňuje Tolanovi plynule přecházet od hravého tónu k ukotvenému podle signálů uživatele, aniž by ztratil svou základní osobnost.

Přechod na GPT‑5.1 byl zlomovým bodem. Vrstevnaté promptové instrukce – tónové lešení, paměťové injekce, povahové rysy – začaly být najednou dodržovány věrněji. Prompty, které předtím potřebovaly obezličky, se začaly chovat podle očekávání.

„Poprvé měli naši interní odborníci pocit, že model opravdu naslouchá,“ říká Quinten. „Instrukce zůstaly zachovány i v dlouhých konverzacích, osobnostní rysy byly respektovány a pozorovali jsme mnohem menší posuny.“

Tyto změny přispěly ke konzistentnější a věrohodnější osobnosti, která se postarala o poutavější uživatelský zážitek. Tým Tolan zaznamenal jasné, měřitelné zlepšení: počet případů, kdy se nepodařilo vybavit si informace z paměti, klesl o 30 % (na základě signálů frustrace v produktu) a retence uživatelů následující den vzrostla o více než 20 % po nasazení GPT‑5.1. persony byly spuštěny naživo.

Diagram toku znázorňující, jak Tolan během konverzace načítá a zpřesňuje vzpomínky. Zpráva uživatele („Hrozně se těším na víkendový výlet“) spustí krok, který syntetizuje doplňující otázky, jako jsou nadcházející výlety, plány na konkrétní týden a uživatelovy preference. Tyto otázky jsou vloženy a použity k dotazování do databáze paměťových vektorů, přičemž výsledky jsou sloučeny pomocí průměrného vzájemného pořadí. Získaný kontext je základem Tolanovy odpovědi („kempování se Stevenem v Yosemitech“). Pozdější zpráva uživatele o budoucí cestě na Island je uložena jako nová vzpomínka, poté je reflektována, shlukována s příbuznými vzpomínkami pomocí vkládacího algoritmu K-Nearest Neighbors a komprimována kombinováním, úpravami a upřesňováním vzpomínek v rámci každého shluku.

Tolanovy základní principy pro vytváření přirozených hlasových agentů

Jak se Tolan vyvíjel, objevilo se několik principů, které nyní určují, jak tým buduje a rozvíjí svou hlasovou architekturu:

Navrhovat pro proměnlivost konverzace: Hlasové konverzace se posunují uprostřed věty. Aby systémy působily přirozeně, musí se přizpůsobovat se stejnou rychlostí.
Vnímat latenci jako součást zážitku z produktu: Odezva pod jednu sekundu určuje, zda hlasový agent působí konverzačně, nebo mechanicky.
Stavět paměť jako systém pro vyhledávání, ne jako přepis: Vysoce kvalitní komprese a rychlé vektorové vyhledávání poskytují konzistentnější osobnost než příliš velká kontextová okna.
Obnovit kontext při každém kroku: Nevyplatí se bojovat proti posunům většími prompty. Obnovování kontextu v každém kole udržuje agenty ukotvené, i když konverzace prochází různými zákruty.

Tyto poznatky společně tvoří základ pro další fázi Tolanových inovací a určují budoucí směr hlasové umělé inteligence.

Rozšíření možností hlasové umělé inteligence

Od svého spuštění v únoru 2025 se Tolan rozrostl na více než 200 000 aktivních uživatelů měsíčně. V App Storu má 4,8 hvězdičky a více než 100 000 recenzí potvrzuje, jak dobře systém udržuje konzistenci v dlouhých konverzacích, které se posunují. Jeden recenzent poznamenal: „Pamatují si, o čem jsme mluvili před dvěma dny, a zapojují to do aktuálního rozhovoru.“

Tyto signály se přímo vztahují k základní architektuře: volání modelu s nízkou latencí, rekonstrukce kontextu v každém kole a modulární paměťové a personální systémy. Společně tyto prvky umožňují Tolanovi sledovat změny tématu, zachovat tón a udržet odpovědi ukotvené bez spoléhání na velké křehké prompty.

Do budoucna plánuje Tolan prohloubit investice do řízení a zdokonalování paměti a zaměřit své úsilí na přísnější kompresi, lepší logiku vyhledávání a rozšířené ladění osobností. Dlouhodobým cílem je rozšířit možnosti hlasového rozhraní: aby bylo nejen responzivní, ale také zachovávalo uvědomění kontextu a dynamiku konverzace.

„Dalším milníkem,“ říká Quinten, „je vytvoření hlasových agentů, kteří budou nejen responzivní, ale budou skutečně multimodální a budou schopni integrovat hlas, vidění a kontext do jednotného řiditelného systému.“

Pokračuj ve čtení

Zobrazit vše

Velká sázka Warpu na vývoj open source s GPT-5.5

Startup27. 5. 2026

Parloa builds service agents customers want to talk to

Startup7. 5. 2026

Gradient Labs dává každému klientovi banky AI správce účtu

Startup1. 4. 2026