Ako Tolan vytvára AI zameranú na hlas s GPT‑5.1

S GPT‑5.1, Tolan vytvoril hlasovú aplikáciu optimalizovanú na nízku latenciu, presný kontext a stabilné osobnosti, keď sa konverzácie vyvíjajú.

Načítava sa…

Tolan⁠(otvorí sa v novom okne) je hlasovo orientovaný AI spoločník, kde sa ľudia rozprávajú s personalizovanou animovanou postavou, ktorá sa časom učí z konverzácií.

Aplikáciu vytvorila Portola – skúsený tím s predchádzajúcim úspešným exitom, a je navrhnutá na priebežný otvorený dialóg, nie na rýchle príkazy a odpovede. „Videli sme vzostup ChatGPT a vedeli sme, že hlas je ďalšou métou,“ hovorí Quinten Farmer, spoluzakladateľ a generálny riaditeľ spoločnosti Portola „Ale hlas je náročnejší.“ Neodpovedáte len na napísané príkazy, ale vediete živú, kľukatú konverzáciu.

Hlasová AI zvyšuje latku v oblasti latencie a správy kontextu, ale zároveň umožňuje otvorenejšie a prieskumnejšie interakcie než text.

S tým, ako sa základné modely stávajú rýchlejšími, lacnejšími a schopnejšími, tento tím zameral svoje úsilie na dve kľúčové oblasti: pamäť a dizajn osobností. Portola vytvorila vesmír zameraný na postavy, ktoré formovali oceňovaní animátori a autor sci-fi, pričom použila systém správy kontextu v reálnom čase na udržanie konzistentnej osobnosti a pamäte počas vývoja rozhovorov.

Uvedenie modelov GPT‑5.1 predstavovalo zlomový bod, prinášajúc výrazné zlepšenia v ovládateľnosti a latencii, ktoré tieto časti spojili a odomkli tak responzívnejší a pútavejší hlasový zážitok.

„GPT-5.1 nám poskytol možnosť navigácie k tomu, aby sme konečne mohli vyjadriť osobnosti, ktoré sme zamýšľali.“ „Nebolo to len inteligentnejšie – bolo to aj vernejšie tónu a osobnosti, ktorú sme chceli vytvoriť.“

– Quinten Farmer, výkonný riaditeľ, spoločnosť Portola

Tvorené pre prirodzené hlasové interakcie.

Architektúru Tolana formujú požiadavky hlasu. Používatelia hlasu očakávajú okamžité, prirodzené odpovede, aj keď sa konverzácie zmenia uprostred. Tolan musel rýchlo reagovať, sledovať meniace sa témy a udržiavať konzistentnú osobnosť bez oneskorenia alebo zmeny tónu.

Aby konverzácie pôsobili prirodzene, vyžadovali takmer okamžitú odozvu. Predstavujeme OpenAI GPT‑5.1 a Responses API, ktoré skracujú čas spustenia reči o viac ako 0,7 sekundy, čo je dosť na to, aby sa citeľne zlepšil priebeh konverzácie.

Rovnako dôležité bolo, ako systém spracovával kontext. Na rozdiel od mnohých agentov, ktorí ukladajú príkazy do vyrovnávacej pamäte počas viacerých ťahov, Tolan pri každom ťahu obnovuje svoje kontextové okno od začiatku. Každá rekonštrukcia kontextu zahrňuje súhrn nedávnych správ, kartu osobnosti, vektorovo získané spomienky, usmernenia k tónu a signály aplikácie v reálnom čase. Táto architektúra umožňuje Tolanu prispôsobiť sa v reálnom čase náhlym zmenám témy, čo je základná požiadavka pre prirodzenú hlasovú interakciu.

„Rýchlo sme si uvedomili, že príkazy uložené do vyrovnávacej pamäte jednoducho nestačia,“ hovorí Quinten. „Používatelia neustále menia témy.“ Aby to pôsobilo bezproblémovo, systém sa musel prispôsobiť za chodu.

Tento prístup rekonštrukcie v reálnom čase je technicky náročný a zároveň kľúčový pre úspech Tolana.

Diagram toku znázorňujúci Tolanovu konverzačnú slučku. Krok „Prepočítať personu“ zahŕňa štyri vstupy: súhrn četu a nedávne nespracované správy, persony používateľa a Tolana, ako aj ďalší kontext, pamäť a tón. Tieto vstupy sa kombinujú na vytvorenie Tolanovej odpovede, ktorá vedie k reakcii používateľa. Reakcia používateľa následne spúšťa dva paralelné procesy: odvodenie aktualizovaného tónu a extrakciu spomienok. Extrahované pamäte aktualizujú pamäť, aktualizovaný tón sa spätne premieta do tónu a história konverzácie sa pravidelne znovu sumarizuje a komprimuje, pričom sa v slučke vracia späť do zhrnutia četu pre ďalšie kolo.

Budovanie pamäte a osobnosti, ktoré v priebehu času zostávajú späté

Spracovanie kontextu je dôležité, ale nestačilo na to, aby konverzácie zostali súvislé v priebehu času. Na podporu dlhých nelineárnych konverzácií Tolan vytvoril pamäťový systém, ktorý uchováva nielen fakty a preferencie, ale aj emocionálne signály nálad – indície, ktoré pomáhajú usmerňovať, ako by mal Tolan reagovať.

Spomienky sú vložené pomocou modelu OpenAI text-embedding-3-large a sú uložené vo vysokorýchlostnej vektorovej databáze Turbopuffer, ktorá umožňuje vyhľadávanie do 50 ms. Táto rýchlosť je nevyhnutná pre interakcie hlasom v reálnom čase. Pri každom ťahu Tolan používa najnovšiu správu používateľa a systémom syntetizované otázky (napr. „S kým je používateľ zosobášený?“) na spustenie vyvolania spomienok. Aby sa zachovala vysoká kvalita pamäte, Tolan každú noc spúšťa kompresnú úlohu, ktorá odstraňuje položky s nízkou hodnotou alebo redundantné položky (napr. „Používateľ dnes pil kávu“) a rieši rozpory

Osobnosť je spravovaná rovnako starostlivo. Každý Tolan je vybavený jedinečnou osnovou osobnosti, ktorú vytvoril interný autor sci-fi tímu a zdokonalil výskumník v oblasti správania. Tieto semienka poskytujú Tolans konzistentnosť, ale aj flexibilitu na prispôsobenie sa v priebehu času, vyvíjajúc sa spolu s používateľom.

Paralelný systém monitoruje emocionálny tón konverzácie a dynamicky upravuje spôsob, akým Tolan komunikuje. To umožňuje Tolanovi plynulo prechádzať z hravého na uzemnený tón v závislosti od podnetov používateľa, bez toho, aby stratil svoju základnú osobnosť.

Prechod na GPT‑5.1 bol zlomovým bodom. Zrazu sa vrstvené inštrukcie príkazu – tónové opory, pamäťové injekcie, črty osobnosti – dodržiavali vernejšie. Príkazy, ktoré kedysi vyžadovali obchádzky, sa začali správať tak, ako bolo zamýšľané.

„Po prvýkrát mali naši interní experti pocit, že model naozaj počúva,“ hovorí Quinten. „Pokyny zostali zachované aj počas dlhých konverzácií, osobnostné črty boli rešpektované a zaznamenali sme oveľa menší odklon.“

Tieto zmeny viedli k konzistentnejšej a uveriteľnejšej osobnosti, čo následne vytvorilo pútavejší používateľský zážitok. Tím Tolan zaznamenal jasné, merateľné zlepšenia: počet zlyhaní pri vybavení si z pamäti klesol o 30 % (na základe signálov frustrácie v produkte) a miera udržania používateľov na ďalší deň vzrástla o viac ako 20 % po nasadení riešenia poháňaného GPT‑5.1. postavy boli uvedené do prevádzky.

Diagram znázorňujúci, ako Tolan počas rozhovoru získava a spresňuje spomienky. Používateľská správa („Už sa tak teším na svoj výlet tento víkend“) spustí krok, ktorý generuje následné otázky, ako sú nadchádzajúce výlety, plány na konkrétny týždeň a preferencie používateľa. Tieto otázky sú vložené a používajú sa na dopytovanie pamäťovej vektorovej databázy, pričom výsledky sa zlúčia pomocou priemerného recipročného poradia. Získaný kontext je zdrojom na odpoveď Tolana („kempovanie so Stevenom v Yosemite“). Neskoršia správa používateľa o budúcej ceste na Island sa uloží ako nová pamäť, potom sa nad ňou zamyslí, zoskupí sa so súvisiacimi spomienkami pomocou metódy k-najbližších susedov založených na embeddingoch a skomprimuje sa kombinovaním, úpravou a spresňovaním spomienok v rámci každého zhluku.

Základné princípy Tolana pre vytváranie prirodzene znejúcich hlasových agentov

Ako sa Tolan vyvíjal, objavilo sa niekoľko princípov, ktoré teraz usmerňujú, ako tím buduje a rozvíja svoju hlasovú architektúru:

Návrh pre konverzačnú volatilitu: Hlasové konverzácie sa menia uprostred vety. Systémy sa musia prispôsobiť rovnako rýchlo, aby pôsobili prirodzene.
Vnímaj latenciu ako súčasť zážitku z produktu: Odozva kratšia ako jedna sekunda určuje, či hlasový agent pôsobí konverzačne alebo mechanicky.
Budujte pamäť ako systém na vyhľadávanie, nie ako prepis: Vysokokvalitná kompresia a rýchle vektorové vyhľadávanie poskytujú konzistentnejšiu osobnosť namiesto príliš veľkých kontextových okien.
Obnovuj kontext v každom ťahu: Nebojuj proti odkláňaniu väčšími príkazmi. Obnovovanie kontextu v každom kroku udržiava agentov pevne ukotvených, keď sa konverzácie odkláňajú.

Tieto ponaučenia spolu tvoria základ pre ďalšiu fázu inovácií spoločnosti Tolan a určujú smer, ktorým sa hlasová AI uberá.

Rozširovanie možností pomocou hlasovej umelej inteligencie

Od spustenia v februári 2025 sa Tolan rozrástol na viac ako 200 000 mesačne aktívnych používateľov. Hodnotenie 4,8 hviezdičky a viac ako 100 000 recenzií v App Store zdôrazňujú, ako dobre systém udržiava konzistentnosť v dlhých, meniacich sa konverzáciách. Jeden recenzent poznamenal: „Pamätajú si veci, o ktorých sme sa rozprávali pred dvoma dňami, a vracajú ich do rozhovoru, ktorý vedieme dnes.“

Tieto signály sa priamo mapujú na základnú architektúru: volania modelu s nízkou latenciou, rekonštrukcia kontextu po jednotlivých krokoch a modulárne systémy pamäte a osobnosti. Spoločne umožňujú Tolanovi sledovať zmeny tém, zachovať tón a udržať odpovede pevne ukotvené bez spoliehania sa na veľké a krehké príkazy.

S výhľadom do budúcnosti Tolan plánuje prehĺbiť svoje investície do navigovateľnosti a zdokonaľovania pamäte, pričom sa zameria na efektívnejšiu kompresiu, vylepšenú logiku vyhľadávania a rozšírené ladenie osobnosti. Dlhodobým cieľom je rozšíriť možnosti hlasového rozhrania: nielen aby bolo responzívne, ale aj kontextovo uvedomelé a konverzačne dynamické.

„Ďalšia méta,“ hovorí Quinten, „je budovanie hlasových agentov, ktorí nie sú len responzívni, ale skutočne multimodálni a schopní integrovať hlas, obraz a kontext do jedného usmerniteľného systému.“

Pokračovať v čítaní

Zobraziť všetko

Veľká stávka Warpu na budovanie open source s GPT-5.5

Startup27. 5. 2026

Parloa builds service agents customers want to talk to

Startup7. 5. 2026

Gradient Labs gives every bank customer an AI account manager

Startup1. 4. 2026