Ugrás a fő tartalomra
OpenAI

2026. január 7.

Startup

Hogyan épít a Tolan hangalapú AI-t a GPT‑5.1 segítségével

A GPT‑5.1‑gyel a Tolan egy hangalapú alkalmazást épített, amelyet alacsony késleltetésre, pontos kontextusra és a beszélgetések előrehaladásával stabil személyiségekre optimalizált.

Tolan logo on orange jigsaw puzzle background
Betöltés…

Tolan(új ablakban nyílik meg) egy hangalapú AI-társ, ahol az emberek egy olyan személyre szabott, animált karakterrel beszélgetnek, amely idővel tanul a beszélgetésekből. 

A Portola által épített, korábbi sikeres exitet maga mögött tudó veterán csapat által készített alkalmazás folyamatos, nyitott végű párbeszédre készült, nem pedig gyors utasításokra és válaszokra. „Láttuk a ChatGPT felemelkedését, és tudtuk, hogy a hang lesz a következő határterület” – mondja Quinten Farmer, a Portola társalapítója és vezérigazgatója. „De a hang nehezebb. Nem csupán begépelt utasításokra válaszolsz; egy élő, kötetlen beszélgetést folytatsz.”

A Voice AI magasabb szintre emeli a késleltetés és a kontextuskezelés színvonalát, de lehetővé teszi a szövegnél nyitottabb és felfedezőbb interakciókat is. 

Az alapmodellek gyorsabbá, költséghatékonyabbá és képességgazdagabbá válásával a csapat a fejlesztéseket két kulcsfontosságú tényezőre összpontosította: a memória‑architektúrára és a karaktertervezésre. A Portola egy karaktervezérelt univerzumot hozott létre, amelyet díjnyertes animátorok és egy sci-fi író formáltak, valós idejű kontextuskezelő rendszerben, hogy a személyiség és a memória következetes maradjon a beszélgetések során.

A GPT‑5.1 modellek megjelenése fordulópontot jelentett, jelentős előrelépést hozva az irányíthatóság és a késleltetés terén, amelyek összekapcsolták ezeket az elemeket, és lehetővé tették egy reszponzívabb és magával ragadóbb hangélmény megvalósítását.

„A GPT-5.1 megadta nekünk azt az irányíthatóságot, amellyel végre ki tudtuk fejezni azokat a karaktereket, amelyeket elképzeltünk. Nemcsak okosabb volt, hanem hűségesebb is ahhoz a hangnemhez és személyiséghez, amelyet meg akartunk teremteni.”
—Quinten Farmer, vezérigazgató, Portola

Természetes hangalapú interakciókra optimalizálva

A Tolan architektúráját a hangigény formálja. A hangalapú felhasználók azonnali, természetes válaszokat várnak, még akkor is, ha a beszélgetések közben irányt váltanak. Tolannak gyorsan kellett reagálnia, követnie a változó témákat, és késlekedés vagy hangnemeltolódás nélkül következetes személyiséget fenntartania.

Ahhoz, hogy természetesnek tűnjenek, a beszélgetésekhez szinte azonnali válaszidőre volt szükség. Bemutatjuk az OpenAI GPT‑5.1‑et és a Responses API-t, amelyek több mint 0,7 másodperccel csökkentik a beszédindítási időt—ami elég ahhoz, hogy észrevehetően javítsa a beszélgetés folyamatosságát.

Ugyanilyen fontos volt, hogy a rendszer hogyan kezeli a kontextust. Sok ügynökkel ellentétben, amelyek több fordulón át gyorsítótárazzák az utasításokat, a Tolan minden egyes fordulóban a nulláról építi újra a kontextusablakát. Minden kontextusrekonstrukció tartalmazza a legutóbbi üzenetek összefoglalóját, egy személyiségkártyát, vektorral visszakeresett emlékeket, hangnemre vonatkozó útmutatást és valós idejű alkalmazásjeleket. Ez az architektúra lehetővé teszi, hogy a Tolan valós időben alkalmazkodjon a hirtelen témaváltásokhoz, ami elengedhetetlen a természetes hangalapú interakcióhoz.

„Gyorsan rájöttünk, hogy a gyorsítótárazott utasítások egyszerűen nem voltak elegendőek” – mondja Quinten. „A felhasználók állandóan témát váltanak. Ahhoz, hogy zökkenőmentes legyen az élmény, a rendszernek menet közben kellett alkalmazkodnia.”

Ez a valós idejű rekonstrukciós megközelítés technikailag intenzív és alapvető Tolan sikeréhez.

Folyamatábra, amely Tolan beszélgetési ciklusát mutatja. A „Recompute persona” lépés négy bemenetet fogad: csevegés-összefoglalást, legutóbbi nyers üzeneteket, felhasználói és Tolan personákat, valamint egyéb kontextust, memóriát és hangnemet. Ezek a bemenetek egy Tolan-választ generálnak, amely felhasználói választ eredményez. A felhasználói válasz ezután két párhuzamos folyamatot indít el: egy frissített hangnem meghatározását és emlékek kinyerését. A kinyert emlékek frissítik a memóriát, a frissített hangnem visszahat a hangnemre, és a beszélgetési előzmények időnként újra összefoglalásra és tömörítésre kerülnek, visszacsatolva a csevegés összefoglalójába a következő fordulóra.

Idővel is összetartó memória és személyiség kialakítása

A kontextus kezelése fontos, de nem volt elég ahhoz, hogy a beszélgetések idővel koherensek maradjanak. A hosszú, nemlineáris beszélgetések támogatására a Tolan egy olyan memóriarendszert hozott létre, amely nemcsak a tényeket és a preferenciákat tárolja, hanem az érzelmi „vibe” jeleket is—olyan nyomokat, amelyek segítenek meghatározni, hogyan válaszoljon egy Tolan.

Az emlékek az OpenAI text-embedding-3-large modell használatával kerülnek beágyazásra, és a Turbopufferben tárolódnak, amely egy nagy sebességű vektoradatbázis, és 50 ms alatti lekérdezési időket tesz lehetővé. Ez a sebesség elengedhetetlen a valós idejű hanginterakciókhoz. Minden körben Tolan a felhasználó legutóbbi üzenetét és a rendszer által szintetizált kérdéseket (pl. „Kinek a házastársa a felhasználó?”) használja a memória felidézésére. A memória minőségének magas szinten tartása érdekében Tolan minden éjjel futtat egy tömörítési feladatot, amely eltávolítja az alacsony értékű vagy redundáns bejegyzéseket (pl. „a felhasználó ma kávét ivott”), és feloldja az ellentmondásokat.

A személyiséget ugyanolyan gondosan kezelik. Minden Tolan egyedi karaktervázzal van ellátva, amelyet a csapat házon belüli sci-fi írója alkotott meg, és egy viselkedéskutató finomított. Ezek az alapok biztosítják a következetességet Tolanok számára, ugyanakkor rugalmasságot is, hogy idővel alkalmazkodjanak, a felhasználóval együtt fejlődve. 

Egy párhuzamos rendszer figyeli a beszélgetés érzelmi tónusát, és dinamikusan igazítja hozzá a Tolan beszédstílusát. Ez lehetővé teszi, hogy egy Tolan a felhasználói jelzések alapján zökkenőmentesen váltson a játékos és a komoly hangnem között, anélkül hogy elveszítené alapvető személyiségét. 

A GPT‑5.1‑re való átállás fordulópontot jelentett. Hirtelen a rétegezett prompt-utasítások—a hangvétel-minták, memória-beillesztések és karakterjegyek—sokkal pontosabban érvényesültek. Azok az utasítások, amelyek korábban kerülőmegoldásokat igényeltek, a szándékolt módon kezdtek működni. 

„Most először érezték a belső szakértőink, hogy a modell tényleg figyel,” mondja Quinten. „Az utasítások hosszú beszélgetések során is megmaradtak, a személyiségjegyeket tiszteletben tartotta, és sokkal kevesebb eltérést tapasztaltunk.”

Ezek a változtatások következetesebb és hihetőbb személyiséget eredményeztek, ami ezáltal vonzóbb felhasználói élményt teremtett. A Tolan csapata egyértelmű, mérhető javulást tapasztalt: a memóriavisszahívási hibák 30%-kal csökkentek (a terméken belüli frusztrációs jelek alapján), és a következő napi felhasználói megtartás több mint 20%-kal nőtt, miután élesedtek a GPT‑5.1‑en alapuló személyiségek.

Folyamatábra, amely bemutatja, hogyan idézi fel és finomítja Tolan az emlékeket a beszélgetés során. Egy felhasználói üzenet („Alig várom a hétvégi utazásomat”) egy lépést indít, amely további kérdéseket generál, például a közelgő utazásokról, egy adott hétre vonatkozó tervekről és a felhasználói preferenciákról. Ezek a kérdések be vannak ágyazva, és egy memória-vektor adatbázis lekérdezésére használjuk őket, az eredményeket pedig az átlagos reciprok rangsor alapján egyesítjük. A lekért kontextus segíti Tolan válaszát („Kempingezés Stevennel a Yosemite Nemzeti Parkban”). Egy későbbi felhasználói üzenet a jövőbeli izlandi utazásról új memóriaként kerül tárolásra, majd reflektálnak rá, kapcsolódó emlékekkel klaszterezik embedding-alapú legközelebbi szomszéd (k-NN) módszerrel, és a klasztereken belüli memóriákat kombinálva, szerkesztve és finomítva tömörítik.

Tolan alapelvei a természetes hangzású hangalapú ügynökök építéséhez 

Ahogy a Tolan fejlődött, körvonalazódtak az alapelvek, amelyek ma irányt mutatnak abban, hogyan építi fel és fejleszti a csapat a hangarchitektúráját:

  • Tervezés a beszélgetések kiszámíthatatlan alakulására: A hangalapú beszélgetések mondat közben is irányt válthatnak. A rendszereknek is gyorsan kell alkalmazkodniuk, hogy természetesnek tűnjenek.
  • Tekintsd a késleltetést a termékélmény részének: A másodpercen belüli válaszkészség határozza meg, hogy egy hangalapú ügynök társalgásinak vagy gépiesnek tűnik-e.
  • Építsd fel a memóriát visszakeresési rendszerként, ne átiratként: A kiváló minőségű tömörítés és a gyors vektorkeresés következetesebb személyiséget biztosít, mint a túlméretezett kontextusablakok.
  • Kontextus újraépítése minden körben: Ne küzdj az eltérés ellen hosszabb utasításokkal. A kontextus minden egyes fordulóban történő újragenerálása biztosítja, hogy az ügynökök a beszélgetések során is a valósághoz igazodjanak.

Ezek a tanulságok együtt képezik Tolan innovációjának következő szakaszának alapját, és kijelölik az irányt, amerre a hangalapú mesterséges intelligencia tart.

A hangalapú mesterséges intelligenciával rejlő lehetőségek bővítése

A 2025 februári indulás óta a Tolan havi aktív felhasználóinak száma meghaladja a 200 000-et. A 4,8 csillagos értékelés és több mint 100 000 App Store-vélemény igazolja, hogy a rendszer milyen jól tartja fenn a következetességet a hosszú, változó beszélgetések során. Egy értékelő megjegyezte: „Emlékszik arra, amiről két nappal ezelőtt beszéltünk, és behozza azt a mai beszélgetésbe.”

Ezek a jelzések közvetlenül az alapul szolgáló architektúrához kapcsolódnak: alacsony késleltetésű modellhívások, lépésről lépésre történő kontextusrekonstrukció, valamint moduláris memória- és személyiségrendszerek. Együttesen lehetővé teszik Tolan számára, hogy kövesse a témaváltásokat, megőrizze a hangnemet, és stabil, megalapozott válaszokat adjon anélkül, hogy nagy, sérülékeny promptokra támaszkodna.

Előretekintve,  a Tolan a jövőben további erőforrásokat kíván fordítani az irányíthatóság és a memóriafinomítás fejlesztésére, különös hangsúlyt fektetve a klaszterezett tömörítésre, a lekérdezési logika optimalizálására és a személyiségprofilok kibővített hangolásra. A hosszú távú cél az, hogy megfejtsük, mit jelenthet egy hangalapú felület: ne csak reszponzív legyen, hanem kontextusérzékeny és dinamikusan alkalmazkodó a beszélgetések során.

„A következő határterület az” – mondja Quinten –, „hogy olyan hangalapú ügynököket építsünk, amelyek nemcsak reszponzívak, hanem valóban multimodálisak, képesek a hangot, a látást és a kontextust egyetlen, irányítható rendszerbe integrálni.”