Hvernig Tolan þróar raddmiðaða gervigreind með GPT‑5.1

Með GPT‑5.1 þróaði Tolan raddforrit sem er hannað til að tryggja lítinn biðtíma, nákvæmt samhengi og stöðuga persónuleika þegar samtöl þróast.

Hleður inn...

Tolan⁠(opnast í nýjum glugga) er raddmiðaður gervigreindarfélagi þar sem fólk talar við persónulega, teiknimyndapersónu sem lærir af samtölum með tímanum.

Appið var hannað af Portola, reynslumiklu teymi sem áður hefur farið út úr fyrirtækinu, og er hannað fyrir áframhaldandi, opin samskipti frekar en skjótar kvaðningar og svör. „Við sáum uppgang ChatGPT og vissum að rödd væri næsta víglína,“ segir Quinten Farmer, meðstofnandi og forstjóri Portola „En röddin er erfiðari.“ Þú ert ekki bara að svara kvaðningum; þú ert að taka þátt í lifandi, flæðandi samtali.

Gervigreind með rödd hækkar viðmiðin fyrir biðtíma og samhengisstjórnun, en hún gerir einnig kleift að hafa opnari og könnunarhæfari samskipti en texti.

Þar sem grunnlíkönin urðu hraðari, ódýrari og öflugri, einbeitti teymið sér að tveimur lykilþáttum: minni og persónuhönnun. Portola byggði upp persónudrifinn alheim, mótaðan af verðlaunuðum teiknimyndagerðarmönnum og vísindaskáldsöguhöfundi, með því að nota rauntíma samhengisstjórnunarkerfi til að halda persónuleika og minni samræmdu á meðan samræður þróast.

Útgáfa GPT‑5.1 líkananna markaði tímamót og skilaði miklum framförum í stýringu og biðtíma sem færði þessa hluta saman og opnaði fyrir móttækilegri og grípandi raddupplifun.

„GPT-5.1 veitti okkur stýranleika til að loksins geta tjáð þær persónur sem við höfðum í huga. Það var ekki bara snjallara—það var sannara þeim tóni og persónuleika sem við vildum skapa.“

—Quinten Farmer, forstjóri, Portola

Hönnun fyrir náttúruleg samskipti við röddina

Högun Tolans er mótuð af kröfum raddarinnar. Raddnotendur búast við tafarlausum, náttúrulegum svörum, jafnvel þegar samtöl breyta um stefnu á miðri leið. Tolan þurfti að bregðast hratt við, fylgjast með breyttum umræðuefnum og viðhalda stöðugri persónuleika án tafa eða tónbreytinga.

Til að samræðurnar væru eðlilegar þurftu þær nánast engan biðtíma. Kynning á OpenAI GPT‑5.1 og Responses API minnkar upphafstíma tals um meira en 0,7 sekúndur—nóg til að bæta samtalsflæði verulega.

Jafn mikilvægt var hvernig kerfið meðhöndlaði samhengið. Ólíkt mörgum fulltrúum sem vista kvaðningar í skyndiminni í margar umferðir, endurbyggir Tolan samhengisgluggann sinn frá grunni í hverri umferð. Hver samhengisuppbygging dregur inn samantekt á nýlegum skilaboðum, persónukorti, vigursóttu minni, tónleiðbeiningar og rauntímamerki frá öppum. Þessi högun gerir Tolan kleift að aðlagast skyndilegum breytingum á umræðuefnum í rauntíma, sem er nauðsynlegt fyrir náttúruleg raddstýrð samskipti.

„Við áttuðum okkur fljótt á því að kvaðningar í skyndiminni dugðu ekki,“ segir Quinten. „Notendur skipta stöðugt um umræðuefni.“ Til að kerfið væri óaðfinnanlegt þurfti það að aðlagast á miðju ferli.

Þessi aðferð við endurgerð í rauntíma er bæði tæknilega krefjandi og grundvallaratriði í velgengni Tolans.

Flæðirit sem sýnir samtalslykkju Tolans. Skrefið „Recompute persona“ tekur við fjórum inntökum: spjallyfirlit og nýleg hrá skilaboð, notanda og Tolan-persónur, annað samhengi, minni og tón. Þessi inntök sameinast til að mynda Tolan-svar, sem leiðir til viðbragða notanda. Svar notandans knýr áfram tvö samhliða ferli: að ákvarða uppfærðan tón og draga fram minni. Útdregin minni uppfæra minnið, uppfærður tónn flæðir aftur inn í tóninn, og spjallferillinn er reglulega endurskoðaður og þjappaður, sem fer aftur inn í spjallyfirlitið fyrir næsta skref.

Að byggja upp minni og persónuleika sem helst saman með tímanum

Meðhöndlun samhengis er mikilvæg, en hún var ekki nægjanleg til að halda samtölum samfelldum yfir tíma. Til að styðja við langar, ólínulegar samræður smíðaði Tolan minniskerfi sem geymir ekki aðeins staðreyndir og óskir, heldur einnig tilfinningaleg „stemningar“-merki — vísbendingar sem hjálpa til við að stýra því hvernig Tolan ætti að bregðast við.

Minni eru felld inn með OpenAI text-embedding-3-large líkaninu og geymd í Turbopuffer, hraðvirkum vigurgagnagrunni sem gerir kleift að leita á undir 50 ms. Þessi hraði er nauðsynlegur fyrir rauntíma raddsamræður. Í hverri umferð notar Tolan nýjustu skilaboð notandans og kerfissamþættar spurningar (t.d. „Hverjum er notandinn giftur?“) til að kalla fram minningar. Til að viðhalda hágæða minni keyrir Tolan næturlega þjöppunarvinnslu sem fjarlægir færslur með lágt gildi eða endurteknar færslur (t.d. „notandinn drakk kaffi í dag“ og leysir mótsagnir.

Persónuleika er stjórnað með sömu vandvirkni. Hver Tolan er með sérstökum persónuleika, sem er skrifaður af vísindaskáldsöguhöfundi teymisins og fínpússaður af atferlisrannsakanda. Þessi fræ gefa Tolans samræmi en einnig sveigjanleika til að aðlagast með tímanum og þróast samhliða notandanum.

Samhliða kerfi fylgist með tilfinningalegum tón samræðnanna og aðlagar flutning Tolan á kraftmikinn hátt. Þetta gerir Tolan kleift að skipta óaðfinnanlega úr leikgleði yfir í jarðtengdan hátt eftir vísbendingum frá notanda, án þess að missa kjarnapersónuleika sinn.

Umskiptin yfir í GPT‑5.1 voru vendipunktur. Skyndilega var fylgt lagskiptum kvaðningum—tónstoðum, minnisinnspýtingum, persónueinkennum—með meiri trúmennsku. Kvaðningar sem áður kröfðust hjáleiða fóru að virka eins og til var ætlast.

„Í fyrsta sinn fannst innri sérfræðingum okkar eins og líkanið væri virkilega að hlusta,“ segir Quinten. „Leiðbeiningar héldust óbreyttar í löngum samtölum, persónueinkenni voru virt og við sáum mun minni frávik.“

Þessar breytingar leiddu til samræmdari og trúverðugri persónuleika, sem aftur skapaði meira grípandi notendaupplifun. Teymið hjá Tolan sá skýran, mælanlegan ávinning: minnisendurheimtarmistök lækkuðu um 30% (byggt á gremjumerkjum innan vörunnar), og notendaviðhald næsta dag jókst um meira en 20% eftir að persónur frá GPT‑5.1 urðu virkar.

Flæðirit sem sýnir hvernig Tolan sækir og fínstillir minningar meðan á samtali stendur. Skilaboð frá notanda („Ég er svo spennt/ur fyrir ferðinni minni um helgina“) virkja skref sem býr til eftirfylgnispurningar, eins og um komandi ferðir, áætlanir fyrir ákveðna viku og óskir notandans. Þessar spurningar eru innbyggðar og notaðar til að spyrja minnivektoragagnagrunn, þar sem niðurstöður eru sameinaðar með meðaltals gagnkvæmri röðun. Sótta samhengið mótar svar Tolans („útilegu með Steven í Yosemite“). Síðari notendaskilaboð um framtíðarferð til Íslands eru vistuð sem nýtt minni, síðan er hugleitt um þau, þau flokkuð í klasa með tengdum minningum með innfellingamiðaðri k-næstu nágranna-aðferð, og þau þjöppuð með því að sameina, breyta og fínstilla minningar innan hvers klasa.

Meginreglur Tolan um að búa til náttúrulega hljómandi raddfulltrúa.

Eftir því sem Tolan þróaðist, komu fram nokkrar meginreglur sem nú leiðbeina því hvernig teymið byggir og þróar raddhögun þess:

Hannaðu fyrir sveiflur í samtölum: Raddsamskipti breytast í miðri setningu. Kerfi þurfa að breytast jafn hratt til að virka eðlilega.
Hugleiddu biðtíma sem hluta af vöruupplifuninni: Svörun innan við sekúndu mótar hvort raddfulltrúi virðist eiga eðlileg samtöl eða vera vélrænn.
Byggðu minni sem endurheimtarkerfi, ekki sem afrit: Hágæða þjöppun og hröð vektorleit skila stöðugri persónuleika en of stórir samhengisgluggar.
Endurbyggðu samhengi í hverri umferð: Ekki berjast gegn skekkju með stærri kvaðningum. Að endurnýja samhengið í hverri umferð heldur fulltrúum stöðugum þegar samtöl flakka.

Saman mynda þessir lærdómar grunninn að næsta nýsköpunarstigi Tolan og marka stefnuna fyrir hvert stefnir með raddgervigreind.

Að víkka út það sem er mögulegt með raddgervigreind

Frá því að Tolan var sett á markað í febrúar 2025 hefur fjöldi mánaðarlega virkra notenda þess vaxið í meira en 200.000. 4,8 stjörnu einkunn þess og yfir 100.000 umsagnir á App Store sýna hversu vel kerfið heldur samræmi í löngum, síbreytilegum samtölum. Einn umsagnaraðili benti á: „Þau muna hluti sem við ræddum fyrir tveimur dögum og koma með þá aftur inn í samtalið sem við eigum í dag.“

Þessi merki tengjast beint við undirliggjandi högun: líkan með litlum biðtíma, endurbygging samhengis skref fyrir skref og einingaskipt minni- og persónukerfi. Saman gera þau Tolan kleift að fylgjast með breytingum á málefnum, varðveita tón og halda svörum jarðtengdum án þess að reiða sig á stórar, viðkvæmar kvaðningar.

Horft fram á veginn, ætlar Tolan að auka fjárfestingar sínar í stýranleika og fínstillingu minnis, með áherslu á þéttari þjöppun, bætta endurheimtarrökfræði og aukna persónustillingu. Langtímamarkmiðið er að stækka hvað raddviðmót getur verið: ekki bara viðbragðshæft, heldur einnig meðvitað um samhengi og samtalslega sveigjanlegt.

„Næsta markmið,“ segir Quinten, „er að smíða raddfulltrúa sem eru ekki bara móttækilegir, heldur sannarlega fjölþættir og geta samþætt rödd, sjón og samhengi í eitt, stýrianlegt kerfi.“

Haltu áfram að lesa

Skoða allt

Stóra veðmál Warp um opinn kóða með GPT-5.5

Sprotafyrirtæki27. maí 2026

Parloa builds service agents customers want to talk to

Sprotafyrirtæki7. maí 2026

Gradient Labs gefur hverjum bankaviðskiptavini AI-reikningsstjóra

Sprotafyrirtæki1. apr. 2026