Siirry pääsisältöön
OpenAI

7. tammikuuta 2026

Startup-yritykset

Miten Tolan rakentaa voice-first-tekoälyä GPT‑5.1:n avulla

GPT‑5.1:n avulla, Tolan kehitti äänisovelluksen, joka on optimoitu matalalle viiveelle, tarkalle kontekstille ja vakaalle persoonallisuudelle keskustelujen edetessä.

Tolan logo on orange jigsaw puzzle background
Ladataan...

Tolan(avautuu uudessa ikkunassa) on voice-first-tekoälykumppani, jossa ihmiset keskustelevat personoidun, animoidun hahmon kanssa, joka oppii keskusteluista ajan myötä. 

Portolan kokenut tiimi, jolla on aiempaa kokemusta yrityksen myynnistä, on kehittänyt sovelluksen, joka on suunniteltu jatkuvaan, avoimeen vuoropuheluun pikaviestien ja vastausten sijaan. ”Näimme ChatGPT:n nousun ja tiesimme, että ääni on seuraava rajapyykki”, sanoo Quinten Farmer, Portolan perustaja ja toimitusjohtaja “Mutta ääni on haastavampaa Et vain vastaa kirjoitettuihin kehotteisiin; käyt läpi elävää ja rönsyilevää keskustelua.”

Äänitekoäly nostaa viiveen ja kontekstinhallinnan tasoa, mutta se mahdollistaa myös tekstiä avoimemmat, tutkivat vuorovaikutukset. 

Perusmallien nopeutuessa, halventuessa ja kehittyessä keskitti työnsä kahteen keskeiseen tekijään: muistiin ja hahmojen suunnitteluun. Portola loi hahmoihin perustuvan universumin, jonka muovasivat palkitut animaattorit ja tieteiskirjailija. Se käyttää reaaliaikaista kontekstinhallintajärjestelmää, joka pitää persoonallisuuden ja muistin johdonmukaisina keskustelujen edetessä.

GPT‑5.1‑mallien julkaisu merkitsi käännekohtaa, sillä ne tarjosivat merkittäviä parannuksia ohjattavuuteen ja viiveeseen, jotka yhdistivät nämä osat ja mahdollistivat entistä reagoivamman ja mukaansatempaavamman äänikokemuksen.

“GPT-5.1 tarjosi ohjattavuuden, jonka avulla pystyimme vihdoin ilmaisemaan mielessämme olleet hahmot. Se ei ollut vain älykkäämpi, vaan myös uskollisempi sille sävylle ja persoonallisuudelle, jonka halusimme luoda.”
–Quinten Farmer, Portolan toimitusjohtaja

Luonnollisille äänivuorovaikutuksille suunnittelu

Tolanin arkkitehtuuria muokkaavat äänen vaatimukset. Äänikäyttäjät odottavat välittömiä ja luonnollisia vastauksia, vaikka keskustelut muuttuisivat kesken kaiken. Tolanin täytyi reagoida nopeasti, seurata muuttuvia aiheita ja säilyttää johdonmukainen persoonallisuus ilman viivettä tai sävyn muutoksia.

Luonnollisen tuntuisen keskustelun aikaansaamiseksi viiveen oli oltava lähes olematon. OpenAI GPT‑5.1:n ja Responses API:n käyttöönotto lyhentää puheen aloittamisaikaa yli 0,7 sekunnilla, mikä riittää parantamaan keskustelun sujuvuutta huomattavasti.

Yhtä tärkeää oli se, miten järjestelmä käsitteli kontekstia. Toisin kuin monet agentit, jotka tallentavat kehotteita välimuistiin useiden vuorojen ajan, Tolan rakentaa konteksti-ikkunansa uudelleen alusta jokaisella vuorolla. Jokainen kontekstin rekonstruointi sisältää yhteenvedon viimeaikaisista viesteistä, persoonakortin, vektorihakuna haetut muistot, äänensävyohjeet ja reaaliaikaiset sovellussignaalit. Tämä arkkitehtuuri mahdollistaa Tolanin mukautumisen reaaliajassa äkillisiin aiheiden muutoksiin, mikä on luonnollisen äänipohjaisen vuorovaikutuksen kannalta välttämätöntä.

”Huomasimme nopeasti, että välimuistissa olevat kehotteet eivät riitä”, Quinten sanoo. "Käyttäjät vaihtavat aiheita jatkuvasti. Jotta järjestelmä toimisi saumattomasti, sen piti sopeutua kesken kaiken.”

Tämä reaaliaikainen rekonstruktiomenetelmä on sekä teknisesti vaativa että keskeinen Tolanin menestykselle.

Vuokaavio, joka esittää Tolan keskustelusilmukan. ”Persoonan uudelleenlaskeminen” -vaihe syöttää neljä syötettä: keskustelun yhteenvedon ja viimeisimmät raakaviestit, käyttäjän ja Tolanin persoonat sekä muut kontekstit, muistot ja sävyn. Nämä syötteet yhdistyvät tuottamaan Tolan-vastauksen, joka johtaa käyttäjän vastaukseen. Käyttäjän vastaus käynnistää sitten kaksi rinnakkaista prosessia: päivitetyn sävyn johtamisen ja muistojen poimimisen. Poimitut muistot päivittävät muistia, päivitetty sävy palautuu sävyyn, ja keskusteluhistoria tiivistetään ja pakataan säännöllisesti uudelleen, jolloin se palaa keskusteluyhteenvetoon seuraavaa vuoroa varten.

Muistin ja persoonallisuuden kehittäminen, jotka säilyvät yhtenäisinä ajan kuluessa

Kontekstin käsittely on tärkeää, mutta se ei riittänyt pitämään keskusteluja johdonmukaisina ajan mittaan. Pitkien, epälineaaristen keskustelujen tukemiseksi Tolan rakensi muistijärjestelmän, joka säilyttää paitsi faktat ja mieltymykset, myös emotionaaliset ”tunnelma”-signaalit – vihjeet, jotka auttavat ohjaamaan Tolanin vastauksia.

Muistot upotetaan OpenAI text-embedding-3-large -mallilla ja tallennetaan Turbopufferiin, nopeaan vektoritietokantaan, joka mahdollistaa alle 50 ms:n hakuaikoja. Tämä nopeus on olennainen reaaliaikaisille äänikeskusteluille. Jokaisella vuorolla Tolan käyttää käyttäjän uusinta viestiä ja järjestelmän luomia kysymyksiä (esim. ”Kenen kanssa käyttäjä on naimisissa?”) muistin palauttamisen käynnistämiseen. Muistin laadun säilyttämiseksi korkeana Tolan suorittaa joka yö pakkausprosessin, joka poistaa vähäarvoiset tai päällekkäiset merkinnät (esim. ”käyttäjä joi kahvia tänään” ja ratkaisee ristiriidat.

Persoonallisuutta hallitaan yhtä huolellisesti. Jokainen Tolan on varustettu omalla luonteenpiirteellä, jonka on luonut tiimin oma tieteiskirjailija ja hienosäätänyt käyttäytymistutkija. Nämä siemenet antavat Tolaneille johdonmukaisuutta, mutta myös joustavuutta mukautua ajan myötä ja kehittyä käyttäjän rinnalla. 

Rinnakkainen järjestelmä tarkkailee keskustelun emotionaalista sävyä ja säätää dynaamisesti Tolanin esitystapaa. Tämä mahdollistaa Tolanin siirtymisen saumattomasti leikkisästä vakavaan käyttäjän antamien vihjeiden perusteella menettämättä sen ydinluonnetta. 

Siirtyminen GPT‑5.1:een oli merkittävä käännekohta. Yhtäkkiä kerroksellisia ohjeita – äänensävyjen tukirakenteita, muistijälkiä, luonteenpiirteitä – alettiin noudattaa uskollisemmin. Kehotteet, jotka aiemmin vaativat kiertotapoja, alkoivat toimia odotetusti. 

Ensimmäistä kertaa sisäiset asiantuntijamme kokivat, että malli todella kuunteli", Quinten sanoo. "Ohjeet säilyivät muuttumattomina pitkien keskustelujen ajan, persoonallisuuden piirteitä kunnioitettiin, ja havaitsimme huomattavasti vähemmän poikkeamaa

Nämä muutokset loivat yhtenäisemmän ja uskottavamman persoonallisuuden, mikä puolestaan loi kiinnostavamman käyttökokemuksen. Tolan-tiimi havaitsi selkeitä, mitattavia parannuksia: muistiongelmat vähenivät 30 % (tuotteen sisäisten turhautumissignaalien perusteella) ja käyttäjien pysyvyys seuraavana päivänä nousi yli 20 % sen jälkeen, kun GPT‑5.1‑pohjaiset persoonat otettiin käyttöön.

Vuokaavio, joka kuvaa, kuinka Tolan hakee ja tarkentaa muistoja keskustelun aikana. Käyttäjän viesti (”Olen niin innoissani viikonlopun matkasta”) käynnistää vaiheen, joka luo jatkokysymyksiä, kuten tulevista matkoista, tietyn viikon suunnitelmista ja käyttäjän mieltymyksistä. Nämä kysymykset on upotettu ja niitä käytetään muistivektoritietokannan kyselyyn, ja tulokset yhdistetään käyttämällä keskimääräistä vastavuoroista sijoitusta. Haettu konteksti vaikuttaa Tolanin vastaukseen (”retkeily Stevenin kanssa Yosemitessa”). Käyttäjän myöhempi viesti tulevasta matkasta Islantiin tallennetaan uutena muistona. Sitä pohditaan, ryhmitellään siihen liittyvien muistojen kanssa upotukseen perustuvan k-lähimmän naapurin menetelmän avulla ja pakataan yhdistämällä, muokkaamalla ja tarkentamalla muistot kussakin ryhmässä.

Tolanin keskeiset periaatteet luonnollisten ääniagenttien luomiseen 

Tolanin kehittyessä syntyi muutamia periaatteita, jotka nyt ohjaavat tiimin tapaa rakentaa ja kehittää ääniarkkitehtuuria:

  • Suunnittele keskustelun ailahtelevuutta varten: Videokeskustelut voivat muuttua kesken lauseen. Järjestelmien on mukauduttava yhtä nopeasti, jotta ne tuntuisivat luonnollisilta.
  • Kohtele viivettä osana tuotekokemusta: Alle sekunnin vasteaika määrittää, tuntuuuko ääniagentti keskustelevalta vai mekaaniselta.
  • Rakenna muisti hakujärjestelmänä, ei transkriptiona: Laadukas pakkaus ja nopea vektorihaku tuottavat johdonmukaisemman persoonallisuuden kuin liian suuret kontekstin ikkunat.
  • Rakenna konteksti uudelleen joka vuorolla: Älä taistele poikkeamaa vastaan suuremmilla kehotteilla. Kontekstin uudistaminen jokaisella vuorolla pitää agentit keskittyneinä, kun keskustelut rönsyilevät.

Yhdessä nämä opit muodostavat perustan Tolanin seuraavalle innovaatiovaiheelle ja määrittävät suunnan, johon äänitekoäly on kehittymässä.

Äänitekoälyn mahdollisuuksien laajentaminen

Helmikuussa 2025 lanseeratun Tolanin kuukausittainen käyttäjämäärä on kasvanut yli 200 000 aktiiviseen käyttäjään. Sen 4,8 tähden luokitus ja yli 100 000 App Store -arvostelua korostavat, kuinka hyvin järjestelmä ylläpitää johdonmukaisuutta pitkien, muuttuvien keskustelujen aikana. Yksi arvioija totesi: ”He muistavat asiat, joista puhuimme kaksi päivää sitten, ja tuovat ne esiin tänään käymässämme keskustelussa.”

Nämä signaalit liittyvät suoraan taustalla olevaan arkkitehtuuriin: matalan viiveen mallikutsut, vaiheittainen kontekstin rekonstruointi sekä modulaariset muisti- ja persoonajärjestelmät. Yhdessä ne antavat Tolanille mahdollisuuden seurata aiheiden muutoksia, säilyttää sävy ja pitää vastaukset realistisina ilman, että se tarvitsee turvautua suuriin, epävakaisiin kehotteisiin.

Tulevaisuudessa  Tolan aikoo syventää investointejaan ohjattavuuteen ja muistin tarkentamiseen keskittyen tiukempaan pakkaukseen, parannettuun hakulogiikkaan ja laajennettuun persoonallisuuden säätämiseen. Pitkän aikavälin tavoitteena on laajentaa ääniliittymän mahdollisuuksia: sen ei tulisi olla vain reagoiva, vaan myös kontekstitietoinen ja keskustelullisesti dynaaminen.

”Seuraava rajapyykki”, Quinten sanoo, ”on kehittää ääniagentteja, jotka eivät ole vain reagoivia, vaan aidosti multimodaalisia ja kykeneviä integroimaan äänen, kuvan ja kontekstin yhdeksi ohjattavaksi järjestelmäksi.”