Hvordan Tolan bygger stemme-først KI med GPT‑5.1

Med GPT‑5.1 bygde Tolan en stemmeapp optimalisert for lav forsinkelse, nøyaktig kontekst og stabile personligheter etter hvert som samtalene utvikler seg.

Laster inn …

Tolan⁠(åpnes i et nytt vindu) er en stemme-først KI-kompanjong der folk snakker med en personlig, animert karakter som lærer av samtaler over tid.

Bygget av Portola, et erfarent team med en tidligere exit, er appen utviklet for løpende, åpen dialog snarere enn raske prompt og svar. «Vi så fremveksten av ChatGPT og visste at stemme var det neste steget», sier Quinten Farmer, medgrunnlegger og administrerende direktør i Portola «Men tale er vanskeligere. Du svarer ikke bare på skrevne kommandoer; du fører en levende, flytende samtale.»

Voice AI hever standarden for latens og konteksthåndtering, men det muliggjør også mer åpne og utforskende interaksjoner enn tekst.

Etter hvert som grunnmodeller blir raskere, billigere og mer kapable, fokuserte teamet innsatsen sin på to viktige faktorer: minne og karakterdesign. Portola bygde et karakterdrevet univers, formet av prisvinnende animatører og en science fiction-forfatter, ved å bruke et sanntids kontekststyringssystem for å holde personlighet og minne konsistente mens samtaler utfolder seg.

Lanseringen av GPT‑5.1‑modellene markerte et vendepunkt, med betydelige forbedringer i styrbarhet og forsinkelse som samlet disse elementene, og åpnet for en mer responsiv og engasjerende stemmeopplevelse.

«GPT-5.1 ga oss muligheten til endelig å uttrykke de karakterene vi hadde i tankene Det var ikke bare smartere—det var mer trofast mot tonen og personligheten vi ønsket å skape.»

—Quinten Farmer, administrerende direktør i Portola

Designe for naturlige stemmeinteraksjoner

Tolans arkitektur er formet av kravene til stemmebruk. Stemmebrukere forventer umiddelbare, naturlige svar, selv når samtaler brått skifter retning underveis. Tolan måtte svare raskt, følge med på skiftende emner og opprettholde en konsekvent personlighet uten forsinkelse eller endring i tone.

For at samtaler skal føles naturlige, kreves det nær umiddelbar responstid. Vi introduserer OpenAI GPT‑5.1 og Responses API, som reduserer tiden til taleinitiering med over 0,7 sekunder—nok til å merkbart forbedre samtaleflyten.

Like viktig var hvordan systemet håndterte kontekst. I motsetning til mange agenter som hurtiglagrer kommandoer på tvers av flere omganger, bygger Tolan opp kontekstvinduet sitt fra bunnen av hver omgang. Hver kontekstrekonstruksjon henter inn et sammendrag av nylige meldinger, et personakort, vektorhentede minner, toneveiledning og sanntidssignaler fra appen. Denne arkitekturen gjør at Tolan kan tilpasse seg i sanntid til plutselige emneskifter, et essensielt krav for naturlig stemmebasert interaksjon.

«Vi innså raskt at hurtiglagrede prompt bare ikke holdt mål», sier Quinten. «Brukere bytter tema hele tiden. For at det skulle føles sømløst, måtte systemet tilpasse seg underveis.»

Denne rekonstruksjonstilnærmingen i sanntid er både teknisk krevende og grunnleggende for Tolans suksess.

Flytdiagram som viser Tolans samtalesløyfe. Et «Recompute persona»-trinn tar inn fire inndata: chattsammendrag og nylige råmeldinger, bruker- og Tolan-personaer, samt annen kontekst, minne og tone. Disse inndataene kombineres for å generere et Tolan-svar, som fører til svar fra en bruker. Brukerens respons driver deretter to parallelle prosesser: å utlede en oppdatert tone og å hente ut minner. Uthentede minner oppdaterer minnet, oppdatert tone mates tilbake til tonen, og samtalehistorikken blir med jevne mellomrom oppsummert på nytt og komprimert, og sløyfes tilbake til chat-sammendraget for neste omgang.

Bygge minne og personlighet som holder sammen over tid

Konteksthåndtering er viktig, men det var ikke nok til å holde samtalene føles sammenhengende over tid. For å støtte lange, ikke-lineære samtaler har Tolan bygget et minnesystem som ikke bare beholder fakta og preferanser, men også emosjonelle «vibe»-signaler – ledetråder som hjelper til med å styre hvordan en Tolan bør svare.

Minner integreres ved hjelp av OpenAI text-embedding-3-large-modellen og lagres i Turbopuffer, en høyhastighets vektordatabase som muliggjør oppslagstider på under 50 ms. Denne hastigheten er essensiell for taleinteraksjoner i sanntid. Hver runde bruker Tolan brukerens siste melding og system-syntetiserte spørsmål (f.eks., «Hvem er brukeren gift med?») for å utløse minnegjenkalling. For å opprettholde høy minnekvalitet, kjører Tolan en nattlig komprimeringsjobb som fjerner oppføringer med lav verdi eller redundante oppføringer (f.eks. «brukeren drakk kaffe i dag ») og løser motsetninger.

Personlighet håndteres like nøye. Hver Tolan er utstyrt med en utpreget karakterstruktur, skrevet av teamets interne science fiction-forfatter og forbedret av en atferdsforsker. Disse frøene gir Tolans konsistens, men også fleksibilitet til å tilpasse seg over tid, og utvikler seg sammen med brukeren.

Et parallelt system overvåker den emosjonelle tonen i samtalen og justerer Tolans levering dynamisk. Dette gjør at en Tolan kan skifte sømløst fra leken til jordnær avhengig av brukersignaler, uten å miste sin kjernepersonlighet.

Overgangen til GPT‑5.1 var et vendepunkt. Plutselig ble lagdelte prompt-instruksjoner—tone-stillaser, minneinjeksjoner, karaktertrekk—fulgt på en mer konsekvent måte. Kommandoer som tidligere krevde omveier, begynte å fungere som tiltenkt.

«For første gang følte våre interne eksperter at modellen virkelig lyttet,» sier Quinten. «Instruksjonene forble intakte gjennom lange samtaler, personlighetstrekk ble respektert, og vi så langt mindre avvik.»

Disse endringene førte til en mer konsistent og troverdig personlighet, som igjen skapte en mer engasjerende brukeropplevelse. Tolan-teamet opplevde klare, målbare gevinster: feil i minnegjenkalling ble redusert med 30 % (basert på frustrasjonssignaler i produktet), og brukerretensjon dagen etter økte med over 20 % etter at GPT‑5.1 ble tatt i bruk. personas ble lansert online.

Flytdiagram som viser hvordan Tolan henter frem og finjusterer minner under en samtale. En brukermelding («Jeg gleder meg veldig til turen denne helgen») utløser et trinn som lager oppfølgingsspørsmål, som kommende turer, planer for en spesifikk uke og brukerpreferanser. Disse spørsmålene er innebygd og brukes til å forespørre en minnevektordatabasen, med resultater slått sammen ved hjelp av gjennomsnittlig gjensidig rangering. Den innhentede konteksten informerer Tolans svar («camping med Steven i Yosemite»). En senere brukermelding om en fremtidig reise til Island lagres som et nytt minne, deretter reflekteres det over den, den grupperes med relaterte minner ved hjelp av embedding-basert k-nærmeste naboer, og komprimeres ved å kombinere, redigere og finjustere minner innenfor hver klynge.

Tolans kjerneprinsipper for å bygge naturlige stemmeagenter

Etter hvert som Tolan utviklet seg, dukket det opp noen prinsipper som nå veileder hvordan teamet bygger og utvikler stemmearkitekturen sin:

Design for samtalevolatilitet: Talesamtaler skifter midt i en setning. Systemer må snu seg like raskt for å føles naturlige.
Behandle forsinkelse som en del av produktopplevelsen: Respons på under ett sekund avgjør om en agent føles samtalebasert eller mekanisk.
Bygg minne som et gjenfinningssystem, ikke en transkripsjon: Høykvalitetskomprimering og raskt vektorsøk gir en mer konsekvent personlighet enn overdimensjonerte kontekstvinduer.
Bygg opp konteksten på nytt for hver runde: Ikke bekjemp drift med større kommandoer. Når konteksten regenerere for hver tur, holdes agentene jordet mens samtalene svinger.

Sammen danner disse leksjonene grunnlaget for Tolans neste fase av innovasjon og angir retningen for hvor tale-KI er på vei.

Utvider hva som er mulig med stemme-KI

Siden lanseringen i februar 2025 har Tolan vokst til mer enn 200 000 månedlige aktive brukere. Vurderingen den har på 4,8 stjerner og mer enn 100 000 App Store-anmeldelser fremhever hvor godt systemet opprettholder konsistens gjennom lange, skiftende samtaler. Én anmelder bemerket: «De husker ting vi snakket om for to dager siden, og de bringer det tilbake i samtalen vi har i dag.»

Disse signalene samsvarer direkte med den underliggende arkitekturen: lav-latens modellkall, tur-for-tur kontekstrekkonstruksjon og modulære minne- og personasystemer. Sammen gjør de det mulig for Tolan å spore emneendringer, bevare tonen og holde svarene forankret uten å være avhengig av store, skjøre prompt.

Med blikket vendt fremover, planlegger Tolan å utdype sine investeringer i styrbarhet og minneforbedring, med fokus på strammere komprimering, forbedret gjenfinningslogikk og utvidet persontilpasning. Det langsiktige målet er å utvide hva et stemmegrensesnitt kan være: ikke bare responsivt, men også kontekstbevisst og samtaledynamisk.

«Den neste grensen», sier Quinten, «er å utvikle stemmeassistenter som ikke bare reagerer, men som er virkelig multimodale, i stand til å integrere stemme, syn og kontekst i et enkelt, styrbart system.»

Les videre

Se alle

Warps store satsing på å bygge åpen kildekode med GPT-5.5

Oppstartsbedrift27. mai 2026

Parloa builds service agents customers want to talk to

Oppstartsbedrift7. mai 2026

Gradient Labs gir hver bankkunde en AI-drevet kunderådgiver

Oppstartsbedrift1. apr. 2026