Sådan bygger Tolan voice-first AI med GPT‑5.1

Med GPT‑5.1 byggede Tolan en stemmeapp optimeret til lav latens, præcis kontekst og stabile personligheder, mens samtalerne udvikler sig.

Indlæser ...

Tolan⁠(åbner i et nyt vindue) er en stemme-først AI-kompagnon, hvor folk taler med en personlig, animeret karakter, der lærer af samtaler over tid.

Appen er udviklet af Portola, et erfarent team med en tidligere exit, og er designet til løbende, åben dialog frem for hurtige prompts og svar. "Vi så ChatGPTs stigende popularitet og vidste, at stemmen var den næste milepæl," siger Quinten Farmer, medstifter og administrerende direktør for Portola. “Men tale er sværere. Du svarer ikke bare på indtastede prompts; du fører en levende, spontan samtale."

Voice AI hæver standarden for latenstid og konteksthåndtering, men det muliggør også mere åbne og udforskende interaktioner end tekst.

Efterhånden som foundation-modeller bliver hurtigere, billigere og mere kompetente, fokuserede teamet deres indsats på to centrale faktorer: hukommelse og karakterdesign. Portola skabte et karakterdrevet univers, formet af prisvindende animatorer og en science fiction-forfatter, ved at bruge et realtids-kontekststyringssystem til at holde personligheden og hukommelsen konsistent, mens samtalerne udspiller sig.

Udgivelsen af GPT‑5.1‑modellerne markerede et vendepunkt, der leverede store forbedringer i styrbarhed og latenstid, som samlede disse elementer og låste op for en mere responsiv og engagerende stemmeoplevelse.

“GPT-5.1 gav os styrbarheden til endelig at udtrykke de karakterer, vi havde forestillet os. Det var ikke bare smartere – det var mere tro mod den tone og personlighed, vi ønskede at skabe.”

—Quinten Farmer, administrerende direktør, Portola

Design af naturlige stemmeinteraktioner

Tolans arkitektur formes af stemmens krav. Stemmebrugere forventer øjeblikkelige, naturlige svar, selv når samtaler skifter midtvejs. Tolan skulle reagere hurtigt, følge skiftende emner og opretholde en ensartet personlighed uden forsinkelse eller toneændringer.

For at føles naturlige krævede samtaler næsten øjeblikkelig latenstid. Vi introducerer OpenAI GPT‑5.1, og Responses API'en reducerer tiden til taleinitiering med over 0,7 sekunder – nok til at forbedre samtaleflowet mærkbart.

Det var lige så vigtigt, hvordan systemet håndterede konteksten. I modsætning til mange agenter, der gemmer prompts på tværs af flere omgange, genopbygger Tolan sit kontekstvindue fra bunden ved hver omgang. Hver kontekstrekonstruktion inkluderer et resumé af nylige beskeder, et personakort, vektorhentede minder, tonevejledning og app-signaler i realtid. Denne arkitektur gør det muligt for Tolan at tilpasse sig pludselige emneskift i realtid, hvilket er et væsentligt krav for naturlig stemmebaseret interaktion.

“Vi indså hurtigt, at cachelagrede prompts bare ikke var tilstrækkelige,” siger Quinten. “Brugere skifter emne hele tiden. For at føles problemfrit skulle systemet tilpasse sig undervejs.”

Denne realtidsrekonstruktionstilgang er både teknisk krævende og afgørende for Tolans succes.

Flowdiagram, der viser Tolans samtaleløkke. Et “Genberegn persona”-trin modtager fire input: chatsammendrag og nylige rå beskeder, bruger- og Tolan-personaer samt anden kontekst, hukommelse og tone. Disse input kombineres for at generere et Tolan-svar, som fører til et brugersvar. Brugersvaret driver derefter to parallelle processer: at udlede en opdateret tone og udtrække minder. Udtrukne minder opdaterer hukommelsen, den opdaterede tone føres tilbage i tonen, og samtalehistorikken opsummeres og komprimeres periodisk, så den føres tilbage i chatoversigten til næste tur.

Opbygning af hukommelse og personlighed, der holder sammen over tid

Håndtering af kontekst er vigtigt, men det var ikke nok til at holde samtalerne føles sammenhængende over tid. For at understøtte lange, ikke-lineære samtaler byggede Tolan et hukommelsessystem, der ikke kun bevarer fakta og præferencer, men også følelsesmæssige “vibe”-signaler – ledetråde, der hjælper med at styre, hvordan en Tolan skal reagere.

Minder indlejres ved hjælp af OpenAI text-embedding-3-large-modellen og gemmes i Turbopuffer, en højhastighedsvektordatabase, der muliggør opslagstider på under 50 ms. Denne hastighed er afgørende for stemmeinteraktioner i realtid. Hver omgang bruger Tolan brugerens seneste besked og systemsyntetiserede spørgsmål (f.eks. “Hvem er brugeren gift med?”) til at udløse hukommelsesgenkaldelse. For at opretholde høj hukommelseskvalitet kører Tolan et natligt komprimeringsjob, der fjerner poster med lav værdi eller redundante poster (f.eks. “brugeren drak kaffe i dag”) og løser modsigelser.

Personlighed bliver styret lige så omhyggeligt. Hver Tolan er forsynet med en unik karakter, skrevet af teamets interne science fiction-forfatter og forfinet af en adfærdsforsker. Disse frø giver Tolans konsistens, men også fleksibilitet til at tilpasse sig over tid og udvikle sig i takt med brugeren.

Et parallelt system overvåger samtalens følelsesmæssige tone og justerer dynamisk Tolans levering. Dette gør det muligt for en Tolan at skifte problemfrit fra legende til jordnær afhængigt af brugerens signaler, uden at miste sin kernepersonlighed.

Overgangen til GPT‑5.1 var et vendepunkt. Pludselig blev lagdelte prompt-instruktioner – tone-stilladser, hukommelsesinjektioner, Karaktertræk – fulgt mere trofast. Prompter, der tidligere krævede omveje, begyndte at opføre sig som tilsigtet.

“For første gang følte vores interne eksperter, at modellen virkelig lyttede,” siger Quinten. “Instruktionerne forblev intakte gennem lange samtaler, personlige træk blev respekteret, og vi så langt mindre afvigelse.”

Disse ændringer resulterede i en mere konsistent og troværdig personlighed, hvilket igen skabte en mere interessant brugeroplevelse. Tolan-teamet så klare, målbare forbedringer: antallet af fejl i hukommelsesgenkaldelse faldt med 30 % (baseret på frustrationssignaler i produktet), og brugerfastholdelsen den følgende dag steg med mere end 20 % efter GPT‑5.1‑drevne personaer blev lanceret.

Flowdiagram, der viser, hvordan Tolan henter og forfiner minder under en samtale. En brugermeddelelse (“Jeg er så spændt på min tur i weekenden”) udløser et trin, der genererer opfølgende spørgsmål, såsom kommende rejser, planer for en specifik uge og brugerpræferencer. Disse spørgsmål er indlejret og bruges til at forespørge en hukommelsesvektordatabase, hvor resultaterne flettes ved hjælp af gennemsnitlig reciprok rang. Den hentede kontekst informerer Tolans svar (“camping med Steven i Yosemite”). En senere brugermeddelelse om en fremtidig rejse til Island gemmes som en ny hukommelse, reflekteres over, grupperes med relaterede minder ved hjælp af embedding-baserede k-nærmeste naboer og komprimeres ved at kombinere, redigere og forfine minder inden for hver klynge.

Tolans kerneprincipper for at bygge stemmeagenter, der lyder naturlige

Efterhånden som Tolan udviklede sig, opstod der nogle få principper, der nu guider, hvordan teamet bygger og udvikler sin stemmearkitektur:

Design til samtalevolatilitet: Stemmesamtaler skifter midt i en sætning. Systemer skal omstille sig lige så hurtigt for at føles naturlige.
Behandl latenstid som en del af produktoplevelsen: Respons på under et sekund afgør, om en agent føles samtalende eller mekanisk.
Opbyg hukommelse som et genfindingssystem, ikke en udskrift: Komprimering af høj kvalitet og hurtig vektorsøgning giver en mere ensartet personlighed end overdimensionerede kontekstvinduer.
Genopbyg kontekst hver gang: Bekæmp ikke afvigelser med større prompts. Regenerering af konteksten for hver omgang holder agenterne fokuserede, mens samtalerne flyder.

Sammen udgør disse lektioner grundlaget for Tolans næste innovationsfase og angiver retningen for, hvor stemme-AI er på vej hen.

Udvider, hvad der er muligt med stemme-AI

Siden lanceringen i februar 2025 er Tolan vokset til over 200.000 månedligt aktive brugere. Dens 4,8-stjernede vurdering og mere end 100.000 anmeldelser i App Store fremhæver, hvor godt systemet bevarer konsistens på tværs af lange, skiftende samtaler. En anmelder bemærkede: “De husker ting, vi talte om for to dage siden, og de bringer det tilbage i samtalen, vi har i dag.”

Disse signaler kortlægger direkte den underliggende arkitektur: kald til model med lav latens, rekonstruktion af kontekst omgang for omgang og modulære hukommelses- og personasystemer. Sammen gør de det muligt for Tolan at spore emneændringer, bevare tonen og holde svarene forankrede uden at være afhængig af store, skrøbelige prompts.

Når vi ser fremad, planlægger Tolan at uddybe sine investeringer i styrbarhed og finjustering af hukommelse med fokus på strammere komprimering, forbedret genfindingslogik og udvidet persona-tuning. Det langsigtede mål er at udvide, hvad en stemmegrænseflade kan være: ikke kun responsiv, men også kontekstbevidst og samtaledynamisk.

“Den næste grænse,” siger Quinten, “er at bygge stemmeagenter, der ikke kun er responsive, men virkelig multimodale, i stand til at integrere stemme, syn og kontekst i et enkelt, styrbart system.”

Læs videre

Se alle

Warps store satsning på open source med GPT-5.5

Nystartet virksomhed27. maj 2026

Parloa builds service agents customers want to talk to

Nystartet virksomhed7. maj 2026

Gradient Labs giver alle bankkunder en AI-kontoadministrator

Nystartet virksomhed1. apr. 2026