Så bygger Tolan röststyrd AI med GPT‑5.1

Med GPT‑5.1 skapade Tolan en röstapp som är optimerad för låg latens, korrekt kontext och stabila personligheter när samtalen utvecklas.

Laddar …

Tolan⁠(öppnas i ett nytt fönster) är en röststyrd AI-assistent som låter användarna konversera med en personlig, animerad karaktär som lär sig av samtalen över tid.

Appen är utvecklad av Portola, ett erfaret team med tidigare exit, och är utformad för en kontinuerlig, öppen dialog snarare än snabba promptar och svar. ”Vi såg ChatGPT:s ökande popularitet och insåg att röststyrning var nästa milstolpe”, säger Quinten Farmer, medgrundare och verkställande direktör för Portola. Men röst är svårare. Du svarar inte bara på skrivna promptar, utan deltar i ett livligt, spontant samtal.”

Röst-AI höjer ribban för latens och kontextbehandling, men möjliggör också mer öppna och utforskande interaktioner än text.

När grundmodellerna blev snabbare, billigare och mer kompetenta fokuserade teamet sina ansträngningar på två viktiga faktorer: minne och karaktärsdesign. Portola skapade ett karaktärsdrivet universum, format av prisbelönta animatörer och en science fiction-författare, med hjälp av ett kontextstyrningssystem i realtid för att hålla personligheter och minnen konsekventa under samtalens gång.

Lanseringen av GPT‑5.1‑modellerna markerade en vändpunkt, med stora förbättringar i styrbarhet och latens som förenade dessa element och möjliggjorde en mer responsiv och engagerande röstupplevelse.

”GPT-5.1 gav oss den kontroll vi behövde för att äntligen kunna uttrycka de karaktärer vi hade föreställt oss. Det var inte bara smartare – det var också mer troget den ton och personlighet vi ville skapa.”

– Quinten Farmer, VD för Portola

Design av naturliga röstinteraktioner

Tolans arkitektur är formad av röstens krav. Röstanvändare förväntar sig omedelbara, naturliga svar, även när samtalen byter spår mitt i. Tolan var tvungen att reagera snabbt, följa skiftande ämnen och upprätthålla en konsekvent personlighet utan fördröjningar eller tonförändringar.

För att kännas naturliga krävde samtalen nästan omedelbar latens. Vi presenterar OpenAI GPT‑5.1, och Responses API minskar talinitieringstiden med över 0,7 sekunder – tillräckligt för att märkbart förbättra samtalsflödet.

Det var lika viktigt hur systemet hanterade kontexten. Till skillnad från många agenter som lagrar promptar över flera omgångar, bygger Tolan om sitt kontextfönster från grunden vid varje omgång. Varje kontextkonstruktion innehåller en sammanfattning av senaste meddelanden, ett kontaktkort, vektorhämtade minnen, tonvägledning och realtidsappsignaler. Tack vare arkitekturen kan Tolan anpassa sig till plötsliga ämnesbyten i realtid, vilket är ett viktigt krav för naturlig röstbaserad interaktion.

”Vi insåg snabbt att cachade promptar helt enkelt inte räckte till”, säger Quinten. ”Användare byter ämne hela tiden. För att upplevas som sömlöst behövde systemet anpassa sig under processen.”

Den här metoden för rekonstruktion i realtid är både tekniskt krävande och avgörande för Tolans framgång.

Flödesschema som visar Tolan’s samtalsslinga. Steget ”Beräkna om persona” tar emot fyra parametrar: chattöversikter och senaste råa meddelanden, användar- och Tolan-personas, samt annan kontext, minne och tonfall. Dessa parametrar kombineras för att generera ett Tolan-svar, vilket leder till ett svar från en användare. Användarens svar startar sedan två parallella processer: att härleda en uppdaterad ton och extrahera minnen. Extraherade minnen uppdaterar minnet, uppdaterade toner återkopplas till tonen, och samtalshistoriken sammanfattas och komprimeras regelbundet och återkopplas till chattöversikten för nästa omgång.

Bygga minnen och personligheter som varar över tid

Det är viktigt att hantera kontexten, men det räckte inte för att hålla konversationerna sammanhängande över tid. För att stödja långa, icke-linjära samtal har Tolan byggt ett minnessystem som inte bara lagrar fakta och preferenser, utan också emotionella ”vibe”-signaler – ledtrådar som hjälper Tolan att avgöra hur den ska svara.

Minnena inbäddas med hjälp av OpenAI:s text-embedding-3-large-modell och lagras i Turbopuffer, en höghastighetsvektordatabas som möjliggör söktider på mindre än 50 ms. Hastigheten är avgörande för röstkommunikation i realtid. Varje omgång använder Tolan användarens senaste meddelande och systemgenererade frågor (t.ex. ”Vem är användaren gift med?”) för att trigga minnesåterkallande. För att hålla minneskvaliteten hög kör Tolan varje natt en komprimering som tar bort poster med lågt värde eller överflödiga poster (t.ex. “användaren drack kaffe idag”) och löser motsägelser.

Personligheten kontrolleras lika noggrant. Varje Tolan har en unik karaktär, skriven av teamets egen science fiction-författare och finslipad av en beteendevetare. Dessa grunder gör Tolan konsekvent, men också flexibel nog att anpassa sig över tid och utvecklas tillsammans med användaren.

Ett parallellt system övervakar samtalets känslomässiga ton och justerar dynamiskt Tolans framställning. Detta gör att Tolan smidigt kan växla mellan lekfullt och sakligt beroende på användarens signaler, utan att förlora sin grundläggande personlighet.

Övergången till GPT‑5.1 var en vändpunkt. Plötsligt följdes lagerindelade promptar – tonfall, minnesinjektioner, karaktärsdrag – betydligt mer tillförlitligt. Promptar som tidigare krävde lösningar började fungera som avsett.

”För första gången kände våra interna experter att modellen verkligen lyssnade”, säger Quinten. ”Instruktionerna förblev intakta under långa samtal, personliga egenskaper respekterades och vi såg betydligt mindre avvikelser.”

De här förändringarna gjorde att personligheten blev mer konsekvent och trovärdig, vilket i sin tur skapade en mer engagerande användarupplevelse. Tolan-teamet såg tydliga, mätbara förbättringar: antalet minnesfel minskade med 30 % (baserat på frustrationssignaler i produkten) och användarlojaliteten dagen efter ökade med mer än 20 % efter GPT‑5.1‑baserade personas lanserades.

Flödesschema som visar hur Tolan hämtar och finjusterar minnen under en konversation. Ett användarmeddelande (”Jag ser verkligen fram emot min resa i helgen”) utlöser ett steg som genererar uppföljningsfrågor, till exempel kommande resor, planer för en specifik vecka och användarpreferenser. Frågorna är inbäddade och används för att söka i en minnesvektordatabas, där resultaten slås samman med hjälp av genomsnittlig ömsesidig rangordning. Den erhållna kontexten ligger till grund för Tolans svar (”camping med Steven i Yosemite”). Ett senare användarmeddelande om en kommande resa till Island lagras som ett nytt minne, reflekteras sedan över, grupperas med relaterade minnen med hjälp av inbäddningsbaserade k-närmaste grannar och komprimeras genom att kombinera, redigera och finjustera minnen inom varje kluster.

Tolans grundläggande principer för att skapa naturliga röstagenter

I takt med att Tolan utvecklades framkom några principer som nu styr hur teamet bygger och utvecklar sin röstarkitektur:

Design för samtalsvolatilitet: Röstsamtal kan ändras mitt i en mening. Systemen måste anpassas lika snabbt för att kännas naturliga.
Behandla latens som en del av produktupplevelsen: Svar på mindre än en sekund avgör om en agent upplevs som konverserande eller mekanisk.
Bygg minnet som ett hämtningssystem, inte som en avskrift: Högkvalitativ komprimering och snabb vektorsökning ger en mer konsekvent personlighet än överdimensionerade kontextfönster.
Bygg om kontexten varje gång: Bekämpa inte avvikelse med större promptar. Genom att återställa kontexten för varje omgång hålls agenterna fokuserade medan samtalet flyter på.

Tillsammans utgör dessa lärdomar grunden för Tolans nästa innovationsfas och visar i vilken riktning röst-AI är på väg.

Utöka möjligheterna med röstbaserad AI

Sedan lanseringen i februari 2025 har Tolan vuxit till över 200 000 aktiva användare per månad. Betyget 4,8 stjärnor och över 100 000 recensioner i App Store visar hur väl systemet upprätthåller konsekvensen i långa, skiftande samtal. En recensent påpekade: ”De kommer ihåg saker vi pratade om för två dagar sedan och tar upp dem igen i dagens samtal.”

Dessa signaler avspeglar direkt den underliggande arkitekturen: modellanrop med låg latens, stegvis rekonstruktion av sammanhang samt modulära system för minne och persona. Tillsammans gör de det möjligt för Tolan att hålla koll på ämnesförändringar, bibehålla tonen och hålla svaren jordnära utan att förlita sig på stora, osäkra promptar.

Framöver planerar Tolan att öka sina investeringar i kontrollbarhet och finjustering av minnet, med fokus på tätare komprimering, förbättrad hämtningslogik och ökad justering av persona. Det långsiktiga målet är att utvidga vad ett röstgränssnitt kan vara: inte bara responsivt, utan också kontextmedvetet och dynamiskt i samtal.

”Nästa utmaning”, säger Quinten, ”är att bygga röstagenter som inte bara är responsiva, utan verkligen multimodala, med förmåga att integrera röst, syn och sammanhang i ett enda, styrbart system.”

Fortsätt läsa

Visa alla

Warps stora satsning på öppen källkod med GPT-5.5

Startupföretag27 maj 2026

Parloa builds service agents customers want to talk to

Startupföretag7 maj 2026

Gradient Labs ger varje bankkund en AI-kontoansvarig

Startupföretag1 apr. 2026