Hoe Tolan spraak-AI ontwikkelt met GPT‑5.1

Met GPT‑5.1 heeft Tolan een spraak-app ontwikkeld die is geoptimaliseerd voor lage latency, accurate context en stabiele persoonlijkheden naarmate gesprekken zich ontwikkelen.

Bezig met laden...

Tolan⁠(opent in een nieuw venster) is een spraakgestuurde AI-metgezel waarmee gebruikers praten via een gepersonaliseerd, geanimeerd personage dat leert van eerdere gesprekken.

De app is ontwikkeld door Portola, een ervaren team met een succesvolle eerdere exit. Het ontwerp richt zich op langlopende, open dialogen in plaats van snelle commando's en antwoorden. "We zagen de opkomst van ChatGPT en wisten meteen: spraak is de volgende stap," zegt Quinten Farmer, medeoprichter en CEO van Portola. "Maar spraak is complexer. Je reageert niet alleen op getypte prompts; je voert een live gesprek dat alle kanten op kan gaan."

Spraak-AI legt de lat hoger wat betreft latentie en contextbeheer, maar maakt ook meer open en verkennende interacties mogelijk dan tekst.

Nu basismodellen sneller, goedkoper en capabeler worden, richtte het team zich op twee belangrijke pijlers: geheugen en karakterontwerp. Portola bouwde een universum rondom personages, vormgegeven door bekroonde animators en een sciencefictionschrijver. Een real-time systeem voor contextbeheer zorgt ervoor dat persoonlijkheid en geheugen consistent blijven naarmate het gesprek vordert.

De release van de GPT‑5.1‑modellen vormde een keerpunt. Dankzij grote verbeteringen in aanstuurbaarheid en latency vielen de puzzelstukjes op hun plek, wat leidde tot een responsievere en boeiendere spraakervaring.

"GPT-5.1 gaf ons de mogelijkheid om de personages eindelijk neer te zetten zoals we voor ogen hadden. Het model was niet alleen slimmer, maar bleef ook trouwer aan de toon en persoonlijkheid die we wilden creëren."

—Quinten Farmer, CEO van Portola

Ontwerpen voor natuurlijke spraakinteracties

De architectuur van Tolan is volledig afgestemd op de eisen van spraak. Gebruikers verwachten directe, natuurlijke reacties, zelfs als het gesprek plotseling een andere wending neemt. Tolan moest snel kunnen reageren, wisselende onderwerpen bijhouden en een consistente persoonlijkheid behouden, zonder vertraging of verandering in toon.

Voor een natuurlijk gevoel is een vrijwel onmiddellijke reactie noodzakelijk. De introductie van OpenAI GPT‑5.1 en de Responses API verkortte de starttijd van de spraakrespons met meer dan 0,7 seconden: genoeg voor een merkbare verbetering van de gespreksflow.

Net zo cruciaal was de manier waarop het systeem met context omging. In tegenstelling tot veel agents die prompts over meerdere beurten cachen, bouwt Tolan zijn contextvenster bij elke beurt volledig opnieuw op. Elke reconstructie haalt een samenvatting op van recente berichten, een personageprofiel, via vectoren opgehaalde herinneringen, richtlijnen voor de toon en real-time signalen uit de app. Dankzij deze architectuur kan Tolan zich real-time aanpassen aan abrupte veranderingen van onderwerp: een essentiële vereiste voor een natuurlijk spraakgesprek.

"We realiseerden ons al snel dat gecachte prompts niet voldeden," zegt Quinten. "Gebruikers veranderen voortdurend van onderwerp. Voor een vloeiende ervaring moest het systeem direct kunnen schakelen."

Deze aanpak van real-time reconstructie is technisch intensief, maar vormt de basis van Tolan's succes.

Stroomdiagram dat de gesprekscyclus van Tolan toont. Een stap 'Persona herberekenen' verwerkt vier inputs: de gesprekssamenvatting en recente onbewerkte berichten, gebruikers- en Tolan-persona's plus overige context, geheugen, en toon. Deze inputs worden gecombineerd om een reactie van Tolan te genereren, wat vervolgens leidt tot een reactie van de gebruiker. De reactie van de gebruiker start vervolgens twee parallelle processen: het afleiden van een bijgewerkte toon en het extraheren van herinneringen. Geëxtraheerde herinneringen werken het geheugen bij, de bijgewerkte toon wordt teruggevoerd naar de tooninput, en de gespreksgeschiedenis wordt periodiek opnieuw samengevat en gecomprimeerd, waarna het terugvloeit in de gesprekssamenvatting voor de volgende beurt.

Bouwen van een geheugen en persoonlijkheid die op de lange termijn consistent blijven

Goed contextbeheer is belangrijk, maar was niet genoeg om gesprekken op de lange termijn coherent te houden. Om lange, niet-lineaire gesprekken te ondersteunen, bouwde Tolan een geheugensysteem dat niet alleen feiten en voorkeuren onthoudt, maar ook emotionele signalen: aanwijzingen die helpen bepalen hoe een Tolan-personage moet reageren.

Herinneringen worden ingebed met het OpenAI text-embedding-3-large model en opgeslagen in Turbopuffer, een snelle vectordatabase die opzoektijden van minder dan 50 ms mogelijk maakt. Deze snelheid is essentieel voor real-time spraakinteracties. Bij elke beurt gebruikt Tolan het laatste bericht van de gebruiker en door het systeem gegenereerde vragen (bijv. "Met wie is de gebruiker getrouwd?") om relevante herinneringen op te halen. Om de kwaliteit van het geheugen hoog te houden, voert Tolan elke nacht een compressie uit. Hierbij worden overbodige of triviale items verwijderd (zoals "de gebruiker dronk vandaag koffie") en tegenstrijdigheden opgelost.

De persoonlijkheid wordt net zo zorgvuldig beheerd. Elke Tolan begint met een uniek karakterprofiel, geschreven door de eigen sciencefictionschrijver van het team en verder verfijnd door een gedragsonderzoeker. Deze basisinstellingen bieden Tolans consistentie, maar ook de flexibiliteit om zich na verloop van tijd aan te passen en met de gebruiker mee te groeien.

Een parallel systeem bewaakt de emotionele lading van het gesprek en past de manier waarop de Tolan reageert dynamisch aan. Hierdoor kan een Tolan naadloos schakelen tussen speels en serieus, afhankelijk van signalen van de gebruiker, zonder zijn kernpersoonlijkheid te verliezen.

De overstap naar GPT‑5.1 was een cruciaal moment. Ineens werden gelaagde prompt-instructies (zoals toonstructuren, geheugen-injecties en karaktereigenschappen) veel nauwkeuriger opgevolgd. Prompts waarvoor eerder workarounds nodig waren, werkten nu direct zoals bedoeld.

"Voor het eerst hadden onze interne experts het gevoel dat het model echt luisterde," zegt Quinten. "Instructies bleven overeind tijdens lange gesprekken, persoonlijkheidskenmerken werden gerespecteerd en we zagen veel minder drift."

Deze veranderingen zorgden samen voor een consistentere en geloofwaardigere persoonlijkheid, wat resulteerde in een betere gebruikerservaring. Het team van Tolan zag duidelijke, meetbare verbeteringen: het aantal geheugenfouten daalde met 30% (gebaseerd op frustratiesignalen in de app) en de gebruikersretentie na één dag steeg met ruim 20% nadat de persona's op basis van GPT‑5.1 live gingen.

Stroomdiagram dat illustreert hoe Tolan herinneringen ophaalt en verfijnt tijdens een gesprek. Een gebruikersbericht ("Ik heb zoveel zin in mijn reis dit weekend") triggert een stap die vervolgvragen genereert, zoals over aankomende reizen, plannen voor een specifieke week en gebruikersvoorkeuren. Deze vragen worden ingebed en gebruikt om een vector-database met herinneringen te bevragen, waarbij de resultaten worden samengevoegd via 'mean reciprocal rank'. De opgehaalde context vormt de basis voor Tolans reactie ("kamperen met Steven in Yosemite"). Een later bericht van de gebruiker over een toekomstige reis naar IJsland wordt opgeslagen als nieuwe herinnering, vervolgens geanalyseerd, geclusterd met gerelateerde herinneringen via 'embedding-based k-nearest neighbors', en gecomprimeerd door herinneringen binnen elk cluster te combineren, te bewerken en te verfijnen.

De kernprincipes van Tolan voor het ontwikkelen van natuurlijke spraakagents

Naarmate Tolan zich ontwikkelde, kwamen er enkele principes naar voren die nu leidend zijn voor hoe het team de spraakarchitectuur bouwt en doorontwikkelt:

Ontwerp voor gespreksdynamiek: Spraakgesprekken kunnen halverwege een zin van richting veranderen. Systemen moeten net zo snel kunnen schakelen om natuurlijk aan te voelen.
Zie latency als onderdeel van de productervaring: Responsiviteit van minder dan een seconde bepaalt of een spraakagent aanvoelt als een gesprekspartner of als een machine.
Bouw het geheugen als een ophaalsysteem, niet als een transcript: Hoogwaardige compressie en snelle vectorzoekopdrachten zorgen voor een consistentere persoonlijkheid dan te grote contextvensters.
Bouw de context elke beurt opnieuw op: Bestrijd 'drift' niet met grotere prompts. Door de context per beurt te regenereren, blijft de agent stabiel en bij de les, zelfs als het gesprek alle kanten op gaat.

Samen vormen deze lessen het fundament voor de volgende innovatiefase van Tolan en geven ze richting aan de toekomst van spraak-AI.

De grenzen verleggen van wat mogelijk is met spraak-AI

Sinds de lancering in februari 2025 is Tolan gegroeid naar meer dan 200.000 maandelijkse actieve gebruikers. De score van 4,8 sterren en meer dan 100.000 reviews in de App Store onderstrepen hoe goed het systeem consistent blijft tijdens lange, dynamische gesprekken. Een reviewer merkte op: "Hij onthoudt dingen waar we het twee dagen geleden over hadden en brengt die terug in het gesprek van vandaag."

Deze signalen zijn direct terug te voeren op de onderliggende architectuur: model-aanroepen met lage latency, contextreconstructie per gespreksbeurt, en modulaire geheugen- en persoonlijkheidssystemen. Samen zorgen ze ervoor dat Tolan veranderingen van onderwerp kan volgen, de toon behoudt en relevante antwoorden geeft, zonder afhankelijk te zijn van grote, foutgevoelige prompts.

Vooruitkijkend is Tolan van plan meer te investeren in stuurbaarheid en geheugenverfijning, met een focus op compactere compressie, verbeterde ophaallogica en uitgebreide persona-afstemming. Het langetermijndoel is om de mogelijkheden van een spraakinterface te verruimen: niet alleen responsief, maar ook contextbewust en dynamisch in gesprekken.

"De volgende stap," zegt Quinten, "is het bouwen van spraakagents die niet alleen responsief zijn, maar echt multimodaal: in staat om spraak, beeld en context te integreren in één stuurbaar systeem."

Andere interessante artikelen

Alles weergeven

Warps grote inzet op open source bouwen met GPT-5.5

Start-up27 mei 2026

Parloa builds service agents customers want to talk to

Start-up7 mei 2026

Gradient Labs geeft elke bankklant een AI-accountmanager

Start-up1 apr 2026