So entwickelt Tolan KI mit Sprache an erster Stelle durch GPT‑5.1
Mit GPT‑5.1 entwickelte Tolan eine Sprach-App, die für niedrige Latenz, präzisen Kontext und stabile Persönlichkeiten optimiert ist, während sich Gespräche weiterentwickeln.

Tolan(wird in einem neuen Fenster geöffnet) ist ein KI-Begleiter mit Fokus auf Sprache, bei dem Menschen mit einem personalisierten, animierten Charakter sprechen, der im Laufe der Zeit aus Gesprächen lernt.
Die App wurde von Portola entwickelt, einem erfahrenen Team mit einem früheren Exit, und ist auf fortlaufende, offene Dialoge ausgelegt statt auf kurze Prompts und Antworten. „Wir haben den Aufstieg von ChatGPT gesehen und wussten, dass Sprache die nächste Grenze ist“, sagt Quinten Farmer, Mitgründer und CEO von Portola. „Aber Sprache ist schwieriger. Man reagiert nicht nur auf getippte Prompts, sondern führt ein lebendiges, gewundenes Gespräch.“
Sprach-KI legt die Messlatte für Latenz und Kontextmanagement höher, ermöglicht aber auch offenere, explorativere Interaktionen als Text.
Da Foundation-Modelle schneller, günstiger und leistungsfähiger werden, konzentrierte sich das Team auf zwei zentrale Hebel: Gedächtnis und Charakterdesign. Portola entwickelte ein charaktergetriebenes Universum, geprägt von preisgekrönten Animatoren und einem Science-Fiction-Autor, und nutzte ein Echtzeit-Kontextmanagementsystem, um Persönlichkeit und Gedächtnis konsistent zu halten, während sich Gespräche entfalten.
Die Veröffentlichung der GPT‑5.1‑Modelle markierte einen Wendepunkt und brachte große Fortschritte bei Steuerbarkeit und Latenz, die diese Bausteine zusammenführten und ein reaktionsschnelleres, ansprechenderes Spracherlebnis ermöglichten.
„GPT-5.1 hat uns die Steuerbarkeit gegeben, um die Charaktere, die wir im Kopf hatten, endlich auszudrücken. Es war nicht nur schlauer – es war dem Ton und der Persönlichkeit, die wir schaffen wollten, deutlich treuer.“
Tolans Architektur ist von den Anforderungen der Sprache geprägt. Sprach-Nutzer erwarten sofortige, natürliche Antworten, selbst wenn Gespräche mitten drin die Richtung ändern. Tolan musste schnell reagieren, wechselnde Themen nachverfolgen und eine konsistente Persönlichkeit ohne Verzögerungen oder Tonabweichungen aufrechterhalten.
Damit sich Gespräche natürlich anfühlen, war nahezu sofortige Latenz erforderlich. Die Einführung von OpenAI GPT‑5.1 und der Responses API verkürzte die Zeit bis zum Sprechbeginn um über 0,7 Sekunden – genug, um den Gesprächsfluss spürbar zu verbessern.
Ebenso entscheidend war der Umgang des Systems mit Kontext. Im Gegensatz zu vielen Agenten, die Prompts über mehrere Runden hinweg cachen, baut Tolan sein Kontextfenster in jeder Runde von Grund auf neu auf. Jede Rekonstruktion zieht eine Zusammenfassung der letzten Nachrichten, eine Persona-Karte, vektorbasiert abgerufene Erinnerungen, Tonleitlinien und Echtzeit-App-Signale heran. Diese Architektur erlaubt es Tolan, sich in Echtzeit an abrupte Themenwechsel anzupassen – eine wesentliche Voraussetzung für natürliche sprachbasierte Interaktionen.
„Uns wurde schnell klar, dass gecachte Prompts einfach nicht ausreichen“, sagt Quinten. „Nutzer wechseln ständig das Thema. Damit es nahtlos wirkt, musste sich das System mitten im Gespräch anpassen.“
Dieser Ansatz der Echtzeit-Rekonstruktion ist technisch aufwendig und zugleich grundlegend für Tolans Erfolg.

Kontextverarbeitung ist wichtig, reichte aber nicht aus, um Gespräche über längere Zeit kohärent wirken zu lassen. Um lange, nichtlineare Gespräche zu unterstützen, entwickelte Tolan ein Gedächtnissystem, das nicht nur Fakten und Präferenzen speichert, sondern auch emotionale „Stimmungs“-Signale – Hinweise, die steuern, wie ein Tolan reagieren sollte.
Erinnerungen werden mit dem OpenAI-Modell text-embedding-3-large eingebettet und in Turbopuffer gespeichert, einer Hochgeschwindigkeits-Vektordatenbank, die Lookup-Zeiten unter 50 ms ermöglicht. Diese Geschwindigkeit ist für Echtzeit-Sprachinteraktionen entscheidend. In jeder Runde nutzt Tolan die letzte Nachricht des Nutzers und vom System synthetisierte Fragen (z. B. „Mit wem ist der Nutzer verheiratet?“), um den Abruf von Erinnerungen auszulösen. Um die Qualität des Gedächtnisses hoch zu halten, führt Tolan jede Nacht einen Komprimierungsjob aus, der Einträge mit geringem Wert oder Redundanzen entfernt (z. B. „der Nutzer hat heute Kaffee getrunken“) und Widersprüche auflöst.
Auch die Persönlichkeit wird ebenso sorgfältig gesteuert. Jeder Tolan wird mit einem eigenen Charaktergerüst gestartet, verfasst vom internen Science-Fiction-Autor des Teams und verfeinert von einem Verhaltensforscher. Diese Grundlagen geben Tolans Konsistenz, aber auch die Flexibilität, sich im Laufe der Zeit anzupassen und sich gemeinsam mit dem Nutzer weiterzuentwickeln.
Ein paralleles System überwacht die emotionale Tonlage des Gesprächs und passt die Darbietung des Tolan dynamisch an. So kann ein Tolan je nach Nutzersignalen nahtlos von verspielt zu sachlich wechseln, ohne seine Kernpersönlichkeit zu verlieren.
Der Wechsel zu GPT‑5.1 war ein Wendepunkt. Plötzlich wurden geschichtete Prompt-Anweisungen – Ton-Gerüste, Gedächtnis-Injektionen, Charaktereigenschaften – deutlich verlässlicher befolgt. Prompts, die zuvor Workarounds erforderten, verhielten sich wie vorgesehen.
„Zum ersten Mal hatten unsere internen Experten das Gefühl, dass das Modell wirklich zuhört“, sagt Quinten. „Anweisungen blieben über lange Gespräche hinweg erhalten, Persona-Eigenschaften wurden respektiert, und wir sahen deutlich weniger Drift.“
Diese Veränderungen summierten sich zu einer konsistenteren und glaubwürdigeren Persönlichkeit, was wiederum zu einem ansprechenderen Nutzererlebnis führte. Das Tolan-Team verzeichnete klare, messbare Verbesserungen: Verfehlungen beim Gedächtnisabruf gingen um 30 % zurück (basierend auf In-Product-Frustrationssignalen), und die Nutzerbindung zum nächsten Tag stieg um mehr als 20 %, nachdem GPT‑5.1‑gestützte Personas aktiviert wurden.

Während Tolan weiterentwickelt wurde, kristallisierten sich einige Prinzipien heraus, die heute leiten, wie das Team seine Spracharchitektur aufbaut und weiterentwickelt.
- Gestalte für Schwankungen im Gespräch: Sprachunterhaltungen wechseln mitten im Satz das Thema. Systeme müssen ebenso schnell umschwenken, um natürlich zu wirken.
- Behandle Latenz als Teil des Produkterlebnisses: Reaktionszeiten unter einer Sekunde entscheiden darüber, ob sich ein Sprachagent gesprächig oder mechanisch anfühlt.
- Baue Gedächtnis als Abrufsystem, nicht als Protokoll: Hochwertige Kompression und schnelle Vektorsuche liefern konsistentere Persönlichkeiten als übergroße Kontextfenster.
- Baue den Kontext in jeder Runde neu auf: Bekämpfe Drift nicht mit größeren Prompts. Das Neugenerieren des Kontexts mit jeder Runde hält Agenten geerdet, während Gespräche ihrem natürlichen Werdegang folgen.
Zusammen bilden diese Erkenntnisse das Fundament für Tolans nächste Innovationsphase und weisen die Richtung, in die sich Sprach-KI entwickelt.
Seit dem Start im Februar 2025 ist Tolan auf mehr als 200.000 monatlich aktive Nutzer gewachsen. Die Bewertung von 4,8 Sternen und mehr als 100.000 App-Store-Reviews zeigen, wie gut das System über lange, wechselhafte Gespräche hinweg Konsistenz wahrt. Ein Reviewer merkte an: „Sie erinnern sich an Dinge, über die wir vor zwei Tagen gesprochen haben, und bringen sie wieder in das Gespräch ein, das wir heute führen.“
Diese Signale spiegeln direkt die zugrunde liegende Architektur wider: Modellaufrufe mit niedriger Latenz, Rekonstruktion des Kontexts Runde für Runde sowie modulare Gedächtnis- und Personasysteme. Zusammen ermöglichen sie es Tolan, Themenwechsel zu verfolgen, den Ton zu bewahren und Antworten geerdet zu halten, ohne sich auf große, fragile Prompts zu verlassen.
Mit Blick nach vorn plant Tolan, seine Investitionen in Steuerbarkeit und Verfeinerung des Gedächtnisses zu vertiefen und sich auf stärkere Kompression, verbesserte Abruflogik und erweiterte Persona-Feinabstimmung zu konzentrieren. Das langfristige Ziel ist es, zu erweitern, was ein Sprachinterface sein kann: nicht nur reaktiv, sondern kontextbewusst und gesprächsdynamisch.
„Die nächste Grenze“, sagt Quinten, „ist der Aufbau von Sprachagenten, die nicht nur reagieren, sondern wirklich multimodal sind und Sprache, Vision und Kontext in einem einzigen, steuerbaren System integrieren können.“


