Come Tolan sviluppa l'IA voice-first grazie a GPT‑5.1
Grazie a GPT‑5.1, Tolan ha sviluppato un'app vocale ottimizzata per garantire bassa latenza, contesto accurato e personalità stabili man mano che le conversazioni proseguono.

Tolan(si apre in una nuova finestra) è un assistente AI voice-first che permette alle persone di parlare con un personaggio virtuale personalizzato che apprende dalle conversazioni nel corso del tempo.
Realizzata da Portola, un team di professionisti con una precedente esperienza nel settore, l'app è pensata per conversazioni continue e aperte, non per scambi rapidi di prompt e risposte. "Abbiamo assistito al successo di ChatGPT e abbiamo capito subito che la voce sarebbe stata la prossima frontiera", afferma Quinten Farmer, cofondatore e CEO di Portola. "Ma la voce è una sfida più complessa: non si tratta solo di rispondere a prompt digitati, ma di gestire una conversazione dal vivo e spontanea".
L'IA vocale alza l'asticella in termini di latenza e gestione del contesto, ma consente anche interazioni più aperte ed esplorative rispetto al testo.
Con i modelli di base che diventano sempre più veloci, economici e potenti, il team ha concentrato i propri sforzi su due fattori chiave: la memoria e la progettazione dei personaggi. Portola ha creato un universo basato sui personaggi, ideato da animatori pluripremiati e da uno scrittore di fantascienza, utilizzando un sistema di gestione del contesto in tempo reale per mantenere la personalità e la memoria coerenti nel corso delle conversazioni.
Il rilascio dei modelli GPT‑5.1 ha segnato un punto di svolta, offrendo notevoli miglioramenti in termini di manovrabilità e latenza che hanno permesso di integrare questi elementi, sbloccando un'esperienza vocale più reattiva e coinvolgente.
"GPT-5.1ci ha finalmente permesso di dare forma ai personaggi che avevamo in mente, offrendoci un controllo molto più preciso. Non era soltanto più intelligente: ma era anche più fedele al tono e alla personalità che volevamo creare".
L'architettura di Tolan è stata modellata in base alle esigenze della voce. Gli utenti vocali si aspettano risposte immediate e naturali, anche quando le conversazioni cambiano argomento improvvisamente. Tolan doveva rispondere rapidamente, seguire i continui cambiamenti di argomento e mantenere una personalità coerente senza ritardi o variazioni di tono.
Per risultare naturali, le conversazioni richiedevano una latenza quasi pari a zero. L'introduzione di OpenAI GPT‑5.1 e delle API delle risposte ha ridotto il tempo di avvio della conversazione di oltre 0,7 secondi, un miglioramento sufficiente a rendere il flusso della conversazione notevolmente più scorrevole.
Altrettanto fondamentale è stato il modo in cui il sistema ha gestito il contesto. A differenza di molti agenti che memorizzano nella cache i prompt di più turni, Tolan ricostruisce la sua finestra di contesto da zero ad ogni turno. Ogni ricostruzione del contesto include un riepilogo dei messaggi recenti, una scheda della personalità, memorie recuperate tramite vettori, indicazioni sul tono e segnali in tempo reale dell'app. Questa architettura permette a Tolan di adattarsi in tempo reale a improvvisi cambi di argomento, un requisito essenziale per un'interazione vocale naturale.
"Ci siamo resi conto rapidamente che i suggerimenti memorizzati nella cache non erano sufficienti", afferma Quinten. "Gli utenti cambiano argomento continuamente. Per garantire un'esperienza fluida, il sistema doveva adattarsi in tempo reale".
Questo approccio di ricostruzione in tempo reale è sia tecnicamente complesso che fondamentale per il successo di Tolan.

La gestione del contesto è importante, ma da sola non basta a far sì che le conversazioni rimangano coerenti nel tempo. Per gestire conversazioni lunghe e non lineari, Tolan ha creato un sistema di memoria che conserva non solo fatti e preferenze, ma anche segnali emotivi e relazionali, ovvero indizi che aiutano a orientare il modo in cui Tolan dovrebbe rispondere.
Le memorie vengono integrate utilizzando il modello OpenAI text-embedding-3-large e archiviate su Turbopuffer, un database vettoriale ad alta velocità, che consente tempi di ricerca inferiori ai 50 ms. Questa velocità è fondamentale per le interazioni vocali in tempo reale. Ad ogni turno, Tolan utilizza l'ultimo messaggio dell'utente e le domande sintetizzate dal sistema (ad esempio, "Con chi è sposato l'utente?") per attivare il richiamo della memoria. Per garantire un'elevata qualità della memoria, Tolan esegue ogni notte un processo di compressione che rimuove le voci di scarso valore o ridondanti (ad es., "l'utente ha bevuto caffè oggi") e risolve le contraddizioni.
Anche la personalità è gestita con la stessa attenzione. Ogni Tolan è dotato di una struttura di personaggio distinta, creata dallo scrittore di fantascienza del team e perfezionata da un ricercatore comportamentale. Queste elementi garantiscono coerenza, ma anche la flessibilità necessaria per adattarsi nel tempo, evolvendo insieme all'utente.
Un sistema parallelo monitora il tono emotivo della conversazione e adatta dinamicamente il modo di esprimersi di Tolan. Ciò permette a Tolan di passare con naturalezza da uno stile giocoso a uno più serio, in base ai segnali dell'utente, senza perdere la propria personalità di base.
Il passaggio a GPT‑5.1 ha rappresentato un punto di svolta. Improvvisamente, le istruzioni stratificate dei prompt (modelli di tono, richiami alla memoria, tratti della personalità)sono state seguite in modo più fedele. I prompt che un tempo richiedevano soluzioni alternative hanno iniziato a funzionare come previsto.
"Per la prima volta, i nostri esperti interni hanno avuto la sensazione che il modello fosse davvero in grado di ascoltare", afferma Quinten. "Le istruzioni restavano coerenti anche in conversazioni lunghe, i tratti della personalità venivano rispettati e abbiamo riscontrato molte meno discrepanze".
Queste modifiche hanno contribuito a creare una personalità più coerente e credibile, che a sua volta ha reso l'esperienza utente più coinvolgente. Il team di Tolan ha riscontrato vantaggi chiari e misurabili: gli errori di richiamo della memoria sono diminuiti del 30% (in base ai segnali di insoddisfazione rilevati nel prodotto) e la fidelizzazione degli utenti il giorno successivo è aumentata di oltre il 20%, dopo il lancio delle personalità potenziate da GPT‑5.1.

Man mano che Tolan si è evoluto, sono emersi alcuni principi che ora guidano il modo in cui il team costruisce e sviluppa la propria architettura vocale:
- Progettare in funzione della volatilità conversazionale: le conversazioni vocali cambiano anche a metà frase I sistemi devono adattarsi con la stessa rapidità per risultare naturali.
- Considerare la latenza come parte dell'esperienza del prodotto: una reattività inferiore al secondo determina se un agente vocale risulta naturale o meccanico.
- Strutturare la memoria come sistema di recupero, non come trascrizione: una compressione di alta qualità e ricerche vettoriali veloci garantiscono una personalità più coerente rispetto a finestre di contesto sovradimensionate.
- Ricostruire il contesto a ogni turno: non cercare di contrastare la perdita di coerenza con prompt più lunghi. Aggiornare il contesto a ogni turno permette agli agenti di restare coerenti anche quando la conversazione si sviluppa in modo non lineare.
Insieme, queste lezioni costituiscono le fondamenta della prossima fase di innovazione di Tolan e definiscono la direzione verso cui si sta muovendo l'IA vocale.
Dal suo lancio nel febbraio 2025, Tolan è cresciuto fino a raggiungere oltre 200.000 utenti attivi al mese. La sua valutazione di 4,8 stelle e oltre 100.000 recensioni sull'App Store evidenziano l'efficacia del sistema nel garantire la coerenza anche in conversazioni lunghe e con continui cambiamenti di argomento. Come sottolineato in una recensione, "ricordano cose di cui abbiamo parlato due giorni fa e le riportano nella conversazione che stiamo avendo oggi".
Questi segnali sono strettamente collegati all'architettura sottostante: richiami al modello a bassa latenza, ricostruzione del contesto turno per turno e sistemi modulari di memoria e personalità. Insieme, permettono a Tolan di monitorare i cambiamenti di argomento, preservare il tono e fornire risposte coerenti senza dipendere da prompt lunghi e fragili.
Guardando al futuro, Tolan intende intensificare i propri investimenti nella controllabilità e nel perfezionamento della memoria, concentrando i propri sforzi su una compressione più rigorosa, una logica di recupero migliorata e una maggiore personalizzazione. L'obiettivo a lungo termine è ampliare ciò che un'interfaccia vocale può offrire: non solo risposte immediate, ma anche consapevolezza del contesto e in grado di sostenere conversazioni dinamiche.
"La prossima frontiera", afferma Quinten, "è la creazione di agenti vocali che non siano solo reattivi, ma veramente multimodali, in grado di integrare voce, visione e contesto in un unico sistema controllabile".


