Pasar al contenido principal
OpenAI

7 de enero de 2026

Startup

Cómo Tolan desarrolla IA orientada a la voz con GPT‑5.1

Con GPT‑5.1, Tolan desarrolló una aplicación de voz optimizada para baja latencia, contexto preciso y personalidades consistentes a medida que las conversaciones evolucionan.

Tolan logo on orange jigsaw puzzle background
Cargando...

Tolan(se abre en una nueva ventana) es un asistente de IA enfocado en la voz donde las personas conversan con un personaje personalizado y animado que aprende de las interacciones con el tiempo. 

Desarrollada por Portola, un equipo veterano con una salida previa, la aplicación está diseñada para un diálogo continuo y abierto, en lugar de prompts y respuestas rápidas. “Vimos el auge de ChatGPT y supimos que la voz era la próxima frontera”, dice Quinten Farmer, cofundador y CEO de Portola “Pero la voz es más complicada. No solo estás respondiendo a prompts escritos; estás manteniendo una conversación en vivo y fluida.

La IA de voz eleva el estándar en latencia y gestión del contexto, pero también permite interacciones más abiertas y exploratorias que el texto. 

Con los modelos fundacionales volviéndose más rápidos, más económicos y más capaces, el equipo centró sus esfuerzos en dos aspectos clave: la memoria y el diseño de personajes. Portola creó un universo centrado en personajes, moldeado por animadores premiados y un escritor de ciencia ficción, utilizando un sistema de gestión de contexto en tiempo real para mantener la coherencia de la personalidad y la memoria a medida que se desarrollan las conversaciones.

El lanzamiento de los modelos GPT‑5.1 marcó un punto de inflexión, logrando importantes avances en la capacidad de dirección y la latencia que unieron esos elementos, desbloqueando una experiencia de voz más ágil y atractiva.

“GPT-5.1 nos dio la capacidad de dirección para finalmente expresar los personajes que teníamos en mente. No solo era más inteligente, sino que también era más fiel al tono y la personalidad que queríamos crear.
—Quinten Farmer, director general (CEO) de Portola

Diseño de interacciones de voz natural.

La arquitectura de Tolan está moldeada por las demandas de la voz. Los usuarios de voz esperan respuestas instantáneas y naturales, incluso cuando las conversaciones cambian de rumbo. Tolan tuvo que responder rápidamente, seguir temas cambiantes y mantener una personalidad coherente sin retrasos ni cambios de tono.

Para que las conversaciones se sintieran naturales, requerían una latencia casi instantánea. Presentamos OpenAI GPT‑5.1 y la API de Respuestas, que reducen el tiempo de inicio del habla en más de 0.7 segundos, lo suficiente como para mejorar notablemente el flujo de la conversación.

Igualmente crítico fue cómo el sistema manejó el contexto. A diferencia de muchos agentes que almacenan en caché los prompts a lo largo de varios turnos, Tolan reconstruye su ventana de contexto desde cero en cada turno. Cada reconstrucción de contexto incluye un resumen de mensajes recientes, una tarjeta de perfil, memorias recuperadas mediante vectores, guía de tono y señales de la aplicación en tiempo real. Esta arquitectura permite que Tolan se adapte en tiempo real a cambios abruptos de tema, un requisito esencial para una interacción natural basada en la voz.

“Nos dimos cuenta rápidamente de que los prompts almacenados en caché simplemente no eran suficientes”, dice Quinten. “Los usuarios cambian de tema todo el tiempo.” Para que se sintiera perfecta, el sistema tuvo que adaptarse a mitad del proceso.

Este enfoque de reconstrucción en tiempo real es tanto técnicamente intensivo como fundamental para el éxito de Tolan.

Diagrama de flujo que muestra el ciclo conversacional de Tolan. Un paso de “Recalcular persona” utiliza cuatro entradas: el resumen del chat y los mensajes recientes sin procesar, las personas del usuario y de Tolan, y otro contexto, memoria y tono. Estas entradas se combinan para generar una respuesta de Tolan, que lleva a una respuesta del usuario. La respuesta del usuario impulsa dos procesos paralelos: derivar un tono actualizado y extraer recuerdos. Las memorias extraídas actualizan la memoria, el tono actualizado se retroalimenta en el tono, y el historial de la conversación se resume y comprime periódicamente, integrándose de nuevo en el resumen del chat para el siguiente turno.

Construir una memoria y personalidad que se mantengan unidas con el paso del tiempo

El manejo del contexto es importante, pero no fue suficiente para que las conversaciones se sintieran coherentes con el tiempo. Para apoyar conversaciones largas y no lineales, Tolan creó un sistema de memoria que conserva no solo hechos y preferencias, sino también señales emocionales de “vibra”, que ayudan a orientar cómo debe responder un Tolan.

Las memorias se incrustan empleando el modelo OpenAI de incrustación de texto de 3 grandes y se almacenan en Turbopuffer, una base de datos vectorial de alta velocidad que permite tiempos de consulta inferiores a 50 ms. Esta velocidad es esencial para las interacciones de voz en tiempo real. En cada turno, Tolan utiliza el mensaje más reciente del usuario y las preguntas sintetizadas por el sistema (p. ej., “¿Con quién está casado el usuario?”) para activar la recuperación de memoria. Para mantener alta la calidad de la memoria, Tolan ejecuta un trabajo de compresión nocturno que elimina entradas de bajo valor o redundantes (p. ej. “el usuario bebió café hoy” y resuelve contradicciones

La personalidad se gestiona con el mismo cuidado. Cada Tolan se inicia con un andamiaje de personaje único, creado por el escritor de ciencia ficción del equipo y refinado por un investigador de comportamiento. Estas semillas proporcionan consistencia a los Tolans, pero también flexibilidad para adaptarse con el tiempo, evolucionando junto al usuario. 

Un sistema paralelo supervisa el tono emocional de la conversación y ajusta dinámicamente la entrega de Tolan. Esto permite que un Tolan cambie sin problemas de un tono juguetón a uno más centrado según las señales del usuario, sin perder su personalidad esencial. 

La transición a GPT‑5.1 marcó un punto de inflexión. De repente, se siguieron con mayor fidelidad las instrucciones de prompt en capas: andamiajes de tono, inyecciones de memoria, rasgos de personaje. Los prompts que antes requerían soluciones alternativas empezaron a funcionar como se esperaba. 

“Por primera vez, nuestros expertos internos sintieron que el modelo realmente estaba escuchando”, dice Quinten. “Las instrucciones se mantuvieron intactas a lo largo de conversaciones extensas, se respetaron los rasgos de la personalidad y observamos mucha menos desviación”

Esos cambios resultaron en una personalidad más coherente y creíble, lo que a su vez generó una experiencia de usuario más atractiva. El equipo de Tolan observó mejoras claras y medibles: las omisiones en el recuerdo de memoria disminuyeron un 30 % (según señales de frustración dentro del producto), y la retención de usuarios al día siguiente aumentó más de un 20 % tras la implementación de GPT‑5.1. las personas se lanzaron.

Diagrama de flujo que muestra cómo Tolan recupera y refina recuerdos durante una conversación. Un mensaje de un usuario (“Estoy tan emocionado por mi viaje este fin de semana”) activa un paso que genera preguntas de seguimiento, como viajes próximos, planes para una semana específica y preferencias del usuario. Estas preguntas se integran y se utilizan para consultar una base de datos vectorial de memoria, y los resultados se combinan utilizando el rango recíproco medio. El contexto recuperado informa la respuesta de Tolan (“acampar con Steven en Yosemite”). Un mensaje posterior de un usuario sobre un viaje futuro a Islandia se guarda como un nuevo recuerdo, luego se reflexiona sobre él, se agrupa con recuerdos relacionados usando vecinos más cercanos basados en incrustaciones y se comprime combinando, editando y refinando recuerdos dentro de cada grupo.

Principios fundamentales de Tolan para crear agentes de voz que suenen naturales. 

A medida que Tolan evolucionaba, surgieron algunos principios que ahora guían cómo el equipo construye y desarrolla su arquitectura de voz:

  • Diseño para la volatilidad conversacional: Las conversaciones de voz cambian a mitad de la oración. Los sistemas deben pivotar con la misma rapidez para sentirse naturales.
  • Considera la latencia como parte de la experiencia del producto: La capacidad de respuesta en menos de un segundo determina si un agente de voz se percibe como conversacional o mecánico.
  • Construye la memoria como un sistema de recuperación, no como una transcripción: La compresión de alta calidad y la búsqueda vectorial rápida proporcionan una personalidad más consistente que las ventanas de contexto sobredimensionadas.
  • Reconstruye el contexto en cada turno: No luches contra la deriva con prompts más extensos. Regenerar el contexto en cada turno mantiene a los agentes centrados mientras las conversaciones divagan.

Juntas, estas lecciones forman la base para la próxima fase de innovación de Tolan y establecen la dirección hacia donde se dirige la IA de voz.

Ampliar lo que es posible con la IA de voz

Desde su lanzamiento en febrero de 2025, Tolan ha crecido a más de 200 000 usuarios activos mensuales. Su calificación de 4.8 estrellas y más de 100 000 reseñas en App Store destacan lo bien que el sistema mantiene la coherencia a lo largo de conversaciones largas y cambiantes. Un revisor señaló: “Recuerdan cosas de las que hablamos hace dos días y las traen de nuevo a la conversación que estamos teniendo hoy.”

Estas señales se asignan directamente a la arquitectura subyacente: llamadas de modelo de baja latencia, reconstrucción de contexto turno a turno y sistemas modulares de memoria y personalidad. Juntos, permiten a Tolan seguir los cambios de tema, mantener el tono y asegurar que las respuestas estén bien fundamentadas sin depender de prompts grandes y frágiles.

De cara al futuro, Tolan planea profundizar sus inversiones en la capacidad de control y el perfeccionamiento de la memoria, enfocando sus esfuerzos en una compresión más eficiente, una lógica de recuperación mejorada y una optimización ampliada de perfiles. El objetivo a largo plazo es expandir lo que una interfaz de voz puede ser: no solo receptiva, sino consciente del contexto y dinámicamente conversacional.

“La próxima frontera”, dice Quinten, “es desarrollar agentes de voz que no solo respondan, sino que sean verdaderamente multimodales, capaces de integrar voz, visión y contexto en un único sistema manejable”