Pular para o conteúdo principal
OpenAI

7 de janeiro de 2026

Startup

Como Tolan cria IA com foco em voz usando GPT‑5.1

Com GPT‑5.1, A Tolan desenvolveu um aplicativo de voz otimizado para baixa latência, contexto preciso e personalidades estáveis conforme as conversas evoluem.

Tolan logo on orange jigsaw puzzle background
Carregando…

Tolan(abre em uma nova janela) é um assistente virtual com inteligência artificial que utiliza a voz para interagir com um personagem animado e personalizado, que aprende com as conversas ao longo do tempo. 

Desenvolvido pela Portola, uma equipe experiente com histórico de sucesso em outros negócios, o aplicativo foi projetado para um diálogo contínuo e aberto, em vez de perguntas e respostas rápidas. “Observamos o surgimento do ChatGPT e sabíamos que a voz era a próxima fronteira”, afirma Quinten Farmer, cofundador e CEO da Portola. “Mas a voz é mais difícil.” Você não está apenas respondendo a instruções digitadas; você está mantendo uma conversa ao vivo e espontânea.”

A inteligência artificial por voz eleva o padrão em termos de latência e gerenciamento de contexto, mas também possibilita interações mais abertas e exploratórias do que o texto. 

Com os modelos de base se tornando mais rápidos, baratos e mais capazes, a equipe concentrou seus esforços em duas alavancas principais: memória e design de caracteres. A Portola construiu um universo centrado nos personagens, moldado por animadores premiados e um escritor de ficção científica, usando um sistema de gerenciamento de contexto em tempo real para manter a personalidade e a memória consistentes à medida que as conversas se desenrolam.

O lançamento dos modelos GPT‑5.1 marcou um ponto de virada, proporcionando ganhos significativos em dirigibilidade e latência, que reuniram esses elementos e desbloquearam uma experiência de voz mais responsiva e envolvente.

“O GPT-5.1 nos deu a capacidade de finalmente expressar os personagens que tínhamos em mente.” Não era apenas mais inteligente — era mais fiel ao tom e à personalidade que queríamos criar.”
—Quinten Farmer, CEO, Portola

Projetando para interações de voz naturais

A arquitetura de Tolan é moldada pelas demandas da voz. Usuários de voz esperam respostas instantâneas e naturais, mesmo quando as conversas mudam de rumo no meio do processo. Tolan precisava responder rapidamente, acompanhar as mudanças de assunto e manter uma personalidade consistente, sem hesitação ou mudança de tom.

Para parecerem naturais, as conversas exigiam uma latência quase instantânea. A introdução do OpenAI GPT‑5.1 e da API Responses reduz o tempo de início da fala em mais de 0,7 segundos — o suficiente para melhorar consideravelmente o fluxo da conversa.

Igualmente importante foi a forma como o sistema lidou com o contexto. Diferentemente de muitos agentes que armazenam em cache as instruções ao longo de vários turnos, Tolan reconstrói sua janela de contexto do zero a cada turno. Cada reconstrução de contexto inclui um resumo das mensagens recentes, um cartão de perfil, memórias recuperadas por vetor, orientações de tom e sinais do aplicativo em tempo real. Essa arquitetura permite que o Tolan se adapte em tempo real a mudanças abruptas de assunto, um requisito essencial para uma interação natural baseada em voz.

“Percebemos rapidamente que os prompts em cache simplesmente não funcionavam”, diz Quinten. “Os usuários mudam de assunto o tempo todo.” Para que a experiência fosse perfeita, o sistema teve que se adaptar no meio do processo.”

Essa abordagem de reconstrução em tempo real é tanto tecnicamente intensiva quanto fundamental para o sucesso da Tolan.

Fluxograma mostrando o ciclo de conversação de Tolan. A etapa “Recalcular persona” utiliza quatro entradas: resumo do chat e mensagens brutas recentes, personas do usuário e de Tolan, além de outros contextos, memória e tom. Esses dados de entrada se combinam para gerar uma resposta Tolan, que leva a uma resposta do usuário. A resposta do usuário então impulsiona dois processos paralelos: derivar um tom atualizado e extrair memórias. As memórias extraídas atualizam a memória, o tom atualizado retroalimenta o tom, e o histórico da conversa é periodicamente resumido e compactado, retornando ao resumo do bate-papo para a próxima interação.

Construindo memórias e personalidade que se mantêm unidas ao longo do tempo.

O tratamento do contexto é importante, mas não foi suficiente para manter a coerência das conversas ao longo do tempo. Para dar suporte a conversas longas e não lineares, Tolan construiu um sistema de memória que retém não apenas fatos e preferências, mas também sinais emocionais de "vibração" — pistas que ajudam a direcionar como um Tolan deve responder.

As memórias são incorporadas usando o modelo OpenAI text-embedding-3-large e armazenadas no Turbopuffer, um banco de dados vetorial de alta velocidade que permite tempos de pesquisa inferiores a 50 ms. Essa velocidade é essencial para interações de voz em tempo real. A cada turno, Tolan usa a mensagem mais recente do usuário e perguntas sintetizadas pelo sistema (por exemplo, "Com quem o usuário é casado?") para ativar a recuperação de memórias. Para manter a alta qualidade da memória, o Tolan executa uma tarefa de compressão noturna que remove entradas redundantes ou de baixo valor (por exemplo, “o usuário tomou café hoje”) e resolve contradições.

A personalidade é gerenciada com o mesmo cuidado. Cada Tolan é concebido com uma estrutura de personalidade distinta, criada pelo escritor de ficção científica da equipe e refinada por um pesquisador comportamental. Essas sementes conferem consistência à Tolans, mas também flexibilidade para se adaptar ao longo do tempo, evoluindo juntamente com o usuário. 

Um sistema paralelo monitora o tom emocional da conversa e ajusta dinamicamente a fala do Tolan. Isso permite que um Tolan alterne perfeitamente entre um comportamento lúdico e um comportamento mais sóbrio, dependendo das dicas do usuário, sem perder sua personalidade essencial. 

A transição para o GPT‑5.1 foi um ponto de virada. De repente, prompts em camadas — andaimes tonais, injeções de memória, traços de Personagem — foram seguidos com mais fidelidade. Prompts que antes exigiam soluções alternativas começaram a se comportar como esperado. 

“Pela primeira vez, nossos especialistas internos sentiram que o modelo estava realmente ouvindo”, diz Quinten. “As instruções permaneceram intactas ao longo de longas conversas, as características da personalidade foram respeitadas e vimos muito menos desvios.”

Essas mudanças resultaram em uma personalidade mais consistente e crível, o que, por sua vez, criou uma experiência de usuário mais envolvente. A equipe da Tolan observou ganhos claros e mensuráveis: as falhas de memorização diminuíram 30% (com base em sinais de frustração dentro do produto) e a retenção de usuários no dia seguinte aumentou mais de 20% após a implementação do GPT‑5.1. Personagens foram lançadas.

Fluxograma ilustrando como Tolan recupera e refina memórias durante uma conversa. Uma mensagem do usuário (“Estou muito animado para minha viagem neste fim de semana”) aciona uma etapa que sintetiza perguntas de acompanhamento, como viagens futuras, planos para uma semana específica e preferências do usuário. Essas perguntas são incorporadas e usadas para consultar um banco de dados vetorial de memória, com os resultados combinados usando a média recíproca do ranking. O contexto obtido informa a resposta de Tolan (“acampando com Steven em Yosemite”). Uma mensagem posterior do usuário sobre uma futura viagem à Islândia é armazenada como uma nova memória, posteriormente analisada, agrupada com memórias relacionadas usando o algoritmo k-vizinhos mais próximos baseado em incorporação e comprimida por meio da combinação, edição e refinamento de memórias dentro de cada grupo.

Princípios fundamentais da Tolan para construir agentes de voz naturais. 

À medida que o Tolan evoluiu, alguns princípios emergiram e agora orientam a forma como a equipe constrói e desenvolve sua arquitetura de voz:

  • Design para volatilidade conversacional: conversas por voz mudam no meio da frase. Os sistemas precisam se adaptar com a mesma rapidez para parecerem naturais.
  • Considere a latência como parte da experiência do produto: a capacidade de resposta em menos de um segundo define se um assistente de voz parece conversacional ou mecânico.
  • Construa a memória como um sistema de recuperação, não como uma transcrição: compressão de alta qualidade e busca vetorial rápida proporcionam uma personalidade mais consistente do que janelas de contexto superdimensionadas.
  • Reconstrua o contexto a cada turno: Não combata a deriva com prompts maiores. Regenerar o contexto a cada turno mantém os agentes ancorados enquanto as conversas se tornam sinuosas.

Em conjunto, essas lições formam a base para a próxima fase de inovação da Tolan e definem a direção para onde a IA de voz está caminhando.

Ampliando o que é possível com IA de voz

Desde o seu lançamento em fevereiro de 2025, o Tolan cresceu para mais de 200.000 usuários ativos mensais. Sua classificação de 4,8 estrelas e mais de 100.000 avaliações na App Store destacam o quão bem o sistema mantém a consistência em conversas longas e com mudanças de rumo. Um dos avaliadores observou: "Eles se lembram de coisas que conversamos há dois dias e trazem isso de volta para a conversa que estamos tendo hoje."

Esses sinais mapeiam diretamente a arquitetura subjacente: chamadas de modelo de baixa latência, reconstrução de contexto turno a turno e sistemas modulares de memória e persona. Em conjunto, permitem que Tolan acompanhe as mudanças de tópico, preserve o tom e mantenha as respostas fundamentadas sem depender de instruções amplas e frágeis.

Olhando para o futuro, a Tolan planeja aprofundar seus investimentos em dirigibilidade e refinamento de memória, concentrando seus esforços em compressão mais precisa, lógica de recuperação aprimorada e ajuste de personalidade expandido. O objetivo a longo prazo é expandir o que uma interface de voz pode ser: não apenas responsiva, mas também contextualizada e dinâmica em termos de conversação.

“A próxima fronteira”, diz Quinten, “é desenvolver agentes de voz que não sejam apenas responsivos, mas verdadeiramente multimodais, capazes de integrar voz, visão e contexto em um único sistema controlável.”