Como a Tolan desenvolve IA orientada por voz com o GPT‑5.1

Com o GPT‑5.1, a Tolan desenvolveu uma aplicação de voz otimizada para baixa latência, contexto preciso e personalidades estáveis à medida que as conversas evoluem.

A carregar…

Tolan⁠(abre numa nova janela) é um assistente virtual com IA que utiliza a voz para interagir com uma personagem animada e personalizada, que aprende com as conversas ao longo do tempo.

Desenvolvida pela Portola, uma equipa experiente com um historial de sucesso noutros negócios, a aplicação foi concebida para um diálogo contínuo e aberto, em vez de perguntas e respostas rápidas. "Vimos a ascensão do ChatGPT e soubemos que a voz era a próxima fronteira", afirma Quinten Farmer, cofundador e CEO da Portola "Mas a voz é mais difícil. Não estás apenas a responder a prompts escritos; estás a ter uma conversa ao vivo e fluida."

A IA por voz eleva a fasquia em termos de latência e gestão de contexto, mas também possibilita interações mais abertas e exploratórias do que o texto.

Com os modelos base a tornarem-se mais rápidos, baratos e mais capazes, a equipa concentrou os seus esforços em dois aspetos principais: memória e design de personagens. A Portola criou um universo centrado nas personagens, moldado por animadores premiados e um escritor de ficção científica, utilizando um sistema de gestão de contexto em tempo real para manter a personalidade e a memória consistentes à medida que as conversas se desenrolam.

O lançamento dos modelos GPT‑5.1 marcou um ponto de viragem, proporcionando ganhos significativos em termos de influenciabilidade e latência, que reuniram estes elementos e desbloquearam uma experiência de voz mais responsiva e envolvente.

“O GPT-5.1 deu-nos a capacidade de finalmente expressar as personagens que tínhamos em mente. Não era apenas mais inteligente — era mais fiel ao tom e à personalidade que queríamos criar.”

—Quinten Farmer, CEO, Portola

Conceber interações de voz naturais

A arquitetura da Tolan é moldada pelas exigências da voz. Os utilizadores de voz esperam respostas instantâneas e naturais, mesmo quando as conversas mudam de rumo a meio do processo. A Tolan tinha de responder rapidamente, acompanhar as mudanças de assunto e manter uma personalidade consistente, sem hesitação ou mudança de tom.

Para parecerem naturais, as conversas exigiam uma latência quase instantânea. A introdução do OpenAI GPT‑5.1 e da Responses API reduziu o tempo de início da fala em mais de 0,7 segundos — o suficiente para melhorar consideravelmente o fluxo da conversa.

Igualmente importante foi a forma como o sistema lidou com o contexto. Ao contrário de muitos agentes que armazenam prompts em cache ao longo de várias interações, a Tolan reconstrói a sua janela de contexto do zero a cada interação. Cada reconstrução de contexto inclui um resumo das mensagens recentes, um cartão de persona, memórias recuperadas por vetores, orientações de tom e sinais em tempo real da aplicação. Esta arquitetura permite que a Tolan se adapte em tempo real a mudanças abruptas de assunto, um requisito essencial para uma interação natural baseada na voz.

"Percebemos rapidamente que os prompts em cache simplesmente não eram suficientes", diz Quinten. "Os utilizadores mudam de assunto o tempo todo. Para que a experiência fosse perfeita, o sistema teve de se adaptar a meio do processo."

Esta abordagem de reconstrução em tempo real é tecnicamente exigente e fundamental para o sucesso da Tolan.

Fluxograma que mostra o ciclo de conversação de Tolan. A etapa “Recalcular persona” utiliza quatro entradas, resumo do chat e mensagens recentes em bruto, personas do utilizador e de Tolan, e outros contextos, memória e tom. Estas entradas combinam-se para gerar uma resposta Tolan, que leva a uma resposta do utilizador. A resposta do utilizador desencadeia então dois processos paralelos: derivar um tom atualizado e extrair memórias. As memórias extraídas atualizam a memória, o tom atualizado alimenta novamente o tom, e o histórico da conversa é periodicamente resumido e comprimido, regressando ao resumo do chat para a interação seguinte.

Construir memórias e personalidade que se mantêm coesas ao longo do tempo

A gestão do contexto é importante, mas não foi suficiente para manter as conversas coerentes ao longo do tempo. Para suportar conversas longas e não lineares, a Tolan construiu um sistema de memória que retém não só factos e preferências, mas também sinais emocionais de "energia" — pistas que ajudam a direcionar a forma como uma Tolan deve responder.

As memórias são incorporadas utilizando o modelo OpenAI text-embedding-3-large e armazenadas no Turbopuffer, uma base de dados vetorial de alta velocidade que permite tempos de pesquisa inferiores a 50 ms. Esta velocidade é essencial para interações de voz em tempo real. A cada interação, a Tolan utiliza a mensagem mais recente do utilizador e perguntas sintetizadas pelo sistema (por exemplo, "Com quem é que o utilizador é casado?") para ativar a recuperação de memórias. Para manter a elevada qualidade da memória, a Tolan executa uma tarefa de compressão noturna que remove entradas redundantes ou de baixo valor (p.e.: "o utilizador tomou café hoje") e resolve contradições.

A personalidade é gerida com o mesmo cuidado. Cada Tolan é concebida com uma estrutura de personalidade distinta, criada pelo escritor de ficção científica da equipa e refinada por um investigador comportamental. Estas sementes conferem consistência às Tolan, mas também flexibilidade para se adaptar ao longo do tempo, evoluindo juntamente com o utilizador.

Um sistema paralelo monitoriza o tom emocional da conversa e ajusta dinamicamente o discurso da Tolan. Isto permite que uma Tolan alterne perfeitamente entre um comportamento lúdico e um comportamento mais sóbrio, dependendo das indicações do utilizador, sem perder a sua essência.

A transição para o GPT‑5.1 foi um ponto de viragem. De repente, instruções complexas — como a estrutura de tom, o reforço da memória e as características das personagens — passaram a ser seguidas de forma mais fiel. Os prompts que antes exigiam soluções alternativas começaram a comportar-se como pretendido.

“Pela primeira vez, os nossos especialistas internos sentiram que o modelo estava realmente a ouvir”, diz Quinten. “As instruções mantiveram-se intactas em conversas longas , as características de cada persona foram respeitadas e observámos muito menos desvios.”

Estas mudanças resultaram numa personalidade mais consistente e credível, o que, por sua vez, criou uma experiência de utilizador mais envolvente. A equipa da Tolan observou ganhos claros e mensuráveis: as falhas de memorização diminuíram 30% (com base em sinais de frustração no produto) e a retenção de utilizadores no dia seguinte aumentou mais de 20% após a implementação do GPT‑5.1–as personas entraram em funcionamento.

Fluxograma que ilustra como a Tolan recupera e refina memórias durante uma conversa. Uma mensagem de um utilizador (“Estou muito entusiasmado para a minha viagem este fim de semana”) desencadeia um passo que sintetiza questões de acompanhamento, como viagens futuras, planos para uma semana específica e preferências do utilizador. Estas questões são incorporadas e utilizadas para consultar uma base de dados vetorial de memória, com os resultados combinados utilizando a classificação recíproca média. O contexto obtido informa a resposta da Tolan (“acampar com o Steven em Yosemite”). Uma mensagem posterior do utilizador sobre uma futura viagem à Islândia é armazenada como uma nova memória, posteriormente analisada, agrupada com memórias relacionadas utilizando o algoritmo k-vizinhos mais próximos baseado na incorporação e comprimida através da combinação, edição e refinamento de memórias dentro de cada grupo.

Os princípios fundamentais da Tolan para a criação de agentes de voz naturais

À medida que a Tolan evoluiu, surgiram alguns princípios que agora orientam a forma como a equipa constrói e desenvolve a sua arquitetura de voz:

Design para a volatilidade conversacional: as conversas por voz mudam a meio da frase. Os sistemas têm de se adaptar com a mesma rapidez para parecerem naturais.
Trata a latência como parte da experiência do produto: a capacidade de resposta em menos de um segundo determina se um agente de voz parece conversacional ou mecânico.
Constrói a memória como um sistema de recuperação, não como uma transcrição: a compressão de alta qualidade e a pesquisa vetorial rápida oferecem uma personalidade mais consistente do que janelas de contexto sobredimensionadas.
Reconstrói o contexto em cada interação: não lutes contra o desvio com prompts maiores. Regenerar o contexto a cada interação mantém os agentes enraizados enquanto as conversas divagam.

Em conjunto, estas lições constituem a base para a próxima fase de inovação da Tolan e definem a direção para onde a IA de voz está a caminhar.

Expandir o que é possível com a IA de voz

Desde o seu lançamento em fevereiro de 2025, a Tolan cresceu para mais de 200 mil utilizadores ativos mensais. A sua classificação de 4,8 estrelas e mais de 100 mil avaliações na App Store destacam o quão bem o sistema mantém a consistência em conversas longas e com mudanças de rumo. Um dos utilizadores observou: "Lembram-se de coisas sobre as quais falámos há dois dias e trazem-nas de volta para a conversa que estamos a ter hoje."

Estes sinais correspondem diretamente à arquitetura subjacente: chamadas de modelo de baixa latência, reconstrução de contexto a cada interação e sistemas modulares de memória e persona. Em conjunto, permitem que a Tolan acompanhe as mudanças de tópico, preserve o tom e mantenha as respostas fundamentadas sem depender de prompts grandes e frágeis.

Olhando para o futuro, a Tolan planeia aprofundar os seus investimentos em influenciabilidade e aperfeiçoamento da memória, concentrando os seus esforços numa compressão mais precisa, numa lógica de recuperação melhorada e num ajuste de persona alargado. O objetivo a longo prazo é expandir o que uma interface de voz pode ser: não só responsiva, mas também contextualizada e dinâmica em termos de conversação.

“A próxima fronteira”, diz Quinten, “é criar agentes de voz que não sejam apenas responsivos, mas verdadeiramente multimodais, capazes de integrar voz, visão e contexto num único sistema controlável.”

Continuar a ler

Ver tudo

A aposta da Warp em criar open source com GPT-5.5

Startup27/05/2026

Parloa builds service agents customers want to talk to

Startup7/05/2026

Gradient Labs dá a cada cliente bancário um gestor de conta de IA

Startup1/04/2026