Saltar para o conteúdo principal
OpenAI

28 de agosto de 2025

ProdutoLançamento

Apresentamos as atualizações do gpt-realtime e da API Realtime para agentes de voz de produção

Estamos a lançar um modelo de conversão de voz em voz mais avançado e novos recursos da API, incluindo suporte para servidor MCP, entrada de imagem e chamadas telefónicas com SIP.

Interface estilizada que mostra uma interação por voz. O Centered é um leitor de áudio retangular com cantos arredondados, que apresenta uma pré-visualização da forma de onda, botão de play/pausa, indicador de estado "Agente online" e marcação de tempo de 00:35. Linhas curvas brancas com pontos atravessam a imagem, sugerindo movimento de áudio ao vivo ou de sinal. O fundo é de um azul vivo com formas de flores desfocadas em tons de rosa e roxo.
A carregar…

Hoje, estamos a disponibilizar a API Realtime ao público em geral, com novos recursos que permitem aos programadores e empresas criar agentes de voz fiáveis e prontos para produção. A API agora aceita servidores MCP remotos, entradas de imagem e chamadas telefónicas através do Protocolo de Iniciação de Sessão (SIP), capacitando mais os agentes de voz com acesso a ferramentas e contexto adicionais.

Também estamos a lançar o nosso modelo de conversão de voz para voz mais avançado até agora— o gpt-realtime. O novo modelo melhorou a capacidade de seguir instruções complexas, a chamada de ferramentas com precisão e a geração de fala, que soa mais natural e expressiva. É melhor a interpretar mensagens do sistema e prompts de programadores — seja na leitura fiel de textos de isenção de responsabilidade numa chamada de apoio, na repetição de alfanuméricos ou na transição fluida entre línguas a meio de uma frase. Lançamos também duas novas vozes, Cedar e Marin, disponíveis exclusivamente na API Realtime a partir de hoje.

Desde que lançámos a API Realtime em versão beta pública em outubro, milhares de programadores utilizaram a API e ajudaram a moldar as melhorias que lançamos hoje — otimizadas para fiabilidade, baixa latência e alta qualidade, para implementar agentes de voz com sucesso em produção. Ao contrário dos pipelines tradicionais, que encadeiam vários modelos de conversão de voz em texto e de texto em voz, a API Realtime processa e gera áudio diretamente através de um único modelo e API. Isto reduz a latência, preserva as nuances na fala e produz respostas mais naturais e expressivas.

“O novo modelo de conversão de voz em voz na API Realtime da OpenAI demonstra uma reflexão mais forte e uma fala mais natural, o que permite lidar com pedidos complexos e de várias etapas, como filtrar anúncios de acordo com as necessidades de estilo de vida ou orientar discussões sobre acessibilidade financeira com ferramentas como a nossa pontuação BuyAbility Dessa forma, procurar casa na Zillow ou explorar opções de financiamento torna-se tão natural quanto conversar com um amigo e ajuda a simplificar decisões omo comprar, vender e arrendar uma casa."

– Josh Weisberg, diretor de IA da Zillow

Apresentamos o gpt-realtime

O novo modelo de conversão de voz para voz— o gpt-realtime—é o nosso modelo de voz mais avançado para produção. Treinámos o modelo em estreita colaboração com os clientes para que se destacasse em tarefas reais, como apoio ao cliente, assistência pessoal e educação, alinhando-o com a forma como os programadores criam e implementam agentes de voz. O modelo demonstra melhorias na qualidade de áudio, inteligência, capacidade de seguir instruções e chamada de função.

Qualidade de áudio

Uma conversa com um tom natural é fundamental para a implementação de agentes de voz no mundo real. Para criar uma experiência envolvente e incentivar a continuidade das conversas com os utilizadores, a fala dos modelos precisa ter a entoação, a emoção e o ritmo humanos. Treinámos gpt-realtime para produzir um discurso de maior qualidade, que soa mais natural e consegue seguir instruções detalhadas, como "fala de forma rápida e profissional" ou "fala com empatia e com sotaque francês".

Estamos a lançar duas novas vozes na API, Marin e Cedar, com melhorias significativas na naturalidade da fala. Estamos também a atualizar as oito vozes existentes para beneficiarem dessas melhorias.

Amostra de voz - Marin
Amostra de voz - Cedar

Inteligência e compreensão

O gpt-realtime demonstra maior inteligência e é capaz de compreender áudio nativo com maior precisão. O modelo consegue captar sinais não verbais (como o riso), alternar entre línguas a meio da frase e adaptar o tom de voz ("rígido e profissional" ou "gentil e empático"). De acordo com as avaliações internas, o modelo também apresenta um desempenho mais preciso na deteção de sequências alfanuméricas (como números de telefone, matrículas, etc.) noutras línguas, incluindo espanhol, chinês, japonês e francês. Nas medições de capacidade de reflexão da avaliação Big Bench Audio, o gpt-realtime alcançou uma precisão de 82,8% — superando os 65,6% do nosso modelo anterior, de dezembro de 2024.

O Big Bench Audio(abre numa nova janela) é um conjunto de dados de avaliação para avaliar os recursos de reflexão de modelos de linguagem que operam com entrada de áudio. Este conjunto de dados adapta perguntas do Big Bench Hard—escolhido por testar rigorosamente a reflexão avançada—para o domínio do áudio.

Seguimento de instruções

Ao criar uma aplicação de conversão de voz para voz, os programadores dão um conjunto de instruções ao modelo sobre como se deve comportar, incluindo como falar, o que dizer em determinada situação e o que fazer ou não fazer. Concentrámos as nossas melhorias no cumprimento dessas instruções, para que até mesmo orientações mais pequenas transmitam sinais mais claros ao modelo. No benchmark de áudio MultiChallenge, que mede a precisão com que o modelo segue instruções, o gpt-realtime atingiu 30,5%, uma melhoria significativa em relação ao nosso modelo anterior de dezembro de 2024, que atingiu 20,6%.

MultiChallenge(abre numa nova janela) avalia o desempenho de LLMs na gestão de conversas de várias interações com humanos. Foca-se em quatro categorias de desafios realistas que desafiam os modelos de ponta atuais. Estes desafios exigem que os modelos combinem simultaneamente a capacidade de seguir instruções, a gestão do contexto e a reflexão contextualizada. Convertemos um subconjunto das questões do teste, de texto para voz, para um formato compatível com áudio, de forma a criar uma versão áudio desta avaliação.

Chamada de função

Para criar um agente de voz útil em ambientes de produção, o modelo de conversão de voz para voz deve ser capaz de convocar as ferramentas certas no momento certo. Melhorámos a chamada de função em três aspetos: chamar funções relevantes, no momento apropriado e com argumentos apropriados (resultando numa maior precisão). Na avaliação do ComplexFuncBenchNas, que mede o desempenho das chamadas de função, o gpt-realtime obteve 66,5%, contra 49,7% do nosso modelo anterior de dezembro de 2024.

Também melhorámos a chamada assíncrona de função(abre numa nova janela). As chamadas de função de longa duração já não interrompem o fluxo de uma sessão — o modelo pode manter uma conversa fluida enquanto aguarda os resultados. Este é um recurso nativo do gpt-realtime, por isso os programadores não precisam de atualizar o seu código.

ComplexFuncBench(abre numa nova janela) mede o desempenho dos modelos na gestão de tarefas complexas de chamadas de função. Avalia o desempenho em cenários como chamadas de várias etapas, reflexão sobre limitações ou parâmetros implícitos, e o processamento de entradas muito longas. Para criar esta avaliação do nosso modelo, convertemos os prompts de texto originais em voz.

Novidades da API Realtime

Suporte para servidores remotos MCP

Podes ativar o suporte ao MCP numa sessão da API Realtime, passando o URL de um servidor MCP remoto para a configuração da sessão. Assim que estiveres ligado, a API lida automaticamente com as chamadas de ferramentas, eliminando a necessidade de configurar integrações manualmente.

Esta configuração facilita a expansão do teu agente com novas capacidades — basta direcionar a sessão para um servidor MCP diferente para ter acesso imediato a essas ferramentas. Para saberes mais sobre como configurar o MCP com a API Realtime, consulta este guia(abre numa nova janela).

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Entrada de imagens

Com o suporte de entradas de imagens no gpt-realtime, podes adicionar imagens, fotos e capturas de ecrã acompanhadas de áudio ou texto a uma sessão da API Realtime. Agora o modelo pode fundamentar a conversa no que o utilizador está realmente a ver, permitindo-lhe responder a perguntas como "o que vês?" ou "lê o texto desta captura de ecrã".

Em vez de tratar uma imagem como uma transmissão de vídeo em direto, o sistema lida com ela como se fosse uma foto adicionada à conversa. A tua aplicação pode decidir quais as imagens e quando as partilhar com o modelo. Desta forma, manténs o controlo sobre o que o modelo vê e quando responde.

Consulta a nossa documentação(abre numa nova janela) para começares a utilizar a entrada de imagens.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Recursos adicionais

Adicionámos várias outras funcionalidades para tornar a API Realtime mais fácil de integrar e mais flexível para utilização em produção.

Segurança e privacidade

A API Realtime incorpora múltiplas camadas de salvaguardas e medidas de mitigação para ajudar a prevenir o uso indevido. Podes saber mais sobre a nossa abordagem de segurança e os detalhes do cartão do sistema no anúncio da versão beta no blogue. Utilizamos classificadores ativos em sessões da API Realtime, o que significa que certas conversas podem ser interrompidas se detetarmos violações das nossas diretrizes sobre conteúdo nocivo. Os programadores também podem adicionar facilmente as suas próprias medidas de segurança adicionais utilizando o SDK Agents(abre numa nova janela).

As nossas políticas de utilização proíbem a reutilização ou distribuição de resultados dos nossos serviços para spam, fraude ou outros fins prejudiciais. Os programadores devem indicar claramente quando os utilizadores finais interagem com a IA, a menos que isso seja evidente pelo contexto. A API Realtime utiliza vozes pré-definidas para ajudar a impedir que agentes maliciosos se façam passar por outras pessoas.

A API Realtime oferece suporte total à residência de dados na UE(abre numa nova janela) para aplicações baseadas na UE, e está coberta pelos nossos compromissos de privacidade empresarial.

Preços e disponibilidade

A API Realtime, geralmente disponível, e o novo modelo gpt-realtime estão disponíveis para todos os programadores a partir de hoje. Reduzimos os preços do gpt-realtime em 20% em relação ao gpt-4o-realtime-preview— 32$/1 milhão de tokens de entrada de áudio (0,40$ para tokens de entrada em cache) e 64$/1 milhão de tokens de saída de áudio (consulta os preços detalhados(abre numa nova janela)). Também adicionámos um controlo preciso do contexto da conversa para permitir que os programadores definam limites de tokens inteligentes e terminem várias interações de uma só vez, reduzindo significativamente o custo de sessões longas.

Repetição da transmissão ao vivo

Autor

OpenAI