Pular para o conteúdo principal
OpenAI

28 de agosto de 2025

ProdutoLançamento

Apresentamos as atualizações do gpt-realtime e da API Realtime para agentes de voz de produção

Estamos lançando um modelo de conversão de voz em voz mais avançado e novos recursos de API, incluindo suporte a servidores MCP, entrada de imagens e suporte a chamadas telefônicas com SIP.

Interface estilizada mostrando uma interação de voz. No centro da imagem, um reprodutor de áudio retangular com cantos arredondados mostra uma visualização de forma de onda, um botão reproduzir/pausar, um indicador de status "Agent online" e um valor temporal 00:35. Linhas brancas curvas com pontos se espalham pela imagem, sugerindo áudio ao vivo ou movimento de sinais. O plano de fundo azul intenso tem formas de flor desfocadas em tons de rosa e roxo.
Carregando…

Hoje, disponibilizamos a API Realtime para o público em geral, com novos recursos que habilitam desenvolvedores e empresas a criar agentes de voz confiáveis e prontos para ambientes de produção. Agora, a API aceita servidores MCP remotos, entradas de imagem e chamadas telefônicas por meio do protocolo de iniciação de sessão (SIP), ampliando a capacidade dos agentes de voz com acesso a mais ferramentas e contexto.

Além disso, estamos lançando nosso mais avançado modelo de conversão de voz em voz até hoje, o gpt-realtime. O novo modelo aprimora a capacidade de seguir instruções complexas, a chamada precisa de ferramentas e a geração de fala mais natural e expressiva. Além disso, oferece melhor desempenho na interpretação de mensagens do sistema e prompts de desenvolvedores, como a leitura fiel de textos de isenção de responsabilidade em uma chamada de suporte, a repetição de textos alfanuméricos ou a transição fluida para outro idioma no meio de uma frase. Também lançamos duas novas vozes, Cedar e Marin, disponíveis a partir de hoje exclusivamente na API Realtime.

Desde o beta público em outubro, milhares de desenvolvedores já usaram a API Realtime e ajudaram a definir as otimizações disponibilizadas hoje: confiabilidade, baixa latência e alta qualidade, viabilizando a implantação de agentes de voz em produção. Ao contrário de pipelines tradicionais, que encadeiam vários modelos de conversão de voz em texto e de texto em voz, a API Realtime processa e gera diretamente o áudio usando um único modelo e API. Isso reduz a latência, preserva as sutilezas da fala e gera respostas mais naturais e expressivas.

"O novo modelo de conversão de voz em voz da API Realtime da OpenAI oferece reflexão mais sólida e fala mais natural, o que permite lidar com solicitações complexas de várias etapas, como refinar listagens por necessidades de estilo de vida ou orientar discussões sobre capacidade de pagamento com ferramentas como a nossa pontuação BuyAbility. Dessa forma, buscar um imóvel na Zillow ou explorar opções de financiamento se torna tão natural quanto conversar com um amigo, simplificando decisões de compra, venda e locação residencial."

– Josh Weisberg, diretor de IA da Zillow

Apresentamos o gpt-realtime

O novo modelo de conversão de voz em voz, gpt-realtime, é o nosso modelo de voz mais avançado para uso em produção. Em colaboração direta com os clientes, treinamos o modelo para oferecer um desempenho excepcional em tarefas reais, como suporte ao cliente, assistência pessoal e educação, alinhando-o à forma como os desenvolvedores criam e implantam agentes de voz. O modelo oferece melhorias de qualidade de áudio, inteligência, capacidade de seguir instruções e chamada de função.

Qualidade de áudio

Uma conversa natural é essencial para a implantação de agentes de voz no mundo real. Para criar uma experiência envolvente e incentivar a continuidade das conversas com os usuários, a fala dos modelos precisa ter entonação, emoção e ritmo humanos. Treinamos o gpt-realtime para gerar uma fala de qualidade superior, mais natural e que siga instruções detalhadas, como "fale de forma rápida e profissional" ou "fale demonstrando empatia com sotaque francês".

Estamos lançando duas novas vozes na API, Marin e Cedar, consideravelmente melhoradas para proporcionar uma fala natural. Além disso, atualizamos as oito vozes atuais para utilizarem essas melhorias.

Exemplo de voz – Marin
Exemplo de voz – Cedar

Inteligência e compreensão

O gpt-realtime demonstra maior inteligência e é capaz de compreender áudio nativo com maior precisão. O modelo pode capturar sinais não verbais (como risadas), mudar o idioma no meio de uma sentença e adaptar o tom ("direto e profissional" ou "gentil e compreensivo"). Segundo as avaliações internas, o modelo também tem um desempenho mais preciso na detecção de sequências alfanuméricas (por exemplo, números de telefone ou de chassis de veículos) em outros idiomas, como espanhol, chinês, japonês e francês. Nas medições de capacidade de reflexão da avaliação Big Bench Audio, o gpt-realtime alcançou uma precisão de 82,8%, superando os 65,6% do nosso modelo anterior de dezembro de 2024.

O benchmark Big Bench Audio(abre em uma nova janela) é um conjunto de dados de avaliação para avaliar os recursos de reflexão de modelos de linguagem que operam com entrada de áudio. Esse conjunto de dados adapta perguntas do Big Bench Hard (escolhido por testar rigorosamente a reflexão avançada) no domínio de áudio.

Capacidade de seguir instruções

Ao criar um aplicativo de conversão de voz em voz, os desenvolvedores passam um conjunto de instruções para o modelo que determina como ele deve falar, o que dizer em uma situação específica e o que fazer (ou não fazer). Concentramos as melhorias no cumprimento dessas instruções para que até mesmo orientações sutis forneçam sinais mais claros para o modelo. No benchmark de áudio MultiChallenge, que mede a precisão com que o modelo segue instruções, o gpt-realtime pontuou 30,5%, uma melhoria significativa em relação ao nosso modelo anterior de dezembro de 2024, que alcançou 20,6%.

O MultiChallenge(abre em uma nova janela) avalia o desempenho de LLMs no gerenciamento de conversas de várias interações com humanos. Ele prioriza quatro categorias de desafios realistas que desafiam os modelos de ponta atuais. Esses desafios exigem que os modelos combinem simultaneamente a capacidade de seguir instruções, o gerenciamento de contexto e a reflexão no contexto. Selecionamos algumas perguntas do teste de conversão de texto em voz e as convertemos para criar uma versão da avaliação voltada para áudio.

Chamada de função

Para criar um agente de voz útil em ambientes de produção, o modelo de conversão de voz em voz deve ser capaz de chamar as ferramentas certas no momento adequado. Aprimoramos três aspectos da chamada de função para proporcionar mais precisão: chamar funções relevantes, no momento certo e com os argumentos adequados. Na avaliação do ComplexFuncBenchNas, que mede o desempenho das chamadas de função, o gpt-realtime obteve 66,5%, contra 49,7% do nosso modelo anterior de dezembro de 2024.

Também melhoramos a chamada assíncrona de função(abre em uma nova janela). As chamadas de função de longa duração não interferem mais no fluxo de uma sessão. O modelo continua conversando com fluidez enquanto aguarda os resultados. Esse é um recurso nativo do gpt-realtime e está disponível sem que os desenvolvedores precisem alterar o código.

O ComplexFuncBench(abre em uma nova janela) mede o desempenho dos modelos no gerenciamento de tarefas desafiadoras de chamadas de função. Ele avalia o desempenho em cenários como chamadas de várias etapas, reflexão sobre limitações ou parâmetros implícitos e o processamento de entradas muito extensas. Para criar esta avaliação do nosso modelo, convertemos os prompts de texto originais em voz.

Novidades da API Realtime

Suporte para servidores remotos MCP

Para habilitar o suporte ao MCP em uma sessão da API Realtime, passe o URL de um servidor remoto MCP na configuração da sessão. Após a conexão, a API lida automaticamente com as chamadas de ferramentas, eliminando a necessidade de configurar integrações manualmente.

Isso facilita a expansão dos agentes com novas funcionalidades. Basta direcionar a sessão a outro servidor MCP para ter acesso imediato a essas ferramentas. Para saber mais sobre a configuração do MCP com a API Realtime, confira este guia(abre em uma nova janela).

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Entrada de imagens

Com o novo suporte para entrada de imagens do gpt-realtime, você pode adicionar imagens, fotos e capturas de tela acompanhadas de áudio ou texto a uma sessão da API Realtime. Como o modelo agora pode contextualizar a conversa com base no que o usuário realmente vê, ele consegue responder a perguntas como "o que você está vendo?" ou "leia o texto desta captura de tela".

Em vez de tratar uma imagem como um fluxo de vídeo ao vivo, o sistema lida com ela como se fosse uma foto adicionada à conversa. O aplicativo pode definir as imagens que são compartilhadas com o modelo e o momento em que isso acontece. Dessa forma, você mantém o controle sobre o que o modelo vê e quando ele fornece as respostas.

Confira a documentação(abre em uma nova janela) para começar a usar a entrada de imagens.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Recursos adicionais

Adicionamos vários outros recursos à API Realtime para facilitar sua integração e aumentar sua flexibilidade em ambientes de produção.

Segurança e privacidade

A API Realtime incorpora várias camadas de proteção e mitigação para ajudar a evitar o uso indevido. Saiba mais sobre a nossa abordagem de segurança e os detalhes do cartão de sistema no anúncio do beta no blog. Utilizamos classificadores ativos nas sessões da API Realtime. Isso significa que é possível interromper conversas específicas quando detectamos violações das nossas diretrizes sobre conteúdo nocivo. Além disso, os desenvolvedores podem adicionar facilmente suas próprias proteções de segurança usando o SDK Agents(abre em uma nova janela).

Nossas políticas de uso proíbem a reutilização ou distribuição de resultados dos nossos serviços para spam, fraudes ou outras atividades nocivas. Além disso, os desenvolvedores devem indicar claramente quando os usuários finais interagem com a IA, a menos que isso seja evidente pelo contexto. A API Realtime usa vozes predefinidas para ajudar a evitar que golpistas assumam a identidade de outras pessoas.

A API Realtime oferece suporte completo para a residência de dados da UE(abre em uma nova janela) nos aplicativos baseados na UE da forma prevista em nossos compromissos de privacidade empresarial.

Preços e disponibilidade

A partir de hoje, a API Realtime, disponível para o público em geral, e o novo modelo gpt-realtime podem ser usados pelos desenvolvedores. Reduzimos os preços do gpt-realtime em 20% em relação ao gpt-4o-realtime-preview: US$ 32/1 milhão de tokens de entrada de áudio (US$ 0,40 para tokens de entrada em cache) e US$ 64/1 milhão de tokens de saída de áudio (consulte os preços detalhados(abre em uma nova janela)). Também adicionamos o controle detalhado de contexto de conversas para que os desenvolvedores possam definir limites de tokens inteligentes e truncar várias interações de uma só vez, reduzindo significativamente o custo de sessões longas.

Replay da transmissão ao vivo

Autoria

OpenAI