Agora, o ChatGPT consegue ver, ouvir e falar

Estamos a começar a implementar novos recursos de voz e imagem no ChatGPT. Eles oferecem um tipo de interface nova e mais intuitiva, permitindo que você tenha uma conversa por voz ou mostre ao ChatGPT sobre o que está a falar.
A voz e a imagem oferecem mais formas de utilizar o ChatGPT na tua vida. Fotografa um ponto turístico durante uma viagem e conversa em tempo real sobre o que tem de interessante. Quando estiveres em casa, tira fotos do teu frigorífico e da despensa para descobrir o que fazer para o jantar (e faz perguntas de seguimento para obter uma receita passo a passo). Após o jantar, ajuda o teu filho com um problema de matemática: tira uma fotografia, circula a imagem do problema e pede ao ChatGPT que partilhe dicas com os dois.
Vamos implementar funcionalidades de voz e imagem no ChatGPT para utilizadores Plus e Enterprise nas próximas duas semanas. A funcionalidade de voz estará disponível no iOS e Android (ativação nas tuas definições) e as imagens estarão disponíveis em todas as plataformas.
Já podes usar a voz para teres uma conversa interativa com o teu assistente. Fala com ele em qualquer lugar, pede uma história para dormir para a tua família ou resolve uma discussão à mesa de jantar.
Usa a voz para ter uma conversa com o teu assistente.
Para começar a usar o Modo de Voz, aceda a Definições → Novas funcionalidades na aplicação móvel e opte por participar em conversas de voz. Em seguida, toque no botão do auscultador localizado no canto superior direito do ecrã inicial e escolha a sua voz preferida entre cinco vozes diferentes.
A nova funcionalidade de voz é alimentada por um novo modelo de conversão de texto em voz, capaz de gerar áudio semelhante ao humano a partir de apenas texto e alguns segundos de voz de amostra. Colaborámos com atores de voz profissionais para criar cada uma das vozes. Também usamos o Whisper, o nosso sistema de reconhecimento de fala de código aberto, para transcrever as tuas palavras faladas em texto.
Agora pode mostrar uma ou mais imagens ao ChatGPT. Resolva o problema do seu grelhador não ligar, explore o conteúdo da sua geladeira para planejar uma refeição ou analise um gráfico complexo para dados relacionados ao trabalho. Para se concentrar numa parte específica da imagem, pode usar a ferramenta de desenho no nosso aplicativo móvel.
Mostra ao ChatGPT uma ou mais imagens.
Para começar, toca no botão de foto para capturar ou escolher uma imagem. Se estiveres no iOS ou Android, toca primeiro no botão de mais. Também podes discutir várias imagens ou usar a nossa ferramenta de desenho para orientar o teu assistente.
A compreensão de imagens é impulsionada pelo GPT‑3.5 e pelo GPT‑4 multimodal. Estes modelos aplicam as suas habilidades de raciocínio linguístico a uma vasta gama de imagens, como fotografias, capturas de ecrã e documentos que contêm tanto texto como imagens.
O objetivo da OpenAI é construir uma AGI que seja segura e benéfica. Acreditamos na disponibilização gradual das nossas ferramentas, o que nos permite fazer melhorias e refinar as medidas de mitigação de riscos ao longo do tempo, bem como preparar tudo para sistemas mais robustos no futuro. Esta estratégia torna-se ainda mais importante com modelos avançados que envolvem voz e visão.
A nova tecnologia de voz — capaz de criar vozes sintéticas realistas a partir de apenas alguns segundos de fala real — abre portas a muitas aplicações criativas e focadas na acessibilidade. No entanto, estas capacidades também apresentam novos riscos, como a possibilidade de agentes maliciosos se fazerem passar por figuras públicas ou cometerem fraude.
É por isso que estamos a usar esta tecnologia para potenciar um caso de utilização específico — chat de voz. O chat de voz foi criado com atores de voz com quem trabalhámos diretamente. Também estamos a colaborar de forma semelhante com outros. Por exemplo, o Spotify está a usar o poder desta tecnologia para o piloto da sua funcionalidade de tradução de voz(abre numa nova janela), que ajuda os podcasters a expandir o alcance das suas narrativas ao traduzir podcasts para idiomas adicionais nas vozes dos próprios podcasters.
Os modelos baseados em visão também apresentam novos desafios, que vão desde distorções sobre pessoas até à dependência da interpretação do modelo de imagens em domínios de alto risco. Antes de uma implementação mais ampla, testámos o modelo com red teamers para avaliar riscos em domínios como o extremismo e a proficiência científica, e um conjunto diversificado de testadores alfa. A nossa investigação permitiu-nos chegar a um consenso sobre alguns detalhes essenciais para uma utilização responsável.
Tal como outras funcionalidades do ChatGPT, a visão destina-se a ajudar-te no teu dia a dia. Consegue fazê-lo melhor quando consegue ver o que tu vês.
Esta abordagem foi diretamente influenciada pelo nosso trabalho com a Be My Eyes, uma aplicação para dispositivos móveis gratuita para pessoas cegas e com visão reduzida, para compreendermos as suas utilizações e limitações. Os utilizadores disseram-nos que consideram valioso ter conversas gerais sobre imagens que por acaso contenham pessoas em segundo plano, como quando alguém aparece na TV enquanto se está a tentar configurar o comando.
Também tomámos medidas técnicas para limitar significativamente a capacidade do ChatGPT de analisar e fazer declarações diretas sobre pessoas, uma vez que o ChatGPT nem sempre é preciso e estes sistemas devem respeitar a privacidade dos indivíduos.
A utilização no mundo real e o feedback ajudar-nos-ão a melhorar ainda mais estas medidas de segurança, mantendo a utilidade da ferramenta.
Os utilizadores podem utilizar o ChatGPT para tópicos especializados, por exemplo, em áreas como a investigação. Somos transparentes sobre as limitações do modelo e desencorajamos casos de utilização de maior risco sem a devida verificação. Além disso, o modelo é eficiente na transcrição de textos em inglês, mas apresenta um fraco desempenho com algumas outras línguas, especialmente aquelas com escrita não latina. Aconselhamos os nossos utilizadores que não falam inglês a não utilizarem o ChatGPT para este fim.
Podes ler mais sobre a nossa abordagem à segurança e o nosso trabalho com a Be My Eyes no cartão do sistema sobre a entrada de imagem.
Os utilizadores dos planos Plus e Enterprise poderão experimentar as funcionalidades de voz e imagem nas próximas duas semanas. Estamos muito entusiasmados por disponibilizar estes recursos a outros grupos de utilizadores, incluindo programadores, em breve.
Autor
Reconhecimentos
Investigação central do modo voz
Alec Radford, Tao Xu, Jong Wook Kim
Investigação central sobre a implementação de visão
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


