25 de setembro de 2023

O ChatGPT agora pode ver, ouvir e falar

Estamos começando a lançar novos recursos de voz e imagem no ChatGPT. Eles fazem parte de um tipo de interface que é mais novo e mais intuitivo, o que significa que você pode ter uma conversa por voz ou mostrar ao ChatGPT a coisa sobre a qual o que você está falando.

A presença da voz e a imagem representam mais maneiras de usar o ChatGPT na sua vida. Agora, você pode tirar uma foto de um ponto turístico durante uma viagem e conversar ao vivo sobre o que há de interessante no local. Quando estiver em casa, você pode tirar fotos da geladeira e da despensa para decidir o que preparar para o jantar (e, de quebra, fazer perguntas adicionais para obter uma receita passo a passo). Depois do jantar, dá para ajudar seu filho com um problema de matemática: basta tirar uma foto, destacar o problema e pedir para o ChatGPT compartilhar algumas dicas.

Vamos lançar os recursos de voz e imagens no ChatGPT para usuários dos planos Plus e Enterprise ao longo das próximas duas semanas. A voz estará disponível no iOS e Android (opcional nas configurações); já as imagens estarão disponíveis em todas as plataformas.

Converse com o ChatGPT para obter respostas

Agora, você pode manter uma conversa com seu assistente usando apenas a voz. Fale com ele em qualquer lugar, peça uma história para ouvir antes de dormir ou encontre a resposta que faltava para aquela conversa animada durante o jantar.

Use a voz para manter uma conversa com seu assistente.

Para começar a usar o recurso de voz, acesse Configurações → Novos recursos no aplicativo móvel e ative as conversas de voz. Em seguida, toque no botão de fone de ouvido localizado no canto superior direito da tela inicial e escolha sua voz preferida. Existem cinco opções diferentes.

O novo recurso de voz é alimentado por uma outra novidade: o modelo de conversão de texto em fala, que é capaz de gerar áudio muito parecido com humanos tomando como base apenas o texto e alguns segundos de amostra de fala. Colaboramos com dubladores profissionais para criar cada uma das vozes. Também utilizamos o Whisper, nosso sistema de reconhecimento de voz em código aberto, para transcrever palavras faladas em texto.

Carregando…

Um papo sobre imagens

Agora, você pode mostrar uma ou mais imagens ao ChatGPT. É a solução que faltava para resolver o problema da churrasqueira que não liga, explorar o que tem na geladeira para planejar uma refeição e até analisar um gráfico complexo com dados para aquele projeto no trabalho. Para focar em uma parte específica da imagem, é só usar a ferramenta de desenho em nosso aplicativo móvel.

Mostre uma ou mais imagens ao ChatGPT.

A primeira coisa a fazer é tocar no botão de foto para capturar ou escolher uma imagem. Se você estiver no iOS ou Android, toque primeiro no botão “+”. Você também pode conversar sobre várias imagens ou usar nossa ferramenta de desenho, caso queira dar algumas orientações para o assistente.

A compreensão de imagens é alimentada pelos modelos multimodais GPT‑3.5 e GPT‑4. Esses modelos aplicam habilidades de reflexão linguística a uma ampla variedade de imagens, como fotografias, capturas de tela e documentos que contêm texto e imagens.

A implementação dos recursos de imagem e voz é gradual

O objetivo da OpenAI é desenvolver uma AGI que seja segura e benéfica. Acreditamos em disponibilizar nossas ferramentas gradualmente, o que nos permite não só fazer melhorias e refinar as medidas de mitigação de riscos ao longo do tempo, nas também preparar todo mundo para a adoção de sistemas mais poderosos no futuro. Essa estratégia se torna ainda mais importante em modelos avançados que envolvem voz e visão.

Voz

A nova tecnologia de voz — capaz de criar vozes sintéticas realistas a partir de apenas alguns segundos de fala real — abre portas para muitas aplicações criativas e focadas na acessibilidade. No entanto, esses recursos também apresentam novos riscos, como a possibilidade de pessoas mal-intencionadas se passarem por figuras públicas ou até casos de fraude.

É por isso que estamos usando essa tecnologia para impulsionar um caso de uso específico: o chat por voz. O chat por voz foi criado com atores de voz, que trabalharam diretamente com a nossa equipe. Também estamos colaborando de maneira semelhante com outros profissionais. O Spotify, por exemplo, está usando o poder dessa tecnologia para organizar o projeto piloto de tradução de voz⁠(abre em uma nova janela). Isso vai ajudar os podcasters a expandir o alcance de suas narrativas, traduzindo podcasts para outros idiomas com as próprias vozes dos podcasters.

Entrada de imagens

Os modelos baseados em visão também apresentam novos desafios, que vão desde alucinações sobre pessoas até a tendência, por parte dos usuários, de confiar na interpretação do modelo no que diz respeito a imagens em domínios de alto risco. Antes de uma implantação mais ampla, testamos o modelo com membros da equipe de testes ofensivos para avaliar os riscos em áreas como extremismo e proficiência científica, além de um conjunto diversificado de testadores alfa. Graças a essa investigação, conseguimos definir alguns detalhes essenciais para a utilização responsável.

Como fazer a visão ser um recurso útil e seguro

Assim como outros recursos do ChatGPT, a visão tem como objetivo auxiliar você em sua vida cotidiana. E é claro que isso fica bem mais fácil quando o recurso consegue ver o que você está vendo.

Essa abordagem foi diretamente influenciada pelo nosso trabalho com o Be My Eyes, um aplicativo móvel gratuito para pessoas cegas e com baixa visão. Foi graças a ele que conseguimos entender os usos e limitações da tecnologia. Os usuários nos disseram que consideram muito valioso ter conversas gerais sobre imagens que por acaso apresentam pessoas em segundo plano (por exemplo, quando alguém aparece na TV enquanto você está tentando descobrir como funciona o controle remoto).

Também tomamos medidas técnicas para limitar significativamente a capacidade do ChatGPT de analisar e fazer declarações diretas sobre pessoas, uma vez que o ChatGPT nem sempre é preciso e esses sistemas devem respeitar a privacidade dos indivíduos.

O uso no mundo real, assim como o feedback, nos ajudarão a melhorar ainda mais essas proteções — e, ao mesmo tempo, preservar a utilidade da ferramenta.

Transparência sobre as limitações do modelo

Os usuários podem depender do ChatGPT para tópicos especializados, como por exemplo algumas áreas específicas de investigação. Somos transparentes quanto às limitações do modelo e desaconselhamos casos de uso de alto risco sem a devida verificação. Além disso, o modelo é eficiente na transcrição de textos em inglês, mas apresenta um desempenho inferior com alguns outros idiomas, sobretudo aqueles com alfabetos outros que não o latino. Aconselhamos nossos usuários que não falam inglês a não usar o ChatGPT para essa finalidade.

Você pode ler mais sobre nossa abordagem à segurança e nosso trabalho com o Be My Eyes no cartão do sistema para entrada de imagens⁠.

Vamos ampliar o acesso

Os usuários dos planos Plus e Enterprise poderão experimentar voz e imagens nas próximas duas semanas. Estamos muito felizes em poder disponibilizar esses recursos para outros grupos de usuários, incluindo desenvolvedores, em breve.

Autoria

OpenAI

Agradecimentos

Investigação fundamental sobre o modo voz

Alec Radford, Tao Xu e Jong Wook Kim

Investigação fundamental para implantação da visão

Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang e Sandhini Agarwal

Veja o trabalho técnico e os autores do GPT-4V(ision)⁠