Saltar para o conteúdo principal
OpenAI

29 de março de 2024

Produto

Explorar os desafios e as oportunidades das vozes sintéticas

Estamos a partilhar o que aprendemos com uma pré-visualização em pequena escala do Voice Engine, um modelo para criar vozes personalizadas.

A carregar…

A OpenAI está empenhada em desenvolver uma IA segura e amplamente benéfica. Hoje, a OpenAI partilha conclusões preliminares e resultados de uma pré-visualização em pequena escala de um modelo chamado Voice Engine, que utiliza texto e uma única amostra de áudio de 15 segundos para gerar fala com som natural, muito semelhante à voz do orador original. É notável que um modelo de pequena dimensão, com apenas uma amostra de 15 segundos, consiga criar vozes realistas e expressivas.

Desenvolvemos o Voice Engine pela primeira vez no final de 2022 e temos utilizado a tecnologia para alimentar as vozes predefinidas disponíveis na API de conversão de texto em fala(abre numa nova janela), bem como nas funcionalidades de Voz e Leitura em Voz Alta do ChatGPT. Ao mesmo tempo, estamos a adotar uma abordagem cautelosa e informada para uma implementação mais ampla, devido ao potencial de uso indevido das vozes sintéticas. Esperamos iniciar um diálogo sobre a implementação responsável das vozes sintéticas e sobre como a sociedade pode adaptar-se a estas novas potencialidades. Com base nestas conversas e nos resultados destes testes em pequena escala, tomaremos uma decisão mais informada sobre se e como implementar esta tecnologia em grande escala.

Primeiras aplicações do Voice Engine

Para compreender melhor as potenciais utilizações desta tecnologia, no final do ano passado começámos a testá-la de forma privada com um pequeno grupo de parceiros de confiança. Ficámos impressionados com as aplicações que este grupo desenvolveu. Estas implementações em pequena escala estão a ajudar a orientar a nossa abordagem, as salvaguardas e a nossa reflexão sobre como o Voice Engine pode ser usado para o bem em várias áreas. Alguns exemplos iniciais incluem:

  • Oferecer apoio à leitura a não leitores e crianças através de vozes naturais e emotivas, que representam uma gama mais ampla de locutores do que é possível com vozes predefinidas. A Age of Learning(abre numa nova janela), uma empresa de tecnologia educativa dedicada ao sucesso académico das crianças, tem vindo a utilizar esta tecnologia para gerar conteúdos de locução pré-escritos. Também utilizam o Voice Engine e o GPT‑4 para criar respostas personalizadas em tempo real para interagir com os alunos. Com esta tecnologia, a Age of Learning tem conseguido criar mais conteúdo para um público mais vasto.
  • Traduzir conteúdo, como vídeos e podcasts, para que criadores e empresas possam chegar a mais pessoas em todo o mundo, de forma fluente e utilizando as suas próprias vozes. Um dos primeiros a adotar esta tecnologia é a HeyGen(abre numa nova janela), uma plataforma de narrativa visual com IA que colabora com os seus clientes empresariais para criar avatares personalizados e com aparência humana para uma variedade de conteúdos, desde marketing de produtos a demonstrações de vendas. Utilizam o Voice Engine para a tradução de vídeos, ermitindo traduzir a voz de um orador em múltiplos idiomas e alcançar um público global. Quando utilizado para tradução, o Voice Engine preserva o sotaque nativo do orador original: por exemplo, gerar inglês a partir de uma amostra de áudio de um falante de francês produziria um discurso com sotaque francês.
A carregar...
  • Alcançar comunidades globais, melhorando a prestação de serviços essenciais em contextos remotos. A Dimagi(abre numa nova janela) está a desenvolver ferramentas para que os agentes de saúde comunitários prestem diversos serviços essenciais, como aconselhamento a mães que amamentam. Para ajudar estes profissionais a desenvolver as suas competências, a Dimagi utiliza o Voice Engine e o GPT‑4 para dar feedback interativo no idioma principal de cada trabalhador, incluindo o suaíli ou línguas mais informais como o Sheng, uma língua mista popular no Quénia.
A carregar...
  • Apoiar pessoas não verbais, como através de aplicações terapêuticas para indivíduos com condições que afetam a fala e soluções educativas adaptadas a pessoas com necessidades de aprendizagem. Livox(abre numa nova janela), uma aplicação de comunicação alternativa baseada em IA, que alimenta dispositivos de Comunicação Aumentativa e Alternativa (CAA), permitindo que pessoas com deficiência comuniquem. Ao utilizar o Voice Engine, conseguem oferecer a pessoas não verbais vozes únicas e naturais, não robóticas, em várias línguas. Os seus utilizadores podem escolher a voz que melhor os representa e, no caso de utilizadores multilingues, manter uma voz consistente em cada idioma falado.
A carregar...
  • Ajudar os pacientes a recuperar a voz, para quem sofre de condições de fala súbitas ou degenerativas. O Norman Prince Neurosciences Institute da Lifespan(abre numa nova janela), um sistema de saúde sem fins lucrativos que serve como principal afiliado de ensino da faculdade de medicina da Universidade de Brown, está a explorar utilizações de IA em contextos clínicos. Têm estado a testar um programa-piloto que disponibiliza o Voice Engine a pessoas com etiologias oncológicas ou neurológicas responsáveis por perturbações da fala. Uma vez que o Voice Engine requer apenas uma amostra de áudio muito curta, os médicos Fatima Mirza, Rohaid Ali e Konstantina Svokos conseguiram restaurar a voz de uma jovem paciente que perdeu a fluência da fala devido a um tumor cerebral vascular, utilizando o áudio de um vídeo gravado para um projeto escolar.
A carregar...

Desenvolver o Voice Engine de forma segura

Reconhecemos que gerar fala que se assemelha à voz de pessoas acarreta riscos sérios, que são especialmente relevantes num ano eleitoral. Estamos a colaborar com parceiros dos EUA e internacionais de áreas como governo, media, entretenimento, educação, sociedade civil e outros, para garantir que incorporamos o seu feedback enquanto desenvolvemos a tecnologia. Os parceiros que estão atualmente a testar o Voice Engine concordaram com as nossas políticas de utilização, que proíbem a personificação de outra pessoa ou organização sem consentimento ou direito legal. Além disso, os nossos termos com estes parceiros exigem o consentimento explícito e informado do orador original e não permitimos que os programadores criem formas de os utilizadores individuais criarem as suas próprias vozes. Os parceiros também devem informar de forma clara o seu público de que as vozes que estão a ouvir são geradas por IA. Por fim, implementámos um conjunto de medidas de segurança, incluindo a marca de água para rastrear a origem de qualquer áudio gerado pelo Voice Engine, bem como a monitorização proativa da forma como está a ser utilizado. Acreditamos que qualquer implementação alargada da tecnologia de vozes sintéticas deve ser acompanhada de experiências de autenticação de voz que verifiquem que o orador original está, de forma consciente, a adicionar a sua voz ao serviço, bem como de uma lista de vozes proibidas que detete e previna a criação de vozes demasiado semelhantes a figuras públicas.

Olhar em frente

O Voice Engine é uma continuação do nosso compromisso em explorar os limites da tecnologia e de partilhar abertamente o que a IA está a tornar possível. Em consonância com a nossa abordagem à segurança da IA e os nossos compromissos voluntários, optámos por apresentar esta tecnologia em fase de pré-visualização, mas sem a lançar de forma alargada nesta fase. Esperamos que esta pré-visualização do Voice Engine realce o seu potencial e também destaque a necessidade de reforçar a resiliência da sociedade face aos desafios trazidos por modelos generativos cada vez mais convincentes. Especificamente, incentivamos medidas como:

  • Eliminar gradualmente a autenticação por voz como medida de segurança para aceder a contas bancárias e a outras informações sensíveis
  • Explorar políticas para proteger a utilização das vozes de cada pessoa na IA
  • Educar o público sobre as capacidades e limitações das tecnologias de IA, incluindo a possibilidade de conteúdo enganoso gerado por IA
  • Acelerar o desenvolvimento e a adoção de técnicas para rastrear a origem de conteúdos audiovisuais, de forma a que seja sempre claro quando está a interagir com uma pessoa real ou com uma IA

É importante que as pessoas em todo o mundo compreendam para onde esta tecnologia se dirige, quer a implementemos amplamente ou não. Esperamos continuar a participar em conversas sobre os desafios e oportunidades das vozes sintéticas com decisores políticos, investigadores, programadores e criativos.