29 de março de 2024

Explorar os desafios e as oportunidades das vozes sintéticas

Estamos a partilhar o que aprendemos com uma pré-visualização em pequena escala do Voice Engine, um modelo para criar vozes personalizadas.

A carregar…

A OpenAI está empenhada em desenvolver uma IA segura e amplamente benéfica⁠. Hoje, a OpenAI partilha conclusões preliminares e resultados de uma pré-visualização em pequena escala de um modelo chamado Voice Engine, que utiliza texto e uma única amostra de áudio de 15 segundos para gerar fala com som natural, muito semelhante à voz do orador original. É notável que um modelo de pequena dimensão, com apenas uma amostra de 15 segundos, consiga criar vozes realistas e expressivas.

Desenvolvemos o Voice Engine pela primeira vez no final de 2022 e temos utilizado a tecnologia para alimentar as vozes predefinidas disponíveis na API de conversão de texto em fala⁠(abre numa nova janela), bem como nas funcionalidades de Voz e Leitura em Voz Alta do ChatGPT⁠. Ao mesmo tempo, estamos a adotar uma abordagem cautelosa e informada para uma implementação mais ampla, devido ao potencial de uso indevido das vozes sintéticas. Esperamos iniciar um diálogo sobre a implementação responsável das vozes sintéticas e sobre como a sociedade pode adaptar-se a estas novas potencialidades. Com base nestas conversas e nos resultados destes testes em pequena escala, tomaremos uma decisão mais informada sobre se e como implementar esta tecnologia em grande escala.

Primeiras aplicações do Voice Engine

Para compreender melhor as potenciais utilizações desta tecnologia, no final do ano passado começámos a testá-la de forma privada com um pequeno grupo de parceiros de confiança. Ficámos impressionados com as aplicações que este grupo desenvolveu. Estas implementações em pequena escala estão a ajudar a orientar a nossa abordagem, as salvaguardas e a nossa reflexão sobre como o Voice Engine pode ser usado para o bem em várias áreas. Alguns exemplos iniciais incluem:

Oferecer apoio à leitura a não leitores e crianças através de vozes naturais e emotivas, que representam uma gama mais ampla de locutores do que é possível com vozes predefinidas. A Age of Learning⁠(abre numa nova janela), uma empresa de tecnologia educativa dedicada ao sucesso académico das crianças, tem vindo a utilizar esta tecnologia para gerar conteúdos de locução pré-escritos. Também utilizam o Voice Engine e o GPT‑4 para criar respostas personalizadas em tempo real para interagir com os alunos. Com esta tecnologia, a Age of Learning tem conseguido criar mais conteúdo para um público mais vasto.

Traduzir conteúdo, como vídeos e podcasts, para que criadores e empresas possam chegar a mais pessoas em todo o mundo, de forma fluente e utilizando as suas próprias vozes. Um dos primeiros a adotar esta tecnologia é a HeyGen⁠(abre numa nova janela), uma plataforma de narrativa visual com IA que colabora com os seus clientes empresariais para criar avatares personalizados e com aparência humana para uma variedade de conteúdos, desde marketing de produtos a demonstrações de vendas. Utilizam o Voice Engine para a tradução de vídeos, ermitindo traduzir a voz de um orador em múltiplos idiomas e alcançar um público global. Quando utilizado para tradução, o Voice Engine preserva o sotaque nativo do orador original: por exemplo, gerar inglês a partir de uma amostra de áudio de um falante de francês produziria um discurso com sotaque francês.

A carregar...

Alcançar comunidades globais, melhorando a prestação de serviços essenciais em contextos remotos. A Dimagi⁠(abre numa nova janela) está a desenvolver ferramentas para que os agentes de saúde comunitários prestem diversos serviços essenciais, como aconselhamento a mães que amamentam. Para ajudar estes profissionais a desenvolver as suas competências, a Dimagi utiliza o Voice Engine e o GPT‑4 para dar feedback interativo no idioma principal de cada trabalhador, incluindo o suaíli ou línguas mais informais como o Sheng, uma língua mista popular no Quénia.

A carregar...

Apoiar pessoas não verbais, como através de aplicações terapêuticas para indivíduos com condições que afetam a fala e soluções educativas adaptadas a pessoas com necessidades de aprendizagem. Livox⁠(abre numa nova janela), uma aplicação de comunicação alternativa baseada em IA, que alimenta dispositivos de Comunicação Aumentativa e Alternativa (CAA), permitindo que pessoas com deficiência comuniquem. Ao utilizar o Voice Engine, conseguem oferecer a pessoas não verbais vozes únicas e naturais, não robóticas, em várias línguas. Os seus utilizadores podem escolher a voz que melhor os representa e, no caso de utilizadores multilingues, manter uma voz consistente em cada idioma falado.

A carregar...

Ajudar os pacientes a recuperar a voz, para quem sofre de condições de fala súbitas ou degenerativas. O Norman Prince Neurosciences Institute da Lifespan⁠(abre numa nova janela), um sistema de saúde sem fins lucrativos que serve como principal afiliado de ensino da faculdade de medicina da Universidade de Brown, está a explorar utilizações de IA em contextos clínicos. Têm estado a testar um programa-piloto que disponibiliza o Voice Engine a pessoas com etiologias oncológicas ou neurológicas responsáveis por perturbações da fala. Uma vez que o Voice Engine requer apenas uma amostra de áudio muito curta, os médicos Fatima Mirza, Rohaid Ali e Konstantina Svokos conseguiram restaurar a voz de uma jovem paciente que perdeu a fluência da fala devido a um tumor cerebral vascular, utilizando o áudio de um vídeo gravado para um projeto escolar.

A carregar...

Desenvolver o Voice Engine de forma segura

Reconhecemos que gerar fala que se assemelha à voz de pessoas acarreta riscos sérios, que são especialmente relevantes num ano eleitoral. Estamos a colaborar com parceiros dos EUA e internacionais de áreas como governo, media, entretenimento, educação, sociedade civil e outros, para garantir que incorporamos o seu feedback enquanto desenvolvemos a tecnologia. Os parceiros que estão atualmente a testar o Voice Engine concordaram com as nossas políticas de utilização⁠, que proíbem a personificação de outra pessoa ou organização sem consentimento ou direito legal. Além disso, os nossos termos com estes parceiros exigem o consentimento explícito e informado do orador original e não permitimos que os programadores criem formas de os utilizadores individuais criarem as suas próprias vozes. Os parceiros também devem informar de forma clara o seu público de que as vozes que estão a ouvir são geradas por IA. Por fim, implementámos um conjunto de medidas de segurança, incluindo a marca de água para rastrear a origem de qualquer áudio gerado pelo Voice Engine, bem como a monitorização proativa da forma como está a ser utilizado. Acreditamos que qualquer implementação alargada da tecnologia de vozes sintéticas deve ser acompanhada de experiências de autenticação de voz que verifiquem que o orador original está, de forma consciente, a adicionar a sua voz ao serviço, bem como de uma lista de vozes proibidas que detete e previna a criação de vozes demasiado semelhantes a figuras públicas.

Olhar em frente

O Voice Engine é uma continuação do nosso compromisso em explorar os limites da tecnologia e de partilhar abertamente o que a IA está a tornar possível. Em consonância com a nossa abordagem à segurança da IA⁠ e os nossos compromissos voluntários⁠, optámos por apresentar esta tecnologia em fase de pré-visualização, mas sem a lançar de forma alargada nesta fase. Esperamos que esta pré-visualização do Voice Engine realce o seu potencial e também destaque a necessidade de reforçar a resiliência da sociedade face aos desafios trazidos por modelos generativos cada vez mais convincentes. Especificamente, incentivamos medidas como:

Eliminar gradualmente a autenticação por voz como medida de segurança para aceder a contas bancárias e a outras informações sensíveis
Explorar políticas para proteger a utilização das vozes de cada pessoa na IA
Educar o público sobre as capacidades e limitações das tecnologias de IA, incluindo a possibilidade de conteúdo enganoso gerado por IA
Acelerar o desenvolvimento e a adoção de técnicas para rastrear a origem de conteúdos audiovisuais, de forma a que seja sempre claro quando está a interagir com uma pessoa real ou com uma IA

É importante que as pessoas em todo o mundo compreendam para onde esta tecnologia se dirige, quer a implementemos amplamente ou não. Esperamos continuar a participar em conversas sobre os desafios e oportunidades das vozes sintéticas com decisores políticos, investigadores, programadores e criativos.

Explorar os desafios e as oportunidades das vozes sintéticas

Primeiras aplicações do Voice Engine

Desenvolver o Voice Engine de forma segura

Olhar em frente

Artigos relacionados