Pular para o conteúdo principal
OpenAI

29 de março de 2024

Produto

Lidando com os desafios e as oportunidades das vozes sintéticas

Estamos compartilhando o que aprendemos com uma prévia em pequena escala do Mecanismo de voz, um modelo para criar vozes personalizadas.

Carregando…

A OpenAI tem o compromisso de desenvolver uma IA segura e amplamente benéfica. Hoje estamos compartilhando insights e resultados preliminares de uma prévia em pequena escala de um modelo chamado Mecanismo de voz, que usa entradas de texto e uma amostra de áudio de 15 segundos para gerar uma voz que soa natural e se assemelha muito ao locutor original. É notável que um modelo pequeno, com uma única amostra de 15 segundos, consiga criar vozes expressivas e realistas.

Desenvolvemos o Mecanismo de voz pela primeira vez no fim de 2022 e o usamos para as vozes predefinidas disponíveis na API de conversão de texto em fala(abre em uma nova janela) e no ChatGPT Modo Voz e Ler em Voz Alta. Ao mesmo tempo, estamos adotando uma abordagem cautelosa e informada a um lançamento mais amplo devido ao potencial de uso indevido da voz sintética. Esperamos iniciar um diálogo sobre a implantação responsável de vozes sintéticas e como a sociedade pode se adaptar a esses novos recursos. Com base nessas conversas e nos resultados desses testes em pequena escala, tomaremos uma decisão mais embasada sobre se e como implementar essa tecnologia em larga escala.

Primeiras aplicações do Mecanismo de voz

Para entender melhor os possíveis usos dessa tecnologia, no fim do ano passado começamos a testá-la de forma privada com um pequeno grupo de parceiros de confiança. Os aplicativos que esse grupo desenvolveu nos impressionaram. As implantações em pequena escala estão ajudando a orientar nossa abordagem, salvaguardas e reflexões sobre como o Mecanismo de voz poderia ser usado para o bem em diversos setores. Veja alguns exemplos iniciais:

  • Oferecer assistência de leitura a não leitores e crianças por meio de vozes naturais e expressivas, representando uma variedade maior de falantes do que é possível com vozes predefinidas. A Age of Learning(abre em uma nova janela), uma empresa de tecnologia educacional dedicada ao sucesso acadêmico de crianças, vem usando o modelo para gerar conteúdo de narração com roteiro. Ela também usa o Mecanismo de voz e o GPT‑4 para criar respostas personalizadas em tempo real para interagir com os alunos. Graças a essa tecnologia, a Age of Learning conseguiu criar mais conteúdo para um público mais amplo.
  • Traduzir conteúdo, como vídeos e podcasts, para que criadores e empresas possam alcançar mais pessoas ao redor do mundo, com fluência e nas próprias vozes. Uma das pioneiras na adoção é a HeyGen(abre em uma nova janela), uma plataforma de narração visual com IA que trabalha com seus clientes corporativos para criar avatares personalizados, semelhantes a humanos, para diversos tipos de conteúdo, do marketing de produtos a demonstrações de vendas. Ela usa o Mecanismo de voz para traduzir a voz de um locutor no vídeo para vários idiomas e alcançar um público global. Quando usado para tradução, o Mecanismo de voz preserva o sotaque original do locutor. Por exemplo, gerar uma voz em inglês com uma amostra de áudio de um falante francês produz uma voz com sotaque francês.
Carregando…
  • Chegar a comunidades globais ao melhorar a prestação de serviços essenciais em contextos remotos. A Dimagi(abre em uma nova janela) está desenvolvendo ferramentas para agentes comunitários de saúde oferecerem uma variedade de serviços essenciais, como orientação para mães que amamentam. Para ajudar essas equipes a desenvolverem suas habilidades, a Dimagi usa o Mecanismo de voz e o GPT‑4 para fornecer feedback interativo no idioma principal de cada agente, incluindo suaíli, ou idiomas mais informais como sheng, uma língua que mistura códigos popular no Quênia.
Carregando…
  • Apoio a pessoas não verbais, como aplicações terapêuticas para indivíduos com doenças que afetam a fala e melhorias pedagógicas para quem tem dificuldade de aprendizagem. O Livox(abre em uma nova janela), um aplicativo de comunicação alternativa com IA, funciona em dispositivos de comunicação alternativa e ampliada (CAA) que permitem que pessoas com deficiência se expressem. Com o uso do Mecanismo de voz, é possível oferecer a pessoas não verbais vozes únicas e não robóticas em vários idiomas. Os usuários do aplicativo podem escolher a voz que os representa melhor e, para quem fala vários idiomas, manter uma voz consistente em cada língua falada.
Carregando…
  • Ajudar pacientes a recuperar a voz, para quem tem doenças degenerativas ou súbitas relacionadas à fala. O Norman Prince Neurosciences Institute da Lifespan(abre em uma nova janela), um sistema de saúde sem fins lucrativos que atua como o principal afiliado de ensino da faculdade de medicina da Brown University, está explorando os usos de IA em contextos clínicos. O instituto tem conduzido um programa-piloto que oferece o Mecanismo de voz a indivíduos com etiologias oncológicas ou neurológicas para comprometimento da fala. Como o Mecanismo de voz requer uma amostra de áudio tão curta, os médicos Fatima Mirza, Rohaid Ali e Konstantina Svokos conseguiram restaurar a voz de uma paciente que perdeu a fluência na fala devido a um tumor vascular cerebral usando áudio de um vídeo gravado para um projeto escolar.
Carregando…

Criação segura do Mecanismo de voz

Reconhecemos que gerar vozes que se assemelham às das pessoas traz riscos sérios e é algo especialmente preocupante em ano eleitoral. Estamos trabalhando com parceiros internacionais e nos EUA, de diferentes setores como governo, mídia, entretenimento, ensino, sociedade civil e outros, para garantir a incorporação do feedback deles durante o desenvolvimento. Os parceiros que estão testando o Mecanismo de voz concordaram com nossas políticas de uso, que proíbem fingir ser outro indivíduo ou organização sem consentimento ou direito legal. Além disso, nossos termos com esses parceiros exigem consentimento explícito e informado do locutor original, e não permitimos que os desenvolvedores criem meios para que usuários individuais gerem a própria voz. Os parceiros também devem informar claramente ao público que as vozes que estão ouvindo são geradas por IA. Por fim, implementamos um conjunto de medidas de segurança, incluindo marca d’água para rastrear a origem de qualquer áudio gerado pelo Mecanismo de voz, bem como o monitoramento proativo da utilização. Acreditamos que qualquer implantação ampla da tecnologia de voz sintética deve ser acompanhada por experiências de autenticação de voz que confirmem que o locutor original está, conscientemente, adicionando a voz ao serviço e por uma lista de vozes banidas que detecte e impeça a criação de vozes muito semelhantes às de pessoas ilustres.

Olhando para o futuro

O Mecanismo de voz dá continuidade ao nosso compromisso de entender a fronteira técnica e compartilhar abertamente o que está se tornando possível com a AI. Alinhados com nossa abordagem à segurança da IA e nossos compromissos voluntários, decidimos disponibilizar uma prévia desta tecnologia, sem fazer um amplo lançamento no momento. Esperamos que esta prévia do Mecanismo de voz destaque seu potencial e impulsione a necessidade de fortalecer a resiliência da sociedade diante dos desafios trazidos por modelos generativos cada vez mais convincentes. Especificamente, incentivamos medidas como:

  • Eliminar gradualmente a autenticação por voz como medida de segurança para acessar contas bancárias e outras informações confidenciais
  • Explorar políticas para proteger o uso das vozes das pessoas na IA
  • Ensinar o público a compreender as capacidades e limitações das tecnologias de IA, incluindo a possibilidade de conteúdo de IA enganoso
  • Acelerar o desenvolvimento e a adoção de técnicas para rastrear a origem de conteúdo audiovisual, para que fique sempre claro quando a interação acontece com uma pessoa real ou com uma IA

É importante que as pessoas no mundo todo entendam para onde essa tecnologia está caminhando, independentemente de a implementarmos de forma ampla ou não no futuro. Esperamos continuar o diálogo sobre os desafios e as oportunidades das vozes sintéticas com legisladores, pesquisadores, desenvolvedores e criativos.