29 mars 2024

Relever les défis et saisir les opportunités des voix synthétiques

Nous partageons les enseignements tirés d’une préversion à petite échelle de Voice Engine, un modèle permettant de créer des voix personnalisées.

Chargement...

OpenAI s’engage à développer une IA sûre et bénéfique pour tous⁠. Aujourd’hui, nous partageons des informations préliminaires et les résultats d’une préversion à petite échelle d’un modèle appelé Voice Engine, qui utilise une saisie de texte et un seul échantillon audio de 15 secondes pour générer une voix au rendu naturel qui ressemble étroitement à celle du locuteur d’origine. Il est à noter qu’un petit modèle, avec un seul échantillon de 15 secondes, est en mesure de créer des voix expressives et réalistes.

Nous avons d’abord développé Voice Engine fin 2022, et l’avons utilisé pour alimenter les voix prédéfinies disponibles dans l’API de synthèse vocale⁠(ouverture dans une nouvelle fenêtre) ainsi que dans ChatGPT Voix et Lire à voix haute⁠. Dans le même temps, nous adoptons une approche prudente et éclairée en vue d’un déploiement plus large, en raison du risque d’utilisation abusive de la voix synthétique. Nous espérons engager un dialogue sur le déploiement responsable des voix synthétiques et sur la manière dont la société peut s’adapter à ces nouvelles capacités. Sur la base de ces discussions et des résultats de ces tests à petite échelle, nous prendrons une décision plus éclairée quant à l’opportunité et à la manière de déployer cette technologie à grande échelle.

Premières utilisations de Voice Engine

Afin de mieux comprendre les utilisations potentielles de cette technologie, nous avons commencé à la fin de l’année dernière à la tester en privé avec un petit groupe de partenaires de confiance. Nous avons été impressionnés par les utilisations développées par ce groupe. Ces déploiements à petite échelle nous aident à orienter notre approche, nos mesures de protection et notre réflexion sur la manière dont Voice Engine pourrait être utilisé à bon escient dans divers secteurs d’activité. Parmi les premiers exemples, citons :

Apporter une aide à la lecture aux non-lecteurs et aux enfants grâce à des voix expressives au rendu naturel, qui représentent un éventail plus large de locuteurs que ce qui est possible avec des voix prédéfinies. Age of Learning⁠(ouverture dans une nouvelle fenêtre), une entreprise de technologie éducative dédiée à la réussite scolaire des enfants, utilise cette technologie pour générer des contenus de voix off préscénarisés. Elle utilise également Voice Engine et GPT‑4 pour créer des réponses personnalisées en temps réel afin d’interagir avec les apprenants. Grâce à cette technologie, Age of Learning a pu créer davantage de contenus pour un public plus large.

Traduire des contenus, comme des vidéos et des podcasts, afin que les créateurs et les entreprises puissent toucher un plus grand nombre de personnes dans le monde, de manière fluide et avec leur propre voix. L’un des premiers utilisateurs est HeyGen⁠(ouverture dans une nouvelle fenêtre), une plateforme de narration visuelle basée sur l’IA qui collabore avec ses entreprises clientes pour créer des avatars personnalisés, semblables à des humains, pour une grande variété de contenus, du marketing produit aux démonstrations de vente. Elle utilise Voice Engine pour la traduction des vidéos, ce qui lui permet de traduire la voix d’un locuteur dans plusieurs langues et d’atteindre un public mondial. Lorsqu’il est utilisé pour la traduction, Voice Engine préserve l’accent natif du locuteur d’origine : par exemple, générer de l’anglais à partir de l’échantillon audio d’un locuteur français produirait une voix avec un accent français.

Chargement en cours...

Atteindre les communautés mondiales en améliorant la prestation de services essentiels dans les régions éloignées. Dimagi⁠(ouverture dans une nouvelle fenêtre) développe des outils pour permettre aux agents de santé communautaires de fournir divers services essentiels, tels que des conseils aux mères qui allaitent. Pour aider ces travailleurs à développer leurs compétences, Dimagi utilise Voice Engine et GPT‑4 pour formuler des commentaires interactifs dans la langue principale de chaque travailleur, notamment le swahili ou des langues plus informelles comme le sheng, une langue mixte codée, populaire au Kenya.

Chargement en cours...

Soutenir les personnes non verbales, par exemple des applications thérapeutiques pour les personnes atteintes de troubles affectant la parole et des améliorations pédagogiques pour celles ayant des besoins d’apprentissage. Livox⁠(ouverture dans une nouvelle fenêtre), une application de communication alternative basée sur l’IA, alimente des appareils de communication alternative et améliorée (CAA) qui permettent aux personnes en situation de handicap de communiquer. En utilisant Voice Engine, l’application est en mesure de proposer aux personnes non verbales des voix uniques et non robotiques dans de nombreuses langues. Les utilisateurs peuvent choisir la voix qui les représente le mieux et les utilisateurs multilingues peuvent garder une voix cohérente dans chaque langue parlée.

Chargement en cours...

Aider les patients à retrouver leur voix, pour ceux qui souffrent de troubles soudains ou dégénératifs de la parole. Le Norman Prince Neurosciences Institute de Lifespan⁠(ouverture dans une nouvelle fenêtre), un système de santé à but non lucratif qui est le principal établissement affilié d’enseignement de la faculté de médecine de l’université Brown, explore les utilisations de l’IA dans des contextes cliniques. L’établissement a mis en place un programme pilote qui propose Voice Engine à des personnes souffrant de troubles de la parole d’origine oncologique ou neurologique. Comme Voice Engine ne nécessite qu’un très court échantillon audio, les médecins Fatima Mirza, Rohaid Ali et Konstantina Svokos ont pu restaurer la voix d’une jeune patiente qui avait perdu l’usage de la parole à cause d’une tumeur cérébrale vasculaire, en utilisant l’audio d’une vidéo enregistrée dans le cadre d’un projet scolaire.

Chargement en cours...

Développement de Voice Engine en toute sécurité

Nous sommes conscients que générer des discours ressemblant à la voix de personnes présente de sérieux risques, d’autant plus préoccupants en cours d’année électorale. Nous collaborons avec des partenaires américains et internationaux issus des administrations publiques, des médias, du divertissement, de l’enseignement, de la société civile et d’ailleurs, afin de nous assurer que nous tenons compte de leurs commentaires au fur et à mesure de notre développement. Les partenaires qui testent Voice Engine aujourd’hui ont accepté nos politiques d’utilisation⁠, qui interdisent l’usurpation d’identité d’une autre personne ou organisation sans consentement ou droit légal. En outre, nos conditions avec ces partenaires exigent le consentement explicite et éclairé du locuteur d’origine, et nous n’autorisons pas les développeurs à créer des moyens permettant aux utilisateurs individuels de générer leur propre voix. Les partenaires doivent également indiquer clairement à leur public que les voix qu’ils entendent sont générées par l’IA. Enfin, nous avons mis en place un ensemble de mesures de sécurité, notamment l’ajout d’un filigrane pour retracer l’origine de tout contenu audio généré par Voice Engine, ainsi qu’une surveillance proactive de son utilisation. Nous pensons que tout déploiement à grande échelle de la technologie de voix synthétique devrait être accompagné d’expériences d’authentification vocale permettant de vérifier que le locuteur d’origine ajoute sciemment sa voix au service, ainsi que d’une liste de voix interdites pour détecter et empêcher la création de voix trop similaires à celle de personnalités de premier plan.

Perspectives d’avenir

Voice Engine s’inscrit dans la continuité de notre engagement à comprendre la frontière sur le plan technique et à partager ouvertement ce que l’IA rend possible. Conformément à notre approche de la sécurité de l’IA⁠ et à nos engagements volontaires⁠, nous choisissons de proposer une préversion, mais de ne pas déployer largement cette technologie pour le moment. Nous espérons que cette préversion de Voice Engine met en évidence son potentiel tout en soulignant la nécessité de renforcer la résilience de la société face aux défis posés par des modèles génératifs toujours plus convaincants. Plus précisément, nous encourageons les mesures suivantes :

Suppression progressive de l’authentification vocale comme mesure de sécurité pour accéder aux comptes bancaires et à d’autres informations sensibles
Exploration des politiques visant à protéger l’utilisation de la voix des individus dans l’IA
Sensibilisation du public à la compréhension des capacités et des limites des technologies d’IA, y compris la possibilité de contenus d’IA trompeurs
Accélération du développement et de l’adoption de techniques permettant de retracer l’origine des contenus audiovisuels, afin de toujours savoir si l’on interagit avec une personne réelle ou avec une IA

Il est important que les gens du monde entier comprennent où va cette technologie, que nous finissions par la déployer largement nous-mêmes ou non. Nous sommes impatients de poursuivre nos discussions sur les défis et les opportunités des voix synthétiques avec les décideurs politiques, les chercheurs, les développeurs et les créatifs.

Articles connexes

Tout afficher

Video generation models as world simulators

Publication15 févr. 2024

Building an early warning system for LLM-aided biological threat creation

Publication31 janv. 2024

Weak-to-strong generalization

Sécurité14 déc. 2023