Naviguer dans les défis et opportunités des voix synthétiques
Nous partageons les leçons tirées d’un aperçu à petite échelle de Voice Engine, un modèle permettant de créer des voix personnalisées.
OpenAI s’engage à développer une IA sécurisée et bénéfique pour tous. Aujourd’hui, nous partageons des informations préliminaires et des résultats issus d’un aperçu à petite échelle d’un modèle appelé Voice Engine, qui utilise une entrée textuelle et un seul échantillon audio de 15 secondes pour générer une parole au son naturel qui ressemble étroitement à celle du locuteur d’origine. Il est à noter qu’un petit modèle, avec un seul échantillon de 15 secondes, peut créer des voix émouvantes et réalistes.
Nous avons d’abord développé Voice Engine à la fin de 2022, et nous l’avons utilisé pour alimenter les voix prédéfinies disponibles dans l’API texte-parole(s'ouvre dans une nouvelle fenêtre) ainsi que ChatGPT Voix et Lecture à voix haute. Parallèlement, nous adoptons une approche prudente et éclairée à l’égard d’un déploiement plus large en raison du risque d’utilisation abusive de voix synthétiques. Nous espérons amorcer un dialogue sur le déploiement responsable des voix synthétiques et sur la façon dont la société peut s’adapter à ces nouvelles capacités. En nous basant sur ces conversations et sur les résultats de ces tests à petite échelle, nous prendrons une décision plus éclairée quant à la pertinence et à la façon de déployer cette technologie à grande échelle.
Pour mieux comprendre les utilisations potentielles de cette technologie, nous avons commencé à la tester en privé à la fin de l’année dernière avec un petit groupe de partenaires de confiance. Nous avons été impressionnés par les applications que ce groupe a développées. Ces déploiements à petite échelle nous aident à orienter notre approche, nos mesures de protection et notre réflexion sur la façon dont Voice Engine pourrait être utilisé à des fins positives dans divers secteurs. Voici quelques exemples préliminaires :
- Offrir une aide à la lecture aux non-lecteurs et aux enfants grâce à des voix au son naturel et expressives, représentant un éventail plus large de locuteurs que ce qui est possible avec des voix prédéfinies. Age of Learning(s'ouvre dans une nouvelle fenêtre), une entreprise de technologie éducative dédiée à la réussite scolaire des enfants, utilise cette fonctionnalité pour générer du contenu de voix hors champ préécrit. Ils utilisent également Voice Engine et GPT‑4 pour créer des réponses personnalisées en temps réel afin d’interagir avec les élèves. Grâce à cette technologie, Age of Learning a pu créer davantage de contenu pour un public plus large.
- Traduire du contenu, comme des vidéos et des balados, afin que les créateurs et les entreprises puissent rejoindre davantage de personnes partout dans le monde, avec fluidité et en conservant leur propre voix. L’un des premiers à l’adopter est HeyGen(s'ouvre dans une nouvelle fenêtre), une plateforme de narration visuelle par IA qui collabore avec ses clients d’entreprise pour créer des avatars personnalisés, réalistes et semblables à des humains pour une variété de contenus, du marketing produit aux démonstrations de vente. Ils utilisent Voice Engine pour la traduction vidéo, ce qui leur permet de traduire la voix d’un locuteur dans plusieurs langues et de rejoindre un public mondial. Lorsqu’il est utilisé pour la traduction, Voice Engine préserve l’accent natif du locuteur d’origine : par exemple, générer de l’anglais à partir d’un échantillon audio d’un locuteur francophone produirait une parole avec un accent français.
- Atteindre des communautés partout dans le monde, en améliorant la prestation de services essentiels dans des milieux éloignés. Dimagi(s'ouvre dans une nouvelle fenêtre) développe des outils pour permettre aux agents de santé communautaires de fournir une variété de services essentiels, comme des conseils aux mères qui allaitent. Pour aider ces travailleurs à développer leurs compétences, Dimagi utilise Voice Engine et GPT‑4 pour offrir une rétroaction interactive dans la langue principale de chaque travailleur, y compris le swahili ou des langues plus informelles comme le sheng, une langue à mélange de codes populaire au Kenya.
- Soutenir les personnes non verbales, comme des applications thérapeutiques pour les personnes ayant des troubles qui affectent la parole et des améliorations éducatives pour celles ayant des besoins d’apprentissage. Livox(s'ouvre dans une nouvelle fenêtre), une application de communication alternative alimentée par l’IA, alimente des appareils de communication améliorée et alternative (CAA) qui permettent aux personnes handicapées de communiquer. En utilisant Voice Engine, ils peuvent offrir aux personnes non verbales des voix uniques et non robotiques dans de nombreuses langues. Leurs utilisateurs peuvent choisir la voix qui les représente le mieux et, pour les utilisateurs multilingues, conserver une voix cohérente dans chaque langue parlée.
- Aider les patients à retrouver leur voix, pour ceux qui souffrent de troubles de la parole soudains ou dégénératifs. Le Norman Prince Neurosciences Institute de Lifespan(s'ouvre dans une nouvelle fenêtre), un système de santé à but non lucratif qui est le principal établissement d’enseignement affilié à la faculté de médecine de l’Université Brown, explore des utilisations de l’IA dans des contextes cliniques. Ils ont mené un projet pilote offrant Voice Engine à des personnes présentant des étiologies oncologiques ou neurologiques entraînant une déficience de la parole. Comme Voice Engine nécessite un échantillon audio très court, les médecins Fatima Mirza, Rohaid Ali et Konstantina Svokos ont pu restaurer la voix d’une jeune patiente qui avait perdu sa parole fluide en raison d’une tumeur cérébrale vasculaire, en utilisant l’audio d’une vidéo enregistrée pour un projet scolaire.
Nous reconnaissons que la génération de discours ressemblant à la voix de personnes comporte de graves risques, particulièrement préoccupants en année électorale. Nous collaborons avec des partenaires américains et internationaux issus des administrations publiques, des médias, du divertissement, de l’éducation, de la société civile et au-delà afin d’intégrer leurs commentaires au fur et à mesure de notre développement. Les partenaires qui testent Voice Engine aujourd’hui ont accepté nos conditions d’utilisation, qui interdisent l’usurpation d’identité d’une autre personne ou organisation sans consentement ou droit légal. De plus, nos conditions avec ces partenaires exigent le consentement explicite et éclairé de l’intervenant d’origine, et nous n’autorisons pas les développeurs à créer des moyens permettant aux utilisateurs individuels de créer leurs propres voix. Les partenaires doivent aussi indiquer clairement à leur public que les voix qu’ils entendent sont générées par l’IA. Enfin, nous avons mis en œuvre un ensemble de mesures de sécurité, notamment le filigranage pour retracer l’origine de tout audio généré par Voice Engine, ainsi qu’une surveillance proactive de son utilisation. Nous croyons que tout déploiement à grande échelle de la technologie de synthèse vocale devrait s'accompagner de mesures d'authentification vocale permettant de vérifier que l'utilisateur ajoute sciemment sa voix au service, ainsi que d'une liste de voix interdites détectant et empêchant la création de voix trop similaires à celles de personnalités connues.
Voice Engine est une continuation de notre engagement à comprendre la technologie de pointe et à partager ouvertement ce qui devient possible avec l'IA. Conformément à notre approche de la sécurité de l’IA et à nos engagements volontaires, nous choisissons de proposer un aperçu, mais de ne pas diffuser largement cette technologie pour le moment. Nous espérons que cet aperçu de Voice Engine met en évidence son potentiel tout en soulignant la nécessité de renforcer la résilience de la société face aux défis posés par des modèles génératifs toujours plus convaincants. Plus précisément, nous encourageons des mesures comme les suivantes :
- Éliminer progressivement l’authentification vocale comme mesure de sécurité pour accéder aux comptes bancaires et à d’autres informations sensibles
- Explorer des politiques visant à protéger l’utilisation des voix des individus dans l’IA
- Sensibiliser le public à la compréhension des capacités et des limites des technologies d’IA, y compris la possibilité de contenu d’IA trompeur
- Accélérer le développement et l’adoption de techniques pour suivre l’origine du contenu audiovisuel, afin qu’il soit toujours clair si vous interagissez avec une personne réelle ou une IA
Il est important que les gens du monde entier comprennent où cette technologie se dirige, que nous choisissions ou non de la déployer largement nous-mêmes. Nous sommes impatients de poursuivre les discussions sur les défis et les opportunités des voix synthétiques avec des décideurs politiques, des chercheurs, des développeurs et des créateurs.


