Salta al contingut principal
OpenAI

29 de març del 2024

Producte

Navegant pels reptes i les oportunitats de les veus sintètiques

Compartim lliçons d’una vista prèvia a petita escala de Voice Engine, un model per crear veus personalitzades.

S'està carregant…

OpenAI té el compromís de desenvolupar una IA segura i àmpliament beneficiosa. Avui compartim conclusions preliminars i resultats d’una vista prèvia a petita escala d’un model anomenat Voice Engine, que utilitza entrada de text i una única mostra d’àudio de 15 segons per generar parla d’aspecte natural que s’assembla molt a la del parlant original. És destacable que un model petit amb una sola mostra de 15 segons pugui crear veus emotives i realistes.

Vam desenvolupar Voice Engine per primera vegada a finals del 2022, i l’hem fet servir per impulsar les veus predefinides disponibles a l’API de text a veu(s'obre en una finestra nova), així com ChatGPT Voice i Read Aloud. Al mateix temps, estem adoptant un enfocament cautelós i informat pel que fa a un llançament més ampli a causa del potencial d’ús indegut de les veus sintètiques. Esperem iniciar un diàleg sobre el desplegament responsable de les veus sintètiques i sobre com la societat es pot adaptar a aquestes noves capacitats. A partir d’aquestes converses i dels resultats d’aquestes proves a petita escala, prendrem una decisió més informada sobre si desplegar aquesta tecnologia a gran escala i com fer-ho.

Primeres aplicacions de Voice Engine

Per entendre millor els usos potencials d’aquesta tecnologia, a finals de l’any passat vam començar a provar-la de manera privada amb un petit grup de socis de confiança. Ens han impressionat les aplicacions que aquest grup ha desenvolupat. Aquests desplegaments a petita escala ens ajuden a orientar el nostre enfocament, les nostres salvaguardes i la nostra reflexió sobre com Voice Engine es podria fer servir per al bé en diversos sectors. Alguns primers exemples inclouen:

  • Proporcionar ajuda a la lectura a persones que no saben llegir i a infants mitjançant veus naturals i emotives que representen una gamma més àmplia de parlants del que és possible amb les veus predefinides. Age of Learning(s'obre en una finestra nova), una empresa de tecnologia educativa dedicada a l’èxit acadèmic dels infants, ha estat utilitzant això per generar contingut de veu en off preguionitzat. També fan servir Voice Engine i GPT‑4 per crear respostes personalitzades en temps real per interactuar amb els estudiants. Amb aquesta tecnologia, Age of Learning ha pogut crear més contingut per a un públic més ampli.
  • Traduir contingut, com vídeos i pòdcasts, perquè creadors i empreses puguin arribar a més persones d’arreu del món, amb fluïdesa i amb les seves pròpies veus. Un dels primers a adoptar-ho és HeyGen(s'obre en una finestra nova), una plataforma d’IA de narrativa visual que treballa amb clients empresarials per crear avatars personalitzats i semblants a humans per a diversos tipus de contingut, des del màrqueting de producte fins a demostracions de vendes. Utilitzen Voice Engine per a la traducció de vídeo, de manera que poden traduir la veu d’un parlant a múltiples llengües i arribar a una audiència global. Quan s’utilitza per a la traducció, Voice Engine preserva l’accent nadiu del parlant original: per exemple, generar anglès amb una mostra d’àudio d’un parlant francès produiria una parla amb accent francès.
S'està carregant...
  • Arribar a comunitats globals, millorant la prestació de serveis essencials en entorns remots. Dimagi(s'obre en una finestra nova) està desenvolupant eines perquè els treballadors de salut comunitària puguin oferir diversos serveis essencials, com ara assessorament a mares lactants. Per ajudar aquests treballadors a desenvolupar les seves habilitats, Dimagi utilitza Voice Engine i GPT‑4 per oferir retroalimentació interactiva en la llengua principal de cada treballador, inclòs el suahili o llengües més informals com el sheng, una llengua barrejada de codis molt popular a Kenya.
S'està carregant...
  • Donar suport a les persones que no tenen parla, com ara en aplicacions terapèutiques per a persones amb afeccions que afecten la parla i millores educatives per a qui té necessitats d’aprenentatge. Livox(s'obre en una finestra nova), una aplicació de comunicació alternativa basada en IA, impulsa dispositius de Comunicació Augmentativa i Alternativa (CAA) que permeten a les persones amb discapacitat comunicar-se. Amb Voice Engine, poden oferir a persones sense parla veus úniques i no robòtiques en moltes llengües. Els seus usuaris poden triar la parla que millor els representa i, en el cas dels usuaris multilingües, mantenir una veu coherent en cada llengua parlada.
S'està carregant...
  • Ajudar els pacients a recuperar la veu, per a les persones que pateixen afeccions sobtades o degeneratives de la parla. El Norman Prince Neurosciences Institute de Lifespan(s'obre en una finestra nova), un sistema sanitari sense ànim de lucre que és el principal centre docent afiliat a la facultat de medicina de la Brown University, està explorant usos de la IA en contextos clínics. Han estat pilotant un programa que ofereix Voice Engine a persones amb etiologies oncològiques o neurològiques de deteriorament de la parla. Com que Voice Engine necessita una mostra d’àudio tan curta, les doctores i doctors Fatima Mirza, Rohaid Ali i Konstantina Svokos van poder restaurar la veu d’una pacient jove que havia perdut la fluïdesa en la parla a causa d’un tumor cerebral vascular, utilitzant l’àudio d’un vídeo gravat per a un projecte escolar.
S'està carregant...

Construir Voice Engine de manera segura

Reconeixem que generar parla que s’assembla a les veus de les persones comporta riscos greus, especialment presents en un any electoral. Estem col·laborant amb socis dels Estats Units i internacionals de l’àmbit governamental, dels mitjans, de l’entreteniment, de l’educació, de la societat civil i d’altres sectors per assegurar-nos que incorporem els seus comentaris mentre construïm. Els socis que avui proven Voice Engine han acceptat les nostres polítiques d’ús, que prohibeixen suplantar una altra persona o organització sense consentiment o dret legal. A més, les nostres condicions amb aquests socis exigeixen el consentiment explícit i informat del parlant original, i no permetem que els desenvolupadors creïn maneres perquè els usuaris individuals puguin crear les seves pròpies veus. Els socis també han d’indicar clarament a la seva audiència que les veus que senten han estat generades per IA. Finalment, hem implementat un conjunt de mesures de seguretat, inclosa la inserció de marques d’aigua per rastrejar l’origen de qualsevol àudio generat per Voice Engine, així com el monitoratge proactiu de com s’està utilitzant. Creiem que qualsevol desplegament ampli de la tecnologia de veu sintètica hauria d’anar acompanyat d’experiències d’autenticació de veu que verifiquin que el parlant original afegeix conscientment la seva veu al servei i d’una llista de veus vetades que detecti i impedeixi la creació de veus massa semblants a les de figures prominents.

Mirant endavant

Voice Engine és una continuació del nostre compromís per entendre la frontera tècnica i compartir obertament allò que la IA fa possible cada vegada més. En línia amb el nostre enfocament de la seguretat de la IA i els nostres compromisos voluntaris, ara per ara optem per oferir una vista prèvia, però no llançar àmpliament aquesta tecnologia. Esperem que aquesta vista prèvia de Voice Engine en subratlli el potencial i també motivi la necessitat de reforçar la resiliència social davant dels reptes que plantegen uns models generatius cada cop més convincents. En concret, animem a prendre mesures com ara:

  • Eliminar progressivament l’autenticació per veu com a mesura de seguretat per accedir a comptes bancaris i altra informació sensible
  • Explorar polítiques per protegir l’ús de les veus de les persones en la IA
  • Educar el públic perquè entengui les capacitats i limitacions de les tecnologies d’IA, inclosa la possibilitat de contingut d’IA enganyós
  • Accelerar el desenvolupament i l’adopció de tècniques per rastrejar l’origen del contingut audiovisual, perquè sempre quedi clar quan s’interactua amb una persona real o amb una IA

És important que la gent de tot el món entengui cap on va aquesta tecnologia, tant si finalment la despleguem àmpliament nosaltres mateixos com si no. Esperem continuar participant en converses sobre els reptes i les oportunitats de les veus sintètiques amb responsables polítics, investigadors, desenvolupadors i creatius.