29 de marzo de 2024

Navegar los desafíos y las oportunidades de las voces sintéticas

Compartimos los aprendizajes de una presentación preliminar a pequeña escala de Voice Engine, un modelo para crear voces personalizadas.

Cargando...

OpenAI se compromete a desarrollar una IA segura y ampliamente beneficiosa⁠. Hoy compartimos ideas y resultados preliminares de una presentación a pequeña escala de un modelo llamado Voice Engine, que utiliza entrada de texto y una única muestra de audio de 15 segundos para generar un habla con sonido natural que se asemeja mucho al hablante original. Es notable que un modelo pequeño con una sola muestra de 15 segundos pueda crear voces emotivas y realistas.

Desarrollamos Voice Engine por primera vez a finales de 2022 y lo hemos utilizado para impulsar las voces preestablecidas disponibles en la API de texto a voz⁠(se abre en una nueva ventana), así como en ChatGPT Voz y Leer en voz alta⁠. Al mismo tiempo, estamos adoptando un enfoque cauteloso e informado respecto a un lanzamiento más amplio debido al potencial de uso indebido de voces sintéticas. Esperamos abrir una conversación sobre el despliegue responsable de las voces sintéticas y la forma en que la sociedad debe evolucionar ante estas nuevas capacidades. En función de estas conversaciones y de los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si implementar esta tecnología a gran escala y cómo hacerlo.

Aplicaciones tempranas de Voice Engine

Para comprender mejor los posibles usos de esta tecnología, a finales del año pasado comenzamos a probarla de forma privada con un pequeño grupo de socios de confianza. Nos han impresionado las aplicaciones que este grupo desarrolló. Estas implementaciones a pequeña escala ayudan a orientar nuestro enfoque, nuestras medidas de seguridad y nuestra reflexión sobre cómo Voice Engine podría utilizarse para el bien en diversas industrias. Algunos ejemplos iniciales incluyen los siguientes:

Asistencia de lectura para personas que no saben leer y para niños, mediante voces naturales y emotivas que representan una gama más amplia de hablantes que la posible con voces predefinidas. Age of Learning⁠(se abre en una nueva ventana), una empresa de tecnología educativa dedicada al éxito académico de los niños, ha estado utilizando esta tecnología para generar contenido de locución pregrabado. También usan Voice Engine y GPT‑4 para crear respuestas personalizadas en tiempo real que interactúan con los estudiantes. Gracias a esta tecnología, Age of Learning pudo crear más contenido para una audiencia más amplia.

Traducción de contenido, como videos y podcasts, para que los creadores y las empresas puedan llegar a más personas en todo el mundo, con fluidez y usando sus propias voces. Uno de los primeros adoptantes es HeyGen⁠(se abre en una nueva ventana), una plataforma de narración visual con IA que trabaja con clientes empresariales para crear avatares personalizados con apariencia humana para distintos tipos de contenido, desde marketing de productos hasta demostraciones de ventas. Usan Voice Engine para la traducción de video, lo que les permite traducir la voz de un hablante a múltiples idiomas y llegar a una audiencia global. Cuando se usa para traducción, Voice Engine preserva el acento nativo del hablante original: por ejemplo, generar inglés a partir de una muestra de audio de un hablante francés produciría un discurso con acento francés.

Cargando...

Llegar a comunidades globales, al mejorar la prestación de servicios esenciales en entornos remotos. Dimagi⁠(se abre en una nueva ventana) está desarrollando herramientas para trabajadores de salud de la comunidad que brindan diversos servicios esenciales, como asesoramiento para madres lactantes. Para ayudar a estos trabajadores a desarrollar sus habilidades, Dimagi usa Voice Engine y GPT‑4 para proporcionar comentarios interactivos en el idioma principal de cada trabajador, incluidos el suajili o lenguas más informales como sheng, una mezcla de idiomas popular en Kenia.

Cargando...

Apoyar a personas que no pueden hablar, como en aplicaciones terapéuticas para individuos con afecciones que afectan el habla y mejoras educativas para quienes tienen necesidades de aprendizaje. Livox⁠(se abre en una nueva ventana), una aplicación de comunicación alternativa basada en IA, impulsa dispositivos de Comunicación aumentativa y alternativa (AAC) que permiten a las personas con discapacidad comunicarse. Al usar Voice Engine, pueden ofrecer a las personas que no pueden hablar voces únicas y no robóticas en muchos idiomas. Sus usuarios pueden elegir el habla que mejor los represente y, en el caso de usuarios multilingües, mantener una voz coherente en cada idioma hablado.

Cargando...

Ayudar a los pacientes a recuperar la voz, especialmente a quienes padecen afecciones del habla repentinas o degenerativas. El Norman Prince Neurosciences Institute de Lifespan⁠(se abre en una nueva ventana), un sistema de salud sin fines de lucro que funciona como afiliado principal de enseñanza de la facultad de medicina de la Universidad de Brown, está explorando el uso de la IA en contextos clínicos. Probaron un programa que ofrece Voice Engine a personas con etiologías oncológicas o neurológicas que provocan deterioro del habla. Dado que Voice Engine requiere una muestra de audio muy corta, los médicos Fatima Mirza, Rohaid Ali y Konstantina Svokos pudieron recuperar la voz de una joven paciente que perdió la fluidez del habla debido a un tumor cerebral vascular, gracias a que usaron el audio de un video grabado para un proyecto escolar.

Cargando...

Desarrollar Voice Engine de forma segura

Reconocemos que generar habla que se asemeje a la voz de las personas implica riesgos serios, que resultan especialmente relevantes en un año electoral. Estamos colaborando con socios de Estados Unidos y de otros países provenientes de ámbitos como el gobierno, los medios, el entretenimiento, la educación y la sociedad civil para asegurarnos de incorporar su opinión mientras desarrollamos esta tecnología. Los socios que actualmente prueban Voice Engine aceptaron nuestras políticas de uso⁠, que prohíben la suplantación de otra persona u organización sin consentimiento o derecho legal. Además, nuestros acuerdos con estos socios requieren el consentimiento explícito e informado del hablante original, y no permitimos que los desarrolladores creen mecanismos para que los usuarios individuales generen sus propias voces. Los socios también deben informar claramente a su audiencia que las voces que escuchan son generadas por IA. Por último, hemos implementado un conjunto de medidas de seguridad, lo que incluye marcas de agua para rastrear el origen de cualquier audio generado por Voice Engine, así como una supervisión proactiva de su uso. Creemos que cualquier implementación amplia de tecnología de voz sintética debería ir acompañada de experiencias de autenticación de voz que verifiquen que el hablante original está agregando conscientemente su voz al servicio, así como de una lista de voces restringidas que detecte y evite la creación de voces demasiado similares a las de figuras públicas destacadas.

De cara al futuro

Voice Engine es una continuación de nuestro compromiso de comprender la tecnología de vanguardia y compartir abiertamente lo que la IA hace posible. En línea con nuestro enfoque sobre la seguridad de la IA⁠ y nuestros compromisos voluntarios⁠, optamos por ofrecer una presentación preliminar, pero no por lanzar de manera generalizada esta tecnología en este momento. Esperamos que esta presentación preliminar de Voice Engine no solo subraye su potencial, sino que también motive la necesidad de fortalecer la resiliencia de la sociedad frente a los desafíos que plantean los modelos generativos cada vez más convincentes. En particular, te animamos a seguir pasos como los siguientes:

Eliminar gradualmente la autenticación basada en voz como medida de seguridad para acceder a cuentas bancarias y otra información confidencial.
Explorar políticas para proteger el uso de las voces de las personas en la IA.
Fomentar la educación para que el público comprenda las capacidades y las limitaciones de la IA, incluida la posibilidad de que exista contenido engañoso generado por IA.
Acelerar el desarrollo y la adopción de técnicas para rastrear el origen del contenido audiovisual, de modo que siempre quede claro cuándo se está interactuando con una persona real o con una IA.

Es importante que las personas de todo el mundo comprendan hacia dónde se dirige esta tecnología, ya sea que decidamos implementarla en gran medida o no. Esperamos seguir participando en conversaciones sobre los desafíos y las oportunidades de las voces sintéticas con los encargados de formular políticas, investigadores, desarrolladores y creadores.

Navegar los desafíos y las oportunidades de las voces sintéticas

Aplicaciones tempranas de Voice Engine

Desarrollar Voice Engine de forma segura

De cara al futuro

Artículos relacionados