Ir al contenido principal
OpenAI

29 de marzo de 2024

Producto

Los desafíos y las oportunidades de las voces artificiales

Compartimos las lecciones que hemos extraído de un avance a pequeña escala de Voice Engine, un modelo para crear voces personalizadas.

Cargando…

OpenAI tiene un fuerte compromiso con el desarrollo de una IA segura y que beneficie a todos. Hoy compartimos las primeras impresiones y resultados de un avance a pequeña escala de un modelo llamado Voice Engine, que utiliza un texto de entrada y una muestra de audio de 15 segundos para generar un habla natural que se asemeja a la del hablante original. Es reseñable que este pequeño modelo pueda crear voces emotivas y realistas con una sola muestra de 15 segundos.

Desarrollamos Voice Engine por primera vez a finales de 2022 y, desde entonces, lo hemos utilizado en las voces predefinidas disponibles en la API de texto a voz(se abre en una ventana nueva), ChatGPT Voz y Read Aloud. Al mismo tiempo, estamos adoptando un enfoque cauto y deliberado con relación a su lanzamiento general debido al posible uso indebido de las voces sintéticas. Esperamos iniciar un diálogo sobre el despliegue responsable de las voces sintéticas y sobre cómo la sociedad puede adaptarse a estas nuevas funcionalidades. Partiendo de este diálogo y de los resultados de estas pruebas a pequeña escala, tomaremos una decisión más contrastada sobre la posibilidad y la forma de desplegar esta tecnología a escala.

Aplicaciones iniciales de Voice Engine

Con el fin de comprender mejor quiénes podrían ser los usuarios de esta tecnología, el año pasado empezamos a realizar pruebas privadas con un pequeño grupo de socios de confianza. Estamos muy impresionados con las aplicaciones que ha desarrollado este grupo. Estas aplicaciones a pequeña escala nos están ayudando a definir nuestro enfoque, medidas de seguridad e ideas sobre cómo se podría utilizar adecuadamente Voice Engine en diversos sectores. A continuación se presentan algunos ejemplos iniciales:

  • Proporcionar ayuda para la lectura a personas que no saben leer y a niños y niñas mediante voces naturales y emotivas que representan una mayor variedad de hablantes de lo que es posible conseguir con voces preestablecidas. Age of Learning(se abre en una ventana nueva), una empresa de tecnología educativa cuyo objetivo es promover el éxito académico infantil, ha estado utilizando esta tecnología para generar contenidos de voice-over con guion. También utiliza Voice Engine y GPT‑4 para crear respuestas personalizadas en tiempo real e interactuar con los estudiantes. Con esta tecnología, Age of Learning ha podido crear más contenido para un público más amplio.
  • Traducir contenido, como vídeos y pódcast, para que los creadores y las empresas puedan llegar a más personas en todo el mundo con fluidez y con sus propias voces. Entre los primeros en adoptar este modelo está HeyGen(se abre en una ventana nueva), una plataforma de narración visual mediante IA que trabaja con sus clientes para crear avatares personalizados de apariencia humana en torno a contenido de diversa naturaleza, desde marketing de productos hasta demostraciones de ventas. La empresa utiliza Voice Engine para traducir vídeos, de forma que se puede interpretar la voz de una persona en varios idiomas y llegar así a espectadores de todo el mundo. Cuando se usa para la interpretación, Voice Engine mantiene el acento nativo del hablante original, es decir, si se genera contenido en inglés con una muestra de audio de un hablante francés, producirá un habla con acento francés.
Cargando...
  • Llegar a comunidades de todo el mundo mejorando la prestación de servicios esenciales en lugares remotos. Dimagi(se abre en una ventana nueva) está construyendo herramientas para que los trabajadores sanitarios que trabajan en las comunidades puedan ofrecer diversos servicios esenciales, por ejemplo, asesoramiento para madres lactantes. Con el fin de ayudar a estos trabajadores a desarrollar sus competencias, Dimagi utiliza Voice Engine y GPT‑4 para interactuar con ellos en su idioma materno, por ejemplo, el suajili, o lenguas más informales, como el sheng, una lengua criolla popular de Kenia.
Cargando...
  • Apoyar a las personas que no hablan mediante aplicaciones terapéuticas dirigidas a personas con trastornos del habla y mejoras educativas para quienes tienen necesidades de aprendizaje. Livox(se abre en una ventana nueva), una aplicación de comunicación alternativa mediante IA, se utiliza en dispositivos de comunicación aumentativa y alternativa (CAA) que hacen posible que las personas con discapacidad puedan comunicarse. Mediante el uso de Voice Engine se puede ofrecer a las personas sin habla voces únicas, en lugar de robóticas, en muchos idiomas. Los usuarios pueden elegir la voz que mejor les represente y, en el caso de personas multilingües, conservar la misma voz en todos los idiomas.
Cargando...
  • Ayudar a que los pacientes recuperen su voz en el caso de que hayan sufrido trastornos repentinos o degenerativos del habla. El Instituto de Neurociencias Norman Prince de Lifespan(se abre en una ventana nueva), un sistema sanitario sin ánimo de lucro que actúa como principal entidad docente afiliada a la Facultad de Medicina de la Universidad de Brown, está explorando los usos de la IA en contextos clínicos. Para ello, ha puesto a prueba un programa que ofrece Voice Engine a personas con problemas oncológicos o neurológicos que les impiden hablar. Dado que Voice Engine solo necesita una muestra de audio muy corta, los doctores Fatima Mirza, Rohaid Ali y Konstantina Svokos pudieron restaurar la voz de una joven paciente que perdió fluidez al hablar como consecuencia de un tumor cerebral vascular utilizando el audio de un vídeo grabado para un proyecto educativo.
Cargando...

Desarrollo seguro de Voice Engine

Somos conscientes de que generar una voz que se parezca a la de otras personas plantea graves riesgos, algo especialmente preocupante en un año electoral. Estamos colaborando con socios de los Estados Unidos e internacionales del sector gubernamental, los medios de comunicación, el mundo del espectáculo, la educación y la sociedad civil, entre otros, para de tener en cuenta sus impresiones a medida que avanzamos. Los socios que están probando actualmente Voice Engine han aceptado nuestras políticas de uso, que prohíben suplantar a otro individuo u organización sin consentimiento o derecho legal. Además, las condiciones que les imponemos exigen el consentimiento explícito e informado del hablante original, y no permitimos que los desarrolladores creen formas para que los usuarios puedan crear sus propias voces. Los socios también deben informar con claridad a su público de que las voces que están escuchando han sido generadas con IA. Por último, hemos aplicado un conjunto de medidas de seguridad, entre las que se incluye una marca de agua para rastrear el origen de cualquier audio generado por Voice Engine, así como la supervisión proactiva de cómo se está utilizando. Creemos que cualquier gran despliegue de una tecnología de voz sintética debe ir acompañado de experiencias de autenticación de la voz que verifiquen que el hablante original es consciente de que está dando su voz al servicio y de una lista que detecte e impida la generación de voces demasiado parecidas a las de personajes famosos.

De cara al futuro

Voice Engine refuerza nuestro compromiso de entender la frontera técnica de vanguardia y de compartir abiertamente lo que está siendo posible con la IA. Siguiendo la línea de nuestro enfoque de seguridad de la IA y nuestros compromisos voluntarios, hemos decidido presentar un avance, pero sin lanzar de momento esta tecnología. Esperamos que este avance de Voice Engine demuestre su potencial y la necesidad de reforzar la resistencia de la sociedad frente a los retos que plantean unos modelos generativos que cada vez son más convincentes. En concreto, recomendamos medidas como:

  • Eliminar progresivamente la autenticación por voz como medida de seguridad para acceder a cuentas bancarias y otra información sensible
  • Analizar políticas para impedir el uso de voces de personas en la IA
  • Educar al público sobre las capacidades y las limitaciones de las tecnologías de IA, por ejemplo, sobre la posibilidad de que los contenidos creados mediante IA sean engañosos
  • Acelerar el desarrollo y la adopción de técnicas para realizar un seguimiento del origen del contenido audiovisual con el fin de que el usuario sepa en todo momento si está interactuando con una persona real o con IA

Es importante que las personas de todo el mundo sepan hacia dónde se dirige esta tecnología, tanto si la implementamos nosotros como si no. Esperamos seguir participando en conversaciones sobre los retos y las oportunidades de las voces sintéticas con responsables de formular políticas, investigadores, desarrolladores y creativos.