7 de junio de 2024

Más detalles sobre el funcionamiento de Voice Engine y nuestras investigaciones sobre seguridad

Ahondamos en la tecnología de nuestro modelo de texto a voz.

Pintura abstracta con una combinación de colores pastel (rosa, naranja, violeta y verde) que se asemeja a un paisaje lleno de vida.

Cargando...

Queremos explicar mejor cómo funciona Voice Engine y cómo fueron nuestras investigaciones sobre la seguridad para informar a todos de nuestros avances. Voice Engine es un modelo capaz de generar voces personalizadas.

Es importante que todo el mundo comprenda hacia dónde se dirige esta tecnología, tanto si la implementamos ampliamente nosotros mismos como si no. Por eso, queremos dar más detalles sobre el funcionamiento del modelo, cómo lo usamos para el ámbito de las investigaciones y de la educación y cómo implementamos nuestras medidas de seguridad. Voice Engine todavía no está a disposición del público general.

Cómo funciona Voice Engine

La funcionalidad de voz se basa en un modelo de texto a voz (TTS), capaz de generar audio similar al humano a partir de un texto y una muestra de voz de 15 segundos.

El sistema de TTS se creó ayudando al modelo a entender las sutilezas de la voz con combinaciones de audio y transcripciones. El modelo aprende a predecir los sonidos más probables que producirá un hablante al leer la transcripción de un texto y tiene en cuenta los diferentes tipos de voces, acentos y formas de hablar. Luego, el modelo puede generar no solo versiones habladas del texto, sino también pronunciaciones que reflejan cómo los distintos hablantes lo leerían.

Para generar un audio con el modelo de TTS se necesita una muestra de apenas 15 segundos del hablante y el texto correspondiente. El modelo no se optimizó para ningún hablante en particular, es decir, no está personalizado. En lugar de eso, se emplea un proceso de difusión: se empieza con un ruido cualquiera y, poco a poco, se van quitando sonidos hasta que coincide precisamente con cómo el hablante de la muestra de audio de 15 segundos leería el texto.

Hace más de un año que estamos trabajando en el modelo

Lanzamos Voice Engine a fines de 2022. Al principio, para evaluar las funcionalidades y limitaciones de este modelo, lo probamos internamente utilizando una serie de muestras de voz públicas y privadas. Este prototipo interno resultó esencial para la adecuación y las investigaciones sobre seguridad, ya que permitió sentar las bases de las medidas de protección, y respalda nuestro compromiso de conocer los límites técnicos.

Cabe destacar que estos resultados se reservaron para las pruebas internas, no para entrenar los modelos en los que se basan nuestros productos.

Este prototipo inicial, que forma parte de nuestro marco de implementación iterativa, también cumple una función valiosa porque ayuda a las autoridades responsables de formular políticas a conocer las funcionalidades de los modelos de voz sintéticos. Por ejemplo, desde el tercer trimestre de este año empezamos a mostrarles el potencial de la tecnología a estas autoridades en todo el mundo y en las más altas esferas, y debatimos con ellas los riesgos.

En septiembre de 2023⁠, usamos Voice Engine para el modo de voz de ChatGPT. Como estas funcionalidades dieron lugar a nuevos riesgos, las lanzamos solo para este caso de uso específico. El modo de voz se creó solo con voces reales, seleccionadas cuidadosamente⁠ en un riguroso proceso que comenzó en mayo de 2023 y en el que participaron actores de voz profesionales, agencias de talentos, directores de selección de reparto y asesores del sector.

En noviembre de 2023⁠, lanzamos una API simple del TTS⁠(se abre en una nueva ventana), también posibilitada por Voice Engine. Hicimos otro lanzamiento limitado en el que trabajamos con actores de voz profesionales y creamos muestras de audio de 15 segundos que sirvieran para las seis voces predefinidas de la API. Los desarrolladores pueden incorporarlas a sus sitios web para leer blogs en voz alta, por ejemplo.

En marzo de este año⁠, presentamos un anticipo de la funcionalidad de Voice Engine para crear voces personalizadas ante un grupo reducido de colaboradores de confianza. El fin de esta iniciativa fue generar conciencia sobre las funcionalidades de las voces sintéticas y trabajar en pos de estos objetivos:

Eliminación progresiva de la autenticación por voz como medida de seguridad para acceder a cuentas bancarias y otra información sensible.
Exploración de políticas para proteger el uso de la voz de las personas en la IA.
Educación al público para que comprenda las capacidades y limitaciones de las tecnologías de la IA, incluida la posibilidad de contenidos de IA engañosos.
Aceleración del desarrollo y la adopción de técnicas para rastrear el origen de los contenidos audiovisuales, de modo que siempre quede claro cuándo se está interactuando con una persona real o con una IA.

Estas implementaciones a pequeña escala nos ayudan a perfilar nuestro enfoque, las medidas de seguridad y cómo utilizar Voice Engine para hacer el bien en diversos sectores.

La prioridad es desarrollar Voice Engine de forma segura

Colaboramos con socios estadounidenses e internacionales del sector gubernamental, los medios de comunicación, el mundo del espectáculo, el sector educativo y la sociedad civil, entre otros, para asegurarnos de tener en cuenta su punto de vista a medida que avanzamos.

Los colaboradores que prueban Voice Engine han aceptado normas de uso que prohíben suplantar la identidad sin consentimiento y exigen la autorización expresa del hablante original, además de notificar a los oyentes si se utilizan voces generadas por IA. Por otra parte, se tomaron medidas de seguridad, como las marcas de agua y la supervisión preventiva⁠, a fin de llevar un registro de cómo se usa la tecnología.

La seguridad de las voces sintéticas en el futuro

Los omnimodelos como GPT‑4o, que ya tienen incorporadas funcionalidades de audio, posibilitan nuevas interacciones que los modelos anteriores, como Voice Engine, no permitían. También reconocemos que la modalidad de audio de GPT‑4o presenta varios riesgos nuevos, en particular en lo que respecta a la generación de voces. En este momento, estamos haciendo pruebas de equipo rojo con GPT‑4o para detectar y abordar riesgos conocidos e imprevistos en diversos campos (como la psicología social), prejuicios y actitudes imparciales e información errónea. Integramos varias medidas paliativas; por ejemplo, perfeccionamos los comportamientos del modelo, adaptamos los sistemas de texto preexistentes a la arquitectura de GPT‑4o y creamos nuevos clasificadores.

Así como fuimos cautos para lanzar Voice Engine, en el lanzamiento general limitaremos las respuestas de audio de GPT‑4o a una serie de voces predefinidas. Estas voces pertenecen a actores de voz profesionales que fueron seleccionados en un riguroso proceso de evaluación. Difundiremos más información sobre los riesgos del audio y las medidas paliativas en la tarjeta del sistema GPT‑4o.

Autor

OpenAI