Ampliación del funcionamiento de Voice Engine y nuestra investigación en materia de seguridad
Exploramos la tecnología de nuestro modelo de texto a voz.

En este artículo, proporcionamos más información sobre cómo funciona Voice Engine y nuestra investigación en materia de seguridad para mantener a todos actualizados sobre nuestro progreso. Voice Engine es un modelo capaz de crear voces personalizadas.
Es importante que las personas de todo el mundo sepan hacia dónde se dirige esta tecnología, tanto si la desplegamos nosotros como si no. Por eso, queremos explicar cómo funciona el modelo, cómo lo utilizamos con fines de investigación y educación y cómo estamos adoptando medidas de seguridad. Voice Engine aún no está disponible para el público.
La función de voz está basada en un nuevo modelo de conversión de texto a voz (TTS) que es capaz de generar un sonido similar al de un humano a partir de texto y de unos 15 segundos de voz de muestra.
El sistema TTS se desarrolla ayudando al modelo a comprender los matices del habla a partir de pares de audio y transcripciones. Gracias a ello, el modelo aprende a predecir los sonidos más probables que emitirá un hablante para una transcripción de texto determinada, teniendo en cuenta diferentes voces, acentos y estilos de habla. A continuación, el modelo puede generar no solo versiones habladas del texto, sino también expresiones habladas que reflejan cómo las dirían diferentes tipos de hablantes.
A partir de ahí, generar audio con el modelo TTS requiere solo una muestra de 15 segundos del hablante y el texto correspondiente. El modelo no está optimizado para ningún hablante específico y no se personaliza. En su lugar, se emplea un proceso de difusión, comenzando con ruido aleatorio, que se va eliminando progresivamente hasta que se asemeja fielmente a cómo el hablante de la muestra de audio de 15 segundos articularía el texto.
Comenzamos a desarrollar Voice Engine a finales de 2022. Al principio, para evaluar las capacidades y las limitaciones del modelo de Voice Engine, lo probamos internamente utilizando una combinación de muestras de voz públicas y privadas. Este prototipo interno fue fundamental para nuestra investigación en materia de adecuación y seguridad, ayudándonos a determinar cómo protegerlo, y refleja nuestro compromiso con conocer los límites técnicos.
Es importante destacar que los resultados obtenidos se reservaron para pruebas internas, no para entrenar los modelos de nuestros productos.
Como parte de nuestro marco de implementación iterativo, este primer prototipo también fue crucial para ayudar a los legisladores a comprender las capacidades de los modelos de voz sintética. Por ejemplo, desde el verano pasado hemos mostrado a los legisladores mundiales más importantes el potencial de la tecnología y hemos tratado con ellos los riesgos asociados.
En septiembre de 2023, utilizamos Voice Engine para potenciar la función de modo de voz de ChatGPT. Debido a que estas capacidades también presentaban nuevos riesgos, las lanzamos solo para este caso de uso específico. Voice Mode se ha creado únicamente a partir de voces reales, cuidadosamente seleccionadas a través de un proceso exhaustivo que comenzó en mayo de 2023 y en el que participaron actores de doblaje profesionales, agencias de talentos, directores de casting y asesores del sector.
En noviembre de 2023, lanzamos una API TTS(se abre en una ventana nueva) simple también con Voice Engine. Elegimos otra versión limitada en la que trabajamos con actores de doblaje profesionales para crear muestras de audio de 15 segundos para cada una de las seis voces preestablecidas en la API. Los desarrolladores pueden incorporarlas en sus sitios web para leer publicaciones de blogs en voz alta, por ejemplo.
En marzo de este año, presentamos una vista previa de la capacidad que Voice Engine tiene para crear voces personalizadas a un grupo selecto de socios de confianza. Esta iniciativa tuvo como objetivo concienciarlos sobre las capacidades de las voces sintéticas y respaldar los siguientes objetivos:
- Eliminar progresivamente la autenticación por voz como medida de seguridad para acceder a cuentas bancarias y otra información sensible.
- Analizar políticas para impedir el uso de voces de personas en la IA.
- Educar al público sobre las capacidades y las limitaciones de las tecnologías de IA, por ejemplo, sobre la posibilidad de que los contenidos creados mediante IA sean engañosos.
- Acelerar el desarrollo y la adopción de técnicas para realizar un seguimiento del origen del contenido audiovisual con el fin de que el usuario sepa en todo momento si está interactuando con una persona real o con IA.
Estas aplicaciones a pequeña escala también nos están ayudando a definir nuestro enfoque, medidas de seguridad e ideas sobre cómo se podría utilizar adecuadamente Voice Engine en diversos sectores.
Seguimos colaborando con socios de los Estados Unidos e internacionales del sector gubernamental, los medios de comunicación, el mundo del espectáculo, la educación y la sociedad civil, entre otros, para de tener en cuenta sus impresiones a medida que avanzamos.
Los socios que probaron Voice Engine aceptaron políticas de uso que prohíben la suplantación de identidad sin consentimiento y requieren la aprobación explícita del hablante original, y exigen que cualquier voz generada por IA se revele a los oyentes como tal. Además, existen medidas de seguridad, como marcas de agua y la supervisión proactiva, para realizar un seguimiento y supervisar el uso de la tecnología.
Los omnimodelos como GPT‑4o, con capacidades de audio nativas, posibilitan nuevas interacciones que modelos anteriores como Voice Engine no permitían. También somos conscientes de que la modalidad de audio de GPT‑4o introduce varios riesgos nuevos, sobre todo en lo referente a la generación de voz. Actualmente estamos haciendo pruebas de equipo rojo con GPT‑4o para identificar y abordar riesgos conocidos e imprevistos en diversos campos, como la psicología social, los prejuicios, la equidad y la desinformación. Asimismo, estamos incorporando múltiples medidas de mitigación, como refinar los comportamientos del modelo, adaptar los sistemas basados en texto existentes para la arquitectura de GPT‑4o y desarrollar nuevos clasificadores.
De acuerdo con nuestro enfoque cauteloso de lanzamiento de Voice Engine, restringiremos las salidas de audio del GPT‑4o a una selección de voces preestablecidas para su lanzamiento general. Estas voces son las de actores de doblaje profesionales que fueron seleccionados mediante un exhaustivo proceso de casting. Compartiremos información adicional sobre los riesgos y mitigaciones relacionados con el audio en la próxima tarjeta del sistema de GPT‑4o.