Ir al contenido principal
OpenAI

9 de diciembre de 2024

PublicaciónSeguridad

Tarjeta del sistema Sora

Cargando…

Introducción

Información general sobre Sora

Sora, el modelo de generación de vídeo de OpenAI, está diseñado para procesar entradas de texto, imagen y vídeo y generar un nuevo vídeo como respuesta. Con este modelo, los usuarios pueden crear vídeos con una resolución de hasta 1080 p y una duración máxima de 20 segundos en varios formatos, generar contenido nuevo a partir de texto o mejorar, mezclar y combinar sus propios recursos. Además, para inspirarse, los usuarios podrán explorar los feeds Destacados y Recientes, que muestran las creaciones de la comunidad. Sora se basa en los aprendizajes de los modelos DALL·E y GPT, y está diseñado para proporcionar herramientas narrativas y de expresión creativa más avanzadas. 

Sora es un modelo de difusión. Genera un vídeo a partir de un vídeo base que parece ruido estático y, gradualmente, lo va transformando, eliminando el ruido a lo largo de varios pasos. Al lograr que el modelo sea capaz de predecir numerosos fotogramas a la vez, hemos resuelto el difícil problema de garantizar que el sujeto permanezca igual incluso cuando se pierde de vista temporalmente. Al igual que los modelos GPT, Sora utiliza una arquitectura de transformador, lo que permite obtener un rendimiento de escalado superior. 

Por ejemplo, Sora utiliza la técnica de recaptioning de DALL·E 3, con la que se generan subtítulos altamente descriptivos para los datos de entrenamiento visual. Gracias a ello, el modelo puede seguir más fielmente las instrucciones de texto del usuario en el vídeo generado.

Además de poder generar un vídeo únicamente a partir de instrucciones de texto, el modelo es capaz de tomar una imagen fija existente y generar un vídeo a partir de ella animando el contenido de la imagen con precisión y una excelente atención al detalle. El modelo también puede tomar un vídeo existente y ampliarlo o completar los fotogramas que faltan. Sora forma las bases de modelos capaces de comprender y simular el mundo real, una capacidad que creemos que será muy importante para lograr la IAG.

Las capacidades de Sora también pueden plantear nuevos riesgos, como el posible uso indebido de la imagen de una persona o la generación de contenidos de vídeo que sean engañosos o explícitos. Para poder implementar Sora en un producto de forma segura, nos hemos valido de los conocimientos adquiridos en el trabajo de seguridad que realizamos para la implementación de DALL·E en ChatGPT y la API y en las mitigaciones de seguridad de otros productos de OpenAI, como ChatGPT. Esta tarjeta del sistema explica a grandes rasgos la pila de mitigación resultante, los esfuerzos del equipo rojo externo, las evaluaciones y la investigación en curso para perfeccionar aún más estas medidas de seguridad.

Datos del modelo

Como describimos en nuestro informe técnico1 de febrero de 2024, Sora se inspira en los grandes modelos del lenguaje (LLM) que adquieren capacidades generalistas al entrenarse con datos procedentes de internet. El éxito del paradigma LLM se debe, en parte, al uso de tókenes que unifican a la perfección las diversas modalidades de texto y código, matemáticas y diferentes lenguajes naturales. Con Sora, estudiamos cómo pueden aprovechar esas ventajas los modelos generativos de datos visuales. Hay que considerar que los LLM tienen tókenes de texto y, en cambio, Sora tiene parches visuales. Anteriormente, los parches ya han demostrado ser una representación eficaz para los modelos de datos visuales. Ahora, hemos descubierto que los parches también son una representación altamente escalable y eficaz para entrenar modelos generativos con diversos tipos de vídeos e imágenes. A un alto nivel, convertimos los vídeos en parches. Primero, comprimimos los vídeos en un espacio latente de menor dimensión y, después, descomponemos la representación en parches espaciotemporales.

Hemos entrenado a Sora con diversos conjuntos de datos, entre los que se incluyen una mezcla de datos disponibles públicamente, datos propios a los que hemos accedido mediante asociaciones y conjuntos de datos personalizados que hemos desarrollado de manera interna. Estos se componen de:

  • Una selección de datos disponibles públicamente, en su mayoría recopilados de conjuntos de datos de aprendizaje automático y rastreos web estándar.
  • Datos pertenecientes a nuestras asociaciones de datos⁠. Hemos formado asociaciones para acceder a datos que no están disponibles públicamente. Por ejemplo, nos hemos asociado con Shutterstock⁠ Pond5 para crear y ofrecer imágenes generadas por IA. De igual forma, también hemos formado asociaciones para encargar y crear conjuntos de datos que se adapten a nuestras necesidades.
  • Datos humanos: comentarios de los entrenadores de la IA, miembros del equipo rojo y empleados. 

Filtrado previo al entrenamiento y preprocesamiento de datos

Además de las mitigaciones que aplicamos después de la fase de preentrenamiento, las mitigaciones de filtrado previas al entrenamiento pueden ofrecer una capa de defensa adicional que, unida a otras mitigaciones de seguridad, nos ayude a eliminar los datos no deseados que sean perjudiciales de nuestros conjuntos de datos. Así pues, antes del entrenamiento, sometemos a todos los conjuntos de datos a este proceso de filtrado, con lo que eliminamos los contenidos más explícitos, violentos o sensibles por otros motivos (como símbolos de odio, etc.). Esto supone una ampliación de los métodos que usamos para filtrar los datos con los que entrenamos nuestros otros modelos, incluidos DALL·E 2 y DALL·E 3.

Identificación de riesgos y preparación para la implementación

Con el fin de ayudar a informar los diseños de Sora y las mitigaciones de seguridad, hemos realizado un exhaustivo proceso para comprender tanto los posibles usos indebidos como los usos creativos en el mundo real. Tras anunciar Sora en febrero de 2024, hemos colaborado con cientos de artistas visuales, diseñadores y cineastas de más de 60 países para que nos contasen sus opiniones sobre cómo mejorar el modelo para hacerlo más útil para los profesionales creativos. También hemos elaborado, tanto de forma interna como con un equipo rojo externo, una serie de evaluaciones para descubrir y valorar los riesgos con el objetivo de mejorar de forma iterativa nuestras medidas de seguridad y mitigación de riesgos. 

Nuestra pila de seguridad para Sora está basada en estos aprendizajes y en las mitigaciones de seguridad ya existentes que hemos empleado en otros modelos y productos, como DALL·E y ChatGPT, así como en mitigaciones específicas adaptadas a nuestro producto de vídeo. Y, puesto que se trata de una herramienta muy potente, estamos adoptando un enfoque iterativo de la seguridad, especialmente en aquellas áreas en las que el contexto es importante o en aquellas en las que prevemos nuevos riesgos relacionados con el vídeo. Entre los ejemplos de nuestro enfoque iterativo podemos mencionar el control del acceso a los usuarios mayores de 18 años, la restricción del uso de imágenes de personas o rostros subidas y la introducción de umbrales de moderación para los prompts y las subidas de menores en el momento del lanzamiento. Nuestro plan es seguir aprendiendo sobre el uso que la gente hace de Sora e iterar para equilibrar mejor la seguridad a la vez que optimizamos el potencial creativo de nuestros usuarios. 

Equipo rojo externo

OpenAI ha colaborado con un equipo rojo formado por miembros externos de nueve países diferentes para probar Sora, identificar sus puntos débiles en las mitigaciones de seguridad y para que nos den su opinión sobre los riesgos asociados a las nuevas capacidades de Sora. El equipo rojo tuvo acceso a Sora con varias iteraciones de mitigaciones de seguridad y desarrollo del sistema desde septiembre hasta diciembre de 2024. En ese tiempo, se probaron más de 15 000 generaciones. El esfuerzo del equipo rojo se basa en el trabajo que llevamos a cabo a principios de 2024, cuando probamos un modelo Sora sin mitigaciones de producción.  

El equipo rojo analizó los nuevos riesgos potenciales del modelo de Sora y las herramientas del producto. Además, también probó las mitigaciones de seguridad a medida que se desarrollaban y mejoraban. Estas campañas del equipo rojo estudiaron varios tipos de contenidos ilícitos y no permitidos, como contenido sexual o erótico, violencia y gore, autolesiones, contenido ilegal, desinformación, etc., y tácticas adversas para evadir las mitigaciones de seguridad, tanto de prompts como del uso de las herramientas y funciones. También investigaron las formas en las que se podían explotar estas herramientas para deteriorar progresivamente las herramientas de moderación y las medidas de seguridad. El equipo rojo también nos proporcionó información sobre su percepción de Sora en áreas como los sesgos y el rendimiento general. 

Hemos explorado la generación de texto a vídeo usando prompts directos y tácticas adversas de prompts en todas las categorías de contenidos que hemos mencionado anteriormente. La función de subir contenidos se ha probado con una gran variedad de categorías de imágenes y vídeos para comprobar la capacidad de generar contenidos ilícitos.  Además, hemos probado varios usos y combinaciones de las herramientas de modificación (guion gráfico, recorte, mezcla y combinación) para evaluar si sirven para generar contenidos prohibidos. 

El equipo rojo identificó algunas observaciones dignas de mención tanto para los tipos específicos de contenidos prohibidos como para las tácticas adversas generales. Por ejemplo, descubrió que usar prompts de texto en situaciones médicas o ambientadas en la ciencia ficción o la fantasía deterioraba las medidas de seguridad contra la generación de contenido erótico y sexual hasta que se incorporaron mitigaciones adicionales. El equipo rojo uso tácticas adversas para evadir los elementos de la pila de seguridad, incluidos los prompts sugerentes y el uso de metáforas para aprovechar la capacidad de inferencia del modelo. Tras muchos intentos, pudieron identificar tendencias en los prompts y palabras que podían activar las medidas de seguridad y probar diferentes frases o palabras para evitar los rechazos. Al final, el equipo rojo seleccionaba la generación más preocupante para usarla como base de contenidos violentos que no podían crearse con técnicas de un solo prompt. En ocasiones, las técnicas de jailbreak también resultaron ser eficaces para deteriorar las políticas de seguridad, lo que nos permitió perfeccionar también estas protecciones.  

El equipo rojo, además, probó la subida de contenidos y las herramientas de Sora (guion gráfico, recorte, mezcla y combinación) tanto con imágenes de dominio público como con contenidos generados por la IA. Esto reveló la existencia de brechas en los filtros de entrada y salida que debían reforzarse antes de lanzar Sora y ayudó a perfeccionar las protecciones contra subidas de contenido que incluyeran a personas.  Estas pruebas también revelaron la necesidad de reforzar el filtrado del clasificador para mitigar el riesgo de que el contenido no ilícito pudiera modificarse y convertirse en contenido erótico, violento o deepfakes (ultrasuplantaciones).

Los comentarios y los datos que ofreció el equipo rojo nos permitieron crear capas adicionales de mitigaciones de seguridad y mejorar las evaluaciones de seguridad ya existentes (descritas en la sección Áreas de riesgo específicas y Mitigaciones). Estos esfuerzos nos permitieron optimizar nuestro filtrado de prompts, las listas de bloqueo y los umbrales de los clasificadores para garantizar que cumpliesen con los objetivos de seguridad del modelo.

Qué hemos aprendido con el acceso anticipado a los artistas

Durante los últimos nueve meses, hemos estudiado los comentarios de los usuarios en más de 500 000 solicitudes de modelos de más de 300 usuarios de más de 60 países. Estos datos nos han servido para mejorar el comportamiento de los modelos y su cumplimiento con los protocolos de seguridad. Un claro ejemplo fueron los comentarios de los artistas, que nos ayudaron a comprender las limitaciones que una marca de agua visible causa en su trabajo. Esto nos llevó a tomar la decisión de permitir a los usuarios de pago la descarga de archivos de vídeo sin la marca de agua visible, pero con los datos C2PA incrustados. 

Así mismo, este programa de acceso anticipado nos ha enseñado que, si queremos que Sora sirva como una herramienta ampliada para contar historias y para la expresión creativa, tenemos que ofrecer más flexibilidad a los artistas en algunas áreas sensibles. Áreas que, en una herramienta de uso general como ChatGPT, manejaríamos de una forma diferente. Esperamos que los artistas, los cineastas independientes, los estudios y otras organizaciones de la industria del entretenimiento no utilicen Sora como parte crucial de sus procesos de desarrollo. No obstante, al mismo tiempo, identificar tanto casos de uso positivo como de posibles usos indebidos nos ha permitido determinar qué áreas requieren mitigaciones más restrictivas a nivel de producto para mitigar el riesgo de daños o usos indebidos.

Evaluaciones

Hemos desarrollado evaluaciones internas que se centran en áreas clave, como los desnudos, el contenido electoral engañoso, las autolesiones y la violencia. Diseñamos estas evaluaciones para facilitar que se perfeccionen las medidas de mitigación y para ayudar a determinar nuestros umbrales de moderación. El marco de evaluación combina los prompts de entrada que se le dan al modelo de generación de vídeo con los clasificadores de entrada y salida aplicados a los prompts transformados o a los vídeos finales que se producen.

Los prompts de entrada que hemos usado en estas evaluaciones proceden de tres canales principales: los datos recopilados durante la fase alfa inicial (como se describe en la sección 3.2), los ejemplos adversos que nos proporcionó el equipo rojo (como se describe en la sección 3.1) y los datos sintéticos generados con GPT‑4. Por un lado, los datos de la fase alfa nos proporcionaron información sobre escenarios de uso en la vida real. Por otro, las contribuciones del equipo rojo nos ayudaron a descubrir contenidos adversos y casos extremos. Finalmente, los datos sintéticos nos permitieron ampliar los conjuntos de evaluación en áreas como los contenidos «subidos de tono» no intencionados, en los que los ejemplos que aparecen de forma natural son escasos.

Preparación

Hemos diseñado el marco de preparación para evaluar si las funciones del modelo de frontera introducen riesgos significativos en cuatro categorías de seguimiento: persuasión, ciberseguridad, NRBQ (nuclear, radiológico, biológico y químico) y autonomía del modelo. No tenemos pruebas de que Sora suponga ningún riesgo significativo en materia de ciberseguridad, NRBQ o autonomía del modelo. Estos riesgos están estrechamente ligados a modelos que interactúan con sistemas informáticos, conocimientos científicos o la toma de decisiones autónoma y, actualmente, todos ellos están fuera del alcance de Sora como herramienta de generación de vídeo. 

Las capacidades de generación de vídeo de Sora podrían presentar algunos riesgos potenciales procedentes de la persuasión. Por ejemplo, los riesgos de suplantación de identidad, desinformación o ingeniería social. Como respuesta a estos riesgos, hemos desarrollado un conjunto de mitigaciones que describimos en las próximas secciones.  Entre ellas, se incluyen aquellas destinadas a evitar que se generen contenidos con parecido a personajes públicos conocidos. Además, puesto que el contexto y el conocimiento de si un vídeo es real o está generado por la IA puede ser clave para determinar el grado de persuasión de un vídeo, nos hemos centrado en crear un enfoque multicapa de procedencia que incluye metadatos, marcas de agua e identificación de huellas digitales.

Pila de mitigación de Sora

Además de los riesgos y mitigaciones específicos identificados más adelante, las decisiones que hemos tomado en el entrenamiento, el diseño de producto y las políticas de Sora nos ayudan a mitigar, en gran medida, el riesgo de resultados perjudiciales o no deseados. En líneas generales, estas medidas se pueden organizar en mitigaciones técnicas a nivel de sistema y de modelo, así como en políticas de producto y formación de los usuarios.

Mitigaciones del sistema y del modelo

A continuación, hablamos en detalle sobre las principales medidas de seguridad que aplicamos antes de mostrar al usuario el resultado solicitado:

Moderación de texto e imágenes mediante un clasificador de moderación multimodal

Nuestro clasificador de moderación multimodal, utilizado en nuestra API de moderación externa, se aplica para identificar prompts de texto, imagen o vídeo que puedan infringir nuestras políticas de uso tanto en los datos de entrada como en los de salida. El sistema rechazará los prompts que infrinjan las políticas. Más información sobre nuestra API de moderación multimodal aquí.2

Filtrado LLM personalizado

Una ventaja de la generación de vídeo es su capacidad de hacer comprobaciones de moderación asincrónicas sin añadir latencia a la experiencia general del usuario. Hay que tener en cuenta que la generación de vídeo, de forma intrínseca, tarda unos segundos en procesarse. Por lo tanto, ese intervalo de tiempo se puede utilizar para ejecutar comprobaciones de moderación orientadas a la precisión. Hemos personalizado nuestro propio GPT para alcanzar una alta precisión en la moderación de algunos temas específicos, como la identificación de contenidos de terceros o los contenidos engañosos. 

Los filtros son multimodales: tanto la subida de imágenes y vídeos como los prompts de texto y las salidas se incluyen en el contexto de cada petición al LLM. Esto nos permite detectar combinaciones que infrinjan las políticas en imágenes y en textos. 

Clasificadores de salida de imágenes

Para hacer frente a los contenidos potencialmente dañinos directamente en las salidas de datos, Sora usa clasificadores de salidas, entre los que se incluyen filtros especializados en contenidos no apropiados para el trabajo (NSFW), menores, violencia y posible uso indebido de la imagen de personas. Si estos clasificadores están activados, Sora puede bloquear estos vídeos antes de que se compartan con el usuario. 

Listas de bloqueo

Mantenemos listas de bloqueo textuales en diversas categorías. Estas están basadas en nuestro trabajo previo con DALL·E 2 y DALL·E 3, en el descubrimiento proactivo de riesgos y en los resultados de los primeros usuarios.

Políticas de producto

Además de las medidas de protección que hemos incorporado al modelo y al sistema para evitar que se generen contenidos que infrinjan las políticas, también estamos tomando medidas adicionales para reducir el riesgo de uso indebido. En la actualidad, solo ofrecemos Sora a usuarios mayores de 18 años y estamos aplicando filtros de moderación a los contenidos que se muestran en los feeds Explorar y Destacados.

Así mismo, también comunicamos claramente las directrices de la política mediante educación dentro del producto y disponible públicamente sobre:

  • El uso de la imagen de otra persona sin su consentimiento y la prohibición de mostrar a menores reales.
  • La creación de contenidos ilegales o que violen los derechos de la propiedad intelectual.
  • La generación de contenidos explícitos y dañinos, como imágenes íntimas sin consentimiento, contenidos usados para intimidar, acosar o difamar, o contenidos destinados a fomentar la violencia, el odio o el sufrimiento ajeno. 
  • La creación de contenidos utilizados para cometer fraude, estafar o engañar a otros.

Hacemos frente a algunas de estas formas de uso indebido mediante las mitigaciones de nuestro modelo y nuestro sistema. No obstante, otras dependen más del contexto: una escena de una protesta puede usarse para fines creativos legítimos, pero la misma escena, si se presenta como un acontecimiento actual, también se podría compartir como desinformación si se combina con otras afirmaciones. 

Sora está diseñado para dar a la gente la posibilidad de expresar una gran variedad de ideas y puntos de vista creativos. No es práctico, ni tampoco aconsejable, impedir cualquier forma de contenido que pueda ser problemático dependiendo del contexto.

Ofrecemos a los usuarios la posibilidad de denunciar aquellos vídeos de Sora que consideren que infringen nuestras directrices, además de usar la automatización y la revisión humana para supervisar de forma activa los patrones de uso. Hemos establecido mecanismos de protección para eliminar los vídeos que infrinjan las políticas y sancionar a los usuarios. Cuando los usuarios infrinjan nuestras directrices, se lo notificaremos y les ofreceremos la oportunidad de contarnos lo que consideren justo. Nuestra intención es hacer un seguimiento de la eficacia de estas mitigaciones y perfeccionarlas con el tiempo.

Áreas de riesgo específicas y Mitigaciones

Además de las medidas de seguridad generales que hemos mencionado, las primeras pruebas y evaluaciones nos ayudaron a identificar varias áreas a las que prestar especial atención en materia de seguridad. 

Seguridad infantil

OpenAI está profundamente comprometida a abordar3 los riesgos de seguridad infantil y damos prioridad a la prevención, detección y denuncia de contenido relacionado con pornografía infantil(se abre en una ventana nueva) en todos nuestros productos, incluido Sora. Los esfuerzos de OpenAI en materia de seguridad infantil incluyen el origen responsable de nuestros conjuntos de datos para protegerlos de la pornografía infantil, nuestra asociación con el Centro Nacional de Menores Desaparecidos y Explotados (NCMEC) para prevenir el abuso sexual infantil y proteger a los menores, un equipo rojo conforme a las recomendaciones de Thorn que cumple con las restricciones legales y el escaneo exhaustivo de pornografía infantil en todos los datos de entrada y salida. Esto incluye el escaneo de los usuarios propios y de terceros (API y Enterprise) a menos que los clientes cumplan con criterios rigurosos para que se elimine el escaneo de pornografía infantil. Para evitar que se genere pornografía infantil, hemos creado una potente pila de seguridad que aprovecha las mitigaciones del sistema que usamos en nuestros otros productos, como ChatGPT y DALL·E4, así como algunas medidas adicionales que hemos creado específicamente para Sora.

Clasificadores de datos de entrada

Para la seguridad infantil, utilizamos tres mitigadores de entrada de datos diferentes para texto, imagen y vídeo: 

  • Para todas las subidas de imágenes y vídeos, tenemos integración con Safer, desarrollado por Thorn, para detectar coincidencias con pornografía infantil conocida. Las coincidencias confirmadas se rechazan y se denuncian en el NCMEC. Igualmente, usamos el clasificador de pornografía infantil de Thorn para identificar este tipo de contenido que sea nuevo y no esté filtrado.
  • Usamos un clasificador de moderación multimodal para detectar y moderar cualquier contenido sexual que implique a menores, ya sea a través de entradas de texto, imagen o vídeo. 
  • Para Sora, hemos desarrollado un clasificador que analiza texto e imágenes con el objetivo de predecir si aparece una persona menor de edad o si el pie de foto que la acompaña hace referencia a un menor. Rechazamos las peticiones de imagen a vídeo que contengan a menores de 18 años. Si se determina que la petición de texto a vídeo es de un menor, aplicamos umbrales de moderación mucho más estrictos en relación con el contenido sexual, violento o de autolesiones.

A continuación, mostramos la evaluación de nuestro clasificador de menores de 18 años para humanos. Evaluamos a nuestro clasificador a la hora de rechazar a menores de edad realistas en un conjunto de datos que contiene cerca de 5000 imágenes de las categorías [menor | adulto] y [realista | ficticio]. Nuestra política consiste en rechazar las imágenes realistas de menores y permitir las ficticias, incluida la animación, los dibujos animados o las ilustraciones de estilo siempre que no sean sexuales. Hemos adoptado un enfoque prudente con respecto a los contenidos que implican a menores y seguiremos evaluando nuestro enfoque a medida que aprendamos más gracias al uso del producto para encontrar el equilibrio adecuado entre permitir la expresión creativa y la seguridad. 

Actualmente, nuestro clasificadores son muy precisos pero, en ocasiones, pueden marcar por error imágenes de adultos o de menores no realistas. Además, reconocemos que los estudios y las publicaciones existentes manifiestan la posibilidad de que los modelos de predicción de edad presenten sesgos raciales. Por ejemplo, estos modelos pueden subestimar sistemáticamente la edad de las personas de determinados grupos raciales.5 Durante los próximos meses, nos comprometemos a mejorar el rendimiento de nuestro clasificador, a minimizar los falsos positivos y a profundizar en nuestra comprensión de los posibles sesgos.

Expected outcome

n_samples

count (is_child)

count (not_child)

Evaluated metrics

Realistic Child

Classify images as “is child”

1589

1555

34

Accuracy: 97.86%

Realistic Adult

Classify images as “not child”

1370

36

1334

Accuracy: 99.28%

Fictitious Adult

Classify images as “not child”

965

7

958

Accuracy: 97.37%

Fictitious Child

Classify images as “not child”

1050

323

727

Accuracy: 69.24%

Total

4974

1921

3053

Precision: 80.95% Recall: 97.86%

Note: precision is calculated as the % of is_child classifications that are realistic children, and recall is calculated as the % of realistic child images that are classified as is_child

Datos de salida

Como mencionamos anteriormente, una vez que identificamos una referencia a menores en el texto de entrada con nuestro clasificador de menores de 18 años, aplicamos umbrales estrictos de moderación relacionados con contenidos sexuales, violentos o de autolesiones en los datos de salida. Más abajo, mostramos los dos clasificadores de datos de salida que usamos para conseguirlo: 

  • Un clasificador de moderación multimodal que busca salidas de vídeo poco seguras y rechaza las peticiones que puedan ser especialmente sensibles. 
  • También aprovechamos nuestro clasificador de imágenes de DALL·E para buscar infracciones relacionadas con la seguridad infantil.

Nuestros clasificadores de datos de salida escanean dos fotogramas por segundo y, cuando determinan que un vídeo no es seguro, bloquean cualquier salida.

Así mismo, aparte de nuestros clasificadores y de la moderación automatizada, contaremos con la revisión humana como capa adicional de protección contra las posibles violaciones a la seguridad infantil. 

Política de producto

Nuestras políticas prohíben el uso de Sora para generar contenido sexual que involucre a menores. Las infracciones de nuestras políticas de seguridad infantil pueden resultar en la eliminación del contenido y la expulsión del usuario.

Desnudos y contenido sugerente

Unas de las áreas de riesgo emergentes asociadas con las capacidades de generación de vídeo de la IA es la creación potencial de contenido NSFW o de difusión de imágenes íntimas sin consentimiento. Al igual que el enfoque de DALL·E, Sora utiliza una estrategia de moderación de varios niveles para bloquear el contenido explícito. Esta incluye la transformación de prompts, clasificadores de salida de imágenes y listas de bloqueo. Todo esto contribuye a un sistema que restringe el contenido sugerente, en particular para las salidas de datos apropiadas para la edad. Los umbrales de nuestros clasificadores son más estrictos para las subidas de imágenes que para los prompts de texto. 

Los vídeos que se muestran en la sección Explorar se filtran con umbrales más estrictos para ofrecer una experiencia visual adecuada para un público amplio.  

A continuación, mostramos los resultados de nuestras evaluaciones sobre los desnudos y el contenido sugerente. Estas evaluaciones tenían como objetivo valorar la eficacia de la mitigación multicapa en las entradas y salidas de datos. En función de los resultados, hemos iterado nuestros umbrales y hemos aplicado una moderación más estricta a las imágenes que incluyen a personas.

Categoría

Precisión* (en la entrada)

Precisión* (en la salida, p. ej., E2E)

Desnudos y contenido sugerente

97,25 %

97,59 %

Explicación de la evaluación:

N = número total de muestras que infringen las políticas (~200 por categoría)
I = número total de muestras que infringen las políticas pasadas por los controles de moderación de entrada
O = número total de muestras que infringen las políticas pasadas por los controles de moderación de salida

(N - I) / N
Precisión en la salida (E2E) = (N - O) / N 

Política de producto

Nuestras políticas prohíben el uso de Sora para generar contenido sexual explícito, incluidas las imágenes íntimas sin consentimiento. Las infracciones de estas políticas pueden resultar en la eliminación del contenido y la penalización del usuario.

Contenido engañoso

Uso inapropiado de la imagen de personas y deepfakes perjudiciales

El monitor de moderación de Sora para los prompts que aludan a la imagen de personas tiene como objetivo marcar el contenido deepfake potencialmente perjudicial para que los vídeos en los que aparecen personas conocidas se revisen de forma minuciosa. El filtro de uso indebido de la imagen de personas también marca los prompts que intenten modificar o representar a personas de forma potencialmente perjudicial o engañosa. Las transformaciones generales de los prompts de Sora reducen aún más el riesgo de que Sora genere una imagen no deseada de un particular basándose en un prompt que contenga el nombre de alguien.

Contenido engañoso

Los clasificadores de datos de entrada y de salida de Sora tienen como objetivo evitar que se generen contenidos engañosos relacionados con las elecciones que representen actividades fraudulentas, poco éticas o ilegales. Las métricas de evaluación de Sora incluyen clasificadores que marcan técnicas de estilo o filtrado que puedan producir vídeos engañosos en el contexto de las elecciones, lo que reduce el riesgo de uso indebido en el mundo real.

A continuación, mostramos las evaluaciones de nuestro filtro de contenido electoral engañoso de los LLM, que se centra en ayudar a identificar casos en los que pueda existir intención de crear contenido prohibido en diferentes canales de entrada (por ejemplo, texto y vídeo). Nuestro sistema también escanea un fotograma por segundo en el vídeo de salida para evaluar las posibles infracciones en esta.

Clasificador

Exhaustividad

Precisión

Resultado cuando se marca

Contenido electoral engañoso

98,23 %

88,80 %

Salida de generación de bloques

 N=~500, basado en datos de prompts sintéticos

Inversiones en procedencia

Puesto que hay tantos riesgos asociados con Sora que dependen del contexto, como el contenido perjudicial con deepfakes, hemos dado prioridad a mejorar nuestras herramientas de procedencia. Somos conscientes de que no existe una solución única para la procedencia, pero nos comprometemos a mejorar el ecosistema de procedencia y a ayudar a crear contexto y transparencia para el contenido que se cree con Sora. 

Para la disponibilidad general, nuestras herramientas de seguridad de procedencia incluirán:

  • Metadatos C2PA en todos los activos (origen verificable, estándar del sector)
  • Marcas de agua de Sora visibles y animadas por defecto (transparencia para que las personas que lo vean sepan que está generado por la IA)
  • Herramienta interna de búsqueda inversa de vídeo para ayudar a los miembros del equipo de inteligencia e investigación de OpenAI a evaluar con un alto nivel de confianza si el contenido se ha creado con Sora 

Política de producto

Nuestras políticas prohíben que Sora se use para cometer fraude, estafar o engañar a otros, incluso con la creación y difusión de desinformación. También prohíben el uso de la imagen de otra persona sin su consentimiento. Las infracciones de estas políticas pueden resultar en la eliminación del contenido y la penalización del usuario.

Los estilos de los artistas

Cuando un usuario usa el nombre de un artista vivo en un prompt, el modelo puede generar un vídeo que se asemeje, en cierta manera, al estilo de las obras del artista. En las obras creativas, existe una larga tradición de inspirarse en los estilos de otros artistas, pero comprendemos que algunos creadores puedan tener sus dudas. Por ello, con esta versión de Sora, hemos optado por adoptar un enfoque conservador mientras seguimos aprendiendo más sobre cómo la comunidad de creadores usa Sora. Para dar respuesta a este problema, hemos incluido las reescrituras de prompts, que están diseñadas para activarse cuando un usuario intenta generar un vídeo con el estilo de un artista vivo. 

De una forma similar a nuestros otros productos, el editor de Sora usa un LLM para reescribir el texto que se envía y, así, hacer que los prompts para Sora sean más eficaces. Este proceso fomenta que se cumplan nuestras directrices, entre las que se incluyen la eliminación de nombres de personajes públicos, la inclusión de personas con atributos específicos y la descripción de objetos de marca de forma genérica. Además, mantenemos listas de bloqueo textuales en una gran variedad de categorías, todas ellas basadas en nuestro trabajo previo con DALL·E 2 y DALL·E 3, en el descubrimiento proactivo de riesgos y en los resultados del equipo rojo y los primeros usuarios. 

Nuestro trabajo en el futuro

OpenAI usa una estrategia de implementación iterativa para garantizar la implementación responsable y eficaz de sus productos. Este enfoque combina las implementaciones por fases, las pruebas continuas y la supervisión permanente con los comentarios de los usuarios y los datos del mundo real. De esta manera, podemos perfeccionar y mejorar nuestro rendimiento y nuestras mitigaciones de seguridad a lo largo del tiempo. A continuación, mostramos una serie de trabajos que tenemos previsto llevar a cabo como parte de nuestra implementación iterativa para Sora.

Función piloto para las imágenes de personas

La capacidad de generar un vídeo usando una foto o vídeo de una persona real subido como «semilla» es un vector de posible uso indebido al que estamos haciendo frente de manera especialmente gradual para aprender de los primeros patrones de uso. Los primeros comentarios de los artistas nos indican que se trata de una potente herramienta creativa y que la valoran, pero debido al potencial de abuso, inicialmente no la hemos puesto a disposición de todos los usuarios. En su lugar, conforme a nuestra práctica de despliegue iterativo, pondremos la posibilidad de subir imágenes o vídeos de personas a disposición de un subconjunto de usuarios y contaremos con una supervisión activa y detallada para comprender el valor que tiene para la comunidad de Sora. Así, podremos ajustar nuestro enfoque con respecto a la seguridad a medida que vayamos aprendiendo. Durante esta prueba, las subidas que contengan imágenes de menores no estarán permitidas.

Procedencia e iniciativas de transparencia

Las futuras iteraciones de Sora seguirán reforzando la trazabilidad gracias a la investigación de herramientas de búsqueda de integración inversa y la aplicación continuada de medidas de transparencia. Por ejemplo, el C2PA. Tenemos muchas ganas de estudiar posibles alianzas con ONG y organizaciones de investigación con el objetivo de aumentar y mejorar el ecosistema de procedencia y de probar nuestra herramienta interna de imagen inversa para Sora.

Ampliación de la representación en nuestros datos de salida

Nos comprometemos a reducir los posibles sesgos en los datos de salida mediante mejoras rápidas, circuitos de comentarios y la identificación continua de medidas de mitigación eficaces, ya que somos conscientes de que las correcciones excesivas pueden ser igual de perjudiciales. Reconocemos desafíos, como el sesgo en la imagen corporal y la representación demográfica, y seguiremos perfeccionando nuestro enfoque para garantizar unos datos de salida que sean inclusivos y equilibrados.

Seguridad continua, políticas y proceso de alineación ético

El plan de OpenAI es seguir con las evaluaciones en curso de Sora y con los esfuerzos para mejorar aún más el cumplimiento de Sora de las políticas y estándares de seguridad de OpenAI. Hay previstas mejoras adicionales en áreas como la seguridad de las imágenes de personas y el contenido engañoso. Todas ellas siempre guiadas por la evolución de las mejores prácticas y los comentarios de los usuarios.

Agradecimientos

Muchas gracias a todos los equipos internos de OpenAI, entre los que se incluyen Comunicaciones, Diseño de Comunicaciones, Asuntos Externos, Integridad, Inteligencia e Investigaciones, Legal, Política de Producto, Sistemas de Seguridad y Operaciones de Usuario. Su asistencia ha sido fundamental para el desarrollo y la implementación de las mitigaciones de seguridad de Sora. También agradecemos sus contribuciones a esta tarjeta de sistema.

Igualmente, estamos muy agradecidos con nuestro equipo de artistas alfa y con nuestros expertos del equipo rojo. Sus comentarios nos ayudaron a probar nuestros modelos en las primeras fases de desarrollo y aportaron una valiosa información a nuestras valoraciones y evaluaciones de riesgos. La participación en este proceso de evaluación no supone la aprobación de los planes de implementación de OpenAI ni de las políticas de OpenAI.

  • Miembros del equipo rojo (en orden alfabético): Alexandra García Pérez, Arjun Singh Puri, Caroline Friedman Levy, Dani Madrid-Morales, Emily Lynell Edwards, Grant Brailsford, Herman Wasserman, Javier García Arredondo, Kate Turetsky, Kelly Bare, Matt Groh, Maximilian Müller, Naomi Hart, Nathan Heath, Patrick Caughey, Per Wikman Svahn, Rafael González-Vázquez, Sara Kingsley, Shelby Grossman y Vincent Nestler
  • Organizaciones del equipo rojo: ScaleAI