Sora es el modelo de generación de video de OpenAI diseñado para reunir entradas de texto, imagen y video y generar un video nuevo como resultado. Los usuarios pueden crear videos de hasta 1080 p de resolución (20 segundos como máximo) en varios formatos, generar contenido nuevo a partir de un texto o mejorar, modificar y combinar su propio contenido. Los usuarios podrán explorar los feeds Destacados y Recientes, que muestran las creaciones de la comunidad y ofrecen inspiración para ideas nuevas. Sora se basa en el aprendizaje de los modelos DALL·E y GPT, y está diseñado para ofrecer herramientas ampliadas a los usuarios para la narración y la expresión creativa.
Sora es un modelo de difusión que genera un video que comienza a partir de un video base que parece ruido estático y gradualmente lo transforma al eliminar el ruido después de varios pasos. Al darle al modelo una visión de muchos marcos a la vez, resolvimos un problema desafiante de asegurarnos de que un sujeto permanezca igual incluso cuando no está temporalmente a la vista. De forma similar a los modelos de GPT, Sora usa una arquitectura transformadora, lo que permite un rendimiento de escalado superior.
Usa la técnica de recaptación (recaption) de DALL·E 3, que comprende generar subtítulos altamente descriptivos para los datos de entrenamiento visual. Como resultado, el modelo puede seguir las instrucciones de texto del usuario en el video generado con mayor exactitud.
Además de poder generar un video únicamente a partir de instrucciones de texto, el modelo puede tomar una imagen inmóvil existente y generar un video a partir de ella; animando los contenidos de la imagen con precisión y poniendo atención al pequeño detalle. El modelo también puede tomar un video existente y extenderlo o llenar los fotogramas faltantes. Sora sirve como base para modelos que pueden comprender y simular el mundo real, una capacidad que consideramos que será un hito para alcanzar una IAG.
Las capacidades de Sora también pueden introducir nuevos riesgos, como el posible uso indebido de similitudes de imagen o la generación de contenido de video engañoso o explícito. Para implementar Sora en un producto de forma segura, nos basamos en el aprendizaje del trabajo de seguridad para la implementación de DALL·E en ChatGPT y la API y las mitigaciones de seguridad para otros productos de OpenAI, como ChatGPT. En esta tarjeta del sistema se describe el conjunto de medidas de mitigación resultantes, los esfuerzos de los equipos rojos externos, las evaluaciones y la investigación en curso para perfeccionar aún más estas medidas de protección.
Como se describe en nuestro informe técnico1 de febrero de 2024, Sora se inspira en grandes modelos lingüísticos que adquieren capacidades generalistas al entrenarse con datos a escala de Internet. El éxito del paradigma de los modelos de lenguaje de gran tamaño (LLM) se debe en parte al uso de tokens que unifican con elegancia diversas modalidades de texto: código, matemáticas y varios lenguajes naturales. Con Sora, contemplamos cómo los modelos generativos de datos visuales pueden heredar estos beneficios. Mientras que los LLM tienen tokens de texto, Sora tiene parches visuales. Se ha demostrado anteriormente que los parches son una representación eficaz para los modelos de datos visuales. Descubrimos que los parches son una representación altamente escalable y eficaz para entrenar modelos generativos en diversos tipos de videos e imágenes. En un nivel alto, convertimos los videos en parches al comprimir primero los videos en un espacio latente de menor dimensión y al descomprimir posteriormente la representación en parches espaciotemporales.
Sora se entrenó con diversos conjuntos de datos, entre los que se incluía una mezcla de datos públicos, datos privados a los que se accedía a través de socios y conjuntos de datos personalizados que se desarrollaron de forma interna. Estos estaban conformados por:
- Determinados datos públicos, principalmente de conjuntos de datos de aprendizaje automático estándar del sector y rastreadores web.
- Datos privados de socios de datos. Conformamos asociaciones para acceder a datos no disponibles al público. Por ejemplo, nos hemos asociado con Shutterstock Pond5 para desarrollar y distribuir imágenes generadas por IA. También nos asociamos para encargar y desarrollar conjuntos de datos adecuados a nuestras necesidades.
- Datos humanos: Comentarios de entrenadores de IA, equipos rojos y empleados.
Además de las mitigaciones que se implementan después de la etapa de preentrenamiento, las mitigaciones de filtrado previas al entrenamiento pueden proporcionar un nivel adicional de defensa que, junto con otras mitigaciones de seguridad, ayudan a excluir datos no deseados y perjudiciales de nuestros conjuntos de datos. De este modo, antes del entrenamiento, todos los conjuntos de datos se someten a este proceso de filtrado, al eliminar el contenido más explícito, violento o delicado por otros motivos (por ejemplo, algunos símbolos de odio), lo que representa una ampliación de los métodos utilizados para filtrar los datos con los que entrenamos a nuestros otros modelos, incluidos DALL·E 2 y DALL·E 3.
Llevamos a cabo un sólido proceso para comprender tanto los posibles usos indebidos como los usos creativos en el mundo real con el fin de ayudar a notificar las mitigaciones de seguridad y diseños de Sora. Tras el anuncio de Sora en febrero de 2024, trabajamos con cientos de artistas visuales, diseñadores y cineastas de más de 60 países para conocer su opinión sobre cómo avanzar en el modelo para que sea más útil para los profesionales creativos. También elaboramos algunas evaluaciones internas y con colaboradores externos para descubrir y evaluar los riesgos y mejorar de forma iterativa nuestra seguridad y nuestras medidas para mitigarlos.
Nuestra pila de seguridad para Sora se basa en estos aprendizajes y en mitigaciones de seguridad existentes que empleamos en otros modelos y productos como DALL·E y ChatGPT, así como en mitigaciones adaptadas específicamente para nuestro producto de video. Como se trata de una herramienta con potencia, adoptamos un enfoque iterativo respecto de la seguridad, sobre todo en ámbitos en los que el contexto es importante o en los que prevemos riesgos novedosos relacionados con el formato de video. Ejemplos de nuestro enfoque iterativo incluyen el acceso según la edad a usuarios de 18 años o más, la restricción del uso de similitudes de imagen/cargas de rostros, y tener umbrales de moderación más conservadores en las prompts y cargas de menores en el lanzamiento. Queremos seguir aprendiendo cómo la gente utiliza Sora e iterar para equilibrar mejor la seguridad y aprovechar al máximo la capacidad creativa de nuestros usuarios.
OpenAI colaboró con equipos rojos externos de nueve países diferentes para probar Sora, identificar los puntos débiles de las medidas de seguridad y dar su opinión sobre los riesgos relacionados con las nuevas capacidades del producto. Los miembros de los equipos rojos tuvieron acceso al producto Sora con varias iteraciones de mitigaciones de seguridad y duración del sistema desde septiembre hasta diciembre de 2024, y se evaluaron más de 15 000 generaciones. Este esfuerzo de los equipos rojos se basa en el trabajo realizado a principios de 2024, cuando se probó un modelo de Sora sin mitigaciones de producción.
Los miembros de los equipos rojos exploraron los nuevos riesgos potenciales del modelo de Sora y las herramientas del producto, y evaluaron las medidas de seguridad a la vez que se desarrollaban y mejoraban. Estas campañas de los equipos rojos abarcaron varios tipos de contenidos infractores y no permitidos (contenido sexual y erótico, violencia y contenido sangriento, autolesiones, contenido ilegal, desinformación, etc.), tácticas contradictorias (tanto en las prompts como de uso de herramientas y funciones) para eludir las mitigaciones de seguridad, así como el modo en que estas herramientas podían aprovecharse para degradar progresivamente las herramientas de moderación y las medidas de seguridad. Los miembros de los equipos rojos también dieron su opinión sobre Sora en aspectos como la parcialidad y el rendimiento general.
Exploramos la generación de texto a video al utilizar tanto prompts directas como tácticas contradictorias en todas las categorías de contenido que se mencionan anteriormente. La capacidad de carga multimedia se probó con una gran variedad de imágenes y videos, incluidas personas públicas, y una amplia variedad de categorías de contenido para comprobar la capacidad de generar contenidos infractores. También evaluamos varios usos y combinaciones de las herramientas de modificación (guiones gráficos, recortar, combinar y mezclar) para evaluar su utilidad para generar contenido prohibido.
Los equipos rojos identificaron observaciones dignas de mención tanto para tipos específicos de contenido prohibido como para tácticas contradictorias generales. Por ejemplo, los miembros de los equipos rojos descubrieron que el uso de prompts de texto con situaciones médicas o entornos de ciencia ficción o fantasía deterioraban las medidas de seguridad contra la generación de contenidos eróticos y sexuales hasta que se crearon mitigaciones adicionales. Los miembros de los equipos rojos utilizaron tácticas contradictorias para eludir elementos de la pila de seguridad, incluidas prompts sugestivas y el uso de metáforas para sacar partido de la capacidad de inferencia del modelo. Después de muchos intentos, podían identificar tendencias en las prompts y palabras que activaban las medidas de seguridad, y probar distintas frases y palabras para eludir las negativas. Los miembros de los equipos rojos acababan seleccionando la generación con más inquietudes para utilizarla como generador de contenido violento que no podía crearse con las técnicas de una sola prompt. Las técnicas de jailbreak resultaron a veces eficaces para deteriorar las políticas de seguridad, lo que nos permitió perfeccionar también estas protecciones.
Los miembros de los equipos rojos también probaron la carga multimedia y las herramientas de Sora (guiones gráficos, recortar, combinar y mezclar) tanto con imágenes públicas como con contenido multimedia generado por IA. De esta forma, se encontraron lagunas en el filtrado de datos de entrada y salida que requerían una mejora antes del lanzamiento de Sora, y esto ayudó a perfeccionar las protecciones para la carga multimedia, incluidas las personas. Las pruebas también revelaron la necesidad de un filtrado de clasificación más potente para mitigar el riesgo de que se modifique una carga multimedia no infractora y se convierta en contenido erótico, violento, falso o prohibido.
Gracias a los comentarios y datos generados por los miembros de los equipos rojos, se crearon niveles adicionales de mitigación de la seguridad y mejoras en las evaluaciones de seguridad existentes, que se describen en las secciones Ámbitos de riesgos específicos y Mitigaciones. Estos trabajos permitieron perfeccionar aún más el filtrado de prompts, las listas de bloqueo y los umbrales de clasificación para garantizar el cumplimiento de los objetivos de seguridad del modelo.
Durante los últimos nueve meses, hemos observado las opiniones de más de 500 000 solicitudes de modelos de más de 300 usuarios en más de 60 países. Estos datos sirvieron para mejorar el comportamiento de los modelos y su cumplimiento con los protocolos de seguridad. Por ejemplo, las opiniones de los artistas nos ayudaron a comprender las limitaciones que tiene una marca de agua visible en sus flujos de trabajo, lo que nos sirvió de base para tomar la decisión de permitir a los usuarios de los planes de pago descargar archivos de video sin la marca de agua visible pero que conservan los datos C2PA.
Con este programa de acceso anticipado también descubrimos que, si se amplía Sora como una herramienta para la narración y la expresión creativa, tendríamos que ofrecer más flexibilidad a los artistas en algunas áreas sensibles que manejamos de forma diferente en una herramienta de uso general como ChatGPT. La idea es que los artistas, los cineastas independientes, los estudios y otras organizaciones del sector del entretenimiento utilicen Sora como una parte fundamental de sus procesos de desarrollo. Al mismo tiempo, identificar los casos de uso positivos y los posibles usos indebidos nos permitió determinar las áreas en las que se requerían mitigaciones más restrictivas en cuanto a los productos con el fin de mitigar el riesgo de daños o usos indebidos.
Desarrollamos evaluaciones internas centradas en áreas clave, como la desnudez, el contenido electoral engañoso, la autolesión y la violencia. Estas evaluaciones se diseñaron para apoyar el perfeccionamiento de las mitigaciones y ayudar a informar nuestros umbrales de moderación. El marco de evaluación combina prompts de entrada para el modelo de generación de video con clasificadores de entrada y salida que se aplican a las prompts transformadas o a los videos finales producidos.
Las prompts de entrada para estas evaluaciones proceden de tres fuentes principales: los datos recopilados durante la fase alfa inicial (que se describen en la sección 3.2), los ejemplos contradictorios que los miembros de los equipos rojos proporcionaron (que se mencionan en la sección 3.1) y los datos sintéticos generados con GPT‑4. Los datos de la fase alfa proporcionaron información sobre las situaciones de uso en el mundo real, las contribuciones de los miembros de los equipos rojos ayudaron a descubrir contenido contradictorio y de riesgo. Además, los datos sintéticos permitieron ampliar los conjuntos de evaluación en diversas áreas, como el contenido obsceno no intencionado, donde los ejemplos naturales son escasos.
El marco de preparación está diseñado para evaluar si las capacidades de los modelos de frontera introducen riesgos significativos en cuatro categorías rastreadas: persuasión, ciberseguridad, riesgos QBRN (químicos, biológicos, radiológicos y nucleares) y autonomía de los modelos. No tenemos evidencia de que Sora plantee algún riesgo significativo con respecto a la ciberseguridad, QBRN y autonomía de los modelos. Estos riesgos están estrechamente ligados a los modelos que interactúan con los sistemas informáticos, el conocimiento científico o la toma de decisiones autónoma, todo lo cual está actualmente fuera del alcance de Sora como herramienta de generación de video.
Las capacidades de generación de video de Sora podrían plantear un posible riesgo de persuasión, como riesgos de suplantación de identidad, desinformación o ingeniería social. Para abordar estos riesgos, desarrollamos un conjunto de mitigaciones que se describen en las próximas secciones. Entre ellas se incluyen mitigaciones destinadas a evitar la generación de similitudes de imagen de personajes públicos conocidos. Además, dado que el contexto y el conocimiento de si un video es real o generado por IA pueden ser clave para determinar el grado de persuasión de un video generado, nos centramos en crear un enfoque de procedencia multicapa, que incluye metadatos, marcas de agua y huellas de identificación.
Además de los riesgos específicos y las mitigaciones que se indican a continuación, las decisiones tomadas en cuanto al entrenamiento, al diseño de productos y a las políticas de Sora contribuyen a mitigar ampliamente el riesgo de resultados nocivos o no deseados. A grandes rasgos, pueden organizarse en mitigaciones técnicas a nivel del sistema y del modelo, así como en políticas de producto y educación de los usuarios.
A continuación detallamos las principales formas de mitigación de la seguridad que aplicamos antes de mostrar al usuario el resultado solicitado:
Moderación de texto e imágenes a través de un clasificador de moderación multimodal
Aplicamos el clasificador de moderación multimodal que alimenta nuestra API de moderación externa para identificar prompts de texto, imágenes o videos que puedan infringir nuestras políticas de uso, tanto en la entrada como en la salida. Las infracciones que detecte el sistema darán lugar a un negativa. Obtén más información sobre nuestra API de moderación multimodal aquí.2
Filtrado de LLM personalizado
Una ventaja de la tecnología de generación de video es la capacidad de realizar comprobaciones de moderación asíncronas sin añadir latencia a la experiencia general del usuario. Dado que la generación de video demora unos segundos en procesarse, se puede aprovechar este lapso de tiempo para realizar comprobaciones de moderación con precisión. Hemos personalizado nuestro propio GPT para lograr una gran precisión en la moderación de algunos temas específicos, incluida la identificación de contenido de terceros, así como de contenido engañoso.
Los filtros son multimodales: tanto las cargas de imágenes o videos como las prompts de texto y los datos de salida se incluyen en el contexto de cada solicitud de LLM. Esto nos permite detectar combinaciones infractoras en imágenes y textos.
Clasificadores de salida de imágenes
Para abordar el contenido potencialmente nocivo directamente en los resultados, Sora utiliza clasificadores de salida, incluidos filtros especializados para detectar contenido no adecuado para el trabajo, violento o de menores, y posible uso indebido de similitudes de imagen. Sora puede bloquear videos antes de compartirlos con el usuario si estos clasificadores están activados.
Listas de bloqueo
Mantenemos listas de bloqueo textuales de diversas categorías, basadas en nuestro trabajo previo en DALL·E 2 y DALL·E 3, el descubrimiento proactivo de riesgos y los resultados de los primeros usuarios.
Además de las protecciones que hemos incorporado al modelo y al sistema para evitar la generación de contenido ilícito, también estamos tomando medidas para reducir el riesgo de uso indebido. Actualmente solo ofrecemos Sora a usuarios mayores de 18 años y aplicamos filtros de moderación al contenido que se muestra en los feeds Explorar y Destacados.
También comunicamos claramente las pautas de la política a través de información sobre los productos, que está a disposición del público:
- Uso de la imagen de otra persona sin su permiso y prohibición de representar a menores reales.
- Creación de contenido ilegal o que infrinja los derechos de propiedad intelectual.
- La generación de contenido explícito y nocivo, como imágenes íntimas sin consentimiento, contenido utilizado para intimidar, acosar o difamar, o contenido destinado a fomentar la violencia, el odio o el sufrimiento ajeno.
- La creación y distribución de contenido utilizado para defraudar, estafar o engañar a otras personas.
Algunas de estas formas de uso indebido se abordan a través de nuestro modelo y las mitigaciones del sistema, pero otras son más contextuales: una escena de una protesta se puede utilizar para fines creativos legítimos, pero la misma escena presentada como un acontecimiento actual real también podría compartirse como desinformación si se combina con otras afirmaciones.
Sora está diseñado para ofrecer a los usuarios la posibilidad de expresar sus ideas y puntos de vista creativos. No es práctico ni aconsejable impedir toda forma de contenido contextualmente problemático.
Ofrecemos a los usuarios la posibilidad de denunciar los videos de Sora que consideren que infringen nuestras pautas. Además, utilizamos la automatización y la revisión humana para supervisar los patrones de uso de manera activa. Hemos establecido mecanismos de cumplimiento para eliminar los videos ilícitos y sancionar a los usuarios correspondientes. Si un usuario infringe nuestras pautas, le notificaremos y le daremos la posibilidad de decirnos qué consideran correcto. Nos proponemos hacer un seguimiento de la eficacia de estas mitigaciones y optimizarlas con el tiempo.
Además de las medidas de seguridad generales que se mencionan anteriormente, las primeras pruebas y evaluaciones ayudaron a identificar varias áreas de especial interés para la seguridad.
Con OpenAI, estamos completamente comprometidos a abordar3 riesgos de seguridad infantil y priorizamos la prevención, la detección y la denuncia de contenido de material de abuso sexual infantil(se abre en una nueva ventana) (CSAM) en todos nuestros productos, incluido Sora. El trabajo de OpenAI en el ámbito de la seguridad infantil incluye el aprovisionamiento responsable de nuestros conjuntos de datos para protegerlos frente al uso de CSAM, la asociación con la organización National Center for Missing & Exploited Children (NCMEC) para prevenir el abuso sexual infantil y proteger a los menores de edad, el uso de equipos rojos de acuerdo con las recomendaciones de Thorn y en cumplimiento de las restricciones legales, y el escaneo sólido de CSAM en todas los datos de entrada y salida. Esto incluye el escaneado de usuarios directos y de terceros (API y Enterprise) a menos que los clientes cumplan criterios rigurosos para la eliminación del escaneado de CSAM. Para evitar la generación de CSAM, hemos desarrollado una pila de seguridad sólida al aprovechar las mitigaciones del sistema que utilizamos en nuestros otros productos como ChatGPT y DALL·E4, así como algunos mecanismos adicionales que desarrollamos específicamente para Sora.
Clasificadores de datos de entrada
En el caso de la seguridad infantil, utilizamos tres métodos diferentes para mitigar los datos de entrada de texto, imágenes y video:
- Para todas las cargas de imágenes y videos, nos integramos con Safer, desarrollado por Thorn, para detectar coincidencias con CSAM conocido. Las coincidencias confirmadas se rechazan y se comunican al NCMEC. Además, utilizamos el clasificador de CSAM de Thorn para identificar contenido de CSAM potencialmente nuevo y no encriptado.
- Aprovechamos un clasificador de moderación multimodal para detectar y moderar cualquier contenido sexual que implique a menores a través de los datos de entrada de texto, imagen y video.
- Para Sora, desarrollamos un clasificador que analiza el texto y las imágenes para predecir si aparece una persona menor de 18 años o si el pie de foto que la acompaña hace referencia a un menor. Rechazamos las solicitudes de imagen a video que incluyan menores de 18 años. Si se determina que el texto a video se trata de menores de 18 años, aplicamos umbrales de moderación mucho más estrictos en relación con el contenido sexual, violento o autolesivo.
A continuación se encuentra la evaluación de nuestro clasificador para humanos menores de 18 años. Evaluamos nuestro clasificador para rechazar individuos realistas menores de 18 años en un conjunto de datos que contiene cerca de 5000 imágenes de las categorías [niño|adulto] y [realista|ficticio]. Nuestra política consiste en rechazar a imágenes realistas de niños, pero permite las ficticias, incluidas las animadas, tipo caricaturas o de estilo sketch, siempre que no sean sexuales. Hemos adoptado un enfoque prudente respecto al contenido que afecta a menores, y seguiremos evaluando nuestro enfoque a medida que aprendamos más con el uso del producto y encontremos el equilibrio adecuado entre permitir la expresión creativa y la seguridad.
En la actualidad, nuestros clasificadores son muy precisos, pero en ocasiones pueden marcar por error imágenes de adultos o de niños no realistas. Además, reconocemos que los estudios y la bibliografía existente ponen de relieve la posibilidad de que los modelos de predicción de la edad presenten sesgos raciales. Por ejemplo, estos modelos pueden subestimar sistemáticamente la edad de los individuos de determinados grupos raciales.5 Nos comprometemos a mejorar el rendimiento de nuestro clasificador, reducir al mínimo los falsos positivos y profundizar en nuestra comprensión de los posibles sesgos en los próximos meses.
Expected outcome | n_samples | count (is_child) | count (not_child) | Evaluated metrics | |
Realistic Child | Classify images as “is child” | 1589 | 1555 | 34 | Accuracy: 97.86% |
Realistic Adult | Classify images as “not child” | 1370 | 36 | 1334 | Accuracy: 99.28% |
Fictitious Adult | Classify images as “not child” | 965 | 7 | 958 | Accuracy: 97.37% |
Fictitious Child | Classify images as “not child” | 1050 | 323 | 727 | Accuracy: 69.24% |
Total | 4974 | 1921 | 3053 | Precision: 80.95% Recall: 97.86% |
Note: precision is calculated as the % of is_child classifications that are realistic children, and recall is calculated as the % of realistic child images that are classified as is_child
Datos de salida
Como mencionamos anteriormente, una vez que identificamos una referencia a menores en el texto de entrada con nuestro clasificador de menores de 18 años, aplicamos umbrales estrictos de moderación relacionados con contenido sexual, violento o autolesivos en la salida. A continuación se muestran los dos clasificadores de salida que utilizamos para lograr esto:
- Clasificador de moderación multimodal que explora los datos de salida de video no seguros y rechaza las solicitudes que puedan ser especialmente sensibles.
- También aprovechamos nuestro clasificador de imagen DALL·E para buscar infracciones relacionadas con la seguridad infantil.
Nuestros clasificadores de salida escanean dos fotogramas por segundo y, cuando determinan que un video no es seguro, se bloquea cualquier tipo de salida.
Además de los clasificadores y la moderación automatizada, contaremos con revisión humana para garantizar más protección contra las posibles infracciones relacionadas con la seguridad infantil.
Política de productos
Nuestras políticas prohíben el uso de Sora para generar contenido sexual que involucre a menores de edad. Las infracciones de nuestras políticas de seguridad infantil pueden dar lugar a la eliminación de contenido y a la expulsión del usuario.
Uno de los ámbitos de riesgo emergentes relacionados con las capacidades de generación de video de la IA es la posible creación de contenido no adecuado para el trabajo (NSFW) e imágenes íntimas creadas sin consentimiento (NCII). Similar al enfoque de DALL·E, Sora utiliza una estrategia de moderación de varios niveles para bloquear el contenido explícito. Entre estos niveles se encuentran las transformaciones de prompts, los clasificadores de salida de imágenes y las listas de bloqueo, que contribuyen a que el sistema restrinja el contenido sugerente, sobre todo para los datos de salida apropiados a cada edad. Los umbrales de nuestros clasificadores son más estrictos para la carga de imágenes que para las prompts basadas en texto.
Los videos que se muestran en la sección Explorar se filtran con umbrales más altos para ofrecer una experiencia visual adecuada a un público más amplio.
A continuación se presentan los resultados de nuestras evaluaciones sobre la desnudez y el contenido sugerente, que se destinan a valorar la eficacia de la mitigación de varios niveles a través de datos de entrada y salida. Según los resultados, mejoramos nuestros umbrales y aplicamos una moderación más estricta a las imágenes que incluyen personas.
Categoría | Exactitud* (en la entrada)
| Exactitud* (en la salida, p. ej., E2E) |
Contenido sugerente y desnudos | 97.25 % | 97.59 % |
Explicación de eval.:
N = número total de muestras infractoras (~200 por categoría)
I = número total de muestras infractoras superadas por los controles de moderación de entrada
O = número total de muestras infractoras superadas por los controles de moderación de salida
(N-I)/N
Exatitud en la salida (E2E) = (N-O)/N
Política de productos
Nuestras políticas prohíben el uso de Sora para la generación de contenido sexual explícito, incluidas las imágenes íntimas sin consentimiento. Las infracciones de estas políticas pueden dar lugar a la eliminación de contenido y a la penalización del usuario.
Uso indebido de similitudes de imagen y ultra falsas perjudiciales
El monitor de moderación de Sora para las prompts basadas en similitudes de imagen tiene como objetivo marcar el contenido ultra falso potencialmente dañino, con la intención de que los videos en los que aparecen personas reconocibles se revisen minuciosamente. El filtro de uso indebido de similitudes de imagen marca, además, las prompts que intentan modificar o representar a personas de forma potencialmente perjudicial o engañosa. Las transformaciones generales de las prompts de Sora reducen aún más el riesgo de que Sora genere la imagen no deseada de una persona por una prompt que incluya su nombre.
Contenido engañoso
Los clasificadores de entrada y salida de Sora tienen el objetivo de prevenir la generación de contenido engañoso relacionado con las elecciones que muestren actividades fraudulentas, poco éticas o ilegales por cualquier otro motivo. Las métricas de evaluación de Sora incluyen clasificadores para marcar estilos o filtrar técnicas que podrían producir videos engañosos en el contexto de las elecciones y, de esta forma, reducir el riesgo de uso indebido en el mundo real.
A continuación, se presentan las evaluaciones de nuestro filtro LLM de contenido electoral engañoso, centrado en ayudar a identificar casos en los que puede haber intención de crear contenido prohibido a través de una variedad de datos de entrada (p. ej., texto y video). Nuestro sistema también escanea un fotograma por segundo de los videos de salida para evaluar posibles infracciones de salida.
Clasificador | Recuperación | Precisión | Resultado después de la alerta |
Contenido electoral engañoso | 98.23 % | 88.80 % | Bloque que genera los datos de salida |
N = alrededor de 500, a partir de prompts de datos sintéticos
Inversiones en procedencia
Dado que muchos de los riesgos relacionados con Sora, como el contenido ultra falso perjudicial, dependen en gran medida del contexto, hemos dado prioridad a la mejora de nuestras herramientas de procedencia. Reconocemos que no existe una solución única para la procedencia, pero nos comprometemos a mejorar el ecosistema de procedencia y a ayudar a crear contexto y transparencia para el contenido creado a partir de Sora.
Para la disponibilidad general, entre las herramientas de seguridad de procedencia se incluirán las siguientes:
- Metadatos C2PA en todos los activos (origen verificable, norma del sector).
- Marcas de agua animadas y visibles de Sora por defecto (transparencia para que los espectadores reconozcan que es “IA”).
- Herramienta interna de búsqueda inversa de videos para ayudar a los miembros del equipo de Inteligencia e Investigación de OpenAI a evaluar con gran confianza si el contenido ha sido creado por Sora.
Política de productos
Nuestras políticas prohíben el uso de Sora para defraudar, estafar o engañar a otras personas, incluso mediante la creación y difusión de desinformación. También prohíben el uso de la imagen de otra persona sin su permiso. Las infracciones de estas políticas pueden dar lugar a la eliminación de contenido y a la penalización del usuario.
Cuando un usuario utiliza el nombre de un artista que está vivo en una prompt, el modelo puede generar un video que se asemeje en cierto modo al estilo de sus obras. En la creatividad existe una larga tradición de inspirarse en los estilos de otros artistas, pero somos conscientes de que algunos creadores pueden tener dudas al respecto. Hemos optado por adoptar un enfoque conservador con esta versión de Sora mientras aprendemos más sobre cómo lo utiliza la comunidad creativa. Para abordar esta cuestión, hemos añadido segundas redacciones de prompts diseñadas para activarse cuando un usuario intenta generar un video al estilo de un artista vivo.
Al igual que todos nuestros productos, el editor de Sora utiliza un LLM para reescribir el texto enviado con el fin de facilitar el envío de prompts a Sora de forma más eficaz. Este proceso promueve el cumplimiento de nuestras pautas, incluida la eliminación de nombres de personajes públicos, la vinculación de personas con atributos específicos y la descripción de objetos de marca de forma genérica. Mantenemos listas de bloqueo textuales de diversas categorías, basadas en nuestro trabajo previo en DALL·E 2 y DALL·E 3, el descubrimiento proactivo de riesgos y los resultados de los miembros de los equipos rojos y los primeros usuarios.
OpenAI utiliza una estrategia de implementación iterativa para garantizar la aplicación responsable y eficaz de sus productos. Este enfoque combina implementaciones escalonadas, pruebas continuas y un seguimiento permanente con los comentarios de los usuarios y los datos del mundo real para perfeccionar y mejorar nuestro desempeño y medidas de seguridad a lo largo del tiempo. A continuación se presenta una serie de trabajos que tenemos previsto realizar como parte de nuestra implementación iterativa para Sora.
La posibilidad de generar un video a partir de una fotografía o un video cargados de una persona real es un vector de un posible uso indebido hacia el que estamos adoptando un enfoque especialmente incremental para aprender de los primeros patrones de uso. Los primeros comentarios de los artistas indican que se trata de una potente herramienta creativa que valoran, pero dada la capacidad de abuso, en principio no la ponemos a disposición de todos los usuarios. En su lugar, siguiendo nuestra práctica de implementación iterativa, la posibilidad de cargar imágenes o videos de personas se pondrá a disposición de un subconjunto de usuarios. Además, contaremos con una supervisión activa y detallada para comprender el valor que tiene para la comunidad de Sora y ajustar nuestro enfoque de la seguridad a medida que obtengamos más información al respecto. Durante esta prueba, no se permitirá la carga de imágenes en las que figuren menores de edad.
Las futuras iteraciones de Sora seguirán el refuerzo de la trazabilidad mediante la investigación de herramientas de búsqueda de incrustación inversa y la aplicación continua de medidas de transparencia, como C2PA. Nos entusiasma explorar posibles asociaciones con organizaciones no gubernamentales y organizaciones de investigación para hacer crecer y mejorar el ecosistema de procedencia y probar nuestra herramienta interna de imagen inversa para Sora.
Nos comprometemos a reducir los posibles sesgos en los datos de salida mediante ajuste fino de prompts, circuitos de retroalimentación y la identificación continua de medidas eficaces de mitigación, y reconocemos que las correcciones excesivas pueden ser igualmente perjudiciales. Somos conscientes de los problemas, como el sesgo en la imagen corporal y la representación demográfica, y seguiremos perfeccionando nuestro enfoque para garantizar resultados equilibrados e inclusivos.
OpenAI planea mantener evaluaciones continuas de Sora y más iniciativas para mejorar aún más el cumplimiento de Sora con las políticas y normas de seguridad de OpenAI. Planeamos realizar más mejoras en diversos ámbitos, como la seguridad en las similitudes de imagen y el contenido engañoso, guiadas por la evolución de las mejores prácticas y los comentarios de los usuarios.
Agradecemos a todos los equipos internos de OpenAI, incluidos los equipos de Comunicaciones, Diseño de Comunicaciones, Asuntos Globales, Integridad, Inteligencia e Investigación, Legal, Política de Productos, Sistemas de Seguridad y Operaciones de Usuarios, cuyo apoyo fue fundamental para ayudar a desarrollar e implementar las mitigaciones de seguridad de Sora, así como sus contribuciones a esta tarjeta del sistema.
Agradecemos a nuestro grupo de artistas alfa y a los miembros del equipo rojo, que nos proporcionaron información, nos ayudaron a probar nuestros modelos en las primeras etapas de desarrollo e informaron nuestras valoraciones y evaluaciones de riesgos. La participación en este proceso de prueba no se refleja en un respaldo de los planes de implementación de OpenAI ni a las políticas de OpenAI.
- Miembros de los equipos rojos (en orden alfabético): Alexandra García Pérez, Arjun Singh Puri, Caroline Friedman Levy, Dani Madrid-Morales, Emily Lynell Edwards, Grant Brailsford, Herman Wasserman, Javier García Arredondo, Kate Turetsky, Kelly Bare, Matt Groh, Maximilian Müller, Naomi Hart, Nathan Heath, Patrick Caughey, Per Wikman Svahn, Rafael González-Vázquez, Sara Kingsley, Shelby Grossman, Vincent Nestler
- Organizaciones de equipo rojo: ScaleAI
Autores
OpenAIReferencias
- 1
- 2
OpenAI. (s.f.). Upgrading the Moderation API with our new Multimodal Moderation model. 2024.
- 3
OpenAI. (s.f.). Child safety: Adopting SBD principles. OpenAI. Consultado el 6 de diciembre de 2024
- 4
OpenAI. DALL·E 3 system card. 2023.
- 5
Panić, N., Marjanović, M. y Bezdan, T. (2024). Addressing demographic bias in age estimation models through optimized dataset composition(se abre en una nueva ventana). Mathematics, 12(15), 2358.