Pasar al contenido principal
OpenAI

Creación de video a partir de texto

Todos los videos de esta página se generaron directamente con Sora sin modificación.

Cargando...

Estamos enseñándole a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieran interacción en el mundo real.

Presentamos Sora, nuestro modelo de texto a video. Sora puede generar videos de hasta un minuto de duración mientras conserva calidad visual y cumple con la consulta del usuario.

Actualmente, Sora está disponible para miembros del equipo rojo con el fin de evaluar áreas críticas en cuanto a daños o riesgos. También otorgamos acceso a una cantidad de artistas visuales, diseñadores y cineastas para recibir comentarios sobre cómo potenciar el modelo para que sea más útil para profesionales creativos.

Compartimos nuestro progreso en la investigación de forma anticipada para comenzar a trabajar con personas fuera de OpenAI y recibir comentarios de ellas para que el público tenga una idea de cuáles son las capacidades de IA en el futuro.

Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del tema y fondo. El modelo comprende no solo lo que el usuario pidió en el consulta sino también cómo esas cosas existen en el mundo físico.

El modelo tiene una comprensión profunda del lenguaje, lo que le permite interpretar con precisión consultas y generar personajes convincentes que expresen emociones vibrantes. Sora también puede crear múltiples tomas dentro de un solo video generado que continua con precisión los personajes y el estilo visual.

El modelo actual aún puede mejorar. Es posible que le cueste simular la física de una escena compleja y que no comprenda instancias específicas de causa y efecto (por ejemplo, es posible que una galleta no muestre una marca después de que un personaje la muerda). El modelo también puede confundir detalles de espacio incluidos en una consulta, como discernir entre izquierda y derecha, o tener problemas con descripciones precisas de eventos que se desarrollan con el tiempo, como trayectorias específicas de cámara.

Salvaguardia

Implementaremos varias medidas de seguridad importantes antes de que Sora esté disponible en productos de OpenAI. Estamos trabajando con miembros del equipo rojo, expertos de dominio en áreas como desinformación, contenido ofensivo y sesgos, quienes estarán probando el modelo de forma antagonista.

Además, estamos desarrollando herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que pueda indicarnos cuándo un video es generado por Sora. Planeamos incluir metadatos C2PA(se abre en una nueva ventana) a futuro si implementamos el modelo en un producto de OpenAI.

Además de desarrollar nuevas técnicas para prepararnos para la implementación, aprovechamos los métodos de seguridad existentes(se abre en una nueva ventana) que creamos para nuestros productos que usan DALL·E 3, los cuales se aplican a Sora.

Por ejemplo, una vez que estás en un producto de OpenAI, nuestro clasificador de texto comprobará y rechazará consultas de entrada de texto que infrinjan nuestras políticas de uso, como aquellas que soliciten violencia extrema, contenido sexual, imágenes ofensivas, similitud con celebridades o la IP de otras personas. También desarrollamos clasificadores de imagen sólida que se usan para revisar los marcos de cada video generado para ayudar a garantizar que cumpla con nuestras políticas de uso, antes de que se muestre al usuario.

Involucraremos a responsables de creación de políticas, educadores y artistas de todo el mundo para comprender sus inquietudes e identificar casos de uso positivo de esta tecnología nueva. A pesar de investigaciones y pruebas exhaustivas, no podemos predecir todas las formas beneficiosas en que las personas usarán nuestra tecnología ni todas las formas en que abusarán de ella. Por ese motivo creemos que aprender del uso en el mundo real es un componente fundamental de crear y lanzar sistemas de IA cada vez más seguros con el tiempo.

Técnicas de investigación

Sora es un modelo de difusión, el cual genera un video que comienza con uno que parece ruido estático y gradualmente lo transforma al eliminar el ruido luego de varios pasos.

Sora puede generar videos completos de una vez o extender videos generados para hacerlos más extensos. Al darle al modelo una visión de muchos marcos a la vez, resolvimos un problema desafiante de asegurarnos de que un sujeto permanezca igual incluso cuando no está temporalmente a la vista.

De forma similar a los modelos de GPT, Sora usa una arquitectura transformadora, lo que permite un rendimiento de escalado superior.

Representamos videos e imágenes como colecciones de unidades más pequeñas de datos llamadas áreas; cada una es similar a un token en GPT. Al unificar cómo representamos los datos, podemos entrenar transformadores de difusión en un rango más amplio de datos visuales de lo que era posible anteriormente, abarcando diferentes duraciones, resoluciones y relaciones de aspecto.

Sora se basa en investigación pasada en DALL·E y modelos de GPT. Usa la técnica de recaptioning de DALL·E 3, que comprende generar subtítulos altamente descriptivos para los datos de entrenamiento visual. Como resultado, el modelo puede seguir las instrucciones de texto del usuario en el video generado con mayor exactitud.

Además de poder generar un video únicamente a partir de instrucciones de texto, el modelo puede tomar una imagen inmóvil existente y generar un video de este; anima los contenidos de la imagen con precisión y atención al pequeño detalle. El modelo también puede tomar un video existente y extenderlo o llenar los marcos faltantes. Conoce más en nuestro informe técnico.

Sora sirve como base para modelos que pueden comprender y simular el mundo real, una capacidad que consideramos que será un hito para alcanzar una IAG.

Cargando...