Ir al contenido principal
OpenAI

Crea vídeos a partir de textos

Todos los vídeos de esta página han sido generados por Sora sin ningún tipo de modificación.

Cargando…

Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas para los que se requiere interacción con el mundo real.

Presentamos Sora, nuestro modelo para generar vídeo a partir de texto. Sora es capaz de generar vídeos de hasta un minuto de duración manteniendo la calidad visual y respetando las instrucciones del usuario.

Hoy en día, Sora está disponible para los miembros del equipo rojo con el fin de evaluar áreas críticas en busca de daños o riesgos. También estamos proporcionando acceso a una serie de artistas visuales, diseñadores y cineastas para que nos den su opinión sobre cómo podemos hacer avanzar el modelo de manera que sea más útil para los profesionales creativos.

Estamos compartiendo el progreso de nuestra investigación de manera temprana para empezar a colaborar con personas ajenas a OpenAI y obtener su opinión, y para que el público pueda hacerse una idea de las capacidades que pronto tendrá la IA.

Sora es capaz de generar escenas complejas con numerosos personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo no solo comprende las instrucciones del usuario, sino también cómo existen esos elementos en el mundo físico.

El modelo tiene un conocimiento profundo del lenguaje, lo que le permite interpretar instrucciones con precisión y generar personajes convincentes que expresan emociones dinámicas. Además, Sora es capaz de crear vídeos generados con varias tomas, en las que se mantienen con precisión los personajes y el estilo visual.

El modelo actual todavía se puede mejorar. A veces, le cuesta simular la física de una escena compleja y no comprende casos específicos de causa y efecto (por ejemplo, es posible que, después de que alguien muerda una galleta, esta siga entera). El modelo también puede confundir los detalles espaciales incluidos en una instrucción, como distinguir entre izquierda y derecha, o tener dificultades con descripciones precisas de eventos que se desarrollan a lo largo del tiempo, como trayectorias específicas de la cámara.

Salvaguardia

Tomaremos varias medidas de seguridad importantes antes de que Sora esté disponible en los productos de OpenAI. Estamos colaborando con los miembros del equipo rojo (expertos en áreas como la desinformación, el contenido que incita al odio y los prejuicios), quienes probarán el modelo de manera adversa.

También estamos creando herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede indicar cuándo un vídeo ha sido generado por Sora. Planeamos incluir metadatos C2PA⁠(se abre en una ventana nueva) en el futuro si implementamos el modelo en un producto de OpenAI.

Además de desarrollar nuevas técnicas para prepararnos para la implementación, estamos aprovechando los métodos de seguridad existentes(se abre en una ventana nueva)⁠ que hemos creado para nuestros productos que utilizan DALL·E 3, que también son aplicables a Sora.

Por ejemplo, una vez implementado en un producto de OpenAI, nuestro clasificador de texto verificará y rechazará las solicitudes de introducción de texto que infrinjan nuestras políticas de uso, como aquellas que solicitan violencia extrema, contenido sexual, imágenes que incitan al odio, imágenes de famosos o la propiedad intelectual de terceros. También hemos desarrollado excelentes clasificadores de imágenes que se utilizan para revisar los fotogramas de cada vídeo generado para ayudar a garantizar que cumpla con nuestras políticas de uso antes de mostrarlo al usuario.

Involucraremos a formuladores de políticas, educadores y artistas de todo el mundo para comprender sus inquietudes e identificar casos de uso positivos para esta nueva tecnología. A pesar de que realizamos investigaciones y pruebas exhaustivas, no podemos predecir todas las formas beneficiosas en que las personas utilizarán nuestra tecnología, ni tampoco todas las formas en que abusarán de ella. Por eso, creemos que aprender del uso en el mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros con el tiempo.

Técnicas de investigación

Sora es un modelo de difusión. Genera un vídeo a partir de uno que parece ruido estático y, gradualmente, lo va transformando, eliminando el ruido a lo largo de varios pasos.

Sora es capaz de generar vídeos completos de una vez o ampliar los vídeos generados para hacerlos más largos. Al lograr que el modelo sea capaz de predecir numerosos fotogramas a la vez, hemos resuelto el difícil problema de garantizar que el sujeto permanezca igual incluso cuando se pierde de vista temporalmente.

Al igual que los modelos GPT, Sora utiliza una arquitectura de transformador, lo que permite obtener un rendimiento de escalado superior.

Representamos videos e imágenes como colecciones de unidades de datos más pequeñas llamadas parches, cada una de las cuales es similar a un token en GPT. Al unificar la forma en que representamos los datos, podemos entrenar transformadores de difusión con una gama más amplia de datos visuales de lo que hasta ahora era posible, abarcando diferentes duraciones, resoluciones y relaciones de aspecto.

Sora aprovecha las investigaciones anteriores realizadas para los modelos de DALL·E y GPT. Por ejemplo, utiliza la técnica de recaptioning de DALL·E 3, con la que se generan subtítulos altamente descriptivos para los datos de entrenamiento visual. Gracias a ello, el modelo puede seguir más fielmente las instrucciones de texto del usuario en el vídeo generado.

Además de poder generar un vídeo únicamente a partir de instrucciones de texto, el modelo es capaz de tomar una imagen fija existente y generar un vídeo a partir de ella, animando el contenido de la imagen con precisión y una excelente atención al detalle. El modelo también puede tomar un vídeo existente y ampliarlo o completar los fotogramas que faltan. Lee nuestro informe técnico para obtener más información⁠.

Sora forma las bases de modelos capaces de comprender y simular el mundo real, una capacidad que creemos que será muy importante para lograr la IAG.

Cargando...