Creación de video a partir de texto

Todos los videos de esta página se generaron directamente con Sora sin modificación.

Cargando...

Estamos enseñándole a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieran interacción en el mundo real.

Presentamos Sora, nuestro modelo de texto a video. Sora puede generar videos de hasta un minuto de duración mientras conserva calidad visual y cumple con la consulta del usuario.

Consulta: Una mujer elegante camina por una calle de Tokio llena de luces de neón brillantes y carteles urbanos animados. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y una cartera negra. Usa anteojos de sol y lápiz labial rojo. Camina con confianza y de forma casual. La calle está húmeda y reflectante, lo que crea un efecto espejo de luces coloridas. Muchos peatones pasean.

Consulta: Varios mamuts enormes lanudos se aproximan caminando hacia una pradera nevada, su largo pelaje lanudo brilla ligeramente en el viento a medida que caminan. Se observan árboles cubiertos de nieve y montañas con picos nevados a la distancia, luz de media tarde con nubes escasas y el sol alto a la distancia crean un brillo cálido; la vista en cámara lenta es asombrosa para captar al gran mamífero peludo con hermosa fotografía y profundidad de campo.

Consulta: Un tráiler de película que cuenta las aventuras de un hombre del espacio de 30 años que usa un casco de motocicleta tejido rojo, cielo azul, desierto salado, estilo cinemático, toma en película de 35 mm, colores vívidos.

Consulta: Vista por dron de olas rompiendo contra los acantilados irregulares junto a la playa Big Sur’s Garay Point. Las rompientes aguas azules crean olas con punta blanca, mientras que la luz dorada de la puesta de sol ilumina la costa rocosa. Una pequeña isla con un faro se observa a la distancia y arbustos verdes cubren el borde del acantilado. La caída empinada de la calle hacia la playa es un impresionante hito, con los bordes del acantilado sobresaliendo del mar. Esta es una vista que capta la belleza natural de la costa y el paisaje irregular de la carretera de Pacific Coast Highway.

Consulta: Escena animada que presenta un primer plano de un monstruo peludo y de estatura baja animado arrodillado junto a una vela roja que se derrite. El estilo artístico es 3D y realista centrado en la iluminación y textura. El tono de la pintura es de sorpresa y curiosidad, mientras el monstruo observa la llama con ojos y boca muy abiertos. Su postura y expresión transmiten una sensación de inocencia y carácter juguetón, como si estuviera explorando el mundo a su alrededor por primera vez. El uso de colores cálidos e iluminación dramática realzan la atmósfera acogedora de la imagen.

Consulta: Un mundo de modelos de papel retratado maravillosamente de un arrecife de coral, plagado de peces y criaturas marinas coloridos.

Consulta: Esta toma en primer plano de una paloma crestada Victoria muestra su llamativo plumaje azul y pecho rojo. Su cresta está hecha de delicadas plumas de encaje mientras que su ojo es de un llamativo color rojo. La cabeza del ave está ligeramente inclinada a un costado, lo que da la impresión de un aspecto real y majestuoso. El fondo es borroso, lo que atrae la atención hacia el impresionante aspecto del ave.

Consulta: Video en primer plano fotorrealista de dos barcos piratas que luchan entre sí mientras navegan dentro de una taza de café.

Consulta: Un hombre joven en sus 20 años está sentado sobre un pedazo de nube en el cielo, leyendo un libro.

Actualmente, Sora está disponible para miembros del equipo rojo con el fin de evaluar áreas críticas en cuanto a daños o riesgos. También otorgamos acceso a una cantidad de artistas visuales, diseñadores y cineastas para recibir comentarios sobre cómo potenciar el modelo para que sea más útil para profesionales creativos.

Compartimos nuestro progreso en la investigación de forma anticipada para comenzar a trabajar con personas fuera de OpenAI y recibir comentarios de ellas para que el público tenga una idea de cuáles son las capacidades de IA en el futuro.

Consulta: Metraje histórico de California durante la fiebre de oro.

Consulta: Una vista en primer plano de una esfera de vidrio que tiene un jardín zen en su interior. Hay un pequeño duende en la esfera que está rastrillando el jardín zen y creando patrones en la arena.

Consulta: Un primer plano extremo del ojo de una mujer de 24 años parpadeando, parada en Marrakech durante la hora mágica, toma de película cinematográfica en 70 mm, profundidad de campo, colores vívidos, cinemática.

Consulta: Un canguro animado baila disco.

Consulta: Un hermoso video casero que muestra a las personas de Lagos, Nigeria en el año 2056. Toma con una cámara de teléfono móvil.

Consulta: Una placa de Petri con un bosque de bambú que crece en su interior con pandas rojos diminutos corriendo a su alrededor.

Consulta: La cámara gira alrededor de una pila grande de televisores vintage que muestran distintos programas, películas de ciencia ficción de la década de 1950, películas de terror, noticias, estática, comedia de la década de 1970, etc., colocados en una galería grande de un museo de Nueva York.

Consulta: Animación 3D de una criatura pequeña, redonda y esponjosa con ojos grandes y expresivos explora un bosque encantado vibrante. La criatura, una mezcla extravagante entre un conejo y una ardilla, tiene pelaje azul suave y una cola rayada tupida. Salta por un arroyo brillante con sus ojos abiertos con asombro. El bosque está vivo con elementos mágicos: flores que brillan y cambian de color, árboles con hojas en tonos púrpura y plateado y pequeñas luces flotantes que parecen luciérnagas. La criatura se detiene para interactuar con un grupo de diminutos seres que parecen hadas bailando alrededor de un anillo de hongos. La criatura mira hacia arriba con asombro a un árbol grande y brillante que parece ser el corazón del bosque.

Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del tema y fondo. El modelo comprende no solo lo que el usuario pidió en el consulta sino también cómo esas cosas existen en el mundo físico.

Consulta: La cámara sigue detrás a un SUV vintage blanco con un portaequipaje negro mientras acelera por una carretera sucia empinada rodeada de pinos en una pendiente montañosa empinada. Sale polvo de sus neumáticos, la luz del sol brilla sobre el SUV mientras acelera por la carretera sucia, dejando una polvareda sobre la escena. La carretera sucia se curva suavemente en la distancia; no hay a la vista otros automóviles o vehículos. Los árboles a cada lado del camino son secuoyas, con áreas de vegetación dispersas. Se observa el automóvil desde la parte trasera siguiendo la curva con facilidad, lo que lo hace parecer como si afrontara un manejo difícil a lo largo de un terreno accidentado. La carretera sucia en sí está rodeada de colinas y montañas empinadas, con un cielo azul claro y escasas nubes.

Consulta: Reflejos en la ventana de un tren que pasa por los suburbios de Tokio.

Consulta: Una cámara de dron da vueltas alrededor de una hermosa iglesia histórica construida sobre un afloramiento rocoso a lo largo de la costa Amalfitana. La vista muestra detalles históricos y arquitectónicos majestuosos y senderos y patios escalonados; debajo, las olas rompen contra las rocas mientras la vista pasa por alto el horizonte de las aguas costeras y paisajes montañosos de la costa Amalfitana en Italia. Se observan varias personas distantes caminando y disfrutando en los patios de las impresionantes vistas del océano. El brillo cálido del sol de la tarde crea una sensación mágica y romántica a la escena; la vista se capta de manera imponente con maravillosa fotografía.

Consulta: Se observa un pulpo naranja grande descansando sobre el fondo del suelo marino, mezclándose con el terreno arenoso y rocoso. Sus tentáculos se extienden alrededor del cuerpo y sus ojos están cerrados. El pulpo ignora que un cangrejo rey se arrastra hacia él desde atrás de una roca con sus pinzas elevadas, listo para atacar. El cangrejo es de color marrón y cubierto de espinas, con patas largas y antenas. La escena se capta desde un ángulo amplio, que muestra la vastedad y profundidad del océano. El agua es transparente y azul, con rayos de luz solar que se filtran a través de esta. La toma es nítida y definida, con un alto rango dinámico. El pulpo y el cangrejo están en foco, mientras que el fondo es ligeramente borroso, lo que crea una profundidad de efecto de campo.

Consulta: Una bandada de aviones de papel gira alrededor de una jungla densa, serpenteando alrededor de los árboles como si fueran aves migratorias.

Consulta: Un gato despierta a su dueña pidiéndole el desayuno. La dueña intenta ignorar al gato, pero este prueba técnicas nuevas y finalmente la dueña saca una reserva secreta de sorpresas debajo de la almohada para retener al gato un poco más.

Consulta: Vida silvestre de Borneo en el río Kinabatangan

Consulta: Un video de una celebración de año nuevo lunar chino con dragón chino.

El modelo tiene una comprensión profunda del lenguaje, lo que le permite interpretar con precisión consultas y generar personajes convincentes que expresen emociones vibrantes. Sora también puede crear múltiples tomas dentro de un solo video generado que continua con precisión los personajes y el estilo visual.

Consulta: Recorrido por una galería de arte con muchas obras de arte hermosas en diferentes estilos.

Consulta: La hermosa y nevada ciudad de Tokio está animada. La cámara se mueve a través de una calle bulliciosa de la ciudad, sigue a varias personas mientras disfrutan el hermoso clima con nieve y hacen compras en los puestos cercanos. Espléndidos pétalos de sakura vuelan en el viento junto con copos de nieve.

Consulta: Una animación cuadro por cuadro de una flor que nace de un alféizar de una casa suburbana.

Consulta: La historia de la vida de un robot en un entorno ciberpunk.

Consulta: Un primer plano extremo de un hombre canoso con barba en sus 60 años, absorto en sus pensamientos, reflexionando sobre la historia del universo en un café en París. Sus ojos se enfocan en personas fuera de pantalla mientras caminan, dado que está prácticamente inmóvil. Lleva un abrigo de lana con una camisa, usa una boina marrón y anteojos y tiene un aspecto muy profesional. Al final, muestra una sutil sonrisa con la boca cerrada como si encontrara la respuesta al misterio de la vida. La iluminación es muy cinemática con la luz dorada y las calles parisinas y la ciudad de fondo; profundidad de campo, película cinematográfica de 35 mm.

Consulta: Una hermosa animación de silueta muestra a un lobo aullando a la luna; se siente solo hasta que encuentra a su manada.

Consulta: La ciudad de Nueva York sumergida como Atlantis. Peces, ballenas, tortugas marinas y tiburones nadan por las calles de Nueva York.

Consulta: Una camada de cachorros golden retriever juegan en la nieve. Sus cabezas emergen de la nieve y están cubiertos con esta.

El modelo actual aún puede mejorar. Es posible que le cueste simular la física de una escena compleja y que no comprenda instancias específicas de causa y efecto (por ejemplo, es posible que una galleta no muestre una marca después de que un personaje la muerda). El modelo también puede confundir detalles de espacio incluidos en una consulta, como discernir entre izquierda y derecha, o tener problemas con descripciones precisas de eventos que se desarrollan con el tiempo, como trayectorias específicas de cámara.

Consulta: Escena con técnica de impresión escalonada de una persona corriendo; toma con película cinemática en 35 mm.

Debilidad: Sora a veces crea movimiento físicamente improbable.

Consulta: Cinco crías de lobo gris corretean y se persiguen entre sí alrededor de una carretera de grava remota, rodeados de pasto. Los cachorros corren y saltan, persiguiéndose entre sí, jugando a atraparse.

Debilidad: Los animales o las personas pueden aparecer de forma espontánea, especialmente en escenas que incluyen muchas entidades.

Consulta: Balón de básquetbol que pasa por un aro y luego explota.

Debilidad: Un ejemplo de modelado físico impreciso y un objeto no natural “mutando”.

Consulta: Arqueólogos descubren una silla de plástico genérico en el desierto, excavan y la desempolvan con mucho cuidado.

Debilidad: En este ejemplo, Sora falla al modelar la silla como un objeto rígido, lo que lleva a interacciones físicas imprecisas.

Consulta: Una abuela con cabello canoso peinado de forma prolija está parada detrás de un colorido pastel de cumpleaños con numerosas velas en una mesa de comedor de madera. Su expresión es de puro júbilo y felicidad; tiene un alegre brillo en sus ojos. Se inclina y sopla las velas con suavidad. El pastel tiene glaseado rosa y granas y las velas dejan de parpadear. La abuela usa una blusa celeste con patrones florales. Se observa fuera de foco a varios amigos y familiares felices celebrando sentados en la mesa. La escena se capta de forma maravillosa y cinemática; muestra una vista 3/4 de la abuela y el comedor. Los tonos en colores cálidos y la iluminación suave realzan el estado de ánimo.

Debilidad: La simulación de interacciones complejas entre objetos y varios personajes con frecuencia es desafiante para el modelo; a veces crea producciones graciosas.

Salvaguardia

Implementaremos varias medidas de seguridad importantes antes de que Sora esté disponible en productos de OpenAI. Estamos trabajando con miembros del equipo rojo, expertos de dominio en áreas como desinformación, contenido ofensivo y sesgos, quienes estarán probando el modelo de forma antagonista.

Además, estamos desarrollando herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que pueda indicarnos cuándo un video es generado por Sora. Planeamos incluir metadatos C2PA⁠(se abre en una nueva ventana) a futuro si implementamos el modelo en un producto de OpenAI.

Además de desarrollar nuevas técnicas para prepararnos para la implementación, aprovechamos los métodos de seguridad existentes⁠(se abre en una nueva ventana) que creamos para nuestros productos que usan DALL·E 3, los cuales se aplican a Sora.

Por ejemplo, una vez que estás en un producto de OpenAI, nuestro clasificador de texto comprobará y rechazará consultas de entrada de texto que infrinjan nuestras políticas de uso, como aquellas que soliciten violencia extrema, contenido sexual, imágenes ofensivas, similitud con celebridades o la IP de otras personas. También desarrollamos clasificadores de imagen sólida que se usan para revisar los marcos de cada video generado para ayudar a garantizar que cumpla con nuestras políticas de uso, antes de que se muestre al usuario.

Involucraremos a responsables de creación de políticas, educadores y artistas de todo el mundo para comprender sus inquietudes e identificar casos de uso positivo de esta tecnología nueva. A pesar de investigaciones y pruebas exhaustivas, no podemos predecir todas las formas beneficiosas en que las personas usarán nuestra tecnología ni todas las formas en que abusarán de ella. Por ese motivo creemos que aprender del uso en el mundo real es un componente fundamental de crear y lanzar sistemas de IA cada vez más seguros con el tiempo.

Consulta: La cámara enfoca directamente hacia coloridos edificios en Burano, Italia. Un adorable dálmata mira a través de una ventana en un edificio en planta baja. Muchas personas caminan y andan en bicicleta a lo largo de calles laterales al canal frente a los edificios.

Consulta: Una nutria adorable y feliz se para con confianza sobre una tabla de surf con un chaleco salvavidas amarillo; surfea por aguas tropicales color turquesa cerca de islas tropicales exuberantes, estilo artístico de representación digital 3D.

Consulta: Esta toma en primer plano de un camaleón muestra sus impresionantes habilidades para cambiar de color. El fondo es borroso, lo que atrae la atención hacia el llamativo aspecto del animal.

Consulta: Un corgi haciendo un blog en la isla tropical de Maui.

Consulta: Se observa a un gato atigrado blanco y naranja atravesando felizmente un denso jardín, como si estuviera persiguiendo algo. Sus ojos están abiertos y felices mientras corre, examinando las ramas, flores y hojas mientras camina. El sendero es angosto a medida que se hace camino entre todas las plantas. La escena es captada desde un ángulo a nivel del suelo, siguiendo al gato de cerca, lo que da una perspectiva baja y cercana. La imagen es cinemática con tonos cálidos y una textura granulosa. La luz del día dispersa entre las hojas y plantas crea un contraste cálido, lo que acentúa el pelaje naranja del gato. La toma es clara y nítida, con una profundidad de campo superficial.

Consulta: Vista aérea de Santorini durante la hora azul, que muestra la despampanante arquitectura de los edificios cicládicos blancos con domos azules. Las vistas de calderas y la iluminación crean una atmósfera hermosa y serena.

Consulta: El efecto diorama de una obra lleno de obreros, equipos y maquinaria pesada.

Consulta: Una nube enorme y sobresaliente con forma de hombre se alza imponente sobre la tierra. El hombre nube lanza rayos hacia la tierra.

Consulta: Un perro samoyedo y un golden retriever corretean alegremente por una ciudad futurista de neón durante la noche. Las luces neón que emiten los edificios cercanos hacen brillar sus pelajes.

Consulta: El viaducto de Glenfinnan es un puente ferroviario histórico en Escocia, Reino Unido, que cruza sobre la línea oeste de las tierras altas entre las ciudades de Mallaig y Fort William. Es una vista imponente de un tren a vapor que parte del puente y recorre el viaducto cubierto de arcos. El paisaje está salpicado de vegetación exuberante y montañas rocosas, lo que crea un telón de fondo pintoresco para el viaje en tren. El cielo es azul y el sol brilla, lo que hace que sea un hermoso día para explorar este lugar majestuoso.

Técnicas de investigación

Sora es un modelo de difusión, el cual genera un video que comienza con uno que parece ruido estático y gradualmente lo transforma al eliminar el ruido luego de varios pasos.

Sora puede generar videos completos de una vez o extender videos generados para hacerlos más extensos. Al darle al modelo una visión de muchos marcos a la vez, resolvimos un problema desafiante de asegurarnos de que un sujeto permanezca igual incluso cuando no está temporalmente a la vista.

De forma similar a los modelos de GPT, Sora usa una arquitectura transformadora, lo que permite un rendimiento de escalado superior.

Representamos videos e imágenes como colecciones de unidades más pequeñas de datos llamadas áreas; cada una es similar a un token en GPT. Al unificar cómo representamos los datos, podemos entrenar transformadores de difusión en un rango más amplio de datos visuales de lo que era posible anteriormente, abarcando diferentes duraciones, resoluciones y relaciones de aspecto.

Sora se basa en investigación pasada en DALL·E y modelos de GPT. Usa la técnica de recaptioning de DALL·E 3, que comprende generar subtítulos altamente descriptivos para los datos de entrenamiento visual. Como resultado, el modelo puede seguir las instrucciones de texto del usuario en el video generado con mayor exactitud.

Además de poder generar un video únicamente a partir de instrucciones de texto, el modelo puede tomar una imagen inmóvil existente y generar un video de este; anima los contenidos de la imagen con precisión y atención al pequeño detalle. El modelo también puede tomar un video existente y extenderlo o llenar los marcos faltantes. Conoce más en nuestro informe técnico⁠.

Sora sirve como base para modelos que pueden comprender y simular el mundo real, una capacidad que consideramos que será un hito para alcanzar una IAG.

Cargando...