Crea vídeos a partir de textos

Todos los vídeos de esta página han sido generados por Sora sin ningún tipo de modificación.

Cargando…

Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas para los que se requiere interacción con el mundo real.

Presentamos Sora, nuestro modelo para generar vídeo a partir de texto. Sora es capaz de generar vídeos de hasta un minuto de duración manteniendo la calidad visual y respetando las instrucciones del usuario.

Prompt: Una mujer elegante camina por una calle de Tokio repleta de carteles luminosos con luces de neón en tonos cálidos. Viste una chaqueta de cuero negra, un vestido largo rojo, botas negras, un bolso negro. y gafas de sol. Lleva los labios pintados de color rojo. Camina con confianza y despreocupación. La calle está húmeda y se crea un efecto espejo que refleja las luces de colores. Muchos peatones caminan por los alrededores.

Prompt: Varios mamuts lanudos gigantes se acercan caminando a través de un prado nevado. El viento mece ligeramente su largo pelaje mientras caminan. Se ven árboles cubiertos de nieve y montañas espectaculares nevadas a lo lejos. La luz de media tarde, con nubes tenues y el sol alto a lo lejos, crea un brillo cálido. La vista de la cámara, situada a un ángulo bajo, es impresionante y captura a los grandes mamíferos peludos con una fotografía excelente y una gran profundidad de campo.

Prompt: Tráiler de una película sobre las aventuras de un astronauta de 30 años que lleva un casco de motocicleta de punto de lana rojo. Ambientado en un salar con el cielo despejado. Estilo cinematográfico, rodado en 35 mm, con colores vivos.

Prompt: Vista de un dron de las olas rompiendo contra acantilados escarpados a lo largo de la playa Garay Point de Big Sur. Las olas azules forman crestas blancas al romper, mientras que la luz dorada del sol de poniente ilumina la costa rocosa. Al fondo se ve una pequeña isla con un faro y arbustos verdes que cubren el borde del acantilado. La caída desde la carretera hasta la playa es muy pronunciada, con los bordes del acantilado sobresaliendo sobre el mar. Se trata de una vista que captura la belleza salvaje de la costa y el paisaje accidentado de la Pacific Coast Highway.

Prompt: Una escena de animación con un primer plano de un pequeño monstruo peludo arrodillado junto a una vela roja derritiéndose. El vídeo, en 3D, tiene un estilo artístico y es realista, con especial atención en la iluminación y la textura. Refleja el asombro y la curiosidad del monstruo, que contempla la llama con los ojos y la boca abiertos. Su pose y expresión transmiten una sensación de inocencia y alegría, como si estuviera explorando el mundo que lo rodea por primera vez. El uso de colores cálidos y una iluminación dramática realzan aún más el ambiente acogedor de la imagen.

Prompt: Un mundo de papel muy realista que representa un arrecife de coral, repleto de peces de colores y criaturas marinas.

Prompt: Primer plano de una paloma crestada Victoria en el que destacan su llamativo plumaje azul y su pecho rojo. La cresta se compone de plumas finas y delicadas, mientras que su ojo es de un llamativo color rojo. La cabeza del pájaro está ligeramente inclinada hacia un lado, transmitiendo una imagen regia y majestuosa. El fondo está borroso, lo que hace que el aspecto del pájaro llame aún más la atención.

Prompt: Video fotorrealista de un primer plano de dos barcos piratas luchando entre sí mientras navegan dentro de una taza de café.

Prompt: Un joven de unos 20 años está sentado en una nube en el cielo, leyendo un libro.

Hoy en día, Sora está disponible para los miembros del equipo rojo con el fin de evaluar áreas críticas en busca de daños o riesgos. También estamos proporcionando acceso a una serie de artistas visuales, diseñadores y cineastas para que nos den su opinión sobre cómo podemos hacer avanzar el modelo de manera que sea más útil para los profesionales creativos.

Estamos compartiendo el progreso de nuestra investigación de manera temprana para empezar a colaborar con personas ajenas a OpenAI y obtener su opinión, y para que el público pueda hacerse una idea de las capacidades que pronto tendrá la IA.

Prompt: Vídeo histórico de California durante la fiebre del oro.

Prompt: Primer plano de una esfera de cristal con un jardín zen en su interior. Hay un enano dentro de la esfera creando formas en la arena con un rastrillo.

Prompt: Primer plano del ojo de una mujer de 24 años parpadeando en Marrakech durante la hora dorada. Película cinematográfica filmada en 70 mm, poca profundidad de campo, colores vivos, estilo cinematográfico.

Prompt: Un canguro de dibujos animados bailando en una discoteca.

Prompt: Un bonito vídeo improvisado en el que aparecen los habitantes de Lagos (Nigeria) en el año 2056. Tomado con la cámara de un teléfono móvil.

Prompt: Una placa de Petri con un bosque de bambú creciendo en su interior y con pequeños pandas rojos corriendo.

Prompt: La cámara gira alrededor de una pila enorme de televisores antiguos en los que se ven diferentes programas: películas de ciencia ficción de los años 50, películas de terror, noticias, interferencias, una comedia de situación de los años 70, etc. Se encuentran dentro de una gran galería de un museo de Nueva York.

Prompt: Animación 3D de una criatura pequeña, redonda y peluda con ojos grandes y expresivos que explora un bosque encantado dinámico. La criatura, a mitad de camino entre un conejo y una ardilla, tiene un pelaje azul suave y una cola tupida a rayas. Va saltando por un arroyo resplandeciente, con los ojos abiertos de par en par del asombro. El bosque irradia magia: en él hay flores que brillan y cambian de color, árboles con hojas en tonos morados y plateados, y pequeñas luces flotantes que parecen luciérnagas. La criatura se detiene para interactuar y jugar con un grupo de pequeños seres que parecen hadas, que están bailando encima de una seta. La criatura mira con asombro un árbol grande y resplandeciente que parece ser el corazón del bosque.

Sora es capaz de generar escenas complejas con numerosos personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo no solo comprende las instrucciones del usuario, sino también cómo existen esos elementos en el mundo físico.

Prompt: La cámara sigue a un todoterreno vintage blanco con un portaequipajes negro mientras acelera por un camino rodeado de pinos en una empinada ladera de montaña. Los neumáticos levantan el polvo al pasar, y la luz del sol brilla sobre el vehículo mientras acelera por el camino, proyectando un cálido resplandor sobre la escena. El camino da una ligera curva a lo lejos, sin ningún otro coche o vehículo a la vista. Hay secuoyas a ambos lados de la carretera, con zonas verdes esparcidas por todas partes. La cámara sigue al vehículo desde atrás según toma la curva con facilidad, haciendo que parezca que conduce por un terreno accidentado. El camino está rodeado de colinas y montañas empinadas, con un cielo despejado con nubes tenues.

Prompt: Reflejos en la ventanilla de un tren que recorre los barrios de Tokio.

Prompt: La cámara de un dron gira alrededor de una hermosa iglesia histórica construida sobre un saliente rocoso en la costa amalfitana. Se ven los magníficos detalles arquitectónicos, así como patios y senderos escalonados. Las olas rompen contra las rocas más abajo, mientras se ve el horizonte con las costas y los paisajes montañosos de la costa amalfitana de Italia. Varias personas caminan a lo lejos, disfrutando de las espectaculares vistas del océano. El cálido resplandor del sol de la tarde aporta un toque mágico y romántico a la escena, capturada con una hermosa fotografía.

Prompt: Se ve un pulpo naranja enorme descansando en lo más hondo del océano, camuflándose entre la arena y las rocas del terreno. Tiene los tentáculos extendidos y los ojos cerrados. El pulpo no se da cuenta de que un cangrejo real se dirige hacia él desde detrás de una roca, con las pinzas levantadas en posición de ataque. El cangrejo es marrón y espinoso, con patas y antenas largas. La escena está captada utilizando un gran ángulo, mostrando la inmensidad y la profundidad del océano. El agua es azul y cristalina, y los rayos del sol se filtran a través de ella. La toma es nítida, con un alto rango dinámico. El pulpo y el cangrejo están enfocados, mientras que el fondo está ligeramente borroso, debido a la profundidad de campo.

Prompt: Una bandada de aviones de papel revolotea a través de una selva densa, zigzagueando por los árboles como si fueran pájaros migratorios.

Prompt: Un gato despierta a su dueña exigiéndole el desayuno. La dueña intenta ignorar al gato, pero este prueba con varias técnicas. Al final, la dueña saca un alijo secreto de golosinas de debajo de la almohada para que el gato la deje tranquila un rato más.

Prompt: Fauna de Borneo en el río Kinabatangan

Prompt: Un vídeo de celebración del Año Nuevo lunar chino con un dragón chino.

El modelo tiene un conocimiento profundo del lenguaje, lo que le permite interpretar instrucciones con precisión y generar personajes convincentes que expresan emociones dinámicas. Además, Sora es capaz de crear vídeos generados con varias tomas, en las que se mantienen con precisión los personajes y el estilo visual.

Prompt: Recorrido por una galería de arte con hermosas obras de arte de diferentes estilos.

Prompt: La hermosa ciudad de Tokio, cubierta por la nieve, está llena de vida. La cámara se mueve por las bulliciosas calles de la ciudad, siguiendo a varias personas que disfrutan de los hermosos paisajes nevados y compran en puestos cercanos. Preciosos pétalos de sakura se mecen con el viento, entrelazándose con los copos de nieve.

Prompt: Una animación stop motion de una flor que crece en el alféizar de una casa suburbana.

Prompt: La historia de la vida de un robot en un entorno cyberpunk.

Prompt: Un primer plano extremo de un hombre canoso con barba de unos 60 años, sumido en sus pensamientos, reflexionando sobre la historia del universo mientras está sentado en una cafetería de París. Sus ojos se fijan en las personas que pasan por la calle, fuera de cámara, mientras él permanece sentado, inmóvil. Lleva un abrigo de lana con una camisa con botones, una boina marrón y gafas, y tiene un aspecto muy profesional. Al final, en su boca cerrada se dibuja una sonrisa, como si hubiera encontrado la respuesta al misterio de la vida. La iluminación es muy cinematográfica, con la luz dorada y las calles parisinas de fondo. Poca profundidad de campo, película cinematográfica de 35 mm.

Prompt: Una animación de la hermosa silueta de un lobo aullando a la luna, sintiéndose solo, hasta que encuentra a su manada.

Prompt: Nueva York sumergida como la Atlántida. Peces, ballenas, tortugas marinas y tiburones nadan por las calles de la ciudad.

Prompt: Una camada de cachorros de golden retriever jugando en la nieve. Sus cabezas emergen, cubiertas de nieve.

El modelo actual todavía se puede mejorar. A veces, le cuesta simular la física de una escena compleja y no comprende casos específicos de causa y efecto (por ejemplo, es posible que, después de que alguien muerda una galleta, esta siga entera). El modelo también puede confundir los detalles espaciales incluidos en una instrucción, como distinguir entre izquierda y derecha, o tener dificultades con descripciones precisas de eventos que se desarrollan a lo largo del tiempo, como trayectorias específicas de la cámara.

Prompt: Escena de impresión escalonada de una persona corriendo. Película cinematográfica rodada en 35 mm.

Desventajas: A veces, Sora crea movimientos físicamente inverosímiles.

Prompt: Cinco cachorros de lobo gris retozando por un camino de grava remoto, rodeado de hierba a ambos lados. Los cachorros corren, saltan, se persiguen los unos a los otros y se mordisquean mientras juegan.

Desventajas: Pueden aparecer animales o personas de forma espontánea, especialmente en escenas que contienen muchas entidades.

Prompt: Un balón de baloncesto pasa por el aro y luego explota.

Desventajas: Un ejemplo de modelado físico inexacto y «transformación» antinatural de un objeto.

Prompt: Los arqueólogos descubren una silla de plástico genérica en el desierto, la excavan y le quitan el polvo con mucho cuidado.

Desventajas: En este ejemplo, Sora no ha generado la silla como objeto rígido, lo que da lugar a interacciones físicas inexactas.

Prompt: Una abuela de pelo gris con el cabello muy bien peinado detrás de una tarta de cumpleaños colorida con numerosas velas en una mesa de comedor de madera. Tiene una expresión de alegría y felicidad, y le brillan los ojos. Se inclina hacia adelante y apaga las velas soplando suavemente. El pastel tiene glaseado rosa y virutas de colores. Las velas dejan de parpadear. La abuela lleva una blusa azul claro con motivos florales. Se ve a varios amigos y familiares felices sentados a la mesa celebrando, desenfocados. La escena se ha capturado exquisitamente con estilo cinematográfico y muestra una vista de 3/4 de la abuela y el comedor. Los tonos cálidos y la iluminación suave realzan el ambiente.

Desventajas: Simular interacciones complejas entre objetos y varios personajes suele presentar dificultades para el modelo, y los resultados pueden ser graciosos.

Salvaguardia

Tomaremos varias medidas de seguridad importantes antes de que Sora esté disponible en los productos de OpenAI. Estamos colaborando con los miembros del equipo rojo (expertos en áreas como la desinformación, el contenido que incita al odio y los prejuicios), quienes probarán el modelo de manera adversa.

También estamos creando herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede indicar cuándo un vídeo ha sido generado por Sora. Planeamos incluir metadatos C2PA⁠⁠(se abre en una ventana nueva) en el futuro si implementamos el modelo en un producto de OpenAI.

Además de desarrollar nuevas técnicas para prepararnos para la implementación, estamos aprovechando los métodos de seguridad existentes⁠(se abre en una ventana nueva)⁠ que hemos creado para nuestros productos que utilizan DALL·E 3, que también son aplicables a Sora.

Por ejemplo, una vez implementado en un producto de OpenAI, nuestro clasificador de texto verificará y rechazará las solicitudes de introducción de texto que infrinjan nuestras políticas de uso, como aquellas que solicitan violencia extrema, contenido sexual, imágenes que incitan al odio, imágenes de famosos o la propiedad intelectual de terceros. También hemos desarrollado excelentes clasificadores de imágenes que se utilizan para revisar los fotogramas de cada vídeo generado para ayudar a garantizar que cumpla con nuestras políticas de uso antes de mostrarlo al usuario.

Involucraremos a formuladores de políticas, educadores y artistas de todo el mundo para comprender sus inquietudes e identificar casos de uso positivos para esta nueva tecnología. A pesar de que realizamos investigaciones y pruebas exhaustivas, no podemos predecir todas las formas beneficiosas en que las personas utilizarán nuestra tecnología, ni tampoco todas las formas en que abusarán de ella. Por eso, creemos que aprender del uso en el mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros con el tiempo.

Prompt: La cámara se encuentra justo en frente de los coloridos edificios de Burano (Italia). Un adorable dálmata mira a través de una ventana de un edificio en la planta baja. Muchas personas caminan y andan en bicicleta por las calles del canal frente a los edificios.

Prompt: Una adorable nutria con cara de felicidad surfea con confianza sobre la tabla. Lleva un chaleco salvavidas amarillo y cabalga las aguas tropicales de color turquesa cerca de islas tropicales frondosas. Estilo artístico de renderizado digital en 3D.

Prompt: Este primer plano de un camaleón muestra de manera sorprendente cómo es capaz de cambiar de color. El fondo está borroso, lo que hace que el aspecto del animal llame aún más la atención.

Prompt: Un corgi haciendo vlogging en la zona tropical de Maui.

Prompt: Un gato atigrado blanco y naranja recorre felizmente un denso jardín, como si fuera a la caza de algo. Tiene los ojos bien abiertos y avanza con felicidad, examinando las ramas, las flores y las hojas mientras camina. El camino es estrecho y se abre paso entre todas las plantas .La escena está capturada a la altura del suelo, siguiendo de cerca al gato, brindando una perspectiva baja e íntima. La imagen es cinematográfica, con tonos cálidos y una textura granulada. La luz del día que se cuela entre las hojas y las plantas crea un cálido contraste que acentúa el pelaje naranja del gato. La toma es clara y nítida, con poca profundidad de campo.

Prompt: Vista aérea de Santorini durante la hora azul, en la que destaca la impresionante arquitectura característica de las Cícladas compuesta por edificios blancos con cúpulas azules. Las vistas de la caldera son impresionantes y la iluminación crea una atmósfera hermosa y serena.

Prompt: Vídeo efecto maqueta de una obra llena de trabajadores, equipos y maquinaria pesada.

Prompt: Una nube gigante e imponente con forma de hombre se cierne sobre la Tierra. El hombre de nube dispara rayos hacia la Tierra.

Prompt: Un samoyedo y un golden retriever corren juguetonamente por una ciudad futurista de neón por la noche. Las luces de neón de los edificios cercanos se reflejan en su pelaje.

Prompt: El viaducto de Glenfinnan es un puente ferroviario histórico de Escocia (Reino Unido) que cruza la cordillera occidental entre las ciudades de Mallaig y Fort William. Vista impresionante de un tren de vapor que se acerca al extremo del puente, recorriendo los arcos del viaducto. El paisaje está salpicado de vegetación exuberante y montañas rocosas, creando un pintoresco telón de fondo para el recorrido en tren. El cielo está despejado y el sol brilla; es un día hermoso para explorar este majestuoso lugar.

Técnicas de investigación

Sora es un modelo de difusión. Genera un vídeo a partir de uno que parece ruido estático y, gradualmente, lo va transformando, eliminando el ruido a lo largo de varios pasos.

Sora es capaz de generar vídeos completos de una vez o ampliar los vídeos generados para hacerlos más largos. Al lograr que el modelo sea capaz de predecir numerosos fotogramas a la vez, hemos resuelto el difícil problema de garantizar que el sujeto permanezca igual incluso cuando se pierde de vista temporalmente.

Al igual que los modelos GPT, Sora utiliza una arquitectura de transformador, lo que permite obtener un rendimiento de escalado superior.

Representamos videos e imágenes como colecciones de unidades de datos más pequeñas llamadas parches, cada una de las cuales es similar a un token en GPT. Al unificar la forma en que representamos los datos, podemos entrenar transformadores de difusión con una gama más amplia de datos visuales de lo que hasta ahora era posible, abarcando diferentes duraciones, resoluciones y relaciones de aspecto.

Sora aprovecha las investigaciones anteriores realizadas para los modelos de DALL·E y GPT. Por ejemplo, utiliza la técnica de recaptioning de DALL·E 3, con la que se generan subtítulos altamente descriptivos para los datos de entrenamiento visual. Gracias a ello, el modelo puede seguir más fielmente las instrucciones de texto del usuario en el vídeo generado.

Además de poder generar un vídeo únicamente a partir de instrucciones de texto, el modelo es capaz de tomar una imagen fija existente y generar un vídeo a partir de ella, animando el contenido de la imagen con precisión y una excelente atención al detalle. El modelo también puede tomar un vídeo existente y ampliarlo o completar los fotogramas que faltan. Lee nuestro informe técnico para obtener más información⁠⁠.

Sora forma las bases de modelos capaces de comprender y simular el mundo real, una capacidad que creemos que será muy importante para lograr la IAG.

Cargando...