Création de vidéo à partir de texte
Toutes les vidéos de cette page ont été générées directement par Sora, sans aucune retouche.
Nous entraînons l’IA à comprendre le monde physique en mouvement et à le simuler dans le but de créer des modèles utiles pour traiter des situations concrètes.
Découvrez Sora, notre modèle de génération vidéo à partir de texte. Sora est capable de générer des vidéos d’une minute maximum, avec un rendu visuel soigné et fidèle au prompt de l’utilisateur.
Prompt : Une femme élégante marche dans une rue de Tokyo illuminée de néons chaleureux et d’enseignes animées. Elle porte une veste en cuir noire, une longue robe rouge, des bottes noires et un sac à main noir. Elle porte des lunettes de soleil et du rouge à lèvres rouge. Elle marche avec assurance et décontraction. La chaussée mouillée crée un effet miroir avec les lumières colorées. De nombreux passants marchent dans la rue.
Prompt : Plusieurs mammouths laineux géants avancent lentement dans une prairie enneigée. Leurs longs poils épais ondulent légèrement au vent tandis qu’ils avancent. Au loin, des arbres couverts de neige se dressent devant des montagnes majestueuses aux sommets enneigés. Sous un soleil haut et de légers nuages, la lumière du début d’après-midi baigne la scène d’une lueur chaleureuse. La vue en contre-plongée est saisissante, capturant le grand mammifère poilu avec une photographie magnifique et une belle profondeur de champ.
Prompt : Une bande-annonce de film présentant les aventures d’un astronaute de 30 ans coiffé d’un casque de moto tricoté en laine rouge, sur fond de ciel bleu et de désert de sel, dans un style cinématographique aux couleurs vives, tourné en pellicule 35 mm.
Prompt : Plan aérien par drone des vagues s’écrasant contre les falaises escarpées de la plage Garay Point, à Big Sur. Les eaux bleues déchaînées forment des crêtes blanches, tandis que la lumière dorée du soleil couchant éclaire la côte rocheuse. Une petite île avec un phare apparaît au loin et des buissons verts recouvrent les bords abrupts des falaises. La route surplombe de manière impressionnante la plage en contrebas, offrant un spectacle naturel spectaculaire. Ce panorama saisit la beauté brute de la côte et le caractère sauvage du littoral de la Pacific Coast Highway.
Prompt : La scène animée montre un gros plan sur un petit monstre pelucheux à genoux près d’une bougie rouge qui fond. Le style visuel, en 3D réaliste, porte une attention particulière à l’éclairage et aux textures. Le tableau dégage un sentiment de curiosité et d’émerveillement, le monstre regardant la flamme avec de grands yeux et la bouche entrouverte. Sa posture et son expression traduisent la joie et l’innocence, comme s’il découvrait le monde pour la première fois. Les couleurs chaudes et l’éclairage intense accentuent l’ambiance chaleureuse de la scène.
Prompt : Un univers en papier finement travaillé, représentant un récif corallien rempli de poissons colorés et de créatures marines.
Prompt : Ce gros plan sur un goura de victoria met en valeur son plumage bleu saisissant et sa poitrine rouge. Sa crête est composée de plumes délicates et dentelées, tandis que son œil arbore un rouge éclatant. La tête de l’oiseau est légèrement inclinée sur le côté, lui donnant une allure majestueuse et royale. L’arrière-plan flou fait ressortir l’apparence remarquable de l’oiseau.
Prompt : Vidéo en gros plan photoréaliste de deux navires pirates s’affrontant alors qu’ils voguent à l’intérieur d’une tasse de café.
Prompt : Un homme dans la vingtaine est assis sur un nuage, lisant un livre dans le ciel.
Les équipes rouges ont désormais accès à Sora afin d’évaluer les points sensibles à fort potentiel de risques ou de dangers. Nous ouvrons aussi cet accès à plusieurs artistes visuels, designers et réalisateurs afin de recueillir leurs commentaires pour faire progresser le modèle et le rendre plus utile aux professionnels de la création artistique.
Nous partageons dès maintenant l’avancée de nos recherches afin de collaborer avec des intervenants externes à OpenAI, recueillir leurs commentaires et permettre au public de se faire une idée des prochaines capacités de l’IA.
Prompt : Images d’archives de la Californie pendant la ruée vers l’or.
Prompt : Gros plan sur une sphère en verre renfermant un jardin zen. À l’intérieur, un petit nain ratisse le sable, dessinant des motifs.
Prompt : Plan très rapproché sur l’œil d’une femme de 24 ans qui cligne des yeux, debout à Marrakech au coucher du soleil, filmé en 70 mm avec un rendu cinématographique et des couleurs éclatantes.
Prompt : Un kangourou de dessin animé danse sur du disco.
Prompt : Une belle vidéo amateur montrant les habitants de Lagos, au Nigeria, en 2056. Filmée avec la caméra d’un smartphone.
Prompt : Une boîte de Petri contenant une forêt de bambous où de minuscules pandas roux gambadent partout.
Prompt : La caméra tourne autour d’une grande pile de téléviseurs vintage, chacun diffusant un programme différent : films de science-fiction des années 1950, films d’horreur, journaux télévisés, écran brouillé, sitcom des années 1970, le tout dans une grande salle d’exposition d’un musée à New York.
Prompt : Animation 3D d’une petite créature ronde et duveteuse aux grands yeux expressifs explorant une forêt enchantée et colorée. La créature, mélange fantaisiste entre un lapin et un écureuil, a une douce fourrure bleue et une queue touffue rayée. Elle saute le long d’un ruisseau scintillant, les yeux grands ouverts de fascination. La forêt fourmille d’éléments magiques : des fleurs qui brillent et changent de couleur, des arbres aux feuilles pourpres et argentées, ainsi que de petites lumières flottantes semblables à des lucioles. La créature s’arrête pour jouer avec un groupe de petites fées dansant sur un champignon. Elle lève les yeux, émerveillée, vers un grand arbre lumineux qui semble être le cœur de la forêt.
Sora est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis sur le sujet comme sur l’arrière-plan. Le modèle saisit à la fois la demande de l’utilisateur et la manière dont les éléments évoqués s’inscrivent dans le monde réel.
Prompt : La caméra suit un vieux 4x4 blanc équipé d’une galerie de toit noire, qui monte à vive allure un chemin de terre escarpé bordé de pins sur un versant de montagne. La poussière s’élève derrière ses pneus et la lumière du soleil éclaire le véhicule, baignant la scène d’une lueur chaleureuse. Le chemin de terre serpente doucement vers l’horizon, sans le moindre véhicule en vue. Des séquoias bordent la route de part et d’autre, entrecoupés par de petites zones de végétation plus claire. Vue de l’arrière, la voiture suit la courbe en douceur, donnant l’impression d’un trajet tout en maîtrise à travers un paysage accidenté. Le chemin de terre est entouré de collines abruptes et de montagnes, sous un ciel bleu clair parsemé de légers nuages.
Prompt : Reflets dans la vitre d’un train traversant la banlieue de Tokyo.
Prompt : Une caméra drone tourne autour d’une magnifique église ancienne perchée sur un promontoire rocheux le long de la côte amalfitaine. La vue met en valeur les détails architecturaux majestueux, ainsi que des chemins et patios en terrasses. Les vagues déferlent sur les rochers en contrebas, tandis que la vue s’étend jusqu’à l’horizon des eaux côtières et des paysages vallonnés de la côte amalfitaine, en Italie. On aperçoit au loin plusieurs personnes marchant et admirant la vue depuis les terrasses qui donnent sur l’océan. La douce lumière du soleil de l’après-midi baigne la scène d’une atmosphère romantique et féerique, sublimée par une photographie soignée.
Prompt : Un grand poulpe orange repose immobile au fond de l’océan, parfaitement dissimulé dans un paysage de sable et de rochers. Ses tentacules sont étalés autour de lui, les yeux fermés. Il ne remarque pas le crabe royal qui s’approche furtivement derrière un rocher, pinces levées, prêt à attaquer. Le crabe, brun et couvert d’épines, a de longues pattes et antennes. La scène est filmée en grand angle, révélant l’immensité et la profondeur de l’océan. L’eau, limpide et bleue, est traversée par des rayons de soleil. La prise de vue est nette et précise, avec un fort contraste dynamique Le poulpe et le crabe sont nets, tandis que l’arrière-plan est légèrement flou, ce qui accentue la profondeur.
Prompt : Une nuée d’avions en papier s’élance dans une jungle dense et se faufile entre les arbres tels des oiseaux migrateurs.
Prompt : Un chat réveille sa maîtresse endormie en réclamant son petit-déjeuner. La maîtresse tente d’ignorer le chat, qui adopte une nouvelle stratégie. La maîtresse sort finalement un sachet de friandise caché sous l’oreiller pour faire patienter le chat.
Prompt : La faune sauvage de Bornéo sur la rivière Kinabatangan.
Prompt : Une vidéo de célébration du Nouvel An lunaire chinois avec un dragon chinois.
Grâce à sa maîtrise fine du langage, le modèle interprète avec justesse les prompts et génère des personnages expressifs aux émotions intenses. Sora peut aussi créer plusieurs plans dans une même vidéo générée, en conservant fidèlement les personnages et le style visuel.
Prompt : Visite d’une galerie d’art où se côtoient de superbes œuvres aux styles variés.
Prompt : La belle ville enneigée de Tokyo est en pleine effervescence. La caméra suit plusieurs personnes dans une rue animée, qui profitent du temps hivernal et des stands alentour. De délicats pétales de cerisier virevoltent dans le vent, mêlés aux flocons de neige.
Prompt : Une animation image par image d’une fleur qui pousse sur le rebord de la fenêtre d’une maison de banlieue.
Prompt : La vie d’un robot dans un monde cyberpunk.
Prompt : Un très gros plan sur un homme aux cheveux gris avec une barbe dans la soixantaine, plongé dans une profonde réflexion sur l’histoire de l’univers. Il est assis dans un café à Paris, les yeux rivés sur des passants hors champ, tandis qu’il reste presque immobile. Il porte un manteau en laine, une chemise boutonnée, un béret marron et des lunettes et affiche une apparente sagesse. À la fin, un léger sourire fermé éclaire son visage, comme s’il avait percé le mystère de la vie. La scène est éclairée de façon très cinématographique, avec une lumière dorée, les rues parisiennes en arrière-plan, une belle profondeur de champ, filmée en 35 mm.
Prompt : Une belle animation de la silhouette d’un loup solitaire qui hurle à la lune, avant de rejoindre sa meute.
Prompt : La ville de New York engloutie façon Atlantide. Des poissons, des baleines, des tortues marines et des requins nagent dans les rues de New York.
Prompt : Une portée de chiots golden retrievers joue dans la neige. Leurs têtes apparaissent, toutes blanches de neige.
Le modèle actuel peut encore être amélioré. Il peut avoir du mal à simuler la physique d’une scène complexe et à comprendre certains enchaînements de causes et d’effets (par exemple, un cookie croqué pourrait rester intact visuellement). Il peut aussi confondre certaines indications spatiales du prompt, telles que la gauche et la droite, ou rencontrer des difficultés avec des descriptions temporelles complexes, notamment des mouvements de caméra.
Prompt : Plan cinématographique en 35 mm d’une course filmée en step-printing.
Point faible : Sora crée parfois des mouvements qui défient les lois physiques.
Prompt : Cinq louveteaux gris s’amusent et se poursuivent sur une route de gravier reculée, bordée de végétation. Les louveteaux courent et sautent, se poursuivent et se mordillent en jouant.
Point faible : des animaux ou des personnes peuvent apparaître spontanément, surtout dans les scènes comportant de nombreux éléments.
Prompt : Un ballon de basket franchit le panier avant d’exploser.
Point faible : exemple d’une simulation physique inexacte et de transformation d’objets peu réaliste.
Prompt : Des archéologues découvrent une chaise en plastique banale dans le désert, qu’ils déterrent et dépoussièrent avec grand soin.
Point faible : Dans cet exemple, Sora ne parvient pas à modéliser la chaise comme un objet rigide, ce qui entraîne des incohérences physiques.
Prompt : Une grand-mère aux cheveux gris impeccablement coiffés se tient derrière un gâteau d’anniversaire coloré posé sur une table en bois dans la salle à manger. Son visage rayonne de joie et ses yeux pétillent de bonheur. Elle se penche en avant et souffle doucement sur les bougies, qui s’éteignent. Le gâteau est recouvert d’un glaçage rose et de vermicelles colorés. La grand-mère porte une blouse bleu clair ornée de motifs floraux. Plusieurs proches joyeux, assis à la table, apparaissent en arrière-plan, légèrement flous, célébrant l’événement. La prise de vue est superbe et cinématographique, montrant la grand-mère et la salle à manger en vue trois quarts. Des couleurs chaudes et un éclairage doux accentuent l’atmosphère.
Point faible : le modèle a souvent du mal à simuler des interactions complexes entre objets et personnages multiples, entraînant parfois des résultats inattendus et drôles.
Nous veillerons à appliquer plusieurs étapes de sécurité essentielles avant de déployer Sora dans les produits d’OpenAI. Des professionnels spécialisés dans la lutte contre la désinformation, les contenus haineux et les préjugés effectuent des tests rigoureux et adverses du modèle à nos côtés sous la forme d’équipes rouges.
Nous développons également des outils pour détecter les contenus trompeurs, notamment un classificateur capable d’identifier quand une vidéo a été générée par Sora. Si le modèle est déployé dans un produit OpenAI, nous prévoyons d’y inclure les métadonnées C2PA(ouverture dans une nouvelle fenêtre).
Parallèlement au développement de nouvelles approches pour préparer le déploiement, nous nous appuyons sur les méthodes de sécurité actuellement appliquées(ouverture dans une nouvelle fenêtre) aux produits basés sur DALL·E 3, également applicables à Sora.
Par exemple, dès que le modèle sera intégré à un produit OpenAI, notre classificateur de texte analysera les prompts et rejettera ceux qui enfreignent nos règles d’utilisation en demandant notamment des scènes de violence extrême, des contenus sexuels, des images haineuses, des ressemblances avec des célébrités ou des droits de propriété intellectuelle. Nous avons aussi mis au point des classificateurs d’images performants qui analysent chaque image de toutes les vidéos générées afin de garantir leur conformité avec nos politiques d'utilisation, avant qu’elles ne soient affichées à l’utilisateur.
Nous collaborerons avec des acteurs clés tels que les législateurs, enseignants et artistes du monde entier afin de comprendre leurs préoccupations et de définir des usages constructifs pour cette nouvelle technologie. Malgré une recherche approfondie et de nombreux tests, il nous est impossible d’anticiper toutes les façons dont notre technologie sera utilisée à bon escient ou détournée. C’est pourquoi nous estimons que l’apprentissage à partir de situations concrètes est essentiel pour améliorer progressivement la sécurité des systèmes d’IA.
Prompt : La caméra montre les bâtiments colorés de Burano, en Italie. Un adorable dalmatien regarde par la fenêtre d’un bâtiment au rez-de-chaussée. De nombreux passants marchent et circulent à vélo le long des rues bordant le canal, devant les bâtiments.
Prompt : Une loutre mignonne, heureuse et confiante, debout sur une planche de surf avec un gilet jaune, surfe sur des eaux turquoise entourées d’îles tropicales luxuriantes, en style 3D numérique.
Prompt : Ce gros plan sur un caméléon met en valeur ses impressionnantes facultés de changement de couleur. L’arrière-plan flou fait ressortir l’apparence remarquable de l’animal.
Prompt : Un corgi se filme en vlog à Maui, dans un décor tropical.
Prompt : Un chat tigré blanc et roux file gaiement à travers un jardin dense, comme s’il courait après quelque chose. Les yeux écarquillés et pétillants, il avance en trottinant tout en observant les branches, les fleurs et le feuillage. Le sentier, étroit, serpente entre les plantes. La caméra, placée au niveau du sol, suit le chat de près, créant une sensation d’intimité et de proximité. Avec ses tons chauds et sa texture granuleuse, la scène dégage une ambiance cinématographique. La lumière du jour filtrant entre les feuilles et les plantes crée un contraste chaleureux qui met en valeur le pelage orangé du chat. Le plan est net et précis, avec une faible profondeur de champ.
Prompt : Depuis les airs, Santorin se dévoile à l’heure bleue, avec ses élégants bâtiments blancs et leurs dômes bleus caractéristiques des Cyclades. La vue sur la caldeira est à couper le souffle, et la lumière crée une atmosphère magnifique et paisible.
Prompt : Vue en tilt-shift sur un chantier rempli d’ouvriers, de matériel et d’engins de chantier.
Prompt : Un nuage géant en forme d’homme se dresse au-dessus de la Terre. Ce personnage nuageux lance des éclairs vers le sol.
Prompt : Un Samoyède et un Golden Retriever gambadent joyeusement dans une ville futuriste illuminée de néons la nuit. Les lumières néon des immeubles alentours se reflètent sur leur pelage.
Prompt : Le viaduc de Glenfinnan, pont ferroviaire emblématique d’Écosse, traverse la ligne du West Highland reliant Mallaig à Fort William. La vue est saisissante tandis qu’un train à vapeur quitte le pont pour traverser le viaduc aux arches majestueuses. Le décor mêle verdure dense et sommets rocheux, offrant un décor pittoresque au parcours du train. Un ciel azur et un soleil éclatant font de cette journée un moment parfait pour découvrir cet endroit grandiose.
Sora est un modèle de diffusion capable de générer une vidéo à partir d’un bruit statique initial, qu’il affine peu à peu en éliminant le bruit sur plusieurs étapes.
Sora peut générer une vidéo entière en une fois, ou bien prolonger une vidéo existante pour en augmenter la durée. Le modèle peut maintenant anticiper plusieurs images en même temps, ce qui permet de conserver un sujet stable, même s’il disparaît un instant.
À l’image des modèles GPT, Sora repose sur une architecture Transformeur, qui garantit des performances évolutives supérieures.
Les vidéos et images sont décomposées en petites unités de données, nommées patches, qui jouent un rôle similaire aux jetons dans GPT. En unifiant la représentation des données, nous pouvons entraîner des transformateur de diffusion sur une diversité de données visuelles plus large qu’auparavant, intégrant différentes durées, résolutions et formats.
Sora s’appuie sur les recherches concernant les modèles DALL·E et GPT. Cette approche fait appel au recaptioning de DALL·E 3, qui consiste à générer des légendes particulièrement descriptives pour les données visuelles d’entraînement. Par conséquent, le modèle reproduit avec davantage de précision les instructions textuelles de l’utilisateur dans la vidéo générée.
Le modèle peut non seulement générer une vidéo à partir de simples instructions textuelles, mais aussi transformer une image statique en vidéo, en animant fidèlement les éléments de l’image, avec une grande attention aux détails. Il est aussi capable de prolonger une vidéo existante ou d’ajouter les images intermédiaires manquantes. Consultez notre rapport technique pour en savoir plus.
Sora pose les bases de modèles capables de comprendre le monde réel et de le simuler, un tournant majeur pour l’AGI.