Passer au contenu principal
OpenAI

Création de vidéo à partir de texte

Toutes les vidéos de cette page ont été générées directement par Sora, sans aucune retouche.

Chargement…

Nous enseignons à l'IA à comprendre et à simuler le monde physique en mouvement, dans le but de former des modèles qui aident les gens à résoudre des problèmes nécessitant une interaction avec le monde réel.

Découvrez Sora, notre modèle de génération vidéo à partir de texte. Sora peut générer des vidéos d’une durée allant jusqu’à une minute tout en conservant la qualité visuelle et en respectant l’invite de l’utilisateur.

Aujourd'hui, Sora est mis à la disposition des équipes rouges pour évaluer les zones critiques et identifier les risques ou les dangers. Nous ouvrons aussi cet accès à plusieurs artistes visuels, designers et réalisateurs afin de recueillir leurs commentaires pour faire progresser le modèle et le rendre plus utile aux professionnels de la création artistique.

Nous partageons dès maintenant l’avancée de nos recherches afin de collaborer avec des intervenants externes à OpenAI, recueillir leurs commentaires et permettre au public de se faire une idée des prochaines capacités de l’IA.

Sora est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis sur le sujet comme sur l’arrière-plan. Le modèle saisit à la fois la demande de l’utilisateur et la manière dont les éléments évoqués s’inscrivent dans le monde réel.

Le modèle possède une compréhension approfondie du langage, ce qui lui permet d'interpréter avec précision les invites et de générer des personnages captivants qui expriment des émotions vives. Sora peut aussi créer plusieurs plans dans une même vidéo générée, en conservant fidèlement les personnages et le style visuel.

Le modèle actuel peut encore être amélioré. Il peut avoir du mal à simuler la physique d'une scène complexe et ne pas comprendre des cas particuliers de cause à effet (par exemple : un biscuit peut ne pas présenter de marque après qu'un personnage l'a mordu). Le modèle peut aussi confondre certaines indications spatiales incluses dans une invite, comme distinguer la gauche de la droite, ou avoir des difficultés avec des descriptions précises d’événements qui se déroulent dans le temps, comme des mouvements de caméra spécifiques.

Sécurité

Nous veillerons à appliquer plusieurs étapes de sécurité essentielles avant de déployer Sora dans les produits d’OpenAI. Nous travaillons avec des équipes rouges — des experts spécialisés dans des domaines tels que la désinformation, les contenus haineux et les préjugés — qui testeront le modèle de manière adversaire.

Nous développons également des outils pour détecter les contenus trompeurs, notamment un classificateur capable d’identifier quand une vidéo a été générée par Sora. Nous prévoyons d'inclure les métadonnées C2PA(s'ouvre dans une nouvelle fenêtre) à l'avenir si nous déployons le modèle dans un produit OpenAI.

En plus de développer de nouvelles techniques pour préparer le déploiement, nous utilisons les méthodes de sécurité existantes(s'ouvre dans une nouvelle fenêtre) que nous avons mises en place pour nos produits utilisant DALL·E 3, qui s'appliquent également à Sora.

Par exemple, une fois intégré à un produit OpenAI, notre classificateur de texte vérifiera et rejettera les invites de saisie de texte qui enfreignent nos politiques d'utilisation, telles que celles qui font appel à la violence extrême, au contenu à caractère sexuel, aux images haineuses, à l'image de célébrités ou à la propriété intellectuelle d'autrui. Nous avons aussi mis au point des classificateurs d’images performants qui analysent chaque image de toutes les vidéos générées afin de garantir leur conformité avec nos politiques d’utilisation, avant qu’elles ne soient affichées à l’utilisateur.

Nous collaborerons avec des acteurs clés tels que les législateurs, enseignants et artistes du monde entier afin de comprendre leurs préoccupations et de définir des usages constructifs pour cette nouvelle technologie. Malgré une recherche approfondie et de nombreux tests, il nous est impossible d’anticiper toutes les façons dont notre technologie sera utilisée à bon escient ou détournée. C’est pourquoi nous croyons que l’apprentissage à partir de situations concrètes est un élément essentiel pour créer et diffuser, au fil du temps, des systèmes d’IA de plus en plus sécurisés.

Research techniques

Sora est un modèle de diffusion capable de générer une vidéo à partir d’un bruit statique initial, qu’il affine peu à peu en éliminant le bruit sur plusieurs étapes.

Sora peut générer une vidéo entière en une fois, ou bien prolonger une vidéo générée pour en augmenter la durée. En donnant au modèle la capacité d’anticiper plusieurs images en même temps, nous avons résolu un problème complexe : celui de garantir qu’un sujet reste le même, même lorsqu’il sort temporairement du champ de vision.

Tout comme les modèles GPT, Sora utilise une architecture de type transformateur, ce qui lui permet d'offrir des performances de mise à l'échelle supérieures.

Les vidéos et images sont décomposées en petites unités de données, nommées patches, qui jouent un rôle similaire aux jetons dans GPT. En unifiant la manière dont nous représentons les données, nous pouvons entraîner des transformateurs de diffusion sur une gamme plus large de données visuelles qu’auparavant, couvrant différentes durées, résolutions et formats.

Sora s’appuie sur les recherches concernant les modèles DALL·E et GPT. Il utilise la technique de recaptage de DALL·E 3, qui consiste à générer des sous-titres hautement descriptifs pour les données de formation visuelles. Par conséquent, le modèle reproduit avec davantage de précision les instructions textuelles de l’utilisateur dans la vidéo générée.

Le modèle peut non seulement générer une vidéo à partir de simples instructions textuelles, mais aussi prendre une image statique existante et en créer une vidéo, en animant fidèlement les éléments de l’image avec précision et une grande attention aux moindres détails. Le modèle peut également prendre une vidéo existante et l'étendre ou compléter les images manquantes. Pour en savoir plus, consultez notre rapport technique.

Sora pose les bases de modèles capables de comprendre et de simuler le monde réel, une capacité que nous considérons comme une étape importante vers la réalisation de l’AGI.

Chargement en cours…