Passer au contenu principal
OpenAI

Création de vidéo à partir de texte

Toutes les vidéos de cette page ont été générées directement par Sora, sans aucune retouche.

Chargement...

Nous entraînons l’IA à comprendre le monde physique en mouvement et à le simuler dans le but de créer des modèles utiles pour traiter des situations concrètes.

Découvrez Sora, notre modèle de génération vidéo à partir de texte. Sora est capable de générer des vidéos d’une minute maximum, avec un rendu visuel soigné et fidèle au prompt de l’utilisateur.

Les équipes rouges ont désormais accès à Sora afin d’évaluer les points sensibles à fort potentiel de risques ou de dangers. Nous ouvrons aussi cet accès à plusieurs artistes visuels, designers et réalisateurs afin de recueillir leurs commentaires pour faire progresser le modèle et le rendre plus utile aux professionnels de la création artistique.

Nous partageons dès maintenant l’avancée de nos recherches afin de collaborer avec des intervenants externes à OpenAI, recueillir leurs commentaires et permettre au public de se faire une idée des prochaines capacités de l’IA.

Sora est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis sur le sujet comme sur l’arrière-plan. Le modèle saisit à la fois la demande de l’utilisateur et la manière dont les éléments évoqués s’inscrivent dans le monde réel.

Grâce à sa maîtrise fine du langage, le modèle interprète avec justesse les prompts et génère des personnages expressifs aux émotions intenses. Sora peut aussi créer plusieurs plans dans une même vidéo générée, en conservant fidèlement les personnages et le style visuel.

Le modèle actuel peut encore être amélioré. Il peut avoir du mal à simuler la physique d’une scène complexe et à comprendre certains enchaînements de causes et d’effets (par exemple, un cookie croqué pourrait rester intact visuellement). Il peut aussi confondre certaines indications spatiales du prompt, telles que la gauche et la droite, ou rencontrer des difficultés avec des descriptions temporelles complexes, notamment des mouvements de caméra.

Safety

Nous veillerons à appliquer plusieurs étapes de sécurité essentielles avant de déployer Sora dans les produits d’OpenAI. Des professionnels spécialisés dans la lutte contre la désinformation, les contenus haineux et les préjugés effectuent des tests rigoureux et adverses du modèle à nos côtés sous la forme d’équipes rouges.

Nous développons également des outils pour détecter les contenus trompeurs, notamment un classificateur capable d’identifier quand une vidéo a été générée par Sora. Si le modèle est déployé dans un produit OpenAI, nous prévoyons d’y inclure les métadonnées C2PA(ouverture dans une nouvelle fenêtre).

Parallèlement au développement de nouvelles approches pour préparer le déploiement, nous nous appuyons sur les méthodes de sécurité actuellement appliquées(ouverture dans une nouvelle fenêtre) aux produits basés sur DALL·E 3, également applicables à Sora.

Par exemple, dès que le modèle sera intégré à un produit OpenAI, notre classificateur de texte analysera les prompts et rejettera ceux qui enfreignent nos règles d’utilisation en demandant notamment des scènes de violence extrême, des contenus sexuels, des images haineuses, des ressemblances avec des célébrités ou des droits de propriété intellectuelle. Nous avons aussi mis au point des classificateurs d’images performants qui analysent chaque image de toutes les vidéos générées afin de garantir leur conformité avec nos politiques d'utilisation, avant qu’elles ne soient affichées à l’utilisateur.

Nous collaborerons avec des acteurs clés tels que les législateurs, enseignants et artistes du monde entier afin de comprendre leurs préoccupations et de définir des usages constructifs pour cette nouvelle technologie. Malgré une recherche approfondie et de nombreux tests, il nous est impossible d’anticiper toutes les façons dont notre technologie sera utilisée à bon escient ou détournée. C’est pourquoi nous estimons que l’apprentissage à partir de situations concrètes est essentiel pour améliorer progressivement la sécurité des systèmes d’IA.

Méthodes de recherche

Sora est un modèle de diffusion capable de générer une vidéo à partir d’un bruit statique initial, qu’il affine peu à peu en éliminant le bruit sur plusieurs étapes.

Sora peut générer une vidéo entière en une fois, ou bien prolonger une vidéo existante pour en augmenter la durée. Le modèle peut maintenant anticiper plusieurs images en même temps, ce qui permet de conserver un sujet stable, même s’il disparaît un instant.

À l’image des modèles GPT, Sora repose sur une architecture Transformeur, qui garantit des performances évolutives supérieures.

Les vidéos et images sont décomposées en petites unités de données, nommées patches, qui jouent un rôle similaire aux jetons dans GPT. En unifiant la représentation des données, nous pouvons entraîner des transformateur de diffusion sur une diversité de données visuelles plus large qu’auparavant, intégrant différentes durées, résolutions et formats.

Sora s’appuie sur les recherches concernant les modèles DALL·E et GPT. Cette approche fait appel au recaptioning de DALL·E 3, qui consiste à générer des légendes particulièrement descriptives pour les données visuelles d’entraînement. Par conséquent, le modèle reproduit avec davantage de précision les instructions textuelles de l’utilisateur dans la vidéo générée.

Le modèle peut non seulement générer une vidéo à partir de simples instructions textuelles, mais aussi transformer une image statique en vidéo, en animant fidèlement les éléments de l’image, avec une grande attention aux détails. Il est aussi capable de prolonger une vidéo existante ou d’ajouter les images intermédiaires manquantes. Consultez notre rapport technique pour en savoir plus.

Sora pose les bases de modèles capables de comprendre le monde réel et de le simuler, un tournant majeur pour l’AGI.

Chargement en cours...