Ein Video anhand von Text erstellen

Technischen Bericht lesen Jetzt loslegen

Alle Videos auf dieser Seite wurden direkt von Sora generiert, ohne Änderung.

Laden …

Wir bringen der KI bei, die physische Welt in Bewegung zu verstehen und zu simulieren, mit dem Ziel, Modelle zu trainieren, die Menschen bei der Lösung von Problemen zu unterstützen, für die eine praxisbezogene Interaktion erforderlich ist.

Wir präsentieren Sora, unser Text-zu-Video-Modell. Sora kann bis zu einer Minute lange Videos generieren, die von hoher visueller Qualität sind und sich an den Prompt des Benutzers halten.

Prompt: Eine stilvolle Frau geht eine Straße in Tokio entlang, die von warm leuchtenden Neonlichtern und animierten Stadtschildern gesäumt ist. Sie trägt eine schwarze Lederjacke, ein langes rotes Kleid, schwarze Stiefel und eine schwarze Handtasche. Sie trägt eine Sonnenbrille und roten Lippenstift. Ihr Gang ist locker und selbstbewusst. Die Straße ist feucht und reflektiert die bunten Stadtlichter. Es sind viele Fußgänger unterwegs.

Prompt: Mehrere riesige pelzige Mammuts nähern sich stapfend über eine verschneite Landschaft, ihr langes, wolliges Fell weht leicht im Wind. In der Ferne sind schneebedeckte Bäume und dramatische schneebedeckte Berge zu sehen. Das Nachmittagslicht mit schmalen Wolken und einer hoch stehenden Sonne erzeugt einen warmen Schein. Die tiefe Kameraperspektive fängt das große, pelzige Säugetier mit wunderschöner Fotografie und Tiefenschärfe ein.

Prompt: Ein Filmtrailer über die Abenteuer eines 30-jährigen Weltraumbewohners mit einem roten Motorradhelm aus Wollstrick vor blauem Himmel in einer Salzwüste. Im Kinostil, gedreht auf 35-mm-Film, lebendige Farben.

Prompt: Drohnenansicht von Wellen, die gegen die schroffen Felsen am Garay Point Beach von Big Sur schlagen. Das brechende blaue Wasser erzeugt weiße Wellen, während das goldene Licht der untergehenden Sonne die felsige Küste erhellt. Eine kleine Insel mit einem Leuchtturm in der Ferne. Der Klippenrand ist von grünem Gebüsch bedeckt. Der steile Abhang von der Straße hinunter zum Strand und der über das Meer hinausragende Klippenrand wirken dramatisch. Diese Ansicht fängt die raue Schönheit der Küste und die zerklüftete Landschaft des Pacific Coast Highway ein.

Prompt: Animierte Nahaufnahme eines animierten kleinen Fellmonsters, das neben einer schmelzenden roten Kerze kniet. Der Kunststil ist dreidimensional und realistisch, mit Schwerpunkt auf Licht und Textur. Die Stimmung der Animation ist von Staunen und Neugier geprägt, während das Monster mit großen Augen und offenem Mund in die Flamme blickt. Seine Pose und sein Ausdruck vermitteln ein Gefühl von Unschuld und Verspieltheit, als würde es die Welt um sich herum zum ersten Mal entdecken. Der Einsatz warmer Farben und dramatischer Beleuchtung verstärkt die gemütliche Atmosphäre des Bildes noch weiter.

Prompt: Wunderschöne Wiedergabe einer Papierwelt mit Korallenriffs voller bunter Fische und Meerestiere.

Prompt: Diese Nahaufnahme einer Krontaube zeigt ihr eindrucksvolles blaues Gefieder und ihre rote Brust. Ihren Kamm zieren zarte, spitzenähnliche Federn und ihr Auge hat eine auffallende rote Farbe. Der Kopf des Vogels ist leicht zur Seite geneigt, was ihn majestätisch wirken lässt. Der Hintergrund ist unscharf, um die Aufmerksamkeit auf das markante Erscheinungsbild des Vogels zu lenken.

Prompt: Fotorealistische Nahaufnahme von zwei Piratenschiffen, die in einer Tasse Kaffee umhersegeln und gegeneinander kämpfen.

Prompt: Ein junger Mann in seinen Zwanzigern sitzt auf einer Wolke am Himmel und liest ein Buch.

Sora ist aktuell für das Red Team verfügbar, um kritische Bereiche auf Schäden oder Risiken zu prüfen. Zudem gewähren wir einer Reihe von bildenden Künstlern, Designern und Filmemachern Zugriff, um Feedback darüber einzuholen, wie das Modell weiterentwickelt werden kann, damit es für Kreativprofis am hilfreichsten ist.

Wir geben unsere Forschungsfortschritte frühzeitig bekannt, um mit Personen außerhalb von OpenAI zusammenzuarbeiten und Feedback von ihnen einzuholen und der Öffentlichkeit einen Eindruck davon zu vermitteln, welche KI-Funktionen sie künftig erwarten können.

Prompt: Historische Aufnahmen von Kalifornien während des Goldrauschs.

Prompt: Nahaufnahme einer Glaskugel, in der ein kleiner Zen-Garten zu sehen ist. Ein winziger Zwerg in der Kugel harkt den Zen-Garten und zeichnet Muster in den Sand.

Prompt: Extreme Nahaufnahme des blinzelnden Auges einer 24-jährigen Frau, die während der goldenen Stunde in Marrakesch steht. Kinoaufnahme in 70 mm gedreht, Tiefenschärfe, lebendige Farben, filmisch

Prompt: Ein animiertes Känguru tanzt Disco.

Prompt: Ein wunderschönes selbstgedrehtes Video von Menschen in Lagos, Nigeria im Jahr 2056. Mit einer Smartphone-Kamera aufgenommen.

Prompt: Eine Petrischale, in der ein Bambuswald wächst, in dem winzige rote Pandas herumlaufen.

Prompt: Die Kamera rotiert um einen großen Stapel Vintage-Fernseher, auf denen verschiedene Programme laufen – Science-Fiction-Filme aus den 50er-Jahren, Horrorfilme, Nachrichten, Rauschen, eine Sitcom aus den 70ern usw. – vor dem Hintergrund einer großen New Yorker Museumsgalerie.

Prompt: 3D-Animation eines kleinen, runden, flauschigen Wesens mit großen, ausdrucksstarken Augen, das einen lebendigen Zauberwald erkundet. Das kleine Geschöpf, eine skurrile Mischung aus Kaninchen und Eichhörnchen, hat weiches blaues Fell und einen buschigen, gestreiften Schwanz. Es hüpft mit vor Staunen weit aufgerissenen Augen einen schillernden Bach entlang. Der Wald ist voller magischer Elemente: leuchtende Blumen, die ihre Farbe ändern, Bäume mit Blättern in Lila- und Silbertönen und kleine schwebende Lichter, die an Glühwürmchen erinnern. Das Geschöpf macht Halt, um spielerisch mit einer Gruppe winziger, feenhafter Wesen zu interagieren, die auf einem runden Pilz umhertanzen. Das Wesen schaut ehrfürchtig zu einem großen, leuchtenden Baum empor, der das Herz des Waldes zu sein scheint.

Sora kann komplexe Szenen mit mehreren Charakteren, bestimmte Bewegungsabläufe und Motive und Hintergründe mit genauen Details generieren. Das Modell versteht nicht nur, wonach der Benutzer im Prompt gefragt hat, sondern auch, wie diese Dinge in der physischen Welt existieren.

Prompt: Die Kamera folgt einem weißen Vintage-SUV mit schwarzem Dachgepäckträger, der mit hoher Geschwindigkeit eine steile, von Kiefern gesäumte Schotterstraße an einem steilen Berghang hinaufrast. Die Reifen wirbeln Staub auf, das Sonnenlicht scheint auf den fahrenden SUV und taucht die Szene in ein warmes Licht. Die Schotterstraße schlängelt sich sanft in die Ferne und es sind keine anderen Fahrzeuge in Sicht. Auf beiden Seiten der Straße sind Redwood-Bäume, deren Grün die Szenerie prägt. Das Auto ist von hinten zu sehen, wie es stetigen Kurven folgt und so den Eindruck erweckt, als befände es sich auf einer holprigen Fahrt durch das unwegsame Gelände. Die Schotterstraße selbst ist von steilen Hügeln und Bergen umgeben, oben erstreckt sich ein klarer blauer Himmel mit Wolkenfetzen.

Prompt: Reflexionen im Fenster eines Zuges, der durch die Vororte von Tokio fährt.

Prompt: Eine Drohnenkamera kreist um eine wunderschöne historische Kirche, die auf einem Felsvorsprung an der Amalfiküste errichtet wurde. Die Aussicht zeigt prachtvolle historische Baudetails sowie abgestufte Gehwege und Terrassen. Unterhalb sieht man aufschlagenden Wellen, während der Blick über den Horizont der Küstengewässer und die Hügellandschaft der italienischen Amalfiküste schweift. In der Ferne sind mehrere Menschen zu erkennen, die über die Terrassen spazieren und die Aussicht auf das dramatische Meer genießen. Das warme Licht der Nachmittagssonne verleiht der Szene eine magische und romantische Atmosphäre. Die Aussicht ist atemberaubend und wurde in wunderschönen Aufnahmen eingefangen.

Prompt: Auf dem Meeresboden ruht ein großer orangefarbener Oktopus, der sich harmonisch in das sandige und felsige Gelände einfügt. Seine Tentakeln sind um seinen Körper ausgebreitet und seine Augen sind geschlossen. Der Oktopus bemerkt nicht, wie eine Königskrabbe mit erhobenen Scheren angriffsbereit hinter einem Felsen auf ihn zukrabbelt. Die Krabbe ist braun und stachelig mit langen Beinen und Fühlern. Die Szene wurde aus einem Weitwinkel eingefangen und zeigt die Weite und Tiefe des Ozeans. Das Wasser ist klar und blau und Sonnenstrahlen dringen hindurch. Die Aufnahme ist scharf und klar, mit hohem Dynamikumfang. Der Fokus ist auf den Oktopus und die Krabbe gerichtet, während der Hintergrund leicht unscharf ist, wodurch ein Tiefenschärfeeffekt entsteht.

Prompt: Ein Schwarm Papierflieger flattert wie Zugvögel durch einen dichten Dschungel und schlängelt sich um Bäume.

Prompt: Eine Katze weckt ihre schlafende Besitzerin und verlangt nach ihrem Frühstück. Die Besitzerin versucht, die Katze zu ignorieren, doch die Katze gibt nicht auf, bis die Besitzerin schließlich einen geheimen Vorrat an Leckereien unter dem Kissen hervorholt, um die Katze noch ein wenig länger hinzuhalten.

Prompt: Tierwelt in Borneo am Kinabatangan-Fluss

Prompt: Ein Video zur Feier des chinesischen Neujahrsfestes mit chinesischem Drachen.

Das Modell weist ein tiefes Sprachverständnis auf, das es ihm ermöglicht, Prompts genau zu interpretieren und überzeugende Charaktere zu generieren, die lebendige Emotionen ausdrücken. Sora kann außerdem mehrere Aufnahmen innerhalb eines einzelnen generierten Videos erstellen, die sowohl die Charaktere als auch den visuellen Stil präzise beibehalten.

Prompt: Rundgang durch eine Kunstgalerie mit vielen eindrucksvollen Werken in verschiedenen Stilen.

Prompt: Im traumhaft verschneiten Tokio herrscht geschäftiges Treiben. Die Kamera bewegt sich durch die belebte Straße und folgt mehreren Menschen, die das schöne Schneewetter genießen und an verschiedenen Marktständen einkaufen. Wunderschöne Sakura-Blütenblätter flattern zusammen mit Schneeflocken durch den Wind.

Prompt: Stop-Motion-Animation einer Blume, die auf dem Fensterbrett eines Vorstadthauses wächst.

Prompt: Die Lebensgeschichte eines Roboters in einer Cyberpunk-Umgebung.

Prompt: Extreme Nahaufnahme eines etwa 60-jährigen, grauhaarigen Mannes mit Bart. Tief in Gedanken versunken sinniert er über die Geschichte des Universums, während er in einem Café in Paris sitzt. Sein Blick ist auf Menschen außerhalb des Bildes gerichtet, die gehen, während er selbst fast bewegungslos dasitzt. Er trägt einen Wollmantel und ein Hemd mit Knöpfen, eine braune Baskenmütze und eine Brille. Sein Äußeres wirkt sehr professionell. Am Ende lächelt er kaum merklich mit geschlossenen Lippen, als hätte er die Antwort auf das Geheimnis des Lebens entdeckt. Die Beleuchtung mit dem goldenen Licht, den Pariser Straßen und der Stadt im Hintergrund wirkt filmisch. Tiefenschärfe, 35-mm-Film.

Prompt: Eine wunderschöne Silhouettenanimation zeigt einen einsamen Wolf, der den Mond anheult um sein Rudel zu finden.

Prompt: New York City unter Wasser, wie Atlantis. Fische, Wale, Meeresschildkröten und Haie schwimmen durch die Straßen New Yorks.

Prompt: Eine Gruppe von Golden Retriever-Welpen spielt im Schnee. Ihre Köpfe ragen aus dem Schnee, von dem sie bedeckt sind.

Beim aktuellen Modell besteht noch Verbesserungspotenzial. Es könnte Schwierigkeiten haben, die Physik einer komplexen Szene zu simulieren, oder bestimmte Abläufe von Ursache und Wirkung nicht verstehen (Beispiel: Ein Keks weist möglicherweise keine Spuren auf, nachdem eine Figur hineingebissen hat). Das Modell kann auch räumliche Details eines Prompts verwechseln, etwa die Unterscheidung zwischen links und rechts, oder Ereignisse, die sich im Laufe der Zeit entfalten, etwa bestimmte Kamerabewegungsbahnen, nicht präzise wiedergeben.

Prompt: Person läuft auf einem Laufband, Kinofilm im 35-mm-Format.

Schwäche: Sora erzeugt zuweilen physikalisch unglaubwürdige Bewegungen.

Prompt: Fünf graue Wolfsjungen toben umher und jagen einander auf einer abgelegenen Schotterstraße, umgeben von Gras. Die Welpen rennen und springen, jagen und zwicken einander beim Spielen.

Schwäche: Tiere oder Menschen können spontan erscheinen, insbesondere in Szenen mit vielen Entitäten.

Prompt: Basketball geht durch den Korb und explodiert dann.

Schwäche: Ein Beispiel für unpräzise physikalische Modellierung und unnatürliches „Morphing“ von Objekten.

Prompt: Archäologen entdecken in der Wüste einen einfachen Plastikstuhl, heben ihn mit großer Sorgfalt aus und stauben ihn ab.

Schwäche: In diesem Beispiel schafft es Sora nicht, den Stuhl als starres Objekt zu modellieren, was zu ungenauen physikalischen Interaktionen führt.

Prompt: Eine Großmutter mit ordentlich gekämmten grauen Haaren steht hinter einer bunten Geburtstagstorte mit vielen Kerzen an einem hölzernen Esstisch. Ihr Gesichtsausdruck strahlt Freude und Glück aus und ihren Augen leuchten überglücklich. Sie lehnt sich vor und bläst die Kerzen mit einem sanften Pusten aus. Der Kuchen ist mit rosa Zuckerguss und Streuseln überzogen und die Kerzen hören auf zu flackern. Die Großmutter trägt eine hellblaue Bluse mit Blumenmuster, unscharf im Hintergrund sieht man mehrere glückliche Freunde und Familienmitglieder beim Feiern am Tisch. Die Szene ist wunderschön und filmisch eingefangen und zeigt eine 3/4-Ansicht der Großmutter und des Esszimmers. Warme Farbtöne sanftes Licht sorgen für eine angenehme Stimmung.

Schwäche: Die Simulation komplexer Interaktionen zwischen Objekten und mehreren Charakteren stellt das Modell oft vor Herausforderungen und führt manchmal zu ungewollt komischen Generationen.

Sicherheit

Wir werden mehrere wichtige Sicherheitsmaßnahmen ergreifen, bevor wir Sora in den Produkten von OpenAI verfügbar machen. In Zusammenarbeit mit Red Team-Mitgliedern – Fachexperten auf Gebieten wie Fehlinformationen, hasserfüllte Inhalte und Voreingenommenheit – werden wir das Modell einem kontroversen Test unterziehen.

Wir entwickeln außerdem Tools zur Erkennung irreführender Inhalte, beispielsweise einen Erkennungsklassifizierer, der erkennen kann, wann ein Video von Sora generiert wurde. Wir planen, in Zukunft C2PA-Metadaten⁠(wird in einem neuen Fenster geöffnet) aufzunehmen, wenn wir das Modell in einem OpenAI-Produkt bereitstellen.

Zusätzlich zur Entwicklung neuer Techniken zur Vorbereitung auf die Bereitstellung nutzen wir die bestehenden Sicherheitsmethoden⁠(wird in einem neuen Fenster geöffnet), die wir für unsere Produkte entwickelt haben, die DALL·E 3 verwenden, und die auch auf Sora anwendbar sind.

Unser Textklassifizierer wird z. B. innerhalb eines OpenAI-Produkts Text-Prompts prüfen und alle ablehnen, die gegen unsere Nutzungsrichtlinien verstoßen, etwa solche, die extreme Gewalt, sexuelle Inhalte, hasserfüllte Bilder, Ähnlichkeiten mit Prominenten oder das geistige Eigentum anderer beinhalten. Wir haben zudem robuste Bildklassifizierer entwickelt, mit denen die Einzelbilder jedes generierten Videos überprüft werden, um sicherzustellen, dass es unseren Nutzungsrichtlinien entspricht, bevor es dem Benutzer angezeigt wird.

Wir werden mit politischen Entscheidungsträgern, Pädagogen und Künstlern auf der ganzen Welt zusammenarbeiten, um ihre Anliegen zu verstehen und positive Anwendungsfälle für diese neue Technologie zu identifizieren. Trotz gründlicher Forschung und Tests können wir weder alle vorteilhaften Einsatzmöglichkeiten unserer Technologie noch alle potenziellen Missbrauchsmöglichkeiten vorhersagen. Deshalb glauben wir, dass das Lernen aus praxisbezogener Anwendung ein entscheidender Faktor für die Entwicklung und Veröffentlichung immer sichererer KI-Systeme ist.

Prompt: Die Kamera zeigt direkt auf farbenfrohe Gebäude im italienischen Burano. Ein süßer Dalmatiner schaut durch ein Fenster auf ein Gebäude im Erdgeschoss. Viele Menschen sind zu Fuß oder mit dem Fahrrad auf den Kanalstraßen vor den Gebäuden unterwegs.

Prompt: Ein entzückender, glücklicher Otter steht selbstbewusst mit einer gelben Schwimmweste bekleidet auf einem Surfbrett und reitet im digitalen 3D-Wiedergabestil durch türkisfarbenes Wasser in der Nähe üppiger tropischer Inseln.

Prompt: Diese Nahaufnahme eines Chamäleons zeigt seine eindrucksvollen Farbwechselfähigkeiten. Der Hintergrund ist unscharf, um die Aufmerksamkeit auf das markante Erscheinungsbild des Tiers zu lenken.

Prompt: Ein Corgi dreht im tropischen Maui einen Vlog über sich selbst.

Prompt: Eine weiß-orange getigerte Katze ist zu sehen, die fröhlich durch einen dichten Garten huscht, als würde sie nach etwas jagen. Die Augen weit aufgerissen blickt sie fröhlich umher, während sie vorwärts sprintet und dabei die Zweige, Blumen und Blätter absucht. Der Pfad ist schmal und schlängelt sich zwischen all den Pflanzen hindurch. Die Szene ist aus einer Perspektive in Bodenhöhe aufgenommen. Wir folgen der Katze, wodurch eine tiefe und intime Perspektive entsteht. Das Bild wirkt filmisch mit warmen Tönen und einer körnigen Textur. Das zwischen Blättern und Pflanzen durchscheinende Tageslicht erzeugt einen warmen Kontrast und betont das orangefarbene Fell der Katze. Die Aufnahme ist klar und scharf und weist eine geringe Tiefenschärfe auf.

Prompt: Luftaufnahme von Santorin während der blauen Stunde, die die atemberaubende Architektur der weißen Kykladengebäude mit blauen Kuppeln zeigt. Die Aussicht auf die Caldera ist atemberaubend und das Licht schafft eine wunderschöne, ruhige Atmosphäre.

Prompt: Tiltshift einer Baustelle voller Arbeiter, Ausrüstung und schwerer Maschinerie.

Prompt: Eine riesige, hoch aufragende Wolke in Gestalt eines Mannes ragt über der Erde. Der Wolkenmensch feuert Lichtblitze Richtung Erde.

Prompt: Ein Samojede und ein Golden Retriever tollen nachts spielerisch durch eine futuristische Neonstadt. Die Neonlichter der umliegenden Gebäude spiegelt sich in ihrem Fell.

Prompt: Das Glenfinnan-Viadukt ist eine historische Eisenbahnbrücke in Schottland. Sie verbindet die West Highland Line zwischen den Städten Mallaig und Fort William miteinander. Ein Dampfzug, der die Brücke verlässt und über das bogenüberdachte Viadukt fährt, bietet einen eindrucksvollen Anblick. Die Landschaft ist von üppigem Grün und felsigen Bergen übersät und bildet eine malerische Kulisse für eine Bahnreise. Der Himmel ist blau und die Sonne scheint – ein wunderschöner Tag, um diesen majestätischen Ort zu erkunden.

Recherchemethoden

Sora ist ein Diffusionsmodell, das ein Video generiert, indem es mit einem Video beginnt, das wie statisches Rauschen aussieht, und dieses nach und nach umwandelt, indem es das Rauschen in vielen Schritten entfernt.

Sora kann ganze Videos auf einmal generieren oder generierte Videos erweitern, um sie verlängern. Indem wir dem Modell die Vorausschau auf viele Einzelbilder gleichzeitig ermöglichen, haben wir das komplexe Problem gelöst, sicherzustellen, dass ein Motiv auch dann unverändert bleibt, wenn es kurzzeitig aus dem Blickfeld verschwindet.

Ähnlich wie GPT‑Modelle verwendet Sora eine Transformatorarchitektur, die eine überlegene Skalierungsleistung ermöglicht.

Wir stellen Videos und Bilder als Sammlungen kleinerer Dateneinheiten dar, die als Patches bezeichnet werden und jeweils einem Token in GPT ähneln. Durch die Vereinheitlichung der Datendarstellung können wir Diffusionstransformatoren anhand einer größeren Bandbreite visueller Daten trainieren als bisher – mit unterschiedlichen Dauern, Auflösungen und Seitenverhältnissen.

Sora baut auf früherer Forschung zu DALL·E- und GPT‑Modellen auf. Dabei wird die Neubeschriftungstechnik von DALL·E 3 verwendet, bei der aussagekräftige Beschriftungen für die visuellen Trainingsdaten generiert werden. So kann das Modell die Textanweisungen des Benutzers im generierten Video genauer befolgen.

Das Modell kann nicht nur ein Video ausschließlich aus Textanweisungen erstellen, sondern auch aus einem vorhandenen Standbild ein Video generieren und dabei den Bildinhalt präzise und mit viel Detailliebe animieren. Das Modell kann auch ein vorhandenes Video erweitern oder fehlende Frames ergänzen. In unserem technischen Bericht kannst du mehr erfahren⁠.

Sora dient als Grundlage für Modelle, die die reale Welt verstehen und simulieren können. Wir glauben fest daran, dass diese Fähigkeit ein wichtiger Meilenstein auf dem Weg zur Verwirklichung der AGI ist.

Wird geladen …