Zum Hauptinhalt springen
OpenAI

Ein Video anhand von Text erstellen

Alle Videos auf dieser Seite wurden direkt von Sora generiert, ohne Änderung.

Laden …

Wir bringen der KI bei, die physische Welt in Bewegung zu verstehen und zu simulieren, mit dem Ziel, Modelle zu trainieren, die Menschen bei der Lösung von Problemen zu unterstützen, für die eine praxisbezogene Interaktion erforderlich ist.

Wir präsentieren Sora, unser Text-zu-Video-Modell. Sora kann bis zu einer Minute lange Videos generieren, die von hoher visueller Qualität sind und sich an den Prompt des Benutzers halten.

Sora ist aktuell für das Red Team verfügbar, um kritische Bereiche auf Schäden oder Risiken zu prüfen. Zudem gewähren wir einer Reihe von bildenden Künstlern, Designern und Filmemachern Zugriff, um Feedback darüber einzuholen, wie das Modell weiterentwickelt werden kann, damit es für Kreativprofis am hilfreichsten ist.

Wir geben unsere Forschungsfortschritte frühzeitig bekannt, um mit Personen außerhalb von OpenAI zusammenzuarbeiten und Feedback von ihnen einzuholen und der Öffentlichkeit einen Eindruck davon zu vermitteln, welche KI-Funktionen sie künftig erwarten können.

Sora kann komplexe Szenen mit mehreren Charakteren, bestimmte Bewegungsabläufe und Motive und Hintergründe mit genauen Details generieren. Das Modell versteht nicht nur, wonach der Benutzer im Prompt gefragt hat, sondern auch, wie diese Dinge in der physischen Welt existieren.

Das Modell weist ein tiefes Sprachverständnis auf, das es ihm ermöglicht, Prompts genau zu interpretieren und überzeugende Charaktere zu generieren, die lebendige Emotionen ausdrücken. Sora kann außerdem mehrere Aufnahmen innerhalb eines einzelnen generierten Videos erstellen, die sowohl die Charaktere als auch den visuellen Stil präzise beibehalten.

Beim aktuellen Modell besteht noch Verbesserungspotenzial. Es könnte Schwierigkeiten haben, die Physik einer komplexen Szene zu simulieren, oder bestimmte Abläufe von Ursache und Wirkung nicht verstehen (Beispiel: Ein Keks weist möglicherweise keine Spuren auf, nachdem eine Figur hineingebissen hat). Das Modell kann auch räumliche Details eines Prompts verwechseln, etwa die Unterscheidung zwischen links und rechts, oder Ereignisse, die sich im Laufe der Zeit entfalten, etwa bestimmte Kamerabewegungsbahnen, nicht präzise wiedergeben.

Sicherheit

Wir werden mehrere wichtige Sicherheitsmaßnahmen ergreifen, bevor wir Sora in den Produkten von OpenAI verfügbar machen. In Zusammenarbeit mit Red Team-Mitgliedern – Fachexperten auf Gebieten wie Fehlinformationen, hasserfüllte Inhalte und Voreingenommenheit – werden wir das Modell einem kontroversen Test unterziehen.

Wir entwickeln außerdem Tools zur Erkennung irreführender Inhalte, beispielsweise einen Erkennungsklassifizierer, der erkennen kann, wann ein Video von Sora generiert wurde. Wir planen, in Zukunft C2PA-Metadaten(wird in einem neuen Fenster geöffnet) aufzunehmen, wenn wir das Modell in einem OpenAI-Produkt bereitstellen.

Zusätzlich zur Entwicklung neuer Techniken zur Vorbereitung auf die Bereitstellung nutzen wir die bestehenden Sicherheitsmethoden(wird in einem neuen Fenster geöffnet), die wir für unsere Produkte entwickelt haben, die DALL·E 3 verwenden, und die auch auf Sora anwendbar sind.

Unser Textklassifizierer wird z. B. innerhalb eines OpenAI-Produkts Text-Prompts prüfen und alle ablehnen, die gegen unsere Nutzungsrichtlinien verstoßen, etwa solche, die extreme Gewalt, sexuelle Inhalte, hasserfüllte Bilder, Ähnlichkeiten mit Prominenten oder das geistige Eigentum anderer beinhalten. Wir haben zudem robuste Bildklassifizierer entwickelt, mit denen die Einzelbilder jedes generierten Videos überprüft werden, um sicherzustellen, dass es unseren Nutzungsrichtlinien entspricht, bevor es dem Benutzer angezeigt wird.

Wir werden mit politischen Entscheidungsträgern, Pädagogen und Künstlern auf der ganzen Welt zusammenarbeiten, um ihre Anliegen zu verstehen und positive Anwendungsfälle für diese neue Technologie zu identifizieren. Trotz gründlicher Forschung und Tests können wir weder alle vorteilhaften Einsatzmöglichkeiten unserer Technologie noch alle potenziellen Missbrauchsmöglichkeiten vorhersagen. Deshalb glauben wir, dass das Lernen aus praxisbezogener Anwendung ein entscheidender Faktor für die Entwicklung und Veröffentlichung immer sichererer KI-Systeme ist.

Recherchemethoden

Sora ist ein Diffusionsmodell, das ein Video generiert, indem es mit einem Video beginnt, das wie statisches Rauschen aussieht, und dieses nach und nach umwandelt, indem es das Rauschen in vielen Schritten entfernt.

Sora kann ganze Videos auf einmal generieren oder generierte Videos erweitern, um sie verlängern. Indem wir dem Modell die Vorausschau auf viele Einzelbilder gleichzeitig ermöglichen, haben wir das komplexe Problem gelöst, sicherzustellen, dass ein Motiv auch dann unverändert bleibt, wenn es kurzzeitig aus dem Blickfeld verschwindet.

Ähnlich wie GPT‑Modelle verwendet Sora eine Transformatorarchitektur, die eine überlegene Skalierungsleistung ermöglicht.

Wir stellen Videos und Bilder als Sammlungen kleinerer Dateneinheiten dar, die als Patches bezeichnet werden und jeweils einem Token in GPT ähneln. Durch die Vereinheitlichung der Datendarstellung können wir Diffusionstransformatoren anhand einer größeren Bandbreite visueller Daten trainieren als bisher – mit unterschiedlichen Dauern, Auflösungen und Seitenverhältnissen.

Sora baut auf früherer Forschung zu DALL·E- und GPT‑Modellen auf. Dabei wird die Neubeschriftungstechnik von DALL·E 3 verwendet, bei der aussagekräftige Beschriftungen für die visuellen Trainingsdaten generiert werden. So kann das Modell die Textanweisungen des Benutzers im generierten Video genauer befolgen.

Das Modell kann nicht nur ein Video ausschließlich aus Textanweisungen erstellen, sondern auch aus einem vorhandenen Standbild ein Video generieren und dabei den Bildinhalt präzise und mit viel Detailliebe animieren. Das Modell kann auch ein vorhandenes Video erweitern oder fehlende Frames ergänzen. In unserem technischen Bericht kannst du mehr erfahren.

Sora dient als Grundlage für Modelle, die die reale Welt verstehen und simulieren können. Wir glauben fest daran, dass diese Fähigkeit ein wichtiger Meilenstein auf dem Weg zur Verwirklichung der AGI ist.

Wird geladen …