Przejdź do treści głównej
OpenAI

Wszystkie filmy na tej stronie zostały wygenerowane bezpośrednio przez Sora i nie były modyfikowane.

Ładowanie…

Uczymy SI rozumienia i symulowania ruchu świata fizycznego, mając na celu trenowanie modeli, które pomogą ludziom rozwiązywać problemy wymagające interakcji ze światem rzeczywistym.

Przedstawiamy Sora, nasz model zamiany tekstu na film. Sora może generować filmy o długości do minuty, zachowując przy tym odpowiednią jakość obrazu i dostosowując się do poleceń użytkownika.

Narzędzie Sora jest obecnie udostępniane członkom zespołów czerwonych w celu oceny obszarów krytycznych pod kątem zagrożeń lub potencjalnego ryzyka. Udzielamy również dostępu wielu artystom wizualnym, projektantom i filmowcom, aby uzyskać ich opinie na temat możliwych udoskonaleń modelu tak, aby stał się jak najbardziej przydatny dla profesjonalistów z branży kreatywnej.

Dzielimy się postępami naszych badań na wczesnym etapie, aby rozpocząć współpracę i zebrać opinie od osób spoza OpenAI, a także aby dać społeczeństwu wyobrażenie o tym, jakie możliwości SI są na horyzoncie.

Sora potrafi tworzyć złożone sceny z wieloma postaciami, określonymi typami ruchu i dokładnymi szczegółami obiektu i tła. Model ten nie tylko rozumie, o co użytkownik poprosił w poleceniu, ale także, w jaki sposób te rzeczy istnieją w świecie fizycznym.

Model ten charakteryzuje się głębokim zrozumieniem języka, co pozwala mu na dokładną interpretację poleceń i tworzenie fascynujących postaci, które wyrażają żywe emocje. Sora może również tworzyć wiele ujęć w ramach jednego wygenerowanego filmu, które wiernie oddają charakter postaci i styl wizualny.

Obecny model nadal wymaga ulepszeń. Może mieć trudności z symulowaniem fizyki złożonej sceny i może nie rozumieć konkretnych przypadków przyczynowo-skutkowych (na przykład: na ciastku może nie pozostać ślad po ugryzieniu go przez postać). Model może również mylić szczegóły przestrzenne zawarte w podpowiedzi, takie jak odróżnianie lewej od prawej strony, lub mieć trudności z dokładnym opisem zdarzeń, które rozwijają się w czasie, np. konkretnej trajektorii kamery.

Safety

Zanim udostępnimy Sora w produktach OpenAI, podejmiemy szereg istotnych kroków mających na celu zapewnienie bezpieczeństwa tego narzędzia. Współpracujemy z członkami „zespołu czerwonego” — ekspertami w takich dziedzinach, jak dezinformacja, nienawistne treści i stronniczość — którzy przeprowadzą antagonistyczne testy modelu.

Opracowujemy również narzędzia, które pomogą wykrywać wprowadzające w błąd treści, w tym dedykowany klasyfikator, który pozwala określić, kiedy dany film został wygenerowany przez Sora. W przyszłości planujemy uwzględnić metadane C2PA(otwiera nowe okno), jeśli wdrożymy model w produkcie OpenAI.

Oprócz opracowywania nowych technik przygotowawczych do wdrożenia, wykorzystujemy istniejące metody zapewnienia bezpieczeństwa(otwiera nowe okno), które opracowaliśmy dla naszych produktów wykorzystujących DALL·E 3 i które mają zastosowanie również w systemie Sora.

Przykładowo, po uruchomieniu produktu OpenAI nasz klasyfikator tekstu sprawdzi i odrzuci polecenia wprowadzenie tekstu, który narusza nasze zasady użytkowania, np. treści związane z przemocą, treści seksualne, obrazy nawołujące do nienawiści, podobizny znanych osób lub treści naruszające prawa własności intelektualnej innych osób. Opracowaliśmy również rozbudowane klasyfikatory obrazów, które służą do przeglądania klatek każdego wygenerowanego filmu, aby zapewnić, że jest on zgodny z naszą polityką użytkowania, zanim zostanie wyświetlony użytkownikowi.

Będziemy współpracować z decydentami, nauczycielami i artystami z całego świata, aby zrozumieć ich obawy i zidentyfikować pozytywne możliwości użycia tej nowej technologii. Mimo szeroko zakrojonych badań i testów nie jesteśmy w stanie przewidzieć wszystkich korzystnych sposobów, w jakie ludzie będą wykorzystywać naszą technologię, ani wszystkich przypadków, kiedy będą jej nadużywać. Dlatego uważamy, że w dłuższej perspektywie wyciąganie wniosków z praktycznych zastosowań jest kluczowym elementem tworzenia i wprowadzania na rynek coraz bezpieczniejszych systemów SI.

Techniki badawcze

Sora to model dyfuzyjny, który generuje wideo zaczynając od obrazu wyglądającego jak szum statyczny, a następnie stopniowo go przekształca, usuwając szum w toku licznych kolejnych kroków.

Sora potrafi generować całe filmy jednocześnie lub wydłużać wygenerowane filmy. Dając modelowi możliwość przewidywania wielu klatek jednocześnie, rozwiązaliśmy trudny problem związany z zapewnieniem, że obiekt pozostanie taki sam, nawet gdy na chwilę zniknie z pola widzenia.

Podobnie jak modele GPT, Sora wykorzystuje architekturę transformatorową, co zapewnia wyższą wydajność skalowania.

Filmy i obrazy przedstawiamy jako zbiory mniejszych jednostek danych zwanych łatkami, z których każda jest odpowiednikiem tokena w GPT. Dzięki ujednoliceniu sposobu reprezentacji danych możemy szkolić transformatory dyfuzyjne w szerszym zakresie danych wizualnych niż było to możliwe dotychczas, obejmującym różne czasy trwania, rozdzielczości i współczynniki proporcji.

Sora stanowi rozwinięcie wcześniejszych prac nad modelami DALL·E i GPT. Wykorzystuje technikę tworzenia napisów z DALL·E 3, która polega na generowaniu bardzo opisowych napisów do wizualnych danych treningowych. Dzięki temu model jest w stanie wierniej śledzić instrukcje tekstowe użytkownika zawarte w wygenerowanym filmie.

Oprócz możliwości generowania wideo wyłącznie w oparciu o instrukcje tekstowe, model ten potrafi także wziąć istniejący nieruchomy obraz i wygenerować na jego podstawie wideo, animując zawartość obrazu z dokładnością i dbałością o najmniejsze szczegóły. Model może także wziąć istniejący film i rozszerzyć go lub uzupełnić brakujące klatki. Dowiedz się więcej z naszego raportu technicznego.

Sora stanowi podstawę dla modeli, które są w stanie zrozumieć i symulować rzeczywisty świat. Uważamy, że ta zdolność będzie kamieniem milowym na drodze do stworzenia prawdziwie ogólnej sztucznej inteligencji (AGI).

Ładowanie…