Tworzenie filmu z tekstu

Przeczytaj raport techniczny Zacznij teraz

Wszystkie filmy na tej stronie zostały wygenerowane bezpośrednio przez Sora i nie były modyfikowane.

Ładowanie…

Uczymy SI rozumienia i symulowania ruchu świata fizycznego, mając na celu trenowanie modeli, które pomogą ludziom rozwiązywać problemy wymagające interakcji ze światem rzeczywistym.

Przedstawiamy Sora, nasz model zamiany tekstu na film. Sora może generować filmy o długości do minuty, zachowując przy tym odpowiednią jakość obrazu i dostosowując się do poleceń użytkownika.

Polecenie: Stylowa kobieta idzie ulicą Tokio, wypełnioną ciepłymi, świecącymi neonami i animowanymi szyldami miasta. Jest ubrana w czarną skórzaną kurtkę, długą czerwoną sukienkę i czarne buty, a w ręku trzyma czarną torebkę. Nosi okulary przeciwsłoneczne i czerwoną szminkę. Porusza się pewnie i swobodnie. Ulica jest wilgotna i odbija światło, co tworzy lustrzany efekt kolorowych świateł. W tle porusza się wielu pieszych.

Polecenie: Kilka gigantycznych mamutów włochatych zbliża się do nas, stąpając po zaśnieżonej łące. Ich długie, wełniste futro lekko powiewa na wietrze, gdy idą. W oddali widać pokryte śniegiem drzewa i dramatyczne, ośnieżone szczyty gór. Popołudniowe światło, strzępki chmur i słońce wysoko w oddali tworzą ciepłą poświatę. Niski kąt widzenia aparatu jest oszałamiający, obrazując tego dużego futrzastego ssaka na pięknych fotografiach z głębią ostrości.

Polecenie: Zwiastun filmu przedstawiający przygody 30-letniego kosmonauty w czerwonym, wełnianym kasku motocyklowym, na tle błękitnego nieba, na słonej pustyni, w kinowym stylu, nakręcony na taśmie 35 mm, w żywych kolorach.

Polecenie: Widok z drona na fale rozbijające się o skaliste klify wzdłuż plaży Garay Point w Big Sur. Rozbijająca się, błękitna woda tworzy fale o białych szczytach, podczas gdy złote światło zachodzącego słońca oświetla skalisty brzeg. W oddali widać małą wyspę z latarnią morską, a krawędź klifu porastają zielone krzewy. Strome zejście z drogi w dół, w kierunku plaży, to naprawdę imponujący widok, a krawędzie klifu wystają ponad morze. Widok ten uchwycił surowe piękno wybrzeża i surowy krajobraz Pacific Coast Highway.

Polecenie: Animowana scena przedstawia zbliżenie na niskiego, puszystego potwora klęczącego obok roztapiającej się czerwonej świecy. Artystyczny obraz jest trójwymiarowy i realistyczny, ze szczególnym uwzględnieniem oświetlenia i faktury. Nastrój obrazu wyraża zachwyt i ciekawość, potwór wpatruje się w płomień szeroko otwartymi oczami i z otwartymi ustami. Poza i wyraz twarzy postaci wyrażają niewinność i wesołość, jakby po raz pierwszy poznawała otaczający ją świat. Zastosowanie ciepłych barw i dramatycznego oświetlenia dodatkowo podkreśla przytulną atmosferę obrazu.

Polecenie: Przepięknie wykonany papierowy świat rafy koralowej pełen kolorowych ryb i stworzeń morskich.

Polecenie: Na tym zbliżeniu widać korońca plamoczubego, co pozwala uchwycić jego efektowne niebieskie upierzenie i czerwoną klatkę piersiową. Jego grzebień tworzą delikatne, koronkowe pióra, a oko ma wyrazisty czerwony kolor. Głowa ptaka jest lekko przechylona na bok, co sprawia, że wygląda on majestatycznie i królewsko. Tło jest rozmyte, co podkreśla wyrazisty wygląd ptaka.

Polecenie: Fotorealistyczne zbliżenie dwóch statków pirackich walczących ze sobą, płynących w filiżance kawy.

Polecenie: Młody mężczyzna w wieku 20 lat siedzi na chmurze na niebie i czyta książkę.

Narzędzie Sora jest obecnie udostępniane członkom zespołów czerwonych w celu oceny obszarów krytycznych pod kątem zagrożeń lub potencjalnego ryzyka. Udzielamy również dostępu wielu artystom wizualnym, projektantom i filmowcom, aby uzyskać ich opinie na temat możliwych udoskonaleń modelu tak, aby stał się jak najbardziej przydatny dla profesjonalistów z branży kreatywnej.

Dzielimy się postępami naszych badań na wczesnym etapie, aby rozpocząć współpracę i zebrać opinie od osób spoza OpenAI, a także aby dać społeczeństwu wyobrażenie o tym, jakie możliwości SI są na horyzoncie.

Polecenie: Historyczne materiały filmowe przedstawiające Kalifornię w okresie gorączki złota.

Polecenie: Zbliżenie na szklaną kulę, w której wnętrzu znajduje się ogród zen. W kuli znajduje się mały krasnoludek, który grabi ogród zen i tworzy wzory na piasku.

Polecenie: Ekstremalne zbliżenie mrugających oczu 24-letniej kobiety stojącej w Marrakeszu podczas magicznej godziny, film nakręcony na taśmie 70 mm, głębia ostrości, żywe kolory, filmowy styl

Polecenie: Kangur z kreskówki tańczy disco.

Polecenie: Piękny amatorski film pokazujący mieszkańców Lagos w Nigerii w roku 2056. Nakręcone kamerą w telefonie komórkowym.

Polecenie: Płytka Petriego z rosnącym w niej lasem bambusowym, po którym biegają małe pandy rude.

Polecenie: Kamera obraca się wokół dużego stosu starych telewizorów, z których każdy wyświetla inny program — filmy science fiction z lat 50., horrory, wiadomości, obrazy nieruchome, sitcomy z lat 70. itp., a całość rozgrywa się w dużej galerii nowojorskiego muzeum.

Polecenie: Animacja trójwymiarowa małego, okrągłego, puszystego stworzenia o dużych, wyrazistych oczach, które eksploruje tętniący życiem, zaczarowany las. To stworzenie, będące niezwykłym połączeniem królika i wiewiórki, ma miękkie, niebieskie futro i puszysty, pręgowany ogon. Skacze wzdłuż błyszczącego strumienia, a jego oczy są szeroko otwarte ze zdumienia. W lesie roi się od magicznych elementów: kwiatów, które świecą i zmieniają kolory, drzew o liściach w odcieniach fioletu i srebra oraz małych, unoszących się światełek przypominających świetliki. Stworzenie zatrzymuje się, by pobawić się z grupą małych, wróżkopodobnych istot tańczących wokół grzybowego pierścienia. Stworzenie z podziwem spogląda na wielkie, świecące drzewo, które wydaje się być sercem lasu.

Sora potrafi tworzyć złożone sceny z wieloma postaciami, określonymi typami ruchu i dokładnymi szczegółami obiektu i tła. Model ten nie tylko rozumie, o co użytkownik poprosił w poleceniu, ale także, w jaki sposób te rzeczy istnieją w świecie fizycznym.

Polecenie: Kamera podąża za białym, zabytkowym SUV-em z czarnym relingiem dachowym, który przyspiesza po stromej, gruntowej drodze otoczonej sosnami na stromym zboczu góry. Spod opon samochodu unosi się kurz, a promienie słoneczne świecą na SUV-a pędzącego po gruntowej drodze, rzucając ciepłą poświatę na całą scenę. Droga gruntowa łagodnie wije się w oddali. Nie widać żadnych innych samochodów ani pojazdów. Po obu stronach drogi rosną drzewa sekwoi, z rozrzuconymi wszędzie kępami zieleni. Samochód widziany od tyłu z łatwością pokonuje zakręt, co sprawia wrażenie, jakby jechał przez trudny teren. Sama droga gruntowa otoczona jest stromymi wzgórzami i górami, a nad nią rozpościera się czyste, błękitne niebo z delikatnymi chmurami.

Polecenie: Odbicia w oknie pociągu jadącego przez przedmieścia Tokio.

Polecenie: Kamera drona krąży wokół pięknego zabytkowego kościoła zbudowanego na skalistym występie wzdłuż wybrzeża Amalfi. Widok ukazuje historyczne i wspaniałe detale architektoniczne oraz wielopoziomowe ścieżki i patia. Widać fale rozbijające się o skały poniżej, a zza horyzontu widać przybrzeżne wody i pagórkowate krajobrazy wybrzeża Amalfi we Włoszech. W oddali widać kilka osób spacerujących i cieszących się widokami na patiach, podziwiających dramatyczne widoki oceanu. Ciepły blask popołudniowego słońca tworzy magiczny i romantyczny nastrój na scenie. Widok jest oszałamiający, uchwycony na pięknych fotografiach.w pięknym, fotograficznym stylu.

Polecenie: Duża pomarańczowa ośmiornica odpoczywa na dnie oceanu, wtapia się w piaszczysto-kamienisty teren. Jej macki są rozłożone wokół ciała, a oczy są zamknięte. Ośmiornica nie jest świadoma obecności kraba królewskiego, który zbliża się do niej zza skały, z podniesionymi szczypcami, gotowymi do ataku. Krab jest brązowy i kolczasty, ma długie nogi i czułki. Scenę uchwycono z szerokiego kąta, ukazując ogrom i głębokość oceanu. Woda jest przejrzysta i błękitna, prześwitują przez nią promienie słońca. Ujęcie jest ostre i wyraźne, o dużym zakresie dynamiki. Ośmiornica i krab są ostre, natomiast tło jest lekko rozmyte, co tworzy efekt głębi ostrości.

Polecenie: Stado papierowych samolotów trzepocze w gęstej dżungli, okrążając drzewa niczym migrujące ptaki.

Polecenie: Kot budzący śpiącego właściciela i domagający się śniadania. Właściciel próbuje ignorować kota, ale kot próbuje nowych taktyk i w końcu właściciel wyciąga spod poduszki tajny zapas smakołyków, aby powstrzymać kota chwilę dłużej.

Polecenie: Dzika przyroda Borneo na rzece Kinabatangan

Polecenie: Film przedstawiający obchody chińskiego Nowego Roku Księżycowego z udziałem Chińskiego Smoka.

Model ten charakteryzuje się głębokim zrozumieniem języka, co pozwala mu na dokładną interpretację poleceń i tworzenie fascynujących postaci, które wyrażają żywe emocje. Sora może również tworzyć wiele ujęć w ramach jednego wygenerowanego filmu, które wiernie oddają charakter postaci i styl wizualny.

Polecenie: Zwiedzanie galerii sztuki, w której znajdują się liczne dzieła sztuki w różnych stylach.

Polecenie: Piękne, zaśnieżone miasto Tokio tętni życiem. Kamera porusza się po ruchliwej ulicy miasta, śledząc ludzi cieszących się piękną, śnieżną pogodą i robiących zakupy na pobliskich straganach. Piękne płatki wiśni unoszą się na wietrze razem z płatkami śniegu.

Polecenie: Animacja poklatkowa przedstawiająca kwiat wyrastający z parapetu domu na przedmieściach.

Polecenie: Historia życia robota w klimacie cyberpunkowym.

Polecenie: Ekstremalne zbliżenie na siwowłosego mężczyznę z brodą w wieku około 60 lat, pogrążonego w myślach nad historią wszechświata, siedzącego w paryskiej kawiarni, jego wzrok skupia się na ludziach poza ekranem, gdy idą, podczas gdy on siedzi niemal bez ruchu, ubrany jest w wełniany płaszcz i koszulę z guzikami, nosi brązowy beret i okulary, ma wygląd profesora, a na końcu prezentuje subtelny uśmiech z zamkniętymi ustami, jakby znalazł odpowiedź na tajemnicę życia, oświetlenie jest bardzo kinowe ze złotym światłem, a paryskie ulice i miasto w tle, głębia ostrości, kinowa taśma filmowa 35 mm.

Polecenie: Piękna animacja sylwetkowa przedstawia wilka wyjącego do księżyca i odczuwającego samotność, dopóki nie znajdzie swojego stada.

Polecenie: Nowy Jork zalany niczym Atlantyda. Ryby, wieloryby, żółwie morskie i rekiny pływają po ulicach Nowego Jorku.

Polecenie: Miot szczeniąt rasy golden retriever bawiących się na śniegu. Ich głowy wystają ze śniegu, całe nim pokryte.

Obecny model nadal wymaga ulepszeń. Może mieć trudności z symulowaniem fizyki złożonej sceny i może nie rozumieć konkretnych przypadków przyczynowo-skutkowych (na przykład: na ciastku może nie pozostać ślad po ugryzieniu go przez postać). Model może również mylić szczegóły przestrzenne zawarte w podpowiedzi, takie jak odróżnianie lewej od prawej strony, lub mieć trudności z dokładnym opisem zdarzeń, które rozwijają się w czasie, np. konkretnej trajektorii kamery.

Polecenie: Ujęcie biegnącej osoby w technice druku śladowego, film nakręcony na taśmie 35 mm.

Słabość: Sora czasami tworzy fizycznie nieprawdopodobny ruch.

Polecenie: Pięć szczeniąt wilka szarego igra i goni się na odludnej żwirowej drodze otoczonej trawą. Szczenięta biegają i skaczą, ganiają się i podgryzają, bawiąc się.

Słabość: Zwierzęta i ludzie mogą pojawiać się spontanicznie, szczególnie w scenach zawierających wiele jednostek.

Polecenie: Piłka do koszykówki przelatuje przez obręcz, a następnie eksploduje.

Słabość: Przykład niedokładnego modelowania fizycznego i nienaturalnego „przekształcania” obiektów.

Polecenie: Archeolodzy odkrywają na pustyni zwykłe plastikowe krzesło, które z wielką starannością odkopują i odkurzają.

Słabość: W tym przykładzie Sora nie przedstawia krzesła jako sztywnego obiektu, co prowadzi do nieprawidłowych interakcji fizycznych.

Polecenie: Babcia ze starannie uczesanymi siwymi włosami stoi za kolorowym tortem urodzinowym z mnóstwem świeczek przy drewnianym stole w jadalni, na jej twarzy widać czystą radość, a w jej oczach błyszczy szczęście. Pochyla się do przodu i zdmuchuje świeczki delikatnym dmuchnięciem. Tort ma różowy lukier i posypkę, a świece przestają migotać. Babcia ma na sobie jasnoniebieską bluzkę ozdobioną kwiatowymi wzorami. Na zdjęciu widać kilkoro szczęśliwych przyjaciół i członków rodziny siedzących przy stole i świętujących,widzianych w nieostrym tle. Scena jest pięknie uchwycona, wręcz kinowa, pokazuje babcię i jadalnię w widoku 3/4. Ciepłe odcienie kolorów i łagodne oświetlenie poprawiają nastrój.

Słabość: Symulowanie złożonych interakcji między obiektami i wieloma postaciami jest często wyzwaniem dla modelu, co czasami skutkuje humorystycznymi generacjami.

Safety

Zanim udostępnimy Sora w produktach OpenAI, podejmiemy szereg istotnych kroków mających na celu zapewnienie bezpieczeństwa tego narzędzia. Współpracujemy z członkami „zespołu czerwonego” — ekspertami w takich dziedzinach, jak dezinformacja, nienawistne treści i stronniczość — którzy przeprowadzą antagonistyczne testy modelu.

Opracowujemy również narzędzia, które pomogą wykrywać wprowadzające w błąd treści, w tym dedykowany klasyfikator, który pozwala określić, kiedy dany film został wygenerowany przez Sora. W przyszłości planujemy uwzględnić metadane C2PA⁠(otwiera nowe okno), jeśli wdrożymy model w produkcie OpenAI.

Oprócz opracowywania nowych technik przygotowawczych do wdrożenia, wykorzystujemy istniejące metody zapewnienia bezpieczeństwa⁠(otwiera nowe okno), które opracowaliśmy dla naszych produktów wykorzystujących DALL·E 3 i które mają zastosowanie również w systemie Sora.

Przykładowo, po uruchomieniu produktu OpenAI nasz klasyfikator tekstu sprawdzi i odrzuci polecenia wprowadzenie tekstu, który narusza nasze zasady użytkowania, np. treści związane z przemocą, treści seksualne, obrazy nawołujące do nienawiści, podobizny znanych osób lub treści naruszające prawa własności intelektualnej innych osób. Opracowaliśmy również rozbudowane klasyfikatory obrazów, które służą do przeglądania klatek każdego wygenerowanego filmu, aby zapewnić, że jest on zgodny z naszą polityką użytkowania, zanim zostanie wyświetlony użytkownikowi.

Będziemy współpracować z decydentami, nauczycielami i artystami z całego świata, aby zrozumieć ich obawy i zidentyfikować pozytywne możliwości użycia tej nowej technologii. Mimo szeroko zakrojonych badań i testów nie jesteśmy w stanie przewidzieć wszystkich korzystnych sposobów, w jakie ludzie będą wykorzystywać naszą technologię, ani wszystkich przypadków, kiedy będą jej nadużywać. Dlatego uważamy, że w dłuższej perspektywie wyciąganie wniosków z praktycznych zastosowań jest kluczowym elementem tworzenia i wprowadzania na rynek coraz bezpieczniejszych systemów SI.

Polecenie: Kamera jest skierowana bezpośrednio na kolorowe budynki w Burano we Włoszech. Uroczy dalmatyńczyk wygląda przez okno na parterze budynku. Wiele osób spaceruje i jeździ na rowerach po ulicach wzdłuż kanałów przed budynkami.

Polecenie: Urocza, szczęśliwa wydra pewnie stoi na desce surfingowej ubrana w żółtą kamizelkę ratunkową, płynąc po turkusowych wodach w pobliżu bujnych wysp tropikalnych, trójwymiarowy styl grafiki.

Polecenie: To zbliżenie kameleona ukazuje jego niezwykłą zdolność zmiany kolorów. Tło jest rozmyte, co podkreśla wyrazisty wygląd zwierzęcia.

Polecenie: Corgi nagrywający swój vlog w tropikalnym Maui.

Polecenie: Na zdjęciu widać biało-pomarańczowego pręgowanego kota, który radośnie pędzi przez gęsty ogród, jakby za czymś gonił. Jego oczy są szeroko otwarte i szczęśliwe, gdy truchta do przodu, przyglądając się po drodze gałęziom, kwiatom i liściom. Ścieżka jest wąska, ponieważ biegnie między roślinami. Scena została uchwycona z poziomu gruntu, z bliska podążając za kotem, co tworzy bliską i intymną perspektywę. Obraz ma kinowy charakter, ciepłe tony i ziarnistą fakturę. Rozproszone światło dzienne między liśćmi i roślinami powyżej tworzy ciepły kontrast, podkreślając pomarańczowe futro kota. Zdjęcie jest wyraźne i ostre, z małą głębią ostrości.

Polecenie: Widok Santorini z lotu ptaka o błękitnej godzinie, ukazujący wspaniałą architekturę białych budynków cykladzkich z niebieskimi kopułami. Widoki na kalderę zapierają dech w piersiach, oświetlenie tworzy piękną, spokojną atmosferę.

Polecenie: Ujęcie tilt-shift na plac budowy wypełniony pracownikami, sprzętem i ciężkimi maszynami.

Polecenie: Olbrzymia, wysoka chmura w kształcie człowieka unosi się nad ziemią. Chmura w kształcie człowieka wystrzeliwuje pioruny w stronę ziemi.

Polecenie: Samojed i golden retriever bawią się nocą w futurystycznym, neonowym mieście. Neonowe światła emitowane przez pobliskie budynki odbijają się od ich futra.

Polecenie: Wiadukt Glenfinnan to zabytkowy most kolejowy w Szkocji (Wielka Brytania), który przecina zachodnią linię wyżynną między miastami Mallaig i Fort William. To niesamowity widok, gdy parowóz opuszcza most i przejeżdża przez wiadukt pokryty łukiem. Krajobraz urozmaicają bujna zieleń i skaliste góry, które tworzą malownicze tło dla podróży pociągiem. Niebo jest błękitne, a słońce świeci, co sprawia, że to wspaniały dzień na zwiedzanie tego majestatycznego miejsca.

Techniki badawcze

Sora to model dyfuzyjny, który generuje wideo zaczynając od obrazu wyglądającego jak szum statyczny, a następnie stopniowo go przekształca, usuwając szum w toku licznych kolejnych kroków.

Sora potrafi generować całe filmy jednocześnie lub wydłużać wygenerowane filmy. Dając modelowi możliwość przewidywania wielu klatek jednocześnie, rozwiązaliśmy trudny problem związany z zapewnieniem, że obiekt pozostanie taki sam, nawet gdy na chwilę zniknie z pola widzenia.

Podobnie jak modele GPT, Sora wykorzystuje architekturę transformatorową, co zapewnia wyższą wydajność skalowania.

Filmy i obrazy przedstawiamy jako zbiory mniejszych jednostek danych zwanych łatkami, z których każda jest odpowiednikiem tokena w GPT. Dzięki ujednoliceniu sposobu reprezentacji danych możemy szkolić transformatory dyfuzyjne w szerszym zakresie danych wizualnych niż było to możliwe dotychczas, obejmującym różne czasy trwania, rozdzielczości i współczynniki proporcji.

Sora stanowi rozwinięcie wcześniejszych prac nad modelami DALL·E i GPT. Wykorzystuje technikę tworzenia napisów z DALL·E 3, która polega na generowaniu bardzo opisowych napisów do wizualnych danych treningowych. Dzięki temu model jest w stanie wierniej śledzić instrukcje tekstowe użytkownika zawarte w wygenerowanym filmie.

Oprócz możliwości generowania wideo wyłącznie w oparciu o instrukcje tekstowe, model ten potrafi także wziąć istniejący nieruchomy obraz i wygenerować na jego podstawie wideo, animując zawartość obrazu z dokładnością i dbałością o najmniejsze szczegóły. Model może także wziąć istniejący film i rozszerzyć go lub uzupełnić brakujące klatki. Dowiedz się więcej z naszego raportu technicznego⁠.

Sora stanowi podstawę dla modeli, które są w stanie zrozumieć i symulować rzeczywisty świat. Uważamy, że ta zdolność będzie kamieniem milowym na drodze do stworzenia prawdziwie ogólnej sztucznej inteligencji (AGI).

Ładowanie…