Пређите на главни садржај
OpenAI

Sve video-snimke na ovoj stranici generisala je direktno Sora bez izmena.

Учитавање…

Učimo AI da razume i simulira fizički svet u pokretu, sa ciljem da obučimo modele koji pomažu ljudima da rešavaju probleme koji zahtevaju interakciju sa stvarnim svetom.

Predstavljamo Sora, naš model za generisanje videa iz teksta. Sora može da generiše video-snimke do jednog minuta uz očuvanje vizuelnog kvaliteta i usklađenosti sa korisnikovom instrukcijom.

Danas Sora postaje dostupna red teamerima kako bi procenili kritične oblasti mogućih šteta i rizika. Takođe odobravamo pristup određenom broju vizuelnih umetnika, dizajnera i filmskih stvaralaca kako bismo dobili povratne informacije o tome kako da unapredimo model da bude što korisniji kreativnim profesionalcima.

Rano delimo napredak našeg istraživanja kako bismo počeli da radimo sa ljudima van OpenAI-ja i dobijamo njihove povratne informacije, kao i da javnosti damo predstavu o AI mogućnostima koje se naziru na horizontu.

Sora može da generiše složene scene sa više karaktera, specifičnim vrstama kretanja i preciznim detaljima subjekta i pozadine. Model razume ne samo ono što je korisnik tražio u instrukciji, već i kako te stvari postoje u fizičkom svetu.

Model ima duboko razumevanje jezika, što mu omogućava da tačno tumači instrukcije i generiše upečatljive karaktere koji izražavaju živopisne emocije. Sora takođe može da kreira više kadrova unutar jednog generisanog videa uz dosledno očuvanje karaktera i vizuelnog stila.

Trenutni model i dalje ima prostora za unapređenje. Može imati poteškoća sa simuliranjem fizike složene scene i možda neće razumeti specifične primere uzroka i posledice (na primer: kolačić možda neće pokazati trag nakon što ga Karakter zagrize). Model takođe može pomešati prostorne detalje navedene u instrukciji, kao što je razlikovanje leve od desne strane, ili imati poteškoća sa preciznim opisima događaja koji se odvijaju tokom vremena, poput određenih putanja kamere.

Bezbednost

Pre nego što Sora postane dostupna u OpenAI proizvodima, preduzećemo nekoliko važnih koraka za bezbednost. Sarađujemo sa red teamerima — stručnjacima za oblasti poput dezinformacija, sadržaja mržnje i pristrasnosti — koji će model testirati na adversarijalan način.

Takođe razvijamo alate za otkrivanje obmanjujućeg sadržaja, poput klasifikatora za detekciju koji može da utvrdi kada je video generisala Sora. Planiramo da u budućnosti uključimo C2PA metapodatke(отвара се у новом прозору) ako model uvedemo u neki OpenAI proizvod.

Pored razvoja novih tehnika za pripremu uvođenja, koristimo i postojeće bezbednosne metode(отвара се у новом прозору) koje smo razvili za naše proizvode koji koriste DALL·E 3, a koje su primenljive i na Sora.

Na primer, kada bude deo OpenAI proizvoda, naš klasifikator teksta proveravaće i odbacivati tekstualne instrukcije koje krše naše politike korišćenja, poput onih koje traže ekstremno nasilje, seksualni sadržaj, slike mržnje, lik slavnih osoba ili tuđu intelektualnu svojinu. Razvili smo i robusne klasifikatore slike koji se koriste za pregled kadrova svakog generisanog videa kako bi pomogli da se osigura usklađenost sa našim politikama korišćenja pre nego što video bude prikazan korisniku.

Uključićemo kreatore politika, edukatore i umetnike širom sveta kako bismo razumeli njihove brige i identifikovali pozitivne slučajeve upotrebe ove nove tehnologije. Uprkos opsežnim istraživanjima i testiranju, ne možemo predvideti sve korisne načine na koje će ljudi koristiti našu tehnologiju, niti sve načine na koje će je zloupotrebljavati. Zato verujemo da je učenje iz upotrebe u stvarnom svetu ključna komponenta stvaranja i objavljivanja sve bezbednijih AI sistema tokom vremena.

Research techniques

Sora je difuzioni model koji generiše video tako što počinje od onog koji izgleda kao statički šum i postepeno ga transformiše uklanjanjem šuma kroz mnogo koraka.

Sora može da generiše cele video-snimke odjednom ili da produži generisane video-snimke kako bi bili duži. Dajući modelu uvid unapred u mnogo kadrova istovremeno, rešili smo složen problem očuvanja istog subjekta čak i kada privremeno izađe iz kadra.

Slično GPT modelima, Sora koristi arhitekturu transformatora, što omogućava vrhunske performanse skaliranja.

Video-snimke i slike predstavljamo kao zbirke manjih jedinica podataka koje zovemo patch-evi, od kojih je svaki sličan tokenu u GPT‑u. Ujednačavanjem načina na koji predstavljamo podatke, možemo da obučavamo difuzne transformatore na širem spektru vizuelnih podataka nego što je ranije bilo moguće, obuhvatajući različita trajanja, rezolucije i odnose stranica.

Sora se nadovezuje na prethodna istraživanja u DALL·E i GPT modelima. Koristi tehniku ponovnog opisivanja iz DALL·E 3, koja podrazumeva generisanje veoma detaljnih opisa za vizuelne podatke za obuku. Kao rezultat toga, model može vernije da prati korisnikove tekstualne instrukcije u generisanom videu.

Pored toga što može da generiše video isključivo iz tekstualnih instrukcija, model može da primi postojeću statičnu sliku i od nje napravi video, animirajući njen sadržaj precizno i uz pažnju prema sitnim detaljima. Model takođe može da primi postojeći video i da ga produži ili popuni nedostajuće kadrove. Saznajte više u našem tehničkom izveštaju.

Sora služi kao osnova za modele koji mogu da razumeju i simuliraju stvarni svet, sposobnost za koju verujemo da će biti važna prekretnica za dostizanje AGI-ja.

Учитавање...