Preskočite na glavni sadržaj
OpenAI

Svi videozapisi na ovoj stranici su direktno generisani od Sore bez izmjena.

Učitavanje…

Podučavamo AI da razumije i simulira fizički svijet u pokretu, s ciljem obuke modela koji pomažu ljudima da riješe probleme koji zahtijevaju interakciju u stvarnom svijetu.

Predstavljamo Soru, naš model za pretvaranje teksta u video. Sora može generirati videozapise do jedne minute dužine, uz održavanje vizualnog kvaliteta i pridržavanje korisničkog upita.

Danas Sora postaje dostupna crvenim teamerima za procjenu kritičnih područja zbog šteta ili rizika. Također omogućavamo pristup brojnim vizualnim umjetnicima, dizajnerima i filmskim stvaraocima kako bi dobili povratni odgovor o tome kako unaprijediti model da bude najkorisniji za kreativne profesionalce.

Naš napredak u istraživanju dijelimo ranije kako bismo počeli sarađivati i dobijati povratne informacije od ljudi izvan OpenAI-a, te kako bismo javnosti dali uvid u mogućnosti AI-ja koje nas očekuju u bliskoj budućnosti.

Sora može generirati složene scene s više karaktera, specifičnim vrstama pokreta i preciznim detaljima subjekta i pozadine. Model razumije ne samo što je korisnik zatražio u upitu, već i kako te stvari postoje u fizičkom svijetu.

Model ima duboko razumijevanje jezika, što mu omogućava da precizno tumači upite i generira uvjerljive karaktere koji izražavaju živopisne emocije. Sora također može kreirati više kadrova unutar jednog generiranog videozapisa koji precizno zadržavaju karaktere i vizuelni stil.

Trenutni model još uvijek ima prostora za poboljšanje. Možda će imati poteškoća u simuliranju fizike složene scene i možda neće razumjeti specifične slučajeve uzroka i posljedica (na primjer: kolačić možda neće pokazati trag nakon što ga karakter zagrize). Model se također može zbuniti oko prostornog rasporeda navedenog u upitu, kao što je razlikovanje lijevo od desno, ili imati poteškoća s preciznim opisom događaja koji se odvijaju tokom vremena, poput specifičnih kretanja kamere.

Sigurnost

Poduzet ćemo nekoliko važnih sigurnosnih koraka prije nego što Sora bude dostupna u OpenAI proizvodima. Radimo s red teamerima — stručnjacima za domene u oblastima kao što su dezinformacije, sadržaj mržnje i pristrasnost — koji će model testirati adversarialno.

Također razvijamo alate za otkrivanje obmanjujućeg sadržaja, poput klasifikatora koji može utvrditi kada je Sora generirala videozapis. Planiramo uključiti C2PA metadata(otvara se u novom prozoru) u budućnosti ako model implementiramo u OpenAI proizvod.

Osim što razvijamo nove tehnike za pripremu za implementaciju, koristimo postojeće sigurnosne metode(otvara se u novom prozoru) koje smo izgradili za naše proizvode koji koriste DALL·E 3, a koje su primjenjive i na Sora.

Na primjer, jednom u OpenAI proizvodu, naš klasifikator teksta će provjeriti i odbiti tekstualne unose koji krše naša pravila upotrebe, poput onih koji zahtijevaju ekstremno nasilje, seksualni sadržaj, mržnju, sličnost sa slavnim osobama ili intelektualno vlasništvo drugih. Također smo razvili robusne klasifikatore slika koji se koriste za pregled okvira svakog generiranog videozapisa kako bismo osigurali da se pridržava naših pravila upotrebe, prije nego što se prikaže korisniku.

Angažirat ćemo kreatore politika, edukatore i umjetnike širom svijeta kako bismo razumjeli njihove brige i identificirali pozitivne primjere upotrebe ove nove tehnologije. Uprkos opsežnim istraživanjima i testiranju, ne možemo predvidjeti sve korisne načine na koje će ljudi koristiti našu tehnologiju, niti sve načine na koje će je ljudi zloupotrijebiti. Zato vjerujemo da je učenje iz stvarne upotrebe ključni dio stvaranja i puštanja sve sigurnijih AI sistema tokom vremena.

Research techniques

Sora je difuzijski model koji generira video tako što počinje s videom koji izgleda kao statični šum, a zatim ga postupno transformiše uklanjanjem šuma kroz mnoge korake.

Sora je sposobna generirati čitave videozapise odjednom ili proširiti generirane videozapise kako bi ih produžila. Dajući modelu mogućnost predviđanja mnogih kadrova odjednom, riješili smo izazovan problem osiguravanja da subjekt ostane isti čak i kada privremeno nestane iz vidokruga.

Slično GPT modelima, Sora koristi arhitekturu transformatora, omogućavajući vrhunske performanse skaliranja.

Videozapise i slike predstavljamo kao zbirke manjih jedinica podataka nazvanih zakrpe, pri čemu je svaka slična tokenu u GPT‑u. Ujedinjujući način na koji predstavljamo podatke, možemo obučavati difuzijske transformatore na širem spektru vizuelnih podataka nego što je to bilo moguće ranije, pokrivajući različita trajanja, rezolucije i omjere stranica.

Sora se nadovezuje na prethodna istraživanja u DALL·E i GPT modelima. Koristi tehniku ponovnog opisivanja iz DALL·E 3, koja uključuje generiranje visoko opisnih natpisa za vizuelne podatke za obuku. Kao rezultat toga, model je u stanju vjernije slijediti korisnikove tekstualne upute u generiranom videu.

Osim što može generirati videozapis isključivo iz tekstualnih uputa, model je u stanju uzeti postojeću sliku i generirati video iz nje, animirajući sadržaj slike s preciznošću i pažnjom na male detalje. Model također može uzeti postojeći video i proširiti ga ili popuniti nedostajuće okvire. Saznajte više u našem tehničkom izvještaju.

Sora služi kao osnova za modele koji mogu razumjeti i simulirati stvarni svijet, sposobnost za koju vjerujemo da će biti važna prekretnica za postizanje AGI-ja.

Učitavanje...