Preskočite na glavni sadržaj
OpenAI

Stvaranje videozapisa iz teksta.

Svi videozapisi na ovoj stranici generirani su u Sori bez izmjena.

Učitavanje…

Podučavamo AI da razumije i simulira fizički svijet u pokretu, s ciljem obuke modela koji ljudima pomažu u rješavanju problema koji zahtijevaju interakciju u stvarnom svijetu.

Predstavljamo Soru, naš model za pretvaranje teksta u video. Sora može generirati videozapise duljine do jedne minute, uz očuvanje vizualne kvalitete te uz pridržavanje uputa korisnika.

Danas Sora postaje dostupna red-team stručnjacima kako bi procijenili ključna područja potencijalnih šteta i rizika. Također omogućujemo pristup određenom broju vizualnih umjetnika, dizajnera i filmskih stvaratelja da bismo dobili povratne informacije o tome kako unaprijediti model da bude što korisniji kreativnim profesionalcima.

Dijelimo naš napredak u istraživanju u ranoj fazi kako bismo započeli suradnju i dobili povratne informacije od ljudi izvan OpenAI-ja te kako bismo javnosti dali uvid u buduće mogućnosti umjetne inteligencije.

Sora je u mogućnosti generirati složene scene s više likova, specifičnim vrstama pokreta i preciznim detaljima na objektu i pozadini. Model razumije ne samo ono što je korisnik zatražio u upitu, već i njihova svojstva i ponašanje u fizičkom svijetu.

Model posjeduje duboko razumijevanje jezika, što mu omogućuje precizno tumačenje upita i generiranje uvjerljivih likova koji izražavaju snažne emocije. Sora također može stvoriti više kadrova unutar jednog generiranog videa, uz dosljedno očuvanje likova i vizualnog stila.

Trenutačni model još uvijek ima prostora za poboljšanje. Može naići na probleme sa simulacijom fizike u složenim scenama i možda neće uvijek razumjeti konkretne primjere uzročno-posljedičnih veza (primjer: na keksu se možda neće vidjeti trag ugriza nakon što ga lik zagrize). Model se također može zbuniti u prostornim detaljima navedenima u upitu, poput razlikovanja lijevo i desno, ili imati poteškoća s preciznim opisima događaja koji se odvijaju tijekom vremena, poput specifičnih kretanja kamere.

Sigurnost

Poduzet ćemo nekoliko važnih koraka za sigurnost prije nego što Soru učinimo dostupnom u OpenAI-jevim proizvodima. Surađujemo sa stručnjacima za red-team testiranje (simulirane sigurnosne napade) – uključujući stručnjake za dezinformacije, govor mržnje i pristranost – koji provjeravaju kako se model ponaša u izazovnim i manipulativnim situacijama.

Također razvijamo alate za otkrivanje obmanjujućeg sadržaja, poput klasifikatora koji može utvrditi je li video generiran u Sori. U budućnosti planiramo uključiti C2PA metapodatke(otvara se u novom prozoru) ako model bude uveden u neki OpenAI-jev proizvod.

Osim što razvijamo nove tehnike kako bismo se pripremili za implementaciju, koristimo postojeće sigurnosne metode(otvara se u novom prozoru) koje smo izgradili za naše proizvode koji koriste DALL·E 3, a koje su primjenjive i na Soru.

Na primjer, u OpenAI proizvodu, naš klasifikator teksta provjerit će i odbiti upite koji krše naše pravilnike o uporabi, poput onih koji zahtijevaju ekstremno nasilje, seksualni sadržaj, slike koje potiču na mržnju, sličnost sa slavnim osobama ili tuđe intelektualno vlasništvo. Također smo razvili napredne klasifikatore za slike koji pregledavaju svaki kadar generiranog videa kako bi se osiguralo da sadržaj bude u skladu s našim pravilima korištenja – i to prije nego što se prikaže korisniku.

Bit ćemo u dijalogu s donositeljima politika, edukatorima i umjetnicima diljem svijeta kako bismo razumjeli njihove brige i prepoznali pozitivne primjene ove nove tehnologije. Unatoč opsežnom istraživanju i testiranju, ne možemo unaprijed predvidjeti sve korisne načine na koje će ljudi koristiti našu tehnologiju, niti sve načine na koje bi je mogli zloupotrijebiti. Zato smatramo da je učenje iz stvarne uporabe ključni dio razvoja i postupnog uvođenja sve sigurnijih AI sustava.

Research techniques

Sora je difuzijski model koji generira videozapis započinjući s onim koji izgleda kao statički šum i postupno ga transformira uklanjanjem šuma kroz brojne korake.

Sora može generirati cijele videozapise odjednom ili produžiti trajanje već generiranih videozapisa. Dajući modelu unaprijed uvid u velik broj kadrova, riješili smo zahtjevan problem održavanja vizualne dosljednosti objekta čak i kad privremeno izađe iz kadra.

Kao i GPT modeli, Sora koristi transformer arhitekturu, što omogućuje učinkovito skaliranje i bolje performanse.

Videozapise i slike predstavljamo kao skupove manjih jedinica podataka koje nazivamo „patches”, pri čemu je svaka od njih slična tokenu u GPT‑u. Ujednačavanjem načina na koji predstavljamo podatke, možemo trenirati difuzijske transformatore na mnogo širem spektru vizualnih podataka nego prije – u rasponu različitih trajanja, rezolucija i omjera stranica.

Sora se nadovezuje na prethodna istraživanja iz modela DALL·E i GPT. Koristi tehniku recaptioninga iz modela DALL·E 3 – postupak u kojem se za vizualne podatke za učenje generiraju vrlo detaljni opisi. Zahvaljujući tome, model mnogo vjernije prati korisničke tekstualne upute u generiranom videu.

Osim što može generirati video isključivo na temelju tekstualnih uputa, model može uzeti postojeću statičnu sliku i iz nje generirati video, precizno animirajući sadržaj slike posvećujući pažnju sitnim detaljima. Model također može uzeti postojeći video i produžiti ga ili popuniti kadrove koji nedostaju. Saznajte više u našem tehničkom izvješću.

Sora predstavlja temelj za modele koji mogu razumjeti i simulirati stvarni svijet – sposobnost za koju vjerujemo da će biti važna prekretnica na putu prema postizanju AGI-ja.

Učitavanje...