Preskočite na glavno vsebino
OpenAI

Ustvarjanje videoposnetka iz besedila

Vse videoposnetke na tej strani je neposredno ustvarila Sora brez kakršne koli predelave.

Nalaganje …

Umetno inteligenco učimo razumeti in simulirati otipljivi, fizični svet v gibanju, da bi usposobili modele, ki ljudem pomagajo reševati težave, pri katerih je treba poseči v resnični svet.

Predstavljamo Soro, naš model za pretvorbo besedila v videoposnetek. Sora lahko ustvari videoposnetke, dolge do ene minute, pri čemer ohrani vizualno kakovost in upošteva uporabnikov poziv.

Danes je Sora na voljo rdečim ekipam za ocenjevanje kritičnih področij z vidika škode ali tveganj. Prav tako omogočamo dostop številnim vizualnim umetnikom, oblikovalcem in filmskim ustvarjalcem, da pridobimo povratne informacije o tem, kako izboljšati model, da bo čim uporabnejši za ustvarjalne poklice.

Napredek pri raziskovanju delimo z drugimi kar najhitreje, saj želimo začeti sodelovati z ljudmi zunaj družbe OpenAI in od njih pridobiti povratne informacije ter javnosti predstaviti, kakšne zmogljivosti umetne inteligence so na obzorju.

Sora lahko ustvari kompleksne prizore z več liki, posebnimi vrstami gibanja in natančnimi podrobnostmi motiva in ozadja. Model razume ne le, kaj uporabnik zahteva v pozivu, temveč tudi, kako te stvari obstajajo v stvarnem svetu.

Model se ponaša s poglobljenim razumevanjem jezika, kar mu omogoča, da natančno raztolmači pozive in ustvari prepričljive like, ki izžarevajo živahna čustva. Sora lahko ustvari tudi več posnetkov znotraj enega ustvarjenega videoposnetka, ki natančno ohranjajo like in vizualni slog.

Trenutni model ima še vedno prostor za izboljšave. Morda s težavo simulira fizikalne zakonitosti zapletenega prizora in morda ne razume posameznih primerov vzroka in posledice (na primer: na piškotu morda niso vidni sledovi ugriza, potem ko lik ugrizne vanj). Model lahko prav tako zameša prostorske podrobnosti, vključene v pozivu, kot je razločevanje med levo in desno, ali pa ima težave z natančnimi opisi dogodkov, ki se odvijajo dalj časa, kot so posamezne trajektorije kamere.

Varnost

Preden bo Sora na voljo v izdelkih družbe OpenAI, bomo sprejeli več pomembnih varnostnih ukrepov. Sodelujemo z »rdečimi ekipami«, strokovnjaki za področja, kot so napačne informacije, sovražna vsebina in pristranskost, ki bodo na modelu izvajale načrtno napadanje za odkrivanje šibkosti.

Prav tako razvijamo orodja za prepoznavanje zavajajoče vsebine, kot je zaznavni klasifikator, ki lahko ugotovi, kdaj je videoposnetek ustvarila Sora. V primeru uvedbe modela v katerega od izdelkov družbe OpenAI načrtujemo, da bomo v prihodnosti vključili tudi metapodatke po standardu C2PA(odpre se v novem oknu).

Poleg tega, da razvijamo nove tehnike za pripravo na uvedbo, izkoriščamo obstoječe varnostne metode(odpre se v novem oknu), ki smo jih razvili za svoje izdelke, ki uporabljajo DALL·E 3, in so uporabni tudi za Soro.

Ko bo naš klasifikator besedila vključen v izdelku družbe OpenAI, bo na primer preveril in zavrnil pozive z vnosom besedila, ki kršijo naše pravilnike o uporabi; sem spadajo pozivi, ki zahtevajo ekstremno nasilje, spolno vsebino, sovražne podobe, upodobitev slavnim osebam podobnih likov ali intelektualno lastnino drugih. Razvili smo tudi robustne klasifikatorje slik, ki se uporabljajo pri pregledovanju kadrov vsakega ustvarjenega videoposnetka, da zagotovimo skladnost z našimi pravilniki o uporabi, preden je videoposnetek prikazan uporabniku.

Sodelovali bomo z oblikovalci politik, pedagoškimi strokovnjaki in umetniki po vsem svetu, da bi razumeli njihove pomisleke in opredelili pozitivne primere uporabe te nove tehnologije. Kljub obsežnim raziskavam in preizkušanju ne moremo predvideti vseh koristnih načinov, na katere bodo ljudje uporabljali našo tehnologijo, niti vseh načinov, na katere jo bodo zlorabljali. Zato verjamemo, da je učenje na podlagi uporabe v resničnem svetu ključna sestavina, ki nam bo skozi čas pomagala ustvarjati in izdajati čedalje varnejše sisteme umetne inteligence.

Research techniques

Sora je difuzijski model, ki ustvari videoposnetek tako, da začne z videoposnetkom, ki je videti kot statični šum, in ga postopoma preoblikuje z odstranjevanjem šuma skozi več korakov.

Sora je sposobna ustvariti celotne videoposnetke naenkrat ali podaljšati že ustvarjene videoposnetke. Z omogočanjem modelu, da predvidi več kadrov hkrati, smo rešili zahtevno težavo zagotavljanja, da motiv ostane enak, tudi če začasno izgine iz vidnega polja.

Podobno kot modeli GPT tudi Sora uporablja arhitekturo preoblikovalnikov, ki omogoča vrhunsko zmogljivost prilagajanja obsega.

Videoposnetke in slike predstavljamo kot zbirke manjših podatkovnih enot, imenovanih drobci, pri čemer je posamezni drobec podoben tokenu pri modelu GPT. S poenotenjem načina predstavitve podatkov lahko usposobimo difuzijske preoblikovalnike na širšem naboru vizualnih podatkov kot v preteklosti, ki zajemajo različna trajanja, ločljivosti in razmerja stranic.

Sora je bila razvita z upoštevanjem preteklih raziskav modelov DALL·E in GPT. Uporablja tehniko vnovične priprave pripisov, kakršno poznamo iz modela DALL·E 3, ki vključuje ustvarjanje bogatih opisnih pripisov za podatke za vizualno usposabljanje. Posledično lahko model zvesteje sledi uporabnikovim besedilnim navodilom v ustvarjenem videoposnetku.

Poleg tega, da lahko model ustvari videoposnetek izključno iz besedilnih navodil, lahko vzame tudi obstoječo sliko in iz nje ustvari videoposnetek, pri čemer natančno in zelo podrobno animira vsebino slike. Model lahko vzame obstoječ videoposnetek in ga podaljša ali dopolni z manjkajočimi kadri. Preberite več o tem v našem tehničnem poročilu.

Sora služi kot osnova za modele, ki lahko razumejo in simulirajo resnični svet, kar je sposobnost, ki bo po našem prepričanju predstavljala pomemben mejnik pri doseganje splošne umetne inteligence (AGI).

Nalaganje ...