Jäta vahele ja mine põhisisu juurde
OpenAI

Video loomine tekstist

Kõik sellel lehel olevad videod on Sora poolt loodud ja neid ei ole muudetud.

Laadimine…

Me õpetame tehisintellekti mõistma ja simuleerima füüsilist maailma liikumises, eesmärgiga treenida mudeleid, mis aitavad inimestel lahendada probleeme, mis nõuavad reaalses maailmas suhtlemist.

Tutvustame Sorat, meie tekstist videoks teisendamise mudelit. Sora suudab koosta kuni minuti pikkuseid videoid, säilitades visuaalse kvaliteedi ja järgides kasutaja viipa.

Täna tehakse Sora kättesaadavaks punase meeskonna testijatele, et nad saaksid hinnata kriitilisi valdkondi kahjude või riskide osas. Lisaks võimaldatakse paljudel visuaalkunstnikel, disaineritel ja filmitegijatel mudelile ligi pääseda. Eesmärk on saada nende tagasiside abil teada, kuidas mudelit täiustada, et see pakuks loomeprofessionaalidele maksimaalset abi.

Jagame oma uurimistulemusi juba varases etapis, et kaasata inimesi väljastpoolt OpenAI-d ja koguda tagasisidet, samuti selleks, et anda avalikkusele ettekujutus tehisintellekti tuleviku arenguvõimalustest.

Sora on võimeline looma keerukaid kaadreid, mis sisaldavad hulgaliselt tegelasi, erilaadseid liikumisi ning täpseid üksikasju nii teemaobjekti kui taustakeskkonna kohta. Mudel suudab aru saada mitte ainult kasutaja poolt esitatud viibast, vaid ka sellest, kuidas need objektid füüsilises maailmas käituvad.

Mudelil on sügav arusaam keelest, mis võimaldab tal täpselt tõlgendada viipasid ja luua kaasahaaravaid tegelasi, kes väljendavad elavaid emotsioone. Sora suudab luua ka mitu võtet ühes genereeritud videos, kus tegelased ja visuaalne stiil püsivad täpselt samad.

Praegusel mudelil on veel arenguruumi. Mudel võib hätta jääda keerulise olukorra füüsikaliste seaduste modelleerimisega ja ei pruugi aduda spetsiifilisi põhjuse ja tagajärje näiteid (nt: tegelase poolt hammustatud küpsisele ei pruugi tekkida hambajälge). Mudel võib eksida ruumiliste detailidega, näiteks vasaku ja parema eristamisel, ning tal võib olla raske tabada ajas toimuvate sündmuste (nt kaamera liikumiste) täpseid kirjeldusi.

Ohutus

Enne kui teeme Sora OpenAI toodetes kättesaadavaks, võtame mitmed olulised ohutusmeetmed. Teeme koostööd „punaste meeskondade“ ehk domeeniekspertidega sellistes valdkondades nagu väärinfo, vihakõne ja eelarvamused, kes hakkavad mudelit pahatahtlikult testima.

Eksitava sisu tuvastamiseks loome ka tööriistu; näiteks arendame tuvastusklassifikaatorit, mis suudab määrata, kas video on Sora loodud. Plaanime tulevikus lisada C2PA metaandmed(avaneb uues aknas), kui juurutame mudeli OpenAI tootes.

Lisaks uute tehnikate väljatöötamisele, et valmistuda kasutuselevõtuks, võtame ka olemasolevaid ohutusmeetodeid(avaneb uues aknas), mille oleme loonud oma toodete jaoks, mis kasutavad DALL·E 3 ja mis on rakendatavad ka Sora jaoks.

Näiteks OpenAI tootes filtreerib meie tekstiklassifikaator sisestatud tekstikäske ja blokeerib need, mis rikuvad meie kasutusreegleid. Keelatud on näiteks äärmuslikku vägivalda, seksuaalset sisu, vihkavat pildikeelt, tuntud isikute sarnasust või teiste isikute intellektuaalomandit taotlevad käsud. Samuti oleme välja töötanud töökindlad pildiklassifikaatorid. Neid kasutatakse kõigi loodud videote kaadrite läbivaatamiseks, et tagada video vastavus meie kasutusreeglitele, enne kui see kasutajani jõuab.

Kaasame poliitikakujundajaid, õpetajaid ja kunstnikke üle kogu maailma, et mõista nende muresid ja leida selle uue tehnoloogia positiivseid kasutusvõimalusi. Vaatamata ulatuslikele uuringutele ja testimisele ei suuda me ette näha kõiki kasulikke viise, kuidas inimesed meie tehnoloogiat kasutavad, ega ka kõiki viise, kuidas inimesed seda kuritarvitavad. Seepärast usume, et reaalse kasutuse kaudu õppimine on kriitiline komponent järjest ohutumate tehisintellekti süsteemide loomisel ja turuletoomisel aja jooksul.

Research techniques

Sora on difusioonimudel, mis loob video alustades staatilise müraga sarnasest videost ja muudab seda järk-järgult, eemaldades müra paljude sammude jooksul.

Sora suudab luua terveid videoid korraga või pikendada loodud videoid, et neid pikemaks muuta. Võimaldades mudelil näha korraga ette mitu kaadrit, oleme lahendanud selle keeruka probleemi, et objekt jääks samaks ka siis, kui see ajutiselt pildilt kaob.

Sarnaselt GPT mudelitega kasutab Sora transformaatori arhitektuuri, mis avab suurepärase skaleerimisjõudluse.

Me kujutame videoid ja pilte väikeste andmeplokkidena, mida nimetatakse patchideks. Iga patch on analoogne GPT‑s kasutatava tokeniga. Andmete esitamise ühtlustamisega saame treenida difusioonitransformaatoreid laiema visuaalse andmestiku peal kui varem võimalik, hõlmates erinevaid kestusi, resolutsioone ja kuvasuhteid.

Sora tugineb varasematele uuringutele DALL·E ja GPT mudelite kohta. See kasutab DALL·E 3 ümberkujundamise tehnikat, mis hõlmab visuaalsete treenimisandmete jaoks väga kirjeldavate pealkirjade koostamist. Selle tulemusena suudab mudel koostatud videos kasutaja tekstijuhiseid täpsemalt järgida.

Lisaks sellele, et mudel suudab koosta video ainult tekstijuhiste põhjal, suudab ta võtta olemasoleva pildi ja koosta sellest video, animeerides pildi sisu täpselt ja pöörates tähelepanu pisidetailidele. Mudel võib võtta ka olemasoleva video ja seda pikendada või täita puuduvaid kaadreid. Lisateavet saab meie tehnilisest aruandest.

Sora toimib vundamendina mudelitele, mis suudavad tegelikku maailma mõista ja jäljendada. Usume, et see on tähtis etapp AGI-ni (tehisüldmõistuseni) jõudmiseks.

Laadimine...