Pāriet uz galveno saturu
OpenAI

Visus šajā lapā pieejamos videoklipus ir tieši radījusi Sora bez pārveidošanas.

Notiek ielāde…

Mēs mācām mākslīgajam intelektam saprast un simulēt kustībā esošo fizisko pasauli, lai apmācītu modeļus, kas palīdzētu cilvēkiem risināt problēmas, kurām nepieciešama mijiedarbība ar reālo pasauli.

Iepazīstinām ar Sora — mūsu teksta un video modeli. Sora var ģenerēt līdz minūtei garus videoklipus, vienlaikus saglabājot vizuālo kvalitāti un atbilstību lietotāja norādījumiem.

Šodien Sora kļūst pieejama sarkano komandu darbiniekiem, lai novērtētu, vai kritiskajās zonās nav kaitējuma vai riska. Mēs arī piešķiram piekļuvi vairākiem vizuālajiem māksliniekiem, dizaineriem un filmu veidotājiem, lai saņemtu atsauksmes par to, kā uzlabot modeli, lai tas būtu visnoderīgākais radošo profesiju pārstāvjiem.

Mēs jau agri dalāmies ar saviem pētījumu rezultātiem, lai sāktu strādāt ar cilvēkiem ārpus OpenAI un saņemtu no viņiem atsauksmes, kā arī, lai sabiedrībai sniegtu priekšstatu par to, kādas mākslīgā intelekta iespējas ir sagaidāmas.

Sora spēj ģenerēt sarežģītas ainas ar vairākiem personāžiem, īpašiem kustību veidiem un precīzām objekta un fona detaļām. Modelis saprot ne tikai to, ko lietotājs ir pieprasījis uzvednē, bet arī to, kā šīs lietas eksistē fiziskajā pasaulē.

Modelim ir dziļa izpratne par valodu, kas ļauj tam precīzi interpretēt pamudinājumus un radīt pārliecinošus tēlus, kuri pauž spilgtas emocijas. Sora var arī izveidot vairākus kadrus vienā ģenerētā videoklipā, kas precīzi atspoguļo tēlus un vizuālo stilu.

Pašreizējo modeli vēl ir iespējams uzlabot. Tam var būt grūti simulēt sarežģītas ainas fiziku, un tas var nesaprast konkrētus cēloņu un seku gadījumus (piemēram, uz cepuma var neparādīties koduma pēdas pēc tam, kad varonis tajā iekožas). Modelis var arī sajaukt telpisku informāciju, kas iekļauta uzvednē, piemēram, neatšķirt kreiso pusi no labās, vai nesaprast precīzus notikumu aprakstus, kuri attīstās laika gaitā, piemēram, konkrētas kameras trajektorijas.

Drošība

Mēs veiksim vairākus svarīgus drošības pasākumus, pirms Sora būs pieejams OpenAI produktos. Mēs sadarbojamies ar "sarkano komandu" dalībniekiem — jomas ekspertiem tādās jomās kā dezinformācija, naidīgs saturs un neobjektivitāte — kuri veiks modeļa testēšanu.

Mēs arī izstrādājam rīkus, lai palīdzētu atklāt maldinošu saturu, piemēram, noteikšanas klasifikatoru, kas var noteikt, vai videoklipu ir radījusi Sora. Mēs plānojam nākotnē iekļaut C2PA metadatus(atveras jaunā logā), ja izmantosim šo modeli OpenAI produktā.

Papildus tam, ka mēs izstrādājam jaunas metodes, lai sagatavotos izvēršanai, mēs izmantojam esošās drošības metodes(atveras jaunā logā), ko esam izveidojuši saviem produktiem, kuros tiek izmantots DALL-E 3, un kuras ir piemērojamas arī Sora.

Piemēram, pēc tam, kad OpenAI produktā būs ievietoti teksta klasifikatori, mūsu teksta klasifikators pārbaudīs un noraidīs teksta ievades pieprasījumus, kas ir pretrunā ar mūsu lietošanas noteikumiem, piemēram, pieprasījumus, kuros pieprasīta ekstrēma vardarbība, seksuāls saturs, naidīgi attēli, līdzība slavenībām vai citu personu intelektuālā īpašuma dati. Esam izstrādājuši arī izturīgus attēlu klasifikatorus, kas tiek izmantoti, lai pārskatītu katra ģenerētā videoklipa kadrus un nodrošinātu, ka tie atbilst mūsu lietošanas noteikumiem, pirms tie tiek rādīti lietotājam.

Mēs sadarbosimies ar politikas veidotājiem, pedagogiem un māksliniekiem visā pasaulē, lai izprastu viņu bažas un apzinātu šīs jaunās tehnoloģijas pozitīvos izmantošanas gadījumus. Neraugoties uz plašo izpēti un testēšanu, mēs nevaram paredzēt visus lietderīgos veidus, kā cilvēki izmantos mūsu tehnoloģiju, kā arī visus veidus, kā cilvēki to ļaunprātīgi izmantos. Tāpēc mēs uzskatām, ka mācīšanās no reālās lietošanas ir būtisks komponents, lai laika gaitā radītu un izlaistu arvien drošākas mākslīgā intelekta sistēmas.

Research techniques

Sora ir difūzijas modelis, kas ģenerē videoklipu, sākot ar tādu, kurš izskatās kā statisks troksnis, un pakāpeniski pārveido to, daudzos posmos likvidējot troksni.

Sora spēj vienlaicīgi ģenerēt veselus videoklipus vai pagarināt jau ģenerētos videoklipus, lai tie būtu garāki. Sniedzot modelim iespēju redzēt daudzus kadrus vienlaicīgi, mēs esam atrisinājuši sarežģīto problēmu, nodrošinot, ka objekts paliek nemainīgs pat tad, ja tas uz laiku pazūd no redzesloka.

Līdzīgi kā GPT modeļi, Sora izmanto transformatoru arhitektūru, nodrošinot izcilu mērogošanas veiktspēju.

Video un attēlus mēs attēlojam kā mazāku datu vienību kolekcijas, ko sauc par ielāpus, un katrs no tiem ir līdzīgs GPT marķierim. Vienojot datu attēlošanas veidu, mēs varam apmācīt difūzijas transformatorus plašākam vizuālo datu klāstam, nekā tas bija iespējams iepriekš, aptverot dažādus ilgumus, izšķirtspējas un malu attiecības.

Sora balstās uz iepriekš veiktajiem DALL-E un GPT modeļu pētījumiem. Tajā tiek izmantota DALL-E 3 izmantotā kopsavilkumu veidošanas metode, kas ietver ļoti aprakstošu uzrakstu ģenerēšanu vizuālajiem mācību datiem. Rezultātā modelis spēj precīzāk sekot lietotāja teksta norādījumiem ģenerētajā video.

Papildus tam, ka modelis spēj ģenerēt video tikai no teksta instrukcijām, tas spēj ne tikai izmantot esošu nekustīgu attēlu un no tā ģenerēt video, bet arī precīzi un ar uzmanību pret sīkām detaļām animēt attēla saturu. Modelis var arī izmantot esošo videoklipu un paplašināt to vai aizpildīt trūkstošos kadrus. Uzzini vairāk mūsu tehniskajā ziņojumā.

Sora kalpo par pamatu modeļiem, kas spēj saprast un simulēt reālo pasauli, un šī spēja, mūsuprāt, būs svarīgs pavērsiens AGI sasniegšanā.

Notiek ielāde...