„Sora 2“ jau čia
Mūsų naujausias vaizdo įrašų generavimo modelis yra fiziškai tikslesnis, tikroviškesnis ir geriau valdomas nei ankstesnės sistemos. Jame taip pat yra sinchronizuoti dialogai ir garso efektai. Kurkite juo naujoje „Sora“ programoje.
Nuo 2026 m. balandžio 26 d. „Sora“ produktas nebeteikiamas.
Šiandien išleidžiame „Sora 2“ – mūsų pagrindinį vaizdo ir garso įrašų generavimo modelį.
Pirminis „Sora“ modelis, pristatytas 2024 m. vasarį, daugeliu atžvilgių buvo lyg GPT‑1 akimirka, tik vaizdo įrašų srityje: pirmą kartą atrodė, kad vaizdo generavimas iš tiesų veikia, o tokie paprasti elgesio bruožai kaip objekto pastovumas ėmė ryškėti padidinus išankstinio mokymo skaičiavimo mastą. Nuo tada „Sora“ komanda sutelkė dėmesį į modelių, turinčių pažangesnių pasaulio modeliavimo galimybių, mokymą. Manome, kad tokios sistemos bus labai svarbios mokant DI modelius, kurie nuodugniai supranta fizinį pasaulį. Svarbus etapas siekiant šio tikslo – įvaldyti išankstinį bei tolesnį mokymą naudojant didelio masto vaizdo duomenis; palyginti su kalbos sritimi, tai dar pradinė fazė.
Prompt: figure skater performs a triple axle with a cat on her head
Su „Sora 2“ mes iš karto pereiname prie to, kas, mūsų manymu, gali būti GPT3.5 akimirka vaizdo įrašų srityje. „Sora 2“ sugeba tai, kas ankstesniems vaizdo generavimo modeliams yra nepaprastai sunku – o kai kuriais atvejais tiesiog neįmanoma: olimpinė gimnastika, salto atgal ant irklentės tiksliai modeliuojant plūdrumo ir standumo dinamiką, ir trigubi akseliai, kol katė laikosi įsikibusi iš paskutiniųjų.
Prompt: a guy does a backflip
Ankstesni vaizdo įrašų modeliai yra pernelyg optimistiški – jie keičia objektų pavidalą ir deformuoja tikrovę, kad sėkmingai įvykdytų teksto raginimą. Pavyzdžiui, jei krepšininkas nepataiko metimo, kamuolys gali spontaniškai teleportuotis į lanką. „Sora 2“ modelyje, jei krepšininkas nepataiko, kamuolys atšoks nuo lentos. Įdomu tai, kad modelio daromos „klaidos“ dažnai atrodo esančios vidinio agento, kurį „Sora 2“ numanomai modeliuoja, klaidos; nors modelis vis dar netobulas, jis geriau paklūsta fizikos dėsniams, palyginti su ankstesnėmis sistemomis. Tai itin svarbi galimybė bet kuriam praktiškai naudingam pasaulio simuliatoriui – modelis turi gebėti modeliuoti ne tik sėkmę, bet ir nesėkmę.
Taip pat daug pažengta į priekį valdymo srityje – modelis gali vykdyti sudėtingas instrukcijas, apimančias kelis kadrus, ir tiksliai išlaikyti pasaulio būseną. Jis puikiai tinka tikroviškam, kinematografiniam ir anime stiliams.
Prompt: Vikings Go To War — North Sea Launch (10.0s, Winter cool daylight / early medieval)...
Kaip bendrosios paskirties vaizdo ir garso generavimo sistema, ji geba itin tikroviškai sukurti sudėtingus foninius garsovaizdžius, kalbą ir garso efektus.
Prompt: Two mountain explorers in bright technical shells, ice crusted faces, eyes narrowed with urgency shout in the snow, one at a time
Taip pat galite tiesiogiai įterpti realaus pasaulio elementų į „Sora 2“. Pavyzdžiui, stebėdamas vieno iš mūsų komandos narių vaizdo įrašą, modelis gali įterpti jį į bet kokią „Sora“ sugeneruotą aplinką, tiksliai pavaizduodamas išvaizdą ir balsą. Ši galimybė yra labai bendra ir tinka bet kokiam žmogui, gyvūnui ar objektui.
Prompt: Bigfoot is really kind to him, a little too kind, like oddly kind. Bigfoot wants to hang out but he he wants to hang too much
Modelis toli gražu nėra tobulas ir daro daug klaidų, tačiau tai patvirtinimas, kad tolesnis neuroninių tinklų plėtimas vaizdo duomenų srityje priartins mus prie tikrovės modeliavimo.
Manome, kad kurdami bendrosios paskirties modeliavimo ir DI sistemas, galinčias veikti fiziniame pasaulyje, galime sukurti modelius, su kuriais žmonėms bus labai smagu.
Prieš kelis mėnesius pirmą kartą „Sora“ komandoje pradėjome žaisti su funkcija „įkelk save“ – ji mums visiems labai patiko. Tai atrodė tarsi natūrali bendravimo evoliucija – nuo tekstinių žinučių iki jaustukų, balso pastabų ir štai iki šito.
Taigi šiandien pristatome naują socialinę „iOS“ programą, pavadintą tiesiog „Sora“, kurią palaiko „Sora 2“. Programoje galite kurti, perdaryti vieni kitų kūrinius, atrasti naujų vaizdo įrašų pritaikomame „Sora“ sraute ir įtraukti save ar savo draugus naudodami funkciją personažai. Naudodami personažus, galite itin tiksliai perkelti save tiesiai į bet kurią „Sora“ sceną, po trumpo vienkartinio vaizdo ir garso įrašo programoje, skirto jūsų tapatybei patikrinti ir panašumui užfiksuoti.
Praėjusią savaitę programą pristatėme visiems „OpenAI“ darbuotojams vidaus naudojimui. Jau girdėjome iš kolegų, kad dėl šios funkcijos jie susiranda naujų draugų įmonėje. Manome, kad socialinė programa, sukurta remiantis šia „personažų“ funkcija, yra geriausias būdas patirti „Sora 2“ magiją.
Didžiausią susirūpinimą kelia nusinaršymas (angl. „doomscrolling“), priklausomybė, izoliacija ir pastiprinamuoju mokymusi į menkavertį turinį nukreipti (angl. „RL-sloptimized“) srautai – štai ką darome, kad tai spręstume.
Suteikiame naudotojams įrankius ir galimybę kontroliuoti, ką jie mato sraute. Naudodami esamus „OpenAI“ didžiuosius kalbos modelius, sukūrėme naujos klasės rekomendavimo algoritmus, kuriuos galima instruktuoti natūraliąja kalba. Taip pat turime integruotus mechanizmus, skirtus periodiškai apklausti naudotojus apie jų savijautą ir iniciatyviai suteikti jiems galimybę koreguoti savo srautą.
Pagal numatytąsias nuostatas rodome turinį, labiausiai susijusį su žmonėmis, kuriuos sekate ar su kuriais bendraujate, ir teikiame pirmenybę vaizdo įrašams, kurie, modelio manymu, labiausiai tikėtina, kad bus naudojami kaip įkvėpimas jūsų pačių kūriniams. Neoptimizuojame sraute praleisto laiko ir specialiai sukūrėme programą, kad ji maksimaliai skatintų kūrybą, o ne vartojimą. Daugiau informacijos rasite mūsų Srauto filosofijoje
Ši programa skirta naudoti su draugais. Didžioji dalis testuotojų sako, kad būtent dėl personažų ši patirtis atrodo kitokia ir yra smagi naudoti – reikia pabandyti, kad suprastumėte, bet tai išties naujas, unikalus būdas bendrauti. Palaipsniui diegiame jį kaip kvietimais grįstą programą, kad galėtumėte prisijungti kartu su draugais. Kai visos didžiosios platformos traukiasi nuo socialinių ryšių tinklo, tikime, kad personažai stiprins bendruomeniškumą.
Mums svarbu apsaugoti paauglių gerovę. Nustatome numatytuosius apribojimus, kiek kartų per dieną paaugliai gali matyti generuojamą turinį sraute, taip pat diegiame griežtesnius leidimus dėl personažų šiai grupei. Be automatizuotų saugos priemonių, didiname moderatorių komandas, kurios, iškilus patyčių atvejams, galėtų greitai juos peržiūrėti. Kartu su „Sora“ pristatome tėvų kontrolės funkcijas per „ChatGPT“, kad tėvai galėtų pakeisti begalinio slinkimo limitus, išjungti algoritmo individualizavimą ir tvarkyti tiesioginių pranešimų nuostatas.
Naudodami personažus, visiškai kontroliuojate savo atvaizdą „Sora“ sistemoje. Tik Jūs sprendžiate, kas gali naudoti jūsų personažą, o prieigą galite atšaukti arba bet kada pašalinti bet kurį vaizdo įrašą, kuriame jis yra. Vaizdo įrašus su jūsų personažu, įskaitant kitų žmonių sukurtus juodraščius, galite matyti bet kuriuo metu.
Šioje programoje išsprendėme daug saugos klausimų: sutikimo dėl atvaizdo naudojimo gavimą, kilmę, žalingo turinio generavimo prevenciją ir daug daugiau. Daugiau informacijos rasite mūsų „Sora 2“ saugos dokumente.
Daugelis problemų, susijusių su kitomis programomis, kyla dėl pajamų gavimo modelio, skatinančio sprendimus, kurie kertasi su naudotojų gerove. Jei, atvirai vienintelis mūsų planas šiuo metu – ateityje suteikti naudotojams galimybę už tam tikrą mokestį sugeneruoti papildomą vaizdo įrašą, jei paklausa viršys turimus skaičiavimo išteklius. Programai tobulėjant, atvirai informuosime apie bet kokius mūsų požiūrio pokyčius ir toliau laikysimės pagrindinio tikslo – naudotojų gerovės.
Esame tik šios kelionės pradžioje, bet visos galingos „Sora 2“ turinio kūrimo ir perdarymo galimybės leidžia tai matyti kaip visiškai naujos bendrakūrybos eros startą. Esame nusiteikę optimistiškai, kad tai bus sveikesnė platforma pramogoms ir kūrybai nei tai, kas prieinama dabar. Tikimės, kad smagiai praleisite laiką :)
„Sora iOS“ programą(atsidaro naujame lange) jau galima atsisiųsti. Programoje galite užsiregistruoti gauti tiesioginį pranešimą, kai bus atverta prieiga jūsų paskyrai. Šiandien pradedame pradinį diegimą JAV ir Kanadoje , o netrukus planuojame plėstis į daugiau šalių. Gavę kvietimą, taip pat galėsite naudotis „Sora 2“ per sora.com(atsidaro naujame lange). Iš pradžių „Sora 2“ bus prieinama nemokamai, su pakankamai laisvais pradiniais apribojimais, kad žmonės galėtų laisvai tyrinėti jos galimybes, nors jie vis tiek priklausys nuo skaičiavimo išteklių. „ChatGPT Pro“ naudotojai taip pat galės naudoti mūsų eksperimentinį, aukštesnės kokybės Sora 2 Pro modelį svetainėje sora.com(atsidaro naujame lange) (o netrukus – ir „Sora“ programoje). Taip pat planuojame išleisti „Sora 2“ API. „Sora 1 Turbo“ liks prieinama, o viskas, ką sukūrėte, ir toliau bus jūsų sora.com(atsidaro naujame lange) bibliotekoje.
Vaizdo įrašų modeliai darosi labai geri — labai greitai. Bendrosios paskirties pasaulio simuliatoriai ir robotizuoti agentai iš esmės pakeis visuomenę ir paspartins žmonijos pažangos kreivę. „Sora 2“ žymi reikšmingą žingsnį šio tikslo link. Laikantis „OpenAI“ misijos, svarbu, kad žmonija gautų naudos iš šių modelių juos kuriant. Manome, kad „Sora“ atneš pasauliui daug džiaugsmo, kūrybiškumo ir ryšio.
– Parengė „Sora“ komanda
Pagrindinis objektas ir vaizdai
Pirmas planas: drakonas, skrodžiantis pro dantytas ledo smailes, sparnų galų sūkuriai, keliantys vėjo pustomą sniegą; antras planas: sutrūkinėjęs ledyno sluoksnis, krentantis į kobalto spalvos fiordą, gintarinis saulės kraštas, „bučiuojantis“ šerkšną ant žvynų; plėšrūno išraiška kupina ramybės / pastangų nereikalaujančios jėgos.
Formatas ir išvaizda
5,0 s; 4K; 180° užraktas; didelio formato skaitmeninio jutiklio emuliacija su ryškiu mikrokontrastu; labai smulkus grūdėtumas; santūri aureolė ant sniego žybsnių; jokio vartų virpėjimo.
Objektyvai ir filtravimas
Pagrindinis: 50 mm sferinis ant giroskopiškai stabilizuotos platformos, pritvirtintos priekyje (lygiagretus sekimas su nedideliu vidiniu lanku). Filtravimas: „Black Pro-Mist 1/8“; apskritas poliarizatorius nustatytas šviesiai, kad sumažintų sniego atspindį, išsaugant veidrodinį žvilgesį.
Spalvų korekcija / Paletė
Šviesūs tonai: švarus ledo baltumas su vėsiu perėjimu; vidutiniai tonai: plieno mėlynumo ledynas ir šviesus žydras oras; šešėliai: skalūno / žalsvai melsva su išsaugotomis plyšių detalėmis; šiltas gintaro apvadas ant drakono kraštų atskyrimui; ryškūs atspindžiai ant šerkšno / žvynų.
Apšvietimas ir atmosfera
Vėlyvos popietės žema saulė kaip kryžminis pagrindinis šaltinis; katabatinis vėjas, keliantis pustomą sniegą; plona sušalusi migla gyliui sukurti; protarpiniai ledo dulkių pliūpsniai kilvateryje; neryškūs drakono kvapo garai dėl pastangų.
Vieta ir kadravimas
Iškylantis ledo blokų laukas ir aštriabriaunė kalnagūbrio linija; kamera juda tokiu pačiu greičiu šalia drakono vidutiniame aukštyje, ledyno įstrižainės krypsta atgal į fiordą; pirmo plano ledo briaunos praskrieja arti, sukurdamos paralaksą; jokių žmonių sukurtų struktūrų.
Apranga / rekvizitai / transporto priemonės Pastabos
Netaikoma (būtybė). Paviršiaus vaizdas: matinės ragų briaunos, pusiau vaivorykštinės žvynų plokštelės su mikroskopiniu šerkšnu palei priekinius kraštus.
Garsas
Didžiaaukštė vėjo šlytis, sparnų membranos griausmas su kiekvienu mostu žemyn, krištolinis ledo tiksėjimas / girgždėjimas iš ledo blokų, tolimas ledyno atskilimo dundesys; greitas drakono iškvėpimas / urzgimas: „Rrhh–“ (mažiau nei 1 s). Jokio muzikinio takelio – tik gryna diegetinė baimė.
Optimizuotas kadrų sąrašas (1 kadras / 5,0 s)
0,0–5,0 – „Lygiagretus skrydis palei kalnagūbrį“ (50 mm, priekyje montuojama oro platforma su nedideliu posūkiu į vidų ir mažyčiu priartėjimu)
Mes judame kartu su drakonu, kuris skrodžia ledo smailių koridorių; sparnų galų sūkuriai paverčia pustomą sniegą kaspinais; atskilusi nuolauža krenta toli žemyn, palikdama dulkių debesį; kamera švelniai artėja – matosi žvynai, jie sužimba – tada drakonas pasuk link fiordo, uodega kirpdamas orą, mesdamas platų šešėlį ant ledyno.
Tikslas: vienu lemiamu praskridimu perteikti mitinį mąstą ir apčiuopiamą tikroviškumą – greitį, masę ir gaivalinį šaltį.
Kameros pastabos (Kodėl tai veikia)
50 mm subalansuoja būtybės buvimą ir kraštovaizdžio mastelį, jo nemažindamas; lygiagretus sekimas + į vidų nukreiptas lankas perteikia greitį ir formą; mažytis priartėjimas sutampa su stipriausiu mostu žemyn, pabrėžiant jėgą; šviesus poliarizatorius kontroliuoja atspindį, išlaikydamas žvilgesį; iš paskos / krašto šviečianti saulė išryškina siluetą; arti praskriejančios ledo briaunos suteikia paralakso greičio užuominų.
Apdaila
Labai smulkus grūdėtumas (~15 %); minimali aureolė ant sniego atspindžių; švelni spaudinio emuliacija, kad mėlyni atspalviai išliktų tikroviški, o juodi – sodrūs; daugiadažnė dinamika, kad išliktų sparnų dunksėjimas neužgožiant atskilimo dundesio; sustabdytas kadras: drakonas pasviręs virš saulės apšviesto ledo bloko, pustomas sniegas veržiasi srove, tolumoje ryškiai mėlynai švyti fiordas.
Sora 2
Debbie Mesloh
Caroline Zhao
Paskelbta 2025 m. rugsėjo 30 d.


