Preskočiť na hlavný obsah
OpenAI

Všetky videá na tejto stránke boli generované priamo pomocou Sora bez úprav.

Načítava sa…

Učíme umelú inteligenciu chápať a simulovať fyzický svet v pohybe s cieľom trénovať modely, ktoré pomáhajú ľuďom riešiť problémy vyžadujúce interakciu v reálnom svete.

Predstavujeme Sora, náš model premeny textu na video. Sora dokáže generovať videá s dĺžkou až jednu minútu pri zachovaní vizuálnej kvality a dodržiavaní príkazov používateľa.

Dnes je Sora k dispozícii členom červených tímov na posúdenie kritických oblastí z hľadiska škôd alebo rizík. Taktiež poskytujeme prístup viacerým vizuálnym umelcom, dizajnérom a filmárom, aby sme získali spätnú väzbu o tom, ako tento model vylepšiť a byť čo najužitočnejší pre kreatívnych profesionálov.

Pokrok v našom výskume zdieľame včas, aby sme mohli začať spolupracovať s ľuďmi mimo OpenAI a získavať od nich spätnú väzbu a aby sme verejnosti poskytli predstavu o tom, aké možnosti umelej inteligencie sa objavia v budúcnosti.

Sora dokáže generovať zložité scény s viacerými postavami, špecifickými typmi pohybu a presnými detailmi objektu a pozadia. Model chápe nielen to, čo používateľ požadoval v príkaze, ale aj to, ako tieto veci existujú vo fyzickom svete.

Model má hlboké pochopenie jazyka, čo mu umožňuje presne interpretovať výzvy a vytvárať pútavé postavy, ktoré vyjadrujú živé emócie. Sora dokáže tiež vytvoriť viacero záberov v rámci jedného vygenerovaného videa, ktoré presne zachovávajú postavy a vizuálny štýl.

Súčasný model má stále priestor na zlepšenie. Môže mať problém so simuláciou fyziky zložitej scény a nemusí pochopiť konkrétne prípady príčiny a následku (napríklad: na sušienke nemusí zostať stopa po tom, čo do nej postava zahryzne). Model si môže tiež zamieňať priestorové detaily zahrnuté v príkaze, ako napríklad rozlišovanie ľavého a pravého okraja, alebo mať problém s presným popisom udalostí, ktoré sa odohrávajú v priebehu času, ako sú napríklad špecifické trajektórie kamery.

Bezpečnosť

Pred sprístupnením Sora v produktoch OpenAI podnikneme niekoľko dôležitých bezpečnostných opatrení. Spolupracujeme s členmi červeného tímu – odborníkmi v oblastiach ako dezinformácie, nenávistný obsah a zaujatosť – ktorí budú model testovať v protirečivých situáciách.

Taktiež vyvíjame nástroje, ktoré pomôžu odhaliť zavádzajúci obsah, ako napríklad klasifikátor detekcie, ktorý dokáže zistiť, kedy Sora vygenerovala video. Plánujeme v budúcnosti zahrnúť metaúdaje C2PA(otvorí sa v novom okne), ak model nasadíme do produktu OpenAI.

Okrem vývoja nových techník na prípravu na nasadenie využívame aj existujúce bezpečnostné metódy(otvorí sa v novom okne) , ktoré sme vytvorili pre naše produkty využívajúce DALL·E 3 a ktoré sú použiteľné aj pre Sora.

Napríklad, keď je náš klasifikátor textu v produkte OpenAI, skontroluje a odmietne textové príkazy, ktoré porušujú naše pravidlá používania, ako napríklad tie, ktoré požadujú extrémne násilie, sexuálny obsah, nenávistné obrázky, podobu celebrít alebo IP adresy iných. Vyvinuli sme tiež robustné klasifikátory obrázkov, ktoré sa používajú na kontrolu snímok každého vygenerovaného videa, aby sa zabezpečilo, že pred zobrazením používateľovi spĺňa naše pravidlá používania.

Budeme oslovovať tvorcov politík, pedagógov a umelcov z celého sveta, aby sme pochopili ich obavy a identifikovali pozitívne prípady využitia tejto novej technológie. Napriek rozsiahlemu výskumu a testovaniu nedokážeme predpovedať všetky prospešné spôsoby, akými ľudia budú našu technológiu používať, ani všetky spôsoby, akými ju ľudia zneužijú. Preto veríme, že učenie sa z reálneho používania je kľúčovou súčasťou vytvárania a vydávania čoraz bezpečnejších systémov umelej inteligencie v priebehu času.

Research techniques

Sora je difúzny model, ktorý generuje video tak, že začína s videom, ktoré vyzerá ako statický šum a postupne ho transformuje odstraňovaním šumu v priebehu mnohých krokov.

Sora dokáže generovať celé videá naraz alebo ich predĺžiť. Tým, že sme modelu poskytli predvídavosť mnohých snímok naraz, sme vyriešili náročný problém, ako zabezpečiť, aby subjekt zostal rovnaký, aj keď sa dočasne stratí z dohľadu.

Podobne ako modely GPT, aj Sora používa architektúru transformátora, ktorá umožňuje vynikajúci výkon škálovania.

Videá a obrázky reprezentujeme ako zbierky menších dátových jednotiek nazývaných záplaty, pričom každá z nich je podobná tokenu v GPT. Zjednotením spôsobu, akým reprezentujeme údaje, môžeme trénovať difúzne transformátory na širšom spektre vizuálnych údajov, než bolo možné predtým, a to s rôznym trvaním, rozlíšením a pomerom strán.

Sora stavia na predchádzajúcom výskume modelov DALL·E a GPT. Používa techniku prepisovania z DALL·E 3, ktorá zahŕňa generovanie vysoko popisných titulkov pre vizuálne tréningové dáta. Vďaka tomu je model schopný vernejšie sledovať textové pokyny používateľa vo vygenerovanom videu.

Okrem toho, že model dokáže vygenerovať video výlučne z textových pokynov, dokáže z existujúceho statického obrázka vygenerovať video, pričom presne a s dôrazom na malé detaily animuje obsah obrázka. Model dokáže tiež prevziať existujúce video a rozšíriť ho alebo doplniť chýbajúce snímky. Ďalšie informácie nájdete v našej technickej správe.

Sora slúži ako základ pre modely, ktoré dokážu pochopiť a simulovať reálny svet, čo je podľa nás dôležitý míľnik pre dosiahnutie AGI.

Načítava sa...