Негізгі мазмұнға өту
OpenAI

Бұл беттегі барлық видеоларды Sora еш өзгеріссіз тікелей жасады.

Жүктелуде…

Біз AI-ды қозғалыстағы физикалық әлемді түсінуге және модельдеуге үйретіп жатырмыз, мақсатымыз — адамдарға шынайы әлеммен әрекеттесуді талап ететін мәселелерді шешуге көмектесетін модельдерді үйрету.

Мәтіннен видео жасайтын модельіміз Sora-ны таныстырамыз. Sora визуал сапаны және пайдаланушы көмексөзіне сәйкестікті сақтай отырып, ұзақтығы бір минутқа дейінгі видеолар жасай алады.

Бүгін Sora зиян не қауіп тудыруы мүмкін маңызды салаларды бағалау үшін red team мамандарына қолжетімді бола бастады. Сондай-ақ модельді шығармашылық мамандарға барынша пайдалы ету жолдарын жетілдіру үшін пікір алу мақсатында бірқатар визуал әртістерге, дизайнерлерге және кинорежиссерлерге қолжетімділік беріп отырмыз.

Біз зерттеу барысымызды ертерек бөлісіп отырмыз, өйткені OpenAI-дан тыс адамдармен жұмыс істеп, олардың пікірін алуды бастағымыз келеді және жұртшылыққа AI мүмкіндіктерінің көкжиегінде не тұрғанын сезіндіруді мақсат етеміз.

Sora бірнеше кейіпкері, нақты қозғалыс түрлері және нысан мен артқы жоспардың дәл бөлшектері бар күрделі көріністерді жасай алады. Модель пайдаланушы көмексөзде не сұрағанын ғана емес, сол нәрселердің физикалық әлемде қалай өмір сүретінін де түсінеді.

Модель тілді терең түсінеді, бұл оған көмексөздерді дәл түсіндіріп, жарқын эмоция білдіретін тартымды кейіпкерлер жасауға мүмкіндік береді. Sora сондай-ақ бір жасалған видеоның ішінде бірнеше кадр жасап, кейіпкерлер мен визуал стильдің дәл сақталуын қамтамасыз ете алады.

Қазіргі модельді әлі де жетілдіруге болады. Ол күрделі көріністің физикасын модельдеуде қиналуы мүмкін және себеп-салдардың нақты жағдайларын толық түсінбеуі ықтимал (мысалы: кейіпкер печеньеден тістеп алса да, онда із қалмауы мүмкін). Модель көмексөздегі кеңістіктік бөлшектерді де шатастыруы мүмкін, мысалы сол мен оңды айыру, немесе уақыт өте өрбитін оқиғалардың нақты сипаттамаларын, мысалы камераның белгілі бір траекторияларын, дәл беруде қиналады.

Қауіпсіздік

Біз Sora-ны OpenAI өнімдерінде қолжетімді етпестен бұрын бірнеше маңызды қауіпсіздік қадамын жасаймыз. Біз misinformation, жеккөрінішті контент және bias секілді салалардың сарапшылары болып табылатын red team мамандарымен жұмыс істеп жатырмыз, олар модельді қарсылас тәсілмен сынайды.

Сондай-ақ алдамшы контентті анықтауға көмектесетін құралдар жасап жатырмыз, мысалы, видеоны Sora жасағанын айта алатын анықтау классификаторы. Егер модельді OpenAI өніміне енгізсек, болашақта C2PA метадеректерін(жаңа терезеде ашылады) қосуды жоспарлап отырмыз.

Енгізуге дайындалу үшін жаңа тәсілдер жасап қана қоймай, біз DALL·E 3 қолданатын өнімдеріміз үшін жасаған және Sora-ға да қолдануға болатын қолданыстағы қауіпсіздік әдістерін(жаңа терезеде ашылады) пайдаланып отырмыз.

Мысалы, OpenAI өнімінде болған кезде, мәтіндік классификаторымыз пайдалану саясатымызды бұзатын мәтіндік көмексөздерді — шектен тыс зорлық-зомбылықты, сексуал контентті, жеккөрінішті бейнелерді, танымал адамдарға ұқсастықты немесе өзгенің зияткерлік меншігін сұрайтындарды — тексеріп, қабылдамайды. Сондай-ақ әр жасалған видеоның кадрларын қарап, оның пайдаланушыға көрсетілмес бұрын пайдалану саясатымызға сай болуына көмектесетін қуатты кескін классификаторларын жасадық.

Біз бұл жаңа технологияға қатысты алаңдаушылықтарды түсіну және оң қолдану жағдайларын анықтау үшін әлемдегі саясаткерлермен, педагогтармен және әртістермен жұмыс істейтін боламыз. Кең ауқымды зерттеу мен тестілеуге қарамастан, адамдар технологиямызды қандай пайдалы тәсілдермен қолданатынын да, оны қандай жолдармен теріс пайдаланатынын да толық болжай алмаймыз. Сондықтан шынайы әлемдегі қолданудан үйрену уақыт өте келе барған сайын қауіпсіз AI жүйелерін жасау мен шығарудың маңызды бөлігі деп санаймыз.

Research techniques

Sora — диффузиялық модель, ол бастапқыда теледидардағы шудың бейнесіне ұқсайтын видеодан бастап, шуды көптеген қадам бойы біртіндеп жою арқылы оны түрлендіріп, видео жасайды.

Sora тұтас видеоларды бірден жасай алады немесе жасалған видеоларды ұзарта алады. Модельге бір уақытта көптеген кадрды алдын ала көруге мүмкіндік беру арқылы біз нысан уақытша көзден таса болса да, оның өзгермей қалуын қамтамасыз ету секілді күрделі мәселені шештік.

GPT модельдері сияқты, Sora трансформер архитектурасын пайдаланады, бұл ауқымдауды әлдеқайда тиімді етеді.

Біз видео мен кескіндерді patches деп аталатын кіші дерек бірліктерінің жиынтығы ретінде ұсынамыз, олардың әрқайсысы GPT‑тегі токенге ұқсас. Деректі ұсыну тәсілін біріздендіру арқылы біз диффузиялық трасформерлерді бұрын мүмкін болмағаннан да кеңірек визуал дерек ауқымында — әртүрлі ұзақтық, ажыратымдылық және кадр пішімдерінде — үйрете аламыз.

Sora DALL·E мен GPT модельдері бойынша алдыңғы зерттеулерге сүйенеді. Ол DALL·E 3-тегі recaptioning техникасын қолданады, мұнда визуал оқыту дерегі үшін өте сипаттамалы жазулар жасалады. Соның нәтижесінде модель жасалған видеода пайдаланушының мәтіндік нұсқауларын дәлірек орындай алады.

Модель тек мәтіндік нұсқаулардан видео жасап қана қоймай, бар қозғалмайтын кескінді алып, одан видео да жасай алады, кескін мазмұнын дәл және ұсақ бөлшектерге мұқият түрде жандандырады. Модель сондай-ақ бар видеоны ұзарта алады немесе жетіспейтін кадрларды толтыра алады. Техникалық есебімізден толығырақ біліңіз.

Sora шынайы әлемді түсініп, модельдей алатын модельдер үшін іргетас болады, ал біз бұл қабілетті AGI-ге жетудегі маңызды белес деп санаймыз.

Жүктелуде...