Անցնել հիմնական բովանդակությանը
OpenAI

Տեքստից տեսանյութի ստեղծում

Այս էջի բոլոր տեսանյութերը գեներացվել են անմիջապես Sora-ի կողմից՝ առանց փոփոխման։

Բեռնվում է…

Մենք սովորեցնում ենք ԱԲ-ին հասկանալ և մոդելավորել շարժման մեջ գտնվող ֆիզիկական աշխարհը՝ նպատակ ունենալով վարժեցնել մոդելներ, որոնք կօգնեն մարդկանց լուծել իրական աշխարհի հետ փոխազդեցություն պահանջող խնդիրներ։

Ներկայացնում ենք Sora-ն՝ տեքստը տեսանյութի փոխակերպելու մեր մոդելը։ Sora-ն կարող է գեներացնել մինչև մեկ րոպե տևողությամբ տեսանյութեր՝ պահպանելով տեսողական որակը և համապատասխանությունը օգտատիրոջ հարցմանը:

Այսօր, Sora-ն դառնում է հասանելի կարմիր թիմի անդամներին՝ գնահատելու կրիտիկական ոլորտների վնասները կամ ռիսկերը: Մենք նաև տրամադրում ենք մուտք մի շարք վիզուալ նկարիչների, դիզայներների և կինոգործիչների՝ կարծիք ստանալու այն մասին, թե ինչպես կատարելագործել մոդելը, որպեսզի այն առավել օգտակար լինի ստեղծագործական մասնագետների համար։

Մենք վաղ ենք կիսվում մեր հետազոտական առաջընթացով՝ OpenAI-ից դուրս գտնվող մարդկանց հետ աշխատելու և կարծիքներ ստանալու համար, ինչպես նաև հասարակությանը պատկերացում տալու, թե ինչպիսի ԱԲ հնարավորություններ են սպասվում ապագայում։

Sora-ն կարող է գեներացնել բարդ տեսարաններ բազմաթիվ նշերով, շարժման կոնկրետ տեսակներով և առարկայի և ֆոնի ճշգրիտ մանրամասներով: Մոդելը հասկանում է ոչ միայն այն, ինչ օգտատերը խնդրել է հարցումում, այլ նաև, թե ինչպես այդ իրերը գոյություն ունեն ֆիզիկական աշխարհում։

Մոդելը խորը պատկերացում ունի լեզվի մասին, ինչը հնարավորություն է տալիս ճշգրիտ մեկնաբանել հարցումները և գեներացնել ազդեցիկ նշեր, որոնք արտահայտում են վառ զգացմունքներ: Sora-ն կարող է նաև ստեղծել բազմաթիվ կադրեր մեկ գեներացված տեսանյութում, որոնք ճշգրիտ կերպով պահպանում են նշերը ու տեսողական ոճը։

Ներկայիս մոդելը դեռ կատարելագործման հնարավորություն ունի։ Այն կարող է դժվարանալ բարդ տեսարանի ֆիզիկան մոդելավորել և չհասկանալ պատճառահետևանքային կապի կոնկրետ դեպքերը (օրինակ՝ թխուկի վրա կարող է ցույց չտալ հետքը, երբ կերպարը կծում է թխուկը): Մոդելը կարող է նաև շփոթել հարցման մեջ ներառված տարածական մանրամասները, օրինակ՝ ձախն ու աջը տարբերակելը, կամ դժվարանալ ժամանակի ընթացքում զարգացող իրադարձությունների ճշգրիտ նկարագրությունների հետ, ինչպես օրինակ՝ տեսախցիկի հատուկ հետագծերը։

Անվտանգություն

OpenAI- ի արտադրանքներում Sora-ն հասանելի դարձնելուց առաջ մենք կձեռնարկենք անվտանգության մի քանի կարևոր քայլեր: Մենք աշխատում ենք կարմիր թիմերի՝ տիրույթի փորձագետների հետ, ինչպիսիք են ապատեղեկատվության, ատելության բովանդակության և կողմնակալության ոլորտները, ովքեր հակառակորդաբար կփորձարկեն մոդելը։

Մենք նաև ստեղծում ենք գործիքներ, որոնք կօգնեն հայտնաբերել ապակողմնորոշող բովանդակություն, օրինակ՝ հայտնաբերման դասակարգիչ, որը կարող է որոշել, թե երբ է տեսանյութը գեներացվել Sora-ի կողմից: Մենք պլանավորում ենք ապագայում C2PA մետատվյալները(բացվում է նոր պատուհանում) ներառել, եթե մոդելը տեղակայենք OpenAI արտադրանքի մեջ:

Բացի այն, որ մենք նոր տեխնիկա ենք մշակում տեղակայմանը պատրաստվելու համար, մենք օգտվում ենք անվտանգության առկա մեթոդներից(բացվում է նոր պատուհանում), որոնք մենք մշակել ենք մեր արտադրանքների համար, որոնք օգտագործում են DALL·E 3-ը և որոնք կիրառելի են նաև Sora-ի համար:

Օրինակ, OpenAI արտադրանքի մեջ մտնելուց հետո մեր տեքստի դասակարգիչը կստուգի և կմերժի տեքստի մուտքագրման հարցումները, որոնք խախտում են մեր օգտագործման կանոնները, օրինակ՝ նրանք, որոնք պահանջում են ծայրահեղ բռնություն, սեռական բովանդակություն, ատելության պատկերներ, հայտնիների նմանություն կամ ուրիշների մտավոր սեփականություն։ Մենք նաև մշակել ենք ամուր պատկերների դասակարգիչներ, որոնք օգտագործվում են գեներացված յուրաքանչյուր տեսանյութի շրջանակները վերանայելու համար՝ ապահովելու, որ այն համապատասխանի մեր օգտագործման կանոններին, նախքան այն ցուցադրվի օգտատիրոջը:

Մենք կներգրավենք քաղաքականության մշակողներին, մանկավարժներին և արվեստագետներին ամբողջ աշխարհում՝ նրանց մտահոգությունները հասկանալու և այս նոր տեխնոլոգիայի դրական կիրառման դեպքերը բացահայտելու համար։ Չնայած ծավալուն հետազոտություններին և փորձարկումներին, մենք չենք կարող կանխատեսել բոլոր օգտակար եղանակները, որոնցով մարդիկ կօգտագործեն մեր տեխնոլոգիան, ոչ էլ բոլոր եղանակները, որոնցով մարդիկ կչարաշահեն այն։ Դրա համար մենք կարծում ենք, որ իրական աշխարհի օգտագործումից սովորելը ժամանակի ընթացքում ավելի ու ավելի անվտանգ ԱԲ համակարգեր ստեղծելու և թողարկելու կարևորագույն բաղադրիչ է։

Research techniques

Sora-ն դիֆուզիոն մոդել է, որը գեներացնում է տեսանյութ՝ սկսելով այնպիսի մեկից, որը նման է ստատիկ աղմուկի, և աստիճանաբար փոխակերպում է այն՝ հեռացնելով աղմուկը բազմաթիվ քայլերով։

Sora-ն ի վիճակի է միանգամից գեներացնել ամբողջական տեսանյութեր կամ երկարացնել արդեն գեներացված տեսանյութերը՝ դրանք ավելի երկար դարձնելու համար։ Մոդելին միաժամանակ բազմաթիվ շրջանակների հեռատեսություն տալով՝ մենք լուծել ենք բարդ խնդիր՝ համոզվելու, որ առարկան մնում է նույնը, նույնիսկ այն ժամանակ, երբ այն ժամանակավորապես դուրս է գալիս տեսադաշտից։

GPT մոդելների պես Sora-ն օգտագործում է տրանսֆորմատորային ճարտարապետություն՝ բացահայտելով գերազանց մասշտաբային կատարողականություն։

Մենք տեսանյութերն ու պատկերները ներկայացնում ենք որպես տվյալների փոքր միավորների հավաքածուներ, որոնք կոչվում են փատչեր, որոնցից յուրաքանչյուրը նման է GPT‑ում տոկենի։ Տվյալների ներկայացման եղանակը միասնականացնելով՝ մենք կարող ենք վարժեցնել դիֆուզիոն տրանսֆորմատորները տեսողական տվյալների ավելի լայն շրջանակի վրա, քան հնարավոր էր նախկինում՝ ընդգրկելով տարբեր տևողություններ, բանաձևեր և կողմերի հարաբերակցություններ:

Sora-ն հիմնվում է DALL·E և GPT մոդելների վերաբերյալ նախկինում կատարված հետազոտությունների վրա։ Այն օգտագործում է DALL·E 3-ի վերագրման տեխնիկան, որը ներառում է տեսողական ուսուցման տվյալների համար խիստ նկարագրական վերնագրեր գեներացնել։ Արդյունքում մոդելը կարողանում է ավելի հավատարմորեն հետևել օգտատիրոջ տեքստային հրահանգներին գեներացված տեսանյութում։

Բացի այն, որ կարող է տեսանյութ գեներացնել բացառապես տեքստային հրահանգներից, մոդելը կարող է վերցնել գոյություն ունեցող անշարժ պատկեր և դրանից տեսանյութ գեներացնել՝ անիմացնելով պատկերի բովանդակությունը ճշգրտությամբ և ուշադրություն դարձնելով փոքր մանրամասներին։ Մոդելը կարող է նաև վերցնել գոյություն ունեցող տեսանյութը և երկարացնել այն կամ լրացնել բացակայող կադրերը: Իմացեք ավելին մեր տեխնիկական զեկույցում։

Sora-ն ծառայում է որպես հիմք այն մոդելների համար, որոնք կարող են հասկանալ և մոդելավորել իրական աշխարհը. մի կարողություն, որը մենք հավատում ենք, որ կլինի կարևոր հանգրվան AGI-ին հասնելու համար:

Բեռնվում է...