Aqbeż għall-kontenut prinċipali
OpenAI

Toħloq vidjo minn test

Il-vidjos kollha f’din il-paġna ġew iġġenerati direttament minn Sora mingħajr modifiki.

Qed jillowdja…

Qed ngħallmu lill-IA tifhem u tissimula d-dinja fiżika f’moviment, bil-għan li nħarrġu mudelli li jgħinu lin-nies isolvu problemi li jeħtieġu interazzjoni mad-dinja reali.

Nintroduċu Sora, il-mudell tagħna minn test għal vidjo. Sora tista’ tiġġenera vidjos sa minuta fit-tul filwaqt li żżomm il-kwalità viżiva u l-aderenza mal-prompt tal-utent.

Illum, Sora qed issir disponibbli għal red teamers biex jivvalutaw oqsma kritiċi ta’ ħsara jew riskji. Qed nagħtu wkoll aċċess lil numru ta’ artisti viżivi, disinjaturi u produtturi tal-films biex niksbu feedback dwar kif navvanzaw il-mudell biex ikun l-aktar utli għall-professjonisti kreattivi.

Qed naqsmu l-progress tar-riċerka tagħna kmieni biex nibdew naħdmu ma’ u niksbu feedback mingħand nies barra minn OpenAI u biex nagħtu lill-pubbliku idea ta’ liema kapaċitajiet tal-IA hemm fil-qrib.

Sora kapaċi tiġġenera xeni kumplessi b’ħafna karattri, tipi speċifiċi ta’ moviment, u dettalji preċiżi tas-suġġett u l-isfond. Il-mudell jifhem mhux biss x’kien talab l-utent fil-prompt, iżda wkoll kif dawk l-affarijiet jeżistu fid-dinja fiżika.

Il-mudell għandu fehim profond tal-lingwa, li jippermettilu jinterpreta prompts b’mod preċiż u jiġġenera karattri attraenti li jesprimu emozzjonijiet ħajjin. Sora tista’ wkoll toħloq diversi shots fi ħdan vidjo wieħed iġġenerat li jżommu b’mod preċiż il-karattri u l-istil viżiv.

Il-mudell attwali għad għandu spazju biex jitjieb. Jista’ jsibha diffiċli biex jissimula l-fiżika ta’ xena kumplessa, u jista’ ma jifhimx każijiet speċifiċi ta’ kawża u effett (pereżempju: cookie jista’ ma jurix marka wara li karattru jieħu gidma minnu). Il-mudell jista’ wkoll iħawwad dettalji spazjali inklużi f’prompt, bħal li jiddistingwi x-xellug mil-lemin, jew isibha diffiċli b’deskrizzjonijiet preċiżi ta’ avvenimenti li jiżvolġu maż-żmien, bħal trajettorji speċifiċi tal-kamera.

Sigurtà

Se nkunu qed nieħdu diversi passi importanti ta’ sigurtà qabel ma nagħmlu Sora disponibbli fil-prodotti ta’ OpenAI. Qed naħdmu ma’ red teamers — esperti f’oqsma bħad-diżinformazzjoni, kontenut ta’ mibegħda u preġudizzju — li se jittestjaw il-mudell b’mod avversarju.

Qed nibnu wkoll għodod biex ngħinu nidentifikaw kontenut qarrieqi bħal classifier ta’ rilevament li jista’ jgħid meta vidjo jkun ġie ġġenerat minn Sora. Nippjanaw li ninkludu metadata C2PA(jinfetaħ f’tieqa ġdida) fil-futur jekk inqiegħdu l-mudell fi prodott ta’ OpenAI.

Minbarra li qed niżviluppaw tekniki ġodda biex nippreparaw għad-deployment, qed nużaw ukoll il-metodi ta’ sigurtà eżistenti(jinfetaħ f’tieqa ġdida) li bnejna għall-prodotti tagħna li jużaw DALL·E 3, li huma applikabbli għal Sora wkoll.

Pereżempju, ladarba tkun fi prodott ta’ OpenAI, il-classifier tat-test tagħna se jiċċekkja u jirrifjuta prompts ta’ input tat-test li jmorru kontra l-politiki tal-użu tagħna, bħal dawk li jitolbu vjolenza estrema, kontenut sesswali, xbihat ta’ mibegħda, xebh ma’ ċelebritajiet, jew il-proprjetà intellettwali ta’ oħrajn. Żviluppajna wkoll classifiers robusti tal-immaġni li jintużaw biex jirrevedu l-frames ta’ kull vidjo ġġenerat biex jgħinu jiżguraw li jimxi mal-politiki tal-użu tagħna, qabel ma jintwera lill-utent.

Se nkunu qed ninvolvu lil dawk li jfasslu l-politika, edukaturi u artisti madwar id-dinja biex nifhmu t-tħassib tagħhom u nidentifikaw każijiet ta’ użu pożittivi għal din it-teknoloġija ġdida. Minkejja riċerka u testijiet estensivi, ma nistgħux nipprevedu l-modi kollha ta’ benefiċċju kif in-nies se jużaw it-teknoloġija tagħna, u lanqas il-modi kollha kif jistgħu jabbużaw minnha. Huwa għalhekk li nemmnu li t-tagħlim mill-użu fid-dinja reali huwa komponent kruċjali fil-ħolqien u r-rilaxx ta’ sistemi tal-IA dejjem aktar siguri maż-żmien.

Research techniques

Sora huwa mudell tad-diffużjoni, li jiġġenera vidjo billi jibda minn wieħed li jidher bħal storbju statiku u gradwalment jittrasformah billi jneħħi l-istorbju fuq ħafna passi.

Sora kapaċi jiġġenera vidjos sħaħ f’daqqa jew jestendi vidjos iġġenerati biex jagħmilhom itwal. Billi nagħtu lill-mudell antiċipazzjoni ta’ ħafna frames f’daqqa, solvejna problema diffiċli biex niżguraw li suġġett jibqa’ l-istess anke meta temporanjament joħroġ mill-vista.

Bħall-mudelli GPT, Sora juża arkitettura tat-transformer, li tiftaħ prestazzjoni superjuri fl-iskalar.

Aħna nirrappreżentaw il-vidjos u l-immaġnijiet bħala kollezzjonijiet ta’ unitajiet iżgħar ta’ data msejħa patches, li kull waħda minnhom hija simili għal token f’GPT. Billi ngħaqqdu kif nirrappreżentaw id-data, nistgħu nħarrġu transformer tad-diffużjoni fuq firxa usa’ ta’ data viżiva milli kien possibbli qabel, li tkopri tulijiet, riżoluzzjonijiet u aspect ratios differenti.

Sora tibni fuq riċerka preċedenti fil-mudelli DALL·E u GPT. Tuża t-teknika tar-recaptioning minn DALL·E 3, li tinvolvi l-ġenerazzjoni ta’ captions deskrittivi ħafna għad-data viżiva tat-taħriġ. B’riżultat ta’ dan, il-mudell kapaċi jsegwi b’mod aktar fidil l-istruzzjonijiet tat-test tal-utent fil-vidjo ġġenerat.

Minbarra li jista’ jiġġenera vidjo biss minn istruzzjonijiet tat-test, il-mudell kapaċi jieħu immaġni wieqfa eżistenti u jiġġenera vidjo minnha, janimaha b’eżattezza u attenzjoni għad-dettalji żgħar. Il-mudell jista’ wkoll jieħu vidjo eżistenti u jestendih jew jimla frames neqsin. Sir af aktar fir-rapport tekniku tagħna.

Sora sservi bħala pedament għal mudelli li jistgħu jifhmu u jissimulaw id-dinja reali, kapaċità li nemmnu li se tkun pass importanti biex nilħqu AGI.

Qed jillowdja...