મુખ્ય વિષય-સામગ્રી પર જાવો
OpenAI

લખાણમાંથી વિડિયો બનાવવું

આ પેજ પરનાં બધા વિડિયો કોઈ ફેરફાર વગર સીધા Sora દ્વારા જનરેટ કરવામાં આવ્યા હતા.

લોડિંગ…

અમે AIને ગતિમાં રહેલી ભૌતિક દુનિયાને સમજવા અને તેનું અનુસરણ કરવા શીખવી રહ્યા છીએ, એ હેતુથી કે એવા મોડલોને તાલીમ આપી શકાય જે લોકોને વાસ્તવિક દુનિયા સાથેની ક્રિયા જરૂરી હોય તેવી સમસ્યાઓ ઉકેલવામાં મદદ કરે.

અમે Sora રજૂ કરીએ છીએ, અમારું ટેક્સ્ટ-થી-વિડિયો મોડલ. Sora દૃશ્ય ગુણવત્તા અને વપરાશકર્તાના પ્રોમ્પ્ટ પ્રત્યેની વફાદારી જાળવી રાખતાં એક મિનિટ સુધીના વિડિયો જનરેટ કરી શકે છે.

આજે, Sora નુકસાન અથવા જોખમના મહત્વપૂર્ણ ક્ષેત્રોનું મૂલ્યાંકન કરવા માટે રેડ ટીમર્સને ઉપલબ્ધ બનવાનું શરૂ કરી રહ્યું છે. મોડલને સર્જનાત્મક વ્યાવસાયિકો માટે સૌથી વધુ ઉપયોગી રીતે આગળ કેવી રીતે વધારવું તે અંગે પ્રતિસાદ મેળવવા માટે અમે અનેક દૃશ્ય કલાકારો, ડિઝાઇનરો અને ફિલ્મ નિર્માતાઓને પણ ઍક્સેસ આપી રહ્યા છીએ.

અમે અમારા સંશોધનની પ્રગતિ વહેલી તકે શેર કરી રહ્યા છીએ જેથી OpenAI બહારના લોકો સાથે કામ શરૂ કરી શકાય અને તેમની પાસેથી પ્રતિસાદ મળી શકે, તથા જનતાને એ સમજ મળે કે નજીકના ભવિષ્યમાં AIની કઈ ક્ષમતાઓ આવી રહી છે.

Sora ઘણા પાત્રો, ચોક્કસ પ્રકારની ગતિ અને વિષય તથા પૃષ્ઠભૂમિના સચોટ વિગતોથી ભરેલા જટિલ દૃશ્યો જનરેટ કરી શકે છે. મોડલ માત્ર વપરાશકર્તાએ પ્રોમ્પ્ટમાં શું માંગ્યું છે તે જ નહીં, પણ તે વસ્તુઓ ભૌતિક વિશ્વમાં કેવી રીતે અસ્તિત્વ ધરાવે છે તે પણ સમજે છે.

મોડલને ભાષાની ઊંડી સમજ છે, જે તેને પ્રોમ્પ્ટ્સને ચોક્કસ રીતે સમજવામાં અને જીવંત ભાવનાઓ વ્યક્ત કરતા આકર્ષક પાત્રો બનાવવામાં સક્ષમ બનાવે છે. Sora એક જ જનરેટ થયેલા વિડિયોમાં અનેક શોટ્સ પણ બનાવી શકે છે, જેમાં પાત્રો અને દૃશ્ય શૈલીની સચોટ સતતતા જળવાય છે.

હાલના મોડલમાં હજુ સુધારાની જગ્યા છે. તેને જટિલ દૃશ્યના ભૌતિકશાસ્ત્રનું અનુસરણ કરવામાં મુશ્કેલી પડી શકે છે અને કારણ-પરિણામના ચોક્કસ ઉદાહરણો પણ કદાચ સમજાઈ ન શકે. ઉદાહરણ તરીકે, કોઈ પાત્ર કુકીમાં કાપે પછી તેમાં નિશાન ન દેખાય. મોડલ પ્રોમ્પ્ટમાં સમાવાયેલ સ્થળ સંબંધિત વિગતોમાં પણ ગૂંચવાઈ શકે છે, જેમ કે ડાબું અને જમણું અલગ પાડવામાં, અથવા સમય સાથે બનતી ઘટનાઓના ચોક્કસ વર્ણનો, જેમ કે ચોક્કસ કેમેરા માર્ગો, સમજવામાં મુશ્કેલી અનુભવી શકે છે.

સુરક્ષા

OpenAIના ઉત્પાદનોમાં Sora ઉપલબ્ધ કરાવતા પહેલાં અમે અનેક મહત્વપૂર્ણ સુરક્ષા પગલાં લઈશું. અમે રેડ ટીમર્સ સાથે કામ કરી રહ્યા છીએ. આ એવા ક્ષેત્ર નિષ્ણાતો છે, જેમ કે ભ્રામક માહિતી, ઘૃણાસ્પદ સામગ્રી અને પક્ષપાત જેવા ક્ષેત્રોમાં, જે મોડલનું adversarial પરીક્ષણ કરશે.

અમે ભ્રામક સામગ્રી શોધવામાં મદદરૂપ બને એવા સાધનો પણ બનાવી રહ્યા છીએ, જેમ કે detection classifier, જે કહી શકે કે વિડિયો Sora દ્વારા જનરેટ થયો હતો કે નહીં. જો અમે મોડલને OpenAIના ઉત્પાદનમાં તહેનાત કરીએ, તો ભવિષ્યમાં C2PA metadata(નવી વિન્ડોમાં ખૂલે છે) સામેલ કરવાની અમારી યોજના છે.

તહેનાતી માટે તૈયારીરૂપે નવી તકનીકો વિકસાવવા ઉપરાંત, અમે DALL·E 3 વાપરતા અમારા ઉત્પાદનો માટે બનાવેલી હાલની સુરક્ષા પદ્ધતિઓ(નવી વિન્ડોમાં ખૂલે છે)નો પણ ઉપયોગ કરી રહ્યા છીએ, જે Sora માટે પણ લાગુ પડે છે.

ઉદાહરણ તરીકે, OpenAIના ઉત્પાદનમાં સામેલ થયા પછી, અમારો ટેક્સ્ટ classifier એવા લખાણ આધારિત ઇનપુટ પ્રોમ્પ્ટ્સની ચકાસણી કરીને નકારી કાઢશે, જે અમારી ઉપયોગ નીતિઓનું ઉલ્લંઘન કરે છે, જેમ કે અતિશય હિંસા, યૌન સામગ્રી, ઘૃણાસ્પદ છબીઓ, સેલિબ્રિટી સમાનતા અથવા અન્ય લોકોની IP માગતા પ્રોમ્પ્ટ્સ. અમે મજબૂત ઇમેજ classifiers પણ વિકસાવ્યા છે, જે જનરેટ થયેલા દરેક વિડિયોની ફ્રેમ્સની સમીક્ષા માટે વપરાય છે, જેથી વપરાશકર્તાને બતાવવા પહેલાં તે અમારી ઉપયોગ નીતિઓનું પાલન કરે છે તેની ખાતરી કરવામાં મદદ મળે.

અમે વિશ્વભરના નીતિનિર્માતાઓ, શિક્ષકો અને કલાકારો સાથે જોડાઈ તેમની ચિંતાઓ સમજશું અને આ નવી ટેકનોલોજીના સકારાત્મક ઉપયોગના કિસ્સાઓ ઓળખીશું. વ્યાપક સંશોધન અને પરીક્ષણ છતાં, લોકો અમારી ટેકનોલોજીનો કયા બધા લાભદાયક રીતે ઉપયોગ કરશે અથવા તેનો કયા બધા રીતે દુરુપયોગ કરશે તે બધું અમે આગોતરુ કહી શકતા નથી. તેથી જ અમારો વિશ્વાસ છે કે વધતી જતી રીતે વધુ સુરક્ષિત AI સિસ્ટમો બનાવવાની અને સમય સાથે રજૂ કરવાની પ્રક્રિયામાં વાસ્તવિક ઉપયોગમાંથી શીખવું એક મહત્વપૂર્ણ ઘટક છે.

Research techniques

Sora એક ડિફ્યુઝન મોડલ છે, જે સ્ટેટિક અવાજ જેવું દેખાતું વિડિયો લઈને શરૂઆત કરે છે અને ઘણા પગલાંમાં અવાજ દૂર કરીને તેને ધીમે ધીમે રૂપાંતરિત કરીને વિડિયો બનાવે છે.

Sora એક જ વખતમાં આખા વિડિયો જનરેટ કરી શકે છે અથવા જનરેટ થયેલા વિડિયોને વધુ લાંબા બનાવવા માટે વિસ્તારી શકે છે. મોડલને એક સમયે અનેક ફ્રેમ્સની પૂર્વદૃષ્ટિ આપીને, વિષય થોડા સમય માટે નજરથી ઓઝલ થઈ જાય ત્યારે પણ એ જ રહે તેની એક પડકારજનક સમસ્યા અમે હલ કરી છે.

GPT મોડલો જેવી જ રીતે, Sora ટ્રાન્સફોર્મર આર્કિટેક્ચરનો ઉપયોગ કરે છે, જે વધુ ઉત્તમ સ્કેલિંગ પ્રદર્શનને શક્ય બનાવે છે.

અમે વિડિયો અને છબીઓને patches કહેવાતા ડેટાના નાનાં એકમોના સંગ્રહ તરીકે રજૂ કરીએ છીએ, જેમાંથી દરેક GPTમાંના ટોકન જેવો હોય છે. ડેટાને રજૂ કરવાની રીતને એકરૂપ બનાવીને, અમે વિવિધ સમયગાળા, રિઝોલ્યુશન અને આસ્પેક્ટ રેશિયો ધરાવતા વધુ વ્યાપક દૃશ્ય ડેટા પર ડિફ્યુઝન ટ્રાન્સફોર્મરનું તાલીમ આપી શકીએ છીએ.

Sora, DALL·E અને GPT મોડલોના અગાઉના સંશોધન પર આધારિત છે. તે DALL·E 3ની recaptioning તકનીકનો ઉપયોગ કરે છે, જેમાં દૃશ્ય તાલીમ ડેટા માટે ખૂબ વર્ણનાત્મક કૅપ્શન બનાવવામાં આવે છે. પરિણામે, મોડલ જનરેટ થયેલા વિડિયોમાં વપરાશકર્તાની લખાણ આધારિત સૂચનાઓનું વધુ વિશ્વસનીય રીતે પાલન કરી શકે છે.

માત્ર લખાણ સૂચનાઓ પરથી વિડિયો જનરેટ કરવા ઉપરાંત, મોડલ હાલની સ્થિર છબી લઈ તેમાંથી વિડિયો પણ બનાવી શકે છે, જેમાં છબીની અંદરની સામગ્રીને ચોકસાઈ અને નાની વિગતો પ્રત્યે ધ્યાન સાથે સજીવ બનાવે છે. મોડલ હાલના વિડિયોને વિસ્તારી શકે છે અથવા ખૂટતી ફ્રેમ્સ ભરી શકે છે. અમારા ટેક્નિકલ રિપોર્ટમાં વધુ જાણો.

Sora એવા મોડલો માટે આધારરૂપ છે જે વાસ્તવિક દુનિયાને સમજી અને તેનું અનુસરણ કરી શકે છે, અને અમારો વિશ્વાસ છે કે આ ક્ષમતા AGI હાંસલ કરવા માટેનું એક મહત્વપૂર્ણ માઇલસ્ટોન બનશે.

લોડ થઈ રહ્યું છે...