टेक्स्ट से वीडियो बनाना

इस पेज पर सभी वीडियो बिना किसी बदलावों के सीधे Sora जनरेट किए गए हैं.

लोड किया जा रहा है...

हम AI को चलती हुई असली दुनिया को समझना और उसे सिमुलेट करना सिखा रहे हैं, जिसका लक्ष्य ऐसे मॉडल को ट्रेन करना है जो लोगों को असली दुनिया के इंटरैक्शन की ज़रुरत वाली समस्याओं को सुलझाने में मदद करें.

पेश है Sora, हमारा टेक्स्ट-टू-वीडियो मॉडल. Sora विज़ुअल क्वालिटी बनाए रखते हुए और यूज़र के प्रॉम्प्ट का पालन करते हुए एक मिनट तक के वीडियो जनरेट कर सकता है.

प्रॉम्प्ट: एक स्टाइलिश महिला टोक्यो की एक सड़क पर चल रही है जो गरमाहट भरी नीऑन और एनिमेटेड शहर के साइन बोर्ड से भरी हुई है. वो काले चमड़े की जैकेट, एक लंबी लाल ड्रेस, काले जूते पहनती हैं और काला पर्स रखती हैं. वो सनग्लासेस और लाल लिपस्टिक लगाती है. वो आत्मविश्वास से और बेफ़िक्री से चलती है. सड़क गीली और रिफ़्लेक्टिव है, जिससे रंग-बिरंगी रौशनी का मिरर इफ़ेक्ट पैदा हो रहा है. कई पैदल यात्री घूमते हैं.

प्रॉम्प्ट: कई विशालकाय वूली मैमथ बर्फ़ीले घास के मैदान से गुज़रते हुए आते हैं, जब वे चलते हैं तो उनकी लंबी ऊनी फर हवा में हल्के से उड़ती है, दूरी पर बर्फ़ से ढके पेड़ और नाटकीय बर्फ़ से ढके पहाड़, हल्के बादलों के साथ दोपहर का प्रकाश और दूरी पर एक ऊंचा सूर्य एक गर्म चमक पैदा करता है, नीचे के कैमरे का दृश्य हैरान कर देने वाला है जो सुंदर फ़ोटोग्राफ़ी, क्षेत्र की गहराई के साथ बड़े रोएंदार मैमल को कैद करता है.

प्रॉम्प्ट: एक फ़िल्म ट्रेलर जिसमें 30 वर्षीय अंतरिक्ष यात्री के साहसिक कारनामों को दिखाया गया है, जो लाल ऊन से बुना हुआ मोटरसाइकिल हेलमेट पहने हुए है, नीला आकाश, नमक का रेगिस्तान, सिनेमाई स्टाइल, 35 मिमी फ़िल्म पर फ़िल्माया गया, आकर्षक रंग.

प्रॉम्प्ट: Big Sur के गैरे पॉइंट समुद्र तट पर ऊबड़-खाबड़ चट्टानों से टकराती लहरों का ड्रोन से लिया गया दृश्य. टकराता नीला पानी सफ़ेद टिप वाली लहरें पैदा करता है, जबकि डूबते सूरज की सुनहरी रौशनी चट्टानी तट को रौशन करती है. दूरी पर एक छोटा सा द्वीप है, जिस पर प्रकाश स्तंभ बना हुआ है, और चट्टान के किनारे पर हरी झाड़ियां फ़ैली हुई हैं. सड़क से समुद्र तट तक की खड़ी ढलान एक नाटकीय दृश्य है, जिसमें चट्टान के किनारे समुद्र के ऊपर उभरे हुए हैं. ये वो दृश्य है जो समुद्र तट की प्राकृतिक सुन्दरता और पैसिफ़िक कोस्ट हाइवे के ऊबड़-खाबड़ लैंडस्केप को दर्शाता है.

प्रॉम्प्ट: एनिमेटेड दृश्य में एक छोटे रोएंदार राक्षस को पिघलती हुई लाल मोमबत्ती के पास घुटनों के बल बैठे हुए दिखाया गया है. आर्ट स्टाइल 3D और रीयलिस्टिक है, जिसमें प्रकाश और बनावट पर फ़ोकस किया गया है. पेंटिंग का भाव आश्चर्य और जिज्ञासा से भरा है, जिसमें राक्षस बड़ी-बड़ी आंखों और खुले मुंह से फ़्लेम को देख रहा है. उसकी पोज़ और एक्सप्रेशन से मासूमियत और चंचलता का भाव प्रकट होता है, मानो ये पहली बार अपने आसपास की दुनिया की खोज कर रहा हो. गर्म रंगों और नाटकीय लाइटिंग का इस्तेमाल इमेज के आरामदायक वातावरण को और बढ़ाता है.

प्रॉम्प्ट: कोरल रीफ़ के एक भव्य रूप से प्रस्तुत कागज़ी दुनिया, जिसमें रंग-बिरंगी मछलियां और समुद्री जीव-जंतु भरे पड़े हैं.

प्रॉम्प्ट: विक्टोरिया मुकुट पहने हुए कबूतर का ये क्लोज़-अप शॉट उसके आकर्षक नीले पंख और लाल छाती को दर्शाता है. इसकी शिखा नाज़ुक, फ़ीतेदार पंखों से बनी होती है, जबकि इसकी आंख का रंग आकर्षक लाल है. पक्षी का सिर थोड़ा-सा साइड की ओर झुका हुआ है, जिससे ये राजसी और भव्य प्रतीत होता है. बैकग्राउंड धुंधली है, जिससे पक्षी की आकर्षक उपस्थिति की ओर ध्यान आकर्षित होता है.

प्रॉम्प्ट: दो समुद्री डाकू जहाज़ों का फ़ोटो-रियलिस्टिक क्लोज़अप वीडियो, जिसमें वे एक कप कॉफ़ी के अंदर बैठकर एक-दूसरे से लड़ रहे हैं.

प्रॉम्प्ट: एक 20 वर्षीय युवक आकाश में बादल के एक टुकड़े पर बैठकर किताब पढ़ रहा है.

आज, Sora रेड टीमर्स के लिए उपलब्ध हो रहा है ताकि वे नुकसान या जोखिम के लिए अहम चीज़ों का मूल्यांकन करें. हम अनेक विज़ुअल आर्टिस्ट, डिज़ाइनर्स और फ़िल्म निर्माताओं को भी एक्सेस दे रहे हैं, ताकि वे इस बारे में फ़ीडबैक प्राप्त कर सकें कि इस मॉडल को क्रिएटिव प्रोफ़ेशनल्स के लिए किस तरह ज़्यादा फ़ायदेमंद बनाया जा सकता है.

हम OpenAI के बाहर के लोगों के साथ काम करना शुरू करने और उनसे फ़ीडबैक प्राप्त करने के लिए अपनी रिसर्च प्रोग्रेस को जल्दी ही शेयर कर रहे हैं और जनता को ये जानकारी दे रहे हैं कि भविष्य में AI की क्या क्षमताएं हैं.

प्रॉम्प्ट: सोने की खोज के दौरान कैलिफ़ोर्निया के ऐतिहासिक दृश्य.

प्रॉम्प्ट: एक कांच के गोले का नज़दीक से दृश्य जिसके अंदर एक ज़ेन गार्डन है. गोले में एक छोटा सा बौना है जो ज़ेन गार्डन में रेत जमा करके पैटर्न बना रहा है.

प्रॉम्प्ट: मैजिक ऑवर के दौरान मर्राकेश में खड़ी 24 वर्षीय महिला की पलकें झपकाने का बेहद क्लोज़ अप व्यू, 70 मिमी में फ़िल्माई गई सिनेमाई फ़िल्म, क्षेत्र की गहराई, आकर्षक रंग, सिनेमाई

प्रॉम्प्ट: एक कार्टून कंगारू डिस्को डांस कर रहा है.

प्रॉम्प्ट: वर्ष 2056 में नाइजीरिया के लागोस के लोगों को दर्शाता एक सुंदर होममेड वीडियो. एक मोबाइल फ़ोन कैमरे से शूट किया गया.

प्रॉम्प्ट: एक पेट्री डिश जिसके अंदर बांस का जंगल उग रहा है और उसके आसपास छोटे-छोटे लाल पांडा दौड़ रहे हैं.

प्रॉम्प्ट: कैमरा पुराने टेलीविज़नों के एक बड़े ढेर के चारों ओर घूमता है, जिन पर अलग-अलग कार्यक्रम दिखाए जा रहे हैं — 1950 के दशक की साइ-फ़ाइ फ़िल्में, डरावनी फ़िल्में, ख़बरें, स्थिर, 1970 के दशक का एक सिटकॉम आदि, जो न्यूयॉर्क की एक बड़ी म्यूज़ियम गैलरी के अंदर सेट किया गया है.

प्रॉम्प्ट: एक छोटे, गोल, रोएंदार प्राणी और बड़ी, भावपूर्ण आंखों का 3D एनीमेशन एक मनोहर, जादुई जंगल को एक्स्प्लोर करता है. ये प्राणी, खरगोश और गिलहरी का एक विचित्र मिश्रण है, जिसका फ़र हल्का नीला है और पूंछ घनी, धारीदार है. वो चमकती हुई जलधारा के साथ उछलता है, उसकी आंखें हैरानी से बड़ी हो जाती हैं. ये जंगल जादुई तत्वों से सजीव है: चमकते और रंग बदलते फ़ूल, बैंगनी और चांदी के रंग की पत्तियों वाले पेड़, और जुगनू जैसी छोटी तैरती रोशनियां. ये प्राणी एक मशरूम के छल्ले के चारों ओर डांस कर रहे छोटे, परी-जैसे प्राणियों के समूह के साथ खेल-खेल में बातचीत करने के लिए रुकता है. ये प्राणी हैरानी से एक बड़े, चमकते हुए पेड़ की ओर देखता है जो जंगल का हृदय प्रतीत होता है.

Sora बहुत सारे कैरेक्टर, विशिष्ट प्रकार की गति, और विषय व बैकग्राउंड की सटीक डिटेल्स के साथ बेहद मुश्किल दृश्य जनरेट कर सकता है. मॉडल न केवल ये समझता है कि यूज़र ने प्रॉम्प्ट में क्या पूछा है, बल्कि ये भी समझता है कि असली दुनिया में वे चीज़ें किस प्रकार मौजूद हैं.

प्रॉम्प्ट: कैमरा एक सफ़ेद विंटेज SUV के पीछे चलता है, जिसकी छत पर काला रंग लगा है और वो एक खड़ी पहाड़ी ढलान पर चीड़ के पेड़ों से घिरी एक कच्ची सड़क पर तेज़ी से आगे बढ़ रही है, उसके टायरों से धूल उड़ रही है, और जब SUV कच्ची सड़क पर तेज़ी से आगे बढ़ रही है, तो उस पर धूप गिर पड़ रही है, जिससे दृश्य पर एक गर्म चमक फ़ैल रही है. कच्ची सड़क दूर तक धीरे-धीरे मुड़ती जाती है, और आसपास कोई अन्य कार या वाहन दिखाई नहीं देता. सड़क के दोनों ओर लाल लकड़ी के पेड़ हैं, और चारों ओर हरियाली बिखरी हुई है. पीछे से देखने पर कार आसानी से मोड़ पर चलती हुई दिखाई देती है, जिससे ऐसा लगता है कि वो ऊबड़-खाबड़ इलाके में तेज़ी से चल रही है. ये कच्ची सड़क चारों ओर से खड़ी पहाड़ियों और पर्वतों से घिरी हुई है, और ऊपर साफ़ नीला आसमान है, जिस पर हल्के बादल छाए हुए हैं.

प्रॉम्प्ट: टोकियो के उपनगरों से होकर यात्रा करती हुई ट्रेन की खिड़की में प्रतिबिंब.

प्रॉम्प्ट: अमाल्फ़ी तट के किनारे पथरीली उभरी चट्टान पर निर्मित एक सुंदर ऐतिहासिक चर्च के चारों ओर एक ड्रोन कैमरा चक्कर लगाता है, ये दृश्य ऐतिहासिक और बेहतरीन आर्किटेक्चर की बारीकियां और टियर वाले रास्ते और आंगन दर्शाता है, समुद्र के तटीय जल और अमाल्फ़ी तट इटली के पहाड़ी नज़ारों के क्षितिज को देखते हुए लहरें नीचे चट्टानों से टकराती हुई दिखाई देती हैं, कई दूर खड़े लोग नाटकीय समुद्री नज़ारों के आंगन में टहलते और दृश्यों का आनंद लेते हुए दिखाई देते हैं, दोपहर के सूरज की गर्म चमक दृश्य में एक जादुई और रोमांटिक एहसास पैदा करती है, सुंदर फ़ोटोग़्राफ़ी के साथ नज़ारों को अद्भुत रूप से कैद किया गया है.

प्रॉम्प्ट: एक बड़ा नारंगी ऑक्टोपस समुद्र तल पर आराम करते हुए दिखाई देता है, जो रेतीले और चट्टानी इलाके के साथ घुलमिल गया है. इसके तंतु इसके शरीर के चारों ओर फ़ैले हुए हैं और इसकी आंखें बंद हैं. ऑक्टोपस को इस बात का पता नहीं है कि एक किंग क्रैब चट्टान के पीछे से उसकी ओर रेंग रहा है, उसके पंजे उठे हुए हैं और वो हमला करने के लिए तैयार है. ये केकड़ा भूरे रंग का और कांटेदार है, और इसके पैर और एंटीना लंबे हैं. ये दृश्य एक वाइड एंगल से लिया गया है, जिसमें समुद्र की विशालता और गहराई दिखाई देती है. पानी साफ़ और नीला है, जिसमें से सूर्य की किरणें फ़िल्टर हो कर आ रही हैं. ये शॉट बहुत ही शार्प और स्पष्ट है, और इसकी डायनेमिक रेंज भी बहुत ज़्यादा है. ऑक्टोपस और केकड़ा फ़ोकस में हैं, जबकि बैकग्राउंड थोड़ा धुंधला है, जिससे फ़ील्ड इफ़ेक्ट बहुत बढ़ गया है.

प्रॉम्प्ट: कागज़ के हवाई जहाज़ों का एक झुंड घने जंगल में पेड़ों के बीच से उड़ता हुआ इस तरह जा रहा है मानो वे प्रवासी पक्षी हों.

प्रॉम्प्ट: एक बिल्ली अपने सोते हुए ओनर को जगाकर नाश्ता मांग रही है. ओनर बिल्ली को नज़रअंदाज़ करने की कोशिश करता है, लेकिन बिल्ली नई तरकीबें अपनाती है और आखिरकार ओनर बिल्ली को थोड़ी देर और रोकने के लिए तकिये के नीचे से खाने की एक गुप्त थैली निकालता है.

प्रॉम्प्ट: किनाबातांगन नदी पर बोर्नियो वन्य जीवन

प्रॉम्प्ट: चीनी ड्रैगन के साथ चाइनीज़ लुनार न्यू ईयर के उत्सव का वीडियो.

मॉडल को भाषा की गहरी समझ है, जिसके कारण वो प्रॉम्प्ट की सटीक व्याख्या कर सकता है और ज़िंदगी से भरपूर भावनाएँ जताने वाले आकर्षक कैरेक्टर जनरेट कर सकता है. Sora एक ही जनरेट किए गए वीडियो में अनेक शॉट भी बना सकता है, जो कैरेक्टर और विज़ुअल स्टाइल को सटीक रूप से बनाए रखते हैं.

प्रॉम्प्ट: अलग-अलग स्टाइल में बनी कई खूबसूरत कलाकृतियाँ वाली एक आर्ट गैलरी का टूर.

प्रॉम्प्ट: खूबसूरत, बर्फ़ीला टोक्यो शहर हलचल से भरा हुआ है. कैमरा शहर की व्यस्त सड़कों पर घूमता है और कई लोगों को खूबसूरत बर्फ़ीले मौसम का मज़ा लेते और पास की दुकानों पर ख़रीदारी करते हुए दिखाता है. सुंदर साकुरा की पंखुड़ियां बर्फ़ के टुकड़ों के साथ हवा में उड़ रही हैं.

प्रॉम्प्ट: उपनगर के एक घर की खिड़की से बाहर उगते फ़ूल का एक स्टॉप मोशन एनीमेशन.

प्रॉम्प्ट: साइबरपंक सेटिंग में एक रोबोट के जीवन की कहानी.

प्रॉम्प्ट: 60 के दशक में दाढ़ी वाले एक भूरे बाल वाले आदमी का बेहद क्लोज़-अप से चित्र, वो पेरिस के एक कैफ़े में बैठे हुए ब्रह्मांड के हिस्टरी पर गहरा विचार कर रहा है, उसकी आंखें स्क्रीन के पीछे चल रहे लोगों पर केंद्रित हैं जबकि वो ज़्यादातर बिना हिले-डुले बैठा हुआ है, वो एक ऊनी कोट सूट कोट और बटन-डाउन शर्ट पहने हुए है, वो एक भूरे रंग की बेरीट और चश्मा पहने हुए है और वो बहुत ही प्रोफ़ेसर जैसा दिखता है, और आखिर में वो बंद मुंह से बेहद हल्का-सा मुस्कुराता है जैसे कि उसे जीवन के रहस्य का जवाब मिल गया हो, लाइटिंग बहुत ही सिनेमाई है जिसमें सुनहरी रौशनी और बैकग्राउंड में पेरिस की सड़कें और शहर, क्षेत्र की गहराई, सिनेमाई 35 मिमी फ़िल्म है.

प्रॉम्प्ट: एक सुंदर सिल्हूट एनीमेशन में एक भेड़िया चांद को देखकर रोता हुआ, अकेलापन महसूस करता हुआ दिखाया गया है, जब तक कि वो अपना झुंड नहीं ढूंढ लेता.

प्रॉम्प्ट: न्यूयॉर्क शहर अटलांटिस की तरह डूब गया. मछलियां, व्हेल, समुद्री कछुए और शार्क न्यूयॉर्क की सड़कों पर तैरते हैं.

प्रॉम्प्ट: बर्फ़ में खेलते हुए गोल्डन रिट्रीवर पिल्लों का झुंड. उनके सिर बर्फ़ से ढके हुए बाहर निकलते हैं.

मौजूदा मॉडल में अभी भी सुधार की गुंजाइश है. ये किसी जटिल दृश्य के भौतिक विज्ञान को सिमुलेट करने में मुश्किल महसूस कर सकता है, व कारण और प्रभाव के खास उदाहरणों को समझ नहीं सकता है (जैसे कि: किसी करैक्टर द्वारा कुकी को काटने के बाद उस पर कोई निशान दिखाई न दे). ये मॉडल, प्रॉम्प्ट में शामिल स्थानिक डिटेल को लेकर भी भ्रमित हो सकता है, जैसे कि बाएं और दाएं में अंतर करना, या समय के साथ घटित होने वाली इवेंट के सटीक वर्णन के साथ संघर्ष करना, जैसे कि ख़ास कैमरा ट्रैजेक्टरी.

प्रॉम्प्ट: दौड़ते हुए व्यक्ति का स्टेप-प्रिंटिंग दृश्य, 35 मिमी में फ़िल्माई गई सिनेमाई फ़िल्म.

कमज़ोरी: Sora कभी-कभी शारीरिक रूप से अकल्पनीय गति बनाता है.

प्रॉम्प्ट: घास से घिरी एक सुनसान कंकरीली सड़क पर पांच ग्रे भेड़िये के बच्चे एक दूसरे का पीछा करते हुए खेल रहे हैं. पिल्ले दौड़ते हैं, छलांग लगाते हैं, एक-दूसरे का पीछा करते हैं, एक-दूसरे को काटते हैं, खेलते हैं.

कमज़ोरी: पशु या लोग अचानक से अपने आप ही प्रकट हो सकते हैं, ख़ास तौर से ऐसे दृश्यों में जिनमें कई चीज़ें शामिल हों.

प्रॉम्प्ट: बास्केटबॉल हूप से होकर गुजरता है और फिर धमाके के साथ फट जाता है.

कमज़ोरी: गलत फ़िज़िकल मॉडलिंग और अस्वाभाविक ऑब्जेक्ट "मॉर्फिंग" का एक उदाहरण.

प्रॉम्प्ट: आर्कियोलॉजिस्ट्स को रेगिस्तान में एक सामान्य प्लास्टिक की कुर्सी मिली, जिसे उन्होंने बड़ी सावधानी से खोदकर निकाला और धूल-मिट्टी साफ़ की.

कमज़ोरी: इस उदाहरण में, Sora कुर्सी को एक सख्त चीज़ के तौर पर मॉडल नहीं कर पाया, जिसके कारण फ़िज़िकल इंटरैक्शन्स गलत हो गए.

प्रॉम्प्ट: साफ़-सुथरे कंघी किए हुए सफ़ेद बालों वाली एक दादी, लकड़ी के डाइनिंग रूम की टेबल पर असंख्य मोमबत्तियों के साथ एक रंगीन जन्मदिन के केक के पीछे खड़ी हैं, उनका हावभाव बेहद खुशी और प्रसन्नता का है, उनकी आंखों में एक खुशी की चमक है. वे आगे झुकती हैं और मोमबत्तियों को हल्के से फ़ूंक मार कर बुझा देती हैं, केक पर गुलाबी रंग की फ़्रॉस्टिंग और छींटे लगे होते हैं और मोमबत्तियां टिमटिमाना बंद कर देती हैं, दादी ने हल्के नीले रंग का ब्लाउज़ पहना हुआ है जिस पर फ़ूलों के डिज़ाइन बने हुए हैं, मेज़ पर बैठे कई खुश दोस्त और परिवार के लोग फ़ोकस से दूर जश्न मनाते हुए देखे जा सकते हैं. ये दृश्य बहुत ही सुन्दर ढंग से फ़िल्माया गया है, और इसमें दादी मां और डाइनिंग रूम का 3/4 व्यू दिखाया गया है. हल्के कलर टोन और हलकी रौशनी मूड को बढ़ाते हैं.

कमज़ोरी: चीज़ों और कई कैरेक्टर के बीच बेहद मुश्किल इंटरैक्शन्स को सिमुलेट करना अक्सर मॉडल के लिए चुनौतीपूर्ण होता है, जिसके परिणामस्वरूप कभी-कभी हास्यजनक परिणाम सामने आते हैं.

Safety

हम OpenAI के प्रोडक्‍ट में Sora को उपलब्ध कराने से पहले कई महत्वपूर्ण सुरक्षा कदम उठाएंगे. हम रेड टीमर्स के साथ काम कर रहे हैं — गलत सूचना, नफ़रत भरे कंटेंट और पक्षपात जैसे क्षेत्रों के डोमेन एक्सपर्ट — जो मॉडल की प्रतिकूल टेस्टिंग करेंगे.

हम गुमराह करने वाले कंटेंट का पता लगाने में मदद करने के लिए टूल भी बना रहे हैं, जैसे कि एक डिटेक्शन क्लासिफ़ायर जो ये बता सकता है कि वीडियो Sora द्वारा कब बनाया गया था. अगर हम भविष्य में इस मॉडल को OpenAI प्रोडक्ट में डिप्लॉय करते हैं तो हम C2PA मेटाडेटा⁠(एक नई विंडो में खुलेगा) को शामिल करने का प्लान कर रहे हैं.

डिप्लॉयमेंट के लिए तैयारी करने के लिए नई तकनीकों को विकसित करने के अलावा, हम मौजूदा सुरक्षा के तरीकों⁠(एक नई विंडो में खुलेगा)का फ़ायदा उठा रहे हैं जिन्हें हमने DALL·E 3 का इस्तेमाल करने वाले अपने प्रोडक्ट के लिए बनाया है, जो Sora पर भी लागू होते हैं.

जैसे कि, OpenAI प्रोडक्ट में आने के बाद, हमारा टेक्स्ट क्लासिफ़ायर उन टेक्स्ट इनपुट प्रॉम्प्ट की जांच करेगा और उन्हें नामंज़ूर कर देगा जो हमारी इस्तेमाल से जुड़ी नीतियों का उल्लंघन करते हैं, जैसे कि बहुत ज़्यादा हिंसा, सेक्सुअल कंटेंट, नफ़रत से भरे इमेज, सेलिब्रिटी को लाइक करना, या अन्य लोगों के IP का अनुरोध करना. हमने मज़बूत इमेज क्लासिफ़ायर्स भी डेवलप किए हैं जिनका इस्तेमाल यूज़र को दिखाए जाने से पहले प्रत्येक वीडियो के फ़्रेम का रिव्यु करने के लिए किया जाता है ताकि ये पक्का किया जा सके कि ये हमारी इस्तेमाल से जुड़ी नीतियों का अनुपालन करता है.

हम दुनिया भर के नीति निर्माताओं, शिक्षकों और कलाकारों के साथ मिलकर उनकी चिंताओं को समझेंगे और इस नई तकनीक के पॉज़िटिव यूज़ केस की पहचान करेंगे. बहुत ज़्यादा रिसर्च और टेस्टिंग के बावजूद, हम पहले से ये अंदाज़ा नहीं लगा सकते कि लोग हमारी टेक्नोलॉजी का किस प्रकार फ़ायदेमंद इस्तेमाल करेंगे, न ही ये कि लोग इसका किस प्रकार दुरुपयोग करेंगे. इसीलिए हमारा मानना है कि असली दुनिया के इस्तेमाल से सीखना, समय के साथ ज़्यादा सुरक्षित AI सिस्टम को बनाने और रिलीज़ करने का एक महत्वपूर्ण चीज़ है.

प्रॉम्प्ट: कैमरे के ठीक सामने बुरानो, इटली की रंगीन इमारतें हैं. एक प्यारा डैल्मेशियन ज़मीन तल पर बने एक इमारत की खिड़की से झांक रहा है. कई लोग इमारतों के सामने नहर की सड़कों पर पैदल और साइकिल से चल रहे हैं.

प्रॉम्प्ट: एक प्यारा खुश ऊदबिलाव आत्मविश्वास से एक पीले रंग की लाइफ़ जैकेट पहने हुए एक सर्फ़बोर्ड पर खड़ा है, हरे-भरे ट्रॉपिकल द्वीपों के पास फ़िरोज़ा ट्रॉपिकल पानी के साथ सवारी कर रहा है, 3D डिजिटल आर्ट स्टाइल में.

प्रॉम्प्ट: गिरगिट का ये क्लोज़-अप शॉट उसकी रंग बदलने की अद्भुत क्षमता को दर्शाता है. बैकग्राउंड धुंधला है, जिससे जानवर के आकर्षक स्वरूप की ओर ध्यान आकर्षित होता है.

प्रॉम्प्ट: ट्रॉपिकल माउई में एक कॉर्गी अपना वीडियो ब्लॉग बना रही है.

प्रॉम्प्ट: एक सफ़ेद और नारंगी रंग की टैबी बिल्ली घने बगीचे में खुशी-खुशी दौड़ती हुई दिखाई देती है, मानो किसी चीज़ का पीछा कर रही हो. जब वो आगे की ओर दौड़ता है तो उसकी आंखें बड़ी और प्रसन्न होती हैं, और चलते समय वो शाखाओं, फ़ूलों और पत्तियों को देखता है. ये रास्ता पतला है क्योंकि ये सभी पौधों के बीच से होकर गुज़रता है. दृश्य को ज़मीनी स्तर के एंगल से कैद किया गया है, जिसमें बिल्ली का बहुत करीब से पीछा किया गया है, जिससे एक नज़दीकी और बेहद निजी नज़रिया मिलता है. ये इमेज गर्म रंगों और दानेदार बनावट के साथ सिनेमाई है. ऊपर पत्तियों और पौधों के बीच बिखरी हुई दिन की रौशनी एक वॉर्म कॉन्ट्रास्ट बनाती है, जो बिल्ली के नारंगी फ़र को उभार देती है. शॉट स्पष्ट और शार्प है, और क्षेत्र की गहराई भी कम है.

प्रॉम्प्ट: नीले घंटे के दौरान सेंटोरिनी का हवाई दृश्य, जिसमें नीले गुंबदों के साथ सफ़ेद साइक्लेडिक बिल्डिंग्स की बेहतरीन आर्किटेक्चर दिखाई देती है. काल्डेरा का दृश्य अद्भुत है, और लाइटिंग एक सुंदर, शांत वातावरण का निर्माण करती है.

प्रॉम्प्ट: श्रमिकों, उपकरणों और भारी मशीनरी से भरे निर्माण स्थल का झुकाव.

प्रॉम्प्ट: पृथ्वी के ऊपर मनुष्य के आकार का एक विशाल, ऊंचा बादल मंडरा रहा है. बादल आदमी धरती पर बिजली के बोल्ट गिराता है.

प्रॉम्प्ट: एक सैमोयड और एक गोल्डन रिट्रीवर कुत्ता रात के समय भविष्य के नीऑन शहर में खेल-खेल में घूम रहे हैं. आस-पास की बिल्डिंग्स से निकलने वाली निऑन रोशनी उनके फ़र पर चमकती है.

प्रॉम्प्ट: ग्लेनफ़िनन वियाडक्ट स्कॉटलैंड, UK, में एक ऐतिहासिक रेलवे पुल है, जो मल्लाइग और फ़ोर्ट विलियम शहरों के बीच पश्चिमी हाइलैंड रेखा को पार करता है. ये एक हैरानी भरा दृश्य है जब भाप से चलने वाली ट्रेन पुल से निकलकर मेहराबों से ढके वायाडक्ट के ऊपर से जाती है. यहां का नज़ारा हरियाली और चट्टानी पहाड़ों से भरा हुआ है, जो ट्रेन यात्रा के लिए एक मनोरम बैकग्राउंड तैयार करता है. आसमान नीला है और सूरज चमक रहा है, जिससे इस शानदार स्थान की सैर के लिए ये एक सुंदर दिन है.

रिसर्च तकनीकें

Sora एक डिफ़्यूज़न मॉडल है, जो एक स्थिर शोर जैसे दिखने वाले वीडियो से शुरुआत करता है, और कई स्टेप्स में शोर को हटाकर धीरे-धीरे उसे बदलता है.

Sora एक बार में पूरा वीडियो बनाने या जनरेट किए गए वीडियो को बढ़ाकर उसे लंबा कर सकता है. मॉडल को एक समय में कई फ़्रेम की दूरदर्शिता दे करके, हमने ये पक्का करने की मुश्किल समस्या को हल कर लिया है कि विषय कुछ समय के लिए दृश्य से बाहर हो जाने पर भी वही बना रहे.

GPT मॉडल के समान, Sora एक ट्रांसफ़ॉर्मर आर्किटेक्चर का इस्तेमाल करता है, जो बेहतर स्केलिंग प्रदर्शन को मुमकिन बनाता है.

हम वीडियो और इमेज को डेटा की छोटे यूनिट के कलेक्शन के तौर पर प्रस्तुत करते हैं जिन्हें पैच कहा जाता है, जिनमें से प्रत्येक GPT में एक टोकन के समान है. डेटा को प्रस्तुत करने के तरीके को एकीकृत करके, हम डिफ़्यूज़न ट्रांसफ़ॉर्मर को पहले से कहीं ज़्यादा विज़ुअल डेटा रेंज पर ट्रेन कर सकते हैं, जो पहले मुमकिन नहीं था, और विभिन्न अवधियों, रिज़ोल्यूशन्स और ऐस्पेक्ट रेशियो में फ़ैला हुआ है.

Sora ने DALL·E और GPT मॉडल पर पिछली रिसर्च को आधार बनाया है. इसमें DALL·E 3 की रीकैप्शनिंग तकनीक का इस्तेमाल किया गया है, जिसमें दृश्य ट्रेनिंग डेटा के लिए बहुत ज़्यादा जानकारी वाले कैप्शन तैयार करना शामिल है. इसलिए, ये मॉडल जनरेट किए गए वीडियो में यूज़र के टेक्स्ट निर्देशों का ज़्यादा ईमानदारी से फ़ॉलो कर सकता है.

केवल टेक्स्ट निर्देशों से वीडियो बनाने में सक्षम होने के अलावा, ये मॉडल एक मौजूदा स्थिर इमेज लेकर उससे वीडियो बना सकता है, और इमेज के कंटेंट को सटीकता के साथ एनिमेट करता है और छोटी-छोटी जानकारियों पर ध्यान देता है. मॉडल किसी मौजूदा वीडियो को लेकर उसका विस्तार भी कर सकता है या गायब फ़्रेम को भर सकता है. हमारी तकनीकी रिपोर्ट में और ज़्यादा जानें⁠.

Sora उन मॉडल्स के लिए आधार का काम करता है जो असली दुनिया को समझ और सिमुलेट कर सकते हैं, एक ऐसी क्षमता जिसके बारे में हमारा मानना है कि ये AGI द्वारा हासिल किए जाने के लिए एक महत्वपूर्ण माइलस्टोन साबित होगा.

लोड किया जा रहा है...