स्किप करके मेन कंटेंट पर जाऍं
OpenAI

इस पेज पर सभी वीडियो बिना किसी बदलावों के सीधे Sora जनरेट किए गए हैं.

लोड किया जा रहा है...

हम AI को चलती हुई असली दुनिया को समझना और उसे सिमुलेट करना सिखा रहे हैं, जिसका लक्ष्य ऐसे मॉडल को ट्रेन करना है जो लोगों को असली दुनिया के इंटरैक्शन की ज़रुरत वाली समस्याओं को सुलझाने में मदद करें.

पेश है Sora, हमारा टेक्स्ट-टू-वीडियो मॉडल. Sora विज़ुअल क्वालिटी बनाए रखते हुए और यूज़र के प्रॉम्प्ट का पालन करते हुए एक मिनट तक के वीडियो जनरेट कर सकता है.

आज, Sora रेड टीमर्स के लिए उपलब्ध हो रहा है ताकि वे नुकसान या जोखिम के लिए अहम चीज़ों का मूल्यांकन करें. हम अनेक विज़ुअल आर्टिस्ट, डिज़ाइनर्स और फ़िल्म निर्माताओं को भी एक्सेस दे रहे हैं, ताकि वे इस बारे में फ़ीडबैक प्राप्त कर सकें कि इस मॉडल को क्रिएटिव प्रोफ़ेशनल्स के लिए किस तरह ज़्यादा फ़ायदेमंद बनाया जा सकता है.

हम OpenAI के बाहर के लोगों के साथ काम करना शुरू करने और उनसे फ़ीडबैक प्राप्त करने के लिए अपनी रिसर्च प्रोग्रेस को जल्दी ही शेयर कर रहे हैं और जनता को ये जानकारी दे रहे हैं कि भविष्य में AI की क्या क्षमताएं हैं.

Sora बहुत सारे कैरेक्टर, विशिष्ट प्रकार की गति, और विषय व बैकग्राउंड की सटीक डिटेल्स के साथ बेहद मुश्किल दृश्य जनरेट कर सकता है. मॉडल न केवल ये समझता है कि यूज़र ने प्रॉम्प्ट में क्या पूछा है, बल्कि ये भी समझता है कि असली दुनिया में वे चीज़ें किस प्रकार मौजूद हैं.

मॉडल को भाषा की गहरी समझ है, जिसके कारण वो प्रॉम्प्ट की सटीक व्याख्या कर सकता है और ज़िंदगी से भरपूर भावनाएँ जताने वाले आकर्षक कैरेक्टर जनरेट कर सकता है. Sora एक ही जनरेट किए गए वीडियो में अनेक शॉट भी बना सकता है, जो कैरेक्टर और विज़ुअल स्टाइल को सटीक रूप से बनाए रखते हैं.

मौजूदा मॉडल में अभी भी सुधार की गुंजाइश है. ये किसी जटिल दृश्य के भौतिक विज्ञान को सिमुलेट करने में मुश्किल महसूस कर सकता है, व कारण और प्रभाव के खास उदाहरणों को समझ नहीं सकता है (जैसे कि: किसी करैक्टर द्वारा कुकी को काटने के बाद उस पर कोई निशान दिखाई न दे). ये मॉडल, प्रॉम्प्ट में शामिल स्थानिक डिटेल को लेकर भी भ्रमित हो सकता है, जैसे कि बाएं और दाएं में अंतर करना, या समय के साथ घटित होने वाली इवेंट के सटीक वर्णन के साथ संघर्ष करना, जैसे कि ख़ास कैमरा ट्रैजेक्टरी.

Safety

हम OpenAI के प्रोडक्‍ट में Sora को उपलब्ध कराने से पहले कई महत्वपूर्ण सुरक्षा कदम उठाएंगे. हम रेड टीमर्स के साथ काम कर रहे हैं — गलत सूचना, नफ़रत भरे कंटेंट और पक्षपात जैसे क्षेत्रों के डोमेन एक्सपर्ट — जो मॉडल की प्रतिकूल टेस्टिंग करेंगे.

हम गुमराह करने वाले कंटेंट का पता लगाने में मदद करने के लिए टूल भी बना रहे हैं, जैसे कि एक डिटेक्शन क्लासिफ़ायर जो ये बता सकता है कि वीडियो Sora द्वारा कब बनाया गया था. अगर हम भविष्य में इस मॉडल को OpenAI प्रोडक्ट में डिप्लॉय करते हैं तो हम C2PA मेटाडेटा(एक नई विंडो में खुलेगा) को शामिल करने का प्लान कर रहे हैं.

डिप्लॉयमेंट के लिए तैयारी करने के लिए नई तकनीकों को विकसित करने के अलावा, हम मौजूदा सुरक्षा के तरीकों(एक नई विंडो में खुलेगा)का फ़ायदा उठा रहे हैं जिन्हें हमने DALL·E 3 का इस्तेमाल करने वाले अपने प्रोडक्ट के लिए बनाया है, जो Sora पर भी लागू होते हैं.

जैसे कि, OpenAI प्रोडक्ट में आने के बाद, हमारा टेक्स्ट क्लासिफ़ायर उन टेक्स्ट इनपुट प्रॉम्प्ट की जांच करेगा और उन्हें नामंज़ूर कर देगा जो हमारी इस्तेमाल से जुड़ी नीतियों का उल्लंघन करते हैं, जैसे कि बहुत ज़्यादा हिंसा, सेक्सुअल कंटेंट, नफ़रत से भरे इमेज, सेलिब्रिटी को लाइक करना, या अन्य लोगों के IP का अनुरोध करना. हमने मज़बूत इमेज क्लासिफ़ायर्स भी डेवलप किए हैं जिनका इस्तेमाल यूज़र को दिखाए जाने से पहले प्रत्येक वीडियो के फ़्रेम का रिव्यु करने के लिए किया जाता है ताकि ये पक्का किया जा सके कि ये हमारी इस्तेमाल से जुड़ी नीतियों का अनुपालन करता है.

हम दुनिया भर के नीति निर्माताओं, शिक्षकों और कलाकारों के साथ मिलकर उनकी चिंताओं को समझेंगे और इस नई तकनीक के पॉज़िटिव यूज़ केस की पहचान करेंगे. बहुत ज़्यादा रिसर्च और टेस्टिंग के बावजूद, हम पहले से ये अंदाज़ा नहीं लगा सकते कि लोग हमारी टेक्नोलॉजी का किस प्रकार फ़ायदेमंद इस्तेमाल करेंगे, न ही ये कि लोग इसका किस प्रकार दुरुपयोग करेंगे. इसीलिए हमारा मानना ​​है कि असली दुनिया के इस्तेमाल से सीखना, समय के साथ ज़्यादा सुरक्षित AI सिस्टम को बनाने और रिलीज़ करने का एक महत्वपूर्ण चीज़ है.

रिसर्च तकनीकें

Sora एक डिफ़्यूज़न मॉडल है, जो एक स्थिर शोर जैसे दिखने वाले वीडियो से शुरुआत करता है, और कई स्टेप्स में शोर को हटाकर धीरे-धीरे उसे बदलता है.

Sora एक बार में पूरा वीडियो बनाने या जनरेट किए गए वीडियो को बढ़ाकर उसे लंबा कर सकता है. मॉडल को एक समय में कई फ़्रेम की दूरदर्शिता दे करके, हमने ये पक्का करने की मुश्किल समस्या को हल कर लिया है कि विषय कुछ समय के लिए दृश्य से बाहर हो जाने पर भी वही बना रहे.

GPT मॉडल के समान, Sora एक ट्रांसफ़ॉर्मर आर्किटेक्चर का इस्तेमाल करता है, जो बेहतर स्केलिंग प्रदर्शन को मुमकिन बनाता है.

हम वीडियो और इमेज को डेटा की छोटे यूनिट के कलेक्शन के तौर पर प्रस्तुत करते हैं जिन्हें पैच कहा जाता है, जिनमें से प्रत्येक GPT में एक टोकन के समान है. डेटा को प्रस्तुत करने के तरीके को एकीकृत करके, हम डिफ़्यूज़न ट्रांसफ़ॉर्मर को पहले से कहीं ज़्यादा विज़ुअल डेटा रेंज पर ट्रेन कर सकते हैं, जो पहले मुमकिन नहीं था, और विभिन्न अवधियों, रिज़ोल्यूशन्स और ऐस्पेक्ट रेशियो में फ़ैला हुआ है.

Sora ने DALL·E और GPT मॉडल पर पिछली रिसर्च को आधार बनाया है. इसमें DALL·E 3 की रीकैप्शनिंग तकनीक का इस्तेमाल किया गया है, जिसमें दृश्य ट्रेनिंग डेटा के लिए बहुत ज़्यादा जानकारी वाले कैप्शन तैयार करना शामिल है. इसलिए, ये मॉडल जनरेट किए गए वीडियो में यूज़र के टेक्स्ट निर्देशों का ज़्यादा ईमानदारी से फ़ॉलो कर सकता है.

केवल टेक्स्ट निर्देशों से वीडियो बनाने में सक्षम होने के अलावा, ये मॉडल एक मौजूदा स्थिर इमेज लेकर उससे वीडियो बना सकता है, और इमेज के कंटेंट को सटीकता के साथ एनिमेट करता है और छोटी-छोटी जानकारियों पर ध्यान देता है. मॉडल किसी मौजूदा वीडियो को लेकर उसका विस्तार भी कर सकता है या गायब फ़्रेम को भर सकता है. हमारी तकनीकी रिपोर्ट में और ज़्यादा जानें.

Sora उन मॉडल्स के लिए आधार का काम करता है जो असली दुनिया को समझ और सिमुलेट कर सकते हैं, एक ऐसी क्षमता जिसके बारे में हमारा मानना ​​है कि ये AGI द्वारा हासिल किए जाने के लिए एक महत्वपूर्ण माइलस्टोन साबित होगा.

लोड किया जा रहा है...