26 अप्रैल, 2026 से, Sora प्रोडक्ट अब उपलब्ध नहीं है.
आज हम Sora 2, अपना प्रमुख वीडियो और ऑडियो जनरेशन मॉडल, जारी कर रहे हैं.
फ़रवरी 2024 का ओरिजिनल Sora मॉडल कई मायनों में वीडियो के लिए GPT‑1 पल जैसा था—पहली बार ऐसा लगने लगा कि वीडियो जनरेशन काम कर रहा है, और ऑब्जेक्ट पर्मानेन्स जैसे सरल व्यवहार प्री-ट्रेनिंग कंप्यूट बढ़ाने से उभरने लगे. तब से, Sora टीम अधिक उन्नत विश्व सिम्युलेशन क्षमताओं वाले मॉडल की ट्रेनिंग पर ध्यान केंद्रित कर रही है. हमारा मानना है कि ऐसे सिस्टम भौतिक दुनिया को गहराई से समझने वाले AI मॉडल की ट्रेनिंग के लिए महत्वपूर्ण होंगे. इसके लिए एक प्रमुख माइलस्टोन बड़े पैमाने पर वीडियो डेटा पर प्री-ट्रेनिंग और पोस्ट-ट्रेनिंग में महारत हासिल करना है, जो भाषा की तुलना में अभी शुरुआती चरण में है.
Prompt: figure skater performs a triple axle with a cat on her head
Sora 2 के साथ, हम सीधे उस स्तर पर पहुँच रहे हैं जिसे हम वीडियो के लिए GPT‑3.5 क्षण मानते हैं. Sora 2 वे काम कर सकता है जो पहले के वीडियो जनरेशन मॉडल के लिए बेहद मुश्किल—और कुछ मामलों में सीधे असंभव—है: ओलंपिक जिम्नास्टिक रूटीन, पैडलबोर्ड पर ऐसे बैकफ़्लिप्स जो तैरने और कठोरता की गतिशीलता को सटीक रूप से दर्शाते हैं, और ट्रिपल ऐक्सल जबकि एक बिल्ली अपनी जान बचाने के लिए कसकर पकड़ी हुई हो.
Prompt: a guy does a backflip
पहले के वीडियो मॉडल अति आशावादी होते हैं—वे वस्तुओं को बदल देंगे और वास्तविकता को विकृत करेंगे ताकि किसी टेक्स्ट प्रॉम्प्ट को सफलतापूर्वक पूरा किया जा सके. जैसे कि, अगर कोई बास्केटबॉल प्लेयर शॉट चूक जाता है, तो बॉल अचानक हूप तक टेलीपोर्ट कर सकती है. Sora 2 में, अगर कोई बास्केटबॉल प्लेयर का शॉट चूक जाता है, तो वो बैकबोर्ड से टकराकर वापस आ जाएगी. दिलचस्प बात ये है कि मॉडल द्वारा की गई “गलतियां” अक्सर इंटर्नल एजेंट की गलतियों जैसी दिखती हैं, जिसे Sora 2 अप्रत्यक्ष रूप से मॉडल कर रहा है; हालांकि अभी भी पर्फ़ेक्ट नहीं है, लेकिन ये पिछले सिस्टम्स के मुकाबले फ़िज़िक्स के नियमों को बेहतर तरीके से फ़ॉलो करता है. किसी भी मददगार वर्ल्ड सिम्युलेटर के लिए ये बेहद ज़रूरी कैपेबिलिटी है—आपको सिर्फ़ सफ़लता ही नहीं, बल्कि विफ़लता को भी मॉडल करना आना चाहिए.
यह मॉडल नियंत्रण क्षमता में भी एक बड़ा उन्नयन है, जो कई शॉट्स में विस्तारित जटिल निर्देशों का पालन कर सकता है और विश्व की स्थिति को सटीक रूप से बनाए रखता. यह रीयलिस्टिक, सिनमेटिक और एनीम शैलियों में उत्कृष्ट है.
Prompt: Vikings Go To War — North Sea Launch (10.0s, Winter cool daylight / early medieval)...
एक सामान्य प्रयोजन वीडियो-ऑडियो जनरेशन सिस्टम के रूप में, यह उच्च स्तर की वास्तविकता के साथ परिष्कृत बैकग्राउंड साउंडस्केप्स, स्पीच और साउंड इफ़ेक्ट्स बनाने में सक्षम है.
Prompt: Two mountain explorers in bright technical shells, ice crusted faces, eyes narrowed with urgency shout in the snow, one at a time
आप सीधे वास्तविक दुनिया के एलिमेंट्स को Sora 2 में डाल भी सकते हैं. उदाहरण के लिए, हमारी किसी टीम सदस्य के वीडियो का अवलोकन करके, मॉडल उन्हें किसी भी Sora-जनित परिवेश में सही रूप और आवाज़ के साथ शामिल कर सकता है. यह क्षमता बहुत सामान्य है, और किसी भी मनुष्य, पशु या वस्तु के लिए काम करती है.
Prompt: Bigfoot is really kind to him, a little too kind, like oddly kind. Bigfoot wants to hang out but he he wants to hang too much
यह मॉडल पूर्ण नहीं है और यह कई गलतियाँ करता है, लेकिन यह इस बात की पुष्टि है कि वीडियो डेटा पर न्यूरल नेटवर्क का और विस्तार करने से हमें वास्तविकता का सिमुलेशन करने के और करीब लाया जाएगा
सामान्य प्रयोजन सिमुलेशन और ऐसे AI सिस्टम की दिशा में जो भौतिक दुनिया में कार्य कर सकें, हमें लगता है कि लोग हमारे द्वारा विकसित किए जा रहे मॉडलों के साथ बहुत आनंद ले सकते हैं.
हमने पहली बार Sora टीम पर कई महीने पहले इस “खुद को अपलोड करें” फ़ीचर के साथ खेलना शुरू किया था, और हम सभी को इससे बहुत मज़ा आया. यह कुछ ऐसा लग रहा था जैसे संचार का स्वाभाविक विकास—टेक्स्ट मैसेज से इमोजी, फिर वॉइस नोट्स और अब इस तक.
आज हम एक नया सोशल iOS ऐप लॉन्च कर रहे हैं जिसका नाम “Sora” है, जो Sora 2 द्वारा संचालित है. इस ऐप में, आप दूसरों की जनरेशंस बना सकते हैं, उन्हें रीमिक्स कर सकते हैं, कस्टमाइज़ेबल Sora फ़ीड में नए वीडियो खोज सकते हैं, और “किरदार” नामक फ़ीचर के माध्यम से खुद को या अपने दोस्तों को शामिल कर सकते हैं. किरदारों के साथ, आप अपनी पहचान वेरिफ़ाई करने और अपनी हूबहू इमेज को कैप्चर करने के लिए ऐप में एक छोटी वन-टाइम वीडियो-और-ऑडियो रिकॉर्डिंग के बाद बेहद सटीकता के साथ सीधे खुद को किसी भी Sora सीन में डाल सकते हैं.
पिछले हफ़्ते, हमने OpenAI के सभी सदस्यों के लिए आंतरिक रूप से ऐप लॉन्च किया. हमने अपने सहकर्मियों से पहले ही सुना है कि इस फ़ीचर की वजह से वे कंपनी में नए दोस्त बना रहे हैं. हमारा मानना है कि इस “किरदार” फ़ीचर के इर्द-गिर्द बनाया गया एक सोशल ऐप, Sora 2 के जादू को महसूस करने का सबसे अच्छा तरीका है.
डूमस्क्रॉलिंग, बुरी आदत, अलगाव, और RL-स्लॉप्टिमाइज़ फ़ीड्स के बारे में चिंताएँ सबसे महत्वपूर्ण हैं—हम इसके बारे में क्या कर रहे हैं, यह यहाँ बताया गया है.
हम उपयोगकर्ताओं को फ़ीड पर जो कुछ भी वे देखते हैं उस पर नियंत्रण रखने के लिए टूल्स और विकल्प दे रहे हैं. OpenAI के मौजूदा बड़े भाषा मॉडल का उपयोग करते हुए, हमने सुझाव देने वाले एल्गोरिदम की एक नई श्रेणी विकसित की है, जिसे प्राकृतिक भाषा के माध्यम से निर्देशित किया जा सकता है. हमारे पास उपयोगकर्ताओं से समय-समय पर उनकी भलाई के बारे में पूछताछ करने और उन्हें अपनी फ़ीड को समायोजित करने का विकल्प देने के लिए अंतर्निहित तंत्र भी मौजूद हैं.
डिफ़ॉल्ट रूप से, हम आपको ऐसा कंटेंट दिखाते हैं जिन्हें आप फ़ॉलो करते हैं या जिनके साथ आप इंटरेक्ट करते हैं, और उन वीडियो को प्राथमिकता देते हैं जिन्हें मॉडल आपके अपने क्रिएशन के लिए प्रेरणा के रूप में सबसे अधिक उपयोगी मानता है. हम फ़ीड में बिताए गए समय के लिए अनुकूलन नहीं कर रहे हैं, और हमने जानबूझकर ऐप को इस तरह डिज़ाइन किया है कि यह खपत नहीं बल्कि सृजन को बढ़ाए. आप हमारी फ़ीड फ़िलॉसोफ़ीमें अधिक जानकारी देख सकते हैं.
ये ऐप आपके दोस्तों के साथ इस्तेमाल करने के लिए बनाया गया है. टेस्टर्स से मिलने वाले भारी प्रतिक्रियाओं से पता चलता है कि किरदार ही इसे अलग और मज़ेदार बनाते हैं—इसे सही में समझने के लिए आपको इसे आज़माना होगा, लेकिन यह लोगों के साथ संवाद करने का एक नया और अनोखा तरीका है. हम इसे निमंत्रण-आधारित ऐप के तौर पर पेश कर रहे हैं ताकि ये सुनिश्चित किया जा सके कि आप अपने दोस्तों के साथ आएँ. ऐसे समय में जब सभी बड़े प्लैटफ़ॉर्म सोशल ग्राफ़ से दूर जा रहे हैं, हमें लगता है कि किरदार समुदाय को और मज़बूत करेंगे.
13 से 19 साल के बीच की उम्र वाले बच्चों की भलाई की रक्षा करना हमारे लिए बेहद ज़रूरी है. हम इस बात पर डिफ़ॉल्ट लिमिट्स लगा रहे हैं कि 13 से 19 साल के बीच की उम्र वाले बच्चे रोज़ फ़ीड में कितनी जेनरेशन्स देख सकते हैं, और हम इस ग्रुप के लिए किरदारों पर सख्त अनुमतियाँ भी लागू कर रहे हैं. हमारे ऑटोमेटेड सेफ़्टी स्टैक्स के अलावा, हम ह्यूमन मॉडरेटर्स की टीमों का विस्तार कर रहे हैं, ताकि यदि कोई बदमाशी के मामले सामने आए तो उन्हें जल्दी से समीक्षा किया जा सके. हम ChatGPT के माध्यम से Sora पेरेंटल कंट्रोल लॉन्च कर रहे हैं, ताकि माता-पिता अनंत स्क्रॉल सीमाओं को ओवरराइड कर सकें, एल्गोरिदम वैयक्तिकरण को बंद कर सकें, साथ ही डायरेक्ट मैसेज सेटिंग्स को प्रबंधित कर सकें.
किरदारों के साथ, Sora की मदद से आप अपने किरदार पर शुरू से आखिर तक नियंत्रण रखते हैं . सिर्फ़ आप ही तय कर सकते हैं कि आपके किरदार का इस्तेमाल कौन कर सकता है, और आप किसी भी समय एक्सेस वापस ले सकते हैं या ऐसा कोई भी वीडियो हटा सकते हैं जिसमें वह शामिल हो. आपके किरदार वाले वीडियो, जिनमें दूसरे लोगों द्वारा बनाए गए ड्राफ्ट भी शामिल हैं, किसी भी समय आपके द्वारा देखे जा सकते हैं.
इस ऐप के साथ हमने कई सुरक्षा विषयों को संबोधित किया है—जैसे हूबहू दिखने के उपयोग के लिए सहमति, स्रोत की प्रामाणिकता, हानिकारक सामग्री के निर्माण को रोकना, और भी बहुत कुछ. और ज़्यादा जानकारी के लिए हमारा Sora 2 सेफ़्टी डॉक्यूमेंट देखें.
अन्य ऐप्स में कई समस्याएँ इस कारण उत्पन्न होती हैं कि मॉनिटाइज़ेशन मॉडल ऐसे निर्णयों को प्रोत्साहित करता है जो उपयोगकर्ता की भलाई के विपरीत होते हैं स्पष्ट रूप से, हमारी वर्तमान योजना केवल यही है कि यदि उपलब्ध कंप्यूट के सापेक्ष मांग बहुत अधिक हो तो हम उपयोगकर्ताओं को अतिरिक्त वीडियो उत्पन्न करने के लिए कुछ राशि का भुगतान करने का विकल्प दें. जैसे-जैसे ऐप विकसित होता जाएगा, हम यहाँ अपने दृष्टिकोण में होने वाले किसी भी बदलाव के बारे में खुले तौर पर संवाद करेंगे, साथ ही उपयोगकर्ता की भलाई को अपना मुख्य लक्ष्य बनाए रखेंगे.
हम इस सफ़र की शुरुआत में हैं, लेकिन Sora 2 के साथ कंटेंट बनाने और रीमिक्स करने के सभी शक्तिशाली तरीकों के साथ, हम इसे सह-रचनात्मक अनुभवों के लिए एक पूरी तरह से नए युग की शुरुआत के रूप में देखते हैं. हमें उम्मीद है कि अभी जो उपलब्ध है, उसकी तुलना में यह मनोरंजन और क्रिएटिविटी के लिए एक ज़्यादा हेल्दी प्लैटफ़ॉर्म होगा. हमें उम्मीद है कि आपका समय अच्छा बीतेगा :)
Sora iOS ऐप(एक नई विंडो में खुलेगा) अब डाउनलोड के लिए उपलब्ध है. जब आपके अकाउंट के लिए एक्सेस खुलेगा तो आप पुश नोटिफ़िकेशन के लिए ऐप में साइन अप कर सकते हैं. हम आज अमेरिका और कनाडा में शुरुआती रोलआउट शुरू कर रहे हैं, जिसका उद्देश्य जल्द ही अतिरिक्त देशों में इसका विस्तार करना है. इन्वाईट मिलने के बाद, आप sora.com(एक नई विंडो में खुलेगा) के ज़रिये भी Sora 2 को एक्सेस कर सकेंगे. Sora 2 शुरू में मुफ़्त में उपलब्ध होगा, जिसमें शुरुआत के लिए उदार सीमाएं होंगी ताकि लोग इसकी क्षमताओं को स्वतंत्र रूप से एक्सप्लोर कर सकें, हालांकि ये अभी भी कंप्यूट संबंधी बाधाओं के अधीन हैं. ChatGPT Pro उपयोगकर्ता एक्सपेरिमेंटल, उच्च गुणवत्ता वाला Sora 2 Pro मॉडल का इस्तेमाल sora.com(एक नई विंडो में खुलेगा) पर भी कर पाएंगे (और जल्द ही Sora ऐप में भी). हम API में Sora 2 जारी करने की भी योजना बना रहे हैं. Sora 1 Turbo उपलब्ध बना रहेगा, और आपने जो कुछ भी बनाया है वो आपकी sora.com(एक नई विंडो में खुलेगा) लाइब्रेरी में हमेशा मौजूद रहेगा.
वीडियो मॉडल बहुत तेज़ी से, बहुत बेहतर होते जा रहे हैं. सामान्य-प्रयोजन वाले वर्ल्ड सिमुलेटर्स और रोबोटिक एजेंट्स समाज को मौलिक रूप से बदल देंगे और मानव प्रगति की रफ़्तार को तेज़ करेंगे. Sora 2 उस लक्ष्य की दिशा में अहम प्रगति को रिप्रेज़ेंट करता है. OpenAI के मिशन के अनुरूप, यह ज़रूरी है कि जैसे-जैसे ये मॉडल विकसित हों, पूरी मानवता को उनसे लाभ मिले. हमारा मानना है कि Sora दुनिया में ढेर सारी खुशियाँ, क्रिएटिविटी और जुड़ाव लेकर आएगा.
— Sora टीम द्वारा लिखित
प्राथमिक लक्ष्य और दृश्य
पहली छवि: एक ड्रैगन, दाँतेदार बर्फ़ीले शिखरों के बीच से फिसलता हुआ, अपने पंखों की नोक से बर्फ़ीली बूँदों को उड़ा रहा है; दूसरी छवि: ग्लेशियर की टूटी हुई चादर कोबाल्ट फ़्ज़ॉर्ड की ओर गिर रही है, और एम्बर रंग का सूर्य उसकी पंखों पर जमी बर्फ़ को हल्के से छू रहा है;
फ़ॉर्मेट और लुक
5.0s; 4K; 180° शटर; क्रिस्प माइक्रो-कंट्रास्ट के साथ बड़े-फ़ॉर्मेट वाला डिजिटल सेंसर एमुलेशन; बहुत बारीक दाने; बर्फ़ की चमक पर कंट्रोल्ड हेलेशन; कोई गेट वीव नहीं.
लेंस और फ़िल्ट्रेशन
हीरो: नोज़-माउंटेड जायरो-स्टेबिलाइज़्ड एरियल प्लेटफ़ॉर्म पर 50 मिमी स्फ़ेरिकल (थोड़े अंदर की ओर आर्क के साथ पैरेलल ट्रैकिंग). फ़िल्ट्रेशन: ब्लैक प्रो-मिस्ट 1/8; सर्कुलर पोलराइज़र को हल्का सेट किया गया ताकि बर्फ़ की चमक को नियंत्रित किया जा सके और स्पेक्युलर चमक बनी रहे.
ग्रेड / पैलेट
हाइलाइट्स: साफ़ बर्फ़ सफ़ेद, कूल रोल-ऑफ़ के साथ; बीच में: स्टील-नीला ग्लेशियर और हल्की सियान हवा; शैडो: स्लेट/टील रंग, जिसमें क्रेवास डिटेल पहले से मौजूद है; अलग करने के लिए ड्रैगन एज पर गर्म एम्बर रिम; फ़्रॉस्ट/स्केल पर टाइट स्पेक्युलर्स हैं.
लाइटिंग और वातावरण
देर-दोपहर को नीचे उतरती हुई धूप, क्रॉस-की लाइट; कैटाबैटिक हवा उड़ती बर्फ़ को ऊपर उठाती हुई; गहराई के लिए पतली जमी हुई धुँध; बीच-बीच में बर्फ की धूल के विस्फोट; ड्रैगन के हल्की साँस लेने का प्रयास करने पर निकलती हुई भाप.
लोकेशन और फ़्रेमिंग
ऊँचे सेरेक क्षेत्र और छुरी जैसी रिज़लाइन; कैमरा ड्रैगन के साथ मध्य-ऊँचाई पर समान गति से ट्रैक करता है, ग्लेशियर की तिरछी रेखाएँ फ़्ज़ॉर्ड की ओर जाती हैं; अग्रभूमि में बर्फ़ के पंख पैरलैक्स के लिए पास से गुज़रते हैं; कोई मानव संरचनाएँ नहीं.
अलमारी / प्रॉप्स / वाहन नोट्स
लागू नहीं (क्रिएचर). सतह पर: मैट सींग जैसी रिज़, अर्ध-इन्द्रधनुषी स्केल प्लेट्स, अग्रिम किनारों पर सूक्ष्म बर्फ़ के साथ.
ध्वनि
ऊँचाई पर तेज़ हवा का झोंका, पंखों की झिल्ली की हर नीचे की गति में गर्जन, सेरेक से क्रिस्टलीय बर्फ़ की कर्कश करती हुई आवाज़, दूर से ग्लेशियर के टूटने की आवाज़; ड्रैगन की तेज़ साँस/गड़गड़ाहट: “Rrhh—” (1 सेकंड से कम). कोई स्कोर नहीं—दिखाई और सुनाई देने वाली दुनिया का असली रोमांच.
ऑप्टिमाइज़्ड शॉट लिस्ट (1 शॉट / 5.0 सेकंड)
0.0–5.0 — “पैरेलल रिज कार्व” (50 मिमी, नोज़-माउंट एरियल लेंस, थोड़ा अंदर की ओर आर्क और माइक्रो-पुश के साथ)
हम ड्रैगन की गति के साथ चलते हैं जब वह बर्फ़ीले शिखरों के गलियारे से होकर गुज़रता है; पंखों की नोक से उठते हवा के घुमाव उड़ती बर्फ़ की बूँदों को रिबन जैसी आकृति में उड़ाते हैं; टूटकर अलग हुआ एक टुकड़ा बहुत नीचे गिरता है, जिससे पाउडर जैसी धुँध उठती है; कैमरा धीरे-धीरे और करीब आता है—स्केल्स साफ़ दिखाई देते हैं, एम्बर रिम चमक उठता है—फिर ड्रैगन फ़ियोर्ड की ओर झुककर मुड़ता है, पूँछ कैंची-सी चलती हुई, और ग्लेशियर पर एक व्यापक छाया डालता है.
उद्देश्य: एक निर्णायक पास में पौराणिक पैमाना और स्पर्शनीय वास्तविकता प्रस्तुत करना—गति, द्रव्यमान और मौलिक ठंड.
कैमरा नोट्स (यह क्यों प्रभावी दिखता है)
50 मिमी का लेंस क्रिएचर की उपस्थिति और परिदृश्य के पैमाने के बीच संतुलन बनाता है, बिना इसे छोटा किए; समानांतर ट्रैक + अंदरूनी वक्र गति और आकार को प्रभावी बनाता है; सबसे ताकतवर डाउनस्ट्रोक के साथ छोटे-छोटे धक्कों का समय, ताकत और प्रभाव को झलकाने के लिए; लाइट पोलराइज़र चमक को नियंत्रित करता है और ग्लिटर को बरकरार रखता है; पीछे/किनारी सूरज सिल्हूट को उभारता है; पास से गुज़रते बर्फ़ के पंख पैरलैक्स गति के संकेत देते हैं.
फ़िनिशिंग
बहुत बारीक कण (लगभग 15%); बर्फ़ पर हल्की चमक; नीले रंग को विश्वसनीय और काले रंग को गहरा बनाए रखने के लिए हल्का प्रिंट प्रभाव; मल्टीबैंड डायनेमिक्स ताकि पंखों की आवाज़ बनी रहे और ग्लेशियर के टूटने की गूँज स्पष्ट सुनाई दे; पोस्टर फ़्रेम: सूरज की रोशनी में चमकते एक सेरैक के ऊपर मुड़ा हुआ ड्रैगन, बर्फ़ीली धुंध उड़ती हुई, और पीछे फ़ियोर्ड गहरा नीला चमक रहा है.
Sora 2
Debbie Mesloh
Caroline Zhao
प्रकाशित 30 सितंबर, MMXXV


