मजकुरावरून व्हिडिओ तयार करा

या पानावरील सर्व व्हिडिओ Sora ने कोणताही बदल न करता थेट तयार केले आहेत.

लोड होत आहे...

आम्ही AI ला गतीमान भौतिक जग समजून घेणे व त्याचे अनुकरण करणे शिकवत आहोत, ज्याचा उद्देश प्रत्यक्ष जगातील परस्परसंवाद आवश्यक असलेल्या समस्यांचे निराकरण करण्यात मदत करणारे मॉडेल्स प्रशिक्षित करणे आहे.

आमचे टेक्स्ट-टू-व्हिडिओ मॉडेल, Sora, सादर करत आहोत. Sora वापरकर्त्याच्या प्रॉम्प्टनुसार व्हिज्युअल क्वालिटी टिकवून ठेवत एक मिनिटापर्यंतचे व्हिडिओ तयार करू शकते.

प्रॉम्प्ट: उबदार चमकणाऱ्या निऑन आणि अनिमेटेड शहराच्या चिन्हांनी भरलेल्या टोकियोच्या रस्त्यावरून एक स्टायलिश महिला चालत आहे. तिने काळा लेदर जॅकेट, लांब लाल ड्रेस व काळे बूट घातले आहेत आणि काळा पर्स हातात आहे. तिने सनग्लासेस व लाल लिपस्टिक लावली आहे. ती आत्मविश्वासाने व सहज चालत आहे. रस्ता ओला व परावर्तित आहे, ज्यामुळे रंगीबेरंगी प्रकाशांचे आरशासारखे प्रतिबिंब तयार होते. बरेच पादचारी फिरत आहेत.

प्रॉम्प्ट: अनेक प्रचंड लोमश मॅमथ बर्फाच्छादित कुरणातून चालत येतात, चालताना त्यांच्या लांब केसांवर वारा हलकेच झुळूकतो, दूर बर्फाच्छादित झाडे व नाट्यमय बर्फाच्छादित पर्वत दिसतात, दुपारच्या प्रकाशात हलकी ढगरे व दूरवर उंच सूर्य उबदार झळाळी निर्माण करतो, लो-कॅमेरा दृश्य सुंदर फोटोग्राफी व डेप्थ ऑफ फील्डसह या मोठ्या लोमश सस्तन प्राण्याला अप्रतिम पकडतो.

प्रॉम्प्ट: लाल लोकरीच्या विणलेल्या मोटरसायकल हेल्मेट घातलेल्या 30 वर्षीय अंतराळवीराच्या साहसांवर आधारित मूव्ही ट्रेलर; निळे आकाश, मिठाचा वाळवंट, सिनेमॅटिक शैली, 35mm फिल्मवर चित्रित, जिवंत रंगांसह.

प्रॉम्प्ट: बिग सुरच्या गॅरे पॉईंट बीचवरील खडकाळ कड्यांवर आदळणाऱ्या लाटांचा ड्रोन दृश्य. आदळणारे निळे पाणी पांढऱ्या टोकांच्या लाटा तयार करते, तर मावळत्या सूर्याचा सुवर्ण प्रकाश खडकाळ किनाऱ्याला उजळवतो. दूरवर दीपगृह असलेले एक छोटे बेट आहे आणि कड्याच्या टोकावर हिरवी झुडपे पसरलेली आहेत. रस्त्यापासून समुद्रकिनाऱ्यापर्यंतचा उंच कडा नाट्यमय भासतो, ज्यात कड्याचे टोक समुद्रावर बाहेर आलेले आहे. हा नजारा किनाऱ्याचे नैसर्गिक सौंदर्य आणि पॅसिफिक कोस्ट हायवेचे खडकाळ लँडस्केप दाखवतो.

प्रॉम्प्ट: अ‍ॅनिमेटेड दृश्यात वितळणाऱ्या लाल मेणबत्तीशेजारी गुडघे टेकून बसलेल्या लहान मऊ राक्षसाचा क्लोज-अप दाखवला आहे. आर्ट स्टाईल 3D आणि वास्तवदर्शी आहे, ज्यात लाईटिंग व टेक्स्चरवर भर दिला आहे. या पेंटिंगचा मूड आश्चर्य व कुतूहलाचा आहे, कारण राक्षस मोठ्या डोळ्यांनी व उघड्या तोंडाने ज्योतीकडे पाहत आहे. त्याची स्थिती व भाव निरागसता व खेळकरपणा दर्शवतात, जणू तो आजूबाजूच्या जगाचा प्रथमच शोध घेत आहे. उबदार रंगांचा व नाट्यमय लाईटिंगचा वापर प्रतिमेचे आरामदायी वातावरण अधिक उठावदार करतो.

प्रॉम्प्ट: रंगीबेरंगी मासे व समुद्री जीवांनी गजबजलेल्या प्रवाळ भित्तीच्या सुंदरपणे साकारलेल्या पेपरक्राफ्ट जगाची प्रतिमा.

प्रॉम्प्ट: विक्टोरिया क्राउनड पिजनच्या या क्लोज-अप शॉटमध्ये त्याचे आकर्षक निळे पंख आणि लाल छाती दिसून येतात. त्याचा शिरोभूषा नाजूक, लेससारख्या पंखांनी बनलेला आहे, तर डोळा आकर्षक लाल रंगाचा आहे. त्या पक्ष्याचे डोके थोडे बाजूला वळलेले आहे, ज्यामुळे तो राजेशाही आणि भव्य दिसतो. पार्श्वभूमी धूसर आहे, ज्यामुळे पक्ष्याचे आकर्षक रूप अधिक उठून दिसते.

प्रॉम्प्ट: कॉफीच्या कपात चालणाऱ्या दोन समुद्री चाचे जहाजांच्या युद्धाचा फोटोरेअलिस्टिक क्लोज-अप व्हिडिओ.

प्रॉम्प्ट: वीसाव्या दशकातील एक तरुण आकाशातल्या ढगाच्या तुकड्यावर बसून पुस्तक वाचत आहे.

आज, Sora रेड टीमर्ससाठी उपलब्ध होत आहे जेणेकरून ते हानी किंवा जोखमीच्या गंभीर क्षेत्रांचे मूल्यांकन करू शकतील. आम्ही अनेक व्हिज्युअल आर्टिस्ट्स, डिझाइनर्स आणि फिल्ममेकर्सना देखील प्रवेश देत आहोत, जेणेकरून क्रिएटिव्ह प्रोफेशनल्ससाठी हा मॉडेल कसा सर्वाधिक उपयुक्त होईल याबद्दल अभिप्राय मिळू शकेल.

आम्ही आमची संशोधन प्रगती लवकरच शेअर करत आहोत, जेणेकरून OpenAI बाहेरील लोकांसोबत काम सुरू करता येईल, त्यांच्याकडून अभिप्राय मिळेल आणि जनतेला येऊ घातलेल्या AI क्षमतांची जाणीव होईल.

प्रॉम्प्ट: गोल्ड रशच्या काळातील कॅलिफोर्नियाचे ऐतिहासिक फुटेज.

प्रॉम्प्ट: झेन गार्डन असलेल्या काचेच्या गोळ्याचा क्लोज-अप दृश्य. त्या गोळ्यात एक लहान बुटका आहे जो झेन गार्डनमध्ये खुरपणी करत आहे आणि वाळूमध्ये नक्षी तयार करत आहे.

प्रॉम्प्ट: 24 वर्षीय स्त्रीच्या डोळ्याचा झपकन पापणी मारतानाचा एक्स्ट्रीम क्लोज-अप, मॅराकेशमध्ये मॅजिक अवर दरम्यान उभी, 70mm वर चित्रित सिनेमॅटिक फिल्म, डेप्थ ऑफ फील्ड, जिवंत रंग, सिनेमॅटिक

प्रॉम्प्ट: एक कार्टून कांगारू डिस्को डान्स करत आहे.

प्रॉम्प्ट: 2056 साली लागोस, नायजेरियातील लोक दाखवणारा एक सुंदर होममेड व्हिडिओ. मोबाईल फोन कॅमेऱ्याने शूट केलेले.

प्रॉम्प्ट: आत बांबूच्या जंगलाची वाढ असलेली एक पेट्री डिश, ज्यात छोटे रेड पांडा इकडे-तिकडे पळत आहेत.

प्रॉम्प्ट: मोठ्या न्यूयॉर्क म्युझियम गॅलरीत ठेवलेल्या जुन्या टीव्हींच्या ढिगाभोवती कॅमेरा फिरतो, ज्यात प्रत्येकावर वेगळे कार्यक्रम — 1950 चे साय-फाय चित्रपट, भयपट, बातम्या, स्टॅटिक, 1970 चा सिटकॉम इत्यादी दाखवत आहेत.

प्रॉम्प्ट: मोठे, भावपूर्ण डोळे असलेला लहान, गोल, मऊ जीव 3D अॅनिमेशनमध्ये रंगीबेरंगी, जादुई जंगलात शोध घेत आहे. तो जीव, ससा व खार यांच्या गंमतीदार मिश्रणासारखा, मऊ निळ्या फरसह व झुपकेदार पट्टेदार शेपटीसह आहे. तो चमकणाऱ्या ओढ्याच्या काठाने उड्या मारत जातो, त्याचे डोळे आश्चर्याने मोठे झालेले आहेत. जंगल जादुई घटकांनी जिवंत झालेले आहे: प्रकाशमान होणारी व रंग बदलणारी फुले, जांभळ्या व चांदीच्या छटांची पाने असलेली झाडे आणि काजव्यांसारखी दिसणारी लहान तरंगती दिवे. तो जीव खेळकरपणे थांबतो आणि मशरूमच्या वर्तुळाभोवती नाचणाऱ्या परीकथांसारख्या छोट्या जीवांशी संवाद साधतो. तो जीव विस्मयाने वर पाहतो, जिथे एक मोठे, प्रकाशमान झाड आहे जे जणू जंगलाचे हृदय वाटते.

Sora अनेक पात्रे, विशिष्ट हालचाली व विषय आणि पार्श्वभूमीचे अचूक तपशील असलेल्या गुंतागुंतीच्या दृश्यांची निर्मिती करू शकते. मॉडेलला फक्त वापरकर्त्याने प्रॉम्प्टमध्ये काय विचारले आहे तेच नव्हे, तर त्या गोष्टी प्रत्यक्ष जगात कशा अस्तित्वात आहेत हेही समजते.

प्रॉम्प्ट: काळ्या रूफ रॅकसह पांढऱ्या विंटेज SUV च्या मागे कॅमेरा लागतो, जेव्हा ते पाइन झाडांनी वेढलेल्या खड्या डोंगरउतारावरील मातीच्या रस्त्यावर वेगाने चढते. त्याच्या टायरमधून धूळ उडते, सूर्यप्रकाश SUV वर चमकतो आणि संपूर्ण दृश्यावर उबदार झळाळी टाकतो. मातीचा रस्ता दूरवर सौम्य वळण घेतो, आसपास इतर कोणतीही वाहने दिसत नाहीत. रस्त्याच्या दोन्ही बाजूला रेडवुड झाडे आहेत, ज्यात ठिकठिकाणी हिरवाई पसरलेली आहे. गाडी मागून वळण सहज घेताना दिसते, ज्यामुळे ती खडकाळ प्रदेशातून खडतर ड्राइव्ह करत असल्यासारखी भासते. मातीचा रस्ता उंच टेकड्या व पर्वतांनी वेढलेला आहे, वर स्वच्छ निळे आकाश असून त्यात हलके ढग आहेत.

प्रॉम्प्ट: टोकियोच्या उपनगरातून धावणाऱ्या ट्रेनच्या खिडकीतील प्रतिबिंबे.

प्रॉम्प्ट: अमाल्फी किनाऱ्यावर खडकाळ कड्यावर बांधलेल्या सुंदर ऐतिहासिक चर्चभोवती ड्रोन कॅमेरा फिरतो. दृश्यात ऐतिहासिक व भव्य वास्तुशिल्पीय तपशील, टप्प्याटप्प्याने असलेले पायवाटा व पॅटिओ दिसतात. खाली खडकांवर आदळणाऱ्या लाटा दिसतात, तर वरून अमाल्फी किनाऱ्याचे समुद्रकिनारे व डोंगराळ लँडस्केप क्षितिजापर्यंत पसरलेले दिसते. दूरवर काही लोक पॅटिओवर चालत व सागराच्या नाट्यमय दृश्यांचा आनंद घेताना दिसतात. दुपारच्या सूर्याची उबदार झळाळी दृश्याला जादुई व रोमँटिक भावना देते. हे दृश्य अप्रतिम फोटोग्राफीने टिपलेले आहे.

प्रॉम्प्ट: मोठा नारिंगी ऑक्टोपस समुद्रतळावर वाळू आणि खडकाळ जमिनीत मिसळत विसावताना दिसतो. त्याचे तंबू शरीराभोवती पसरलेले आहेत आणि त्याचे डोळे मिटलेले आहेत. ऑक्टोपसला खडकाच्या मागून त्याच्याकडे येणाऱ्या, चिमटे उचलून हल्ला करण्यास तयार असलेल्या किंग क्रॅबची जाणीव नाही. तो खेकडा तपकिरी व काटेरी असून लांब पाय आणि स्पर्शेंद्रिये आहेत. हे दृश्य वाइड अँगलमधून टिपलेले आहे, ज्यात समुद्राची विशालता व खोली दिसते. पाणी स्वच्छ व निळे आहे, ज्यातून सूर्यकिरणे आत झिरपत आहेत. हा शॉट तीक्ष्ण व स्पष्ट आहे, ज्यात उच्च डायनॅमिक रेंज आहे. ऑक्टोपस आणि क्रॅब फोकसमध्ये आहेत, तर पार्श्वभूमी किंचित धूसर आहे, ज्यामुळे डेप्थ ऑफ फील्ड इफेक्ट निर्माण होतो.

प्रॉम्प्ट: जणू स्थलांतर करणारे पक्षी असल्यासारखे कागदी विमानांचा थवा दाट जंगलातून झाडांभोवती वळणे घेत उडत आहे.

प्रॉम्प्ट: नाश्ता मागत झोपलेल्या मालकाला उठवणारी मांजर. मालक मांजरीकडे दुर्लक्ष करण्याचा प्रयत्न करतो, पण मांजर नवे डावपेच वापरते आणि शेवटी मालक उशीखालून गुप्त ठेवलेले ट्रीट्स काढतो, जेणेकरून मांजरीला थोडा वेळ थांबवता येईल.

प्रॉम्प्ट: किनाबातांगन नदीवरील बोर्निओ वन्यजीव

प्रॉम्प्ट: चायनीज ड्रॅगनसह चिनी लूनर नववर्ष साजरा करणारा व्हिडिओ.

या मॉडेलला भाषेचे सखोल ज्ञान आहे, ज्यामुळे ते प्रॉम्प्ट्स अचूक समजून घेते आणि जिवंत भावना व्यक्त करणारी प्रभावी वर्ण उत्पन्न करणे शकते. Sora एका तयार केलेल्या व्हिडिओमध्ये अनेक शॉट्स तयार करू शकते, जे पात्रे व व्हिज्युअल शैली अचूकपणे टिकवतात.

प्रॉम्प्ट: वेगवेगळ्या शैलीतील अनेक सुंदर कलाकृती असलेल्या आर्ट गॅलरीचा फेरफटका.

प्रॉम्प्ट: सुंदर, बर्फाच्छादित टोकियो शहर गजबजलेले आहे. कॅमेरा गजबजलेल्या शहराच्या रस्त्यावरून जातो, सुंदर बर्फाळ हवामानाचा आनंद घेत व जवळच्या स्टॉलवर खरेदी करणाऱ्या अनेक लोकांचा मागोवा घेतो. बर्फकणांसह सुंदर साकुरा पाकळ्या वाऱ्यात उडत आहेत.

प्रॉम्प्ट: उपनगरातील घराच्या खिडकीजवळ उगवणाऱ्या फुलाचे स्टॉप मोशन अ‍ॅनिमेशन.

प्रॉम्प्ट: सायबरपंक वातावरणातील एका रोबोटच्या आयुष्याची गोष्ट.

प्रॉम्प्ट: साठीतला, पांढरे केस व दाढी असलेल्या माणसाचा एक्स्ट्रीम क्लोज-अप. तो पॅरिसमधील कॅफेत बसून गहन विचारात मग्न आहे, विश्वाच्या इतिहासाचा विचार करत आहे. त्याचे डोळे ऑफस्क्रीन चालणाऱ्या लोकांकडे खिळलेले आहेत, तो बहुतेक स्थिर बसलेला आहे. त्याने लोकरीचा सूटकोट व बटण असलेला शर्ट घातला आहे, तपकिरी बेरे टोपी व चष्मा लावला आहे, आणि त्याचा देखावा एक प्राध्यापकासारखा आहे. शेवटी तो हलक्या बंद तोंडाच्या स्मिताने जणू जीवनाच्या रहस्याचे उत्तर सापडल्यासारखा वाटतो. लाईटिंग खूप सिनेमॅटिक आहे — सुवर्ण किरणे, पॅरिसचे रस्ते व शहर पार्श्वभूमीत, डेप्थ ऑफ फील्ड, सिनेमॅटिक 35mm फिल्म.

प्रॉम्प्ट: सुंदर शिलुएट अ‍ॅनिमेशनमध्ये एक लांडगा चंद्राकडे पाहून हंबरडा फोडताना दिसतो, एकाकी वाटत असतो, तोपर्यंत जोपर्यंत त्याला त्याचा कळप सापडत नाही.

प्रॉम्प्ट: न्यूयॉर्क शहर अटलांटिससारखे पाण्याखाली बुडालेले. मासे, व्हेल, समुद्री कासवे आणि शार्क न्यूयॉर्कच्या रस्त्यांतून पोहत आहेत.

प्रॉम्प्ट: बर्फात खेळणारी गोल्डन रिट्रिव्हर पिलांची एक टोळी. त्यांच्या डोक्यांचे बर्फातून डोके बाहेर येते, बर्फाने झाकलेले.

सध्याच्या मॉडेलमध्ये अजूनही सुधारण्यासाठी वाव आहे. एखाद्या गुंतागुंतीच्या दृश्याचे भौतिकशास्त्र अनुकरण करणे त्याला कठीण वाटू शकते आणि कारण आणि परिणामाच्या विशिष्ट घटना समजू शकत नाहीत (उदाहरणार्थ: एखाद्या पात्राने कुकी चावल्यानंतर कुकीला काही खूण दिसणार नाही). मॉडेल प्रॉम्प्टमध्ये दिलेल्या अवकाशीय तपशीलांमध्ये गोंधळ करू शकते, जसे डावा-उजवा ओळखण्यात, किंवा वेळोवेळी घडणाऱ्या घटनांचे अचूक वर्णन करण्यात (उदा. विशिष्ट कॅमेरा ट्रॅजेक्टरी) अडचण.

प्रॉम्प्ट: धावत असलेल्या व्यक्तीचे स्टेप-प्रिंटिंग दृश्य, 35mm सिनेमॅटिक फिल्मवर चित्रित.

कमकुवतपणा: Sora कधीकधी भौतिकशास्त्रीयदृष्ट्या अविश्वसनीय हालचाली निर्माण करते.

प्रॉम्प्ट: गवताने वेढलेल्या दुर्गम खडीच्या रस्त्यावर पाच करड्या लांडग्याची पिले खेळत आहेत व एकमेकांचा पाठलाग करत आहेत. पिले धावत व उड्या मारत आहेत, एकमेकांचा पाठलाग करत व हलक्या चाव्यांनी खेळत आहेत.

कमकुवतपणा: प्राणी किंवा माणसे अचानक दिसू शकतात, विशेषतः अनेक घटक असलेल्या दृश्यांमध्ये.

प्रॉम्प्ट: बास्केटबॉल हूपमधून जातो आणि नंतर फुटतो.

कमकुवतपणा: अचूक नसलेल्या भौतिक मॉडेलिंगचे आणि अप्राकृतिक वस्तूंच्या “मॉर्फिंग” चे उदाहरण.

प्रॉम्प्ट: पुरातत्वज्ञ वाळवंटात एक साधी प्लास्टिक खुर्ची शोधतात, काळजीपूर्वक उत्खनन व धूळ साफ करताना.

कमकुवतपणा: या उदाहरणात, Sora खुर्चीला कठोर वस्तू म्हणून मॉडेल करण्यात अपयशी ठरते, ज्यामुळे अचूक नसलेले भौतिक परस्परसंवाद होतात.

प्रॉम्प्ट: नीट विंचरलेले पांढरे केस असलेली आजी लाकडी डायनिंग टेबलावर असलेल्या रंगीबेरंगी वाढदिवसाच्या केकच्या मागे उभी आहे, ज्यावर असंख्य मेणबत्त्या आहेत. तिच्या चेहऱ्यावर शुद्ध आनंद व समाधानाचे भाव आहेत, डोळ्यात आनंदाची झळाळी आहे. ती पुढे झुकून हलक्या श्वासाने मेणबत्त्या विझवते. केकवर गुलाबी फ्रॉस्टिंग व स्प्रिंकल्स आहेत आणि मेणबत्त्या चमकणे थांबवतात. आजीने फुलांच्या डिझाईन असलेला फिकट निळा ब्लाऊज घातला आहे. टेबलाजवळ बसलेले काही आनंदी मित्र व कुटुंबीय दिसतात, मात्र फोकसबाहेर आहेत. हे दृश्य सुंदररीत्या टिपलेले आहे, सिनेमॅटिक शैलीत, ज्यात आजी व डायनिंग रूमचा 3/4 अँगल दिसतो. उबदार रंगछटा व मऊ लाईटिंग दृश्याचा मूड अधिक खुलवतात.

कमकुवतपणा: वस्तू व अनेक पात्रांमधील गुंतागुंतीच्या परस्परसंवादाचे अनुकरण करणे मॉडेलसाठी नेहमीच आव्हानात्मक असते, ज्यामुळे कधी कधी विनोदी निर्मिती होऊ शकते.

सुरक्षितता

OpenAI च्या प्रॉडक्ट्समध्ये Sora उपलब्ध करण्यापूर्वी आम्ही काही महत्त्वाच्या सुरक्षा पावले उचलणार आहोत. आम्ही रेड टीमर्ससोबत काम करत आहोत — जे डोमेन माहिती, द्वेषयुक्त सामग्री आणि पक्षपात यांसारख्या क्षेत्रातील तज्ज्ञ आहेत — जे मॉडेलचे प्रतिकूल परिस्थितीत परीक्षण करतील.

आम्ही दिशाभूल करणारी सामग्री ओळखण्यासाठी टूल्स तयार करत आहोत, जसे की डिटेक्शन क्लासिफायर जे व्हिडिओ Sora ने तयार केले आहे की नाही हे सांगू शकेल. आम्ही OpenAI उत्पादनामध्ये मॉडेल उपयोजित केल्यास भविष्यात C2PA मेटाडेटा⁠(नवीन विंडोमध्ये उघडेल) समाविष्ट करण्याची योजना आखत आहोत.

तैनातूकीची तयारी करण्यासाठी आम्ही नवीन तंत्र विकसित करण्याव्यतिरिक्त, आम्ही DALL·E 3 वापरणाऱ्या आमच्या उत्पादनांसाठी तयार केलेल्या विद्यमान सुरक्षा पद्धतींचा⁠(नवीन विंडोमध्ये उघडेल) लाभ घेत आहोत, ज्या Sora साठीही लागू आहेत.

उदाहरणार्थ, एकदा OpenAI उत्पादनात, आमचा मजकूर वर्गीकरणकर्ता आमच्या वापर धोरणांचे उल्लंघन करणारे मजकूर इनपुट प्रॉम्प्ट तपासेल आणि नाकारेल, जसे की जे अत्यंत हिंसाचार, लैंगिक सामग्री, द्वेषपूर्ण प्रतिमा, सेलिब्रिटी प्रतिमेची किंवा इतरांच्या आयपीची विनंती करतात. आम्ही मजबूत इमेज क्लासिफायर देखील विकसित केले आहेत, जे प्रत्येक तयार केलेल्या व्हिडिओच्या फ्रेम्सचे पुनरावलोकन करण्यासाठी वापरले जातात, ज्यामुळे वापरकर्त्याला दाखवण्यापूर्वी ते आमच्या वापर धोरणांचे पालन करते याची खात्री होते.

आम्ही जगभरातील धोरणकर्ते, शिक्षक आणि कलाकार यांच्यासोबत संवाद साधणार आहोत, त्यांची चिंता समजून घेण्यासाठी आणि या नवीन तंत्रज्ञानाचे सकारात्मक वापर प्रकरणे ओळखण्यासाठी. व्यापक संशोधन व परीक्षण असूनही, लोक आमच्या तंत्रज्ञानाचा कोणत्या सर्व उपयुक्त मार्गांनी वापर करतील किंवा कोणत्या मार्गांनी गैरवापर करतील हे आम्ही भाकीत करू शकत नाही. म्हणूनच आम्हाला वाटते की प्रत्यक्ष वापरातून शिकणे हे काळानुसार अधिक सुरक्षित AI प्रणाली तयार व प्रकाशित करण्याचा एक महत्त्वाचा घटक आहे.

प्रॉम्प्ट: कॅमेरा इटलीतील बुरानो येथील रंगीबेरंगी इमारतींकडे थेट पाहतो. गोंडस डॅल्मेशन भूतलावरील इमारतीच्या खिडकीतून पाहत आहे. इमारतींसमोरच्या कालव्याच्या रस्त्यांवर अनेक लोक चालत व सायकल चालवत आहेत.

प्रॉम्प्ट: गोंडस, आनंदी ऑटर पिवळा लाइफजॅकेट घालून आत्मविश्वासाने सर्फबोर्डवर उभा आहे, हिरव्यागार उष्णकटिबंधीय बेटांच्या जवळ निळसर-हिरव्या पाण्यात सर्फ करत आहे, 3D डिजिटल रेंडर आर्ट शैलीत.

प्रॉम्प्ट: गिरगिटाच्या या क्लोज-अप शॉटमध्ये त्याच्या आकर्षक रंग बदलण्याच्या क्षमतेचे प्रदर्शन आहे. पार्श्वभूमी धूसर आहे, ज्यामुळे प्राण्याचे आकर्षक रूप अधिक उठून दिसते.

प्रॉम्प्ट: उष्णकटिबंधीय माउईमध्ये स्वतःचा व्ह्लॉग करणारा एक कॉर्गी.

प्रॉम्प्ट: पांढरी व केशरी टॅबी मांजर दाट बागेतून आनंदाने धावताना दिसते, जणू काहीतरी पाठलाग करत आहे. पुढे धावताना त्याचे डोळे मोठे व आनंदी आहेत, चालताना तो फांद्या, फुले आणि पाने पाहत आहे. सर्व झाडाझुडपांमधून जाताना वाट अरुंद आहे. हे दृश्य जमिनीच्या पातळीवरून टिपलेले आहे, मांजराच्या अगदी जवळून, ज्यामुळे एक लो-ॲंगल व जवळीक दाखवणारा दृष्टिकोन मिळतो. प्रतिमा सिनेमॅटिक आहे, उबदार छटा व दाणेदार टेक्स्चर असलेली. वरच्या पानांतून व झाडांमधून झिरपणारा दिवसाचा प्रकाश उबदार कॉन्ट्रास्ट निर्माण करतो, ज्यामुळे मांजरीचा केशरी फर अधिक उठून दिसतो. हा शॉट स्पष्ट व तीक्ष्ण आहे, शॅलो डेप्थ ऑफ फील्डसह.

प्रॉम्प्ट: ब्लू अवर दरम्यानचे सॅंटोरिनीचे एरिअल दृश्य, ज्यात निळ्या घुमटांसह पांढऱ्या सायक्लॅडिक इमारतींची अप्रतिम वास्तुकला दिसते. कॅल्डेरा दृश्ये श्वास रोखून धरावीत अशी आहेत, आणि लाईटिंग सुंदर, शांत वातावरण तयार करते.

प्रॉम्प्ट: कामगार, उपकरणे आणि जड यंत्रसामग्रीने भरलेल्या बांधकाम स्थळाचा टिल्टशिफ्ट दृश्य.

प्रॉम्प्ट: माणसाच्या आकाराचे एक प्रचंड, उंच ढग पृथ्वीवर तरंगत आहे. ढगामधील तो माणूस पृथ्वीवर वीज कोसळतो.

प्रॉम्प्ट: सामोयेड आणि गोल्डन रिट्रिव्हर कुत्रे रात्रीच्या भविष्यवादी निऑन शहरातून खेळकरपणे धावत आहेत. जवळच्या इमारतींमधून निघणारे निऑन दिवे त्यांच्या फरवर झळकत आहेत.

प्रॉम्प्ट: ग्लेनफिनन व्हायाडक्ट हा स्कॉटलंड, यूके मधील ऐतिहासिक रेल्वे पूल आहे, जो मॅलाईग आणि फोर्ट विल्यम या शहरांदरम्यानच्या वेस्ट हायलंड लाईनवर आहे. आर्चने झाकलेल्या व्हायाडक्टवरून स्टीम ट्रेन जाताना दिसते तेव्हा तो एक अप्रतिम देखावा असतो. हिरवाईने व खडकाळ पर्वतांनी नटलेले हे लँडस्केप ट्रेन प्रवासासाठी नयनरम्य पार्श्वभूमी तयार करते. आकाश निळे असून सूर्य चमकत आहे, ज्यामुळे या भव्य स्थळाचा आनंद घेण्यासाठी हा एक सुंदर दिवस ठरतो.

संशोधन तंत्र

Sora हा एक डिफ्यूजन मॉडेल आहे, जो सुरुवातीला स्टॅटिक नॉईससारखा दिसणाऱ्या दृश्यापासून व्हिडिओ तयार करतो आणि अनेक टप्प्यांतून नॉईस काढून टाकून हळूहळू त्याचे रूपांतर करतो.

Sora एकदम संपूर्ण व्हिडिओ एकाच वेळी तयार करण्यास किंवा तयार केलेले व्हिडिओ लांब करण्यासाठी त्यांना वाढवण्यास सक्षम आहे. एकाच वेळी अनेक फ्रेम्सची कल्पना देऊन, आम्ही हा आव्हानात्मक प्रश्न सोडवला आहे की विषय तात्पुरता दृश्याबाहेर गेला तरी तो तसाच राहतो.

GPT मॉडेल्सप्रमाणेच, Sora ट्रान्सफॉर्मर आर्किटेक्चर वापरते, ज्यामुळे उच्चस्तरीय स्केलिंग परफॉर्मन्स मिळतो.

आम्ही व्हिडिओ आणि प्रतिमा लहान डेटा युनिट्सच्या संग्रहासारखे दर्शवतो, ज्यांना पॅचेस म्हणतात, आणि प्रत्येक पॅच GPT मधील token सारखा असतो. डेटा दर्शवण्याच्या पद्धतीत एकरूपता आणून, आम्ही वेगवेगळ्या कालावधी, रिझोल्यूशन आणि अ‍ॅस्पेक्ट रेशियो असलेल्या व्हिज्युअल डेटावर डिफ्यूजन ट्रान्सफॉर्मर्सचे प्रशिक्षण देऊ शकतो, जे आधी शक्य नव्हते.

Sora हा DALL·E आणि GPT मॉडेल्समधील भूतकाळातील संशोधनावर आधारित आहे. यात DALL·E 3 मधील रिकॅप्शनिंग तंत्राचा वापर केला जातो, ज्यामध्ये व्हिज्युअल ट्रेनिंग डेटासाठी अत्यंत वर्णनात्मक कॅप्शन्स तयार करणे समाविष्ट आहे. परिणामी, मॉडेल तयार केलेल्या व्हिडिओमध्ये वापरकर्त्याच्या मजकूर सूचनांचे अधिक अचूकपणे पालन करू शकते.

फक्त मजकूर सूचनांवरून व्हिडिओ तयार करण्याव्यतिरिक्त, हे मॉडेल विद्यमान स्थिर प्रतिमा घेऊन तिच्यापासून व्हिडिओ उत्पन्न करणे शकते, प्रतिमेतील घटकांना अचूकता व सूक्ष्म तपशीलांसह अ‍ॅनिमेट करून. हे मॉडेल विद्यमान व्हिडिओ घेऊन तो लांबवू शकते किंवा गहाळ फ्रेम्स भरू शकते. आमच्या तांत्रिक अहवालमध्ये अधिक जाणून घ्या⁠.

प्रत्यक्ष जग समजून घेऊन त्याचे अनुकरण करू शकणाऱ्या मॉडेल्ससाठी Sora एक पाया म्हणून कार्य करते — ही क्षमता AGI साध्य करण्यासाठी एक महत्त्वाचा टप्पा ठरेल असे आम्हाला वाटते.

लोड होत आहे ...