मुख्य मजकूराकडे जा
OpenAI

मजकुरावरून व्हिडिओ तयार करा

या पानावरील सर्व व्हिडिओ Sora ने कोणताही बदल न करता थेट तयार केले आहेत.

लोड होत आहे...

आम्ही AI ला गतीमान भौतिक जग समजून घेणे व त्याचे अनुकरण करणे शिकवत आहोत, ज्याचा उद्देश प्रत्यक्ष जगातील परस्परसंवाद आवश्यक असलेल्या समस्यांचे निराकरण करण्यात मदत करणारे मॉडेल्स प्रशिक्षित करणे आहे.

आमचे टेक्स्ट-टू-व्हिडिओ मॉडेल, Sora, सादर करत आहोत. Sora वापरकर्त्याच्या प्रॉम्प्टनुसार व्हिज्युअल क्वालिटी टिकवून ठेवत एक मिनिटापर्यंतचे व्हिडिओ तयार करू शकते.

आज, Sora रेड टीमर्ससाठी उपलब्ध होत आहे जेणेकरून ते हानी किंवा जोखमीच्या गंभीर क्षेत्रांचे मूल्यांकन करू शकतील. आम्ही अनेक व्हिज्युअल आर्टिस्ट्स, डिझाइनर्स आणि फिल्ममेकर्सना देखील प्रवेश देत आहोत, जेणेकरून क्रिएटिव्ह प्रोफेशनल्ससाठी हा मॉडेल कसा सर्वाधिक उपयुक्त होईल याबद्दल अभिप्राय मिळू शकेल.

आम्ही आमची संशोधन प्रगती लवकरच शेअर करत आहोत, जेणेकरून OpenAI बाहेरील लोकांसोबत काम सुरू करता येईल, त्यांच्याकडून अभिप्राय मिळेल आणि जनतेला येऊ घातलेल्या AI क्षमतांची जाणीव होईल.

Sora अनेक पात्रे, विशिष्ट हालचाली व विषय आणि पार्श्वभूमीचे अचूक तपशील असलेल्या गुंतागुंतीच्या दृश्यांची निर्मिती करू शकते. मॉडेलला फक्त वापरकर्त्याने प्रॉम्प्टमध्ये काय विचारले आहे तेच नव्हे, तर त्या गोष्टी प्रत्यक्ष जगात कशा अस्तित्वात आहेत हेही समजते.

या मॉडेलला भाषेचे सखोल ज्ञान आहे, ज्यामुळे ते प्रॉम्प्ट्स अचूक समजून घेते आणि जिवंत भावना व्यक्त करणारी प्रभावी वर्ण उत्पन्न करणे शकते. Sora एका तयार केलेल्या व्हिडिओमध्ये अनेक शॉट्स तयार करू शकते, जे पात्रे व व्हिज्युअल शैली अचूकपणे टिकवतात.

सध्याच्या मॉडेलमध्ये अजूनही सुधारण्यासाठी वाव आहे. एखाद्या गुंतागुंतीच्या दृश्याचे भौतिकशास्त्र अनुकरण करणे त्याला कठीण वाटू शकते आणि कारण आणि परिणामाच्या विशिष्ट घटना समजू शकत नाहीत (उदाहरणार्थ: एखाद्या पात्राने कुकी चावल्यानंतर कुकीला काही खूण दिसणार नाही). मॉडेल प्रॉम्प्टमध्ये दिलेल्या अवकाशीय तपशीलांमध्ये गोंधळ करू शकते, जसे डावा-उजवा ओळखण्यात, किंवा वेळोवेळी घडणाऱ्या घटनांचे अचूक वर्णन करण्यात (उदा. विशिष्ट कॅमेरा ट्रॅजेक्टरी) अडचण.

सुरक्षितता

OpenAI च्या प्रॉडक्ट्समध्ये Sora उपलब्ध करण्यापूर्वी आम्ही काही महत्त्वाच्या सुरक्षा पावले उचलणार आहोत. आम्ही रेड टीमर्ससोबत काम करत आहोत — जे डोमेन माहिती, द्वेषयुक्त सामग्री आणि पक्षपात यांसारख्या क्षेत्रातील तज्ज्ञ आहेत — जे मॉडेलचे प्रतिकूल परिस्थितीत परीक्षण करतील.

आम्ही दिशाभूल करणारी सामग्री ओळखण्यासाठी टूल्स तयार करत आहोत, जसे की डिटेक्शन क्लासिफायर जे व्हिडिओ Sora ने तयार केले आहे की नाही हे सांगू शकेल. आम्ही OpenAI उत्पादनामध्ये मॉडेल उपयोजित केल्यास भविष्यात C2PA मेटाडेटा(नवीन विंडोमध्ये उघडेल) समाविष्ट करण्याची योजना आखत आहोत.

तैनातूकीची तयारी करण्यासाठी आम्ही नवीन तंत्र विकसित करण्याव्यतिरिक्त, आम्ही DALL·E 3 वापरणाऱ्या आमच्या उत्पादनांसाठी तयार केलेल्या विद्यमान सुरक्षा पद्धतींचा(नवीन विंडोमध्ये उघडेल) लाभ घेत आहोत, ज्या Sora साठीही लागू आहेत.

उदाहरणार्थ, एकदा OpenAI उत्पादनात, आमचा मजकूर वर्गीकरणकर्ता आमच्या वापर धोरणांचे उल्लंघन करणारे मजकूर इनपुट प्रॉम्प्ट तपासेल आणि नाकारेल, जसे की जे अत्यंत हिंसाचार, लैंगिक सामग्री, द्वेषपूर्ण प्रतिमा, सेलिब्रिटी प्रतिमेची किंवा इतरांच्या आयपीची विनंती करतात. आम्ही मजबूत इमेज क्लासिफायर देखील विकसित केले आहेत, जे प्रत्येक तयार केलेल्या व्हिडिओच्या फ्रेम्सचे पुनरावलोकन करण्यासाठी वापरले जातात, ज्यामुळे वापरकर्त्याला दाखवण्यापूर्वी ते आमच्या वापर धोरणांचे पालन करते याची खात्री होते.

आम्ही जगभरातील धोरणकर्ते, शिक्षक आणि कलाकार यांच्यासोबत संवाद साधणार आहोत, त्यांची चिंता समजून घेण्यासाठी आणि या नवीन तंत्रज्ञानाचे सकारात्मक वापर प्रकरणे ओळखण्यासाठी. व्यापक संशोधन व परीक्षण असूनही, लोक आमच्या तंत्रज्ञानाचा कोणत्या सर्व उपयुक्त मार्गांनी वापर करतील किंवा कोणत्या मार्गांनी गैरवापर करतील हे आम्ही भाकीत करू शकत नाही. म्हणूनच आम्हाला वाटते की प्रत्यक्ष वापरातून शिकणे हे काळानुसार अधिक सुरक्षित AI प्रणाली तयार व प्रकाशित करण्याचा एक महत्त्वाचा घटक आहे.

संशोधन तंत्र

Sora हा एक डिफ्यूजन मॉडेल आहे, जो सुरुवातीला स्टॅटिक नॉईससारखा दिसणाऱ्या दृश्यापासून व्हिडिओ तयार करतो आणि अनेक टप्प्यांतून नॉईस काढून टाकून हळूहळू त्याचे रूपांतर करतो.

Sora एकदम संपूर्ण व्हिडिओ एकाच वेळी तयार करण्यास किंवा तयार केलेले व्हिडिओ लांब करण्यासाठी त्यांना वाढवण्यास सक्षम आहे. एकाच वेळी अनेक फ्रेम्सची कल्पना देऊन, आम्ही हा आव्हानात्मक प्रश्न सोडवला आहे की विषय तात्पुरता दृश्याबाहेर गेला तरी तो तसाच राहतो.

GPT मॉडेल्सप्रमाणेच, Sora ट्रान्सफॉर्मर आर्किटेक्चर वापरते, ज्यामुळे उच्चस्तरीय स्केलिंग परफॉर्मन्स मिळतो.

आम्ही व्हिडिओ आणि प्रतिमा लहान डेटा युनिट्सच्या संग्रहासारखे दर्शवतो, ज्यांना पॅचेस म्हणतात, आणि प्रत्येक पॅच GPT मधील token सारखा असतो. डेटा दर्शवण्याच्या पद्धतीत एकरूपता आणून, आम्ही वेगवेगळ्या कालावधी, रिझोल्यूशन आणि अ‍ॅस्पेक्ट रेशियो असलेल्या व्हिज्युअल डेटावर डिफ्यूजन ट्रान्सफॉर्मर्सचे प्रशिक्षण देऊ शकतो, जे आधी शक्य नव्हते.

Sora हा DALL·E आणि GPT मॉडेल्समधील भूतकाळातील संशोधनावर आधारित आहे. यात DALL·E 3 मधील रिकॅप्शनिंग तंत्राचा वापर केला जातो, ज्यामध्ये व्हिज्युअल ट्रेनिंग डेटासाठी अत्यंत वर्णनात्मक कॅप्शन्स तयार करणे समाविष्ट आहे. परिणामी, मॉडेल तयार केलेल्या व्हिडिओमध्ये वापरकर्त्याच्या मजकूर सूचनांचे अधिक अचूकपणे पालन करू शकते.

फक्त मजकूर सूचनांवरून व्हिडिओ तयार करण्याव्यतिरिक्त, हे मॉडेल विद्यमान स्थिर प्रतिमा घेऊन तिच्यापासून व्हिडिओ उत्पन्न करणे शकते, प्रतिमेतील घटकांना अचूकता व सूक्ष्म तपशीलांसह अ‍ॅनिमेट करून. हे मॉडेल विद्यमान व्हिडिओ घेऊन तो लांबवू शकते किंवा गहाळ फ्रेम्स भरू शकते. आमच्या तांत्रिक अहवालमध्ये अधिक जाणून घ्या.

प्रत्यक्ष जग समजून घेऊन त्याचे अनुकरण करू शकणाऱ्या मॉडेल्ससाठी Sora एक पाया म्हणून कार्य करते — ही क्षमता AGI साध्य करण्यासाठी एक महत्त्वाचा टप्पा ठरेल असे आम्हाला वाटते.

लोड होत आहे ...