अधिक सुरक्षित, अधिक पारदर्शी AI इकोसिस्टम के लिए कंटेंट प्रोवेनेंस को आगे बढ़ाना
Content Credentials, SynthID और एक शुरुआती सार्वजनिक सत्यापन टूल के माध्यम से लोगों को AI-जनित सामग्री की उत्पत्ति समझने में मदद करना.
लोग OpenAI के टूल्स का हर दिन उपयोग करके छवियां और ऑडियो बनाते और संपादित करते हैं, ऐसे तरीकों से जो संचार को अधिक अभिव्यंजक, उपयोगी और सुलभ बनाते हैं. जैसे-जैसे ये टूल्स लोगों के बनाने, कल्पना करने और साझा करने के तरीकों का हिस्सा बनते जा रहे हैं, यह महत्वपूर्ण है कि लोग समझ सकें और सत्यापित कर सकें कि मीडिया कहां से आया है, ताकि वे उसे अधिक भरोसे के साथ समझ सकें. प्रोवेनेंस संकेत लोगों को यह संदर्भ देकर मदद कर सकते हैं कि सामग्री कहां से आई, इसे कैसे बनाया या संपादित किया गया, और क्या यह वास्तव में वही है जो यह होने का दावा करती है.
आज हम ऑनलाइन भरोसा बनाने के लिए एक बहु-स्तरीय, इकोसिस्टम-आधारित मॉडल के साथ कंटेंट प्रोवेनेंस के प्रति अपने दृष्टिकोण को मजबूत कर रहे हैं. हम C2PA अनुरूपता के माध्यम से अपने प्रोवेनेंस संकेतों को अन्य टूल्स और प्लेटफ़ॉर्म्स के लिए पहचानना आसान बना रहे हैं, Google के साथ साझेदारी के जरिए छवियों में टिकाऊ क्रॉस-प्लेटफ़ॉर्म SynthID वॉटरमार्किंग जोड़ रहे हैं, और एक ऐसे टूल की झलक साझा कर रहे हैं जिसका उपयोग आम लोग यह सत्यापित करने के लिए कर सकें कि छवियां OpenAI से आई हैं या नहीं.
मिलकर ये अपडेट खुले मानकों का समर्थन करने, OpenAI-जनित सामग्री की पहचान आसान बनाने, और अधिक भरोसेमंद सूचना इकोसिस्टम के समर्थन में पूरे उद्योग के साथ सहयोग करने के हमारे पहले के काम को आगे बढ़ाते हैं.
OpenAI 2024 से प्रोवेनेंस मानकों के विकास और अपनाने में शामिल रहा है, जब हमने DALL·E 3(एक नई विंडो में खुलेगा) द्वारा जनित छवियों में Content Credentials जोड़ना शुरू किया था, और बाद में ImageGen(एक नई विंडो में खुलेगा) और Sora(एक नई विंडो में खुलेगा) में भी. हम Coalition for Content Provenance and Authenticity (C2PA) की स्टीयरिंग कमेटी में भी शामिल हुए, जो कंटेंट प्रोवेनेंस के लिए खुले तकनीकी मानक के पीछे काम करने वाला बहु-उद्योग समूह है. C2PA का तकनीकी दृष्टिकोण मेटाडेटा और क्रिप्टोग्राफिक हस्ताक्षरों का उपयोग करता है, ताकि किसी मीडिया सामग्री के बारे में जानकारी सुरक्षित रूप से उसी सामग्री के साथ यात्रा कर सके. इस जानकारी में वह संदर्भ शामिल होता है जो किसी स्रोत का मूल्यांकन करने वाले पत्रकारों, अखंडता संबंधी निर्णय लेने वाले प्लेटफ़ॉर्म्स, और ऑनलाइन जो वे देख रहे हैं उसे समझने की कोशिश कर रहे लोगों की मदद करता है.
हाल ही में हमने OpenAI को C2PA अनुरूप जनरेटर प्रोडक्ट(एक नई विंडो में खुलेगा) बनाने का कदम उठाया है. C2PA अनुरूप बनकर, हम प्लेटफ़ॉर्म्स को उस प्रोवेनेंस जानकारी को पढ़ने, सुरक्षित रखने और आगे बढ़ाने का एक भरोसेमंद तरीका दे रहे हैं जिसे हम अपनी सामग्री से जोड़ते हैं. यह महत्वपूर्ण है क्योंकि प्रोवेनेंस तभी काम करता है जब वह उस पहले प्लेटफ़ॉर्म से आगे भी बना रहे जहां सामग्री बनाई जाती है, और अनुरूपता इसे संभव बनाती है.
C2PA मेटाडेटा प्रोवेनेंस के लिए एक महत्वपूर्ण आधार है. यह सामग्री को यह जानकारी साथ ले जाने में मदद करता है कि वह कहां से आई, उसे कैसे बनाया या संपादित किया गया, और उस जानकारी पर किसने हस्ताक्षर किए. लेकिन मेटाडेटा अचूक नहीं है. इसे हटाया जा सकता है, अपलोड और डाउनलोड के दौरान खोया जा सकता है, या फ़ाइल फ़ॉर्मैट बदलने, आकार बदलने या स्क्रीनशॉट जैसी रूपांतरण प्रक्रियाओं से यह टूट सकता है.
प्रोवेनेंस को अधिक मज़बूत बनाने के लिए, हम बहु-स्तरीय दृष्टिकोण अपना रहे हैं और Google DeepMind के SynthID(एक नई विंडो में खुलेगा) के माध्यम से वॉटरमार्किंग शामिल कर रहे हैं, शुरुआत उन छवियों से जो ChatGPT, Codex, या OpenAI API के जरिए जनित हुई हैं. SynthID एक अदृश्य वॉटरमार्किंग परत एम्बेड करता है, जो C2PA के मेटाडेटा-आधारित तरीकों को पूरक बनाती है.
हम कुछ समय से इस दिशा में काम कर रहे हैं. हमने Sora में दृश्य वॉटरमार्क और Voice Engine में एक ऑडियो वॉटरमार्क का उपयोग किया है, और समय के साथ सटीकता और विश्वसनीयता का परीक्षण और शोध जारी रखा है. परिनियोजन के माध्यम से.
ये दोनों प्रणालियां एक-दूसरे को मजबूत करती हैं. C2PA सामग्री को विस्तृत संदर्भ साथ ले जाने में मदद करता है; SynthID तब संकेत को सुरक्षित रखने में मदद करता है जब मेटाडेटा बचा नहीं रहता. स्क्रीनशॉट जैसे रूपांतरणों के दौरान वॉटरमार्किंग अधिक टिकाऊ हो सकती है, जबकि मेटाडेटा अकेले वॉटरमार्क की तुलना में अधिक जानकारी दे सकता है. मिलकर, वे प्रोवेनेंस को उतना अधिक मज़बूत बनाते हैं जितना कोई एक परत अकेले नहीं बना सकती.
भरोसेमंद मेटाडेटा और ऐसे वॉटरमार्क जो अधिकांश बदलावों का सामना कर सकें, प्रोवेनेंस संकेतों को अधिक टिकाऊ बना सकते हैं. लेकिन लोगों को इन संकेतों का पता लगाने का एक तरीका चाहिए. हम अब एक सार्वजनिक सत्यापन टूल की झलक दिखा रहे हैं, जो लोगों को यह सत्यापित करने में मदद करेगा कि अपलोड की गई छवि ChatGPT, OpenAI API, या Codex पर जनित हुई थी या नहीं, यह जांचकर कि उसमें Content Credentials और SynthID सहित प्रोवेनेंस संकेत मौजूद हैं या नहीं.
हम मानते हैं कि लोगों के लिए प्रोवेनेंस को सत्यापित करना और समझना आसान होना चाहिए, और हमारा टूल कई संकेतों को एकीकृत करके लोगों को इस प्रश्न का उत्तर देने में भूमिका निभाने में मदद कर सकता है, “क्या यह AI से जनित है?” यह 2024 में हमारे इमेज डिटेक्शन क्लासिफ़ायर के शुरुआती शोध पूर्वावलोकन से मिली सीख पर आधारित है और लोगों को यह विश्वसनीय रूप से पता लगाने में सक्षम बनाता है कि OpenAI से उत्पन्न SynthID वॉटरमार्क मीडिया में मौजूद है या नहीं, साथ ही मिलने पर C2PA मेटाडेटा भी सामने लाता है.

कोई भी डिटेक्शन विधि अचूक नहीं होती, इसलिए जब डिटेक्शन विफल होता है तो हम सावधानीपूर्ण दृष्टिकोण अपनाते हैं. उदाहरण के लिए, यदि कोई मेटाडेटा या वॉटरमार्क नहीं मिलता, तो टूल इस बारे में कोई अंतिम निष्कर्ष नहीं देगा कि छवि OpenAI टूल्स से जनित हुई थी या नहीं, क्योंकि कुछ मामलों में प्रोवेनेंस संकेत हटाए जा सकते हैं.
लॉन्च के समय, यह टूल OpenAI द्वारा जनित सामग्री तक सीमित है. आने वाले महीनों में, हमारा लक्ष्य प्लेटफ़ॉर्म्स के बीच सत्यापन संभव बनाने के लिए बहु-उद्योग प्रयासों का समर्थन करना है. समय के साथ, हम अधिक प्रकार की सामग्री का समर्थन करने की भी उम्मीद करते हैं, जिनसे लोगों का ऑनलाइन सामना हो सकता है.
कोई एकल प्रोवेनेंस तकनीक अपने आप में पर्याप्त नहीं है. हम मानते हैं कि एक मजबूत दृष्टिकोण साझा मानकों, टिकाऊ वॉटरमार्किंग संकेतों और सार्वजनिक सत्यापन को जोड़ता है. Content Credentials के लिए अपने लंबे समय से चले आ रहे समर्थन, C2PA के अनुरूप बनने, SynthID अपनाने, और सार्वजनिक सत्यापन टूलिंग की झलक दिखाने के आधार पर, हमें उम्मीद है कि हम लंबे समय में अधिक इंटरऑपरेबल प्रोवेनेंस इकोसिस्टम में योगदान दे सकेंगे.


