29 मार्च 2024

सिंथेटिक आवाज़ों की चुनौतियों और अवसरों को समझना

हम Voice Engine के छोटे पैमाने के प्रीव्यू से मिले सबक साझा कर रहे हैं, जो कस्टम वॉइस बनाने के लिए एक मॉडल है.

लोड किया जा रहा है...

OpenAI सुरक्षित और व्यापक रूप से लाभकारी AI विकसित करने के लिए प्रतिबद्ध है⁠. आज हम Voice Engine नामक एक मॉडल के छोटे पैमाने के प्रीव्यू से प्रारंभिक अंतर्दृष्टि और परिणाम साझा कर रहे हैं, जो टेक्स्ट इनपुट और एक 15-सेकंड के ऑडियो नमूने का उपयोग करके प्राकृतिक ध्वनि उत्पन्न करता है, जो मूल वक्ता से काफी हद तक मेल खाती है. यह उल्लेखनीय है कि एक छोटा मॉडल एक 15-सेकंड के नमूने के साथ भावनात्मक और वास्तविक ध्वनियाँ उत्पन्न कर सकता है.

हमने पहली बार 2022 के अंत में Voice Engine विकसित किया था, और इसका उपयोग टेक्स्ट-टू-स्पीच API⁠(एक नई विंडो में खुलेगा) में उपलब्ध प्रीसेट वॉइसेस के साथ-साथ ChatGPT वॉइस और Read Aloud⁠ को संचालित करने के लिए किया है. इसी समय, सिंथेटिक वॉइस के दुरुपयोग की संभावना के कारण हम व्यापक रिलीज़ के लिए एक सतर्क और सूचित दृष्टिकोण अपना रहे हैं. हम सिंथेटिक वॉइस के जिम्मेदार परिनियोजन पर संवाद शुरू करने की उम्मीद करते हैं, और यह कि समाज इन नई क्षमताओं के अनुरूप कैसे ढल सकता है. इन बातचीतों और इन छोटे पैमाने के टेस्ट के नतीजों के आधार पर, हम इस बारे में एक ज़्यादा सूचित निर्णय लेंगे कि इस तकनीक को बड़े पैमाने पर डिप्लॉय करना है या नहीं, और अगर करना है तो कैसे.

Voice Engine के शुरुआती अनुप्रयोग

इस तकनीक के संभावित उपयोगों को बेहतर ढंग से समझने के लिए, पिछले साल के आखिर में हमने भरोसेमंद पार्टनर्स के एक छोटे ग्रुप के साथ इसे निजी तौर पर टेस्ट करना शुरू किया था. हम इस समूह द्वारा विकसित किए गए अनुप्रयोगों से प्रभावित हुए हैं. ये छोटे पैमाने की तैनातियाँ हमारे दृष्टिकोण, सुरक्षा उपायों, और इस बारे में हमारी सोच को आकार देने में मदद कर रही हैं कि Voice Engine का विभिन्न इंडस्ट्रीज़ में अच्छे के लिए कैसे इस्तेमाल किया जा सकता है. कुछ प्रारंभिक उदाहरणों में शामिल हैं:

रीडिंग असिस्टेंस प्रदान करना नॉन-रीडर्स और बच्चों को नेचुरल-साउंडिंग, भावनात्मक आवाज़ों के ज़रिए, जो प्रीसेट वॉइस के साथ संभव से भी ज़्यादा व्यापक रेंज के स्पीकर्स को रिप्रेज़ेंट करती हैं. Age of Learning⁠(एक नई विंडो में खुलेगा), बच्चों की शैक्षणिक सफलता के लिए समर्पित एक शिक्षा प्रौद्योगिकी कंपनी, प्री-स्क्रिप्टेड वॉइस-ओवर कंटेंट जनरेट करने के लिए इसका उपयोग कर रही है. वे छात्रों के साथ इंटरैक्ट करने के लिए रीयल-टाइम, व्यक्तिगत प्रतिक्रियाएँ बनाने हेतु Voice Engine और GPT‑4 का भी उपयोग करते हैं. इस तकनीक के साथ, Age of Learning एक व्यापक ऑडियंस के लिए और ज़्यादा कंटेंट बनाने में सक्षम रहा है.

सामग्री का अनुवाद, जैसे वीडियो और पॉडकास्ट, ताकि निर्माता और व्यवसाय दुनिया भर में अधिक लोगों तक, धाराप्रवाह और अपनी ही आवाज़ में, पहुँच सकें. इसका एक शुरुआती अपनाने वाला HeyGen⁠(एक नई विंडो में खुलेगा) है, जो एक AI दृश्यात्मक कहानी कहने का मंच है और अपने उद्यम ग्राहकों के साथ मिलकर विभिन्न प्रकार की सामग्री के लिए कस्टम, मानव-जैसे अवतार बनाता है—उत्पाद विपणन से लेकर बिक्री डेमो तक. वे वीडियो अनुवाद के लिए Voice Engine का उपयोग करते हैं, ताकि वे किसी वक्ता की आवाज़ को कई भाषाओं में अनुवाद कर सकें और वैश्विक दर्शकों तक पहुँच सकें. अनुवाद के लिए उपयोग करने पर, Voice Engine मूल वक्ता का देशी उच्चारण बनाए रखता है: उदाहरण के लिए, एक फ्रेंच वक्ता के ऑडियो नमूने से अंग्रेजी उत्पन्न करने पर फ्रेंच उच्चारण वाली आवाज़ बनेगी.

लोड किया जा रहा है...

वैश्विक समुदायों तक पहुँच, दूरदराज़ क्षेत्रों में आवश्यक सेवाओं की डिलीवरी में सुधार करके. Dimagi⁠(एक नई विंडो में खुलेगा) सामुदायिक हेल्थ कार्यकर्ताओं के लिए उपकरण बना रहा है, ताकि वे स्तनपान कराने वाली माताओं के लिए परामर्श जैसी कई आवश्यक सेवाएं प्रदान कर सकें. इन कामगारों को अपने कौशल विकसित करने में मदद करने के लिए, Dimagi Voice Engine और GPT‑4 का उपयोग करता है ताकि हर कामगार की मुख्य भाषा में इंटरैक्टिव फ़ीडबैक दिया जा सके, जिसमें Swahili या Sheng जैसी अधिक अनौपचारिक भाषाएं भी शामिल हैं, जो Kenya में लोकप्रिय एक कोड-मिक्स्ड भाषा है.

लोड किया जा रहा है...

उन लोगों का समर्थन करना जो बोल नहीं सकते, जैसे ऐसे व्यक्तियों के लिए चिकित्सीय अनुप्रयोग जिनकी स्थितियाँ भाषण को प्रभावित करती हैं और सीखने की आवश्यकताओं वाले लोगों के लिए शैक्षिक सुधार. Livox⁠(एक नई विंडो में खुलेगा), एक AI अल्टरनेटिव कम्युनिकेशन ऐप है, जो ऑगमेंटेटिव और अल्टरनेटिव कम्युनिकेशन (AAC) डिवाइस को पावर देता है, जिससे दिव्यांग लोग बातचीत कर पाते हैं. Voice Engine का इस्तेमाल करके, वे नॉन-वर्बल लोगों को कई भाषाओं में अनोखी और नॉन-रोबोटिक आवाज़ें ऑफ़र कर पाते हैं. उनके यूज़र ऐसी स्पीच चुन सकते हैं जो उन्हें सबसे बेहतर तरीके से दर्शाती हो, और मल्टीलिंगुअल यूज़र के लिए, हर बोली जाने वाली भाषा में एक कंसिस्टेंट वॉइस बनाए रख सकते हैं.

लोड किया जा रहा है...

मरीज़ों को उनकी आवाज़ वापस पाने में मदद करना, उन लोगों के लिए जो अचानक या अपक्षयी स्पीच स्थितियों से पीड़ित हैं. Lifespan⁠(एक नई विंडो में खुलेगा) में Norman Prince Neurosciences Institute, जो एक एक गैर-लाभकारी हेल्थ सिस्टम है और Brown University के मेडिकल स्कूल का प्राथमिक teaching affiliate के रूप में काम करता है, क्लिनिकल संदर्भों में AI के उपयोगों की पड़ताल कर रहा है. वे स्पीच इम्पेयरमेंट के लिए ऑन्कोलॉजिक या न्यूरोलॉजिक एटियोलॉजी वाले व्यक्तियों को Voice Engine ऑफ़र करने वाला एक लिमिटेड पायलट प्रोग्राम चला रहे हैं. चूंकि Voice Engine को इतना छोटा ऑडियो सैंपल चाहिए, इसलिए डॉक्टर Fatima Mirza, Rohaid Ali और Konstantina Svokos एक युवा मरीज की आवाज़ बहाल करने में सक्षम रहे, जिसने एक वास्कुलर ब्रेन ट्यूमर के कारण अपनी धाराप्रवाह बोलने की क्षमता खो दी थी, इसके लिए उन्होंने स्कूल प्रोजेक्ट के लिए रिकॉर्ड किए गए एक वीडियो के ऑडियो का उपयोग किया.

लोड किया जा रहा है...

Voice Engine का सुरक्षित रूप से निर्माण

हम मानते हैं कि लोगों की वॉइस से मिलती-जुलती स्पीच जेनरेट करने में गंभीर जोख़िम हैं, जो खासकर चुनावी साल में सबसे ज़्यादा ध्यान में रहते हैं. हम U.S. और सरकार, मीडिया, एंटरटेनमेंट, एजुकेशन, सिविल सोसाइटी और दूसरी जगहों के इंटरनेशनल पार्टनर्स के साथ जुड़ रहे हैं, ताकि यह पक्का हो सके कि हम बनाते समय उनके फीडबैक को भी शामिल कर रहे हैं. आज Voice Engine का परीक्षण कर रहे पार्टनर्स ने हमारी इस्तेमाल से जुड़ी नीतियां⁠ से सहमति जताई है, जो सहमति या कानूनी अधिकार के बिना किसी अन्य व्यक्ति या संगठन का प्रतिरूपण करने पर रोक लगाती हैं. इसके अलावा, इन पार्टनर्स के साथ हमारी शर्तों के तहत मूल वक्ता से स्पष्ट और सूचित सहमति की आवश्यकता होती है और हम डेवलपर्स को व्यक्तिगत यूज़र्स के लिए अपनी खुद की आवाज़ें बनाने के तरीके बनाने की अनुमति नहीं देते हैं. पार्टनर्स को अपने दर्शकों को यह भी स्पष्ट रूप से बताना होगा कि वे जो आवाज़ें सुन रहे हैं, वे AI-जेनरेटेड हैं. अंत में, हमने सुरक्षा उपायों का एक सेट लागू किया है, जिसमें Voice Engine द्वारा जनरेट किए गए किसी भी ऑडियो के स्रोत का पता लगाने के लिए वॉटरमार्किंग, साथ ही इसके इस्तेमाल पर प्रोएक्टिव मॉनिटरिंग भी शामिल है. हम मानते हैं कि सिंथेटिक वॉइस तकनीक के किसी भी व्यापक परिनियोजन के साथ वॉइस ऑथेंटिकेशन अनुभव होने चाहिए जो यह सत्यापित करें कि मूल वक्ता जानबूझकर अपनी आवाज़ को सेवा में जोड़ रहा है, और एक नो-गो वॉइस सूची होनी चाहिए जो प्रमुख व्यक्तियों से अत्यधिक मिलती-जुलती आवाज़ों के निर्माण का पता लगाए और उसे रोके.

आगे का विज़न

Voice Engine, टेक्निकल अत्याधुनिक को समझने और AI से जो मुमकिन हो रहा है, उसे खुले तौर पर शेयर करने के हमारे कमिटमेंट को अत्याधुनिकआगे बढ़ाता है. AI सुरक्षा के प्रति हमारे दृष्टिकोण⁠ और हमारी स्वैच्छिक कमिटमेंट⁠ के अनुरूप, हम इस समय इस टेक्नोलॉजी का प्रीव्यू करने का विकल्प चुन रहे हैं, लेकिन इसे व्यापक रूप से रिलीज़ नहीं कर रहे हैं. हमें उम्मीद है कि Voice Engine का यह प्रीव्यू इसकी क्षमता को रेखांकित भी करता है और साथ ही लगातार अधिक विश्वसनीय होते जा रहे जेनरेटिव मॉडल्स से आने वाली चुनौतियों के खिलाफ सामाजिक लचीलापन मजबूत करने की ज़रूरत के लिए भी प्रेरित करता है. खास तौर पर, हम इस तरह के कदमों को प्रोत्साहित करते हैं:

बैंक अकाउंट और दूसरी सेंसिटिव जानकारी एक्सेस करने के लिए सिक्योरिटी उपाय के तौर पर वॉइस बेस्ड ऑथेंटिकेशन को धीरे-धीरे खत्म कर
AI में व्यक्तियों की आवाज़ के उपयोग की सुरक्षा के लिए नीतियों का अध्ययन करना
AI टेक्नोलॉजी की क्षमताओं और सीमाओं को समझने के लिए लोगों को शिक्षित करना, जिसमें धोखा देने वाले AI कंटेंट की संभावना भी शामिल है
ऑडियोविज़ुअल सामग्री की उत्पत्ति को ट्रैक करने की तकनीकों के विकास और अपनाने में तेजी लाना, ताकि यह हमेशा स्पष्ट रहे कि आप किसी वास्तविक व्यक्ति के साथ बातचीत कर रहे हैं या किसी AI के साथ

यह ज़रूरी है कि दुनिया भर के लोग समझें कि यह टेक्नोलॉजी किस तरफ जा रही है, चाहे हम इसे खुद बड़े पैमाने पर इस्तेमाल करें या नहीं. हम नीति-निर्माताओं, शोधकर्ताओं, डेवलपर्स और क्रिएटिव्स के साथ सिंथेटिक वॉइस की चुनौतियों और अवसरों पर बातचीत जारी रखने के लिए उत्सुक हैं.

सिंथेटिक आवाज़ों की चुनौतियों और अवसरों को समझना

Voice Engine के शुरुआती अनुप्रयोग

Voice Engine का सुरक्षित रूप से निर्माण

आगे का विज़न

संबंधित आर्टिकल्स