मुख्य मजकूराकडे जा
OpenAI

२९ मार्च, २०२४

प्रॉडक्ट

सिंथेटिक आवाजांच्या आव्हानां आणि संधींना सामोरे जाणे

आम्ही व्हॉईस इंजिनच्या छोट्या प्रमाणातील प्रीव्ह्यूमधून मिळालेले धडे सामायिक करत आहोत, हे कस्टम आवाज तयार करण्यासाठीचे एक मॉडेल आहे.

लोड होत आहे...

OpenAI सुरक्षित आणि व्यापकपणे उपयुक्त AI विकसित करण्यासाठी वचनबद्ध आहे. आज आम्ही Voice Engine नावाच्या मॉडेलच्या लहान-प्रमाणातील प्रिव्ह्यूमधून प्राथमिक इनसाइट्स आणि परिणाम शेअर करत आहोत, जे मजकूर इनपुट आणि एकच 15-second ऑडिओ नमुना वापरून मूळ वक्त्याशी जवळून साम्य असलेले, नैसर्गिक वाटणारे भाषण जनरेट करते. हे लक्षात घेण्यासारखे आहे की एकाच 15-second नमुन्यासह एक छोटे मॉडेल भावनिक आणि वास्तववादी आवाज तयार करू शकते.

आम्ही 2022 च्या उत्तरार्धात प्रथम Voice Engine विकसित केले, आणि टेक्स्ट-टू-स्पीच API(नवीन विंडोमध्ये उघडेल) मध्ये उपलब्ध असलेल्या प्रीसेट आवाज तसेच ChatGPT व्हॉइस आणि मोठ्याने वाचा यांना समर्थित करण्यासाठी ते वापरले आहे. त्याच वेळी, सिंथेटिक आवाजाच्या गैरवापराच्या संभाव्यतेमुळे आम्ही व्यापक प्रकाशनासाठी सावध आणि माहितीपूर्ण दृष्टिकोन स्वीकारत आहोत. आम्हाला सिंथेटिक आवाजांच्या जबाबदार तैनातीबाबत संवाद सुरू करण्याची आणि समाज या नव्या क्षमतांशी कसा जुळवून घेऊ शकतो याबद्दल चर्चा करण्याची आशा आहे. या संभाषणांवर आणि या लहान प्रमाणातील चाचण्यांच्या निकालांवर आधारित, आम्ही ही तंत्रज्ञान मोठ्या प्रमाणावर तैनात करायचे की नाही आणि कसे करायचे याबद्दल अधिक माहितीपूर्ण निर्णय घेऊ.

व्हॉईस इंजिनचे सुरुवातीचे अनुप्रयोग

या तंत्रज्ञानाच्या संभाव्य उपयोगांना अधिक चांगल्या प्रकारे समजून घेण्यासाठी, गेल्या वर्षाच्या उत्तरार्धात आम्ही काही विश्वासू भागीदारांच्या छोट्या गटासोबत खाजगीरित्या याची चाचणी सुरू केली. या गटाने विकसित केलेल्या अनुप्रयोगांनी आमच्यावर छाप पडली आहे. ही लहान प्रमाणातील उपयोजने विविध उद्योगांमध्ये Voice Engine चा चांगल्या हेतूसाठी कसा वापर होऊ शकतो याबद्दल आमचा दृष्टिकोन, संरक्षणात्मक उपाय आणि विचारांना दिशा देण्यास मदत करत आहेत. काही सुरुवातीची उदाहरणे यामध्ये समाविष्ट आहेत:

  • वाचन सहाय्य प्रदान करणे न वाचू शकणाऱ्यांना आणि मुलांना नैसर्गिक वाटणाऱ्या, भावपूर्ण आवाजांद्वारे—जे प्रीसेट आवाजांपेक्षा अधिक व्यापक श्रेणीतील वक्त्यांचे प्रतिनिधित्व करतात. Age of Learning(नवीन विंडोमध्ये उघडेल), मुलांच्या शैक्षणिक यशासाठी समर्पित असलेली एक शैक्षणिक तंत्रज्ञान कंपनी, पूर्व-लिखित व्हॉइस-ओव्हर कंटेंट तयार करण्यासाठी याचा वापर करत आहे. ते विद्यार्थ्यांशी संवाद साधण्यासाठी रिअल-टाइम, वैयक्तिकृत प्रतिसाद तयार करण्यासाठी व्हॉईस इंजिन आणि GPT‑4 देखील वापरतात. या तंत्रज्ञानामुळे, Age of Learning ला अधिक व्यापक प्रेक्षकांसाठी अधिक कंटेंट तयार करता आली आहे.
  • कंटेंटचे भाषांतर, जसे की व्हिडिओ आणि पॉडकास्ट, जेणेकरून निर्माते आणि व्यवसाय जगभरातील अधिक लोकांपर्यंत सहजपणे आणि त्यांच्या स्वतःच्या आवाजात पोहोचू शकतील. याचा एक प्रारंभिक स्वीकारकर्ता म्हणजे HeyGen(नवीन विंडोमध्ये उघडेल), एक AI व्हिज्युअल स्टोरीटेलिंग प्लॅटफॉर्म जो त्यांच्या एंटरप्राइझ ग्राहकांसोबत काम करून विविध प्रकारच्या कंटेंटसाठी—उत्पादन मार्केटिंगपासून विक्री डेमोपर्यंत—कस्टम, मानवासारखे अवतार तयार करतो. ते व्हिडिओ भाषांतरासाठी Voice Engine वापरतात, त्यामुळे ते वक्त्याचा आवाज अनेक भाषांमध्ये व्हॉइस ट्रान्सलेशन करू शकतात आणि जागतिक प्रेक्षकांपर्यंत पोहोचू शकतात. भाषांतरासाठी वापरल्यास, Voice Engine मूळ वक्त्याचा मूलभूत उच्चार जतन करते: उदाहरणार्थ, फ्रेंच वक्त्याच्या ऑडिओ नमुन्यातून इंग्रजी तयार केल्यास फ्रेंच उच्चारासह भाषण तयार होईल.
लोड होत आहे ...
  • जागतिक समुदायांपर्यंत पोहोचणे, दूरस्थ ठिकाणी आवश्यक सेवांचा पुरवठा सुधारून. Dimagi(नवीन विंडोमध्ये उघडेल) समुदाय हेल्थ कार्यकर्त्यांना स्तनपान करणाऱ्या मातांसाठी समुपदेशन यांसारख्या विविध अत्यावश्यक सेवा पुरवण्यासाठी साधने तयार करत आहे. या कामगारांना त्यांची कौशल्ये विकसित करण्यात मदत करण्यासाठी, Dimagi Voice Engine आणि GPT‑4 चा वापर करून प्रत्येक कामगाराच्या प्राथमिक भाषेत परस्परसंवादी अभिप्राय देते, ज्यामध्ये स्वाहिली किंवा केनियामध्ये लोकप्रिय असलेल्या कोड-मिक्स्ड भाषा Sheng सारख्या अधिक अनौपचारिक भाषांचाही समावेश आहे.
लोड होत आहे ...
  • न बोलू शकणाऱ्या लोकांना समर्थन देणे, जसे की भाषणावर परिणाम करणाऱ्या स्थिती असलेल्या व्यक्तींसाठी उपचारात्मक अनुप्रयोग आणि शिकण्याच्या गरजा असलेल्यांसाठी शैक्षणिक सुधारणा. Livox(नवीन विंडोमध्ये उघडेल), AI-आधारित पर्यायी संवाद अ‍ॅप, Augmentative & Alternative Communication (AAC) उपकरणांना सामर्थ्य देते, ज्यामुळे अपंगत्व असलेल्या लोकांना संवाद साधता येतो. Voice Engine वापरून, ते बोलू न शकणाऱ्या लोकांना अनेक भाषांमध्ये अद्वितीय आणि रोबोटसारखे न वाटणारे आवाज देऊ शकतात. त्यांचे वापरकर्ते त्यांना सर्वात चांगल्या प्रकारे प्रतिनिधित्व करणारा स्पीच निवडू शकतात, आणि बहुभाषिक वापरकर्त्यांसाठी, प्रत्येक बोलल्या जाणाऱ्या भाषेत एकसारखा आवाज राखू शकतात.
लोड होत आहे ...
  • रुग्णांना त्यांचा आवाज पुन्हा मिळवण्यात मदत, अचानक किंवा अपक्षयी भाषण विकारांनी त्रस्त असलेल्यांसाठी. Lifespan(नवीन विंडोमध्ये उघडेल) येथील नॉर्मन प्रिन्स न्यूरोसायन्सेस इन्स्टिट्यूट, ब्राउन युनिव्हर्सिटीच्या वैद्यकीय शाळेचा प्राथमिक अध्यापन संलग्न म्हणून कार्य करणारी नाफा-न कमावणारी हेल्थ प्रणाली, क्लिनिकल संदर्भांमध्ये AI च्या वापरांचा शोध घेत आहे. ते भाषणातील अडथळ्यासाठी ऑन्कोलॉजिक किंवा न्यूरोलॉजिक कारणमीमांसा असलेल्या व्यक्तींना Voice Engine ऑफर करणारा एक कार्यक्रम पायलट म्हणून राबवत आहेत. Voice Engine ला इतका कमी कालावधीचा ऑडिओ नमुना आवश्यक असल्याने, डॉक्टर फातिमा मिर्झा, रोहैद अली आणि कॉन्स्टँटिना स्वोकोस यांनी शाळेच्या प्रकल्पासाठी रेकॉर्ड केलेल्या व्हिडिओमधील ऑडिओचा वापर करून, रक्तवाहिन्यांशी संबंधित मेंदूच्या ट्युमरमुळे प्रवाही बोलणे गमावलेल्या एका तरुण रुग्णाचा आवाज पुन्हा पुनर्संचयित करू शकले.
लोड होत आहे ...

सुरक्षितपणे व्हॉईस इंजिन तयार करणे

आम्ही ओळखतो की लोकांच्या आवाजासारखे वाटणारे भाषण निर्माण करण्यामध्ये गंभीर धोके आहेत, जे विशेषतः निवडणुकीच्या वर्षात अधिकच लक्षात येतात. आम्ही U.S. आणि आंतरराष्ट्रीय भागीदारांशी सरकार, मीडिया, मनोरंजन, शिक्षण, नागरी समाज आणि त्यापलीकडील क्षेत्रांमधून संवाद साधत आहोत, जेणेकरून आम्ही तयार करत असताना त्यांचा अभिप्राय समाविष्ट करत आहोत याची खात्री करू. आज Voice Engine ची चाचणी करणाऱ्या भागीदारांनी आमच्या वापराची धोरणे मान्य केली आहेत, जी संमती किंवा कायदेशीर अधिकारांशिवाय दुसऱ्या व्यक्तीचे किंवा संस्थेचे तोतयागिरी करण्यास मनाई करतात. याव्यतिरिक्त, या भागीदारांसोबतच्या आमच्या अटींनुसार मूळ वक्त्याकडून स्पष्ट आणि माहितीपूर्ण संमती आवश्यक आहे आणि आम्ही डेव्हलपर्सना वैयक्तिक युजर्सना त्यांचे स्वतःचे आवाज तयार करण्याचे मार्ग तयार करण्याची परवानगी देत नाही. भागीदारांनी त्यांच्या प्रेक्षकांना ते ऐकत असलेले आवाज AI-निर्मित आहेत हे देखील स्पष्टपणे उघड करणे आवश्यक आहे. शेवटी, आम्ही सुरक्षा उपायांचा एक संच अंमलात आणला आहे, ज्यामध्ये Voice Engine द्वारे तयार होणाऱ्या कोणत्याही ऑडिओचा उगम शोधण्यासाठी वॉटरमार्किंग, तसेच त्याचा कसा वापर केला जात आहे याचे सक्रिय निरीक्षण यांचा समावेश आहे. आम्हाला वाटते की सिंथेटिक व्हॉइस तंत्रज्ञानाचा कोणताही व्यापक वापर असा व्हॉइस प्रमाणीकरण अनुभवांसह असावा, जो मूळ वक्ता जाणूनबुजून सेवेत त्यांचा आवाज जोडत आहे याची पडताळणी करतो, तसेच एक नो-गो व्हॉइस यादी असावी जी प्रमुख व्यक्तींशी अतिशय मिळतीजुळती असलेली आवाजे तयार होणे ओळखते आणि प्रतिबंधित करते.

भविष्यातील दृष्टीकोन

Voice Engine हे तांत्रिक अत्याधुनिक समजून घेण्याच्या आणि AI सह काय शक्य होत आहे ते खुलेपणाने शेअर करण्याच्या आमच्या वचनबद्धतेचे पुढचे पाऊल आहे. आमच्या AI सुरक्षिततेच्या दृष्टिकोनानुसार आणि आमच्या स्वयंसेवी वचनबद्धतेनुसार, आम्ही सध्या या तंत्रज्ञानाचे पूर्वावलोकन देण्याचा, पण यावेळी ते व्यापकपणे रिलीज न करण्याचा निर्णय घेत आहोत. Voice Engine चा हा प्रीव्ह्यू त्याची क्षमता अधोरेखित करेल आणि अधिकाधिक विश्वासार्ह होत चाललेल्या जनरेटिव मॉडेल्समुळे उद्भवणाऱ्या आव्हानांपुढे समाजाची लवचिकता बळकट करण्याची गरजही अधोरेखित करेल, अशी आम्हाला आशा आहे. विशेषतः, आम्ही पुढीलप्रमाणे पावले उचलण्यास प्रोत्साहित करतो:

  • बँक खाती आणि इतर संवेदनशील माहितीमध्ये प्रवेशासाठी सुरक्षा उपाय म्हणून आवाज-आधारित प्रमाणीकरण टप्प्याटप्प्याने बंद करणे
  • AI मध्ये व्यक्तींच्या आवाजाच्या वापराचे संरक्षण करण्यासाठी धोरणांचा अभ्यास करणे
  • फसव्या AI कंटेंटच्या शक्यतेसह AI तंत्रज्ञानांच्या क्षमता आणि मर्यादा समजून घेण्यासाठी जनतेला प्रशिक्षण देणे
  • ऑडिओ-व्हिज्युअल कंटेंटच्या मूळ स्रोताचा मागोवा घेण्याच्या तंत्रांचा विकास आणि अवलंबना गतीने पुढे नेणे, ज्यामुळे तुम्ही खऱ्या व्यक्तीशी की एआयशी संवाद साधत आहात हे नेहमीच स्पष्ट राहील

जगभरातील लोकांना हे तंत्रज्ञान कोणत्या दिशेने जात आहे हे समजणे महत्त्वाचे आहे, मग आम्ही ते स्वतः व्यापकपणे तैनात करू किंवा नाही. सिंथेटिक आवाजांच्या आव्हानां आणि संधींबाबत धोरणकर्ते, संशोधक, विकासक आणि सर्जनशील व्यक्तींशी चर्चा सुरू ठेवण्यासाठी आम्ही उत्सुक आहोत.