29 માર્ચ, 2024

સિન્થેટિક અવાજોના પડકારો અને તકોમાં માર્ગ શોધવો

અમે Voice Engine ના નાના-પાયાના પૂર્વદર્શનમાંથી શીખેલા પાઠ શેર કરી રહ્યા છીએ, જે કસ્ટમ અવાજો બનાવવા માટેનું એક મોડલ છે.

લોડિંગ…

OpenAI સુરક્ષિત અને વ્યાપક રીતે લાભદાયી AI વિકસાવવા⁠ માટે પ્રતિબદ્ધ છે. આજે અમે Voice Engine નામના એક મોડલના નાના-પાયાના પૂર્વદર્શનમાંથી પ્રાથમિક જાણકારીઓ અને પરિણામો શેર કરી રહ્યા છીએ, જે ટેક્સ્ટ ઇનપુટ અને માત્ર 15 સેકંડના એક ઑડિયો નમૂનાનો ઉપયોગ કરીને એવી કુદરતી લાગતી વાણી બનાવે છે જે મૂળ વક્તા સાથે ખૂબ મળતી આવે છે. નોંધપાત્ર વાત એ છે કે માત્ર 15 સેકંડના એક જ નમૂનાવાળું નાનું મોડલ ભાવસભર અને વાસ્તવિક અવાજો બનાવી શકે છે.

અમે પ્રથમ વખત Voice Engine ને 2022 ના અંતમાં વિકસાવ્યો હતો, અને ત્યારથી તેનો ઉપયોગ text-to-speech API⁠(નવી વિન્ડોમાં ખૂલે છે) માં ઉપલબ્ધ પ્રિસેટ અવાજોને શક્તિ આપવા માટે તેમજ ChatGPT Voice and Read Aloud⁠ માટે કર્યો છે. તે જ સમયે, સિન્થેટિક અવાજના દુરુપયોગની સંભાવનાને કારણે અમે વધુ વ્યાપક રિલીઝ માટે સાવચેત અને માહિતીસભર અભિગમ અપનાવી રહ્યા છીએ. અમને આશા છે કે અમે સિન્થેટિક અવાજોની જવાબદાર તૈનાતી અને સમાજ આ નવી ક્ષમતાઓને કેવી રીતે અપનાવી શકે તે અંગે સંવાદ શરૂ કરીશું. આ ચર્ચાઓ અને આ નાના-પાયાના પરીક્ષણોના પરિણામોના આધારે, અમે આ ટેકનોલોજીને વ્યાપક સ્તરે તૈનાત કરવી કે નહીં અને કેવી રીતે કરવી તે અંગે વધુ માહિતીસભર નિર્ણય લઈશું.

Voice Engine ના પ્રારંભિક ઉપયોગો

આ ટેકનોલોજીના સંભવિત ઉપયોગોને વધુ સારી રીતે સમજવા માટે, ગયા વર્ષના અંતમાં અમે વિશ્વસનીય ભાગીદારોના એક નાના જૂથ સાથે તેનો ખાનગી પરીક્ષણ શરૂ કર્યું હતું. આ જૂથે વિકસાવેલી એપ્લિકેશનો અમને પ્રભાવિત કરી છે. આ નાના-પાયાની તૈનાતીઓ અમારા અભિગમ, સુરક્ષા ઉપાયો અને Voice Engine નો વિવિધ ઉદ્યોગોમાં સકારાત્મક રીતે કેવી રીતે ઉપયોગ થઈ શકે તે અંગેની વિચારસરણી ઘડવામાં મદદ કરી રહી છે. કેટલાક પ્રારંભિક ઉદાહરણો આ મુજબ છે.

વાંચી ન શકતા લોકો અને બાળકોને વાંચન સહાય પૂરી પાડવી પ્રિસેટ અવાજોથી શક્ય હોય તે કરતાં વધુ વ્યાપક વક્તાઓનું પ્રતિનિધિત્વ કરતા કુદરતી અને ભાવસભર અવાજો દ્વારા. Age of Learning⁠(નવી વિન્ડોમાં ખૂલે છે), બાળકોની શૈક્ષણિક સફળતા માટે સમર્પિત એક એજ્યુકેશન ટેકનોલોજી કંપની, પૂર્વલિખિત વોઇસ-ઓવર સામગ્રી જનરેટ કરવા માટે તેનો ઉપયોગ કરી રહી છે. તેઓ વિદ્યાર્થીઓ સાથે ક્રિયા કરવા માટે વાસ્તવિક સમયમાં વ્યક્તિગત પ્રતિસાદ બનાવવા Voice Engine અને GPT‑4 નો પણ ઉપયોગ કરે છે. આ ટેકનોલોજીથી, Age of Learning વધુ વ્યાપક પ્રેક્ષકો માટે વધુ સામગ્રી બનાવી શક્યું છે.

સામગ્રીનું અનુવાદ કરવું, જેમ કે વિડિયો અને પોડકાસ્ટ, જેથી સર્જકો અને વ્યવસાયો દુનિયાભરમાં વધુ લોકોને સરળતાથી અને તેમના પોતાના અવાજમાં પહોંચી શકે. તેનો એક પ્રારંભિક અપનાવનાર HeyGen⁠(નવી વિન્ડોમાં ખૂલે છે) છે, જે એક AI વિઝ્યુઅલ સ્ટોરીટેલિંગ પ્લેટફોર્મ છે અને તે પોતાના એન્ટરપ્રાઇઝ ગ્રાહકો સાથે મળીને પ્રોડક્ટ માર્કેટિંગથી લઈને સેલ્સ ડેમો સુધી વિવિધ પ્રકારની સામગ્રી માટે કસ્ટમ, માનવીસમાન અવતાર બનાવે છે. તેઓ વિડિયો અનુવાદ માટે Voice Engine નો ઉપયોગ કરે છે, જેથી તેઓ વક્તાના અવાજને અનેક ભાષાઓમાં અનુવાદિત કરી શકે અને વૈશ્વિક પ્રેક્ષકો સુધી પહોંચી શકે. અનુવાદ માટે ઉપયોગ થાય ત્યારે Voice Engine મૂળ વક્તાનો સ્વદેશી લહેજો જાળવી રાખે છે. ઉદાહરણ તરીકે, ફ્રેન્ચ વક્તાના ઑડિયો નમૂનાથી અંગ્રેજી જનરેટ કરવાથી ફ્રેન્ચ લહેજાવાળી વાણી ઉત્પન્ન થશે.

લોડ થઈ રહ્યું છે...

વૈશ્વિક સમુદાયો સુધી પહોંચવું, દૂરસ્ત વિસ્તારોમાં આવશ્યક સેવાઓની ડિલિવરી સુધારીને. Dimagi⁠(નવી વિન્ડોમાં ખૂલે છે) સમુદાય આરોગ્ય કાર્યકરો માટે વિવિધ આવશ્યક સેવાઓ પૂરી પાડવામાં મદદરૂપ સાધનો બનાવી રહ્યું છે, જેમ કે સ્તનપાન કરાવતી માતાઓ માટે કાઉન્સેલિંગ. આ કાર્યકરોને તેમની કુશળતા વિકસાવવામાં મદદ કરવા માટે, Dimagi Voice Engine અને GPT‑4 નો ઉપયોગ કરીને દરેક કાર્યકરની મુખ્ય ભાષામાં, જેમાં Swahili અથવા Kenya માં લોકપ્રિય કોડ-મિશ્રિત ભાષા Sheng જેવી વધુ અનૌપચારિક ભાષાઓ પણ સામેલ છે, ઇન્ટરેક્ટિવ પ્રતિસાદ આપે છે.

લોડ થઈ રહ્યું છે...

મૌખિક રીતે વ્યક્ત ન કરી શકતા લોકોને સહાય કરવી, જેમ કે બોલવામાં અસર કરતી પરિસ્થિતિ ધરાવતા લોકો માટે થેરાપ્યુટિક ઉપયોગો અને શૈક્ષણિક જરૂરિયાતો ધરાવતા લોકો માટે શૈક્ષણિક સુધારાઓ. Livox⁠(નવી વિન્ડોમાં ખૂલે છે), એક AI વૈકલ્પિક સંચાર એપ, Augmentative & Alternative Communication (AAC) ઉપકરણોને શક્તિ આપે છે, જે વિકલાંગ લોકોને સંચાર કરવા સક્ષમ બનાવે છે. Voice Engine નો ઉપયોગ કરીને, તેઓ મૌખિક રીતે વ્યક્ત ન કરી શકતા લોકોને ઘણી ભાષાઓમાં અનન્ય અને રોબોટિક ન લાગતા અવાજો આપી શકે છે. તેમના વપરાશકર્તાઓ એવો અવાજ પસંદ કરી શકે છે જે તેમને શ્રેષ્ઠ રીતે પ્રતિનિધિત્વ કરે, અને બહુભાષી વપરાશકર્તાઓ માટે, દરેક બોલાતી ભાષામાં એકસરખો અવાજ જાળવી શકે છે.

લોડ થઈ રહ્યું છે...

દર્દીઓને તેમનો અવાજ પાછો મેળવવામાં મદદ કરવી, ખાસ કરીને અચાનક અથવા પ્રગતિશીલ બોલી-સંબંધિત પરિસ્થિતિઓથી પીડાતા લોકો માટે. Brown University ની મેડિકલ સ્કૂલ સાથે પ્રાથમિક શૈક્ષણિક સંકળાયેલ નફારહિત આરોગ્ય પ્રણાલી Lifespan⁠(નવી વિન્ડોમાં ખૂલે છે) ખાતેનું Norman Prince Neurosciences Institute ક્લિનિકલ સંદર્ભોમાં AI ના ઉપયોગોની શોધખોળ કરી રહ્યું છે. તેઓ વાણી અક્ષમતા માટે ઑન્કોલોજિક અથવા ન્યુરોલોજિક કારણો ધરાવતા લોકોને Voice Engine આપતો એક કાર્યક્રમ પાઇલટ રૂપે ચલાવી રહ્યા છે. Voice Engine ને એટલા ટૂંકા ઑડિયો નમૂનાની જ જરૂર પડતી હોવાથી, ડૉ. Fatima Mirza, Rohaid Ali અને Konstantina Svokos એક યુવા દર્દીની વાણી પુનઃસ્થાપિત કરી શક્યા, જેણે રક્તવાહિનીજન્ય મગજના ટ્યુમર કારણે પોતાની પ્રવાહી બોલવાની ક્ષમતા ગુમાવી હતી, અને તેમણે શાળાના પ્રોજેક્ટ માટે રેકોર્ડ કરાયેલા વિડિયોના ઑડિયાનો ઉપયોગ કર્યો હતો.

લોડ થઈ રહ્યું છે...

Voice Engine ને સુરક્ષિત રીતે બનાવવું

અમે જાણીએ છીએ કે લોકોના અવાજ જેવું લાગતું વાક્ય ઉત્પન્ન કરવાનું ગંભીર જોખમ ધરાવે છે, અને ચૂંટણીના વર્ષે તો આ ખાસ કરીને વધુ મહત્વનું બને છે. અમે સરકાર, મીડિયા, મનોરંજન, શિક્ષણ, નાગરિક સમાજ અને અન્ય ક્ષેત્રોના અમેરિકન તથા આંતરરાષ્ટ્રીય ભાગીદારો સાથે જોડાઈ રહ્યા છીએ જેથી અમે વિકાસ કરતા સમયે તેમનો પ્રતિસાદ સમાવેશ કરી શકીએ. આજે Voice Engine નું પરીક્ષણ કરતા ભાગીદારોએ અમારી ઉપયોગ નીતિઓ⁠ સ્વીકારી છે, જે સંમતિ અથવા કાનૂની હક વગર અન્ય વ્યક્તિ અથવા સંસ્થાનું પ્રતિરૂપ ધારણ કરવા પ્રતિબંધિત કરે છે. ઉપરાંત, આ ભાગીદારો સાથેની અમારી શરતો મુજબ મૂળ વક્તાની સ્પષ્ટ અને માહિતીસભર સંમતિ જરૂરી છે અને અમે ડેવલપરોને વ્યક્તિગત વપરાશકર્તાઓ માટે પોતાનો અવાજ બનાવવાના માર્ગો બનાવવાની મંજૂરી આપતા નથી. ભાગીદારોએ તેમની શ્રોતાઓને પણ સ્પષ્ટ રીતે જણાવવું જરૂરી છે કે તેઓ જે અવાજો સાંભળી રહ્યા છે તે AI-જનરેટેડ છે. અંતમાં, અમે Voice Engine દ્વારા જનરેટ થયેલા કોઈપણ ઑડિયોના મૂળનો પત્તો લગાવવા માટે વૉટરમાર્કિંગ સહિત સુરક્ષાના કેટલાક ઉપાયો અમલમાં મૂક્યા છે, તેમજ તેનો કેવી રીતે ઉપયોગ થાય છે તે અંગે સક્રિય મોનિટરિંગ પણ કરીએ છીએ. અમારો વિશ્વાસ છે કે સિન્થેટિક અવાજ ટેકનોલોજીની કોઈપણ વ્યાપક તૈનાતી સાથે એવા વોઇસ ઓથેન્ટિકેશન અનુભવ હોવા જોઈએ જે ચકાસે કે મૂળ વક્તા જાણીને પોતાની વાણી સેવા સાથે ઉમેરી રહ્યા છે, અને એવી no-go voice list હોવી જોઈએ જે પ્રખ્યાત વ્યક્તિઓ સાથે બહુ સમાન અવાજોની રચનાને શોધી અને અટકાવી શકે.

આગળ નજર કરીએ

Voice Engine એ ટેકનિકલ અત્યાધુનિક ક્ષેત્રને સમજવા અને AI સાથે શું શક્ય બની રહ્યું છે તે ખુલ્લેઆમ શેર કરવાની અમારી પ્રતિબદ્ધતાનો સતત વિસ્તાર છે. AI સલામતી પ્રત્યેના અમારા અભિગમ⁠ અને અમારી સ્વૈચ્છિક પ્રતિબદ્ધતાઓ⁠ મુજબ, અમે આ ટેકનોલોજીનું પૂર્વદર્શન બતાવવાનું પસંદ કરી રહ્યા છીએ, પરંતુ આ સમયે તેને વ્યાપક રીતે રિલીઝ નથી કરી રહ્યા. અમને આશા છે કે Voice Engine નું આ પૂર્વદર્શન તેની સંભાવનાઓને ઉજાગર કરશે અને સાથેસાથે વધતી જતી વિશ્વસનીય જનરેટિવ મોડેલ્સથી ઉભા થતા પડકારો સામે સમાજની લચીલાશ મજબૂત કરવાની જરૂરિયાતને પણ પ્રેરિત કરશે. ખાસ કરીને, અમે નીચેના જેવા પગલાંને પ્રોત્સાહિત કરીએ છીએ.

બેંક ખાતાઓ અને અન્ય સંવેદનશીલ માહિતી સુધી પહોંચવા માટે સુરક્ષા ઉપાય તરીકે અવાજ આધારિત પ્રમાણિકરણને તબક્કાવાર બંધ કરવું
AI માં વ્યક્તિઓના અવાજના ઉપયોગનું રક્ષણ કરવા માટેની નીતિઓ શોધવી
AI ટેકનોલોજીઓની ક્ષમતાઓ અને મર્યાદાઓ સમજવા માટે જનતાને શિક્ષિત કરવી, જેમાં ભ્રામક AI સામગ્રીની શક્યતા પણ સામેલ છે
ઓડિયોવિઝ્યુઅલ સામગ્રીના મૂળને ટ્રેક કરવાની ટેકનિકોના વિકાસ અને અપનાવાને ઝડપી બનાવવું, જેથી તમે વાસ્તવિક વ્યક્તિ સાથે વાતચીત કરી રહ્યા છો કે AI સાથે, તે હંમેશા સ્પષ્ટ રહે

દુનિયાભરના લોકો માટે આ સમજવું મહત્વપૂર્ણ છે કે આ ટેકનોલોજી કઈ દિશામાં જઈ રહી છે, ભલે અંતે અમે તેને વ્યાપક રીતે તૈનાત કરીએ કે ન કરીએ. નીતિનિર્માતાઓ, સંશોધકો, ડેવલપરો અને સર્જકો સાથે સિન્થેટિક અવાજોના પડકારો અને તકો વિશેની ચર્ચાઓમાં જોડાયેલા રહેવાની અમે આતુરતાપૂર્વક રાહ જોઈ રહ્યા છીએ.

સંબંધિત લેખો

બધું જુઓ

Video generation models as world simulators

પ્રકાશન15 ફેબ્રુ, 2024

Building an early warning system for LLM-aided biological threat creation

પ્રકાશન31 જાન્યુ, 2024

Weak-to-strong generalization

સુરક્ષા14 ડિસે, 2023