സിന്തറ്റിക് ശബ്ദങ്ങളുടെ വെല്ലുവിളികളും അവസരങ്ങളും നേരിടൽ
തനതായ ശബ്ദങ്ങൾ സൃഷ്ടിക്കുന്നതിനുള്ള ഒരു മോഡലായ വോയ്സ് എഞ്ചിന്റെ ചെറിയ തോതിലുള്ള പ്രിവ്യൂവിൽ നിന്ന് ഞങ്ങൾ പഠിച്ച പാഠങ്ങൾ പങ്കുവെയ്ക്കുന്നു.
OpenAI സുരക്ഷിതവും വ്യാപകമായി പ്രയോജനകരവുമായ AI വികസിപ്പിക്കുന്നതിൽ പ്രതിബദ്ധമാണ്. ഇന്ന് ഞങ്ങൾ Voice Engine എന്ന പേരിലുള്ള ഒരു മോഡലിന്റെ ചെറിയ തോതിലുള്ള പ്രിവ്യൂയിൽ നിന്ന് ലഭിച്ച പ്രാഥമിക ഉൾക്കാഴ്ചകളും ഫലങ്ങളും പങ്കിടുന്നു; ഇത് ടെക്സ്റ്റ് ഇൻപുട്ടും ഒരു ഒറ്റ 15-second ഓഡിയോ സാമ്പിളും ഉപയോഗിച്ച്, യഥാർത്ഥത്തില് സംസാരിക്കുന്നയാളെ വളരെ അടുത്തായി അനുകരിക്കുന്ന സ്വാഭാവികമായി കേൾക്കുന്ന സംസാരശബ്ദം സൃഷ്ടിക്കുന്നു. ഒരൊറ്റ 15-second സാമ്പിള് ഉപയോഗിച്ച് ഒരു ചെറിയ മോഡലിന് വികാരഭരിതവും യാഥാർത്ഥ്യസമാനവുമായ ശബ്ദങ്ങൾ സൃഷ്ടിക്കാൻ കഴിയുന്നു എന്നത് ശ്രദ്ധേയമാണ്.
ഞങ്ങൾ 2022-ന്റെ അവസാനം Voice Engine ആദ്യമായി വികസിപ്പിച്ചു, കൂടാതെ text-to-speech API(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) -യിൽ ലഭ്യമായ പ്രീസെറ്റ് വോയ്സുകൾക്കും ChatGPT വോയ്സ്, Read Aloud-ക്കും ശക്തി നൽകാൻ അത് ഉപയോഗിച്ചിട്ടുണ്ട്. അതേ സമയം, സിന്തറ്റിക് ശബ്ദം ദുരുപയോഗം ചെയ്യപ്പെടാനുള്ള സാധ്യത കാരണം, കൂടുതൽ വ്യാപകമായ റിലീസിനായി ഞങ്ങൾ ജാഗ്രതയോടെയും അറിവോടെയും ഉള്ള സമീപനം സ്വീകരിക്കുന്നു. സിന്തറ്റിക് ശബ്ദങ്ങളുടെ ഉത്തരവാദിത്തപരമായ വിന്യാസത്തെക്കുറിച്ചും, ഈ പുതിയ കഴിവുകളോട് സമൂഹം എങ്ങനെ പൊരുത്തപ്പെടാമെന്നതിനെക്കുറിച്ചും ഒരു സംഭാഷണം ആരംഭിക്കാൻ ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു. ഈ സംഭാഷണങ്ങളെയും ഈ ചെറിയ തോതിലുള്ള ടെസ്റ്റുകളുടെ ഫലങ്ങളെയും അടിസ്ഥാനമാക്കി, ഈ സാങ്കേതികവിദ്യയെ വ്യാപകമായി വിന്യസിക്കണോ, എങ്കിൽ എങ്ങനെ വിന്യസിക്കണം എന്നതിനെക്കുറിച്ച് ഞങ്ങൾ കൂടുതൽ അറിവുള്ള തീരുമാനം എടുക്കും.
ഈ സാങ്കേതികവിദ്യയുടെ സാധ്യതയുള്ള ഉപയോഗങ്ങൾ കൂടുതൽ നന്നായി മനസ്സിലാക്കുന്നതിനായി, കഴിഞ്ഞ വർഷത്തിന്റെ അവസാനം ഞങ്ങൾ വിശ്വസ്തരായ പങ്കാളികളുടെ ഒരു ചെറിയ ഗ്രൂപ്പുമായി ഇത് സ്വകാര്യമായി പരീക്ഷിക്കാൻ തുടങ്ങി. ഈ ഗ്രൂപ്പ് വികസിപ്പിച്ച ആപ്ലിക്കേഷനുകൾ ഞങ്ങളെ വളരെ ആകർഷിച്ചു. ഈ ചെറുകിട വിന്യാസങ്ങൾ വിവിധ വ്യവസായങ്ങളിലുടനീളം Voice Engine നല്ലതിനായി എങ്ങനെ ഉപയോഗിക്കാനാകുമെന്ന് സംബന്ധിച്ചുള്ള ഞങ്ങളുടെ സമീപനം, സുരക്ഷാ സംരക്ഷണങ്ങൾ, ചിന്തനം എന്നിവ രൂപപ്പെടുത്താൻ സഹായിക്കുന്നു. പ്രാരംഭ ഉദാഹരണങ്ങളിൽ ചിലത് ഉൾപ്പെടുന്നു:
- വായനാ സഹായം നൽകുന്നു വായിക്കാനറിയാത്തവർക്കും കുട്ടികൾക്കും, പ്രീസെറ്റ് വോയ്സുകൾ ഉപയോഗിച്ച് സാധ്യമാകുന്നതിലുപരി കൂടുതൽ വൈവിധ്യമാർന്ന സംസാരക്കാരെ പ്രതിനിധീകരിക്കുന്ന സ്വാഭാവികമായി കേൾക്കുന്ന, വികാരാഭിവ്യക്തിയുള്ള ശബ്ദങ്ങളിലൂടെ. Age of Learning(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), കുട്ടികളുടെ അക്കാദമിക് വിജയത്തിനായി സമർപ്പിതമായ ഒരു വിദ്യാഭ്യാസ സാങ്കേതികവിദ്യാ കമ്പനി, മുൻകൂട്ടി സ്ക്രിപ്റ്റ് ചെയ്ത വോയ്സ്-ഓവർ ഉള്ളടക്കം സൃഷ്ടിക്കാൻ ഇത് ഉപയോഗിച്ചുവരുന്നു. വിദ്യാർത്ഥികളുമായി ഇടപഴകുന്നതിനായി തത്സമയ, വ്യക്തിഗതമാക്കിയ പ്രതികരണങ്ങൾ സൃഷ്ടിക്കാൻ അവർ വോയ്സ് എഞ്ചിനും GPT‑4 ഉം ഉപയോഗിക്കുന്നു. ഈ സാങ്കേതികവിദ്യ ഉപയോഗിച്ച്, കൂടുതൽ വിശാലമായ പ്രേക്ഷകർക്കായി കൂടുതൽ ഉള്ളടക്കം സൃഷ്ടിക്കാൻ Age of Learning-ന് കഴിഞ്ഞിട്ടുണ്ട്.
- ഉള്ളടക്കം വിവർത്തനം ചെയ്യുന്നു, വീഡിയോകളും പോഡ്കാസ്റ്റുകളും പോലുള്ളവ, അതുവഴി സ്രഷ്ടാക്കൾക്കും ബിസിനസുകൾക്കും ലോകമെമ്പാടുമുള്ള കൂടുതൽ ആളുകളിലേക്കെത്താൻ, സുതാര്യമായി, അവരുടെ സ്വന്തം ശബ്ദത്തിൽ. ഇതിന്റെ ഒരു ആദ്യകാല ദത്തെടുക്കുന്നവരിൽ ഒരാളാണ് HeyGen(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു); ഇത് ഒരു AI ദൃശ്യ കഥപറച്ചിൽ പ്ലാറ്റ്ഫോമാണ്, അവരുടെ എന്റർപ്രൈസ് ഉപഭോക്താക്കളുമായി ചേർന്ന് ഉൽപ്പന്ന മാർക്കറ്റിംഗിൽ നിന്ന് വിൽപ്പന ഡെമോകൾ വരെ വിവിധ തരത്തിലുള്ള ഉള്ളടക്കത്തിനായി ഇഷ്ടാനുസൃത, മനുഷ്യസമാനമായ അവതാറുകൾ സൃഷ്ടിക്കുന്നു. അവർ വീഡിയോ ശബ്ദ വിവർത്തനത്തിനായി Voice Engine ഉപയോഗിക്കുന്നു, അതിനാൽ അവർക്ക് ഒരു സംസാരിക്കുന്നയാളുടെ ശബ്ദം പല ഭാഷകളിലേക്കും വിവർത്തനം ചെയ്ത് ആഗോള പ്രേക്ഷകരിലേക്കെത്താൻ കഴിയും. പരിഭാഷയ്ക്കായി ഉപയോഗിക്കുമ്പോൾ, Voice Engine യഥാർത്ഥ വക്താവിന്റെ സ്വദേശീയ ഉച്ചാരണം നിലനിർത്തുന്നു: ഉദാഹരണത്തിന്, ഒരു ഫ്രഞ്ച് വക്താവിന്റെ ഓഡിയോ സാമ്പിളിൽ നിന്ന് ഇംഗ്ലീഷ് സൃഷ്ടിക്കുന്നത് ഫ്രഞ്ച് ഉച്ചാരണമുള്ള സംസാരമായി മാറും.
- ആഗോള സമൂഹങ്ങളിലെത്തുക, ദൂരസ്ഥ സാഹചര്യങ്ങളിൽ അനിവാര്യ സേവന വിതരണം മെച്ചപ്പെടുത്തുന്നതിലൂടെ. Dimagi(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കമ്മ്യൂണിറ്റി ഹെൽത്ത് പ്രവർത്തകർക്ക് മുലയൂട്ടുന്ന അമ്മമാർക്ക് കൗൺസലിംഗ് നൽകുന്നതുപോലുള്ള വിവിധ അവശ്യ സേവനങ്ങൾ നൽകാൻ സഹായിക്കുന്ന ഉപകരണങ്ങൾ നിർമ്മിക്കുന്നു. ഈ തൊഴിലാളികൾക്ക് അവരുടെ കഴിവുകൾ വികസിപ്പിക്കാൻ സഹായിക്കുന്നതിനായി, Dimagi Voice Engine ഉം GPT‑4 ഉം ഉപയോഗിച്ച് സ്വാഹിലി പോലുള്ളതോ അല്ലെങ്കിൽ കെനിയയിൽ ജനപ്രിയമായ കോഡ്-മിക്സ്ഡ് ഭാഷയായ Sheng പോലുള്ള കൂടുതൽ അനൗപചാരിക ഭാഷകളിലോ ഓരോ തൊഴിലാളിയുടെയും പ്രാഥമിക ഭാഷയിൽ ഇന്ററാക്ടീവ് ഫീഡ്ബാക്ക് നൽകുന്നു.
- വാക്കുകളിലൂടെ ആശയവിനിമയം നടത്താത്ത ആളുകളെ പിന്തുണയ്ക്കൽ, ഉദാഹരണത്തിന് സംസാരത്തെ ബാധിക്കുന്ന അവസ്ഥകളുള്ള വ്യക്തികൾക്കായുള്ള ചികിത്സാപരമായ ആപ്ലിക്കേഷനുകളും പഠന ആവശ്യങ്ങളുള്ളവർക്കായുള്ള വിദ്യാഭ്യാസ മെച്ചപ്പെടുത്തലുകളും. Livox(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), ഒരു AI അധിഷ്ഠിത പകരം ആശയവിനിമയ ആപ്പ്, വൈകല്യമുള്ള ആളുകൾക്ക് ആശയവിനിമയം നടത്താൻ സഹായിക്കുന്ന Augmentative & Alternative Communication (AAC) ഉപകരണങ്ങൾക്ക് ശക്തി നൽകുന്നു. Voice Engine ഉപയോഗിക്കുന്നതിലൂടെ, വാക്കുകളില്ലാത്ത ആളുകൾക്ക് പല ഭാഷകളിലുമായി സവിശേഷവും റോബോട്ടിക് അല്ലാത്തതുമായ ശബ്ദങ്ങൾ അവർക്ക് നൽകാൻ കഴിയും. അവരുടെ ഉപയോക്താക്കൾക്ക് തങ്ങളെ ഏറ്റവും നന്നായി പ്രതിനിധീകരിക്കുന്ന സംസാരശൈലി തിരഞ്ഞെടുക്കാനാകും, കൂടാതെ ബഹുഭാഷാ ഉപയോക്താക്കൾക്കായി, ഓരോ സംസാരഭാഷയിലുടനീളം സ്ഥിരതയുള്ള വോയ്സ് നിലനിർത്താനും കഴിയും.
- രോഗികൾക്ക് അവരുടെ ശബ്ദം വീണ്ടെടുക്കാൻ സഹായിക്കുന്നു, പെട്ടെന്നുള്ളതോ ക്ഷയാത്മകമോ ആയ സംസാര സംബന്ധമായ അവസ്ഥകൾ അനുഭവിക്കുന്നവർക്കായി. Lifespan(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)-ലുള്ള Norman Prince Neurosciences Institute, Brown University-യുടെ മെഡിക്കൽ സ്കൂളിന്റെ പ്രാഥമിക അധ്യാപന അഫിലിയേറ്റായി പ്രവർത്തിക്കുന്ന ലാഭേച്ഛയില്ലാത്ത ഒരു ഹെൽത്ത് സിസ്റ്റം, ക്ലിനിക്കൽ സാഹചര്യങ്ങളിൽ AI-യുടെ ഉപയോഗങ്ങൾ അന്വേഷിക്കുന്നു. സംസാര വൈകല്യത്തിനുള്ള ഓങ്കോളജിക് അല്ലെങ്കിൽ ന്യൂറോളജിക് കാരണങ്ങളുള്ള വ്യക്തികൾക്ക് Voice Engine നൽകുന്ന ഒരു പ്രോഗ്രാം അവർ പൈലറ്റ് ആയി നടപ്പിലാക്കുകയാണ്. Voice Engine-ന് ഇത്രയും ചെറിയ ഒരു ഓഡിയോ സാമ്പിൾ മാത്രം ആവശ്യമായതിനാൽ, സ്കൂൾ പ്രോജക്റ്റിനായി റെക്കോർഡ് ചെയ്ത ഒരു വീഡിയോയിലെ ഓഡിയോ ഉപയോഗിച്ച്, രക്തക്കുഴൽ സംബന്ധമായ ഒരു മസ്തിഷ്ക ട്യൂമർ കാരണം സുതാര്യമായി സംസാരിക്കാനുള്ള കഴിവ് നഷ്ടപ്പെട്ട ഒരു യുവ രോഗിയുടെ ശബ്ദം ഡോക്ടർമാരായ Fatima Mirza, Rohaid Ali, Konstantina Svokos എന്നിവർക്ക് പുനഃസ്ഥാപിക്കാൻ കഴിഞ്ഞു.
ആളുകളുടെ ശബ്ദങ്ങളെ അനുകരിക്കുന്ന തരത്തിൽ സംസാരം സൃഷ്ടിക്കുന്നത് ഗുരുതരമായ അപകടസാധ്യതകൾ ഉണ്ടാക്കുന്നുവെന്ന് ഞങ്ങൾ തിരിച്ചറിയുന്നു, പ്രത്യേകിച്ച് തിരഞ്ഞെടുപ്പ് വർഷത്തിൽ ഇത് ഏറ്റവും മുൻഗണനയുള്ള ആശങ്കയാണ്. ഞങ്ങൾ നിർമ്മിക്കുമ്പോൾ അവരുടെ ഫീഡ്ബാക്ക് ഉൾപ്പെടുത്തുന്നുണ്ടെന്ന് ഉറപ്പാക്കുന്നതിനായി, സർക്കാർ, മീഡിയ, എന്റർടെയിൻമെന്റ്, വിദ്യാഭ്യാസം, സിവിൽ സമൂഹം എന്നിവയിലുടനീളവും അതിനപ്പുറവും നിന്നുള്ള യു.എസ്.യും അന്താരാഷ്ട്രവുമായ പങ്കാളികളുമായി ഞങ്ങൾ ഇടപഴകുന്നു. ഇന്ന് Voice Engine ടെസ്റ്റ് ചെയ്യുന്ന പങ്കാളികൾ ഞങ്ങളുടെ ഉപയോഗ നയങ്ങൾ അംഗീകരിച്ചിട്ടുണ്ട്; അവ സമ്മതമോ നിയമപരമായ അവകാശമോ ഇല്ലാതെ മറ്റൊരു വ്യക്തിയെയോ സംഘടനയെയോ അനുകരിക്കുന്നത് വിലക്കുന്നു. കൂടാതെ, ഈ പങ്കാളികളുമായുള്ള ഞങ്ങളുടെ നിബന്ധനകൾക്ക് യഥാർത്ഥ സംസാരിക്കുന്ന വ്യക്തിയിൽ നിന്ന് വ്യക്തവും അറിവോടെയുള്ളതുമായ സമ്മതം ആവശ്യമാണ്, കൂടാതെ വ്യക്തിഗത ഉപയോക്താക്കൾക്ക് അവരുടെ സ്വന്തം ശബ്ദങ്ങൾ സൃഷ്ടിക്കാൻ ഡെവലപ്പർമാർ മാർഗങ്ങൾ നിർമ്മിക്കാൻ ഞങ്ങൾ അനുവദിക്കുന്നില്ല. പങ്കാളികൾ അവരുടെ പ്രേക്ഷകർ കേൾക്കുന്ന ശബ്ദങ്ങൾ AI-ജനറേറ്റ് ചെയ്തവയാണെന്ന് വ്യക്തമായി വെളിപ്പെടുത്തുകയും വേണം. അവസാനമായി, Voice Engine സൃഷ്ടിക്കുന്ന ഏതൊരു ഓഡിയോയുടെയും ഉത്ഭവം കണ്ടെത്താൻ വാട്ടർമാർക്കിംഗ് ഉൾപ്പെടെയുള്ള സുരക്ഷാ നടപടികളുടെ ഒരു സമുച്ചയം ഞങ്ങൾ നടപ്പിലാക്കിയിട്ടുണ്ട്, കൂടാതെ അത് എങ്ങനെ ഉപയോഗിക്കപ്പെടുന്നു എന്നതിനെക്കുറിച്ചുള്ള മുൻകരുതൽ നിരീക്ഷണവും. സിന്തറ്റിക് വോയ്സ് സാങ്കേതികവിദ്യയുടെ ഏതൊരു വ്യാപക വിന്യാസവും, യഥാർത്ഥ സംസാരിക്കുന്ന വ്യക്തി അറിയാവുന്ന വിധത്തിൽ അവരുടെ വോയ്സ് സേവനത്തിലേക്ക് ചേർക്കുന്നതാണെന്ന് സ്ഥിരീകരിക്കുന്ന വോയ്സ് ഓതന്റിക്കേഷൻ അനുഭവങ്ങളും, പ്രമുഖ വ്യക്തികളോട് അത്യധികം സാമ്യമുള്ള വോയ്സുകൾ സൃഷ്ടിക്കുന്നത് കണ്ടെത്തി തടയുന്ന ഒരു നോ-ഗോ വോയ്സ് ലിസ്റ്റും സഹിതം ഉണ്ടായിരിക്കണം എന്ന് ഞങ്ങൾ വിശ്വസിക്കുന്നു.
Voice Engine AI ഉപയോഗിച്ച് എന്തെല്ലാം സാധ്യമാണ് എന്ന് തുറന്നുപങ്കിടുകയും സാങ്കേതികതയുടെ അത്യാധുനിക മേഖലയെ മനസ്സിലാക്കുകയും ചെയ്യാനുള്ള ഞങ്ങളുടെ പ്രതിബദ്ധതയുടെ തുടർച്ചയാണ്. ഞങ്ങളുടെ AI സുരക്ഷയിലേക്കുള്ള സമീപനത്തിനും ഞങ്ങളുടെ സ്വമേധയാ ഉള്ള പ്രതിബദ്ധതകൾക്കും അനുസൃതമായി, ഈ സമയത്ത് ഈ സാങ്കേതികവിദ്യ പ്രിവ്യൂ ചെയ്യാൻ തിരഞ്ഞെടുക്കുന്നു, പക്ഷേ വ്യാപകമായി പുറത്തിറക്കുന്നില്ല. Voice Engine-ന്റെ ഈ പ്രിവ്യൂ അതിന്റെ സാധ്യതയെ ഊന്നിപ്പറയുകയും കൂടാതെ കൂടുതൽ കൂടുതൽ വിശ്വസനീയമാകുന്ന ജനറേറ്റീവ് മോഡലുകൾ കൊണ്ടുവരുന്ന വെല്ലുവിളികൾക്കെതിരെ സാമൂഹിക പ്രതിരോധശേഷി ശക്തിപ്പെടുത്തേണ്ടതിന്റെ ആവശ്യകതയ്ക്കും പ്രചോദനം നൽകുകയും ചെയ്യുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു. പ്രത്യേകിച്ച്, ഇത്തരത്തിലുള്ള ചുവടുവയ്പ്പുകൾ സ്വീകരിക്കാൻ ഞങ്ങൾ പ്രോത്സാഹിപ്പിക്കുന്നു:
- ബാങ്ക് അക്കൗണ്ടുകളിലേക്കും മറ്റ് സൂക്ഷ്മ വിവരങ്ങളിലേക്കും ആക്സസ് നേടുന്നതിനുള്ള സുരക്ഷാ നടപടിയായി ശബ്ദ അധിഷ്ഠിത പ്രാമാണീകരണം ക്രമേണ ഒഴിവാക്കുന്നു
- AI-യിൽ വ്യക്തികളുടെ ശബ്ദങ്ങളുടെ ഉപയോഗം സംരക്ഷിക്കുന്നതിനുള്ള നയങ്ങൾ അന്വേഷിക്കുന്നു
- AI സാങ്കേതികവിദ്യകളുടെ കഴിവുകളും പരിമിതികളും, വഞ്ചനാപരമായ AI ഉള്ളടക്കത്തിന്റെ സാധ്യത ഉൾപ്പെടെ, മനസ്സിലാക്കുന്നതിന് പൊതുജനങ്ങളെ ബോധവൽക്കരിക്കൽ
- ഓഡിയോവിഷ്വൽ ഉള്ളടക്കത്തിന്റെ ഉത്ഭവം പിന്തുടരുന്നതിനുള്ള സാങ്കേതികവിദ്യകളുടെ വികസനവും സ്വീകരണവും വേഗത്തിലാക്കുന്നത് വഴി, നിങ്ങൾ ഒരു യഥാർത്ഥ വ്യക്തിയുമായോ അല്ലെങ്കിൽ AI യുമായോ സംവദിക്കുമ്പോൾ അത് എപ്പോഴും വ്യക്തമായിരിക്കും
ലോകമെമ്പാടുമുള്ള ആളുകൾ ഈ സാങ്കേതികവിദ്യ എവിടേക്കാണ് നീങ്ങുന്നത് എന്ന് മനസ്സിലാക്കുന്നത് പ്രധാനമാണ്, ഒടുവിൽ ഞങ്ങൾ തന്നെ ഇത് വ്യാപകമായി വിന്യസിക്കുമോ ഇല്ലയോ എന്നത് പ്രാധാന്യമില്ലാതെ. സിന്തറ്റിക് ശബ്ദങ്ങളുടെ വെല്ലുവിളികളും അവസരങ്ങളും സംബന്ധിച്ച് നയരൂപകർത്താക്കൾ, ഗവേഷകർ, ഡെവലപ്പർമാർ, സർഗ്ഗാത്മക മേഖലയിലുള്ളവർ എന്നിവരുമായി സംഭാഷണങ്ങൾ തുടരാൻ ഞങ്ങൾ ആകാംക്ഷയോടെ കാത്തിരിക്കുന്നു.


