29 மார்ச், 2024

செயற்கையான குரல்களின் சவால்களையும் வாய்ப்புகளையும் கையாளுதல்

Voice Engine இன் சிறிய அளவிலான முன்னோட்டத்திலிருந்து, தனிப்பயன் குரல்களை உருவாக்குவதற்கான மாடல் பற்றிய பாடங்களை நாங்கள் பகிர்ந்து கொள்கிறோம்.

ஏற்றுகிறது…

OpenAI பாதுகாப்பான மற்றும் பரவலாக பயனளிக்கும் AI-ஐ உருவாக்குவதற்கு⁠ உறுதிபூண்டுள்ளது. இன்று, Voice Engine எனப்படும் மாடலின் சிறிய அளவிலான முன்னோட்டத்திலிருந்து ஆரம்பகட்ட பார்வைகளையும் முடிவுகளையும் நாங்கள் பகிர்கிறோம், இது உரை உள்ளீடும் ஒரே ஒரு 15-வினாடி ஆடியோ மாதிரியையும் பயன்படுத்தி, அசல் பேச்சாளரை நெருக்கமாக ஒத்த இயல்பான பேச்சை உருவாக்குகிறது. ஒரு சிறிய மாடல், ஒரே 15-வினாடி மாடலுடன் உணர்ச்சிப்பூர்வமான மற்றும் நிஜமான குரல்களை உருவாக்க முடியும் என்பது குறிப்பிடத்தக்கது.

நாங்கள் Voice Engine-ஐ முதலில் 2022 இறுதியில் உருவாக்கினோம், மற்றும் இதனை உரையை பேச்சாக மாற்றும் API⁠(புதிய சாளரத்தில் திறக்கும்) இல் கிடைக்கும் முன்னமைக்கப்பட்ட குரல்களை இயக்கவும், ChatGPT வாய்ஸ் மற்றும் Read Aloud⁠யையும் இயக்கவும் பயன்படுத்தினோம். அதே நேரத்தில், செயற்கையான குரல் தவறாகப் பயன்படுத்தப்படுவதற்கான சாத்தியக்கூறு காரணமாக, விரிவான வெளியீட்டிற்காக நாங்கள் எச்சரிக்கையான மற்றும் தகவலறிந்த அணுகுமுறையை எடுத்து வருகிறோம். செயற்கை குரல்களை பொறுப்புடன் பயன்படுத்துவது குறித்து ஒரு உரையாடலைத் தொடங்கவும், மேலும் இந்த புதிய திறன்களுக்கு சமூகம் எவ்வாறு தன்னை ஏற்படுத்திக்கொள்ள முடியும் என்பதையும் பற்றி பேசவும் நாங்கள் நம்புகிறோம். இந்த உரையாடல்கள் மற்றும் இந்த சிறிய அளவிலான சோதனைகளின் முடிவுகளை அடிப்படையாகக் கொண்டு, இந்த தொழில்நுட்பத்தை மிகப்பெரிய அளவில் செயல்படுத்த வேண்டுமா, மேலும் எவ்வாறு செயல்படுத்த வேண்டும் என்பதைக் குறித்து நாங்கள் மேலும் தகவலறிந்த முடிவை எடுப்போம்.

Voice Engine இன் ஆரம்பகால பயன்பாடுகள்

இந்த தொழில்நுட்பத்தின் சாத்தியமான பயன்பாடுகளை மேலும் நன்றாகப் புரிந்துகொள்ள, கடந்த ஆண்டு இறுதியில் நாங்கள் நம்பகமான பங்குதாரர்களின் ஒரு சிறிய குழுவுடன் இதை தனிப்பட்ட முறையில் சோதிக்கத் தொடங்கினோம். இந்தக் குழு உருவாக்கிய பயன்பாடுகள் எங்களை மிகவும் கவர்ந்துள்ளன. இந்த சிறிய அளவிலான செயல்படுத்தல்கள், பல்வேறு தொழில்துறைகளில் Voice Engine நல்லதற்காக எவ்வாறு பயன்படுத்தப்படலாம் என்பதைக் குறித்த எங்கள் அணுகுமுறை, பாதுகாப்பு நடவடிக்கைகள், மற்றும் சிந்தனையை வடிவமைக்க உதவுகின்றன. சில ஆரம்ப கால எடுத்துக்காட்டுகள் பின்வருமாறு:

வாசிப்பு உதவியை வழங்குதல் வாசிக்க முடியாதவர்களுக்கும் குழந்தைகளுக்கும், முன்னமைக்கப்பட்ட குரல்களால் சாத்தியமானதைவிட பரந்த அளவிலான பேச்சாளர்களை பிரதிநிதித்துவப்படுத்தும் இயல்பாக ஒலிக்கும், உணர்ச்சிப்பூர்வமான குரல்கள் மூலம். Age of Learning⁠(புதிய சாளரத்தில் திறக்கும்), குழந்தைகளின் கல்வி வெற்றிக்காக அர்ப்பணிக்கப்பட்ட ஒரு கல்வி தொழில்நுட்ப நிறுவனம், முன்கூட்டியே ஸ்கிரிப்ட் செய்யப்பட்ட குரல்வழி உள்ளடக்கத்தை உருவாக்க இதைப் பயன்படுத்தி வருகிறது. அவர்கள் மாணவர்களுடன் தொடர்பு கொள்ள நேரடி, தனிப்பயனாக்கப்பட்ட பதில்களை உருவாக்க Voice Engine மற்றும் GPT‑4 ஐயும் பயன்படுத்துகின்றனர். இந்தத் தொழில்நுட்பத்தின் மூலம், Age of Learning ஒரு பரந்த பார்வையாளர்களுக்காக மேலும் அதிக உள்ளடக்கத்தை உருவாக்க முடிந்துள்ளது.

உள்ளடக்கத்தை மொழிபெயர்ப்பது, வீடியோக்கள் மற்றும் பாட்காஸ்ட்கள் மூலம் படைப்பாளர்கள் மற்றும் வணிகங்கள் தங்களின் சொந்த குரல்களில் உலகம் முழுவதும் மக்களை சென்றடைய உதவுகிறது. இதன் ஆரம்பகால ஏற்றுக்கொண்டவர்களில் ஒருவர் HeyGen⁠(புதிய சாளரத்தில் திறக்கும்), இது ஒரு AI காட்சி கதைசொல்லல் தளம். இது தனது நிறுவன வாடிக்கையாளர்களுடன் இணைந்து தயாரிப்பு சந்தைப்படுத்தலிலிருந்து விற்பனை டெமோக்கள் வரை பல்வேறு உள்ளடக்கங்களுக்காக தனிப்பயன், மனிதரைப் போன்ற அவதார்களை உருவாக்குகிறது. அவர்கள் வீடியோ மொழிபெயர்ப்புக்காக Voice Engine-ஐ பயன்படுத்துகிறார்கள். இதன் மூலம் அவர்கள் ஒரு பேச்சாளரின் குரலை பல மொழிகளுக்கு மொழிபெயர்த்து உலகளாவிய பார்வையாளர்களை அடைய முடியும். மொழிபெயர்ப்புக்காக பயன்படுத்தப்படும் போது, Voice Engine அசல் பேச்சாளரின் தாய்மொழி உச்சரிப்பை பாதுகாக்கிறது. உதாரணமாக, ஒரு பிரெஞ்சு பேச்சாளரின் ஆடியோ மாதிரியைப் பயன்படுத்தி ஆங்கிலத்தை உருவாக்கினால், அது பிரெஞ்சு உச்சரிப்புடன் கூடிய பேச்சை உருவாக்கும்.

ஏற்றுகிறது...

உலகளாவிய சமூகங்களை அடைதல், தொலைதூர சூழல்களில் அத்தியாவசிய சேவை வழங்கலை மேம்படுத்துவதன் மூலம். Dimagi⁠(புதிய சாளரத்தில் திறக்கும்) சமூக ஹெல்த் பணியாளர்கள் தாய்ப்பால் ஊட்டும் தாய்மார்களுக்கு ஆலோசனை வழங்குவது போன்ற பல்வேறு அத்தியாவசிய சேவைகளை வழங்க உதவும் கருவிகளை உருவாக்குகிறது. இந்த பணியாளர்கள் தங்களின் திறன்களை மேம்படுத்த உதவ, Dimagi, சுவாஹிலி போன்ற மொழிகள் அல்லது கென்யாவில் பிரபலமான குறியீடு-கலந்த மொழியான Sheng போன்ற மேலும் அநௌபசாரிக மொழிகள் உட்பட, ஒவ்வொரு பணியாளரின் முதன்மை மொழியிலும் ஊடாடும் பின்னூட்டத்தை வழங்க Voice Engine மற்றும் GPT‑4 ஐ பயன்படுத்துகிறது.

ஏற்றுகிறது...

வாய்மொழி பேசாதவர்களுக்கு ஆதரவு வழங்குதல், உதாரணமாக பேச்சை பாதிக்கும் நிலைகளைக் கொண்ட நபர்களுக்கான சிகிச்சை பயன்பாடுகள் மற்றும் கற்றல் தேவைகள் உள்ளவர்களுக்கான கல்வி மேம்பாடுகள். Livox⁠(புதிய சாளரத்தில் திறக்கும்), ஒரு AI மாற்று தொடர்பு பயன்பாடு, மாற்றுத் திறனாளிகள் தொடர்பு கொள்ள உதவும் Augmentative & Alternative Communication (AAC) சாதனங்களுக்கு சக்தியளிக்கிறது. Voice Engine-ஐ பயன்படுத்துவதன் மூலம், பேச முடியாதவர்களுக்கு பல மொழிகளில் தனித்துவமான மற்றும் ரோபோட்டிக் அல்லாத குரல்களை வழங்க அவர்கள் முடிகிறது. அவர்களின் பயனர்கள் தங்களை சிறப்பாக பிரதிநிதித்துவப்படுத்தும் பேச்சைத் தேர்வு செய்யலாம், மேலும் பலமொழி பயனர்களுக்காக, பேசப்படும் ஒவ்வொரு மொழியிலும் ஒரே மாதிரியான குரலைப் பேணலாம்.

ஏற்றுகிறது...

நோயாளிகள் தங்கள் குரலை மீட்டெடுக்க உதவுதல், திடீர் அல்லது சிதைவுறும் பேச்சுக் கோளாறுகளால் பாதிக்கப்படுபவர்களுக்காக. Lifespan⁠(புதிய சாளரத்தில் திறக்கும்) நிறுவனத்தில் உள்ள நார்மன் பிரின்ஸ் நியூரோசயன்சஸ் இன்ஸ்டிடியூட், ப்ரவுன் பல்கலைக்கழகத்தின் மருத்துவப் பள்ளியின் முதன்மை கற்பித்தல் இணை நிறுவனமாக செயல்படும் இலாப நோக்கமற்ற ஹெல்த் அமைப்பாக இருந்து, மருத்துவச் சூழல்களில் AI-யின் பயன்பாடுகளை ஆராய்ந்து வருகிறது. பேச்சுக் குறைபாட்டிற்கான புற்றுநோய் அல்லது நரம்பியல் காரணங்களைக் கொண்ட நபர்களுக்கு Voice Engine-ஐ வழங்கும் ஒரு திட்டத்தை அவர்கள் முன்னோட்டமாக செயல்படுத்தி வருகின்றனர். Voice Engine-க்கு இவ்வளவு குறுகிய ஆடியோ மாதிரி மட்டுமே தேவைப்படுவதால், பள்ளித் திட்டத்திற்காக பதிவு செய்யப்பட்ட ஒரு வீடியோவிலிருந்து எடுத்த ஆடியோவைப் பயன்படுத்தி, இரத்தக் குழாய் சார்ந்த மூளை கட்டியால் தனது சரளமான பேச்சை இழந்த ஒரு இளம் நோயாளியின் குரலை மருத்துவர்கள் Fatima Mirza, Rohaid Ali மற்றும் Konstantina Svokos மீட்டெடுக்க முடிந்தது.

ஏற்றுகிறது...

பாதுகாப்பாக Voice Engine-ஐ உருவாக்குதல்

மக்களின் குரல்களைப் போன்ற பேச்சை உருவாக்குவதில் தீவிரமான அபாயங்கள் உள்ளன என்பதை நாங்கள் அங்கீகரிக்கிறோம், குறிப்பாக தேர்தல் ஆண்டில் இது மிகவும் முக்கியமாகக் கருதப்படுகிறது. நாங்கள் உருவாக்கும் போது அவர்களின் பின்னூட்டத்தை இணைத்துக் கொள்கிறோம் என்பதை உறுதி செய்ய, அரசு, ஊடகம், பொழுதுபோக்கு, கல்வி, குடிமக்கள் சமூகம் மற்றும் அதற்கு அப்பாற்பட்ட துறைகளிலிருந்து அமெரிக்க மற்றும் சர்வதேச கூட்டாளர்களுடன் நாங்கள் ஈடுபட்டு வருகிறோம். இன்று Voice Engine-ஐ சோதிக்கும் கூட்டாளர்கள் எங்கள் பயன்பாட்டுக் கொள்கைகள்⁠ என்பவற்றை ஏற்றுக்கொண்டுள்ளனர்; அவை, சம்மதம் அல்லது சட்டபூர்வ உரிமை இன்றி மற்றொரு நபர் அல்லது அமைப்பாக நடிப்பதைத் தடை செய்கின்றன. கூடுதலாக, இந்தக் கூட்டாளர்களுடனான எங்கள் விதிமுறைகளுக்கு அசல் பேச்சாளரிடமிருந்து வெளிப்படையான மற்றும் தகவலறிந்த ஒப்புதல் தேவைப்படுகிறது, மேலும் தனிப்பட்ட பயனர்கள் தங்கள் சொந்தக் குரல்களை உருவாக்குவதற்கான வழிகளை உருவாக்க டெவலப்பர்களை நாங்கள் அனுமதிப்பதில்லை. கூட்டாளர்கள், தங்கள் பார்வையாளர்களுக்கு அவர்கள் கேட்கும் குரல்கள் AI உருவாக்கியவை என்பதைத் தெளிவாகவும் வெளிப்படுத்த வேண்டும். கடைசியாக, Voice Engine மூலம் உருவாக்கப்படும் எந்தவொரு ஒலியையும் மூலத்துடன் தொடர்புபடுத்த முடியும் என்பதற்காக வாட்டர் மார்க் செய்யும் வசதி மற்றும் அதன் பயன்பாட்டை முன்கூட்டியே கண்காணிக்கும் செயல்முறைகள் உட்பட பாதுகாப்பு நடவடிக்கைகள் சிலவற்றை நாம் செயல்படுத்தியுள்ளோம். செயற்கை குரல் தொழில்நுட்பத்தை எந்தவொரு பரந்த அளவிலான பயன்பாட்டிலும் அமல்படுத்துவது, அசல் பேச்சாளர் தங்களின் குரலை சேவையில் அறிந்தே சேர்க்கிறார் என்பதைச் சரிபார்க்கும் குரல் அங்கீகார அனுபவங்களும், மேலும் முக்கிய நபர்களைப் போல மிக அதிகமாக ஒத்த குரல்களை உருவாக்குவதை கண்டறிந்து தடுக்கக்கூடிய ஒரு தடை குரல் பட்டியலும் உடன் இருக்க வேண்டும் என்று நாங்கள் நம்புகிறோம்.

எதிர்கால நோக்கு

Voice Engine என்பது தொழில்நுட்ப அதிநவீனத்தைப் புரிந்துகொள்ளும் எங்கள் உறுதியின் தொடர்ச்சி, மற்றும் AI மூலம் சாத்தியமாகி வருகிறது என்பதை திறந்தவெளியில் பகிர்வதற்கான முயற்சியாகும். எங்கள் AI பாதுகாப்பிற்கான அணுகுமுறைக்கு⁠ மற்றும் எங்கள் தன்னார்வ உறுதிமொழிகளுக்கு⁠ இணங்க, இந்த நேரத்தில் இந்த தொழில்நுட்பத்தை முன்னோட்டமாகக் காட்டத் தேர்வு செய்கிறோம், ஆனால் பரவலாக வெளியிடவில்லை. Voice Engine இன் இந்த முன்னோட்டம் அதன் சாத்தியத்தை வலியுறுத்துவதோடு, மேலும் மேலும் நம்ப வைக்கும் ஜெனரேட்டிவ் மாடல்கள் கொண்டு வரும் சவால்களுக்கு எதிராக சமூகத் தாங்குதிறனை வலுப்படுத்த வேண்டிய தேவையையும் ஊக்குவிக்கும் என்று நாங்கள் நம்புகிறோம். குறிப்பாக, இதுபோன்ற படிகளை எடுக்க நாங்கள் ஊக்குவிக்கிறோம்:

வங்கி கணக்குகள் மற்றும் பிற முக்கியமான தகவல்களை அணுகுவதற்கான பாதுகாப்பு நடவடிக்கையாக குரல் அடிப்படையிலான அங்கீகாரத்தை படிப்படியாக நிறுத்துதல்
AI இல் தனிநபர்களின் குரல்களின் பயன்பாட்டைப் பாதுகாக்கும் கொள்கைகளை ஆராய்தல்
AI தொழில்நுட்பங்களின் திறன்கள் மற்றும் வரம்புகள் குறித்து, ஏமாற்றும் AI உள்ளடக்கம் இருக்கக்கூடிய சாத்தியத்தையும் உட்பட, பொதுமக்கள் புரிந்துகொள்ளும் வகையில் அவர்களுக்கு கல்வி அளித்தல்
ஒளி மற்றும் ஒலி உள்ளடக்கத்தின் மூலம் அதன் மூலத்தை கண்காணிக்கும் தொழில்நுட்பங்களை விரைவுபடுத்தி, நீங்கள் எப்போதும் உண்மையான மனிதருடன் பேசுகிறீர்களா அல்லது AI உடன் பேசுகிறீர்களா என்பது தெளிவாக தெரியுமாறு செய்வது

இந்த தொழில்நுட்பம் எங்கு செல்கிறது என்பதை உலகெங்கிலும் உள்ள மக்கள் புரிந்துகொள்வது முக்கியம், இறுதியில் நாம் அதை பரவலாகப் பயன்படுத்துகிறோமா இல்லையா என்பது முக்கியமல்ல. செயற்கை குரல்களின் சவால்கள் மற்றும் வாய்ப்புகள் குறித்து கொள்கை நிர்ணயர்கள், ஆராய்ச்சியாளர்கள், டெவலப்பர்கள் மற்றும் படைப்பாளர்களுடன் உரையாடல்களில் தொடர்ந்து ஈடுபட ஆவலாக இருக்கிறோம்.

தொடர்புடைய கட்டுரைகள்

அனைத்தையும் பார்க்கவும்

Video generation models as world simulators

பதிப்பு15 பிப்ரவரி, 2024

Building an early warning system for LLM-aided biological threat creation

பதிப்பு31 ஜனவரி, 2024

Weak-to-strong generalization

பாதுகாப்பு14 டிசம்பர், 2023