2024 ж. 29 наурыз

Синтетикалық дауыстардың сын-қатерлері мен мүмкіндіктерін бағдарлау

Біз реттелетін дауыстар жасауға арналған Voice Engine моделінің шағын ауқымды алдын ала көрсетілімінен алынған сабақтарды бөлісіп отырмыз.

Жүктелуде…

OpenAI қауіпсіз әрі кең пайда әкелетін AI-ды дамытуға⁠ бейілді. Бүгін біз Voice Engine деп аталатын модельдің шағын ауқымды алдын ала көрсетілімінен алынған бастапқы түсініктер мен нәтижелерді бөлісіп отырмыз. Бұл модель мәтіндік енгізуді және жалғыз 15 секундтық аудио үлгіні пайдаланып, бастапқы сөйлеушіге өте ұқсас табиғи естілетін сөйлеуді жасайды. Бір ғана 15 секундтық үлгісі бар шағын модельдің эмоциялы әрі шынайы дауыстар жасай алатыны назар аударарлық.

Біз Voice Engine-ді алғаш рет 2022 жылдың соңында әзірледік және оны мәтінді сөйлеуге айналдыру API-ында⁠(жаңа терезеде ашылады) қолжетімді алдын ала орнатылған дауыстарға, сондай-ақ ChatGPT Voice және Read Aloud⁠ функцияларына қолдандық. Сонымен қатар, синтетикалық дауысты теріс пайдалану қаупіне байланысты, біз оны кеңірек шығаруға сақ әрі жан-жақты ойластырылған тәсілмен қарап отырмыз. Синтетикалық дауыстарды жауапкершілікпен енгізу және қоғамның осы жаңа мүмкіндіктерге қалай бейімделе алатыны туралы диалог бастағымыз келеді. Осы әңгімелер мен шағын ауқымды сынақтардың нәтижелеріне сүйене отырып, бұл технологияны ауқымды түрде енгізу керек пе, және енгізсек қалай енгізу керек деген жөнінде неғұрлым негізді шешім қабылдаймыз.

Voice Engine-нің алғашқы қолданылу мысалдары

Бұл технологияның ықтимал қолданыстарын жақсырақ түсіну үшін өткен жылдың соңында біз оны сенімді серіктестердің шағын тобымен жабық түрде сынай бастадық. Бұл топ әзірлеген қолданбалар бізге зор әсер қалдырды. Осындай шағын ауқымды енгізулер біздің тәсілімізді, қорғаныс шараларымызды және Voice Engine түрлі салаларда игілік үшін қалай қолданылуы мүмкін екені туралы ойымызды қалыптастыруға көмектесіп жатыр. Алғашқы мысалдардың бірнешеуі мыналар:

Оқи алмайтындар мен балаларға оқу кезінде көмек көрсету үшін алдын ала орнатылған дауыстармен мүмкін болатын ауқымнан кеңірек сөйлеушілерді білдіретін табиғи естілетін, эмоциялы дауыстарды қолдану. Балалардың академиялық жетістігіне арналған білім беру технологиясы компаниясы Age of Learning⁠(жаңа терезеде ашылады) мұны алдын ала жазылған дыбыстау контентін жасау үшін қолданып келеді. Сондай-ақ олар студенттермен өзара әрекеттесу үшін нақты уақыттағы жекелендірілген жауаптарды жасауға Voice Engine мен GPT‑4‑ті пайдаланады. Осы технологияның арқасында Age of Learning кеңірек аудиторияға арналған көбірек контент жасай алды.

Контентті аудару, мысалы видеолар мен подкасттарды, сонда авторлар мен бизнес әлемнің түкпір-түкпіріндегі адамдарға еркін түрде және өз дауыстарымен жете алады. Мұның алғашқы қолданушыларының бірі — HeyGen⁠(жаңа терезеде ашылады), ол корпоративтік клиенттерімен бірге өнім маркетингінен бастап сату демонстрацияларына дейінгі әртүрлі контент үшін тапсырысқа сай, адамға ұқсас аватарлар жасайтын AI визуалды сторителлинг платформасы. Олар Voice Engine-ді видео аудармасы үшін қолданады, соның арқасында сөйлеушінің дауысын бірнеше тілге аударып, жаһандық аудиторияға жете алады. Аударма үшін қолданылғанда, Voice Engine бастапқы сөйлеушінің төл акцентін сақтайды: мысалы, француз тілінде сөйлейтін адамның аудио үлгісімен ағылшын тілін жасау француз акцентімен сөйлеуді береді.

Жүктелуде...

Жаһандық қауымдастықтарға қол жеткізу, шалғай жерлерде маңызды қызметтерді көрсетуді жақсарту арқылы. Dimagi⁠(жаңа терезеде ашылады) емізетін аналарға кеңес беру сияқты түрлі маңызды қызметтерді ұсыну үшін қауымдық денсаулық сақтау қызметкерлеріне арналған құралдар жасап жатыр. Бұл қызметкерлердің дағдыларын дамытуға көмектесу үшін Dimagi Voice Engine мен GPT‑4‑ті пайдаланып, әр қызметкердің негізгі тілінде, соның ішінде суахилиде немесе Кенияда кең тараған, код-аралас Sheng сияқты бейресми тілдерде интерактивті кері байланыс береді.

Жүктелуде...

Сөйлей алмайтын адамдарға қолдау көрсету, мысалы, сөйлеуге әсер ететін жағдайлары бар адамдарға арналған терапиялық қолданбалар және оқу қажеттіліктері барларға арналған білім беру мүмкіндіктерін күшейту. Livox⁠(жаңа терезеде ашылады), AI негізіндегі баламалы коммуникация қолданбасы, мүмкіндігі шектеулі адамдардың қарым-қатынас жасауына мүмкіндік беретін кеңейтуші және баламалы коммуникация (AAC) құрылғыларын іске қосады. Voice Engine-ді пайдалану арқылы олар сөйлей алмайтын адамдарға көптеген тілде бірегей әрі роботқа ұқсамайтын дауыстар ұсына алады. Олардың пайдаланушылары өздерін жақсырақ көрсететін сөйлеу үлгісін таңдай алады, ал көптілді пайдаланушылар әр сөйлеу тілінде бірізді дауысты сақтай алады.

Жүктелуде...

Пациенттердің дауысын қалпына келтіруге көмектесу, кенеттен немесе үдемелі сөйлеу бұзылыстарынан зардап шегетіндер үшін. Brown University медицина мектебінің негізгі оқыту серіктесі болып табылатын, коммерциялық емес денсаулық сақтау жүйесі Lifespan⁠(жаңа терезеде ашылады) жанындағы Norman Prince Neurosciences Institute клиникалық контекстегі AI қолдану мүмкіндіктерін зерттеп жатыр. Олар Voice Engine-ді сөйлеу қабілетінің бұзылуы онкологиялық немесе неврологиялық себептерден болған адамдарға ұсынатын бағдарламаны пилоттық түрде іске асырып келеді. Voice Engine-ге соншалықты қысқа аудио үлгісі ғана қажет болғандықтан, дәрігерлер Fatima Mirza, Rohaid Ali және Konstantina Svokos мектеп жобасына түсірілген видеодағы аудионы пайдаланып, тамырлы ми ісігі салдарынан анық сөйлеу қабілетін жоғалтқан жас пациенттің дауысын қалпына келтіре алды.

Жүктелуде...

Voice Engine-ді қауіпсіз әзірлеу

Адамдардың дауысына ұқсас сөйлеуді жасау елеулі қауіптер туғызатынын түсінеміз, және бұл сайлау жылында әсіресе өзекті. Құрастыру барысында олардың пікірлерін ескеруіміз үшін біз АҚШ-тағы және халықаралық серіктестермен, соның ішінде мемлекеттік сектор, БАҚ, ойын-сауық, білім беру, азаматтық қоғам және өзге де салалар өкілдерімен жұмыс істеп жатырмыз. Бүгінде Voice Engine-ді сынап жатқан серіктестеріміз біздің пайдалану саясаттарымызға⁠ келісті, ал ол келісімсіз немесе заңды негізсіз басқа адамды не ұйымды кейіптеуге тыйым салады. Бұған қоса, бұл серіктестермен жасалған шарттарымыз бастапқы сөйлеушінің айқын және саналы келісімін талап етеді, әрі біз әзірлеушілерге жеке пайдаланушылардың өз дауыстарын жасауына мүмкіндік беретін тәсілдер құруға жол бермейміз. Сондай-ақ серіктестер аудиториясына естіп тұрған дауыстардың AI арқылы жасалғанын анық көрсетуі тиіс. Соңында, біз қауіпсіздік шараларының жиынтығын енгіздік, соның ішінде Voice Engine жасаған кез келген аудионың шығу тегін анықтауға арналған сутаңбалау, сондай-ақ оның қалай қолданылып жатқанын проактивті бақылау бар. Біздің ойымызша, синтетикалық дауыс технологиясын кеңінен енгізу бастапқы сөйлеушінің өз дауысын қызметке саналы түрде қосып жатқанын растайтын дауыс аутентификациясымен және танымал тұлғаларға тым ұқсас дауыстардың жасалуын анықтап, болдырмайтын тыйым салынған дауыстар тізімімен қатар жүруі керек.

Алға көзқарас

Voice Engine — техникалық озық шепті түсінуге және AI көмегімен не мүмкін болып жатқанын ашық бөлісуге деген ұстанымымыздың жалғасы. Біздің AI қауіпсіздігіне көзқарасымызға⁠ және ерікті міндеттемелерімізге⁠ сай, біз бұл технологияны қазір кеңінен шығармай, тек алдын ала көрсетуді таңдадық. Voice Engine-нің бұл алдын ала көрсетілімі оның әлеуетін айқындап қана қоймай, барған сайын нанымды бола түсетін генеративті модельдер әкелетін сын-қатерлерге қарсы қоғамның төзімділігін күшейту қажеттігін де көрсетеді деп үміттенеміз. Атап айтқанда, мынадай қадамдарды құптаймыз:

Банк шоттарына және басқа да сезімтал ақпаратқа қол жеткізудегі қауіпсіздік шарасы ретінде дауысқа негізделген аутентификациядан біртіндеп бас тарту
AI жүйелерінде адамдар даусын пайдалануды қорғауға арналған саясаттарды қарастыру
Жұртшылықты AI технологияларының мүмкіндіктері мен шектеулерін, соның ішінде алдамшы AI контентінің болуы мүмкін екенін түсінуге үйрету
Аудиовизуал контенттің шығу тегін қадағалау тәсілдерін әзірлеу мен енгізуді жеделдету, сонда сіздің шынайы адаммен әлде AI-мен әрекеттесіп жатқаныңыз әрдайым анық болады

Түптің түбінде бұл технологияны өзіміз кеңінен енгізсек те, енгізбесек те, әлемдегі адамдар оның қай бағытта дамып бара жатқанын түсінуі маңызды. Синтетикалық дауыстардың сын-қатерлері мен мүмкіндіктері туралы саясаткерлермен, зерттеушілермен, әзірлеушілермен және шығармашылық қауыммен пікірталастарды жалғастыруды асыға күтеміз.

Қатысты мақалалар

Барлығын қарау

Video generation models as world simulators

Жарияланым2024 ж. 15 ақп.

Building an early warning system for LLM-aided biological threat creation

Жарияланым2024 ж. 31 қаң.

Weak-to-strong generalization

Қауіпсіздік2023 ж. 14 жел.