2024 ж. 7 маусым

Voice Engine қалай жұмыс істейтіні және қауіпсіздік зерттеулеріміз туралы толығырақ

Мәтінді сөйлеуге айналдыратын моделіміздің артындағы технологияны зерттеу.

Қызғылт, қызғылт сары, күлгін және жасыл түстер араласқан пастель реңктердегі абстракт картина, жарқын пейзажды елестетеді.

Жүктелуде…

Баршаға прогресіміз туралы хабарлап отыру үшін Voice Engine қалай жұмыс істейтіні және қауіпсіздік зерттеулеріміз туралы көбірек мәлімет беріп отырмыз. Voice Engine — теңшелетін дауыстар жасай алатын модель.

Бұл технологияның қай бағытта бара жатқанын әлемдегі адамдардың түсінуі маңызды, біз оны ақырында өзіміз кеңінен енгізсек те, енгізбесек те. Сондықтан модель қалай жұмыс істейтінін, оны зерттеу мен білім беру үшін қалай қолданатынымызды және оның айналасында қауіпсіздік шараларын қалай іске асырып жатқанымызды түсіндіргіміз келеді. Voice Engine әзірге кең қолжетімді емес.

Voice Engine қалай жұмыс істейді

Дауыс мүмкіндігі text-to-speech (TTS) моделімен іске асады, ол тек мәтін мен 15 секундтық сөйлеу үлгісінен адамға ұқсас аудио жасай алады.

TTS жүйесі модельге аудио мен транскрипция жұптары арқылы сөйлеудің нәзік қырларын түсіндіру арқылы әзірленеді. Модель берілген мәтін транскрипті үшін сөйлеуші шығаратын ең ықтимал дыбыстарды, әртүрлі дауыстарды, акценттерді және сөйлеу мәнерлерін ескере отырып, болжауды үйренеді. Осыдан кейін модель мәтіннің тек айтылған нұсқаларын ғана емес, сонымен бірге әртүрлі типтегі сөйлеушілер оны қалай айтатынын көрсететін ауызша айтылымдарды да жасай алады.

Одан кейін TTS моделімен аудио жасау үшін сөйлеушіден тек 15 секундтық үлгі мен соған сәйкес мәтін қажет. Модель нақты бір сөйлеушіге арнап fine-tune жасалмайды, модельді теңшеу қолданылмайды. Оның орнына ол диффузия үдерісін пайдаланады: кездейсоқ шудан бастап, оны біртіндеп тазартып, 15 секундтық аудио үлгідегі сөйлеушінің мәтінді қалай айтатынына барынша жақындатады.

Біз бұл модельді бір жылдан астам уақыт бойы әзірлеп келеміз

Біз Voice Engine-ді алғаш рет 2022 жылдың соңында әзірледік. Бастапқы кезеңде Voice Engine модельінің мүмкіндіктері мен шектеулерін бағалау үшін оны ашық және жеке дауыс үлгілерінің қоспасымен ішкі түрде сынадық. Бұл ішкі прототип сәйкестендіру және қауіпсіздік зерттеулеріміз үшін маңызды болды, қорғаныс шараларымызды қалыптастыруға көмектесті және техникалық озық шекті түсінуге деген ұстанымымыздың жалғасы болды.

Маңыздысы, бұл нәтижелер тек ішкі тестілеуге арналды, өнімдерімізді іске қосатын модельдерді оқыту үшін қолданылған жоқ.

Итеративті енгізу негіздемеміздің бір бөлігі ретінде, бұл ерте прототип синтетикалық дауыс модельдерінің мүмкіндіктерін саясаткерлерге түсіндіруге де пайдалы болды. Мысалы, өткен жаздан бастап біз жаһандық жоғары деңгейдегі саясаткерлерге технологияның әлеуетін көрсетіп, олармен байланысты тәуекелдерді талқыладық.

2023 жылдың қыркүйегінде⁠, біз ChatGPT‑тің дауыс режимі мүмкіндігін іске қосу үшін Voice Engine-ді қолдандық. Бұл мүмкіндіктер жаңа тәуекелдер де туғызғандықтан, біз оны тек осы нақты қолдану жағдайы үшін ғана іске қостық. Дауыс режимі тек нақты дауыстардан жасалды, олар мұқият таңдалып⁠, 2023 жылғы мамырда басталған және кәсіби дауыс актерлері, талант агенттіктері, кастинг директорлары мен салалық кеңесшілер қатысқан егжей-тегжейлі үдеріс арқылы іріктелді.

2023 жылдың қарашасында⁠, біз Voice Engine негізіндегі қарапайым TTS API⁠(жаңа терезеде ашылады)-ды да шығардық. Біз тағы бір шектеулі шығарылымды таңдадық, онда кәсіби дауыс актерлерімен бірге API-дегі алдын ала орнатылған алты дауыстың әрқайсысын іске қосу үшін 15 секундтық аудио үлгілер жасадық. Әзірлеушілер бұларды, мысалы, блог жазбаларын дауыстап оқыту үшін өз веб-сайттарына енгізе алады.

Биылғы наурызда⁠, біз сенімді серіктестердің шағын тобымен Voice Engine-нің теңшелетін дауыстар жасау мүмкіндігін алдын ала көрсеттік. Бұл бастама синтетикалық дауыстардың мүмкіндіктері туралы хабардарлықты арттыруға және келесі мақсаттарды қолдауға бағытталды:

Банк шоттарына және басқа да сезімтал ақпаратқа қол жеткізудегі қауіпсіздік шарасы ретінде дауысқа негізделген аутентификациядан кезең-кезеңімен бас тарту
AI жүйелерінде адамдар дауысының қолданылуын қорғау саясаттарын зерттеу
Жұртшылықты AI технологияларының мүмкіндіктері мен шектеулерін, соның ішінде алдамшы AI контентінің болуы мүмкін екенін түсінуге үйрету
Аудиовизуал контенттің шығу тегін қадағалау тәсілдерін әзірлеу мен енгізуді жеделдету, сонда сіздің нақты адаммен бе, әлде AI-мен бе өзара әрекеттесіп жатқаныңыз әрдайым анық болады

Бұл шағын ауқымды енгізулер түрлі салаларда Voice Engine-ді игілікке қалай қолдануға болатыны жөніндегі көзқарасымызды, қорғаныс шараларымызды және пайымымызды қалыптастыруға да көмектесіп жатыр.

Voice Engine-ді қауіпсіз жасау — басты басымдық

Құрастыру барысында олардың пікірлерін ескеріп отырғанымызға көз жеткізу үшін АҚШ-тағы және халықаралық серіктестермен үкімет, медиа, ойын-сауық, білім беру, азаматтық қоғам және өзге де салалар бойынша жұмысты жалғастырып келеміз.

Voice Engine-ді сынап жатқан серіктестер келісімсіз біреудің атынан сөйлеуге тыйым салатын, бастапқы сөйлеушінің нақты рұқсатын талап ететін және AI жасаған кез келген дауыстың сондай екені тыңдаушыларға ашық хабарлануын міндеттейтін пайдалану саясаттарына келісті. Сонымен қатар, технологияны пайдалануды қадағалау және бақылау үшін сутаңбалау мен проактивті мониторинг сияқты қауіпсіздік шаралары⁠ енгізілген.

Болашақтағы синтетикалық дауыс қауіпсіздігі

GPT‑4o сияқты, дыбыспен табиғи жұмыс істей алатын омнимодельдер Voice Engine сияқты бұрынғы модельдер жасай алмаған жаңа өзара әрекеттесулерге жол ашады. Сонымен қатар, GPT‑4o‑ның аудио модальдігі бірнеше жаңа тәуекел әкелетінін, әсіресе дауыс жасауда, мойындаймыз. Біз GPT‑4o‑ны әлеуметтік психология, біржақтылық пен әділдік, сондай-ақ жалған ақпарат сияқты түрлі салаларда белгілі әрі күтпеген тәуекелдерді анықтап, шешу үшін белсенді түрде red teaming арқылы тексеріп жатырмыз. Біз модель мінез-құлқын жетілдіру, GPT‑4o архитектурасына бар мәтінге негізделген жүйелерді бейімдеу және жаңа классификаторлар әзірлеу сияқты қорғаныс шараларының бірнеше қабатын құрып жатырмыз.

Voice Engine-ді шығарудағы сақ тәсілімізге сай, жалпы қолжетімді шығарылым үшін GPT‑4o‑ның аудио шығыстарын алдын ала орнатылған дауыстардың таңдамалы жиынтығымен шектейміз. Бұл дауыстар мұқият ойластырылған кастинг үдерісі арқылы таңдалған кәсіби дауыс актерлерінен алынды. Алдағы GPT‑4o жүйе картасында аудиоға қатысты тәуекелдер мен қорғаныс шаралары туралы қосымша ақпаратпен бөлісеміз.

Автор

OpenAI