29 մարտի, 2024 թ.

Սինթետիկ ձայների մարտահրավերների և հնարավորությունների հաղթահարում

Մենք կիսվում ենք Voice Engine-ի՝ սեփական ձայներ ստեղծելու մոդելի, փոքրածավալ նախադիտման դասերով։

Բեռնվում է…

OpenAI-ը հանձնառու է զարգացնել անվտանգ և լայնորեն շահավետ ԱԲ⁠. Այսօր մենք կիսվում ենք Voice Engine կոչվող մոդելի փոքրածավալ նախադիտումից ստացված նախնական դիտարկումներով և արդյունքներով, որը օգտագործում է տեքստային մուտքագրում և մեկ 15 վայրկյանանոց աուդիո նմուշ՝ բնական հնչողությամբ խոսք գեներացնելու համար, որը սերտորեն նման է սկզբնական խոսողին։ Հատկանշական է, որ մեկ 15-վայրկյանանոց նմուշով փոքր մոդելը կարող է ստեղծել հուզական և իրատեսական ձայներ։

Մենք առաջին անգամ մշակեցինք Voice Engine-ը 2022 թվականի վերջին և այն օգտագործել ենք՝ սնուցելու տեքստից խոսքի API⁠(բացվում է նոր պատուհանում) -ում հասանելի նախապես սահմանված ձայները, ինչպես նաև ChatGPT Voice և Read Aloud⁠-ը։ Միևնույն ժամանակ, սինթետիկ ձայնի չարաշահման հնարավորության պատճառով մենք ցուցաբերում ենք զգուշավոր և տեղեկացված մոտեցում ավելի լայն թողարկման հարցում։ Մենք հույս ունենք սկսել երկխոսություն սինթետիկ ձայների պատասխանատու տեղակայման շուրջ և այն մասին, թե ինչպես կարող է հասարակությունը հարմարվել այս նոր հնարավորություններին։ Այս խոսակցությունների և այս փոքր մասշտաբի թեստերի արդյունքների հիման վրա մենք ավելի տեղեկացված որոշում կկայացնենք՝ արդյոք և ինչպես մասշտաբով տեղակայել այս տեխնոլոգիան։

Voice Engineüի վաղ կիրառությունները

Այս տեխնոլոգիայի հնարավոր կիրառությունները ավելի լավ հասկանալու համար, անցյալ տարվա վերջին մենք սկսեցինք այն մասնավոր կերպով փորձարկել վստահելի գործընկերների փոքր խմբի հետ։ Մենք տպավորված ենք եղել այս խմբի մշակած հավելվածներով։ Այս փոքր մասշտաբի տեղակայումները օգնում են ձևավորել մեր մոտեցումը, պաշտպանական միջոցները և մեր մտածողությունը՝ այն մասին, թե ինչպես կարող է Voice Engine-ը օգտագործվել բարօրության համար տարբեր ոլորտներում։ Մի քանի վաղ օրինակներ ներառում են՝

Ընթերցանության աջակցություն տրամադրելը չկարդացողներին և երեխաներին՝ բնական հնչող, հուզական ձայների միջոցով, որոնք ներկայացնում են խոսնակների ավելի լայն շրջանակ, քան հնարավոր է նախապես սահմանված ձայներով։ Age of Learning⁠(բացվում է նոր պատուհանում)-ը՝ կրթական տեխնոլոգիաների ընկերություն, որը նվիրված է երեխաների ակադեմիական հաջողությանը, սա օգտագործում է՝ նախապես գրված ձայնային ուղեկցման բովանդակություն գեներացնելու համար։ Նրանք նաև օգտագործում են Voice Engine-ը և GPT‑4‑ը՝ ուսանողների հետ փոխազդելու համար իրական ժամանակում անհատականացված պատասխաններ ստեղծելու համար։ Այս տեխնոլոգիայի շնորհիվ Age of Learning-ը կարողացել է ստեղծել ավելի շատ բովանդակություն ավելի լայն լսարանի համար։

Բովանդակության թարգմանություն, օրինակ՝ տեսանյութերի և փոդքաստների, որպեսզի ստեղծողները և բիզնեսները կարողանան հասնել ավելի շատ մարդկանց ամբողջ աշխարհում՝ սահուն և իրենց սեփական ձայներով։ Սրա վաղ կիրառողներից մեկը HeyGen-ն⁠(բացվում է նոր պատուհանում) է՝ արհեստական ինտելեկտի վիզուալ պատմությունների հարթակ, որը համագործակցում է իր ձեռնարկությունների հաճախորդների հետ՝ ստեղծելու մարդանման ավատարներ բազմազան բովանդակության համար՝ սկսած ապրանքային մարքեթինգից մինչև վաճառքի ցուցադրություններ։ Նրանք օգտագործում են Voice Engine-ը տեսանյութերի թարգմանության համար, որպեսզի կարողանան խոսողի ձայնը թարգմանել մի քանի լեզուներով և հասնել գլոբալ լսարանի։ Երբ օգտագործվում է թարգմանության համար, Voice Engine-ը պահպանում է սկզբնական խոսնակի մայրենի առոգանությունը. օրինակ՝ ֆրանսիացի խոսնակի աուդիո նմուշով անգլերեն գեներացնելը կստեղծի խոսք՝ ֆրանսիական առոգանությամբ։

Բեռնվում է...

Հասնելով գլոբալ համայնքներին, բարելավելով կարևոր ծառայությունների մատուցումը հեռավոր պայմաններումÉ Dimagi⁠(բացվում է նոր պատուհանում)-ն ստեղծում է գործիքներ համայնքային Առողջություն աշխատողների համար՝ տարբեր կարևոր ծառայություններ մատուցելու նպատակով, օրինակ՝ կրծքով կերակրող մայրերին խորհրդատվություն տրամադրելու համար։ Այս աշխատողներին օգնելու համար զարգացնել իրենց հմտությունները՝ Dimagi-ն օգտագործում է Voice Engine-ը և GPT‑4‑ը՝ յուրաքանչյուր աշխատողի հիմնական լեզվով ինտերակտիվ հետադարձ կապ տրամադրելու համար, ներառյալ սուահիլին կամ ավելի ոչ պաշտոնական լեզուներ, ինչպիսիք են շենգը՝ կոդախառն լեզու, որը տարածված է Քենիայում։

Բեռնվում է...

Աջակցություն ոչ վերբալ մարդկանց, օրինակ՝ թերապևտիկ հավելվածներ խոսքի վրա ազդող վիճակներ ունեցող անհատների համար և կրթական բարելավումներ՝ ուսուցման կարիքներ ունեցողների համար։ Livox-ը⁠(բացվում է նոր պատուհանում) ՝ արհեստական ինտելեկտի այլընտրանքային հաղորդակցման հավելվածը, սնուցում է լրացողական և այլընտրանքային հաղորդակցման (AAC) սարքերը, որոնք թույլ են տալիս հաշմանդամություն ունեցող մարդկանց շփվել։ Voice Engine-ի օգտագործմամբ նրանք կարողանում են ոչ խոսող մարդկանց առաջարկել եզակի և ոչ ռոբոտային ձայներ՝ բազմաթիվ լեզուներով։ Նրանց օգտատերերը կարող են ընտրել այն ձայնը, որը լավագույնս ներկայացնում է իրենց, իսկ բազմալեզու օգտատերերի համար՝ պահպանել հետևողական ձայն յուրաքանչյուր խոսվող լեզվի համար։

Բեռնվում է...

Օգնելով հիվանդներին վերականգնել իրենց ձայնը, նրանց համար, ովքեր տառապում են հանկարծակի կամ դեգեներատիվ խոսքի խանգարումներից։ Նորման Փրինս նյարդագիտությունների ինստիտուտը՝ Lifespan⁠(բացվում է նոր պատուհանում)-ում, շահույթ չհետապնդող առողջապահական համակարգ, որը ծառայում է որպես Բրաունի համալսարանի բժշկական դպրոցի հիմնական ուսուցողական գործընկեր, ուսումնասիրում է արհեստական բանականության կիրառությունները կլինիկական համատեքստերում։ Նրանք փորձարկում են ծրագիր, որը Voice Engine-ն առաջարկում է խոսքի խանգարում ունեցող՝ ուռուցքաբանական կամ նյարդաբանական էթիոլոգիաներով անհատներին։ Քանի որ Voice Engine-ը պահանջում է այդքան կարճ աուդիո նմուշ, բժիշկներ Ֆատիմա Միրզան, Ռոհաիդ Ալին և Կոնստանտինա Սվոկոսը կարողացան վերականգնել մի երիտասարդ հիվանդի ձայնը, որը կորցրել էր իր սահուն խոսքը անոթային ուղեղի ուռուցքի պատճառով՝ օգտագործելով դպրոցական նախագծի համար ձայնագրված տեսանյութի աուդիոն։

Բեռնվում է...

Ձայնային շարժիչի անվտանգ կառուցում

Մենք գիտակցում ենք, որ մարդկանց ձայներին նմանվող խոսքի գեներացումը լուրջ ռիսկեր ունի, որոնք հատկապես կարևոր են ընտրությունների տարում։ Մենք համագործակցում ենք ԱՄՆ-ի և միջազգային գործընկերների հետ՝ կառավարության, մեդիայի, ժամանցի, կրթության, քաղաքացիական հասարակության և այլ ոլորտներից, որպեսզի ապահովենք, որ մեր կառուցման ընթացքում ներառում ենք նրանց կարծիքները։ Այսօր Voice Engine-ը փորձարկող գործընկերները համաձայնել են մեր օգտագործման կանոններին⁠, որոնք արգելում են այլ անհատի կամ կազմակերպության կերպարանքով հանդես գալը՝ առանց համաձայնության կամ օրինական իրավունքի։ Բացի այդ, այս գործընկերների հետ մեր պայմանները պահանջում են հստակ և տեղեկացված համաձայնություն սկզբնական խոսողից, և մենք թույլ չենք տալիս ծրագրավորողներին ստեղծել եղանակներ, որպեսզի առանձին օգտատերերը կարողանան ստեղծել իրենց սեփական ձայները։ Գործընկերները պետք է նաև իրենց լսարանին հստակ բացահայտեն, որ իրենց լսած ձայները ԱԲ-ի կողմից գեներացված են։ Վերջապես, մենք ներդրել ենք անվտանգության միջոցառումների մի շարք, ներառյալ ջրանշանավորումը՝ Voice Engine-ի կողմից գեներացված ցանկացած աուդիոյի ծագումը հետագծելու համար, ինչպես նաև դրա օգտագործման պրոակտիվ մոնիտորինգը։ Մենք կարծում ենք, որ սինթետիկ ձայնային տեխնոլոգիայի ցանկացած լայնածավալ կիրառումը պետք է ուղեկցվի ձայնի նույնականացման փորձառություններով, որոնք հաստատում են, որ սկզբնական խոսողը գիտակցաբար ավելացնում է իր ձայնը ծառայությանը, ինչպես նաև արգելված ձայների ցուցակով, որը հայտնաբերում և կանխում է այնպիսի ձայների ստեղծումը, որոնք չափազանց նման են հանրահայտ անձանց ձայներին։

Նայելով դեպի ապագա

Voice Engine-ը մեր հանձնառության շարունակությունն է՝ հասկանալու տեխնիկական առաջադեմը և բաց կերպով կիսվելու այն ամենով, ինչը դառնում է հնարավոր ԱԲ-ի միջոցով։ Համաձայն մեր ԱԲ անվտանգության մոտեցման⁠ և մեր կամավոր պարտավորությունների⁠, մենք այս պահին ընտրում ենք նախադիտում տրամադրել, բայց այս տեխնոլոգիան լայնորեն չթողարկել։ Հուսով ենք, որ Voice Engine-ի այս նախադիտումը թե՛ ընդգծում է դրա ներուժը, թե՛ նաև խթանում է հասարակության դիմակայունությունը ամրապնդելու անհրաժեշտությունը՝ ավելի ու ավելի համոզիչ գեներատիվ մոդելների կողմից բերվող մարտահրավերների դեմ։ Մասնավորապես, մենք խրախուսում ենք հետևյալ քայլերը, ինչպիսիք են՝

Ձայնային նույնականացման փուլային դադարեցում՝ որպես անվտանգության միջոց՝ բանկային հաշիվներին և այլ զգայուն տեղեկատվությանը հասանելիություն ստանալու համար
ԱԲ-ում անհատների ձայների օգտագործումը պաշտպանելու քաղաքականությունների ուսումնասիրում
Հանրությանը կրթել՝ հասկանալու ԱԲ տեխնոլոգիաների հնարավորություններն ու սահմանափակումները, ներառյալ խաբուսիկ ԱԲ բովանդակության հնարավորությունը
Արագացնել տեսալսողական բովանդակության ծագումը հետևելու տեխնիկաների մշակումը և ընդունումը, որպեսզի միշտ պարզ լինի՝ դուք շփվում եք իրական մարդու հետ, թե արհեստական բանականության (ԱԲ) հետ։

Կարևոր է, որ մարդիկ ամբողջ աշխարհում հասկանան, թե ուր է ուղղվում այս տեխնոլոգիան՝ անկախ նրանից՝ մենք ի վերջո այն լայնորեն կկիրառենք ինքներս, թե ոչ։ Մենք անհամբեր սպասում ենք շարունակել քննարկումները քաղաքականություն մշակողների, հետազոտողների, ծրագրավորողների և ստեղծագործողների հետ՝ սինթետիկ ձայների մարտահրավերների և հնարավորությունների շուրջ։

Առնչվող հոդվածներ

Դիտել բոլորը

Video generation models as world simulators

Հրատարակություն15 փտվ, 2024 թ.

Building an early warning system for LLM-aided biological threat creation

Հրատարակություն31 հնվ, 2024 թ.

Weak-to-strong generalization

Անվտանգություն14 դեկ, 2023 թ.