29 Machi 2024

Kukabiliana na Changamoto na Fursa za Sauti za Bandia

Tunashiriki mafunzo kutoka kwa onyesho la awali la kiwango kidogo la Voice Engine, muundo wa kuunda sauti maalum.

Inapakia…

OpenAI imejitolea kutengeneza AI salama na yenye manufaa mapana⁠. Leo tunashiriki maarifa na matokeo ya awali kutoka kwa onyesho la awali la kiwango kidogo la muundo unaoitwa Voice Engine, unaotumia uingizaji maandishi na sampuli moja ya sauti ya sekunde 15 ili kutoa usemi wenye sauti ya asili unaofanana kwa karibu na mzungumzaji wa asili. Inajulikana kuwa muundo mdogo wenye sampuli moja ya sekunde 15 unaweza kuunda sauti zenye hisia na uhalisia.

Tulitengeneza Voice Engine kwa mara ya kwanza mwishoni mwa 2022, na tumeitumia kuwezesha sauti zilizowekwa tayari zinazopatikana katika API ya kubadilisha maandishi kuwa sauti⁠(fungua katika dirisha jipya) pamoja na Zungumza na ChatGPT na Soma kwa Sauti⁠. Wakati huo huo, tunachukua mbinu ya tahadhari na yenye ufahamu kuhusu utoaji mpana zaidi kutokana na uwezekano wa matumizi mabaya ya sauti bandia. Tunatumai kuanza mazungumzo kuhusu usambazaji wa sauti bandia kwa uwajibikaji na jinsi jamii inavyoweza kuzoea uwezo huu mpya. Kulingana na mazungumzo haya na matokeo ya majaribio haya madogo, tutafanya uamuzi wenye ufahamu zaidi kuhusu jinsi na kama tutasambaza teknolojia hii kwa kiwango kikubwa.

Matumizi ya awali ya Voice Engine

Ili kuelewa vyema matumizi yanayowezekana ya teknolojia hii, mwishoni mwa mwaka jana tulianza kuijaribu kwa faragha na kikundi kidogo cha washirika wanaoaminika. Tumevutiwa na programu ambazo kikundi hiki kimetengeneza. Utekelezaji huu wa kiwango kidogo unatusaidia kutoa taarifa zitakazoboresha mbinu yetu, ulinzi na mtazamo wetu kuhusu jinsi Voice Engine inaweza kutumika kwa manufaa katika sekta mbalimbali. Baadhi ya mifano ya mapema ni pamoja na:

Kutoa usaidizi wa kusoma kwa wasiojua kusoma na watoto kupitia sauti ambazo ni kama za asili na zenye hisia, zinazowakilisha aina mbalimbali za wasemaji kuliko inavyowezekana kwa sauti zilizowekwa awali. Age of Learning⁠(fungua katika dirisha jipya), kampuni ya teknolojia ya elimu inayojitolea kwa mafanikio ya kitaaluma ya watoto, imekuwa ikitumia hii kutoa maudhui ya sauti yaliyoandaliwa mapema. Pia wanatumia Voice Engine na GPT‑4 kutengeneza majibu ya papo hapo na ya kibinafsi kwa ajili ya kuwasiliana na wanafunzi. Kwa teknolojia hii, Age of Learning imeweza kuunda maudhui zaidi kwa hadhira pana zaidi.

Kutafsiri maudhui, kama vile video na podikasti, ili wabunifu na wanabiashara waweze kuwafikia watu wengi zaidi duniani kote kwa ufasaha na kwa kutumia sauti zao wenyewe. Mmoja wa waliotumia hii mapema ni HeyGen⁠(fungua katika dirisha jipya), jukwaa la kusimulia hadithi kwa kutumia picha za AI ambalo hufanya kazi na wateja wake wa makampuni kuunda avatar maalum zinazofanana na binadamu kwa aina mbalimbali za maudhui, kuanzia uuzaji wa bidhaa hadi maonyesho ya mauzo. Wanatumia Voice Engine kutafsiri video, ili waweze kutafsiri sauti ya mzungumzaji katika lugha nyingi na kufikia hadhira ya kimataifa. Inapotumiwa kwa kutafsiri, Voice Engine huhifadhi lafudhi asilia ya msemaji wa asili: kwa mfano, kutoa Kiingereza kwa kutumia sampuli ya sauti ya mzungumzaji wa Kifaransa kutatokeza usemi wenye lafudhi ya Kifaransa.

Inapakia...

Kufikia jamii za kimataifa, kwa kuboresha utoaji wa huduma muhimu katika maeneo ya mbali. Dimagi⁠(fungua katika dirisha jipya) inatengeneza zana kwa ajili ya wahudumu wa afya ya jamii ili kutoa huduma mbalimbali muhimu kama vile ushauri nasaha kwa akina mama wanaonyonyesha. Ili kuwasaidia wafanyakazi hawa kukuza ujuzi wao, Dimagi hutumia Voice Engine na GPT‑4 kutoa maoni shirikishi katika lugha kuu ya kila mfanyakazi ikiwemo Kiswahili au lugha zisizo rasmi kama vile Sheng, lugha ya mchanganyiko ambayo ni maarufu nchini Kenya.

Inapakia...

Kusaidia watu wasio na uwezo wa kuzungumza, kama vile programu za tiba kwa watu wenye hali zinazoathiri usemi na uboreshaji wa kielimu kwa wale wenye mahitaji ya kujifunza. Livox⁠(fungua katika dirisha jipya), programu mbadala ya mawasiliano ya AI, inawezesha vifaa vya Mawasiliano ya Kuongeza Ubora na Mbadala (AAC) vinavyowawezesha watu wenye ulemavu kuwasiliana. Kwa kutumia Voice Engine, wanaweza kuwapa watu wasio na uwezo wa kuzungumza sauti za kipekee na zisizo za roboti katika lugha nyingi. Watumiaji wao wanaweza kuchagua usemi unaowawakilisha vyema, na kwa watumiaji wa lugha nyingi, kudumisha sauti thabiti katika kila lugha inayozungumzwa.

Inapakia...

Kuwasaidia wagonjwa kurejesha sauti zao, kwa wale wanaosumbuliwa na matatizo ya ghafla ya usemi au yanayozidi kuzorota. Taasisi ya Sayansi ya Ubongo ya Norman Prince katika Lifespan⁠(fungua katika dirisha jipya), mfumo wa afya usio wa kibiashara ambao ni mshirika mkuu wa kufundishia wa shule ya udaktari ya Brown University, inachunguza matumizi ya AI katika muktadha wa kliniki. Wamekuwa wakijaribu programu inayotoa Voice Engine kwa watu wenye sababu za saratani au neva zinazosababisha ulemavu wa usemi. Kwa kuwa Voice Engine inahitaji sampuli fupi sana ya sauti, madaktari Fatima Mirza, Rohaid Ali na Konstantina Svokos waliweza kurejesha sauti ya mgonjwa mchanga aliyepoteza uwezo wake wa kuzungumza kwa ufasaha kutokana na uvimbe wa mishipa ya damu kwenye ubongo, kwa kutumia sauti kutoka kwenye video iliyorekodiwa kwa ajili ya mradi wa shule.

Inapakia...

Kujenga Voice Engine kwa usalama

Tunatambua kwamba kutoa usemi unaofanana na sauti za watu kuna hatari kubwa, ambazo zinazingatiwa sana hasa katika mwaka wa uchaguzi. Tunashirikiana na washirika wa Marekani na wa kimataifa kutoka serikalini, vyombo vya habari, burudani, elimu, asasi za kiraia na zaidi ili kuhakikisha kwamba tunajumuisha maoni yao tunapojenga. Washirika wanaojaribu Voice Engine leo wamekubali sera zetu za matumizi⁠, ambazo zinakataza uigaji wa mtu mwingine au shirika lingine bila idhini au haki ya kisheria. Zaidi ya hayo, masharti yetu na washirika hawa yanahitaji idhini ya wazi na yenye ufahamu kutoka kwa mzungumzaji wa asili na hatuwaruhusu wasanidi programu kutengeneza njia za watumiaji binafsi kuunda sauti zao wenyewe. Washirika lazima pia wafichue wazi kwa hadhira yao kwamba sauti wanazosikia zinatokana na AI. Hatimaye, tumetekeleza seti ya hatua za usalama, ikiwemo kuweka alama ya kutambulisha (watermark) ili kufuatilia asili ya sauti yoyote inayozalishwa na Voice Engine, pamoja na ufuatiliaji makini wa jinsi inavyotumiwa. Tunaamini kwamba usambazaji wowote mpana wa teknolojia ya sauti bandia unapaswa kuambatana na uzoefu wa uthibitishaji wa sauti unaothibitisha kwamba mzungumzaji wa asili anaongeza sauti yake kimakusudi kwenye huduma pamoja na orodha ya sauti zisizoruhusiwa ambayo hutambua na kuzuia utengenezaji wa sauti zinazofanana sana na watu maarufu.

Kuangalia mbele

Voice Engine ni mwendelezo wa dhamira yetu ya kuelewa mpaka wa kiufundi na kushiriki wazi wazi kile kinachowezekana na AI. Sambamba na mbinu yetu ya usalama wa AI⁠ na ahadi zetu za hiari⁠, tunachagua kutoa onyesho la awali lakini hatutaitoa teknolojia hii kwa umma kwa sasa. Tunatumai kwamba onyesho hili la awali la Voice Engine linaangazia uwezo wake na pia linachochea hitaji la kuimarisha ustahimilivu wa jamii dhidi ya changamoto zinazoletwa na miundo ya uzalishaji inayoshawishi zaidi. Hasa, tunahimiza hatua kama vile:

Kuondoa uthibitishaji wa sauti kama hatua ya usalama wa kufikia akaunti za benki na taarifa zingine nyeti
Kuchunguza sera za kulinda matumizi ya sauti za watu binafsi katika AI
Kuelimisha umma kuelewa uwezo na mapungufu ya teknolojia za AI, ikiwemo uwezekano wa maudhui ya udanganyifu ya AI
Kuharakisha ukuzaji na utumiaji wa mbinu za kufuatilia asili ya maudhui ya sauti na taswira, ili iwe wazi kila wakati unapowasiliana na mtu halisi au na AI

Ni muhimu watu kote ulimwenguni waelewe teknolojia hii inaelekea wapi, iwe tutaisambaza kwa upana sisi wenyewe au la. Tunatarajia kuendelea kushiriki katika mazungumzo kuhusu changamoto na fursa za sauti bandia pamoja na watunga sera, watafiti, wasanidi programu na wabunifu.

Makala yanayohusiana

Tazama zote

Video generation models as world simulators

Uchapishaji15 Feb 2024

Building an early warning system for LLM-aided biological threat creation

Uchapishaji31 Jan 2024

Weak-to-strong generalization

Usalama14 Des 2023