Navigazzjoni tal-Isfidi u l-Opportunitajiet tal-Ilħna Sintetiċi
Qed naqsmu tagħlimiet minn preview fuq skala żgħira ta’ Voice Engine, mudell għall-ħolqien ta’ vuċijiet personalizzati.
OpenAI hija impenjata lejn l-iżvilupp ta’ AI sigura u ta’ benefiċċju wiesa’. Illum qed naqsmu għarfien u riżultati preliminari minn preview fuq skala żgħira ta’ mudell imsejjaħ Voice Engine, li juża input ta’ test u kampjun awdjo wieħed ta’ 15-il sekonda biex jiġġenera diskors li jinstema’ naturali u li jixbah ħafna lill-kelliem oriġinali. Ta’ min jinnota li mudell żgħir b’kampjun wieħed ta’ 15-il sekonda jista’ joħloq ilħna espressivi u realistiċi.
L-ewwel żviluppajna Voice Engine lejn tmiem l-2022, u użajnieh biex inħaddmu l-ilħna preset disponibbli fil-text-to-speech API(jinfetaħ f’tieqa ġdida) kif ukoll ChatGPT Voice and Read Aloud. Fl-istess ħin, qed nieħdu approċċ kawt u informat lejn rilaxx usa’ minħabba l-potenzjal għal użu ħażin ta’ vuċi sintetika. Nittamaw li nibdew djalogu dwar it-tixrid responsabbli tal-ilħna sintetiċi, u kif is-soċjetà tista’ tadatta għal dawn il-kapaċitajiet ġodda. Abbażi ta’ dawn il-konversazzjonijiet u r-riżultati ta’ dawn it-testijiet fuq skala żgħira, se nieħdu deċiżjoni aktar informata dwar jekk u kif inxerrdu din it-teknoloġija fuq skala kbira.
Biex nifhmu aħjar l-użi potenzjali ta’ din it-teknoloġija, lejn l-aħħar tas-sena l-oħra bdejna nittestjawha privatament ma’ grupp żgħir ta’ sħab fdati. Ġejna impressjonati bl-applikazzjonijiet li żviluppa dan il-grupp. Dawn it-tixridiet fuq skala żgħira qed jgħinuna nifformaw l-approċċ, is-salvagwardji u l-ħsieb tagħna dwar kif Voice Engine jista’ jintuża għall-ġid f’diversi industriji. Xi eżempji bikrin jinkludu:
- Noffru assistenza fil-qari lil persuni li ma jafux jaqraw u lit-tfal permezz ta’ vuċijiet espressivi li jinstemgħu naturali u li jirrappreżentaw firxa usa’ ta’ kelliema minn dak li hu possibbli b’ilħna preset. Age of Learning(jinfetaħ f’tieqa ġdida), kumpanija ta’ teknoloġija edukattiva ddedikata għas-suċċess akkademiku tat-tfal, ilha tuża dan biex tiġġenera kontenut ta’ voice-over miktub minn qabel. Huma jużaw ukoll Voice Engine u GPT‑4 biex joħolqu tweġibiet personalizzati f’ħin reali biex jinteraġixxu mal-istudenti. B’din it-teknoloġija, Age of Learning setgħet toħloq aktar kontenut għal udjenza usa’.
- It-traduzzjoni tal-kontenut, bħal vidjows u podcasts, sabiex il-kreaturi u n-negozji jkunu jistgħu jilħqu aktar nies madwar id-dinja, b’mod fluwenti u bil-vuċijiet tagħhom stess. Wieħed minn dawk li adottaw dan kmieni huwa HeyGen(jinfetaħ f’tieqa ġdida), pjattaforma ta’ rakkont viżiv bl-AI li taħdem mal-klijenti enterprise tagħha biex toħloq avatars personalizzati li jixbhu lill-bniedem għal varjetà ta’ kontenut, mill-marketing tal-prodott sa demos tal-bejgħ. Huma jużaw Voice Engine għat-traduzzjoni tal-vidjo, sabiex ikunu jistgħu jittraduċu l-vuċi ta’ kelliem f’diversi lingwi u jilħqu udjenza globali. Meta jintuża għat-traduzzjoni, Voice Engine jippreserva l-aċċent nattiv tal-kelliem oriġinali: pereżempju, il-ġenerazzjoni tal-Ingliż b’kampjun awdjo minn kelliem Franċiż tipproduċi diskors b’aċċent Franċiż.
- Nilħqu komunitajiet globali, billi ntejbu t-twassil ta’ servizzi essenzjali f’ambjenti remoti. Dimagi(jinfetaħ f’tieqa ġdida) qed tibni għodod għall-ħaddiema tas-Saħħa fil-komunità biex jipprovdu varjetà ta’ servizzi essenzjali, bħal pariri għal ommijiet li qed ireddgħu. Biex tgħin lil dawn il-ħaddiema jiżviluppaw il-ħiliet tagħhom, Dimagi tuża Voice Engine u GPT‑4 biex tagħti feedback interattiv fil-lingwa ewlenija ta’ kull ħaddiem, inkluż is-Swaħili jew lingwi aktar informali bħal Sheng, lingwa mħallta ta’ kodiċi popolari fil-Kenja.
- Nappoġġjaw persuni li ma jitkellmux, bħal applikazzjonijiet terapewtiċi għal individwi b’kundizzjonijiet li jaffettwaw id-diskors u titjib edukattiv għal dawk bi bżonnijiet ta’ tagħlim. Livox(jinfetaħ f’tieqa ġdida), app ta’ komunikazzjoni alternattiva bl-AI, tħaddem apparati ta’ Komunikazzjoni Awmentattiva u Alternattiva (AAC) li jippermettu lil persuni b’diżabilità jikkomunikaw. Bl-użu ta’ Voice Engine, huma jistgħu joffru lil persuni li ma jitkellmux ilħna uniċi u mhux robotiċi f’ħafna lingwi. L-utenti tagħhom jistgħu jagħżlu d-diskors li jirrappreżentahom l-aħjar, u għall-utenti multilingwi, iżommu vuċi konsistenti f’kull lingwa mitkellma.
- Ngħinu lill-pazjenti jirkupraw leħinhom, għal dawk li qed ibatu minn kundizzjonijiet tad-diskors f’daqqa jew deġenerattivi. L-Istitut Norman Prince Neurosciences fi Lifespan(jinfetaħ f’tieqa ġdida), sistema tas-Saħħa mingħajr skop ta’ qligħ li sservi bħala l-affiljat ewlieni tat-tagħlim tal-iskola medika tal-Università Brown, qed jesplora l-użi tal-AI f’kuntesti kliniċi. Huma ilhom jittestjaw programm li joffri Voice Engine lil individwi b’etjoloġiji onkoloġiċi jew newroloġiċi għal indeboliment tad-diskors. Peress li Voice Engine jeħtieġ kampjun awdjo tant qasir, it-tobba Fatima Mirza, Rohaid Ali u Konstantina Svokos setgħu jirrestawraw il-vuċi ta’ pazjenta żagħżugħa li tilfet id-diskors fluwenti tagħha minħabba tumur vaskulari fil-moħħ, billi użaw awdjo minn vidjo rrekordjat għal proġett tal-iskola.
Aħna nirrikonoxxu li l-ġenerazzjoni ta’ diskors li jixbah il-vuċijiet tan-nies għandha riskji serji, li huma partikolarment fuq quddiem nett tal-ħsieb f’sena elettorali. Qed ninvolvu sħab fl-Istati Uniti u internazzjonali minn madwar il-gvern, il-midja, id-divertiment, l-edukazzjoni, is-soċjetà ċivili u lil hinn biex niżguraw li qed ninkorporaw il-feedback tagħhom hekk kif nibnu. Is-sħab li qed jittestjaw Voice Engine llum qablu mal-politiki tal-użu tagħna, li jipprojbixxu l-impersonazzjoni ta’ individwu jew organizzazzjoni oħra mingħajr kunsens jew dritt legali. Barra minn hekk, it-termini tagħna ma’ dawn is-sħab jeħtieġu kunsens espliċitu u informat mill-kelliem oriġinali u ma nħallux lill-iżviluppaturi jibnu modi biex utenti individwali joħolqu l-vuċijiet tagħhom stess. Is-sħab iridu wkoll jiżvelaw b’mod ċar lill-udjenza tagħhom li l-vuċijiet li qed jisimgħu huma ġġenerati mill-AI. Fl-aħħar nett, implimentajna sett ta’ miżuri ta’ sikurezza, inkluż watermarking biex niġu ntraċċaw l-oriġini ta’ kwalunkwe awdjo ġġenerat minn Voice Engine, kif ukoll monitoraġġ proattiv ta’ kif qed jintuża. Aħna nemmnu li kwalunkwe tixrid wiesa’ ta’ teknoloġija ta’ vuċi sintetika għandu jkun akkumpanjat minn esperjenzi ta’ awtentikazzjoni tal-vuċi li jivverifikaw li l-kelliem oriġinali qed iżid il-vuċi tiegħu mas-servizz b’mod konxju u minn lista ta’ vuċijiet ipprojbiti li tidentifika u tipprevjeni l-ħolqien ta’ vuċijiet li jixbhu wisq lil figuri prominenti.
Voice Engine huwa kontinwazzjoni tal-impenn tagħna biex nifhmu l-fruntiera teknika u naqsmu b’mod miftuħ dak li qed isir possibbli bl-AI. F’konformità mal-approċċ tagħna għas-sikurezza tal-AI u mal-impenji volontarji tagħna, qed nagħżlu li nippreżentaw din it-teknoloġija minn qabel iżda ma noħorġuhiex b’mod mifrux f’dan iż-żmien. Nittamaw li din il-preview ta’ Voice Engine kemm tenfasizza l-potenzjal tagħha kif ukoll tqajjem il-ħtieġa li tissaħħaħ ir-reżiljenza tas-soċjetà kontra l-isfidi li jġibu magħhom mudelli ġenerattivi dejjem aktar konvinċenti. B’mod speċifiku, inħeġġu passi bħal:
- It-tneħħija gradwali tal-awtentikazzjoni bil-vuċi bħala miżura ta’ sigurtà biex wieħed jaċċessa kontijiet bankarji u informazzjoni sensittiva oħra
- L-esplorazzjoni ta’ politiki biex jipproteġu l-użu tal-ilħna tal-individwi fl-AI
- L-edukazzjoni tal-pubbliku biex jifhem il-kapaċitajiet u l-limitazzjonijiet tat-teknoloġiji tal-AI, inkluża l-possibbiltà ta’ kontenut qarrieqi tal-AI
- It-tħaffif tal-iżvilupp u l-adozzjoni ta’ tekniki biex jiġi traċċat l-oriġini tal-kontenut awdjoviżiv, sabiex dejjem ikun ċar meta tkun qed tinteraġixxi ma’ persuna reali jew ma’ AI
Huwa importanti li n-nies madwar id-dinja jifhmu lejn fejn sejra din it-teknoloġija, kemm jekk fl-aħħar mill-aħħar inxerrduha b’mod mifrux aħna stess kif ukoll jekk le. Nistennew bil-ħerqa li nkomplu nieħdu sehem f’konversazzjonijiet dwar l-isfidi u l-opportunitajiet tal-ilħna sintetiċi ma’ dawk li jfasslu l-politika, mar-riċerkaturi, mal-iżviluppaturi u mal-kreattivi.


