Aktar dwar kif jaħdem Voice Engine u r-riċerka tagħna dwar is-sigurtà
Nesploraw it-teknoloġija wara l-mudell tagħna text-to-speech.

Qegħdin nipprovdu aktar għarfien dwar kif jaħdem Voice Engine u r-riċerka tagħna dwar is-sigurtà biex inżommu lil kulħadd aġġornat dwar il-progress tagħna. Voice Engine huwa mudell kapaċi joħloq vuċijiet personalizzati.
Huwa importanti li n-nies madwar id-dinja jifhmu lejn fejn sejra din it-teknoloġija, kemm jekk fl-aħħar nett inxerrduha b’mod wiesa’ aħna stess kif ukoll jekk le. Huwa għalhekk li rridu nispjegaw kif jaħdem il-mudell, kif nużawh għar-riċerka u l-edukazzjoni, u kif qed nimplimentaw il-miżuri ta’ sigurtà tagħna madwaru. Voice Engine għadu mhux disponibbli b’mod wiesa’.
Il-kapaċità tal-vuċi hija mħaddma minn mudell text-to-speech (TTS), kapaċi jiġġenera awdjo li jixbah lill-bniedem minn sempliċement test u 15-il sekonda ta’ kampjun ta’ diskors.
Is-sistema TTS tiġi żviluppata billi tgħin lill-mudell jifhem l-isfumaturi tad-diskors minn awdjo mqabbel ma’ traskrizzjonijiet. Il-mudell jitgħallem ibassar l-aktar ħsejjes probabbli li kelliem jagħmel għal traskrizzjoni partikolari ta’ test, filwaqt li jqis vuċijiet, aċċenti, u stili ta’ taħdit differenti. Wara dan, il-mudell jista’ jiġġenera mhux biss verżjonijiet mitkellma tat-test, iżda wkoll espressjonijiet mitkellma li jirriflettu kif tipi differenti ta’ kelliema jgħiduhom.
Minn hemm, il-ġenerazzjoni tal-awdjo bil-mudell TTS teħtieġ biss kampjun ta’ 15-il sekonda mill-kelliem u t-test korrispondenti. Il-mudell mhuwiex fine-tuned għal ebda kelliem speċifiku, ma hemm l-ebda personalizzazzjoni tal-mudell involuta. Minflok, juża proċess ta’ diffusion, li jibda b’ħoss każwali u gradwalment ineħħi l-istorbju minnu biex jaqbel mill-qrib ma’ kif il-kelliem mill-kampjun awdjo ta’ 15-il sekonda jartikola t-test.
L-ewwel żviluppajna Voice Engine lejn l-aħħar tal-2022. Fil-bidu, biex nivvalutaw il-kapaċitajiet u l-limitazzjonijiet tal-mudell Voice Engine tagħna, ittestjajnieh internament billi użajna taħlita ta’ kampjuni tal-vuċi pubbliċi u privati. Dan il-prototip intern kien essenzjali għar-riċerka tagħna dwar l-allinjament u s-sigurtà, għen biex jinfurma s-salvagwardji tagħna, u huwa kontinwazzjoni tal-impenn tagħna biex nifhmu l-fruntiera teknika.
Importanti, dawn l-outputs kienu riservati għal ittestjar intern, mhux għat-taħriġ tal-mudelli li jħaddmu l-prodotti tagħna.
Bħala parti mill-qafas tagħna ta’ skjerament iterattiv, dan il-prototip bikri kellu wkoll rwol siewi biex jgħin lil dawk li jfasslu l-politika jifhmu l-kapaċitajiet tal-mudelli tal-vuċi sintetika. Pereżempju, mis-sajf li għadda bdejna nuru lil dawk li jfasslu l-politika globali fl-ogħla livelli l-potenzjal tat-teknoloġija u ddiskutejna magħhom ir-riskji assoċjati magħha.
F’Settembru 2023, użajna Voice Engine biex inħaddmu l-karatteristika modalità tal-vuċi ta’ ChatGPT. Minħabba li dawn il-kapaċitajiet ippreżentaw ukoll riskji ġodda, nedejnieha biss għal dan il-każ ta’ użu speċifiku. Il-modalità tal-vuċi nħolqot biss minn vuċijiet reali, magħżula bir-reqqa permezz ta’ proċess dettaljat li beda f’Mejju 2023 u li involva atturi professjonali tal-vuċi, aġenziji tat-talent, diretturi tal-casting, u konsulenti tal-industrija.
F’Novembru 2023, ħriġna TTS API(jinfetaħ f’tieqa ġdida) sempliċi li wkoll hija mħaddma minn Voice Engine. Għażilna rilaxx limitat ieħor fejn ħdimna ma’ atturi professjonali tal-vuċi biex noħolqu kampjuni awdjo ta’ 15-il sekonda biex inħaddmu kull waħda mis-sitt vuċijiet issettjati minn qabel fl-API. L-iżviluppaturi jistgħu jibnuhom fil-websajts tagħhom biex jaqraw blog posts b’leħen għoli, pereżempju.
F’Marzu ta’ din is-sena, tajna preview tal-kapaċità ta’ Voice Engine li joħloq vuċijiet personalizzati ma’ grupp żgħir ta’ sħab fdati. Din l-inizjattiva kellha l-għan li tqajjem kuxjenza dwar il-kapaċitajiet tal-vuċijiet sintetiċi u tappoġġa l-għanijiet li ġejjin:
- It-tneħħija gradwali tal-awtentikazzjoni bbażata fuq il-vuċi bħala miżura ta’ sigurtà għall-aċċess għal kontijiet bankarji u informazzjoni sensittiva oħra
- L-esplorazzjoni ta’ politiki biex jipproteġu l-użu tal-vuċijiet tal-individwi fl-AI
- L-edukazzjoni tal-pubbliku biex jifhem il-kapaċitajiet u l-limitazzjonijiet tat-teknoloġiji tal-AI, inkluża l-possibbiltà ta’ kontenut tal-AI qarrieqi
- It-tħaffif tal-iżvilupp u l-adozzjoni ta’ tekniki biex jiġi rintraċċat l-oriġini ta’ kontenut awdjoviżiv, sabiex dejjem ikun ċar meta tkun qed tinteraġixxi ma’ persuna reali jew ma’ AI
Dawn l-iskjeramenti fuq skala żgħira qed jgħinu wkoll biex jinfurmaw l-approċċ, is-salvagwardji, u l-ħsieb tagħna dwar kif Voice Engine jista’ jintuża għall-ġid f’diversi industriji.
Inkomplu ninvolvu ruħna ma’ sħab fl-Istati Uniti u internazzjonali minn madwar il-gvern, il-media, id-divertiment, l-edukazzjoni, is-soċjetà ċivili u lil hinn minn hekk biex niżguraw li nkunu qed ninkorporaw il-feedback tagħhom hekk kif nibnu.
Is-sħab li qed jittestjaw Voice Engine qablu ma’ politiki ta’ użu li jipprojbixxu l-impersonazzjoni mingħajr kunsens u jeħtieġu approvazzjoni espliċita mill-kelliem oriġinali, u jeħtieġu li kull vuċi ġġenerata mill-AI tiġi żvelata lis-semmiegħa bħala tali. Barra minn hekk, miżuri ta’ sigurtà bħall-watermarking u l-monitoraġġ proattiv huma fis-seħħ biex jintraċċaw u jissorveljaw l-użu tat-teknoloġija.
Omnimudelli bħal GPT‑4o, b’kapaċitajiet nattivi tal-awdjo, jippermettu interazzjonijiet ġodda li mudelli preċedenti bħal Voice Engine ma setgħux. Nirrikonoxxu wkoll li l-modalità tal-awdjo ta’ GPT‑4o tintroduċi diversi riskji ġodda, partikolarment fil-ġenerazzjoni tal-vuċi. Qegħdin nagħmlu red-teaming attiv ta’ GPT‑4o biex nidentifikaw u nindirizzaw kemm riskji magħrufa kif ukoll dawk mhux previsti f’diversi oqsma bħall-psikoloġija soċjali, il-preġudizzju u l-ġustizzja, u l-informazzjoni qarrieqa. Qegħdin nibnu diversi saffi ta’ mitigazzjonijiet, bħar-raffinar tal-imġibiet tal-mudell, l-adattament ta’ sistemi eżistenti bbażati fuq it-test għall-arkitettura ta’ GPT‑4o, u l-iżvilupp ta’ klassifikaturi ġodda.
F’konformità mal-approċċ kawt tagħna għar-rilaxx ta’ Voice Engine, se nillimitaw l-outputs tal-awdjo ta’ GPT‑4o għal għażla ta’ vuċijiet issettjati minn qabel għar-rilaxx ġenerali. Dawn il-vuċijiet inkisbu minn atturi professjonali tal-vuċi li ntgħażlu permezz ta’ proċess ta’ casting ikkunsidrat bir-reqqa. Se naqsmu aktar informazzjoni dwar ir-riskji u l-mitigazzjonijiet relatati mal-awdjo fil-kard tas-sistema ta’ GPT‑4o li ġejja.