29 mars 2024

Navigimi i sfidave dhe mundësive të zërave sintetikë

Po ndajmë mësime nga një parapamje në shkallë të vogël e Voice Engine, një model për krijimin e zërave të personalizuar.

Duke ngarkuar…

OpenAI është e përkushtuar ndaj zhvillimit të AI të sigurt dhe të dobishëm për të gjithë⁠. Sot po ndajmë njohuri dhe rezultate paraprake nga një parashikim në shkallë të vogël i një modeli të quajtur Voice Engine, i cili përdor hyrje teksti dhe një mostër të vetme audio 15-sekondëshe për të gjeneruar të folur me tingull natyral që i ngjan shumë folësit origjinal. Vlen të theksohet se një model i vogël me një mostër të vetme 15-sekondëshe mund të krijojë zëra emocionalë dhe realistë.

Ne fillimisht e zhvilluam Voice Engine në fund të vitit 2022 dhe e kemi përdorur për të fuqizuar zërat e paracaktuar të disponueshëm në API tekst-në-zë⁠(hapet në një dritare të re), si edhe ChatGPT Voice dhe Lexo me zë⁠. Në të njëjtën kohë, po ndjekim një qasje të kujdesshme dhe të informuar ndaj një publikimi më të gjerë për shkak të potencialit për keqpërdorim të zërit sintetik. Shpresojmë të nisim një dialog mbi vendosjen e përgjegjshme të zërave sintetikë dhe se si shoqëria mund të përshtatet me këto aftësi të reja. Bazuar në këto biseda dhe rezultatet e këtyre testeve në shkallë të vogël, do të marrim një vendim më të informuar nëse dhe si ta vendosim këtë teknologji në shkallë të gjerë.

Zbatimet e hershme të Voice Engine

Për të kuptuar më mirë përdorimet e mundshme të kësaj teknologjie, në fund të vitit të kaluar filluam ta testonim privatisht me një grup të vogël partnerësh të besuar. Ne kemi qenë të impresionuar nga aplikacionet që ka zhvilluar ky grup. Këto implementime në shkallë të vogël po ndihmojnë të informojnë qasjen tonë, masat mbrojtëse dhe mënyrën se si mendojmë për mënyrën se si Voice Engine mund të përdoret për të mirë në industri të ndryshme. Disa shembuj të hershëm përfshijnë:

Duke ofruar asistencë për leximin për jolexuesit dhe fëmijët përmes zërave që tingëllojnë natyralë dhe shprehës, që përfaqësojnë një gamë më të gjerë folësish sesa është e mundur me zëra të paracaktuar. Age of Learning⁠(hapet në një dritare të re), një kompani e teknologjisë arsimore e përkushtuar ndaj suksesit akademik të fëmijëve, e ka përdorur këtë për të gjeneruar përmbajtje të paraskriptuar zanore. Ata përdorin gjithashtu Voice Engine dhe GPT‑4 për të krijuar përgjigje të personalizuara në kohë reale për të bashkëvepruar me studentët. Me këtë teknologji, Age of Learning ka qenë në gjendje të krijojë më shumë përmbajtje për një audiencë më të gjerë.

Përkthimi i përmbajtjes, si video dhe podkaste, që krijuesit dhe bizneset të arrijnë më shumë njerëz në mbarë botën, rrjedhshëm dhe me zërat e tyre. Një adoptues i hershëm i kësaj është HeyGen⁠(hapet në një dritare të re), një platformë vizuale e tregimit me IA që punon me klientët e saj të ndërmarrjeve për të krijuar avatarë të personalizuar, të ngjashëm me njerëzit, për një gamë të gjerë përmbajtjesh, nga marketingu i produkteve te demonstrimet e shitjeve. Ata përdorin Voice Engine për përkthimin e videove, në mënyrë që të përkthejnë zërin e një folësi në shumë gjuhë dhe të arrijnë një audiencë globale. Kur përdoret për përkthim, Voice Engine ruan theksin origjinal të folësit: për shembull, gjenerimi i anglishtes me një mostër audio nga një folës francez do të prodhonte të folur me theks francez.

Duke u ngarkuar...

Duke arritur komunitetet globale, duke përmirësuar ofrimin e shërbimeve thelbësore në mjedise të largëta. Dimagi⁠(hapet në një dritare të re) po ndërton mjete për punonjësit shëndetësorë të komunitetit për të ofruar një sërë shërbimesh thelbësore, si këshillim për nënat që ushqejnë me gji. Për t’i ndihmuar këta punëtorë të zhvillojnë aftësitë e tyre, Dimagi përdor Voice Engine dhe GPT‑4 për të dhënë reagime interaktive në gjuhën kryesore të secilit punonjës, duke përfshirë Swahili ose gjuhë më informale si Sheng, një gjuhë e përzier me kod e njohur në Kenia.

Duke u ngarkuar...

Mbështetja e personave që nuk flasin, përmes aplikacioneve terapeutike për individë me gjendje që ndikojnë në të folur dhe përmirësimeve arsimore për ata me nevoja në të nxënë. Livox⁠(hapet në një dritare të re), një aplikacion komunikimi alternativ me AI, fuqizon pajisjet e komunikimit të zgjeruar dhe alternativ (AAC) që u mundësojnë personave me aftësi të kufizuara të komunikojnë. Duke përdorur Voice Engine, ata janë në gjendje t’u ofrojnë njerëzve që nuk flasin zëra unikë dhe jorobotikë në shumë gjuhë. Përdoruesit e tyre mund të zgjedhin të folurin që i përfaqëson më së miri dhe, për përdoruesit shumëgjuhësh, të ruajnë një zë të qëndrueshëm në secilën gjuhë të folur.

Duke u ngarkuar...

Duke i ndihmuar pacientët të rikuperojnë zërin e tyre, për ata që vuajnë nga gjendje të papritura ose degjenerative të të folurit. Instituti i Neuroshkencave Norman Prince në Lifespan⁠(hapet në një dritare të re), një sistem shëndetësor jofitimprurës që shërben si partneri kryesor mësimor i shkollës së mjekësisë të Universitetit Brown, po eksploron përdorimet e AI në kontekste klinike. Ata kanë qenë duke pilotuar një program që u ofron Voice Engine individëve me etiologji onkologjike ose neurologjike për dëmtim të të folurit. Meqenëse Voice Engine kërkon një kampion audio kaq të shkurtër, mjekët Fatima Mirza, Rohaid Ali dhe Konstantina Svokos arritën të rikthenin zërin e një pacienteje të re që humbi të folurin e rrjedhshëm për shkak të një tumori vaskular në tru, duke përdorur audio nga një video e regjistruar për një projekt shkolle.

Duke u ngarkuar...

Ndërtimi i Voice Engine në mënyrë të sigurt

Ne e kuptojmë që gjenerimi i ligjëratës që i ngjan zërave të njerëzve ka rreziqe serioze, të cilat janë veçanërisht në qendër të vëmendjes në një vit zgjedhor. Ne po angazhohemi me partnerë në SHBA dhe ndërkombëtarë nga qeveria, media, argëtimi, arsimi, shoqëria civile dhe më gjerë për të siguruar që po përfshijmë reagimet e tyre ndërsa ndërtojmë. Partnerët që po testojnë Voice Engine sot kanë rënë dakord me politikat tona të përdorimit⁠, të cilat ndalojnë imitimin e një individi ose organizate tjetër pa pëlqim ose të drejtë ligjore. Përveç kësaj, kushtet tona me këta partnerë kërkojnë pëlqim të qartë dhe të informuar nga folësi origjinal dhe ne nuk u lejojmë zhvilluesve të ndërtojnë mënyra që përdoruesit individualë të krijojnë zërat e tyre. Partnerët duhet gjithashtu t’ia bëjnë të qartë audiencës së tyre se zërat që po dëgjojnë janë të gjeneruar nga AI. Së fundmi, ne kemi zbatuar një sërë masash sigurie, duke përfshirë vendosjen e filigranit për të gjurmuar origjinën e çdo audioje të gjeneruar nga Voice Engine, si edhe monitorimin proaktiv të përdorimit të tij. Ne besojmë se çdo vendosje e gjerë e teknologjisë së zërit sintetik duhet të shoqërohet me përvoja të autentikimit të zërit që verifikojnë se folësi origjinal po e shton me vetëdije zërin e tij në shërbim dhe me një listë zërash të ndaluar që zbulon dhe parandalon krijimin e zërave që janë tepër të ngjashëm me figura të njohura.

Në të ardhmen

Voice Engine është një vazhdim i angazhimit tonë për të kuptuar avangardën teknike dhe për të ndarë hapur atë që po bëhet e mundur me AI. Në përputhje me qasjen tonë për sigurinë e AI⁠ dhe angazhimet tona vullnetare⁠, ne po zgjedhim ta ofrojmë si pamje paraprake, por të mos e publikojmë gjerësisht këtë teknologji në këtë moment. Shpresojmë që kjo pamje paraprake e Voice Engine si të nënvizojë potencialin e tij, ashtu edhe të motivojë nevojën për të forcuar qëndrueshmërinë shoqërore kundër sfidave të sjella nga modele gjenerative gjithnjë e më bindëse. Në mënyrë specifike, ne inkurajojmë hapa si:

Heqja graduale e autentikimit të bazuar në zë si një masë sigurie për të hyrë në llogaritë bankare dhe informacionet e tjera të ndjeshme
Eksplorimi i politikave për mbrojtjen e përdorimit të zërave të individëve në AI
Edukimi i publikut për të kuptuar aftësitë dhe kufizimet e teknologjive të AI, duke përfshirë mundësinë e përmbajtjes mashtruese të AI
Përshpejtimi i zhvillimit dhe adoptimit të teknikave për gjurmimin e origjinës së përmbajtjes audiovizuale, në mënyrë që të jetë gjithmonë e qartë kur po ndërveproni me një person të vërtetë ose me një AI

Është e rëndësishme që njerëzit në mbarë botën të kuptojnë se ku po shkon kjo teknologji, pavarësisht nëse ne përfundimisht e vendosim gjerësisht në përdorim apo jo. Ne presim me padurim të vazhdojmë të angazhohemi në biseda rreth sfidave dhe mundësive të zërave sintetikë me politikëbërës, studiues, zhvillues dhe krijues.

Artikuj të ngjashëm

Shiko të gjitha

Video generation models as world simulators

Publikim15 shk 2024

Building an early warning system for LLM-aided biological threat creation

Publikim31 jan 2024

Weak-to-strong generalization

Siguria14 dhj 2023