Orientácia vo výzvach a príležitostiach syntetických hlasov
Zdieľame poznatky z malej ukážky Voice Engine, modelu na vytváranie vlastných hlasov.
OpenAI sa zaviazala k vývoju bezpečnej a široko prospešnej umelej inteligencie. Dnes sa s vami delíme o predbežné poznatky a výsledky z malej ukážky modelu s názvom Voice Engine, ktorý využíva textový vstup a jednu 15-sekundovú zvukovú vzorku na generovanie prirodzene znejúcej reči, ktorá sa veľmi podobá pôvodnému rečníkovi. Je pozoruhodné, že malý model s jednou 15-sekundovou vzorkou dokáže vytvoriť emotívne a realistické hlasy.
Voice Engine sme prvýkrát vyvinuli koncom roka 2022 a používame ho na podporu prednastavených hlasov dostupných v rozhraní API pre prevod textu na reč,(otvorí sa v novom okne) ako aj v službe ChatGPT Voice a funkcii Read Aloud. Zároveň pristupujeme k širšiemu sprístupneniu opatrne a informovane vzhľadom na potenciál zneužitia syntetického hlasu. Dúfame, že sa nám podarí začať dialóg o zodpovednom nasadení syntetických hlasov a o tom, ako sa spoločnosť môže týmto novým možnostiam prispôsobiť. Na základe týchto rozhovorov a výsledkov týchto testov v malom rozsahu sa informovanejšie rozhodneme, či a ako túto technológiu nasadiť vo veľkom rozsahu.
Aby sme lepšie pochopili potenciálne využitie tejto technológie, koncom minulého roka sme ju začali súkromne testovať s malou skupinou dôveryhodných partnerov. Boli sme ohromení aplikáciami, ktoré táto skupina vyvinula. Tieto nasadenia v malom rozsahu nám pomáhajú formovať náš prístup, ochranné opatrenia a uvažovanie o tom, ako by sa Voice Engine mohol využívať na dobré účely v rôznych odvetviach. Medzi niekoľko prvých príkladov patrí:
- Poskytovanie pomoci s čítaním nečitateľom a deťom prostredníctvom prirodzene znejúcich, emotívnych hlasov reprezentujúcich širšie spektrum hovoriacich, než je možné s prednastavenými hlasmi. Spoločnosť Age of Learning(otvorí sa v novom okne), ktorá sa zaoberá vzdelávacími technológiami a venuje sa akademickému úspechu detí, využíva túto technológiu na generovanie vopred pripraveného hlasového obsahu. Taktiež používaja Voice Engine a GPT‑4 na vytváranie personalizovaných odpovedí v reálnom čase na interakciu so študentmi. Vďaka tejto technológii dokázala spoločnosť Age of Learning vytvoriť viac obsahu pre širšie publikum.
- Preklad obsahu, ako sú videá a podcasty, aby tvorcovia a firmy mohli plynule a vlastným hlasom osloviť viac ľudí na celom svete. Jedným z prvých používateľov je HeyGen(otvorí sa v novom okne), platforma pre vizuálne rozprávanie príbehov s umelou inteligenciou, ktorá spolupracuje so svojimi podnikovými zákazníkmi na vytváraní vlastných, ľudských avatarov pre rôznorodý obsah, od marketingu produktov až po predajné ukážky. Na preklad videa používajú Voice Engine, takže dokážu preložiť hlas hovoriaceho do viacerých jazykov a osloviť globálne publikum. Pri použití na preklad zachováva Voice Engine rodný prízvuk pôvodného hovoriaceho: napríklad generovanie angličtiny so zvukovou ukážkou od francúzskeho hovoriaceho by vytvorilo reč s francúzskym prízvukom.
- Oslovenie globálnych komunít zlepšením poskytovania základných služieb vo vzdialených prostrediach. Platforma Dimagi(otvorí sa v novom okne) vytvára nástroje pre komunitných zdravotníckych pracovníkov, aby mohli poskytovať rôzne základné služby, ako napríklad poradenstvo pre dojčiace matky. Aby platforma Dimagi pomohla týmto pracovníkom rozvíjať ich zručnosti, používa Voice Engine a GPT‑4 na poskytovanie interaktívnej spätnej väzby v primárnom jazyku každého pracovníka vrátane svahilčiny alebo neformálnejších jazykov, ako je sheng, jazyk so zmiešaným kódom, ktorý je v Keni populárny.
- Podpora ľudí, ktorí nepoužívajú verbálne prostriedky, napríklad terapeutické aplikácie pre jednotlivcov s ochoreniami ovplyvňujúcimi reč a vzdelávacie vylepšenia pre osoby so vzdelávacími potrebami. Livox(otvorí sa v novom okne), alternatívna komunikačná aplikácia s umelou inteligenciou, poháňa zariadenia s augmentatívnou a alternatívnou komunikáciou (AAC), ktoré umožňujú ľuďom so zdravotným postihnutím komunikovať. Pomocou Voice Engine sú schopní ponúknuť ľuďom, ktorí nehovoria, jedinečné a nerobotické hlasy v mnohých jazykoch. Ich používatelia si môžu vybrať reč, ktorá ich najlepšie reprezentuje, a viacjazyční používatelia si môžu zachovať konzistentný hlas v každom hovorenom jazyku.
- Pomáhame pacientom s obnovením hlasu, najmä tým, ktorí trpia náhlymi alebo degeneratívnymi poruchami reči. Neurosciences Institute Normana Princea v rámci Lifespanu(otvorí sa v novom okne), neziskového systému zdravotnej starostlivosti, ktorý slúži ako hlavná výučbová pobočka lekárskej fakulty Brownovej univerzity, skúma využitie umelej inteligencie v klinických kontextoch. Pilotne testuje program ponúkajúci Voice Engine jednotlivcom s onkologickými alebo neurologickými príčinami poruchy reči. Keďže Voice Engine vyžaduje takú krátku zvukovú vzorku, lekári Fatima Mirza, Rohaid Ali a Konstantina Svokos dokázali obnoviť hlas mladej pacientky, ktorá stratila plynulú reč kvôli cievnemu nádoru na mozgu, a to pomocou zvuku z videa nahraného pre školský projekt.
Uvedomujeme si, že vytváranie reči, ktorá sa podobá hlasom ľudí, so sebou prináša vážne riziká, na ktoré treba myslieť obzvlášť vo volebnom roku. Spolupracujeme s americkými a medzinárodnými partnermi z oblasti vlády, médií, zábavného priemyslu, vzdelávania, občianskej spoločnosti a ďalších oblastí, aby sme zabezpečili, že pri tvorbe našej práce zohľadňujeme ich spätnú väzbu. Partneri, ktorí dnes testujú Voice Engine, súhlasili s našimi zásadami používania, ktoré zakazujú vydávanie sa za inú osobu alebo organizáciu bez súhlasu alebo zákonného oprávnenia. Okrem toho naše zmluvné podmienky s týmito partnermi vyžadujú výslovný a informovaný súhlas pôvodného rečníka a vývojárom neumožňujeme vytvárať spôsoby, ako si jednotliví používatelia môžu vytvárať vlastné hlasy. Partneri musia tiež jasne informovať svoje publikum, že hlasy, ktoré počujú, sú generované umelou inteligenciou. Nakoniec sme zaviedli súbor bezpečnostných opatrení vrátane vodoznaku na sledovanie pôvodu akéhokoľvek zvuku generovaného pomocou Voice Engine, ako aj proaktívneho monitorovania jeho používania. Veríme, že akékoľvek rozsiahle nasadenie technológie syntetického hlasu by malo byť sprevádzané overovaním hlasu, ktorým sa overuje, či pôvodný rečník vedome pridáva svoj hlas do služby, a zoznamom zakázaných hlasov, ktorý detekuje a zabraňuje vytváraniu hlasov, ktoré sú príliš podobné hlasom významných osobností.
Voice Engine je pokračovaním nášho záväzku porozumieť technickým hraniciam a otvorene zdieľať to, čo sa vďaka umelej inteligencii stáva možným. V súlade s naším prístupom k bezpečnosti umelej inteligencie a našimi dobrovoľnými záväzkami sme sa rozhodli túto technológiu v súčasnosti spustiť v ukážkovom režime, ale nie vo všeobecnom meradle. Dúfame, že táto ukážka Voice Engine podčiarkne jeho potenciál a zároveň motivuje k potrebe posilniť odolnosť spoločnosti voči výzvam, ktoré prinášajú stále presvedčivejšie generatívne modely. Konkrétne odporúčame kroky, ako napríklad:
- Postupné ukončenie hlasového overovania ako bezpečnostného opatrenia pre prístup k bankovým účtom a iným citlivým informáciám
- Preskúmanie politík na ochranu používania hlasov jednotlivcov v umelej inteligencii
- Vzdelávanie verejnosti v oblasti pochopenia možností a obmedzení technológií umelej inteligencie vrátane možnosti klamlivého obsahu umelej inteligencie
- Urýchlenie vývoja a zavádzania techník na sledovanie pôvodu audiovizuálneho obsahu, aby bolo vždy jasné, či interagujete so skutočnou osobou alebo s umelou inteligenciou
Je dôležité, aby ľudia na celom svete chápali, kam táto technológia smeruje, bez ohľadu na to, či ju nakoniec sami nasadíme vo veľkom rozsahu alebo nie. Tešíme sa na pokračovanie v diskusiách o výzvach a príležitostiach, ktoré prinášajú syntetické hlasy, s tvorcami politík, výskumníkmi, vývojármi a kreatívnymi pracovníkmi.


