29. března 2024

Zvládání výzev a příležitostí u syntetických hlasů

Sdílíme poznatky z omezeného náhledu Voice Engine, což je model pro vytváření vlastních hlasů.

Načítání…

OpenAI je odhodlána vyvíjet bezpečnou a široce prospěšnou umělou inteligenci⁠. Dnes se s vámi podělíme o předběžné poznatky a výsledky z malého náhledu modelu s názvem Voice Engine, který využívá textový vstup a jeden 15sekundový zvukový vzorek k vygenerování přirozeně znějící řeči, která se velmi podobá původnímu mluvčímu. Je pozoruhodné, že malý model s jediným 15sekundovým vzorkem dokáže vytvořit emotivní a realistické hlasy.

Voice Engine jsme poprvé vyvinuli koncem roku 2022 a použili jsme pro přednastavené hlasy dostupné v rozhraní API pro převod textu na řeč⁠(otevře se v novém okně) a také ChatGPT Voice a funkci čtení nahlas⁠. Zároveň k širšímu zveřejnění přistupujeme opatrně a informovaně vzhledem k možnému zneužití syntetického hlasu. Doufáme, že zahájíme dialog o zodpovědném využívání syntetických hlasů a o tom, jak se společnost může těmto novým možnostem přizpůsobit. Na základě těchto rozhovorů a výsledků těchto testů v malém měřítku učiníme informovanější rozhodnutí o tom, zda a jak tuto technologii nasadit ve velkém měřítku.

Rané aplikace Voice Engine

Abychom lépe porozuměli možným způsobům využití této technologie, začali jsme ji koncem loňského roku soukromě testovat s malou skupinou důvěryhodných partnerů. Aplikace, které tato skupina vyvinula, na nás udělaly dojem. Tato nasazení v malém měřítku nám pomáhají formovat náš přístup, ochranná opatření a uvažování o tom, jak by Voice Engine mohl být využíván k bohulibým účelům v různých odvětvích. Mezi první příklady patří:

Poskytování asistence při čtení nečtenářům a dětem prostřednictvím přirozeně znějících, emotivních hlasů, které představují širší škálu mluvčích, než je možné s přednastavenými hlasy. Společnost Age of Learning⁠(otevře se v novém okně), která se zaměřuje na vzdělávací technologie a věnuje se akademickému úspěchu dětí, to využívá k vytváření předem připraveného hlasového obsahu. Voice Engine a GPT‑4 používá také k vytváření personalizovaných odpovědí v reálném čase pro interakci se studenty. Díky této technologii dokázala organizace Age of Learning vytvořit více obsahu pro širší publikum.

Překlad obsahu, jako jsou videa a podcasty, aby tvůrci a firmy mohli oslovit více lidí po celém světě, a to plynule a jejich vlastním jazykem. Jedním z prvních, kdo tento přístup začal využívat, je HeyGen⁠(otevře se v novém okně), platforma pro vizuální vyprávění příběhů s umělou inteligencí, která spolupracuje se svými podnikovými zákazníky na vytváření vlastních, lidských avatarů pro nejrůznější obsah, od produktového marketingu až po prodejní ukázky. Voice Engine používá pro překlad videí, takže dokáže přeložit hlas mluvčího do více jazyků a oslovit publikum po celém světě. Při použití k překladu zachovává Voice Engine rodilý přízvuk původního mluvčího: například generování angličtiny se zvukovým vzorkem od francouzského mluvčího by produkovalo řeč s francouzským přízvukem.

Načítání...

Oslovování globálních komunit zlepšováním poskytování základních služeb v odlehlých oblastech. Společnost Dimagi⁠(otevře se v novém okně) vytváří nástroje pro komunitní zdravotnické pracovníky, aby mohli poskytovat řadu základních služeb, jako je poradenství pro kojící matky. Aby společnost Dimagi pomohla těmto pracovníkům rozvíjet jejich dovednosti, používá Voice Engine a GPT‑4 k poskytování interaktivní zpětné vazby v jejich primárním jazyce, včetně svahilštiny nebo neformálnějších jazyků, jako je šeng, což je v Keni oblíbený smíšený jazyk.

Načítání...

Podpora lidí, kteří nemluví, například terapeutické aplikace pro osoby se stavy, které ovlivňují řeč, a vzdělávací vylepšení pro ty, kteří mají potřeby učení. Livox⁠(otevře se v novém okně), aplikace pro alternativní komunikaci pomocí umělé inteligence, je základem zařízení pro augmentativní a alternativní komunikaci (AAK), která umožňují komunikaci lidem s postižením. Díky použití Voice Engine dokáže nabídnout lidem, kteří nedokážou mluvit, jedinečné a nerobotické hlasy v mnoha jazycích. Uživatelé si mohou vybrat řeč, která je nejlépe reprezentuje, a pro vícejazyčné uživatele je možné zachovat konzistentní hlas napříč všemi mluvenými jazyky.

Načítání...

Pomáháme pacientům znovu získat hlas, pro ty, kteří trpí náhlými nebo degenerativními poruchami řeči. Norman Prince Neurosciences Institute v Lifespan⁠(otevře se v novém okně), neziskový zdravotnický systém, který slouží jako hlavní výukový partner lékařské fakulty Brownovy univerzity, zkoumá využití umělé inteligence v klinických kontextech. Pilotně testuje program, který nabízí Voice Engine osobám s onkologickými nebo neurologickými příčinami poruch řeči. Protože Voice Engine vyžaduje tak krátký zvukový vzorek, lékaři Fatima Mirza, Rohaid Ali a Konstantina Svokos dokázali obnovit hlas mladé pacientky, která ztratila schopnost plynulé řeči kvůli cévnímu nádoru na mozku, a to pomocí zvuku z videa nahraného pro školní projekt.

Načítání...

Bezpečné budování Voice Engine

Uvědomujeme si, že generování řeči, která se podobá hlasům lidí, s sebou nese vážná rizika, která jsou ve volebním roce obzvláště aktuální. Spolupracujeme s americkými i mezinárodními partnery z oblasti státních úřadů, médií, zábavního průmyslu, vzdělávání, občanské společnosti a dalších oblastí, abychom zajistili zahrnutí jejich zpětné vazby do naší tvorby. Partneři, kteří dnes Voice Engine testují, souhlasili s našimi zásadami používání⁠, které zakazují vydávání se za jinou osobu nebo organizaci bez souhlasu nebo zákonného nároku. Naše podmínky pro tyto partnery navíc vyžadují výslovný a informovaný souhlas původního mluvčího a vývojářům neumožňujeme vytvářet způsoby, jak by si jednotliví uživatelé mohli vytvářet vlastní hlasy. Partneři musí také svému publiku jasně sdělit, že hlasy, které slyší, jsou generovány umělou inteligencí. Nakonec jsme zavedli sadu bezpečnostních opatření, včetně zvukových vodoznaků ke sledování původu veškerého zvuku generovaného modulem Voice Engine a také proaktivního monitorování jeho používání. Věříme, že jakékoli široké zpřístupnění technologie syntetického hlasu by mělo být doprovázeno ověřováním hlasu k zajištění, že původní mluvčí do služby přidává svůj hlas vědomě, a seznamem zakázaných hlasů, který detekuje a zabraňuje vytváření hlasů, které jsou příliš podobné hlasům významných osobností.

Budoucnost

Voice Engine je pokračováním našeho závazku porozumět technickým hranicím a otevřeně sdílet to, co umělá inteligence začíná umožňovat. V souladu s naším přístupem k bezpečnosti umělé inteligence⁠ a našimi dobrovolnými závazky⁠ jsme se rozhodli tuto technologii v tuto chvíli nejprve vyzkoušet, ale ne ji veřejně zpřístupnit. Doufáme, že tato ukázka Voice Engine podtrhne jeho potenciál a zároveň motivuje potřebu posílit odolnost společnosti vůči výzvám, které přinášejí stále přesvědčivější generativní modely. Konkrétně doporučujeme kroky, jako jsou:

Postupné ukončení hlasového ověřování jako bezpečnostního opatření pro přístup k bankovním účtům a dalším citlivým informacím
Prozkoumání zásad na ochranu používání hlasů osob v umělé inteligenci
Vzdělávání veřejnosti v porozumění možnostem a omezením technologií umělé inteligence, včetně možnosti klamavého obsahu vytvořeného umělou inteligencí
Urychlení vývoje a zavádění technik pro sledování původu audiovizuálního obsahu, aby bylo vždy jasné, jestli je interakce se skutečnou osobou, nebo s umělou inteligencí

Je důležité, aby lidé na celém světě chápali, kam tato technologie směřuje, ať už ji nakonec sami široce zpřístupníme, nebo ne. Těšíme se na pokračování v diskuzích o výzvách a příležitostech, které syntetické hlasy nabízejí, s tvůrci pravidel, výzkumníky, vývojáři a tvůrci.

Související články

Zobrazit vše

Video generation models as world simulators

Publikace15. 2. 2024

Building an early warning system for LLM-aided biological threat creation

Publikace31. 1. 2024

Weak-to-strong generalization

Bezpečnost14. 12. 2023