2024. március 29.

A mesterséges hang kihívásainak és lehetőségeinek feltérképezése

Oktató céllal megosztjuk a Voice Engine, az egyedi hangok létrehozására szolgáló modell kis léptékű előnézetéből származó tapasztalatokat.

Betöltés…

Az OpenAI elkötelezett a biztonságos és széles körben előnyös mesterséges intelligencia fejlesztése⁠ mellett. Ma megosztjuk a Voice Engine nevű modell kis léptékű előnézetéből származó előzetes eredményeket és tapasztalatokat, amely szöveges bemenet és egyetlen 15 másodperces hangminta alapján képes természetes hangzású beszédet generálni, amely nagyon hasonlít az eredeti beszélő hangjára. Figyelemre méltó, hogy egy kis modell egyetlen 15 másodperces mintával is képes érzelmeket kifejező és valósághű hangot létrehozni.

A Voice Engine-t először 2022 végén fejlesztettük ki, és ezt használtuk a szöveg-beszéd API⁠(új ablakban nyílik meg)-ban elérhető előre beállított hangok, valamint a ChatGPT Hang és Felolvasás⁠ működtetéséhez. Ugyanakkor óvatos és körültekintő megközelítést alkalmazunk a szélesebb körű kiadásnál a mesterséges hangok visszaélésének lehetősége miatt. Reméljük, hogy párbeszédet indíthatunk a mesterséges hangok felelős bevezetéséről, és arról, hogyan tud a társadalom alkalmazkodni az ilyen új képességekhez. A beszélgetések és a kis léptékű tesztek eredményei alapján tájékozottabb döntést hozunk arról, hogy bevezessük-e ezt a technológiát nagy léptékben is, és ha igen, hogyan.

A Voice Engine korai alkalmazásai

Hogy jobban megértsük a technológia lehetséges felhasználási módjait, tavaly év végén privát módon tesztelésbe kezdtünk megbízható partnerek egy kis csoportjával. Lenyűgöztek minket a csoport által fejlesztett alkalmazások. Ezek a kis léptékű telepítések segítenek megközelítésünk formálásában, a biztosítékain és a gondolkodásunk igazításában arról, hogy a Voice Engine hogyan használható nemes célokra a különböző iparágakban. Néhány korai példa:

Olvasási segítség olvasásra képtelen személyek és gyermekek számára természetes hangzású, érzelmeket kifejező hangokkal, amelyek a beszélők szélesebb körét képviselik, mint ami az előre beállított hangokkal lehetséges. Az Age of Learning⁠(új ablakban nyílik meg), a gyermekek tanulmányi sikerének elősegítésére elkötelezett oktatástechnológiai vállalat, ezt előre megírt narrációs tartalmak előállítására használja. Valós idejű, személyre szabott válaszok létrehozásához a Voice Engine-t és a GPT‑4‑et is használják, hogy interakcióba lépjenek a diákokkal. Ezzel a technológiával az Age of Learning képes volt több tartalmat létrehozni szélesebb közönség számára.

Tartalmak fordítása, például videó és podcast tartalmak, hogy az alkotók és a vállalkozások világszerte több embert érhessenek el folyékonyan és a saját hangjukon. Ennek egyik korai alkalmazója a HeyGen⁠(új ablakban nyílik meg), egy AI-alapú vizuális történetmesélő platform, amely vállalati ügyfeleivel együttműködve egyedi, emberhez hasonló avatarokat hoz létre különféle tartalmakhoz, a termékmarketingtől az értékesítési demókig. Ők a videók fordításához a Voice Engine-t használják, így a beszélő hangját több nyelvre is le tudják fordítani, és globális közönséget érhetnek el. Fordítás esetén a Voice Engine megőrzi az eredeti beszélő anyanyelvi akcentusát: például ha egy francia beszélőtől származó hangmintával generálunk angol nyelvű beszédet, az francia akcentussal fog megszólalni.

Betöltés...

Globális közösségek elérése az alapvető szolgáltatások távoli környezetekben történő nyújtásával. A Dimagi⁠(új ablakban nyílik meg) olyan eszközöket fejleszt a közösségi egészségügyi dolgozók számára, amelyekkel számos alapvető szolgáltatást nyújthatnak, például tanácsadást a szoptató anyáknak. E munkavállalók készségeinek fejlesztése érdekében a Dimagi a Voice Engine-t és a GPT‑4‑et használja, hogy interaktív visszajelzést adjon minden munkavállaló elsődleges nyelvén, beleértve a szuahéli nyelvet vagy az informálisabb nyelveket, például a Sheng-et, egy Kenyában népszerű, kódkevert nyelvet.

Betöltés...

Beszédre nem képes emberek támogatása, például terápiás alkalmazások a beszédet érintő állapotokkal élő személyek számára, valamint oktatási fejlesztések a különleges tanulási igényekkel rendelkezők számára. Livox⁠(új ablakban nyílik meg), egy olyan AI-alapú alternatív kommunikációs alkalmazás, amely a fogyatékossággal élő emberek számára a kommunikációt lehetővé tévő augmentatív és alternatív kommunikációs (AAC) eszközöket működteti. A Voice Engine használatával számos nyelven képesek egyedi és nem robotikus hangokat kínálni a beszédre nem képes személyek. A felhasználóik kiválaszthatják azt a beszédhangot, amely a legjobban illik hozzájuk, a többnyelvű felhasználók pedig minden beszélt nyelvben következetes hangot tarthatnak fenn.

Betöltés...

Segítünk azoknak a betegeknek visszanyerni a hangjukat, akik hirtelen jelentkező vagy degeneratív beszédzavarokkal küzdenek. A Brown Egyetem orvosi karának elsődleges oktatókórházi partnereként működő, nonprofit egészségügyi rendszerként szolgáló Lifespan⁠(új ablakban nyílik meg) keretében működő Norman Prince Idegtudományi Intézet az AI klinikai környezetben történő felhasználási lehetőségeit vizsgálja. Egy kísérleti program keretében a Voice Engine-t olyan személyek számára kínálják, akiknél onkológiai vagy neurológiai eredetű beszédkárosodás áll fenn. Mivel a Voice Engine-nek ilyen rövid hangmintára van szüksége, Fatima Mirza, Rohaid Ali és Konstantina Svokos orvosok helyre tudták állítani egy fiatal páciens hangját, aki egy éreredetű agydaganat miatt elveszítette a folyékony beszédkészségét; a helyreállításhoz egy iskolai projekthez rögzített videó hanganyagát használták fel.

Betöltés...

A Voice Engine biztonságos kiépítése

Tisztában vagyunk azzal, hogy az emberi hangra emlékeztető beszéd generálása komoly kockázatokat hordoz, különösen egy választási évben. Kapcsolatban vagyunk az Egyesült Államokbeli és nemzetközi partnerekkel a kormányzat, a média, a szórakoztatás, az oktatás, a civil társadalom és más területekről, hogy biztosítsuk visszajelzéseik beépítését a fejlesztés során. A Voice Engine-t ma tesztelő partnerek elfogadták használati irányelveinket⁠, amelyek tiltják egy másik személy vagy szervezet megszemélyesítését beleegyezés vagy jogi felhatalmazás hiányában. Ezenfelül az ezekkel a partnerekkel kötött feltételeink megkövetelik az eredeti beszélő kifejezett és tájékozott hozzájárulását, és nem engedjük, hogy a fejlesztők olyan megoldásokat építsenek, amelyek révén az egyes felhasználók saját hangot hozzanak létre. A partnereknek azt is egyértelműen közölniük kell a közönségükkel, hogy a hallott hangot mesterséges intelligencia generálta. Végül bevezettünk egy sor biztonsági intézkedést, beleértve a vízjelezést, hogy nyomon követhessük a Voice Engine által generált hangok eredetét, valamint proaktív monitorozást a felhasználás mikéntjének figyelésére. Úgy véljük, hogy a mesterséges hang technológiája széles körű bevezetését hanghitelesítési élményeknek kell kísérniük, amelyek biztosítják, hogy az eredeti beszélő tudatosan adja hozzá a hangját a szolgáltatáshoz, valamint egy tiltó hanglistának, amely felismeri és megakadályozza a túlzottan ismert személyekhez túlságosan hasonló hangok létrehozását.

Előretekintés

A Voice Engine annak a folyamatos elkötelezettségünknek a folytatása, hogy megértsük az élvonalbeli technikát, és nyíltan megosszuk az AI által kínált lehetőségeket. Az AI-biztonsági megközelítésünkkel⁠ és az önkéntes kötelezettségvállalásainkkal⁠ összhangban úgy döntöttünk, hogy ezt a technológiát egyelőre előnézetként tesszük elérhetővé, és jelenleg nem adjuk ki széles körben. Reméljük, hogy a Voice Engine ezen előzetese egyszerre hangsúlyozza a benne rejlő lehetőségeket, és ösztönzi a társadalmi reziliencia megerősítésének szükségességét is az egyre meggyőzőbb generatív modellek által támasztott kihívásokkal szemben. Konkrétan olyan lépéseket ösztönzünk, mint például:

A hangalapú hitelesítés fokozatos megszüntetése, mely biztonsági intézkedést jelent a bankszámlákhoz és más érzékeny adatokhoz való hozzáférés esetén
Az egyéni hangok mesterséges intelligenciában történő felhasználását védő irányelvek körbejárása
A nyilvánosság oktatása az AI-technológiák képességeinek és korlátainak megértése céljára, beleértve a megtévesztő AI-tartalom lehetőségét is
A fejlesztés és az olyan technikák elfogadásának felgyorsítása, amelyek az audiovizuális tartalom eredetének nyomon követését teszik lehetővé, így mindig egyértelmű, hogy valós személlyel vagy AI-vel lépsz-e éppen interakcióba

Fontos, hogy az emberek világszerte megértsék, merre tart ez a technológia, függetlenül attól, hogy végül mi magunk bevezetjük-e széles körben, vagy sem. Alig várjuk, hogy tovább folytathassuk az egyeztetéseket a döntéshozókkal, kutatókkal, fejlesztőkkel és kreatív szakemberekkel a szintetikus hangok kihívásairól és lehetőségeiről.

Kapcsolódó cikkek

Összes megtekintése

Video generation models as world simulators

Publikáció2024. febr. 15.

Building an early warning system for LLM-aided biological threat creation

Publikáció2024. jan. 31.

Weak-to-strong generalization

Biztonság2023. dec. 14.