Навигација низ предизвиците и можностите на синтетичките гласови
Споделуваме лекции од преглед во мал обем на Voice Engine, модел за создавање приспособени гласови.
OpenAI е посветена на развивање безбедна и широко корисна вештачка интелигенција. Денес споделуваме прелиминарни сознанија и резултати од преглед во мал обем на модел наречен Voice Engine, кој користи текстуално внесување и еден 15-секунден аудио примерок за да генерира говор со природен звук што многу наликува на оригиналниот говорник. Забележително е дека мал модел со еден примерок од 15 секунди може да создаде емотивни и реалистични гласови.
Прво го развивме Voice Engine кон крајот на 2022 година и го користевме за да ги напојува однапред поставените гласови достапни во API за претворање на текст во говор(се отвора во нов прозорец), како и ChatGPT Voice и Read Aloud. Во исто време, преземаме претпазлив и информиран пристап кон пошироко објавување поради потенцијалот за злоупотреба на синтетички глас. Се надеваме дека ќе започнеме дијалог за одговорното воведување на синтетички гласови и како општеството може да се приспособи на овие нови можности. Врз основа на овие разговори и резултатите од овие тестови во мал обем, ќе донесеме поинформирана одлука за тоа дали и како да ја имплементираме оваа технологија во голем обем.
За подобро да ги разбереме потенцијалните употреби на оваа технологија, кон крајот на минатата година започнавме приватно да ја тестираме со мала група доверливи партнери. Импресионирани сме од апликациите што ги разви оваа група. Овие мали распоредувања помагаат да се информира нашиот пристап, заштитни мерки и размислување за тоа како Voice Engine би можел да се користи за добро низ различни индустрии. Неколку рани примери вклучуваат:
- Обезбедување помош при читање за оние што не читаат и за деца преку гласови со природен звук и емоции што претставуваат поширок опсег на говорници отколку што е можно со однапред дефинирани гласови. Age of Learning(се отвора во нов прозорец), компанија за образовна технологија посветена на академскиот успех на децата, го користи ова за генерирање однапред скриптирана содржина за гласовен наратив. Тие исто така користат Voice Engine и GPT‑4 за да создадат одговори во реално време, персонализирани, за да комуницираат со учениците. Со оваа технологија, Age of Learning успеа да создаде повеќе содржина за поширока публика.
- Преведување содржина, како видеа и поткасти, за да можат креаторите и фирмите да допрат до повеќе луѓе ширум светот, течно и во нивните сопствени гласови. Еден ран усвојувач на ова е HeyGen(се отвора во нов прозорец), платформа за визуелно раскажување приказни со вештачка интелигенција што работи со своите клиенти-претпријатија за да создава приспособени, човечки аватари за разновидна содржина, од маркетинг на производи до продажни демоа. Тие го користат Voice Engine за превод на видео, за да можат да го преведат гласот на говорникот на повеќе јазици и да допрат до глобална публика. Кога се користи за превод, Voice Engine го зачувува мајчиниот акцент на оригиналниот говорник: на пример, генерирање англиски со аудио примерок од француски говорник би произвело говор со француски акцент.
- Допирање до глобалните заедници, преку подобрување на испораката на суштински услуги во оддалечени средини. Dimagi(се отвора во нов прозорец) гради алатки за работници за здравје во заедницата за да обезбедуваат разновидни основни услуги, како што е советување за мајки што дојат. За да им помогне на овие работници да ги развијат своите вештини, Dimagi користи Voice Engine и GPT‑4 за да даде интерактивни повратни информации на примарниот јазик на секој работник, вклучително и свахили или понеформални јазици како Sheng, јазик со мешани кодови популарен во Кенија.
- Поддршка за лица кои не зборуваат, како што се терапевтски апликации за поединци со состојби што влијаат на говорот и образовни подобрувања за оние со потреби за учење. Livox(се отвора во нов прозорец), апликација за алтернативна комуникација со вештачка интелигенција, ги напојува уредите за дополнителна и алтернативна комуникација (AAC) кои им овозможуваат на лицата со попреченост да комуницираат. Со користење на Voice Engine, тие можат да им понудат на луѓето кои не зборуваат уникатни и нероботски гласови на многу јазици. Нивните корисници можат да изберат говор што најдобро ги претставува, а за повеќејазичните корисници, да одржуваат доследен глас низ секој изговорен јазик.
- Помагање на пациентите да го повратат својот глас, за оние што страдаат од ненадејни или дегенеративни состојби на говорот. Институтот за невронауки „Norman Prince“ при Lifespan(се отвора во нов прозорец), непрофитен здравствен систем што служи како примарен наставен партнер на медицинскиот факултет на Универзитетот Браун, истражува начини на користење на вештачката интелигенција во клинички контексти. Тие пилотираат програма што нуди Voice Engine на поединци со онколошки или невролошки етиологии за нарушување на говорот. Бидејќи Voice Engine бара толку краток аудио примерок, докторите Фатима Мирза, Рохаид Али и Константина Свокос успеаја да го вратат гласот на млада пациентка која го изгуби својот течен говор поради васкуларен тумор на мозокот, користејќи аудио од видео снимено за училишен проект.
Свесни сме дека генерирањето говор што наликува на гласовите на луѓето носи сериозни ризици, кои се особено актуелни во изборна година. Соработуваме со партнери од САД и меѓународни партнери од целата влада, медиумите, забавата, образованието, граѓанското општество и пошироко за да се погрижиме да ги вклучиме нивните повратни информации додека градиме. Партнерите што денес го тестираат Voice Engine се согласија со нашите политики на користење, кои забрануваат претставување како друго лице или организација без согласност или законско право. Покрај тоа, нашите услови со овие партнери бараат експлицитна и информирана согласност од оригиналниот говорник и не им дозволуваме на развивачите на софтвери да создаваат начини за поединечни корисници да креираат свои сопствени гласови. Партнерите мора исто така јасно да ѝ откријат на својата публика дека гласовите што ги слушаат се генерирани од вештачка интелигенција. Конечно, имплементиравме сет на безбедносни мерки, вклучувајќи воден жиг за да се следи потеклото на секое аудио генерирано од Voice Engine, како и проактивно следење на тоа како се користи. Веруваме дека секое широко воведување на технологија за синтетички глас треба да биде придружено со искуства за автентикација на глас што потврдуваат дека оригиналниот говорник свесно го додава својот глас во услугата и со листа на забранети гласови што открива и спречува создавање гласови што се премногу слични на истакнати личности.
Voice Engine е продолжение на нашата посветеност да го разбереме напредниот технички фронт и отворено да споделиме што станува возможно со вештачка интелигенција. Во согласност со нашиот пристап кон безбедноста на вештачката интелигенција и нашите доброволни обврски, избираме да ја прикажеме оваа технологија како преглед, но да не ја објавиме на широката публика во овој момент. Се надеваме дека овој преглед на Voice Engine и ја нагласува неговата потенцијална вредност и ја поттикнува потребата да се зајакне општествената отпорност кон предизвиците што ги носат сè поубедливите генеративни модели. Поконкретно, ги охрабруваме чекорите како што се:
- Постепено укинување на автентикацијата базирана на глас како безбедносна мерка за пристап до банкарски сметки и други чувствителни информации
- Истражување на политики за заштита на користењето на гласовите на поединци во вештачката интелигенција
- Едукација на јавноста за разбирање на можностите и ограничувањата на технологиите за вештачка интелигенција, вклучувајќи ја и можноста за измамлива содржина од вештачка интелигенција
- Забрзување на развојот и усвојувањето на техники за следење на потеклото на аудиовизуелната содржина, за секогаш да биде јасно дали комуницирате со вистинска личност или со вештачка интелигенција
Важно е луѓето ширум светот да разберат каде се движи оваа технологија, без разлика дали на крајот ќе ја воведеме за широката публика ние или не. Со нетрпение очекуваме да продолжиме да учествуваме во разговори за предизвиците и можностите на синтетичките гласови со креаторите на политики, истражувачите, развивачите на софвери и креативците.


