29 март 2024 г.

Навигација низ предизвиците и можностите на синтетичките гласови

Споделуваме лекции од преглед во мал обем на Voice Engine, модел за создавање приспособени гласови.

Се вчитува...

OpenAI е посветена на развивање безбедна и широко корисна вештачка интелигенција⁠. Денес споделуваме прелиминарни сознанија и резултати од преглед во мал обем на модел наречен Voice Engine, кој користи текстуално внесување и еден 15-секунден аудио примерок за да генерира говор со природен звук што многу наликува на оригиналниот говорник. Забележително е дека мал модел со еден примерок од 15 секунди може да создаде емотивни и реалистични гласови.

Прво го развивме Voice Engine кон крајот на 2022 година и го користевме за да ги напојува однапред поставените гласови достапни во API за претворање на текст во говор⁠(се отвора во нов прозорец), како и ChatGPT Voice и Read Aloud⁠. Во исто време, преземаме претпазлив и информиран пристап кон пошироко објавување поради потенцијалот за злоупотреба на синтетички глас. Се надеваме дека ќе започнеме дијалог за одговорното воведување на синтетички гласови и како општеството може да се приспособи на овие нови можности. Врз основа на овие разговори и резултатите од овие тестови во мал обем, ќе донесеме поинформирана одлука за тоа дали и како да ја имплементираме оваа технологија во голем обем.

Рани примени на Voice Engine

За подобро да ги разбереме потенцијалните употреби на оваа технологија, кон крајот на минатата година започнавме приватно да ја тестираме со мала група доверливи партнери. Импресионирани сме од апликациите што ги разви оваа група. Овие мали распоредувања помагаат да се информира нашиот пристап, заштитни мерки и размислување за тоа како Voice Engine би можел да се користи за добро низ различни индустрии. Неколку рани примери вклучуваат:

Обезбедување помош при читање за оние што не читаат и за деца преку гласови со природен звук и емоции што претставуваат поширок опсег на говорници отколку што е можно со однапред дефинирани гласови. Age of Learning⁠(се отвора во нов прозорец), компанија за образовна технологија посветена на академскиот успех на децата, го користи ова за генерирање однапред скриптирана содржина за гласовен наратив. Тие исто така користат Voice Engine и GPT‑4 за да создадат одговори во реално време, персонализирани, за да комуницираат со учениците. Со оваа технологија, Age of Learning успеа да создаде повеќе содржина за поширока публика.

Преведување содржина, како видеа и поткасти, за да можат креаторите и фирмите да допрат до повеќе луѓе ширум светот, течно и во нивните сопствени гласови. Еден ран усвојувач на ова е HeyGen⁠(се отвора во нов прозорец), платформа за визуелно раскажување приказни со вештачка интелигенција што работи со своите клиенти-претпријатија за да создава приспособени, човечки аватари за разновидна содржина, од маркетинг на производи до продажни демоа. Тие го користат Voice Engine за превод на видео, за да можат да го преведат гласот на говорникот на повеќе јазици и да допрат до глобална публика. Кога се користи за превод, Voice Engine го зачувува мајчиниот акцент на оригиналниот говорник: на пример, генерирање англиски со аудио примерок од француски говорник би произвело говор со француски акцент.

Се вчитува...

Допирање до глобалните заедници, преку подобрување на испораката на суштински услуги во оддалечени средини. Dimagi⁠(се отвора во нов прозорец) гради алатки за работници за здравје во заедницата за да обезбедуваат разновидни основни услуги, како што е советување за мајки што дојат. За да им помогне на овие работници да ги развијат своите вештини, Dimagi користи Voice Engine и GPT‑4 за да даде интерактивни повратни информации на примарниот јазик на секој работник, вклучително и свахили или понеформални јазици како Sheng, јазик со мешани кодови популарен во Кенија.

Се вчитува...

Поддршка за лица кои не зборуваат, како што се терапевтски апликации за поединци со состојби што влијаат на говорот и образовни подобрувања за оние со потреби за учење. Livox⁠(се отвора во нов прозорец), апликација за алтернативна комуникација со вештачка интелигенција, ги напојува уредите за дополнителна и алтернативна комуникација (AAC) кои им овозможуваат на лицата со попреченост да комуницираат. Со користење на Voice Engine, тие можат да им понудат на луѓето кои не зборуваат уникатни и нероботски гласови на многу јазици. Нивните корисници можат да изберат говор што најдобро ги претставува, а за повеќејазичните корисници, да одржуваат доследен глас низ секој изговорен јазик.

Се вчитува...

Помагање на пациентите да го повратат својот глас, за оние што страдаат од ненадејни или дегенеративни состојби на говорот. Институтот за невронауки „Norman Prince“ при Lifespan⁠(се отвора во нов прозорец), непрофитен здравствен систем што служи како примарен наставен партнер на медицинскиот факултет на Универзитетот Браун, истражува начини на користење на вештачката интелигенција во клинички контексти. Тие пилотираат програма што нуди Voice Engine на поединци со онколошки или невролошки етиологии за нарушување на говорот. Бидејќи Voice Engine бара толку краток аудио примерок, докторите Фатима Мирза, Рохаид Али и Константина Свокос успеаја да го вратат гласот на млада пациентка која го изгуби својот течен говор поради васкуларен тумор на мозокот, користејќи аудио од видео снимено за училишен проект.

Се вчитува...

Безбедна изградба на Voice Engine

Свесни сме дека генерирањето говор што наликува на гласовите на луѓето носи сериозни ризици, кои се особено актуелни во изборна година. Соработуваме со партнери од САД и меѓународни партнери од целата влада, медиумите, забавата, образованието, граѓанското општество и пошироко за да се погрижиме да ги вклучиме нивните повратни информации додека градиме. Партнерите што денес го тестираат Voice Engine се согласија со нашите политики на користење⁠, кои забрануваат претставување како друго лице или организација без согласност или законско право. Покрај тоа, нашите услови со овие партнери бараат експлицитна и информирана согласност од оригиналниот говорник и не им дозволуваме на развивачите на софтвери да создаваат начини за поединечни корисници да креираат свои сопствени гласови. Партнерите мора исто така јасно да ѝ откријат на својата публика дека гласовите што ги слушаат се генерирани од вештачка интелигенција. Конечно, имплементиравме сет на безбедносни мерки, вклучувајќи воден жиг за да се следи потеклото на секое аудио генерирано од Voice Engine, како и проактивно следење на тоа како се користи. Веруваме дека секое широко воведување на технологија за синтетички глас треба да биде придружено со искуства за автентикација на глас што потврдуваат дека оригиналниот говорник свесно го додава својот глас во услугата и со листа на забранети гласови што открива и спречува создавање гласови што се премногу слични на истакнати личности.

Гледајќи напред

Voice Engine е продолжение на нашата посветеност да го разбереме напредниот технички фронт и отворено да споделиме што станува возможно со вештачка интелигенција. Во согласност со нашиот пристап кон безбедноста на вештачката интелигенција⁠ и нашите доброволни обврски⁠, избираме да ја прикажеме оваа технологија како преглед, но да не ја објавиме на широката публика во овој момент. Се надеваме дека овој преглед на Voice Engine и ја нагласува неговата потенцијална вредност и ја поттикнува потребата да се зајакне општествената отпорност кон предизвиците што ги носат сè поубедливите генеративни модели. Поконкретно, ги охрабруваме чекорите како што се:

Постепено укинување на автентикацијата базирана на глас како безбедносна мерка за пристап до банкарски сметки и други чувствителни информации
Истражување на политики за заштита на користењето на гласовите на поединци во вештачката интелигенција
Едукација на јавноста за разбирање на можностите и ограничувањата на технологиите за вештачка интелигенција, вклучувајќи ја и можноста за измамлива содржина од вештачка интелигенција
Забрзување на развојот и усвојувањето на техники за следење на потеклото на аудиовизуелната содржина, за секогаш да биде јасно дали комуницирате со вистинска личност или со вештачка интелигенција

Важно е луѓето ширум светот да разберат каде се движи оваа технологија, без разлика дали на крајот ќе ја воведеме за широката публика ние или не. Со нетрпение очекуваме да продолжиме да учествуваме во разговори за предизвиците и можностите на синтетичките гласови со креаторите на политики, истражувачите, развивачите на софвери и креативците.

Поврзани статии

Види ги сите

Video generation models as world simulators

Објава15 фев. 2024 г.

Building an early warning system for LLM-aided biological threat creation

Објава31 јан. 2024 г.

Weak-to-strong generalization

Безбедност14 дек. 2023 г.