2024 оны гуравдугаар сарын 29

Синтетик дуу хоолойн сорилт ба боломжийг чиглүүлэх нь

Бид захиалгат дуу хоолой бүтээх загвар болох Voice Engine-ийн жижиг хүрээний урьдчилсан туршилтаас авсан сургамжуудаа хуваалцаж байна.

Ачаалж байна…

OpenAI нь аюулгүй бөгөөд өргөн хүрээнд үр өгөөжтэй AI бүтээх⁠ амлалттай. Өнөөдөр бид Voice Engine нэртэй загварын жижиг хүрээний урьдчилсан туршилтаас авсан урьдчилсан ойлголт, үр дүнг хуваалцаж байна. Энэ нь текст оролт болон ердөө 15 секундын нэг аудио жишээг ашиглан эх илтгэгчтэй маш төстэй, байгалийн мэт сонсогдох яриа үүсгэдэг. Ердөө 15 секундын ганц жишээгээр жижиг загвар сэтгэл хөдлөлтэй, бодит мэт дуу хоолой бүтээж чаддаг нь онцлохуйц юм.

Бид Voice Engine-ийг анх 2022 оны сүүлээр боловсруулсан бөгөөд үүнийг text-to-speech API⁠(шинэ цонхонд нээгдэнэ)-д байдаг урьдчилан тохируулсан дуу хоолойнууд, мөн ChatGPT Voice болон Read Aloud⁠-ыг ажиллуулахад ашигласан. Үүний зэрэгцээ, синтетик дуу хоолойг буруугаар ашиглах эрсдэлээс шалтгаалан бид илүү өргөн хүрээний гаргалтад болгоомжтой, мэдээлэлд суурилсан хандлага баримталж байна. Бид синтетик дуу хоолойг хариуцлагатай нэвтрүүлэх, мөн нийгэм эдгээр шинэ боломжид хэрхэн дасан зохицож болох талаар хэлэлцүүлэг эхлүүлнэ гэж найдаж байна. Эдгээр яриа хэлэлцээ болон жижиг хэмжээний туршилтуудын үр дүнд үндэслэн бид энэ технологийг өргөн хэмжээнд нэвтрүүлэх эсэх, хэрхэн нэвтрүүлэх талаар илүү мэдээлэлтэй шийдвэр гаргана.

Voice Engine-ийн эхний хэрэглээнүүд

Энэ технологийн боломжит хэрэглээг илүү сайн ойлгохын тулд өнгөрсөн оны сүүлээр бид итгэл хүлээсэн цөөн түнштэйгээ хувийн байдлаар туршиж эхэлсэн. Энэ бүлгийн хөгжүүлсэн хэрэглээнүүд бидэнд ихээхэн сэтгэгдэл төрүүлсэн. Эдгээр жижиг хэмжээний нэвтрүүлэлтүүд нь Voice Engine-ийг янз бүрийн салбарт сайн сайхны төлөө хэрхэн ашиглаж болох талаархи бидний хандлага, хамгаалалт, бодол санааг тодорхойлоход тусалж байна. Эхний хэдэн жишээ дурдвал:

Уншихад туслах үйлчилгээ үзүүлэх урьдчилан тохируулсан дуу хоолойгоор боломжтойгоос илүү өргөн хүрээний илтгэгчдийг төлөөлсөн, байгалийн мэт, сэтгэл хөдлөлтэй дуу хоолойгоор уншиж чаддаггүй хүмүүс болон хүүхдүүдэд. Хүүхдийн сурлагын амжилтад зориулагдсан боловсролын технологийн компани Age of Learning⁠(шинэ цонхонд нээгдэнэ) үүнийг урьдчилан бичигдсэн дуу оруулгын контент үүсгэхэд ашиглаж байна. Тэд мөн Voice Engine болон GPT‑4‑ийг ашиглан сурагчидтай харилцах бодит цагийн, хувь хүнд тохирсон хариултуудыг бүтээдэг. Энэ технологийн ачаар Age of Learning илүү өргөн хүрээний үзэгчдэд зориулж илүү их контент бүтээх боломжтой болсон.

Контент орчуулах, жишээлбэл видео, подкаст зэргийг, ингэснээр бүтээгчид болон бизнесүүд дэлхий даяарх илүү олон хүнд өөрсдийн дуу хоолойгоор, чөлөөтэй хүрч чадна. Үүний анхны хэрэглэгчдийн нэг нь HeyGen⁠(шинэ цонхонд нээгдэнэ) бөгөөд энэ нь бүтээгдэхүүний маркетингаас борлуулалтын демо хүртэлх олон төрлийн контентод зориулж байгууллагын хэрэглэгчидтэйгээ хамтран захиалгат, хүний мэт аватар бүтээдэг AI дүрслэлт өгүүлэмжийн платформ юм. Тэд Voice Engine-ийг видео орчуулгад ашигладаг тул илтгэгчийн дуу хоолойг олон хэл рүү орчуулж, дэлхийн үзэгчдэд хүрч чаддаг. Орчуулгад ашиглах үед Voice Engine эх илтгэгчийн төрөлх аялгыг хадгалдаг: жишээлбэл франц хэлтэй хүний аудио жишээгээр англи хэл үүсгэвэл франц аялгатай яриа гарна.

Ачаалж байна...

Дэлхийн олон нийтийн бүлгүүдэд хүрэх, алслагдсан орчинд зайлшгүй үйлчилгээний хүргэлтийг сайжруулах замаар. Dimagi⁠(шинэ цонхонд нээгдэнэ) нь хөхүүл эхчүүдэд зөвлөгөө өгөх зэрэг төрөл бүрийн зайлшгүй үйлчилгээг үзүүлэхэд олон нийтийн эрүүл мэндийн ажилтнуудад зориулсан хэрэгсэл бүтээж байна. Эдгээр ажилтнуудад ур чадвараа хөгжүүлэхэд нь туслахын тулд Dimagi нь ажилтан бүрийн үндсэн хэлээр, үүнд суахили эсвэл Кени улсад түгээмэл код-холимог хэл болох Sheng зэрэг илүү албан бус хэлүүдээр интерактив санал хүсэлт өгөхдөө Voice Engine болон GPT‑4‑ийг ашигладаг.

Ачаалж байна...

Ярьж чаддаггүй хүмүүсийг дэмжих, тухайлбал хэл ярианд нөлөөлдөг эмгэгтэй хүмүүст зориулсан эмчилгээний хэрэглээ болон суралцах хэрэгцээтэй хүмүүст зориулсан боловсролын дэмжлэг. Livox⁠(шинэ цонхонд нээгдэнэ) хэмээх AI-д суурилсан харилцааны өөр хувилбар апп нь хөгжлийн бэрхшээлтэй хүмүүст харилцах боломж олгодог нэмэгдүүлэх ба хувилбарт харилцааны (AAC) төхөөрөмжүүдийг ажиллуулдаг. Voice Engine-ийг ашигласнаар тэд ярьж чаддаггүй хүмүүст олон хэлээр өвөрмөц, робот биш мэт дуу хоолой санал болгох боломжтой болсон. Тэдний хэрэглэгчид өөрсдийг нь хамгийн сайн илэрхийлэх яриаг сонгох боломжтой бөгөөд олон хэлтэй хэрэглэгчид ярьдаг хэл бүр дээрээ тогтвортой нэгэн ижил дуу хоолойг хадгалж чадна.

Ачаалж байна...

Өвчтөнүүдэд дуу хоолойгоо сэргээхэд туслах, гэнэтийн эсвэл даамжрах хэл ярианы эмгэгтэй хүмүүст зориулан. Brown их сургуулийн анагаахын сургуулийн үндсэн сургалтын түнш болох ашгийн бус эрүүл мэндийн тогтолцоо Lifespan⁠(шинэ цонхонд нээгдэнэ)-ийн Norman Prince Neurosciences Institute нь AI-ийг эмнэлзүйн нөхцөлд ашиглах боломжийг судалж байна. Тэд хэл ярианы саатлын хавдрын болон мэдрэлийн шалтгаантай хүмүүст Voice Engine санал болгох хөтөлбөрийг туршин хэрэгжүүлж байна. Voice Engine-д ийм богино аудио жишээ л шаардлагатай тул эмч Fatima Mirza, Rohaid Ali, Konstantina Svokos нар сургуулийн төсөлд зориулж бичсэн видеоноос авсан аудиог ашиглан судасны гаралтай тархины хавдрын улмаас чөлөөтэй ярих чадвараа алдсан залуу өвчтөний дуу хоолойг сэргээж чадсан.

Ачаалж байна...

Voice Engine-ийг аюулгүйгээр бүтээх нь

Хүмүүсийн дуу хоолойтой төстэй яриа үүсгэх нь ноцтой эрсдэл дагуулдгийг бид ойлгож байгаа бөгөөд энэ нь ялангуяа сонгуулийн жилд бүр ч их анхаарал татаж байна. Бид бүтээн байгуулалтаа хийхдээ тэдний санал хүсэлтийг тусгаж байгаа эсэхийг баталгаажуулахын тулд АНУ болон олон улсын түншүүдтэйгээ төр, хэвлэл мэдээлэл, энтертэйнмент, боловсрол, иргэний нийгэм болон бусад олон салбарыг хамруулан хамтран ажиллаж байна. Өнөөдөр Voice Engine-ийг туршиж буй түншүүд манай ашиглалтын бодлого⁠-ыг зөвшөөрсөн бөгөөд уг бодлого нь зөвшөөрөл эсвэл хууль ёсны эрхгүйгээр өөр хувь хүн эсвэл байгууллагын дүр эсгэхийг хориглодог. Үүнээс гадна, эдгээр түншүүдтэй байгуулсан манай нөхцөл нь эх илтгэгчээс тодорхой, мэдээлэлтэй зөвшөөрөл авахыг шаарддаг бөгөөд бид хөгжүүлэгчдэд хувь хэрэглэгчид өөрсдийн дуу хоолойг бүтээх аргуудыг бий болгохыг зөвшөөрдөггүй. Мөн түншүүд сонсогчдодоо сонсож буй дуу хоолой нь AI-ээр үүсгэсэн гэдгийг тодорхой мэдэгдэх ёстой. Эцэст нь, бид Voice Engine-ээр үүсгэсэн аливаа аудионы эх үүслийг мөрдөх усан тэмдэглэгээ болон үүнийг хэрхэн ашиглаж байгааг идэвхтэй хянах зэрэг аюулгүй байдлын цогц арга хэмжээг хэрэгжүүлсэн. Синтетик дуу хоолойн технологийг өргөнөөр нэвтрүүлэх аливаа тохиолдолд эх илтгэгч өөрийн дуу хоолойг үйлчилгээнд зориуд нэмж байгааг баталгаажуулах дуу хоолойн баталгаажуулалтын туршлага, мөн олны танил хүмүүсийн дуу хоолойтой хэт төстэй дуу үүсгэхийг илрүүлж хориглох хориглох дуу хоолойн жагсаалт дагалдах ёстой гэж бид үзэж байна.

Цааш харвал

Voice Engine нь техникийн хил хязгаарыг ойлгож, AI-аар юу боломжтой болж байгааг нээлттэй хуваалцах бидний амлалтыг үргэлжлүүлж буй алхам юм. Бидний AI аюулгүй байдлын хандлага⁠ болон сайн дурын амлалтууд⁠-тай нийцүүлэн бид энэ технологийг одоогоор урьдчилан танилцуулж байгаа ч өргөнөөр гаргахгүй байхаар сонгож байна. Voice Engine-ийн энэ урьдчилсан танилцуулга нь түүний боломжийг онцлохоос гадна улам үнэмшилтэй болсоор буй үүсмэл загваруудаас үүдэх сорилтуудын эсрэг нийгмийн тэсвэртэй байдлыг бэхжүүлэх хэрэгцээг мөн өдөөж өгнө гэж найдаж байна. Тодруулбал, бид дараах алхмуудыг дэмжиж байна:

Банкны данс болон бусад эмзэг мэдээлэлд нэвтрэх аюулгүй байдлын арга хэмжээ болгон дуу хоолойд суурилсан баталгаажуулалтыг үе шаттайгаар халж зогсоох
Хувь хүмүүсийн дуу хоолойг AI-д ашиглахыг хамгаалах бодлогыг судлах
AI технологийн боломж ба хязгаарлалтыг, үүнд төөрөгдүүлэх AI контентын боломжийг багтаан, олон нийтэд ойлгуулах
Дуу, дүрст контентын эх үүслийг мөрдөх аргуудын хөгжүүлэлт, нэвтрэлтийг хурдасгах, ингэснээр та бодит хүнтэй эсвэл AI-тай харилцаж байгаагаа үргэлж тодорхой мэддэг байх

Эцэст нь бид өөрсдөө энэ технологийг өргөнөөр нэвтрүүлэх эсэхээс үл хамааран дэлхий даяарх хүмүүс энэ технологи хаашаа чиглэж байгааг ойлгох нь чухал. Бодлого боловсруулагчид, судлаачид, хөгжүүлэгчид болон уран бүтээлчидтэй хамтран синтетик дуу хоолойн сорилт, боломжийн талаархи яриа хэлэлцээг үргэлжлүүлэхийг бид тэсэн ядан хүлээж байна.

Холбоотой нийтлэлүүд

Бүгдийг үзэх

Video generation models as world simulators

Нийтлэл2024 оны 2-р сарын 15

Building an early warning system for LLM-aided biological threat creation

Нийтлэл2024 оны 1-р сарын 31

Weak-to-strong generalization

Аюулгүй байдал2023 оны 12-р сарын 14