2024 оны зургаадугаар сарын 7

Voice Engine хэрхэн ажилладаг болон манай аюулгүй байдлын судалгааны талаар дэлгэрүүлэн

Манай text-to-speech загварын цаадах технологийг судалж байна.

Ягаан, улбар шар, нил ягаан, ногоон зэрэг пастель өнгүүд хосолсон, тод өнгийн байгалийн төрхийг санагдуулам хийсвэр зураг.

Ачаалж байна…

Бид хүн бүрийг ахиц дэвшлийнхээ талаар мэдээлэлтэй байлгахын тулд Voice Engine хэрхэн ажилладаг болон манай аюулгүй байдлын судалгааны талаар илүү их ойлголт өгч байна. Voice Engine нь захиалгат дуу хоолой бүтээх чадвартай загвар юм.

Эцэст нь бид үүнийг өөрсдөө өргөн хүрээнд нэвтрүүлэх эсэхээс үл хамааран энэ технологи хаашаа чиглэж байгааг дэлхийн хүмүүс ойлгох нь чухал. Тиймээс бид загвар хэрхэн ажилладаг, үүнийг судалгаа ба боловсролд хэрхэн ашигладаг, мөн түүний эргэн тойронд аюулгүй байдлын арга хэмжээгээ хэрхэн хэрэгжүүлж байгаагаа тайлбарлахыг хүсэж байна. Voice Engine одоогоор өргөн нээлттэй биш байна.

Voice Engine хэрхэн ажилладаг вэ

Дуу хоолойн чадамж нь text-to-speech (TTS) загвараар ажилладаг бөгөөд зөвхөн текст болон 15 секундын ярианы дээжээс хүнтэй төстэй аудио үүсгэх чадвартай.

TTS системийг хосолсон аудио болон буулгалтаас ярианы нарийн ялгааг ойлгоход загварт туслах замаар хөгжүүлдэг. Загвар нь өгөгдсөн текстийн буулгалтад зориулан яригч ямар авиаг гаргах хамгийн өндөр магадлалтайг өөр өөр дуу хоолой, аялга, ярианы хэв маягийг харгалзан таамаглаж сурдаг. Үүний дараа загвар нь зөвхөн текстийн яригдсан хувилбарыг төдийгүй, өөр өөр төрлийн яригчид үүнийг хэрхэн хэлэхийг тусгасан ярианы өгүүлэмжийг ч үүсгэж чадна.

Эндээс TTS загвараар аудио үүсгэхэд яригчийн 15 секундын дээж болон түүнд харгалзах текст байхад л хангалттай. Загварыг тодорхой нэг яригчид зориулан fine-tune хийдэггүй, ямар нэг загварын өөрчлөн тохируулга оролцдоггүй. Харин санамсаргүй шуугианаас эхэлж, 15 секундын аудио дээж дэх яригч тухайн текстийг хэрхэн хэллэглэхтэй нягт тааруулах хүртэл аажмаар шуугианыг арилгадаг diffusion процессыг ашигладаг.

Бид энэ загварыг жил гаруй хугацаанд хөгжүүлж байна

Бид Voice Engine-ийг анх 2022 оны сүүлээр хөгжүүлсэн. Эхний үед Voice Engine загварынхаа чадвар ба хязгаарлалтыг үнэлэхийн тулд бид үүнийг нийтийн болон хувийн дууны дээжийн хольцоор дотооддоо туршсан. Энэхүү дотоод прототип нь манай уялдуулалт болон аюулгүй байдлын судалгаанд чухал байсан бөгөөд хамгаалалтын арга хэмжээг маань чиглүүлж, техникийн хил хязгаарыг ойлгох гэсэн бидний амлалтыг үргэлжлүүлсэн юм.

Чухал нь, эдгээр гаралтууд нь зөвхөн дотоод туршилтад зориулагдсан байсан бөгөөд манай бүтээгдэхүүнүүдийг ажиллуулдаг загваруудыг сургахад ашиглаагүй.

Манай шат дараалсан нэвтрүүлэлтийн хүрээний нэг хэсэг болгон энэ эртний прототип нь мөн синтетик дуу хоолойн загваруудын чадварыг бодлого боловсруулагчдад ойлгуулахад үнэ цэнтэй үүрэг гүйцэтгэсэн. Жишээлбэл, өнгөрсөн зуны үеэс эхлэн бид дэлхийн өндөр түвшний бодлого боловсруулагчдад энэ технологийн боломжийг үзүүлж, түүнтэй холбоотой эрсдэлийн талаар хэлэлцсэн.

2023 оны 9-р сард⁠, бид ChatGPT‑ийн дууны горим боломжийг ажиллуулахад Voice Engine-ийг ашигласан. Эдгээр чадварууд нь мөн шинэ эрсдэл дагуулж байсан тул бид үүнийг зөвхөн энэ тодорхой хэрэглээний тохиолдолд нэвтрүүлсэн. Дууны горимыг зөвхөн бодит дуу хоолойгоос бүтээсэн бөгөөд мэргэжлийн дуу оруулагч, авьяас зуучлалын агентлаг, кастингийн найруулагч, салбарын зөвлөхүүдийг хамруулсан 2023 оны 5-р сард эхэлсэн нарийвчилсан үйл явцаар нягт сонгосон⁠.

2023 оны 11-р сард⁠, бид мөн Voice Engine-ээр ажилладаг энгийн TTS API⁠(шинэ цонхонд нээгдэнэ)-г гаргасан. Бид API дахь урьдчилан тохируулсан зургаан дуу хоолой тус бүрийг ажиллуулахын тулд мэргэжлийн дуу оруулагчидтай хамтран 15 секундын аудио дээж бүтээсэн өөр нэг хязгаарлагдмал нээлтийг сонгосон. Жишээлбэл, хөгжүүлэгчид эдгээрийг вэбсайтдаа суулгаж блог нийтлэлийг чангаар уншуулж болно.

Энэ оны 3-р сард⁠, бид Voice Engine-ийн захиалгат дуу хоолой бүтээх чадварыг цөөн тооны итгэлтэй түншүүдтэйгээр урьдчилан танилцуулсан. Энэ санаачилга нь синтетик дуу хоолойн чадварын талаар ойлголтыг нэмэгдүүлэх, мөн дараах зорилгуудыг дэмжихэд чиглэсэн:

Банкны данс болон бусад эмзэг мэдээлэлд нэвтрэх аюулгүй байдлын арга хэмжээ болгон дуу хоолойд суурилсан баталгаажуулалтыг үе шаттай зогсоох
AI дахь хувь хүмүүсийн дуу хоолойн хэрэглээг хамгаалах бодлогуудыг судлах
AI технологийн чадвар ба хязгаарлалтыг, үүнд төөрөгдүүлэх AI агуулга байх боломжийг ойлгоход олон нийтийг сургах
Дүрс, дууны агуулгын гарал үүслийг мөрдөх аргуудын хөгжүүлэлт, хэрэглээг түргэтгэх, ингэснээр та бодит хүнтэй эсвэл AI-тай харилцаж байгаа эсэх үргэлж тодорхой байх

Эдгээр жижиг хэмжээний нэвтрүүлэлтүүд нь мөн Voice Engine-ийг янз бүрийн салбарт сайн сайхны төлөө хэрхэн ашиглаж болох талаар манай хандлага, хамгаалалт, сэтгэлгээг мэдээллээр хангаж байна.

Voice Engine-ийг аюулгүй бүтээх нь нэн тэргүүний зорилт

Бид бүтээн байгуулалтын явцдаа тэдний санал хүсэлтийг тусгаж байгаа эсэхээ баталгаажуулахын тулд АНУ болон олон улсын засгийн газар, хэвлэл мэдээлэл, энтертайнмент, боловсрол, иргэний нийгэм болон бусад салбарын түншүүдтэй үргэлжлүүлэн хамтран ажиллаж байна.

Voice Engine-ийг туршиж буй түншүүд зөвшөөрөлгүйгээр дүр эсгэхийг хориглосон, анхны яригчийн тодорхой зөвшөөрлийг шаардсан, мөн AI-ээр үүсгэсэн аливаа дуу хоолойг сонсогчдод тийм болохыг нь ил тод мэдэгдэхийг шаардсан хэрэглээний бодлогуудыг зөвшөөрсөн. Нэмж хэлэхэд, технологийн хэрэглээг мөрдөж, хянахын тулд усан тэмдэглэгээ болон идэвхтэй хяналт зэрэг аюулгүй байдлын арга хэмжээнүүд⁠ хэрэгжиж байна.

Ирээдүйн синтетик дуу хоолойн аюулгүй байдал

GPT‑4o зэрэг төрөлх аудио чадвартай омнизагварууд нь Voice Engine шиг өмнөх загваруудын хийж чадаагүй шинэ харилцан үйлчлэлийг боломжтой болгож байна. Мөн GPT‑4o‑ийн аудио хэлбэршил, ялангуяа дуу үүсгэх тал дээр хэд хэдэн шинэ эрсдэл дагуулж байгааг бид хүлээн зөвшөөрдөг. Бид нийгмийн сэтгэл зүй, хэвийлт ба шударга байдал, ташаа мэдээлэл зэрэг янз бүрийн салбарт мэдэгдэж буй болон урьдчилан хараагүй эрсдэлүүдийг илрүүлж, шийдвэрлэхийн тулд GPT‑4o‑ийг идэвхтэйгээр red-team туршилтад оруулж байна. Бид загварын зан үйлийг сайжруулах, GPT‑4o‑ийн архитектурт одоо байгаа бичвэрт суурилсан системүүдийг тохируулах, шинэ ангилагч хөгжүүлэх зэрэг олон давхар хамгаалалт бүтээж байна.

Voice Engine-ийг гаргахдаа баримталсан болгоомжтой хандлагынхаа дагуу бид GPT‑4o‑ийн аудио гаралтыг нийтэд гаргахдаа урьдчилан тохируулсан дуу хоолойн сонголтоор хязгаарлана. Эдгээр дуу хоолойг нягт нямбай бодож боловсруулсан сонгон шалгаруулалтын явцаар сонгосон мэргэжлийн дуу оруулагчдаас авсан. Аудиотой холбоотой эрсдэл болон хамгаалалтын талаар нэмэлт мэдээллийг удахгүй гарах GPT‑4o системийн карт дээр хуваалцах болно.

Зохиогч

OpenAI