7 જૂન, 2024

Voice Engine કેવી રીતે કાર્ય કરે છે અને અમારી સુરક્ષા સંશોધન વિશે વધુ.

અમારા ટેક્સ્ટ-ટુ-સ્પીચ મોડલ પાછળની તકનીકનું અન્વેષણ.

ગુલાબી, નારંગી, જાંબલી અને લીલા સહિતના પેસ્ટલ રંગોના મિશ્રણ સાથેનું અમૂર્ત ચિત્ર, જે જીવંત ભૂદૃશ્ય જેવું લાગે છે.

લોડિંગ…

અમારી પ્રગતિ વિશે સૌને અપડેટ રાખવા માટે અમે Voice Engine કેવી રીતે કાર્ય કરે છે અને અમારા સુરક્ષા સંશોધન વિશે વધુ માહિતી આપી રહ્યા છીએ. Voice Engine એ કસ્ટમ અવાજો બનાવી શકતું એક મોડલ છે.

આ તકનીક કઈ દિશામાં જઈ રહી છે તે વિશ્વભરના લોકો સમજે તે મહત્વપૂર્ણ છે, ભલે અમે અંતે તેને પોતે વ્યાપક રીતે તૈનાત કરીએ કે ન કરીએ. તેથી જ અમે સમજાવવા માંગીએ છીએ કે મોડલ કેવી રીતે કાર્ય કરે છે, અમે તેનો ઉપયોગ સંશોધન અને શિક્ષણ માટે કેવી રીતે કરીએ છીએ, અને તેની આસપાસ અમે અમારી સુરક્ષા વ્યવસ્થાઓ કેવી રીતે અમલમાં મૂકી રહ્યા છીએ. Voice Engine હજી વ્યાપક રીતે ઉપલબ્ધ નથી.

Voice Engine કેવી રીતે કાર્ય કરે છે.

આ અવાજ ક્ષમતા ટેક્સ્ટ-ટુ-સ્પીચ (TTS) મોડલ દ્વારા સંચાલિત છે, જે માત્ર લખાણ અને 15-સેકન્ડના નમૂના ભાષણથી માનવસમાન ઓડિયો ઉત્પન્ન કરી શકે છે.

TTS સિસ્ટમનું વિકાસ મોડલને જોડાયેલ ઓડિયો અને ટ્રાન્સક્રિપ્શન્સમાંથી ભાષણની સૂક્ષ્મતાઓ સમજવામાં મદદ કરીને થાય છે. આપેલ ટેક્સ્ટ ટ્રાન્સક્રિપ્ટ માટે વક્તા કયા સૌથી સંભવિત અવાજો કાઢશે તેની આગાહી કરવાનું મોડલ શીખે છે, જેમાં અલગ-અલગ અવાજો, ઉચ્ચારો અને બોલવાની શૈલીઓનો વિચાર કરવામાં આવે છે. ત્યારબાદ, મોડલ ફક્ત લખાણના બોલાયેલા સંસ્કરણો જ નહીં, પણ વિવિધ પ્રકારના વક્તાઓ તેને કેવી રીતે બોલે તે દર્શાવતા ઉચ્ચારણો પણ ઉત્પન્ન કરી શકે છે.

ત્યારબાદ, TTS મોડલથી ઓડિયો જનરેટ કરવા માટે ફક્ત વક્તાનો 15-સેકન્ડનો નમૂનો અને તેનું અનુરૂપ લખાણ જરૂરી છે. આ મોડલ કોઈ ચોક્કસ વક્તા માટે ફાઇન-ટ્યુન કરાયેલ નથી, અને તેમાં કોઈ મોડલ કસ્ટમાઇઝેશન સામેલ નથી. તેના બદલે, તે ડિફ્યુઝન પ્રક્રિયાનો ઉપયોગ કરે છે, જેમાં શરૂઆત રૅન્ડમ નૉઇઝથી થાય છે અને પછી તેને ક્રમશઃ ડિ-નૉઇઝ કરીને 15-સેકન્ડના ઓડિયો નમૂનામાંનો વક્તા લખાણને કેવી રીતે ઉચ્ચારે તે સાથે નજીકથી મેળ ખાતું બનાવવામાં આવે છે.

અમે આ મોડલને એક વર્ષથી વધુ સમયથી વિકસાવી રહ્યા છીએ.

અમે Voice Engine ને પ્રથમ વખત 2022 ના અંતમાં વિકસાવ્યું. શરૂઆતમાં, અમારા Voice Engine મોડલની ક્ષમતાઓ અને મર્યાદાઓનું મૂલ્યાંકન કરવા માટે, અમે જાહેર અને ખાનગી અવાજ નમૂનાઓના મિશ્રણનો ઉપયોગ કરીને તેનું આંતરિક પરીક્ષણ કર્યું. આ આંતરિક પ્રોટોટાઇપ અમારા એલાઇનમેન્ટ અને સુરક્ષા સંશોધન માટે આવશ્યક હતો, તેણે અમારી સુરક્ષા વ્યવસ્થાઓને માર્ગદર્શન આપ્યું, અને ટેકનિકલ અત્યાધુનિક સીમાને સમજવાની અમારી પ્રતિબદ્ધતાનો જ એક ભાગ છે.

મહત્વની વાત એ છે કે, આ આઉટપુટ્સ માત્ર આંતરિક પરીક્ષણ માટે જ રાખવામાં આવ્યા હતા, અમારા ઉત્પાદનોને શક્તિ આપતા મોડલ્સને તાલીમ આપવા માટે નહોતા.

અમારા પુનરાવર્તિત તૈનાતી માળખાના ભાગરૂપે, આ પ્રારંભિક પ્રોટોટાઇપે નીતિનિર્માતાઓને કૃત્રિમ અવાજ મોડલ્સની ક્ષમતાઓ સમજવામાં પણ મૂલ્યવાન ભૂમિકા ભજવી. ઉદાહરણ તરીકે, ગયા ઉનાળાથી શરૂ કરીને અમે વૈશ્વિક સ્તરના ઉચ્ચસ્તરીય નીતિનિર્માતાઓને આ તકનીકની સંભાવનાઓ બતાવી અને તેમની સાથે સંકળાયેલા જોખમો પર ચર્ચા કરી હતી.

સપ્ટેમ્બર 2023 માં⁠, અમે ChatGPT ની વૉઇસ મોડ સુવિધાને શક્તિ આપવા માટે Voice Engine નો ઉપયોગ કર્યો. કારણ કે આ ક્ષમતાઓ સાથે નવા જોખમો પણ જોડાયેલા હતા, અમે તેને ફક્ત આ વિશિષ્ટ ઉપયોગ કેસ માટે જ લોન્ચ કર્યું. વૉઇસ મોડ સંપૂર્ણપણે વાસ્તવિક અવાજોમાંથી બનાવાયો હતો, જેને કાળજીપૂર્વક પસંદ કરવામાં આવ્યા હતા⁠, અને તેની માટે મે 2023 માં શરૂ થયેલી વિગતવાર પ્રક્રિયામાં વ્યાવસાયિક વૉઇસ એક્ટર્સ, ટેલેન્ટ એજન્સીઓ, કાસ્ટિંગ ડિરેક્ટર્સ અને ઉદ્યોગ સલાહકારો સામેલ હતા.

નવેમ્બર 2023 માં⁠, અમે Voice Engine દ્વારા સંચાલિત એક સરળ TTS API⁠(નવી વિન્ડોમાં ખૂલે છે) પણ રિલીઝ કરી. અમે ફરી એક મર્યાદિત રિલીઝ પસંદ કરી, જેમાં અમે વ્યાવસાયિક વૉઇસ એક્ટર્સ સાથે મળીને API માં રહેલા છ પૂર્વનિર્ધારિત અવાજોમાંના દરેક માટે 15-સેકન્ડના ઓડિયો નમૂનાઓ તૈયાર કર્યા. ઉદાહરણ તરીકે, ડેવલપર્સ પોતાના વેબસાઇટ્સમાં તેનો ઉપયોગ કરીને બ્લોગ પોસ્ટ્સને જોરથી વાંચાવી શકે છે.

આ વર્ષના માર્ચમાં⁠, અમે થોડાક વિશ્વસનીય ભાગીદારો સાથે Voice Engine ની કસ્ટમ અવાજો બનાવવાની ક્ષમતાનો પૂર્વાવલોકન કર્યો. આ પહેલનો હેતુ કૃત્રિમ અવાજોની ક્ષમતાઓ વિશે જાગૃતિ વધારવાનો હતો અને નીચેના લક્ષ્યોને સમર્થન આપવાનો હતો:

બેંક ખાતાઓ અને અન્ય સંવેદનશીલ માહિતી મેળવવા માટે સુરક્ષા પગલા તરીકે અવાજ આધારિત પ્રમાણીકરણને તબક્કાવાર બંધ કરવું
AI માં વ્યક્તિઓના અવાજોના ઉપયોગને સુરક્ષિત કરવા માટેની નીતિઓનું અન્વેષણ કરવું
લોકોને AI તકનીકોની ક્ષમતાઓ અને મર્યાદાઓ સમજવામાં શિક્ષિત કરવું, જેમાં ભ્રામક AI સામગ્રીની શક્યતા પણ સામેલ છે
ઓડિયોવિઝ્યુઅલ સામગ્રીના મૂળ સ્ત્રોતને ટ્રૅક કરવા માટેની તકનીકોના વિકાસ અને સ્વીકારને ઝડપી બનાવવું, જેથી તમે ક્યારે વાસ્તવિક વ્યક્તિ સાથે અને ક્યારે AI સાથે પરસ્પર ક્રિયા કરો છો તે હંમેશા સ્પષ્ટ રહે

આ નાના પાયાના તૈનાતીઓ પણ વિવિધ ઉદ્યોગોમાં Voice Engine નો સકારાત્મક ઉપયોગ કેવી રીતે થઈ શકે તે અંગે અમારા અભિગમ, સુરક્ષા વ્યવસ્થાઓ અને વિચારોને આકાર આપવા મદદ કરી રહી છે.

Voice Engine ને સુરક્ષિત રીતે બનાવવું અમારી સર્વોચ્ચ પ્રાથમિકતા છે.

અમે સરકાર, મીડિયા, મનોરંજન, શિક્ષણ, નાગરિક સમાજ અને તેનાથી આગળના ક્ષેત્રોમાંથી અમેરિકન અને આંતરરાષ્ટ્રીય ભાગીદારો સાથે સતત સંકળાયેલા રહીએ છીએ, જેથી અમે નિર્માણ કરતી વખતે તેમના પ્રતિસાદને સામેલ કરી રહ્યા હોઈએ તેની ખાતરી કરી શકાય.

Voice Engine નું પરીક્ષણ કરતા ભાગીદારોએ એવી ઉપયોગ નીતિઓ સ્વીકારી છે જે મંજૂરી વિના પ્રતિરૂપ બનાવવાનું પ્રતિબંધિત કરે છે, મૂળ વક્તાની સ્પષ્ટ મંજૂરી આવશ્યક બનાવે છે, અને AI દ્વારા જનરેટ થયેલા કોઈપણ અવાજો વિશે શ્રોતાઓને સ્પષ્ટ જાણ કરવાની માંગ કરે છે. ઉપરાંત, ટેક્નોલોજીના ઉપયોગને શોધી કાઢવા અને તેની દેખરેખ રાખવા માટે વૉટરમાર્કિંગ અને સક્રિય મોનિટરિંગ જેવી સુરક્ષા વ્યવસ્થાઓ⁠ અમલમાં છે.

ભવિષ્યમાં કૃત્રિમ અવાજની સુરક્ષા.

GPT‑4o જેવા નેટિવ ઓડિયો ક્ષમતાઓ ધરાવતા ઓમ્નિમોડલ્સ નવી પ્રકારની પરસ્પર ક્રિયાઓ શક્ય બનાવે છે, જે Voice Engine જેવા અગાઉના મોડલ્સ કરી શકતા નહોતાં. અમને એ પણ સમજ છે કે GPT‑4o ની ઓડિયો મોડાલિટી ઘણા નવા જોખમો લાવે છે, ખાસ કરીને અવાજ જનરેશનમાં. અમે સામાજિક મનોચિકિત્સા, પક્ષપાત અને ન્યાયસંગતતા, તેમજ ભ્રામક માહિતી જેવા વિવિધ ક્ષેત્રોમાં જાણીતા અને અજાણ્યા બંને પ્રકારના જોખમો ઓળખવા અને ઉકેલવા માટે GPT‑4o નું સક્રિય રીતે રેડ-ટીમિંગ કરી રહ્યા છીએ. અમે મોડલના વર્તનોને વધુ સુધારવા, GPT‑4o ની આર્કિટેક્ચર માટે હાલની ટેક્સ્ટ-આધારિત સિસ્ટમોને અનુકૂળ બનાવવાની અને નવા વર્ગીકરણકારો વિકસાવવાની જેવી સુરક્ષા-પરતીઓ બનાવી રહ્યા છીએ.

Voice Engine ને રિલીઝ કરવા માટે અમારા સાવચેત અભિગમને અનુરૂપ, સામાન્ય રિલીઝ માટે અમે GPT‑4o ના ઓડિયો આઉટપુટને મર્યાદિત પૂર્વનિર્ધારિત અવાજોની પસંદગી સુધી જ રાખીશું. આ અવાજો વ્યાવસાયિક વૉઇસ એક્ટર્સ પાસેથી લેવામાં આવ્યા છે, જેમની પસંદગી ખૂબ જ વિચારી-વિમર્શી કાસ્ટિંગ પ્રક્રિયા દ્વારા કરવામાં આવી હતી. ઓડિયો સંબંધિત જોખમો અને સુરક્ષા પગલાં વિશેની વધારાની માહિતી અમે આવનારા GPT‑4o સિસ્ટમ કાર્ડમાં શેર કરીશું.

લેખક.

OpenAI