Submitted: 2 ફેબ્રુઆરી, 2024

AI અંગેના NIST એક્ઝિક્યુટિવ ઓર્ડર માટે પ્રતિભાવ

નેશનલ ઇન્સ્ટિટ્યૂટ ઓફ સ્ટાન્ડર્ડ્સ એન્ડ ટેકનોલોજી (NIST) તરફથી આર્ટિફિશિયલ ઇન્ટેલિજન્સ સંબંધિત એક્ઝિક્યુટિવ ઓર્ડરના વિભાગ 4.1, 4.5 અને 11 હેઠળની સોંપણીઓ સંબંધિત માહિતી માટેની વિનંતી.

OpenAIની સ્થાપના 2015માં એક નોનપ્રોફિટ તરીકે કરવામાં આવી હતી જેથી આર્ટિફિશિયલ જનરલ ઇન્ટેલિજન્સ. ટૂંકમાં, ઓછામાં ઓછું માનવ જેટલું બુદ્ધિશાળી AI. સમગ્ર માનવજાતને લાભ કરે તે સુનિશ્ચિત થાય. અમે અત્યાધુનિક AI ટેકનોલોજી તેમજ AIની સલામતી, અલાઇનમેન્ટ અને ગવર્નન્સ માટેના સાધનો અને શ્રેષ્ઠ પ્રથાઓનું સંશોધન, વિકાસ અને પ્રકાશન કરીએ છીએ. AI અંગે NISTના ચાલુ અને મહત્વપૂર્ણ કાર્યમાં માહિતી આપવા માટે મળેલી આ તકનું અમે સ્વાગત કરીએ છીએ.

અહીં, અમે RFIમાં ઉઠાવવામાં આવેલા ત્રણ વિષયો પર ધ્યાન કેન્દ્રિત કરીએ છીએ: (1) AI ક્ષમતાઓનું મૂલ્યાંકન અને ઓડિટિંગ, (2) સુરક્ષિત, સિક્યોર અને વિશ્વસનીય સિસ્ટમોની ડિપ્લોયમેન્ટ સક્ષમ બનાવવા માટે રેડ ટીમિંગ પરીક્ષણો ચલાવવું, અને (3) સિન્થેટિક મીડિયા અને પ્રોવેનન્સ.

AI સિસ્ટમોમાં જોખમી ક્ષમતાઓનું મૂલ્યાંકન

“ક્ષમતાઓનું મૂલ્યાંકન કરવા માટે માર્ગદર્શન અને બેન્ચમાર્ક્સ બનાવવા... જેના માધ્યમથી AI નુકસાન કરી શકે” એવા NISTના ધ્યાનને અમે વધાવીએ છીએ. OpenAI એ પ્રિપેરડનેસ ફ્રેમવર્ક⁠(નવી વિન્ડોમાં ખૂલે છે) માટે પ્રતિબદ્ધતા વ્યક્ત કરી છે, જે વર્તમાન અને ભવિષ્યના AI મોડલથી ઊભા થતા વિનાશક રીતે જોખમી ખતરાઓનું મૂલ્યાંકન, ટ્રેકિંગ અને નિયંત્રણ માટેનો સર્વગ્રાહી અભિગમ છે. પ્રિપેરડનેસ ફ્રેમવર્ક હાલમાં જોખમના ચાર પ્રારંભિક ક્ષેત્રો ટ્રેક કરે છે: સાયબરસિક્યુરિટી; રાસાયણિક, જૈવિક, પરમાણુ અને રેડિયોલોજિકલ ખતરાઓ (CBRN); મનાવટ; અને મોડલ સ્વાયત્તતા. ફ્રેમવર્ક અમને હજી સુધી ઓળખાયા ન હોય એવા “unknown unknown” જોખમો અંગે સતત સતર્ક રહેવાની પણ પ્રતિબદ્ધતા અપાવે છે. આ કામના ભાગરૂપે, OpenAI એ તાજેતરમાં CBRN માટેનું એક મોટા પાયે મૂલ્યાંકન શેર કર્યું⁠: હાલના સ્રોતો (અથવા ઇન્ટરનેટ)ની તુલનામાં GPT‑4 દુર્ભાવનાપૂર્ણ પ્રવર્તકોને જૈવિક ખતરાની રચના વિશેની જોખમી માહિતી સુધી અર્થપૂર્ણ રીતે વધુ પહોંચ અપાવે છે કે નહીં તે આંકવું. જૈવવિજ્ઞાનના નિષ્ણાતો અને વિદ્યાર્થીઓ બંનેને સામેલ કરનાર આ પ્રકારના સૌથી મોટા મૂલ્યાંકનમાં, અમે જોયું કે GPT‑4 જૈવિક ખતરાની રચનાસંબંધી માહિતીમાં વધુમાં વધુ હળવો વધારો આપે છે. આ વધારો મોટા નિષ્કર્ષ માટે પૂરતો ન હોવા છતાં, અમને આશા છે કે આ તારણ સતત સંશોધન અને સમુદાયિક ચર્ચા માટે પ્રારંભિક બિંદુ બનશે, અને અમારી આશા છે કે તે NIST અને નવા AI Safety Institute દ્વારા આગળ વધારવામાં આવશે. આ કાર્યથી AI સિસ્ટમોથી થતા જોખમોનું મૂલ્યાંકન કરવા માટેના કેટલાક મુખ્ય સિદ્ધાંતો વિશેનો અમારો વિશ્વાસ વધ્યો છે.

જોખમોમાં AI સિસ્ટમોના યોગદાનનું માપ યોગ્ય બેઝલાઇનની સરખામણીમાં ફેરફારના આધારે થવું જોઈએ.વર્તમાન અને ભવિષ્યની AI સિસ્ટમો દ્વારા વધારી શકાય એવા ઘણા જોખમો (જેમ કે સાયબરસિક્યુરિટી અથવા બાયોસિક્યુરિટી) AI વગર પણ કોઈક સ્તરે અસ્તિત્વમાં છે. ઉદાહરણ તરીકે, ઇન્ટરનેટ સર્ચ પહેલેથી જ બાયોસિક્યુરિટી સંબંધિત માહિતી સુધી નોંધપાત્ર પહોંચ સક્ષમ બનાવે છે. જોખમોમાં AI સિસ્ટમોના યોગદાનનું મૂલ્યાંકન કરતી વખતે, AI હાલના સ્રોતોથી પરે જોખમ વધારે છે કે નહીં તે તપાસવું મહત્વપૂર્ણ શ્રેષ્ઠ પ્રથા છે. બાયોરિસ્ક અંગેના અમારા તાજેતરના અભ્યાસમાં, અમે આને કાર્યરત કરવા માટે ભાગ લેનારાઓમાંથી અડધાને એવા નિયંત્રણ સમૂહમાં રેન્ડમ રીતે મુક્યા, જેને માત્ર AI વિનાના જ્ઞાનસ્રોતો (ઓનલાઈન ડેટાબેઝ, લેખો અને ઇન્ટરનેટ સર્ચ એન્જિન તેમજ તેમનું અગાઉનું જ્ઞાન)નો ઉપયોગ કરવાની છૂટ હતી, અને બાકીના અડધાને એવા ટ્રીટમેન્ટ સમૂહમાં મુક્યા જેને આ બધા સ્રોતો સાથે GPT‑4 મોડલ સુધી સંપૂર્ણ પહોંચ હતી.
જોખમોને સમજવા માટે ડોમેન નિષ્ણાતો સાથે કામ કરવું અત્યંત મહત્વપૂર્ણ છે.AI સલામતી માટે સંબંધિત વ્યાપક અને વિવિધ વિષયોમાં એક જ સંસ્થા માટે વિશ્વસ્તરીય નિષ્ણાતોને નિમવા મુશ્કેલ છે. ગોલ્ડ-સ્ટાન્ડર્ડ નિષ્ણાતી મેળવવા માટે, જોખમી ક્ષમતાઓના મૂલ્યાંકન માટે સંબંધિત વિષયોમાં ડોમેન નિષ્ણાતોને રોજગાર આપતી તૃતીય-પક્ષ સંસ્થાઓ સાથે ભાગીદારી કરવી ઉપયોગી છે. ઉપરાંત, અભ્યાસોના ગ્રેડિંગમાં ડોમેન નિષ્ણાતોને સામેલ કરવાથી મૂલ્યાંકન નિષ્પક્ષ રીતે થઈ રહ્યા છે તેની ખાતરી મળે છે. ઉદાહરણ તરીકે, બાયોરિસ્ક મૂલ્યાંકનના વિકાસ અને સંચાલનમાં અમે તૃતીય-પક્ષ બાયોસિક્યુરિટી નિષ્ણાતો સાથે સંશોધન કાર્યો ડિઝાઇન કરવા, ભાગ લેનારાઓ માટે સલામતી તાલીમ ચલાવવા અને પૂર્ણ કાર્યોનું ગ્રેડિંગ કરવા માટે નજીકથી કામ કર્યું હતું. AI સલામતીના હિતમાં આ ઇકોસિસ્ટમને વિસ્તૃત અને વૈવિધ્યસભર બનાવવું રહેશે.
મોડલ ક્ષમતાઓની સંપૂર્ણ શ્રેણી અસરકારક રીતે બહાર લાવવા માટે સઘન મૂલ્યાંકન માટે AI નિષ્ણાતો સાથે કામ કરવું પણ આવશ્યક છે.AI મોડલથી ઊભા થતા જોખમોની સંપૂર્ણ શ્રેણી સમજવા માટે, શક્ય હોય ત્યાં મૂલ્યાંકનમાં મોડલની સંપૂર્ણ ક્ષમતાઓ બહાર લાવવી જરૂરી છે. આ માટે મૂળભૂત AI સિસ્ટમો અને તેઓનો અસરકારક ઉપયોગ કેવી રીતે કરી શકાય તેની ઊંડી સમજ જરૂરી છે. અમે ભલામણ કરીએ છીએ કે મૂલ્યાંકનો AI નિષ્ણાતો સાથે ઘનિષ્ઠ સહકારમાં ડિઝાઇન કરવામાં આવે. અમારા બાયોરિસ્ક અભ્યાસમાં, તેમાં માનવીય ભાગ લેનારાઓને ભાષા મોડલ ક્ષમતા બહાર લાવવાની શ્રેષ્ઠ પ્રથાઓ દ્વારા વધુ સારી કામગીરી મેળવવા માટે તાલીમ આપવી, તેમજ મોડલની ક્ષમતાઓ વધુ સારી રીતે બહાર લાવવા અને તપાસવા માટે કસ્ટમ તકનીકી અભિગમો સામેલ હતા.
જોખમ મૂલ્યાંકનના પરિણામોની વ્યાખ્યા કેવી રીતે કરવી તે અંગે અમને વધુ સંશોધનની જરૂર છે.ઉદાહરણ તરીકે, AI મોડલ બાયોરિસ્ક માહિતી સુધી પહોંચ વધારતા હોય તેવા મૂલ્યાંકનમાં, વધારેલી માહિતી સુધી પહોંચનું કયું સ્તર નોંધપાત્ર રીતે વધેલા બાયોરિસ્કમાં રૂપાંતરિત થશે તે હજી સ્પષ્ટ નથી. નવી ટેકનોલોજીઓ ઊભી થાય તેમ, જે ઑનલાઇન માહિતીને ભૌતિક જૈવિક ખતરાઓમાં ફેરવી શકે, AI સિસ્ટમોનો બાયોરિસ્ક પર પડતો પ્રભાવ બદલાઈ શકે છે. જેમ જેમ અમે અમારા પ્રિપેરડનેસ ફ્રેમવર્કને વધુ કાર્યરત બનાવીએ છીએ, તેમ તેમ જોખમો અને જોખમ માપદંડોની વધુ મજબૂત સમજ વિકસાવવા NIST અને AI Safety Institute સાથે કામ કરવા અમે ઉત્સુક છીએ.
ગોલ્ડ-સ્ટાન્ડર્ડ માનવીય વિષય મૂલ્યાંકનો ખર્ચાળ હોય છે.ભાષા મોડલોના માનવીય મૂલ્યાંકન કરવા માટે ભાગ લેનારાઓને વળતર આપવું, સોફ્ટવેર વિકસાવવું અને સુરક્ષા જાળવવા માટે નોંધપાત્ર બજેટ જરૂરી બને છે. અમારા બાયોરિસ્ક અભ્યાસમાં, અમે આ ખર્ચ ઘટાડવાના વિવિધ રસ્તાઓ તપાસ્યા હતા, પરંતુ મોટા ભાગના ખર્ચો અથવા તો (1) અચર્ચનીય સુરક્ષા વિચારણાઓ, અથવા (2) જરૂરી ભાગ લેનારાઓની સંખ્યા અને દરેક ભાગ લેનારાને સઘન પરીક્ષણ માટે આપવો પડતો સમય,ના કારણે અનિવાર્ય બન્યા હતા. ધોરણો બનાવતી વખતે આ બાબત ધ્યાનમાં લેવી જોઈએ.

વધુ માહિતી અમારા તાજેતરના બાયોરિસ્ક અભ્યાસ વિશેની બ્લોગ પોસ્ટમાં ઉપલબ્ધ છે: LLM-સહાયિત જૈવિક ખતરાની રચના માટે પ્રારંભિક ચેતવણી પ્રણાલી બનાવવી⁠.

સુરક્ષિત AI સિસ્ટમોની ડિપ્લોયમેન્ટ સક્ષમ બનાવવા માટે રેડ ટીમિંગ

રેડ ટીમિંગ શું છે?

OpenAI રેડ ટીમિંગને “હાનિકારક ક્ષમતાઓ, આઉટપુટ્સ અથવા ઇન્ફ્રાસ્ટ્રક્ચરલ ધમકીઓની ઓળખ માટે AI સિસ્ટમો અને પ્રોડક્ટ્સની તપાસ કરવાની રચિત પ્રક્રિયા” તરીકે વ્યાખ્યાયિત કરે છે.^A
રેડ ટીમિંગના વ્યાપક શબ્દછત્ર હેઠળ અનેક સંભવિત પદ્ધતિઓ વિકસતી જોવા મળે છે, જેમાં આંતરિક રેડ ટીમિંગ (લેબ અથવા કંપનીની આંતરિક, સમર્પિત ટીમો દ્વારા), બાહ્ય રેડ ટીમિંગ (લેબ અથવા કંપની સાથે સહકારમાં બાહ્ય હિતધારકો દ્વારા), અથવા સ્વચાલિત રેડ ટીમિંગ (સ્વચાલિત હુમલા બનાવવા AI મોડલનો ઉપયોગ કરીને અને આઉટપુટ્સનું વર્ગીકરણ કરીને) સામેલ છે. આ દસ્તાવેજના સંદર્ભમાં, અમે મુખ્યત્વે બાહ્ય રેડ ટીમિંગ પ્રયત્નોની વાત કરી રહ્યા છીએ, જેમાં OpenAI બાહ્ય ડોમેન નિષ્ણાતો સાથે મળીને AI મોડલ અથવા સિસ્ટમની ક્ષમતાઓ અને જોખમોનું મૂલ્યાંકન કરે છે.

OpenAIનો રેડ ટીમિંગ માટેનો અભિગમ વિરોધી હુમલાઓ અથવા મોડલ આઉટપુટ્સને અલગતામાં નથી જોતો. તેના બદલે, તે ડોમેન નિષ્ણાતો સાથે સહકારમાં સંદર્ભિત અને સર્વાંગી રીતે જોખમોને બહાર લાવવાની પદ્ધતિ છે.^B દુર્ભાવનાપૂર્ણ ઉપયોગ અને સલામતી ઉપાયો ટાળવાની રીતો ઉપરાંત, રેડ ટીમિંગ અન્ય જોખમોને પણ ધ્યાનમાં લે છે: નિર્દોષ અથવા અપેક્ષિત ઇનપુટ્સથી હાનિકારક અથવા જોખમી આઉટપુટ્સ તરફ દોરી જવું, જોખમ પરિસ્થિતિમાં ફેરફાર લાવી શકે એવા નવીન ક્ષમતા સુધારા, અને સિસ્ટમની બહારના પરિબળો કેવી રીતે મોડલ આઉટપુટ્સ સાથે ક્રિયા કરીને જોખમો અથવા નુકસાન સર્જી શકે છે. આ ક્ષેત્રોના મૂલ્યાંકનમાં સંભવિત ઉદાહરણો બનાવવા અને ચોક્કસ રેડ ટીમરની નિષ્ણાતીના સંદર્ભમાં પ્રાપ્ત આઉટપુટ્સને માન્ય કરવા માટે માનવ સહભાગિતાનો લાભ ઘણી વખત મળે છે.

રેડ ટીમિંગ કયા ઉપયોગ માટે છે?

AI રેડ ટીમિંગ નવા મોડલ અને સિસ્ટમો સાથે જોડાયેલા સંભવિત જોખમોને સમજવામાં મદદ કરે છે, જે.

એવી ક્રિયાપ્રતિક્રિયાના સ્વરૂપોની જરૂર રાખે છે જે અગાઉની AI સિસ્ટમો અથવા ટેકનોલોજીથી અલગ હોઈ શકે અને પ્રોગ્રામેટિક મૂલ્યાંકનોથી સારી રીતે આવરી લેવાતી ન હોય (ઉદાહરણ તરીકે, DALL·Eમાં ઇન-પેઇન્ટિંગ, GPTs).
મહત્વપૂર્ણ રીતે સુધારેલી ક્ષમતાઓ ધરાવે છે, જે એવા નવા જોખમો રજૂ કરી શકે છે જેમનું હજી મૂલ્યાંકન થયું નથી (ઉદાહરણ તરીકે, વૈજ્ઞાનિક ક્ષેત્રો, મનાવટ, અથવા રિજનીંગ).
પરીક્ષણ અને ચકાસણી માટે સંદર્ભ અથવા ડોમેન-વિશિષ્ટ જ્ઞાનની જરૂર રાખે છે (ઉદાહરણ તરીકે, પ્રદેશ-વિશિષ્ટ રાજકીય સામગ્રી, સાંસ્કૃતિક પૂર્વગ્રહો, કાયદા અને ચિકિત્સા જેવા વૈજ્ઞાનિક અથવા નિષ્ણાત ક્ષેત્રો).
યૂઝર ફ્લો અથવા ચોક્કસ ઉપયોગ કેસોની સમજની જરૂર રાખે છે, જેમાં સિસ્ટમની બહારના પરિબળો પણ સામેલ હોઈ શકે (ઉદાહરણ તરીકે, ઓછી દૃષ્ટિશક્તિ ધરાવતા લોકો માટે GPT‑4(V)નું પરીક્ષણ).

OpenAI રેડ ટીમિંગને મોડલ-સ્તર અને સિસ્ટમ-સ્તર બંનેના જોખમો આંકવા માટેના સાધન તરીકે જુએ છે. સિસ્ટમ સુવિધાઓમાં આ સામેલ હોઈ શકે છે: ક્લાસિફાયર્સ, પ્રોમ્પ્ટ ફિલ્ટર્સ / બ્લોક લિસ્ટ્સ, યુઝર ઇન્ટરફેસ સ્તરની હસ્તક્ષેપો, મોનિટરિંગ અને મૂલ્યાંકન પ્રથાઓ અને અન્ય નીતિ અમલીકરણ મિકેનિઝમ્સ. ક્યારેક અમે નવા પ્રોડક્ટ માટે રેડ ટીમિંગ કરીએ છીએ ભલે તેમાં નવું મોડલ સામેલ ન હોય. ઉદાહરણ તરીકે, GPTs⁠એ નવું આધારભૂત મોડલ રજૂ કર્યું ન હતું, પરંતુ તેમણે યૂઝર્સ મોડલ સાથે કેવી રીતે ક્રિયા કરે છે તે માટે નવી સિસ્ટમો રજૂ કરી હતી.

OpenAI અમારા રેડ ટીમિંગ પ્રયત્નોને અમારી ટેકનોલોજી પર નિર્માણ કરતા વિકાસકર્તાઓ દ્વારા કરવામાં આવતાં વધુ ડોમેન-વિશિષ્ટ રેડ ટીમિંગ પ્રયત્નોના પૂરક તરીકે જુએ છે. ઉદાહરણ તરીકે, જ્યારે અમે ચોક્કસ સમયબિંદુઓએ અને નિર્ધારિત પરિસ્થિતિઓ હેઠળ અમારા મોડલ અને સિસ્ટમોને રેડ ટીમિંગ માટે વિષય બનાવીએ છીએ, ત્યારે અમારી API પર નિર્માણ કરતા વિકાસકર્તાઓએ તે શીખણોને ધ્યાનમાં લેવા જોઈએ અને તેઓ જે સિસ્ટમ અને સંદર્ભ પરિસ્થિતિઓમાં કાર્ય કરવાની અપેક્ષા રાખે છે તેના આધારે વધારાનું રેડ ટીમિંગ કરવું જોઈએ. આ કારણોમાંનું એક કારણ એ છે કે OpenAI રેડ ટીમિંગ પ્રયત્નોમાંથી મળેલા મુખ્ય તારણો સિસ્ટમ કાર્ડ્સમાં (અને જાહેરમાં ઉપલબ્ધ દસ્તાવેજીકરણના અન્ય સ્વરૂપોમાં) પ્રકાશિત કરે છે, જેથી અન્ય લોકો તેમાંથી શીખી શકે અને તેના પર આગળ કામ કરી શકે.

OpenAI ખાતે પુનરાવર્તિત રેડ ટીમિંગ

અત્યાધુનિક મોડલ લોન્ચ માટેના અમારા કેટલાક રેડ ટીમિંગ પ્રયત્નો અમે સિસ્ટમ કાર્ડ્સમાં દસ્તાવેજીકૃત કર્યા છે.

OpenAI એ નિષ્ણાત રેડ ટીમર્સને વિવિધ સ્તરના ફાઇન-ટ્યુનિંગ અને પોસ્ટ-ટ્રેનિંગ ધરાવતા પૂર્વ-પ્રશિક્ષિત મોડલ્સ તેમજ સલામતી ઉપાયોના વિવિધ પરિપક્વતા સ્તરો ધરાવતા મોડલ્સ સુધી પહોંચ આપી છે.

એવું કરવાનો હેતુ નીચે મુજબ છે.

રેડ ટીમિંગમાંથી મળેલી સમજણ પોસ્ટ-ટ્રેનિંગ સ્તરના ઉપાયો, સિસ્ટમ સ્તરના ઉપાયો, નીતિઓ અને મૂલ્યાંકનોના વિકાસમાં માર્ગદર્શક બની શકે છે.
રેડ ટીમિંગમાંથી મળેલી સમજણ નેતૃત્વના નિર્ણય લેવામાં મદદરૂપ બની શકે છે કે કઈ વિશેષતાઓ રિલીઝ કરવી, રિલીઝને તબક્કાવાર કેવી રીતે ડિપ્લોય કરવી, અને સલામતી ઉપાયોની અસરકારકતા કેવી છે.
રેડ ટીમિંગના પરિણામો જાહેર લોન્ચ સામગ્રી (જેમ કે સિસ્ટમ કાર્ડ્સ અથવા અન્ય ફોર્મેટ્સમાં) સાથે શેર કરી શકાય છે જેથી સંભવિત યૂઝર્સ અને અન્ય હિતધારકોને નિયંત્રિત કરાયેલા જોખમો, બાકી રહેલા જોખમો અને ભવિષ્યના સંભવિત જોખમો વિશે માહિતી મળે.

અમે વિકાસ પ્રક્રિયામાં જેટલું યોગ્ય હોય તેટલું વહેલું રેડ ટીમર્સને જોડીએ છીએ, જેથી રેડ ટીમિંગમાંથી મળેલી સમજણ સીધી સલામતી પ્રયત્નો અને નિર્ણય લેવામાં ફાળો આપી શકે. કોઈ વધારાના સલામતી ઉપાયો ઉમેરાય તે પહેલાં મોડલની મૂળ ક્ષમતાઓ વિશે જાણવું પણ મહત્વપૂર્ણ છે, જેથી મોડલ વિકાસકર્તાઓ મોડલના મૂળભૂત જોખમો વિશે માહિતગાર નિર્ણયો લઈ શકે, અને વધુ શક્તિશાળી થતી સિસ્ટમો સાથે જોડાયેલા જોખમ પરિસ્થિતિ વિશે સામાજિક સમજ વિકસે.

એકવાર સલામતી ઉપાયો અમલમાં આવી જાય, પછી રેડ ટીમિંગના પ્રયત્નો સુરક્ષા ઉપાયો દ્વારા આવરી ન લેવાયેલા ખાડાઓ અને બાકી રહેલા જોખમોની ઓળખ માટે, તેમજ ઉપાયોની મજબૂતીનું મૂલ્યાંકન કરવા માટે, રેડ ટીમિંગના વધારાના ચક્રો પર ધ્યાન કેન્દ્રિત કરી શકે છે.

અંતે, મોડલ વિકાસ પ્રક્રિયાના વધુ પ્રારંભિક તબક્કામાં ધ્યાનમાં લેવાની મહત્વપૂર્ણ સલામતી ગુણધર્મો હોવા છતાં, રેડ ટીમિંગનો હેતુ મોડલ વિકાસકર્તાઓ જાહેર જનતા માટે જે રિલીઝ કરે છે તેના જેટલો નજીકનો અનુભવ અનુરૂપ રીતે સર્જવાનો છે.

રેડ ટીમિંગની મર્યાદાઓ

રેડ ટીમિંગ પોતે જ પૂરતું જોખમ માપન અભ્યાસ નથી. ફક્ત રેડ ટીમિંગથી મોડલ હાનિકારક સામગ્રી ઉત્પન્ન કરવાની સંભાવના અથવા AI સિસ્ટમના ઉપયોગ સાથે જોડાયેલા જોખમોનું પરિમાણ નક્કી કરી શકાશે નહીં. રેડ ટીમિંગ ઓળખાયેલા જોખમ અથવા નુકસાનની ગંભીરતાનું પરિમાણ કરવા માટે પૂરતી માહિતી પણ આપતું નથી.

જ્યારે OpenAIના મોટા ભાગના નિષ્ણાત રેડ ટીમિંગ પ્રયત્નો મોટા મોડલ અથવા પ્રોડક્ટ ડિપ્લોયમેન્ટ પહેલાં થાય છે, ત્યારે મોડલ અને સિસ્ટમો પ્રોડક્શનમાં ઘણી વાર વિકસતા રહે છે, અને તેથી રેડ ટીમિંગના તારણોને સંદર્ભિત કરતી વખતે આ બાબત ધ્યાનમાં લેવી મહત્વપૂર્ણ છે. એ જ રીતે, ખાસ ઉપયોગ કેસો માટે મોડલ પર નિર્માણ કરતા વિકાસકર્તાઓ એવી ડિઝાઇન પસંદગીઓ કરી શકે છે જે મોડલ અથવા સિસ્ટમની સલામતી પ્રોફાઇલમાં ફેરફાર લાવે, જો તે મોડલ અથવા સિસ્ટમમાં મૂળભૂત રીતે રહેલું ન હોય.

રેડ ટીમિંગ આગળના પરીક્ષણ અને મૂલ્યાંકનના પ્રકારો માટે પાયો મૂકે છે અને સલામતી ઉપાયો કયા હુમલા વેક્ટર્સ અથવા સમસ્યાઓ સામે મજબૂત હોવા જોઈએ તે અંગે થોડું માર્ગદર્શન આપે છે.

કોઈ સમસ્યાના અનેક ઉદાહરણો અને ફેરફારોનું પરીક્ષણ કરવાથી ચોક્કસ જોખમ ક્ષેત્રને કેવી રીતે માપવું તેની વિશ્વસનીયતા વિકસાવવામાં મદદ મળી શકે છે. ડિઝાઇન મુજબ, નિષ્ણાત રેડ ટીમિંગ જોખમ ક્ષેત્રોની ઊંડાઈ કરતાં વ્યાપ આવરી લેવાનું લક્ષ્ય ધરાવે છે, અને તેથી તે એકલું જ ચોક્કસ જોખમો માપવા માટે પૂરતું મૂલ્યાંકન તૈયાર કરતું નથી. તેના બદલે, રેડ ટીમિંગ એવા ડેટાસેટ્સ ઉત્પન્ન કરી શકે છે જેને વધુ સઘન મૂલ્યાંકન માટેના “બીજ” તરીકે જોવામાં આવે. ત્યાંથી, પરિણામોનો ઉપયોગ બહાર આવેલી ચોક્કસ સમસ્યા ક્ષેત્રના વધુ ઉદાહરણો બનાવવા માટે થઈ શકે છે, અને લેબલ કરાયેલા ઉદાહરણોનો “ગોલ્ડન સેટ” (સામાન્ય રીતે ડોમેન નિષ્ણાતો દ્વારા) ઓળખાયેલા સમસ્યા ક્ષેત્ર પર ભવિષ્યના મોડલનું મૂલ્યાંકન કરવા ઉપયોગી બને છે.

રેડ ટીમોની રચના અને ડોમેન પ્રાથમિકતા

સામાન્ય હેતુવાળી AI સિસ્ટમો, જેનો વિશ્વભરના અનેક અનુમાનિત અને અનુમાનિત ન કરી શકાય એવા ઉપયોગ કેસોમાં અને વિવિધ સંદર્ભોમાં ઉપયોગ થવાનો છે, તેમાં વિશાળ વિષયક્ષેત્રોને આવરી લેવાની જરૂર પડે છે, અને સાથે વિવિધ દૃષ્ટિકોણો તથા વિશ્વદૃષ્ટિ ધરાવતા લોકોને સામેલ કરવાની પણ જરૂરિયાત રહે છે.

OpenAI માને છે કે અમારા મોડલ માટે રેડ ટીમિંગ કરવા વિવિધ પ્રકારના નિષ્ણાતોને જોડવા જોઈએ. ગયા વર્ષે, અમે રેડ ટીમિંગ નેટવર્ક માટે અરજદારોને આમંત્રણ આપ્યું હતું. પસંદગીના માપદંડોમાં આ બાબતો સામેલ હતી.

રેડ ટીમિંગ સાથે સંબંધિત ચોક્કસ ક્ષેત્રમાં સાબિત નિષ્ણાતી અથવા અનુભવ
AI સલામતીમાં સુધારો લાવવા પ્રત્યે ઉત્સાહ
હિતસંઘર્ષ ન હોવો
વૈવિધ્યસભર પૃષ્ઠભૂમિઓ અને પરંપરાગત રીતે ઓછું પ્રતિનિધિત્વ ધરાવતા જૂથો
ભૌગોલિક વૈવિધ્યસભર પ્રતિનિધિત્વ
એકથી વધુ ભાષામાં પ્રાવિણ્ય
તકનીકી ક્ષમતા (ઉપયોગી પરંતુ આવશ્યક નથી)

ડોમેન પ્રાથમિકતા નક્કી કરતી વખતે આ બાબતો માર્ગદર્શક બની શકે છે: AI સિસ્ટમો અથવા મોડલના અપેક્ષિત ઉપયોગો, ખાસ કરીને જ્યાં વધુ અસ્પષ્ટતા અથવા સંભવિત જોખમો હોય એવા સંદર્ભોમાં; મોડલનું પ્રારંભિક મૂલ્યાંકન જ્યાં મોડલ વિકાસકર્તાઓ વધેલી ક્ષમતાઓની અપેક્ષા રાખતા હોય; અગાઉથી જાણીતા કન્ટેન્ટ પોલિસી સંબંધિત સમસ્યા ક્ષેત્રો; અને સંબંધિત સામાજિક-રાજકીય સંદર્ભો (ઉદાહરણ તરીકે, 2024 વિશ્વના ઘણા વિસ્તારોમાં મુખ્ય ચૂંટણી વર્ષ છે). નોંધવું મહત્વનું છે કે દરેક મોડલ અથવા સિસ્ટમને અલગ પ્રકારની નિષ્ણાતીની જરૂર પડી શકે છે, અને મોડલ અથવા સિસ્ટમોની પ્રગતિશીલ ક્ષમતાઓ અને નવા ઉપયોગ કેસોના આધારે નવા ડોમેન પણ વિચારવામાં આવી શકે છે. તેથી, રેડ ટીમોની શ્રેષ્ઠ રચના સમય સાથે વિકસતી રહેશે.

સિન્થેટિક મીડિયા અને પ્રોવેનન્સ

વોટરમાર્કિંગ: આ અભિગમ હેઠળ, જનરેટ થયેલ ઑડિયોવિઝ્યુઅલ મીડિયા પોતે તેના મૂળનો સંકેત ધરાવે છે. દર્શક અથવા શ્રોતાને ન દેખાતો એક સૂક્ષ્મ પેટર્ન, પરંતુ જેને સોફ્ટવેર દ્વારા શોધી શકાય. આ એવો સંકેત હોઈ શકે છે જેને ફક્ત ગુપ્ત કીની મદદથી શોધી શકાય, અથવા વિકલ્પરૂપે, વોટરમાર્ક શોધવાનું સોફ્ટવેર જાહેરમાં ઉપલબ્ધ હોઈ શકે. તેથી, જો OpenAI અમારા આઉટપુટ્સમાં વોટરમાર્ક ઉમેરે, તો AI વેલ્યૂ ચેઇનમાં સહકાર જરૂરી બનશે જેથી સામગ્રી વિતરિત કરતા સોશિયલ મીડિયા પ્લેટફોર્મ જેવા અન્ય ભાગીદારો વોટરમાર્કને યૂઝર્સ માટે દેખીતી અને ઉપયોગી બનાવી શકે. જો શોધ પ્રક્રિયા પોતે જાહેર ન હોય, તો તે પ્રક્રિયા સુધી પહોંચ એક જટિલ નીતિ પ્રશ્ન બને છે. તકનીકી પડકારો પણ છે. ભલે વોટરમાર્ક્સને અન્ય પ્રોવેનન્સ પદ્ધતિઓ કરતાં દૂર કરવું વધુ મુશ્કેલ હોય, ચિહ્નિત મીડિયા ક્રોપ, રીસાઇઝ અથવા અન્ય રીતે ફેરફાર થાય તો તેનો વોટરમાર્ક ગુમાવી શકે છે. આ કારણોસર, વોટરમાર્ક્સને ખાસ કરીને પ્રેરિત વિરોધી પ્રવર્તકો દ્વારા ટાળી શકાય છે. ઉપરાંત, વોટરમાર્કિંગનો પ્રભાવ મર્યાદિત હોઈ શકે છે કારણ કે દુર્ભાવનાપૂર્ણ પ્રવર્તકો એવા મોડલ સુધી પહોંચ મેળવી શકે છે જે તેમના આઉટપુટ્સને વોટરમાર્ક કરતા નથી.
ક્લાસિફાયર્સ (પ્રશિક્ષિત મોડલ જે AI-જનરેટ થયેલ આઉટપુટને અન્ય મીડિયા થી અલગ પાડે છે, અને કયો મોડલ અથવા સેવા કોઈ આપેલ આઉટપુટ જનરેટ કરે છે તે શોધી શકે છે): જ્યારે તેઓ અસરકારક હોય છે, ત્યારે આ અભિગમો ખૂબ આકર્ષક હોય છે કારણ કે તેઓ છબી વિતરિત કરનાર વ્યક્તિ અથવા અન્ય કોઈના સહકાર પર આધાર રાખતા નથી. તેમ છતાં, તેઓ ભૂલો કરી શકે છે. ફૉલ્સ પોઝિટિવ્સ અને ફૉલ્સ નેગેટિવ્સ બંને. અને મોટા પાયે ડિપ્લોય કરવા માટે ગણતરીની દૃષ્ટિએ ભારે હોઈ શકે છે. ઉદાહરણ તરીકે, ફૉલ્સ પોઝિટિવ્સ ભૂલથી માનવ કલાકારના કામને AI આઉટપુટ તરીકે વર્ણવી શકે. બીજી તરફ, ફૉલ્સ નેગેટિવ્સ ભૂલથી કોઈ છબીને non-AI જનરેટ થયેલી તરીકે ચિહ્નિત કરી શકે, જ્યારે વાસ્તવમાં એવું ન હોય.
મેટાડેટા-આધારિત અભિગમો(જેમ કેC2PA⁠(નવી વિન્ડોમાં ખૂલે છે)નું વર્તમાન ધોરણ): આ અભિગમોમાં, ચોક્કસ મીડિયાની સાથે આવતું મેટાડેટા તે મીડિયાના મૂળનું પ્રમાણપત્ર આપવા માટે ક્રિપ્ટોગ્રાફિક રીતે સહી કરાય છે.

આ એવા લોકોને સશક્ત બનાવી શકે છે જેઓ મીડિયાનો મૂળ સાબિત કરવા માંગે છે, ભલે તે AI-જનરેટ હોય કે ન હોય. ઉદાહરણ તરીકે, C2PA કોઈ સમાચાર પ્રકાશકને દર્શાવવા અને દર્શકોને ખાતરી કરવા દે શકે કે પ્રકાશકે ખરેખર ચોક્કસ છબી અથવા વિડિયો પ્રકાશિત કર્યો હતો અને તે તેની ચોકસાઈ પાછળ ઉભો છે. સમાન રીતે, જો જનરેટિવ AI સિસ્ટમ માટે અમલમાં મૂકવામાં આવે, તો આ તકનિક કલાકારને બતાવવામાં મદદ કરી શકે કે તેમણે ચોક્કસ સિન્થેટિક છબી અથવા વિડિયો જનરેટ કર્યો હતો. દેખીતી રીતે, આ અભિગમોનો લાભ એ છે કે તે ગ્રાહકો અથવા જનતાને સામગ્રીના પ્રોવેનન્સ વિશે દૃશ્યતા આપે છે. ઉપરાંત, તેમને અમલમાં મૂકવા માટે નોંધપાત્ર સ્રોતોની જરૂર પડતી નથી, જે તેમનો એક લાભ છે.

પરંતુ, મૂળભૂત છબી અથવા વિડિયોમાંથી મેટાડેટા સરળતાથી દૂર કરી શકાય છે, તેથી આ તકનિક દુર્ભાવનાપૂર્ણ પ્રવર્તકો (ઉદાહરણ તરીકે ભ્રામક માહિતી અભિયાનમાં સામેલ લોકો) માટે અર્થપૂર્ણ અવરોધ ઉભો કરતી નથી, જેઓ જનરેટ થયેલી સામગ્રીને વાસ્તવિક તરીકે રજૂ કરવા માંગતા હોઈ શકે.

મેટાડેટા અભિગમોનો વ્યાપક જાહેર લાભ થાય તે માટે, બ્રાઉઝર્સ અને વિતરણ પ્લેટફોર્મ્સ, જેમ કે સોશિયલ મીડિયા પ્લેટફોર્મ્સ,ને મેટાડેટા શોધી અને પ્રદર્શિત કરવાની જરૂર પડશે. તેથી મેટાડેટા-આધારિત અભિગમોને સફળતાપૂર્વક અમલમાં મૂકવા માટે સમગ્ર વેલ્યૂ ચેઇનમાં સહકાર જરૂરી છે: ફક્ત ઑડિયોવિઝ્યુઅલ સામગ્રી પર ક્રિપ્ટોગ્રાફિક રીતે સહી કરેલું મેટાડેટા હોવું પૂરતું નથી, પરંતુ વિતરણ પ્લેટફોર્મ્સને તે મેટાડેટા શોધી શકવું અને અંતિમ યૂઝર માટે પ્રદર્શિત કરવું આવશ્યક છે, જેથી તે મીડિયાના મૂળની ચકાસણી કરી શકે.

પ્રોવેનન્સ માટે OpenAIના અભિગમો

દરેક પ્રોવેનન્સ પદ્ધતિ સાથે લાભો અને મર્યાદાઓ આવતી હોવાથી, OpenAI AI-જનરેટ થયેલ ઑડિયોવિઝ્યુઅલ મીડિયા માટે પ્રોવેનન્સના વિવિધ અભિગમોની શોધખોળ કરી રહ્યું છે.

DALL·E 3 છબીઓ માટે C2PA મેટાડેટા

આ વર્ષના 15 જાન્યુઆરીએ, OpenAI એ જાહેરાત કરી કે અમે અમારા ટેક્સ્ટ-ટુ-ઇમેજ મોડલ DALL·E 3 નો ઉપયોગ કરીને જનરેટ થયેલી છબીઓ માટે C2PA મેટાડેટા અભિગમ અમલમાં મૂકશું. C2PA સ્પેસિફિકેશન્સ એક ખુલ્લું તકનીકી ધોરણ છે, જે પ્રકાશકો, સર્જકો અને ગ્રાહકોને વિવિધ પ્રકારના મીડિયાના મૂળને ટ્રેસ કરવાની ક્ષમતા આપે છે.

આ સ્પેસિફિકેશન્સ ફાઇલ સાથે મેટાડેટા જોડવાની મંજૂરી આપે છે. આ મેટાડેટામાં છબીના સ્ત્રોત વિશેની માહિતી (અમારા કિસ્સામાં, છબી DALL·Eમાંથી આવી છે તે) અને બનાવવાનો સમય સામેલ હોય છે. જનતાના સભ્યો આ મેટાડેટાની ચકાસણી કરી શકે છે અને, જો મેટાડેટા હાજર હોય, તો ખાતરી કરી શકે છે કે છબી DALL·E 3 દ્વારા જનરેટ થઈ હતી.

આ અમને DALL·E 3 નો ઉપયોગ કરીને તેઓ જનરેટ કરે તેવી છબીઓના મૂળને દર્શાવવા માટે યૂઝર્સને સશક્ત બનાવવા મદદ કરશે. જોકે, આ મેટાડેટા પ્રમાણમાં સરળતાથી દૂર કરી શકાય છે: પ્રેરિત દુર્ભાવનાપૂર્ણ પ્રવર્તક કોઈપણ છબી સાથે જોડાયેલ C2PA મેટાડેટા દૂર કરી શકે છે. ઉપરાંત, સોશિયલ મીડિયા પ્લેટફોર્મ્સ જેવા સામાન્ય છબી-શેરિંગ પ્લેટફોર્મ્સ હાલમાં તેને ડિફૉલ્ટરૂપે દૂર કરે છે, યૂઝર્સને શોધીને રજૂ કરતા નથી. C2PA કેટલી સરળતાથી દૂર કરી શકાય છે તે જોતા, જનતાના સભ્યો એ માન્યતા રાખી શકતા નથી કે તેઓ જોતી દરેક DALL·E છબીમાં આવો ડેટા જરૂર હશે.

જોકે, C2PA ફક્ત AI છબીઓ માટે નથી, અને તેનો વધુ વ્યાપક સ્વીકાર થાય તો મહત્વપૂર્ણ લાભો મળી શકે છે. છબીઓ ક્યાંથી આવે છે તેની ખાતરી આપવા માટે તેને કેમેરા ઉત્પાદકો, સમાચાર સંસ્થાઓ અને અન્ય લોકો દ્વારા પણ અપનાવવામાં આવી રહ્યું છે. અમારો વિશ્વાસ છે કે ખુલાસાની પદ્ધતિઓનો વ્યાપક સ્વીકાર અને યૂઝર્સને આવા સંકેતો શોધવા પ્રોત્સાહિત કરવું, ડિજિટલ માહિતીની વિશ્વસનીયતા વધારવા તરફના મહત્વપૂર્ણ પગલાં છે.

DALL·E 3 છબીઓ માટે પ્રયોગાત્મક ક્લાસિફાયર

19 ઓક્ટોબર, 2023ના રોજ, અમે અમારા DALL·E 3 સિસ્ટમ દ્વારા જનરેટ થયેલી છબીઓ શોધવા માટેના નવા આંતરિક સાધન, પ્રોવેનન્સ ક્લાસિફાયર પર ચાલી રહેલા અમારા કામની જાહેરાત કરી. અમે આંતરિક બેન્ચમાર્ક્સનો ઉપયોગ કરીને ક્લાસિફાયરની ચોકસાઈ માપીએ છીએ, જેમણે આશાસ્પદ પરિણામો દર્શાવ્યા છે, એવી સ્થિતિમાં પણ જ્યાં છબીઓમાં ક્રોપિંગ, રીસાઇઝિંગ, JPEG કંપ્રેશન જેવી સામાન્ય ફેરફારો કરવામાં આવ્યા હોય, અથવા વાસ્તવિક છબીઓમાંથી લખાણ અથવા કટઆઉટ જનરેટ થયેલી છબીના નાના ભાગો પર સુપરઇમ્પોઝ કરવામાં આવ્યા હોય. આંતરિક પરીક્ષણમાં આ મજબૂત પરિણામો છતાં, ક્લાસિફાયર અમને ફક્ત એટલું જ કહી શકે છે કે છબી સંભવતઃ DALL·E દ્વારા જનરેટ થઈ હતી, અને તે હજી સુધી અમને નિશ્ચિત નિષ્કર્ષ પર પહોંચવા સક્ષમ બનાવતું નથી.

અમે મજબૂતી માટે અમારા ક્લાસિફાયરનું પરીક્ષણ ચાલુ રાખી રહ્યા છીએ અને 2024ના પ્રથમ ત્રિમાસિકમાં, પ્રતિસાદ માટે તેને બાહ્ય ભાગીદારોને ઉપલબ્ધ કરાવવાની અમારી યોજના છે. આવતા વર્ષમાં, તેની કામગીરી અને ઉપયોગિતાનું મૂલ્યાંકન કરવા માટે પસંદ કરાયેલા બાહ્ય પક્ષોને આમંત્રિત કરીને, અમે ઇમેજ ક્લાસિફાયર સાથેના અમારા પ્રયોગોને વિસ્તૃત કરવાની શરૂઆત કરવા આતુર છીએ.

ક્લાસિફાયર મોડલ માટે અનુકૂળ બનાવાયેલ છે અને ફક્ત એટલું જ વર્ગીકરણ કરી શકે છે કે છબી સંભવતઃ DALL·E દ્વારા જનરેટ થઈ હતી કે નહીં, અને તેથી, ભલે તે તેના વર્ગીકરણોમાં સંપૂર્ણપણે ચોક્કસ હોય, તો પણ અન્ય કોઈ જનરેટિવ સાધન દ્વારા છબી જનરેટ થઈ હતી કે નહીં તે નક્કી કરવા માટે તેનો ઉપયોગ શક્ય નહીં બને.

આ ક્ષેત્રમાં તમારું કામ આગળ વધતું રહે ત્યારે તમારી સાથે સહકાર કરવાની તકનું અમે સ્વાગત કરીએ છીએ.

આદરપૂર્વક.

એના એડેઓલા મકાનજુ
ગ્લોબલ અફેર્સના VP
OpenAI

ફૂટનોટ્સ

A
રેડ ટીમિંગની Frontier Model Forumની વ્યાખ્યા⁠(નવી વિન્ડોમાં ખૂલે છે) જુઓ.
B
અમે “નિષ્ણાત” શબ્દનો ઉપયોગ ડોમેન જ્ઞાનની શ્રેણી અને જીવંત અનુભવો દ્વારા માહિતગાર થયેલી નિષ્ણાતી માટે કરીએ છીએ.