Published: 26 ઑક્ટોબર, 2023

OpenAIનો ફ્રન્ટિયર રિસ્ક પ્રત્યેનો અભિગમ

UK AI Safety Summit માટે એક અપડેટ

લોડિંગ…

21 જુલાઈ 2023ના રોજ, OpenAIએ AIમાં સુરક્ષા, સલામતી અને વિશ્વાસને પ્રોત્સાહિત કરવા માટે સ્વૈચ્છિક પ્રતિબદ્ધતાઓના સમૂહમાં અન્ય અગ્રણી AI લેબ્સ સાથે જોડાયું. આ પ્રતિબદ્ધતાઓમાં અનેક પ્રકારના જોખમ ક્ષેત્રો આવરી લેવાયા હતા, જેમાં કેન્દ્રસ્થાને આવતા AI Safety Summitના ફોકસ રહેલા ફ્રન્ટિયર રિસ્ક સામેલ હતા.

આ અપડેટમાં, અમે આ સ્વૈચ્છિક પ્રતિબદ્ધતાઓ અંગેની અમારી પ્રગતિ વર્ણવીએ છીએ અને ફ્રન્ટિયર રિસ્ક ઘટાડવા માટેના અમારા વિકસતા અભિગમની વધુ વિગતો આપીએ છીએ, જેમાં પ્રિપેરડનેસ ફ્રેમવર્ક વિકસાવવા માટેનું અમારું ચાલુ કામ પણ સામેલ છે.

3 ઑક્ટોબર, 2023ના રોજ અમે જાહેર રીતે system card⁠ પ્રકાશિત કર્યું અમારા text to image મોડલ DALL-E 3 માટે⁠, જે અમારી સ્વૈચ્છિક પ્રતિબદ્ધતાઓના વ્યાપ હેઠળ નવા અત્યાધુનિક મોડલનું પ્રથમ મોટું જાહેર રિલીઝ હતું. અમારી મિશન અને સ્વૈચ્છિક પ્રતિબદ્ધતાઓ બંનેને અનુરૂપ, અમે તૈનાતી પહેલાંની સુરક્ષા મૂલ્યાંકન અને રેડ ટીમિંગ સહિત મહત્વપૂર્ણ સુરક્ષા કાર્ય કર્યું. ઉપરાંત, અમે લોકોને AI-જનરેટેડ મીડિયાની provenance ટ્રૅક કરવામાં સક્ષમ બનાવતી નવી પદ્ધતિઓ પર કામ કરી રહ્યા છીએ, અને ChatGPTમાં voice અને image analysis ક્ષમતાઓના રોલઆઉટ દ્વારા જવાબદાર પ્રથાઓમાં રોકાણ ચાલુ રાખ્યું છે.

અમે અમારી સ્વૈચ્છિક પ્રતિબદ્ધતા⁠ પણ પૂર્ણ કરી છે કે “એવું ફોરમ અથવા મિકેનિઝમ સ્થાપિત કરવું અથવા તેમાં જોડાવું જેના માધ્યમથી [અમે] ફ્રન્ટિયર AI safety માટેના સંયુક્ત ધોરણો અને શ્રેષ્ઠ પ્રથાઓ વિકસાવી, આગળ ધપાવી અને અપનાવી શકીએ,” Frontier Model Forumના સહ-સ્થાપક બનીને. Microsoft, Google Deepmind અને Anthropic સાથે સંયુક્ત રીતે સ્થાપિત આ નવી ઉદ્યોગ સંસ્થા, AI safety સંશોધનને આગળ ધપાવવા અને ફ્રન્ટિયર AI સિસ્ટમો માટે જવાબદાર વિકાસ પ્રથાઓને પ્રોત્સાહિત કરવા માટેનું મંચ છે.

પ્રિપેરડનેસ ફ્રેમવર્ક

અત્યાધુનિક AI મોડલો સમગ્ર માનવજાતને લાભ પહોંચાડવાની ક્ષમતા ધરાવે છે, પરંતુ તેઓ વધતા જતા ગંભીર જોખમો પણ ઊભા કરે છે. AI મોડલો સતત સુધરતા રહે ત્યારે આ જોખમોનું સંચાલન કરવા માટે, અમે પ્રિપેરડનેસ ફ્રેમવર્ક વિકસાવી રહ્યા છીએ, જે જવાબદાર અત્યાધુનિક મોડલ વિકાસ માટેના અમારા સક્રિય, જોખમ-આધારિત અભિગમને, ખાસ કરીને વિનાશકારી જોખમોના સંદર્ભમાં, વધુ મજબૂત બનાવે છે.

પ્રિપેરડનેસ ફ્રેમવર્ક અત્યાધુનિક મોડલ ક્ષમતાના કડક મૂલ્યાંકન અને મોનિટરિંગ માટેના અમારા અભિગમનું વિગતવાર વર્ણન કરશે, તેમજ સમગ્ર વિકાસ પ્રક્રિયામાં જવાબદારી અને દેખરેખ માટે ગવર્નન્સ માળખું સ્થાપિત કરશે. આ નીતિના ભાગરૂપે અમે જે જોખમોને ટ્રૅક કરવાની યોજના બનાવીએ છીએ તેમાં સાયબરસિક્યુરિટી, મનાવટ, રાસાયણિક અને જૈવિક ખતરાઓ, અને સ્વાયત્તતા જેવી અનેક શ્રેણીઓનો સમાવેશ થાય છે.

પ્રિપેરડનેસ ફ્રેમવર્ક વિનાશકારી પરિણામોથી રક્ષણ માટે વિવિધ પગલાંની શ્રેણી પણ પ્રદાન કરશે. વિનાશકારી જોખમ અંગેની પ્રાયોગિક સમજ હજી પ્રારંભિક છે અને ઝડપથી વિકસી રહી છે. તેથી, અમારી તાજી મૂલ્યાંકન અને મોનિટરિંગ સમજને પ્રતિબિંબિત કરવા માટે અમે વર્તમાન અત્યાધુનિક મોડલ જોખમ સ્તરો અંગેનું અમારું મૂલ્યાંકન ગતિશીલ રીતે અપડેટ કરતા રહીશું. અમે આ પ્રયાસને આગળ ધપાવવા માટે સમર્પિત ટીમ (Preparedness) ઉભી કરી રહ્યા છીએ, જેમાં જરૂરી સંશોધન અને મોનિટરિંગનો સમાવેશ થાય છે.

પ્રિપેરડનેસ ફ્રેમવર્ક અમારી હાલની જોખમ-નિયંત્રણ કામગીરીને પૂરક અને વિસ્તૃત કરવા માટે બનાવવામાં આવ્યું છે, જે તૈનાતી પહેલાં અને પછી બંને તબક્કામાં, નવી અને ખૂબ જ સક્ષમ સિસ્ટમોની સુરક્ષા અને એલાઇનમેન્ટમાં યોગદાન આપે છે. આ હાલના પ્રયાસોમાં અમારી Safety Systems ટીમનું સંશોધન અને સુવ્યવસ્થિત ઉકેલો બનાવવાનું કામ સામેલ છે જેથી અમારા શ્રેષ્ઠ મોડલોને સુરક્ષિત રીતે તૈનાત કરી શકાય, તેમજ અમારી Superalignment ટીમ, જે સુપરઇન્ટેલિજન્ટ AI સિસ્ટમોને માનવીય ઇરાદા સાથે એલાઇન કરવાની મશીન લર્નિંગ પડકારો પર ધ્યાન કેન્દ્રિત કરે છે.

આ પ્રયત્નોમાં Microsoft સાથેનું સંયુક્ત Deployment Safety Board (DSB) પણ સામેલ છે, જે નિશ્ચિત ક્ષમતા મર્યાદાથી ઉપરના મોડલો તૈનાત કરવા અંગે બંને પક્ષોના નિર્ણયોને મંજૂરી આપે છે. DSB ખાસ કરીને તૈનાતી સંબંધિત નિર્ણયો પર ધ્યાન આપે છે, પહેલાંના તબક્કાઓ પર નહીં, જેમ કે ચોક્કસ કદ અથવા ક્ષમતા સ્તરના મોડલોને ટ્રેન કરવાં કે નહીં. તેમાં જવાબદાર સ્કેલિંગ નીતિઓના સંદર્ભમાં વારંવાર ચર્ચાતી કેટલીક વિશેષતાઓ છે, જેમ કે સૌથી સક્ષમ સિસ્ટમો પર ફોકસ, વિરોધી પરીક્ષણ પર મજબૂત ભાર, અને એલાઇનમેન્ટ અંગે સ્પષ્ટ વિચારણા. GPT‑4 અંગે DSBની સમીક્ષામાંથી, જે પ્રથમ પાત્ર તૈનાતી હતી, અમને મહત્વપૂર્ણ શિખામણ મળી છે, અને અમે આ શિખામણનો ઉપયોગ પ્રિપેરડનેસ ફ્રેમવર્કની ડિઝાઇન અને અમલ માટે કરીશું. DSB અને પ્રિપેરડનેસ ફ્રેમવર્ક બંને, તેમજ તેમની સંબંધિત ભૂમિકાઓ, જોખમો અને નિવારણો વિશે વધુ શીખતાં સમય સાથે વિકસી શકે છે.

નોંધ: અમે અમારી નીતિને Responsible Scaling Policy કરતાં Preparedness Framework કહીીએ છીએ, કારણ કે ક્ષમતામાં નોંધપાત્ર વધારો વિના પણ, ઉદાહરણ તરીકે અલ્ગોરિથમિક સુધારાઓ દ્વારા, ક્ષમતામાં નાટકીય વધારો થઈ શકે છે. પ્રિપેરડનેસ ફ્રેમવર્ક વધતી ક્ષમતાઓ સ્કેલ, અલ્ગોરિથમિક સુધારાઓ કે અન્ય ઑપ્ટિમાઇઝેશનમાંથી આવે છે કે નહીં તેની પરવા કર્યા વિના, વધતી ક્ષમતા ધરાવતા અત્યાધુનિક મોડલોના અમારા વિકાસને નિયંત્રિત કરે છે.

સામાજિક, સલામતી અને સુરક્ષા જોખમો પર પ્રાથમિક સંશોધન અને રોકાણ

અમારા કરતાં બહુ વધારે બુદ્ધિશાળી AI સિસ્ટમોને નિયંત્રિત કરવા અને સમાવવામાં લેવા માટે અમને વૈજ્ઞાનિક પ્રગતિઓ, સામાજિક તૈયારી અને અદ્યતન સુરક્ષા સિસ્ટમોની જરૂર છે. અમે આ પ્રગતિઓમાં રોકાણ કરી રહ્યા છીએ બે નવી ટીમો બનાવીને: Superalignment અને Preparedness, અને અમારી સુરક્ષા સિસ્ટમોમાં વધુ રોકાણ કરીને.

AIને એલાઇન કરવા માટે અમારી હાલની તકનીકો, જેમ કે હ્યુમન ફીડબેકથી રીઇન્ફોર્સમેન્ટ લર્નિંગ, AIની દેખરેખ રાખવાની માનવ ક્ષમતા પર આધાર રાખે છે. પરંતુ સુપરઇન્ટેલિજન્સ માટે આ તકનીકો કામ નહીં કરે, કારણ કે મનુષ્યો આપણા કરતાં ઘણી વધુ બુદ્ધિશાળી AI સિસ્ટમોની વિશ્વસનીય દેખરેખ રાખવામાં સક્ષમ નહીં હોય. અમે Ilya Sutskever (OpenAIના સહ-સ્થાપક અને Chief Scientist) અને Jan Leike (Head of Alignment)ના સહ-નેતૃત્વ હેઠળની Superalignment⁠ નામની નવી ટીમમાં રોકાણ કરીને ચાર વર્ષની અંદર આ સમસ્યા હલ કરવાનો લક્ષ્ય નક્કી કર્યો છે. અમારો હેતુ માનવ-સ્તરની નજીકનું સ્વચાલિત alignment researcher બનાવવાનો છે અને સુપરઇન્ટેલિજન્સને એલાઇન કરવા માટેના અમારા પ્રયાસોને વિસ્તૃત કરવા માટે મોટી માત્રામાં computeનો ઉપયોગ કરવાનો છે. અમે જૂન 2023 સુધી સુરક્ષિત કરેલા computeમાંથી 20% આ પ્રયાસ માટે સમર્પિત કરવાની યોજના બનાવીએ છીએ. ટીમ પરિણામો વ્યાપક રીતે શેર કરશે જેથી non-OpenAI મોડલોના alignment અને safetyમાં પણ યોગદાન આપી શકાય.

સુપરઇન્ટેલિજન્સને એલાઇન કરવાની પડકારોથી આગળ, અમે માનીએ છીએ કે વધતી ક્ષમતા ધરાવતા અત્યાધુનિક મોડલોના સંભવિત દુરુપયોગમાંથી વધતા ગંભીર જોખમો ઊભા થઈ શકે છે. અમે Preparedness નામની નવી સમર્પિત ટીમ બનાવી રહ્યા છીએ જે આ જોખમોને ઓળખે, ટ્રૅક કરે અને તેમના માટે તૈયારી કરે. અમે સાયબરસિક્યુરિટી, CBRN, persuasion, અને autonomous replication and adaptation સહિત ફ્રન્ટિયર રિસ્કને ટ્રૅક કરવાનો અને વિનાશકારી જોખમોના પ્રભાવ સામે રક્ષણ આપવા માટેની કાર્યવાહી શેર કરવાનો ઇરાદો રાખીએ છીએ. વિનાશકારી જોખમ અંગેની પ્રાયોગિક સમજ હજી પ્રારંભિક હોવાથી, અમારી તાજી મૂલ્યાંકન અને મોનિટરિંગ સમજને પ્રતિબિંબિત કરવા અમે વર્તમાન અત્યાધુનિક મોડલ જોખમ સ્તરો અંગેનું અમારું મૂલ્યાંકન પુનરાવર્તિત રીતે અપડેટ કરીશું.

માલિકીહકવાળા અને હજી સુધી રિલીઝ ન થયેલા model weightsને સુરક્ષિત રાખવા માટે અમે સાયબરસિક્યુરિટી અને insider threat safeguardsમાં રોકાણ ચાલુ રાખી રહ્યા છીએ. અમે સામૂહિક સુરક્ષા માટે કાર્યરત સમાન વિચારધારાવાળા સંશોધકોને સંકલિત કરવા Cybersecurity Grant Program અને OpenAI Bug Bounty Program શરૂ કર્યા છે. Cybersecurity Grant Program એ AI-આધારિત સાયબરસિક્યુરિટી ક્ષમતાઓને વધારવા અને માપવા તથા ઉચ્ચ-સ્તરની AI અને સાયબરસિક્યુરિટી ચર્ચાને પ્રોત્સાહિત કરવા માટેની $1M પહેલ છે. અમે જનતાને પણ અમારા સિસ્ટમોમાં શોધાયેલી vulnerabilities, bugs અથવા security flawsની જાણ કરવા આમંત્રિત કરીએ છીએ. OpenAI Bug Bounty Program અમને અમારી ટેક્નોલોજી અને કંપનીને સુરક્ષિત રાખવામાં યોગદાન આપનાર વ્યક્તિઓની મૂલ્યવાન સમજને ઓળખવા અને ઇનામ આપવા સક્ષમ બનાવે છે.

મોડલ મૂલ્યાંકન અને રેડ ટીમિંગ

અમે રિલીઝ થનાર દરેક નવા મોટા મોડલનું સુરક્ષા માટે મૂલ્યાંકન કરીએ છીએ, જેમાં રેડ ટીમિંગનો ઉપયોગ પણ સામેલ છે. ઉદાહરણ તરીકે, GPT‑4ને જાહેર રીતે રિલીઝ કરતા પહેલાં, બાહ્ય રેડ ટીમરોએ નીચેના ફ્રન્ટિયર રિસ્ક માટે મોડલનું પરીક્ષણ કર્યું: (1) પરમાણુ, રેડિયોલોજિકલ, જૈવિક અને રાસાયણિક હથિયારો (CBRN)ના વિકાસમાં સહાય, (2) સાયબર જોખમમાં વધારો, (3) tool useમાંથી ઊભા થતા જોખમો અને (4) self-replication ક્ષમતાઓ. DALL-E 3ના અમારા રેડ ટીમિંગના ભાગરૂપે, અમારી સ્વૈચ્છિક પ્રતિબદ્ધતાઓના વ્યાપ હેઠળ, અમે CBRN વિકસાવવા, મેળવવા અથવા ફેલાવવા માટે જરૂરી દૃશ્ય માહિતી પ્રદાન કરવાની મોડલની ક્ષમતાનું રેડ ટીમિંગ કર્યું.

અમે OpenAI Red Teaming Network⁠ માટે જાહેર આમંત્રણ પણ શેર કર્યું છે, જેથી OpenAIના મોડલોની સુરક્ષા સુધારવામાં રસ ધરાવતા ડોમેન નિષ્ણાતોને અમારા રેડ ટીમિંગ પ્રયત્નોમાં જોડાવા માટે ખુલ્લું આમંત્રણ આપી શકાય.

CBRN. કેટલીક LLM ક્ષમતાઓમાં dual-use સંભાવના હોઈ શકે છે, એટલે કે મોડલોનો ઉપયોગ વ્યાપારી તેમજ સૈન્ય અથવા પ્રસાર બંને પ્રકારના ઉપયોગ માટે થઈ શકે છે. અમારા મોડલો CBRN વિકસાવવા, મેળવવા અથવા ફેલાવવા ઇચ્છતા પ્રસારકોને જરૂરી માહિતી આપી શકે છે કે કેમ તે તપાસવા માટે અમે GPT‑4ને ચાર dual-use ડોમેનમાં stress testing, boundary testing અને રેડ ટીમિંગ હેઠળ મૂક્યું. અમે જોયું કે એકલું GPT‑4 ઍક્સેસ પ્રસાર માટે પૂરતી શરત નથી, પરંતુ ખાસ કરીને પરંપરાગત search toolsની સરખામણીએ તે પ્રસારકોને ઉપલબ્ધ માહિતીમાં ફેરફાર કરી શકે છે. રેડ ટીમરોએ GPT‑4 અને પરંપરાગત search engines બંને માટે પ્રશ્નોના સમૂહ પસંદ કર્યા અને જોયું કે GPT‑4નો ઉપયોગ કરતાં સંશોધન પૂર્ણ કરવા લાગતો સમય ઓછો થયો. કેટલાક કિસ્સાઓમાં, માહિતીની ચોકસાઈ ગુમાવ્યા વિના સંશોધન પ્રક્રિયા અનેક કલાકોથી ઘટી ગઈ. તેથી અમે નિષ્કર્ષ કાઢ્યો કે મુખ્ય જોખમ-પ્રેરક GPT‑4ની એવી જાહેરમાં ઉપલબ્ધ પરંતુ શોધવામાં કઠિન માહિતી જનરેટ કરવાની ક્ષમતા છે, જે વપરાશકર્તાઓનો સંશોધનમાં લાગતો સમય ઘટાડે છે અને આ માહિતીને ગેર-નિષ્ણાત વપરાશકર્તા માટે સમજાય તેવી રીતે એકત્રિત કરે છે. DALL-E 3ને રિલીઝ કરતા પહેલાં, અમે CBRN જોખમો સંબંધિત માહિતી ઉત્પન્ન કરવા અને મેળવવા માટે diagrams અને visual instructions જનરેટ કરવાની મોડલની ક્ષમતા ચકાસીને text-to-image generationએ જોખમ પ્રોફાઇલમાં શું ફેરફાર કર્યો તેનો મૂલ્યાંકન કર્યો. GPT‑4ની જેમ જ, અમે DALL-E 3નું આંતરિક અને બાહ્ય પરીક્ષણ કર્યું, જેમાં આંતરિક રીતે જોખમો માટે મોડલનું પરીક્ષણ કર્યું અને વિવિધ ઉદ્યોગોના બાહ્ય નિષ્ણાતોને વહેલો ઍક્સેસ આપ્યો જેથી સિસ્ટમોની તપાસ કરીને જોખમો નકશાબદ્ધ અને મૂલ્યાંકિત કરી શકાય. અમે DALL·E 3ને ચાર dual-use ડોમેનમાં રેડ ટીમિંગ હેઠળ મૂક્યું જેથી જાણી શકાય કે તેઓ CBRN વિકસાવવા, મેળવવા અથવા ફેલાવવા માટે જરૂરી માહિતી આપી શકે છે કે નહીં. રેડ ટીમરોએ આ ક્ષેત્રોમાં ખૂબ ઓછું જોખમ જોવા મળ્યું, કારણ તરીકે આ વિષયો પરની અચોક્કસતા, ઇનકાર, અને સફળ પ્રસાર માટે વધુ ઍક્સેસ અને જરૂરી “ingredients”ની વ્યાપક જરૂરિયાતનો સંયુક્ત પ્રભાવ હતો.

Cyber capabilities. અમે GPT‑4ની vulnerability discovery and exploitation અને social engineering માટે ઉપયોગી બનવાની ક્ષમતાનું પણ મૂલ્યાંકન કર્યું. કમ્પ્યુટર નબળાઈઓ શોધવા, મૂલ્યાંકન કરવા અને exploit કરવામાં મોડલ કેવી રીતે મદદરૂપ થઈ શકે તેની ચકાસણી કરવા માટે અમે બાહ્ય સાયબરસિક્યુરિટી નિષ્ણાતોને નિયુક્ત કર્યા, જેમણે જોયું કે જો source code પૂરતો નાનો હોય અને મોડલની context windowમાં સમાઈ જાય, તો GPT‑4 કેટલીક vulnerabilities સમજાવી શકે છે, પરંતુ ઓળખાયેલી vulnerabilities માટે exploits બનાવવામાં GPT‑4નું પ્રદર્શન નબળું રહ્યું. social engineering ક્ષમતાઓ તપાસવા માટે નિષ્ણાત રેડ ટીમરોએ તપાસ્યું કે target identification, spear-phishing અને bait-and-switch phishing જેવા સંબંધિત કાર્યોમાં GPT‑4 વર્તમાન સાધનો કરતાં સુધારો દર્શાવે છે કે નહીં. તેમણે જોયું કે લક્ષ્યોની સૂચી બનાવવી અને તાજેતરની માહિતીનો ઉપયોગ કરીને વધુ અસરકારક phishing content તૈયાર કરવું જેવા તથ્યાત્મક કાર્યોમાં મોડલ સંઘર્ષ કરતું હોવાથી તે વર્તમાન social engineering ક્ષમતાઓમાં તૈયાર અપગ્રેડ નહોતું. છતાં, target વિશે યોગ્ય પૃષ્ઠભૂમિ જ્ઞાન સાથે GPT‑4 વાસ્તવિક social engineering content તૈયાર કરવામાં અસરકારક હતું. આ નિષ્કર્ષોના આધારે, અમે GPT‑4ને દુર્ભાવનાપૂર્ણ સાયબરસિક્યુરિટી વિનંતીઓને નકારવા માટે પોસ્ટ-ટ્રેન્ડ કર્યું અને મોનિટરિંગ, ડિટેક્શન અને પ્રતિસાદ સહિત અમારી આંતરિક સુરક્ષા સિસ્ટમોને વિસ્તૃત કરી.

Self-replication. GPT‑4ને રિલીઝ કરતા પહેલાં, અમે Alignment Research Center (ARC) દ્વારા મોડલની સ્વાયત્ત રીતે પ્રતિકૃતિ બનાવવા અને સંસાધનો એકત્ર કરવાની ક્રિયાઓ કરી શકવાની ક્ષમતાનું પ્રાથમિક મૂલ્યાંકન પણ સુગમ બનાવ્યું. અમારી રેડ ટીમિંગના ભાગરૂપે અમે ARCને મોડલોનો વહેલો ઍક્સેસ આપ્યો જેથી તેમની ટીમ power-seeking વર્તનમાંથી ઊભા થતા જોખમોનું મૂલ્યાંકન કરી શકે. ARCએ power-seekingનું જે ચોક્કસ સ્વરૂપ મૂલ્યાંકન કર્યું તે હતું મોડલની સ્વાયત્ત રીતે પોતાની પ્રતિકૃતિ બનાવવાની અને સંસાધનો મેળવવાની ક્ષમતા. ARCએ જોયું કે GPT‑4ના શરૂઆતના સંસ્કરણો તેમના પ્રાથમિક પ્રયોગોમાં સ્વાયત્ત replication કાર્યમાં અસરકારક નહોતા. તેથી તેમણે નિષ્કર્ષ કાઢ્યો કે મોડલ માટે સ્વાયત્ત રીતે પોતાની પ્રતિકૃતિ બનાવવી શક્યતા ઓછી હતી.

મોડલ અહેવાલ અને માહિતી શેરિંગ

જવાબદાર AI સિસ્ટમો બનાવવા માટે પારદર્શિતા એક મહત્વપૂર્ણ તત્વ છે. જવાબદારી માટેના અમારા અભિગમનો એક મુખ્ય ભાગ એ છે કે અમે હાલમાં system card કહેવાતા દસ્તાવેજને, અમે તૈનાત કરતાં નવા AI સિસ્ટમો માટે પ્રકાશિત કરીએ છીએ. અમારા system cardsનો હેતુ વાચકોને સિસ્ટમના વર્તનને અસર કરનાર મુખ્ય પરિબળોની જાણ કરવો છે, ખાસ કરીને જવાબદાર ઉપયોગ માટે સંબંધિત ક્ષેત્રોમાં, અને તે model અને system cards પરના અગાઉના સંશોધન કાર્યથી પ્રેરણા લે છે. સ્વૈચ્છિક પ્રતિબદ્ધતાઓ પહેલાં, OpenAIએ બે system cards પ્રકાશિત કર્યા હતા: GPT‑4 System Card અને DALL-E 2 System Card. ત્યારથી, અમે DALL-E 3ને ChatGPTમાં રિલીઝ કરતાં પહેલાં System Card પ્રકાશિત કર્યું, જે સ્વૈચ્છિક પ્રતિબદ્ધતાઓ પર હસ્તાક્ષર કર્યા પછી નવા મોડલનું અમારું પ્રથમ મોટું જાહેર રિલીઝ હતું. અમારી ટેક્નોલોજીને જવાબદારીપૂર્વક રિલીઝ કરવાનો સતત પ્રયાસ તરીકે, અમે GPT‑4ની vision capabilitiesને ChatGPTમાં ઉપલબ્ધ કરાવતાં પહેલાં તેના માટે પણ System Card પ્રકાશિત કર્યું.

મોડલ રિલીઝ પછી મળેલી નબળાઈઓ માટેની અહેવાલ રચના

સ્વૈચ્છિક પ્રતિબદ્ધતાઓ કર્યા પછીથી, અમે AI લેબ્સ વચ્ચે જોખમી ક્ષમતાઓના જવાબદાર ખુલાસા માટે એક મિકેનિઝમ બનાવવા Frontier Model Forumની અંદર એક વર્કિંગ ગ્રુપ શરૂ કર્યું છે. આ મિકેનિઝમનો હેતુ અત્યાધુનિક મોડલોમાં ઓળખાયેલા મહત્વપૂર્ણ જોખમોનો ગુપ્ત ખુલાસો અત્યાધુનિક લેબ્સ અને અન્ય AI લેબ્સ વચ્ચે શક્ય બનાવવાનો છે. અમારો પ્રારંભિક ફોકસ Chemical, Biological, Radiological, and Nuclear (CBRN) ક્ષમતાઓ જેવા રાષ્ટ્રીય સુરક્ષા સંબંધિત ક્ષેત્રો સાથે સાથે self-replication, deception અને manipulation જેવી અન્ય જોખમી ક્ષમતાઓને આવરી લે છે. ખુલાસાની પદ્ધતિઓમાં મૂલ્યાંકન, રેડ ટીમિંગ અભ્યાસોથી મળેલી સમજ અને એવા વિસ્તારોમાં લેબ સભ્યો વચ્ચેના સામાન્ય ખતરાના અન્ય પુરાવાનો સમાવેશ થશે જ્યાં વધુ વ્યાપક ખુલાસો પોતે જ મહત્વપૂર્ણ જોખમ ઉભું કરે.

અમે OpenAIના બગ બાઉન્ટી પ્રોગ્રામની જાહેરાત પણ કરી હતી, જેથી અમારા સિસ્ટમોમાં સુરક્ષા નબળાઈઓની જાણ કરનાર વ્યક્તિઓને ઓળખ અને ઇનામ આપી શકાય. અમારા ઇનામો નીચી ગંભીરતાવાળા નિષ્કર્ષો માટે $200થી લઈને અસાધારણ શોધો માટે $20,000 સુધી છે. અમે અગ્રણી bug bounty પ્લેટફોર્મ Bugcrowd સાથે ભાગીદારી કરી છે જેથી સબમિશન અને રિવોર્ડ પ્રક્રિયા બનાવી શકાય, જે બગ બાઉન્ટી પ્રોગ્રામ પેજ⁠(નવી વિન્ડોમાં ખૂલે છે) પર ઉપલબ્ધ છે.

દુરુપયોગના પેટર્ન માટે તૈનાતી પછીનું મોનિટરિંગ

અમે તૈનાતી પહેલાં અનુમાનિત જોખમોને અટકાવવા માટે ખૂબ મહેનત કરીએ છીએ. છતાં, લેબમાં કોઈપણ શું શીખી શકે તેની મર્યાદાઓ પણ હોય છે. વ્યાપક સંશોધન અને પરીક્ષણ પછી પણ, લોકો અમારી ટેક્નોલોજીનો કયા બધા લાભદાયક રીતે ઉપયોગ કરશે, કે કયા બધા રીતે તેનો દુરુપયોગ થઈ શકે, તે બધું અમે આગોતરું કહી શકતા નથી. અણધાર્યા જોખમોને ઝડપથી ઓળખી અને ઉકેલવાની ક્ષમતા વિકસાવવી અમારી માટે ઊંચી પ્રાથમિકતા છે, કારણ કે એવી ક્ષમતા અત્યાધુનિક સિસ્ટમો માટે એક મહત્વપૂર્ણ સુરક્ષા છે જ્યાં બધા જોખમોનું સંપૂર્ણ અનુમાન શક્ય નથી. અમે અણધાર્યા પ્રકારના દુરુપયોગને શોધવા માટે આંતરિક ઉપાયો બનાવીએ છીએ, તેમને પ્રતિસાદ આપવા પ્રક્રિયાઓ રાખીએ છીએ, અને પ્રાપ્ત શિખામણનો ઉપયોગ અમારી વપરાશ નીતિઓ, સુરક્ષા સિસ્ટમો અને મોડલ આઉટપુટ સુધારવા માટે કરીએ છીએ. સિસ્ટમ રિલીઝ કર્યા પછી, દુરુપયોગ અથવા અણધાર્યા જોખમોને શોધવા માટે અમે સક્રિય તપાસ, મોનિટરિંગ અને આવનારા અહેવાલોની તપાસ કરીએ છીએ. પછી અમે નીતિ અને ટેક્નિકલ ઉકેલો દ્વારા સામે આવેલા મુદ્દાઓને ઝડપથી અને પુનરાવર્તિત રીતે ઉકેલવાનો પ્રયત્ન કરીએ છીએ. અમે અમારી કામગીરીનું વિસ્તરણ અને પ્રતિસાદ સમય ઘટાડવાનું કામ સતત ચાલુ રાખી રહ્યા છીએ.

મોડલ weightsની સુરક્ષા સહિત સુરક્ષા નિયંત્રણો

અમે OpenAIની ટેક્નોલોજી, બૌદ્ધિક સંપત્તિ અને ડેટાના રક્ષણ માટે નોંધપાત્ર સંસાધનો સમર્પિત કરીએ છીએ.

અમે અમારા સૌથી શક્તિશાળી AI મોડલોને સેવાઓ તરીકે તૈનાત કરીએ છીએ. આવા મોડલોના weights અમે OpenAI અને અમારા ટેક્નોલોજી ભાગીદાર Microsoftની બહાર વિતરણ કરતા નથી, અને અમે API મારફતે અમારા સૌથી સક્ષમ મોડલોનો તૃતીય-પક્ષ ઍક્સેસ આપીએ છીએ જેથી model weights, source code અને અન્ય સંવેદનશીલ માહિતી નિયંત્રિત રહે.

અમે વ્યક્તિગત માહિતીની ખોટ, દુરુપયોગ અને અનધિકૃત ઍક્સેસ અટકાવવા માટે વ્યાવસાયિક રીતે યોગ્ય ટેક્નિકલ, વહીવટી અને સંસ્થાગત ઉપાયો પણ અમલમાં મૂકીએ છીએ. તેમાં અમારા સુરક્ષા કાર્યક્રમના તૃતીય-પક્ષ ઓડિટનો સમાવેશ થાય છે, જેમાં SOC 2 Type 2 પણ સામેલ છે. અમે બગ બાઉન્ટી પ્રોગ્રામ પણ શરૂ કર્યો છે, જે સ્વતંત્ર સંશોધકોને અમારા સિસ્ટમોમાંની નબળાઈઓની જાણ કરવા બદલ નકદ ઇનામ આપે છે. અમારો ટ્રસ્ટ પોર્ટલ ગ્રાહકો અને અન્ય હિતધારકોને અમારા સુરક્ષા નિયંત્રણો અને ઓડિટ અહેવાલોની સમીક્ષા કરવાની મંજૂરી આપે છે. અમારા સાયબરસિક્યુરિટી પ્રયત્નોના ભાગરૂપે, અમે નિયમિત રીતે આંતરિક અને તૃતીય-પક્ષ penetration testing કરીએ છીએ અને અમારા સુરક્ષા નિયંત્રણોની યોગ્યતા અને અસરકારકતાનો ઓડિટ કરીએ છીએ.

AI-જનરેટેડ સામગ્રીના ઓળખચિહ્નો

અમારા મોડલો દ્વારા બનાવવામાં આવેલી ઑડિયોવિઝ્યુઅલ સામગ્રીને ઓળખવામાં મદદ કરવા માટે અમે provenance માટે ટેક્નિકલ અભિગમ વિકસાવી રહ્યા છીએ. આ અભિગમ વિકસિત થઈ જશે પછી, અમે તેને અમારી નવી અત્યાધુનિક સિસ્ટમોમાં વ્યાપક રીતે તૈનાત કરીશું. અમે provenance માટેની વિવિધ તકનીકોનું મૂલ્યાંકન કરી રહ્યા છીએ, જેમાં દરેકના અલગ ફાયદા અને ગેરફાયદા છે, અને જે મોટા ભાગે ત્રણ શ્રેણીમાં આવે છે: watermarking, classifiers, metadata-based approaches.

અમારી સ્વૈચ્છિક પ્રતિબદ્ધતાઓ કર્યા પછીથી, DALL·E 3 દ્વારા ઇમેજ જનરેટ થઈ છે કે નહીં તે ઓળખવામાં મદદ કરવા માટે અમે provenance classifier પર સંશોધન અને પરીક્ષણ કરી રહ્યા છીએ. હાલમાં અમે તેનું આંતરિક મૂલ્યાંકન કરી રહ્યા છીએ અને DALL·E 3 રિલીઝના ભાગરૂપે જાહેર અપડેટ પણ આપ્યું છે.

ડેટા ઇનપુટ નિયંત્રણો અને ઓડિટ

ChatGPTને શક્તિ આપતા મોડલો સહિત OpenAIના large language models ત્રણ મુખ્ય માહિતી સ્ત્રોતોનો ઉપયોગ કરીને વિકસાવવામાં આવે છે: (1) ઇન્ટરનેટ પર જાહેરમાં ઉપલબ્ધ માહિતી, (2) તૃતીય પક્ષો પાસેથી અમે લાઇસન્સ લઈએ તેવી માહિતી, અને (3) અમારા વપરાશકર્તાઓ અથવા અમારા માનવીય ટ્રેનરો દ્વારા આપવામાં આવેલી માહિતી.

અમારા ટ્રેનિંગ ડેટાનો મોટાભાગનો હિસ્સો જાહેરમાં ઉપલબ્ધ અને ઇન્ટરનેટ પર મુક્ત રીતે ખુલ્લી માહિતીમાંથી આવે છે. ઉદાહરણ તરીકે, અમે paywalls પાછળની અથવા “deep web”માંથી માહિતી શોધતા નથી. અમે filters લાગુ કરીએ છીએ અને અમુક ડેટા દૂર કરીએ છીએ જેમાંથી અમે નથી ઇચ્છતા કે અમારા મોડલો શીખે અથવા આઉટપુટ આપે, જેમ કે hate speech, adult content, મુખ્યત્વે વ્યક્તિગત માહિતી એકત્રિત કરતી sites, અને spam.

અમે creators, rightsholders અને website operatorsને તેઓ જે સામગ્રીના માલિક છે અથવા નિયંત્રિત કરે છે તેની AI training અંગે તેમની પસંદગીઓ વ્યક્ત કરી શકે એવા ઉપાયો પણ અમલમાં મૂક્યા છે. ઉદાહરણ તરીકે, OpenAIએ website operators માટે robots.txt web standard પર આધાર રાખીને OpenAIના “GPTBot” web crawler દ્વારા તેમની સામગ્રી ઍક્સેસ થતી અટકાવવા સરળ રીત અમલમાં મૂકી છે. તેવી જ રીતે, OpenAIએ ChatGPT અને ChatGPT plugins દ્વારા websites ઍક્સેસ કરવા માટે ઉપયોગમાં લેવાતી user-agent-string (“ChatGPT‑user”)નું દસ્તાવેજીકરણ કર્યું છે, જેથી site operators તે હેતુઓ માટે પણ ઍક્સેસ રોકી શકે. અમે sites સુધી બંને botનો ઍક્સેસ કેવી રીતે રોકવો તેની સૂચનાઓ ઑનલાઇન આપીએ છીએ. અમે image creatorsને અમારા ભવિષ્યના DALL-E ઇમેજ જનરેશન મોડલોના ટ્રેનિંગમાંથી તેમની સામગ્રી બહાર રાખવા માટે self-service form⁠(નવી વિન્ડોમાં ખૂલે છે) પણ પ્રદાન કરીએ છીએ.