કઠોર ઇનકારોથી સેફ-કમ્પ્લીશન્સ સુધી: આઉટપુટ-કેન્દ્રિત સુરક્ષા તાલીમ તરફ
GPT‑5 માં રજૂ કરાયેલ safe-completion સુરક્ષા મર્યાદાઓની અંદર રહી મોડલની મદદરૂપતા મહત્તમ કરવા માટેનો નવો સુરક્ષા-તાલીમ અભિગમ છે. refusal-based તાલીમની તુલનામાં, safe-completion સુરક્ષા અને મદદરૂપતા બંને સુધારે છે, ખાસ કરીને દ્વિ-ઉપયોગી ક્ષેત્રોમાં.
જો કોઈ વપરાશકર્તા ChatGPT ને ફટાકડા પ્રદર્શન સળગાવવા માટે જરૂરી લઘુત્તમ ઊર્જા વિશે પૂછે, તો શું તેને મદદરૂપ જવાબ આપવો જોઈએ? વપરાશકર્તા 4 જુલાઈના પ્રદર્શનની તૈયારી કરી રહ્યો હોઈ શકે છે અથવા શાળાના સંશોધન પ્રોજેક્ટ માટે કામ કરી રહ્યો હોઈ શકે છે … અથવા વિસ્ફોટકો બનાવી રહ્યો હોઈ શકે છે. પરિણામે, મદદરૂપ જવાબ આપવો વપરાશકર્તાના (દેખાતા) ઇન્ટેન્ટ પર આધાર રાખીને હાનિરહિત પણ હોઈ શકે અને હાનિકારક પણ. આવા પ્રકારનો પ્રોમ્પ્ટ દ્વિ-ઉપયોગી છે: એવો પ્રશ્ન જેમાં ઇન્ટેન્ટ સ્પષ્ટ નથી, અને માહિતીનો ઉપયોગ નિર્દોષ અથવા દુર્ભાવનાપૂર્ણ રીતે થઈ શકે છે. દ્વિ-ઉપયોગી સમસ્યાઓ ખાસ કરીને બાયોલોજી અને સાયબરસિક્યુરિટી જેવા જોખમી ક્ષેત્રોમાં વધુ જોવા મળે છે.
ભૂતકાળમાં, ChatGPT જેવા પ્રોડક્શન મોડલ્સ refusal-based સુરક્ષા તાલીમ પર આધાર રાખતા હતા: વપરાશકર્તાના પ્રોમ્પ્ટના આધારે, મોડલે અથવા તો સંપૂર્ણ પાલન કરવું જોઈએ અથવા ઇનકાર કરવો જોઈએ. જ્યારે આ પ્રકારની તાલીમ સ્પષ્ટ રીતે હાનિકારક પ્રોમ્પ્ટ્સ માટે સારી રીતે કામ કરી શકે છે, ત્યારે ફટાકડાના ઉદાહરણ જેવા દ્વિ-ઉપયોગી પ્રોમ્પ્ટ્સને સંભાળવામાં તેને મુશ્કેલી પડી શકે છે. તે ઘટનામાં, refusal-trained મોડલ પ્રોમ્પ્ટ કેટલો હાનિકારક લાગે છે તેના આધારે દ્વિ-વિકલ્પીય નિર્ણય લે છે - અને અથવા તો સંપૂર્ણ પાલન કરે છે (જો વપરાશકર્તા માહિતીનો દુર્ભાવનાપૂર્ણ ઉપયોગ કરવો માંગતો હોય તો સંભવિત રીતે જોખમી), અથવા ઇનકાર કરે છે અને કહે છે “માફ કરશો, હું તેમાં મદદ કરી શકતો નથી” (જો વપરાશકર્તા ખરેખર પોતાનું ફટાકડાનું પ્રદર્શન સુધારવા પ્રયત્ન કરી રહ્યો હોય તો બિનમદદરૂપ).
GPT‑5 માટે, અમે સુરક્ષા-તાલીમનું એક નવું સ્વરૂપ - safe completions - રજૂ કર્યું, જે મોડલને શક્ય હોય ત્યાં સૌથી મદદરૂપ જવાબ આપવાનું શીખવે છે, અને સાથે સુરક્ષાની મર્યાદાઓ પણ જાળવે છે. અમને લાગે છે કે આ અભિગમ વધુ સૂક્ષ્મ છે, જે દ્વિ-ઉપયોગી પ્રશ્નોમાં વધુ સારી રીતે માર્ગદર્શન આપે છે.
પ્રોમ્પ્ટ
OpenAI o3 (રિફ્યુઝલ તાલીમ)
GPT-5 (સેફ-કમ્પ્લીશન તાલીમ)
ફટાકડા સળગાવવા માટેની સૂચનાઓ માંગતા પડકારજનક દ્વિ-ઉપયોગી પ્રોમ્પ્ટ માટે OpenAI o3 અને GPT‑5 ના પ્રતિસાદો. o3, જેને refusal-training આપવામાં આવી છે, ઇન્ટેન્ટ પર વધુ ભાર મૂકે છે: તે પ્રોમ્પ્ટને નિર્દોષ તરીકે આંકે છે અને તેથી પ્રશ્નનું સંપૂર્ણ પાલન કરે છે. તેના વિપરીત, safe-completions સાથે તાલીમ આપેલા GPT‑5 સમજાવે છે કે તે સંપૂર્ણ પાલન શા માટે કરી શકતું નથી, અને પછી યોગ્ય માર્ગદર્શિકાઓ તપાસવા માટે માત્ર ઊંચા સ્તરની માર્ગદર્શિકા આપે છે.
Safe-completion મોડલના આઉટપુટની સુરક્ષાને કેન્દ્રમાં રાખે છે, વપરાશકર્તાના ઇનપુટ અનુસાર ઇનકારની સીમા નક્કી કરવાની જગ્યાએ. સ્પષ્ટ રીતે, આ બે તાલીમ પરિમાણો દ્વારા અમલમાં મુકવામાં આવે છે:
- સુરક્ષા મર્યાદા: પોસ્ટ-ટ્રેનિંગ દરમિયાન, safe-completion reward એવા મોડલ પ્રતિસાદોને દંડિત કરે છે જે અમારી સુરક્ષા નીતિઓનું ઉલ્લંઘન કરે છે (ઉલ્લંઘનની ગંભીરતા અનુસાર વધુ કડક દંડ સાથે).
- મદદરૂપતાનું મહત્તમીકરણ: સુરક્ષિત મોડલ પ્રતિસાદો માટે, અમે મોડલને તેની મદદરૂપતા આધારે ઇનામ આપીએ છીએ: અથવા તો સીધું વપરાશકર્તાના જણાવેલા હેતુ અનુસાર, અથવા મદદરૂપ અને સુરક્ષિત વિકલ્પો સાથે માહિતીસભર ઇનકાર આપી પરોક્ષ રીતે.
અમે GPT‑5 માં safe-completions સામેલ કર્યા (રિઝનિંગ અને ચેટ બંને મોડલ્સમાં), અને શોધ્યું કે safe-completion તાલીમ refusal-based તાલીમની તુલનામાં સુરક્ષા અને મદદરૂપતા બંનેમાં નોંધપાત્ર સુધારો કરે છે. OpenAI o3 સામે યોગ્ય તુલના માટે, અમે GPT‑5 Thinking સામે o3 નું પ્રદર્શન રજૂ કરીએ છીએ. પ્રોડક્શન મોડલ્સ અને નિયંત્રિત પ્રયોગોની તુલનાઓમાં, અમે જોયું કે safe-completions ખાસ કરીને દ્વિ-ઉપયોગી પ્રશ્નો માટે ખૂબ યોગ્ય છે. નીચેનું આંકડાચિત્ર સુરક્ષિત પ્રતિસાદો માટે સુરક્ષા સ્કોર અને સરેરાશ મદદરૂપતા સ્કોરની તુલના કરે છે.
ઇન્ટેન્ટ મુજબ સુરક્ષિત પ્રતિસાદો માટે સુરક્ષા અને મદદરૂપતા (OpenAI o3 સામે GPT‑5 Thinking, જેને gpt5-r તરીકે લેબલ કરવામાં આવ્યું છે). GPT‑5 Thinking, OpenAI o3 કરતાં વધુ સુરક્ષિત અને વધુ મદદરૂપ છે.
પાલન/ઇનકાર જેવા દ્વિ-વિકલ્પીય નિર્ણયથી દૂર રહી, safe-completion તાલીમ અમારા મોડલ્સને સંભવિત રીતે અસુરક્ષિત સામગ્રી વિશે વધુ સાવચેત રહેવા પ્રોત્સાહિત કરે છે, ત્યારે પણ જ્યારે તેઓ પાલન કરે છે. અમારા પ્રયોગોમાં, અમે જોયું કે જ્યારે safe-completion મોડલ્સ ભૂલ કરે છે, ત્યારે તેમના અસુરક્ષિત આઉટપુટ્સ refusal-trained મોડલ્સના અસુરક્ષિત આઉટપુટ્સ કરતાં ગંભીરતામાં ઓછા હોય છે.
અસુરક્ષિત પ્રતિસાદો માટે નુકસાનની ગંભીરતાનો વિશ્લેષણ (o3 સામે GPT‑5 Thinking, જેને gpt5-r તરીકે લેબલ કરવામાં આવ્યું છે). GPT‑5 Thinking, o3 કરતાં ઓછી ગંભીર ભૂલો કરે છે.
મદદરૂપતાની સામે સુરક્ષાનો સોદો કરવો સરળ થઈ શકે છે – જો મોડલ બધું જ ઇનકાર કરે તો તે સુરક્ષિત હોઈ શકે છે. પરંતુ અમે ઇચ્છીએ છીએ કે અમારા મોડલ્સ સુરક્ષિત પણ હોય અને મદદરૂપ પણ. આ બંને લક્ષ્યોને સાથે કેવી રીતે સુધારવા તે એક મુખ્ય સંશોધન પડકાર છે. GPT‑4 માટે અમે Rule-Based Rewards વિકસાવ્યા હતા, જે મદદરૂપતા અને સુરક્ષા વચ્ચે સંતુલન સાધવાની એક પદ્ધતિ હતી. હવે GPT‑5 માટે, safe-completions વધુ એક આગળનું પગલું ભરે છે, જે AI ની વધતી ક્ષમતાઓનો ઉપયોગ કરીને આ બંને લક્ષ્યોનું વધુ ઊંડું એકીકરણ આપે છે. અમારો વિશ્વાસ છે કે મોડલ પ્રતિસાદોની સુરક્ષા પરનો ફોકસ આગળ ઊભા થતા સુરક્ષા પડકારોની વધતી જટિલતાને સંબોધવા માટે મજબૂત પાયો રચે છે, અને અમે સંશોધનની આ દિશા આગળ વધારવાની યોજના બનાવીએ છીએ જેથી મોડલ પડકારજનક પરિસ્થિતિઓને વધુ સારી રીતે સમજી શકે અને વધુ સૂક્ષ્મતા અને કાળજી સાથે પ્રતિસાદ આપી શકે.


