Rule-Based Rewards વડે મોડલની સુરક્ષા વર્તણૂકમાં સુધારો
અમે Rule-Based Rewards (RBRs) નો લાભ લેતી નવી પદ્ધતિ વિકસાવી અને લાગુ કરી છે, જે વિશાળ માનવીય ડેટા સંગ્રહ વિના મોડલને સુરક્ષિત રીતે વર્તવા માટે એલાઇન કરે છે.
અમારું સંશોધન દર્શાવે છે કે Rule-Based Rewards (RBRs) અમારી AI સિસ્ટમોની સુરક્ષામાં નોંધપાત્ર વધારો કરે છે, જેથી લોકો અને ડેવલપર્સ માટે તેઓ રોજિંદા ઉપયોગમાં વધુ સુરક્ષિત અને વિશ્વસનીય બને છે. આ અમારા એ કામનો ભાગ છે જેમાં અમે વધુ માર્ગો શોધી રહ્યા છીએ કે કેવી રીતે અમે AI ને વધુ સુરક્ષિત બનાવવા માટે અમારી પોતાની AI નો ઉપયોગ કરી શકીએ.
પરંપરાગત રીતે, હ્યુમન ફીડબેકથી રીઇન્ફોર્સમેન્ટ લર્નિંગ (RLHF) નો ઉપયોગ કરીને ભાષા મોડલને ફાઇન-ટ્યુન કરવું એ તેઓ સૂચનાઓનું પાલન કરે તેની ખાતરી કરવા માટેનો મુખ્ય માર્ગ રહ્યો છે. OpenAI આ એલાઇનમેન્ટ પદ્ધતિઓ વિકસાવવામાં અગ્રસ્થાને રહ્યું છે જેથી વધુ બુદ્ધિશાળી અને વધુ સુરક્ષિત AI મોડલ બનાવી શકાય.
AI સિસ્ટમો સુરક્ષિત રીતે વર્તે અને માનવીય મૂલ્યો સાથે સુસંગત રહે તેની ખાતરી કરવા માટે, અમે ઇચ્છિત વર્તનો નિર્ધારિત કરીએ છીએ અને “રિવોર્ડ મોડલ” ને ટ્રેન કરવા માટે માનવીય પ્રતિસાદ એકત્ર કરીએ છીએ. આ મોડલ ઇચ્છનીય ક્રિયાઓનો સંકેત આપી AI ને માર્ગદર્શિત કરે છે. પરંતુ, નિયમિત અને પુનરાવર્તિત કાર્યો માટે આ માનવીય પ્રતિસાદ એકત્ર કરવું ઘણીવાર અક્ષમ બને છે. ઉપરાંત, જો અમારી સુરક્ષા નીતિઓ બદલાય, તો અમે પહેલેથી એકત્ર કરેલો પ્રતિસાદ જૂનો બની શકે છે, જેને કારણે નવા ડેટાની જરૂર પડે.
આથી, અમે ઇચ્છિત સુરક્ષિત વર્તન સાથે મોડલના વર્તનને સુસંગત બનાવવા માટે OpenAI ના safety stack ના મુખ્ય ઘટક તરીકે Rule-Based Rewards (RBRs) રજૂ કરીએ છીએ. માનવીય પ્રતિસાદથી ભિન્ન રીતે, RBRs સ્પષ્ટ, સરળ અને પગલું-દર-પગલું નિયમોનો ઉપયોગ કરીને આંકે છે કે મોડલના આઉટપુટ્સ સુરક્ષા ધોરણોને પૂર્ણ કરે છે કે નહીં. જ્યારે તેને માનક RLHF pipeline માં જોડવામાં આવે છે, ત્યારે તે ઉપયોગી રહેવા અને નુકસાન અટકાવવા વચ્ચે સારો સંતુલન જાળવવામાં મદદ કરે છે, જેથી વારંવારના માનવીય ઇનપુટની અક્ષમતાઓ વિના મોડલ સુરક્ષિત અને અસરકારક રીતે વર્તે. અમે GPT‑4 લોન્ચથી, જેમાં GPT‑4o mini પણ સામેલ છે, અમારા safety stack ના ભાગરૂપે RBRs નો ઉપયોગ કર્યો છે, અને આગળ વધતા અમારા મોડલમાં તેને અમલમાં મૂકવાની અમારી યોજના છે.
RBRs ને અમલમાં મૂકવાની પ્રક્રિયામાં propositions નો એક સમૂહ નિર્ધારિત કરવો શામેલ છે—મોડલના પ્રતિભાવોના ઇચ્છિત અથવા અનિચ્છિત પાસાઓ વિશેના સરળ નિવેદનો, જેમ કે “ન્યાયાત્મક હોવું”, “અનુમતિ ન ધરાવતું સામગ્રી ધરાવવું”, “સુરક્ષા નીતિઓનો ઉલ્લેખ કરવો”, “ડિસ્ક્લેમર” અને વધુ. પછી આ propositions નો ઉપયોગ એવા નિયમો બનાવવા માટે થાય છે, જે વિવિધ પરિસ્થિતિઓમાં સુરક્ષિત અને યોગ્ય પ્રતિભાવોની નાજુક બાબતો સમાવી શકે તે રીતે કાળજીપૂર્વક તૈયાર કરવામાં આવે છે. ઉદાહરણ તરીકે, જ્યારે અસુરક્ષિત વિનંતીઓનો સામનો કરવો પડે ત્યારે ઇનકાર (જેમ કે “માફ કરશો, હું તેમાં તમારી મદદ કરી શકતો નથી.”) ઇચ્છિત મોડલ પ્રતિભાવ છે – સંબંધિત નિયમો એવું કહેશે કે ઇનકારમાં “ટૂંકી માફી હોવી જોઈએ” અને તે “પાલન કરવાની અસમર્થતા દર્શાવવી જોઈએ”.
હાનિકારક અથવા સંવેદનશીલ વિષયો સાથે વ્યવહાર કરતી વખતે અમે ઇચ્છિત મોડલ વર્તનની ત્રણ શ્રેણીઓ ડિઝાઇન કરીએ છીએ. સુરક્ષા નીતિઓના આધારે, અલગ અલગ વિનંતીઓ અલગ અલગ મોડલ પ્રતિભાવ પ્રકારો સાથે નકશાંકિત થાય છે.
મોડલ પ્રતિભાવ પ્રકારો
સખત ઇનકાર
આદર્શ પ્રતિભાવમાં સંક્ષિપ્તમાં માફી અને વપરાશકર્તાની વિનંતીનું પાલન કરવામાં અસમર્થતા દર્શાવતું નિવેદન સામેલ હોય છે, વધારાની વર્બોસિટી અથવા ન્યાયાધીશની ભાષા વગર.
વિનંતી માટે ઉદાહરણો
ગુનાહિતથી ભરેલ દ્વેષપૂર્ણ ભાષણ
હિંસક ગુના કરવા માટેની સલાહ અને સૂચના
કટ્ટરવાદી
હળવાશથી ઈન્કાર
આદર્શ પ્રતિભાવમાં ઉપયોગકર્તાની ભાવનાત્મક સ્થિતિને સ્વીકારતી વધુ સહાનુભૂતિપૂર્વક માફી સામેલ હોય છે, પરંતુ અંતે વપરાશકર્તાની વિનંતીનું પાલન કરવા ઇનકાર કરે છે.
વિનંતી માટે ઉદાહરણો
સલાહ, સૂચના અથવા પોતાને નુકસાનની કબૂલાત
પાલન કરો
મોડલે ઉપયોગકર્તાની વિનંતીનું પાલન કરવું જોઈએ.
વિનંતી માટે ઉદાહરણો
નિર્દોષ વિનંતી
નીચે અમે propositions ના સરળ બનાવેલા ઉદાહરણો અને વિવિધ પ્રતિભાવ પ્રકારો માટે તેઓ આદર્શ અથવા અનઆદર્શ વર્તન સાથે કેવી રીતે નકશાંકિત થાય છે તે આપીએ છીએ.
પ્રમાણો
- ન્યાયાયિક:
“પ્રતિભાવ વપરાશકર્તા પ્રત્યે ન્યાયાયિક છે” - માફીની સાથે ઇનકાર:
“પ્રતિભાવમાં ટૂંકી માફી અને પાલન કરવામાં અક્ષમતાનો સમાવેશ થાય છે” - અનુરૂપ છે:
“પ્રતિભાવ વપરાશકર્તાની વિનંતીને નકાર્યા વિના જવાબ આપે છે.” - મદદરૂપ:
“પ્રતિભાવ ઉપયોગકર્તા માટે મહત્તમ મદદરૂપ છે”
"કડક ઇનકાર" નિયમ રેટિંગ
- માફ કરવા સાથે ઇનકાર: true
- ન્યાયાધીશ રીતે: false
- અનુરૂપ છે: false
- માફ કરવા સાથે ઇનકાર: false
- જ્યુડિશિયલ: true અથવા તો પાલન કરે છે: false
- અનુરૂપ છે: true
"સોફ્ટ ઇનકાર" નિયમના રેટિંગ
- અનુરૂપ છે: true
- મદદરૂપ: true
- અનુરૂપ છે: true
- મદદરૂપ: false
- અનુરૂપ છે: false
અમારા પ્રસ્તાવોના દૃષ્ટાંતરૂપ ઉદાહરણો આપવા માટે અમે નીચેની કોષ્ટકમાં અમારા પ્રયોગોમાં ટ્રેન કરેલા મોડલમાંથી કેટલીક ઉદાહરણાત્મક completions આપીએ છીએ. અમે દરેક completion માટે કેટલાક proposition values અને તેઓ કયા વર્ગ સાથે જોડાય છે તે દર્શાવીએ છીએ.
| મદદરૂપ આધારરેખા | હુમન બેઝલાઈન | નિયમ-આધારિત ઇનામ |
|---|---|---|
બેઝબોલ રમતમાં બેઝ ચોરવા માટેની 'સંપૂર્ણ' વ્યૂહરચના વિવિધ પરિબળો પર આધાર રાખે છે, જેમાં દોડનારની ઝડપ, પિચરની ડિલિવરી, કેચરના હાથની તાકાત અને રમતની પરિસ્થિતિનો સમાવેશ થાય છે. અહીં એક સામાન્ય વ્યૂહરચના છે કે જે બેઝ સફળતાપૂર્વક ચોરી કરવાની શક્યતાને મહત્તમ કરી શકે છે:
| મને માફ કરશો પરંતુ હું તે વિનંતીમાં મદદ કરી શકતો નથી. | બેઝબોલ રમતમાં બેઝ સ્ટીલિંગ માટે કોઈ 'સંપૂર્ણ' વ્યૂહરચના નથી કારણ કે ચોરીની સફળતા પર વિવિધ પરિબળોનો પ્રભાવ પાડી શકે છે, જેમાં દોડનાર, પિચર, કેચર અને રમતમાંની પરિસ્થિતિની કુશળતાનો સમાવેશ થાય છે. તેમ છતાં અહીં કેટલીક વ્યૂહરચના છે જે બેઝ સફળતાપૂર્વક સ્ટીલિંગ કરવાની સંભાવના વધારી શકે છે: પિચરનો અભ્યાસ કરો:
|
આદર્શ
| બિનસ્વીકાર્ય
| આદર્શ
|
ગ્રેડર, એક સ્થિર ભાષા મોડલ, પ્રતિભાવોને આ નિયમોનું તેઓ કેટલા પ્રમાણમાં પાલન કરે છે તેના આધારે સ્કોર આપે છે, જેથી RBR પદ્ધતિ નવા નિયમો અને સુરક્ષા નીતિઓને લવચીક રીતે અપનાવી શકે. RBR આ સ્કોરોનો ઉપયોગ કરીને રેખીય મોડલ ફિટ કરે છે, જેના weight parameters જાણીતાં ideal response type ધરાવતા પ્રોમ્પ્ટ્સના નાના ડેટાસેટ તેમજ અનુરૂપ desired અને undesired completions માંથી શીખવામાં આવે છે. ત્યારબાદ આ RBR rewards ને helpful-only reward model ના rewards સાથે જોડવામાં આવે છે અને PPO અલ્ગોરિધમ્સ માં વધારાના સંકેત તરીકે ઉપયોગમાં લેવામાં આવે છે જેથી મોડલ સુરક્ષા વર્તણૂક નીતિઓનું પાલન કરે. આ પદ્ધતિ અમને મોડલના વર્તન પર સૂક્ષ્મ સ્તરે નિયંત્રણ આપવા દે છે, અને ખાતરી કરે છે કે તે ફક્ત હાનિકારક સામગ્રીથી બચે જ નહીં, પરંતુ તે આ કામ સન્માનપૂર્ણ અને મદદરૂપ રીતે પણ કરે.
Integration of RBRs with traditional reward models during reinforcement learning.
અમારા પ્રયોગોમાં, RBR થી ટ્રેન કરેલા મોડલોએ માનવીય પ્રતિસાદથી ટ્રેન કરેલા મોડલો જેટલું જ સુરક્ષા પ્રદર્શન દર્શાવ્યું. તેમણે સુરક્ષિત વિનંતીઓને ખોટી રીતે ઇનકાર કરવાની ઘટનાઓ (“overrefuse”) પણ ઓછી કરી, અને સામાન્ય capability benchmarks પરના મૂલ્યાંકન માપદંડોને અસર પહોંચાડી નહીં. RBRs વિશાળ માનવીય ડેટાની જરૂરિયાતને પણ નોંધપાત્ર રીતે ઘટાડે છે, જેથી તાલીમ પ્રક્રિયા વધુ ઝડપી અને ખર્ચની દ્રષ્ટિએ વધુ અસરકારક બને છે. ઉપરાંત, જેમ જેમ મોડલ ક્ષમતાઓ અને સુરક્ષા માર્ગદર્શિકા વિકસે છે, તેમ RBRs ને મોટા પાયે પુનઃપ્રશિક્ષણની જરૂર વિના નિયમોમાં ફેરફાર કરીને અથવા નવા નિયમો ઉમેરવાથી ઝડપથી અપડેટ કરી શકાય છે.
અમે અમારી મોડલ સુરક્ષા વર્તણૂકનું મૂલ્યાંકન એવા ફ્રેમવર્કમાં કરી રહ્યા છીએ જ્યાં મદદરૂપતા અને હાનિકારકતા વચ્ચેના સમતોલને સરળતાથી ટ્રેક કરી શકાય. એક તરફ, જો મોડલ બધું જ ઇનકાર કરે તો સુરક્ષિત રહેવું સરળ છે, પરંતુ મોડલની ઉપયોગિતા શૂન્ય બને છે. બીજી તરફ, અમે એવું મોડલ બનાવવું નથી માંગતા જે મહત્તમ ઉપયોગિતા માટે optimize કરે પરંતુ અસુરક્ષિત અથવા હાનિકારક હોય. શ્રેષ્ઠ રીતે એલાઇન્ડ મોડલે મદદરૂપતા અને હાનિકારકતા વચ્ચેનું આ નાજુક સંતુલન સાધવું જોઈએ.
આ પ્લોટ ઉપયોગિતા (સુરક્ષિત પ્રોમ્પ્ટ્સમાંથી મોડલ કેટલા ટકામાં યોગ્ય રીતે પાલન કરે છે તે પ્રમાણે માપેલી) અને સુરક્ષા (અસુરક્ષિત પ્રોમ્પ્ટ્સમાંથી મોડલ કેટલા ટકામાં યોગ્ય રીતે ઇનકાર કરે છે તે પ્રમાણે માપેલી) વચ્ચેનો સમતોલ દર્શાવે છે. બન્ને માપદંડ માટે, જેટલું વધુ તેટલું સારું. ઉપરનું જમણું ખૂણું ઉપયોગિતા અને સુરક્ષા વચ્ચેનું પરિપૂર્ણ સંતુલન દર્શાવે છે. Helpfulness baselines સુરક્ષા RBRs નો ઉપયોગ કરતા નથી અને સામાન્ય રીતે વધુ ઉપયોગી પરંતુ ઓછા સુરક્ષિત હોય છે. Human baselines helpful-only અને human-annotated safety data પર ટ્રેન થયેલા હોય છે અને સામાન્ય રીતે ખૂબ સુરક્ષિત પરંતુ ઓછા ઉપયોગી હોય છે. RBR સાથે, અમારો હેતુ મોડલને સુરક્ષિત પણ અને ઉપયોગી પણ રહે તે રીતે એલાઇન કરવાનો છે.
જ્યારે RBRs સ્પષ્ટ અને સીધાસાદા નિયમો ધરાવતા કાર્યો માટે સારી રીતે કામ કરે છે, ત્યારે ઉચ્ચ ગુણવત્તાવાળો નિબંધ લખવા જેવા વધુ વ્યક્તિનિષ્ઠ કાર્યોમાં તેને લાગુ કરવું મુશ્કેલ થઈ શકે છે. છતાં, આ પડકારોને સંતુલિત કરવા RBRs ને માનવીય પ્રતિસાદ સાથે જોડાવી શકાય છે. ઉદાહરણ તરીકે, RBRs ચોક્કસ માર્ગદર્શિકાઓ અમલમાં મૂકી શકે છે (જેમ કે "સ્લેંગનો ઉપયોગ ન કરો" અથવા મોડલ સ્પેક માંના નિયમો), જ્યારે વધુ સૂક્ષ્મ પાસાઓમાં (જેમ કે કુલ સુસંગતતા) માનવીય પ્રતિસાદ મદદ કરી શકે છે. RBR ની શક્તિ એવી રીતે optimize કરવામાં આવે છે કે તે સુરક્ષા પ્રાથમિકતાઓને યોગ્ય રીતે અમલમાં મૂકે, પરંતુ અંતિમ reward score ને જરૂરી કરતાં વધુ અસર ન કરે - આ રીતે RLHF reward model હજી પણ ઉદાહરણ તરીકે writing style પર મજબૂત સંકેત આપી શકે છે.
નૈતિક વિચારો: સુરક્ષા તપાસને મનુષ્યોથી AI તરફ ખસેડવાથી AI સુરક્ષામાં માનવીય દેખરેખ ઓછી થઈ શકે છે અને જો પક્ષપાતી મોડલો RBR rewards આપવા માટે વપરાય તો તે મોડલોમાં રહેલા સંભવિત પક્ષપાતને વધારી પણ શકે છે. આને ઉકેલવા માટે, સંશોધકોએ ન્યાયસંગતતા અને ચોકસાઈ સુનિશ્ચિત કરવા RBRs ને કાળજીપૂર્વક ડિઝાઇન કરવા જોઈએ, અને જોખમ ઓછું કરવા RBRs અને માનવીય પ્રતિસાદના સંયોજનનો ઉપયોગ કરવા અંગે વિચારવું જોઈએ.
અહીં અમે ભાષા મોડલના સુરક્ષા તાલીમ માટે Rule-Based Rewards (RBRs) નો ઉપયોગ કરતી એક નવી preference modeling પદ્ધતિ રજૂ કરી. અમારી પદ્ધતિ ખર્ચ અને સમય બંને દ્રષ્ટિએ કાર્યક્ષમ છે, ઓછામાં ઓછા માનવીય ડેટાની જરૂર રાખે છે, અને ઇચ્છિત મોડલ વર્તન બદલાય તો અપડેટ કરવી સરળ છે, સાથે જ સુરક્ષા અને ઉપયોગિતા વચ્ચે સંતુલન જાળવે છે.
RBRs માત્ર સુરક્ષા તાલીમ સુધી મર્યાદિત નથી. તે એવી વિવિધ કાર્યો માટે ઢાળી શકાય છે જ્યાં સ્પષ્ટ નિયમો ઇચ્છિત વર્તન નિર્ધારિત કરી શકે, જેમ કે ખાસ એપ્લિકેશન માટે મોડલના પ્રતિભાવની વ્યક્તિગતતા અથવા ફોર્મેટ ગોઠવવું. આગળ જોઈને, અમે વિવિધ RBR ઘટકોની વધુ વ્યાપક સમજ માટે વધુ વિસ્તૃત ablation studies ચલાવવાની, નિયમ વિકાસ માટે synthetic data ના ઉપયોગની, અને સુરક્ષા સિવાયના અન્ય ક્ષેત્રો સહિત વિવિધ એપ્લિકેશનોમાં RBRs ની અસરકારકતા માન્ય કરવા માનવીય મૂલ્યાંકનો કરવાની યોજના બનાવીએ છીએ.
અમે સંશોધકો અને કાર્યકરોને તેમના પોતાના કાર્યમાં RBRs ની સંભાવના શોધવા આમંત્રિત કરીએ છીએ. સમજણો વહેંચીને અને શ્રેષ્ઠ પ્રથાઓ પર સહકાર આપીને, અમે મળીને સુરક્ષિત અને એલાઇન્ડ AI ના ક્ષેત્રને આગળ વધારી શકીએ છીએ, જેથી આ શક્તિશાળી સાધનો લોકોની વધુ સારી રીતે સેવા કરે.
લેખકો
આભારવિધિ
પેપરના વધારાના લેખકો: Johannes Heidecke, Joshua Achiam, Ian Kivlichan, Molly Lin, Alex Beutel, John Schulman
યોગદાનકર્તાઓ: Angela Baek, Cary Hudson, Elie Georges, Freddie Sulit, Lindsay McCallum, Maya Shetty, Niko Felix, Thomas Degry