27 જાન્યુઆરી, 2022

સૂચનાઓનું પાલન કરવા માટે લેન્ગ્વેજ મોડલોનું અલાઇનમેન્ટ

લોડિંગ…

અમે અમારી અલાઇનમેન્ટ રિસર્ચ દ્વારા વિકસિત ટેક્નિક્સનો ઉપયોગ કરીને એવા લેન્ગ્વેજ મોડલો ટ્રેન કર્યા છે, જે GPT‑3 કરતાં વપરાશકર્તાના ઇરાદાઓનું પાલન કરવામાં ઘણાં વધુ સારા છે, સાથે સાથે વધુ સત્યવાદી અને ઓછા ઝેરી પણ છે. આ InstructGPT મોડલો, જે માનવોને પ્રક્રિયામાં રાખીને ટ્રેન કરવામાં આવ્યા છે, હવે અમારી API પર ડિફૉલ્ટ લેન્ગ્વેજ મોડલો તરીકે ડિપ્લોય છે.

લોડ થઈ રહ્યું છે...

OpenAI API GPT‑3 લેન્ગ્વેજ મોડલોથી સંચાલિત છે⁠ જે કાળજીપૂર્વક તૈયાર કરાયેલા ટેક્સ્ટ પ્રોમ્પ્ટ્સનો ઉપયોગ કરીને નેચરલ લેન્ગ્વેજ ટાસ્ક કરી શકે તે રીતે પ્રેરિત કરી શકાય છે. પરંતુ આ મોડલો એવા આઉટપુટ્સ પણ જનરેટ કરી શકે છે જે અસત્ય હોય, ઝેરી હોય અથવા હાનિકારક ભાવનાઓ દર્શાવતા હોય. એવું ભાગે એ કારણે છે કે GPT‑3ને વપરાશકર્તા ઇચ્છે તે ભાષા કાર્યને સલામત રીતે કરવા બદલે ઇન્ટરનેટ ટેક્સ્ટના મોટા ડેટાસેટ પર આગલું શબ્દ ભાખવા માટે ટ્રેન કરવામાં આવ્યું છે. બીજા શબ્દોમાં કહીએ તો, આ મોડલો તેમના વપરાશકર્તાઓ સાથે અલાઇન નથી.

અમારા મોડલોને વધુ સલામત, વધુ મદદરૂપ અને વધુ અલાઇન બનાવવા માટે, અમે હ્યુમન ફીડબેકથી રીઇન્ફોર્સમેન્ટ લર્નિંગ (RLHF)⁠ નામની એક હાલની ટેક્નિક વાપરીએ છીએ. API પર અમારા ગ્રાહકો દ્વારા સબમિટ કરાયેલા પ્રોમ્પ્ટ્સ પર,^A અમારા લેબલર્સ ઇચ્છિત મોડલ વર્તનની ડેમોન્સ્ટ્રેશન્સ આપે છે અને અમારા મોડલોના અનેક આઉટપુટ્સને ક્રમ આપે છે. પછી અમે આ ડેટાનો ઉપયોગ GPT‑3ને ફાઇન-ટ્યુન કરવા માટે કરીએ છીએ.

પરિણામરૂપે મળેલા InstructGPT મોડલો GPT‑3 કરતાં સૂચનાઓનું પાલન કરવામાં ઘણાં વધુ સારા છે. તેઓ ઓછી વાર તથ્યો ઘડે છે અને ઝેરી આઉટપુટ જનરેશનમાં થોડો ઘટાડો પણ દર્શાવે છે. અમારા લેબલર્સ અમારા 1.3B InstructGPT મોડલના આઉટપુટ્સને 175B GPT‑3 મોડલના આઉટપુટ્સ કરતાં વધુ પસંદ કરે છે, ભલે તેમાં 100x કરતાં વધુ ઓછા પેરામીટર્સ હોય. સાથે સાથે, અમે બતાવીએ છીએ કે અમારી મોડલની શૈક્ષણિક NLP મૂલ્યાંકનો પરની કામગીરી દ્વારા માપવામાં આવે તેમ GPT‑3ની ક્ષમતાઓ પર અમારે સમજૂતી કરવાની જરૂર નથી.

આ InstructGPT મોડલો, જે API પર એક વર્ષથી વધુ સમયથી બેટામાં છે, હવે અમારી API પર ઉપલબ્ધ ડિફૉલ્ટ લેન્ગ્વેજ મોડલો છે.^B અમે માનીએ છીએ કે માનવોને પ્રક્રિયામાં રાખીને લેન્ગ્વેજ મોડલોને ફાઇન-ટ્યુન કરવું તેમની સલામતી અને વિશ્વસનીયતા સુધારવા માટે એક શક્તિશાળી સાધન છે, અને અમે આ દિશામાં આગળ વધતા રહીશું.

આ પહેલી વાર છે કે અમારી અલાઇનમેન્ટ રિસર્ચ, જેને અમે ઘણા વર્ષોથી આગળ ધપાવી⁠ રહ્યા છીએ,^{1, 2, 3} અમારા પ્રોડક્ટ પર લાગુ કરવામાં આવી છે. અમારું કાર્ય તાજેતરના તે સંશોધન સાથે પણ સંબંધિત છે જે શૈક્ષણિક NLP ડેટાસેટ્સનો ઉપયોગ કરીને સૂચનાઓનું પાલન કરવા માટે લેન્ગ્વેજ મોડલોને ફાઇન-ટ્યુન કરે છે, ખાસ કરીને FLAN⁴ અને T0.⁵ અમારું કામ કરવા પાછળનો એક મુખ્ય હેતુ મદદરૂપતા અને સત્યવાદિતા વધારવાનો છે, સાથે સાથે લેન્ગ્વેજ મોડલોના નુકસાન અને પૂર્વગ્રહોને ઓછા કરવાનો છે.^{6, 7, 8, 9, 10} આ દિશામાં થયેલા અમારા અગાઉના કેટલાક સંશોધન⁠માં જાણવા મળ્યું હતું કે અમે માનવીય ડેમોન્સ્ટ્રેશન્સના નાના ક્યુરેટેડ ડેટાસેટ પર ફાઇન-ટ્યુનિંગ કરીને હાનિકારક આઉટપુટ્સ ઘટાડી શકીએ છીએ.¹¹ અન્ય સંશોધન પ્રી-ટ્રેનિંગ ડેટાસેટને ફિલ્ટર કરવા,¹² સલામતી-વિશિષ્ટ કન્ટ્રોલ ટોકન્સ,^{13, 14} અથવા મોડલ જનરેશન્સને દિશા આપવા પર કેન્દ્રિત રહ્યું છે.^{15, 16} અમે અમારી ચાલુ અલાઇનમેન્ટ રિસર્ચમાં આ અને અન્ય વિચારોનું અન્વેષણ કરી રહ્યા છીએ.

પરિણામો

અમે પ્રથમ મૂલ્યાંકન કરીએ છીએ કે InstructGPTના આઉટપુટ્સ વપરાશકર્તાની સૂચનાઓનું કેટલું સારું પાલન કરે છે, જેમાં લેબલર્સ તેના આઉટપુટ્સની GPT‑3ના આઉટપુટ્સ સાથે તુલના કરે છે. અમે જોયું કે API પર InstructGPT અને GPT‑3 બંને મોડલોને સબમિટ કરાયેલા પ્રોમ્પ્ટ્સ પર InstructGPT મોડલોને નોંધપાત્ર રીતે વધુ પસંદ કરવામાં આવે છે. જ્યારે અમે GPT‑3 પ્રોમ્પ્ટમાં એક પ્રિફિક્સ ઉમેરીએ છીએ જેથી તે “instruction-following mode”માં પ્રવેશે, ત્યારે પણ આ સાચું રહે છે.

લોડ થઈ રહ્યું છે...

અમારા મોડલોની સલામતી માપવા માટે, અમે મુખ્યત્વે જાહેર રીતે ઉપલબ્ધ ડેટાસેટ્સ પરની હાલની મેટ્રિક્સનો એક સમૂહ વાપરીએ છીએ. GPT‑3ની સરખામણીએ, InstructGPT ઓછી અનુરૂપ ખોટી વાતો ઉત્પન્ન કરે છે (TruthfulQA¹⁷ અનુસાર) અને ઓછું ઝેરી છે (RealToxicityPrompts¹⁸ અનુસાર). અમે અમારી API પ્રોમ્પ્ટ વિતરણ પર માનવીય મૂલ્યાંકન પણ કરીએ છીએ અને જોયું કે InstructGPT ઓછી વાર તથ્યો ઘડે છે (“hallucinates”) અને વધુ યોગ્ય આઉટપુટ્સ જનરેટ કરે છે.^C

લોડ થઈ રહ્યું છે...

અંતમાં, અમે જોયું કે અમારી ગ્રાહક વિતરણ પર InstructGPTના આઉટપુટ્સ FLAN⁴ અને T0⁵ ના આઉટપુટ્સ કરતાં વધુ પસંદ કરવામાં આવે છે. આ દર્શાવે છે કે FLAN અને T0ને ટ્રેન કરવા માટે વપરાયેલ ડેટા, મુખ્યત્વે શૈક્ષણિક NLP કાર્યો, ડિપ્લોય કરાયેલા લેન્ગ્વેજ મોડલોનો વાસ્તવમાં કેવી રીતે ઉપયોગ થાય છે તેનું સંપૂર્ણ પ્રતિનિધિત્વ કરતું નથી.

પદ્ધતિઓ

InstructGPT મોડલોને ટ્રેન કરવાની ત્રણ-પગલાની પદ્ધતિ દર્શાવતું આકૃતિચિત્ર.

InstructGPT મોડલોને ટ્રેન કરવા માટે, અમારી મુખ્ય ટેક્નિક હ્યુમન ફીડબેકથી રીઇન્ફોર્સમેન્ટ લર્નિંગ (RLHF)⁠ છે, જે એક એવી પદ્ધતિ છે જેને અમારી અગાઉની અલાઇનમેન્ટ રિસર્ચમાં અમે આગળ વધારવામાં મદદ કરી હતી. આ ટેક્નિક અમારા મોડલોને ફાઇન-ટ્યુન કરવા માટે માનવીય પસંદગીઓને રિવોર્ડ સિગ્નલ તરીકે વાપરે છે, જે મહત્વપૂર્ણ છે કારણ કે અમે ઉકેલવા ઇચ્છતા સલામતી અને અલાઇનમેન્ટના પ્રશ્નો જટિલ અને વિષયક છે, અને તેઓ સરળ સ્વચાલિત મેટ્રિક્સથી સંપૂર્ણપણે સમાઈ જતા નથી.

અમે પ્રથમ અમારી API પર સબમિટ કરાયેલા પ્રોમ્પ્ટ્સ પર માનવો દ્વારા લખાયેલી ડેમોન્સ્ટ્રેશન્સનો ડેટાસેટ એકત્ર કરીએ છીએ અને તેનો ઉપયોગ અમારા સુપરવાઇઝ્ડ લર્નિંગ બેસલાઇન્સને ટ્રેન કરવા માટે કરીએ છીએ. પછી, API પ્રોમ્પ્ટ્સના મોટા સમૂહ પર બે મોડલ આઉટપુટ્સ વચ્ચે માનવો દ્વારા લેબલ કરાયેલ તુલનાઓનો ડેટાસેટ એકત્ર કરીએ છીએ. ત્યારબાદ અમે આ ડેટાસેટ પર એક રિવોર્ડ મોડલ (RM) ટ્રેન કરીએ છીએ જેથી અમારા લેબલર્સ કયો આઉટપુટ પસંદ કરશે તેની આગાહી કરી શકાય. અંતે, અમે આ RMને રિવોર્ડ ફંક્શન તરીકે વાપરીએ છીએ અને PPO algorithm⁠ નો ઉપયોગ કરીને આ રિવોર્ડ મહત્તમ કરવા માટે અમારી GPT‑3 પોલિસીને ફાઇન-ટ્યુન કરીએ છીએ.

આ પ્રક્રિયાને સમજવાનો એક રસ્તો એ છે કે તે GPT‑3માં પહેલેથી રહેલી ક્ષમતાઓને “unlock” કરે છે, પરંતુ માત્ર પ્રોમ્પ્ટ એન્જિનિયરિંગથી બહાર લાવવી મુશ્કેલ હતી: એવું એ કારણે છે કે અમારી ટ્રેનિંગ પ્રક્રિયાની મોડલને નવી ક્ષમતાઓ શીખવવાની ક્ષમતા પ્રી-ટ્રેનિંગ દરમિયાન શીખવામાં આવેલા મુદ્દાઓની સરખામણીએ મર્યાદિત છે, કારણ કે તે મોડલ પ્રી-ટ્રેનિંગની સરખામણીએ 2%થી ઓછા કમ્પ્યુટ અને ડેટાનો ઉપયોગ કરે છે.

આ અભિગમની એક મર્યાદા એ છે કે તે “અલાઇનમેન્ટ ટેક્સ” લાવે છે: મોડલોને માત્ર ગ્રાહક કાર્યો પર અલાઇન કરવાથી કેટલાક અન્ય શૈક્ષણિક NLP કાર્યો પર તેમની કામગીરી ખરાબ થઈ શકે છે. આ અનિચ્છનીય છે કારણ કે જો અમારી અલાઇનમેન્ટ ટેક્નિક્સ લોકો માટે મહત્વપૂર્ણ કાર્યો પર મોડલોને ખરાબ બનાવે, તો વ્યવહારમાં તેમની અપનાવવાની શક્યતા ઓછી રહે છે. અમે એક સરળ અલ્ગોરિધમિક ફેરફાર શોધ્યો છે જે આ અલાઇનમેન્ટ ટેક્સને ઓછો કરે છે: RL ફાઇન-ટ્યુનિંગ દરમિયાન અમે GPT‑3ને ટ્રેન કરવા માટે વપરાયેલા મૂળ ડેટાનો નાનો ભાગ મિક્સ કરીએ છીએ, અને આ ડેટા પર સામાન્ય લોગ લાઈકલીહૂડ મહત્તમીકરણનો ઉપયોગ કરીને ટ્રેન કરીએ છીએ.^D આ સલામતી અને માનવીય પસંદગીઓ પરની કામગીરીને લગભગ જાળવી રાખે છે, સાથે સાથે શૈક્ષણિક કાર્યો પરની કામગીરીમાં ઘટાડો પણ ઓછો કરે છે, અને કેટલાંક કિસ્સાઓમાં તો GPT‑3 બેસલાઇનને પણ પાછળ મૂકે છે.

વધુ વ્યાપક પસંદગીઓ તરફ સામાન્યકરણ

અમારી પ્રક્રિયા અમારા મોડલોના વર્તનને અમારા લેબલર્સની પસંદગીઓ સાથે અલાઇન કરે છે, જે સીધો જ અમારા મોડલોને ટ્રેન કરવા માટે વપરાતા ડેટા બનાવે છે, અને અમે સંશોધકો, જે લખિત સૂચનાઓ, ચોક્કસ ઉદાહરણો પર સીધો પ્રતિસાદ અને અનૌપચારિક વાતચીત દ્વારા લેબલર્સને માર્ગદર્શન આપીએ છીએ. તે અમારા ગ્રાહકો અને અમારી API નીતિઓમાં નિહિત પસંદગીઓથી પણ પ્રભાવિત થાય છે. અમે એવા લેબલર્સ પસંદ કર્યા જેમણે સંવેદનશીલ પ્રોમ્પ્ટ્સને ઓળખવા અને તેનો પ્રતિસાદ આપવા માટેની ક્ષમતા અંગેની સ્ક્રીનિંગ ટેસ્ટમાં સારો દેખાવ કર્યો હતો. તેમ છતાં, ડેટા પર પ્રભાવના આ વિવિધ સ્ત્રોતો એ ખાતરી આપતા નથી કે અમારા મોડલો કોઈ વધુ વ્યાપક જૂથની પસંદગીઓ સાથે અલાઇન છે.

આની તપાસ માટે અમે બે પ્રયોગો કર્યા. પ્રથમ, અમે GPT‑3 અને InstructGPTનું મૂલ્યાંકન હેલ્ડ-આઉટ લેબલર્સ^E દ્વારા કર્યું, જેમણે કોઈપણ ટ્રેનિંગ ડેટા બનાવ્યું નહોતું, અને અમે જોયું કે આ લેબલર્સ InstructGPT મોડલોના આઉટપુટ્સને લગભગ એ જ દરે પસંદ કરે છે જેમ અમારા ટ્રેનિંગ લેબલર્સ કરે છે. બીજું, અમે અમારા કેટલાક લેબલર્સના ડેટા પર રિવોર્ડ મોડલો ટ્રેન કર્યા, અને જોયું કે તેઓ લેબલર્સના અન્ય અલગ સમૂહની પસંદગીઓની આગાહી કરવા માટે સારી રીતે સામાન્યકરણ કરે છે. આ સૂચવે છે કે અમારા મોડલો માત્ર અમારા ટ્રેનિંગ લેબલર્સની પસંદગીઓ પર જ ઓવરફિટ થયા નથી. જોકે, આ મોડલો વપરાશકર્તાઓના વધુ વ્યાપક જૂથો પર કેવી રીતે કાર્ય કરે છે, અને એવા ઇનપુટ્સ પર કેવી રીતે કાર્ય કરે છે જ્યાં માનવો ઇચ્છિત વર્તન અંગે અસહમત હોય છે, તેનો અભ્યાસ કરવા માટે વધુ કામની જરૂર છે.

મર્યાદાઓ

મહત્ત્વપૂર્ણ પ્રગતિ છતાં, અમારા InstructGPT મોડલો સંપૂર્ણપણે અલાઇન અથવા સંપૂર્ણપણે સલામત થવાથી હજુ ઘણાં દૂર છે; તેઓ હજુ પણ ઝેરી અથવા પૂર્વગ્રહપૂર્ણ આઉટપુટ્સ જનરેટ કરે છે, તથ્યો ઘડે છે, અને સ્પષ્ટ પ્રોમ્પ્ટિંગ વિના યૌન અને હિંસક સામગ્રી જનરેટ કરે છે. પરંતુ મશીન લર્નિંગ સિસ્ટમની સલામતી માત્ર મૂળભૂત મોડલોના વર્તન પર જ નહીં, પરંતુ આ મોડલો કેવી રીતે ડિપ્લોય થાય છે તેના પર પણ આધાર રાખે છે. અમારી APIની સલામતીને ટેકો આપવા માટે, અમે લાઇવ થાય તે પહેલાં સંભવિત એપ્લિકેશનોની સમીક્ષા⁠(નવી વિન્ડોમાં ખૂલે છે) કરવાનું, અસુરક્ષિત પૂર્ણતાઓ શોધવા માટે કન્ટેન્ટ ફિલ્ટર્સ આપવાનું અને દુરુપયોગ માટે દેખરેખ રાખવાનું ચાલુ રાખીશું.

અમારા મોડલોને વપરાશકર્તાની સૂચનાઓનું પાલન કરવાનું ટ્રેન કરવાનો એક ઉપઉત્પાદન એ છે કે જો તેમને અસુરક્ષિત આઉટપુટ્સ જનરેટ કરવાની સૂચના આપવામાં આવે તો તેઓ દુરુપયોગ માટે વધુ સંવેદનશીલ બની શકે છે. આ ઉકેલવા માટે અમારા મોડલોને કેટલીક સૂચનાઓનો ઇનકાર કરવો જરૂરી છે; વિશ્વસનીય રીતે આવું કરવું એ એક મહત્વપૂર્ણ ખુલ્લી સંશોધન સમસ્યા છે, જેને ઉકેલવા માટે અમે ઉત્સાહિત છીએ.

આગળ, ઘણા કિસ્સાઓમાં સરેરાશ લેબલરની પસંદગી સાથે અલાઇન કરવું ઇચ્છનીય ન હોઈ શકે. ઉદાહરણ તરીકે, જ્યારે એવો ટેક્સ્ટ જનરેટ થાય જે અલ્પસંખ્યક જૂથને અસમાનપણે અસર કરે, ત્યારે તે જૂથની પસંદગીઓને વધુ વજન આપવું જોઈએ. હાલમાં, InstructGPTને અંગ્રેજીમાં સૂચનાઓનું પાલન કરવા માટે ટ્રેન કરવામાં આવે છે; તેથી, તે અંગ્રેજી બોલતા લોકોના સાંસ્કૃતિક મૂલ્યો તરફ પૂર્વગ્રહિત છે. અમે લેબલર્સની પસંદગીઓ વચ્ચેના ભેદ અને અસહમતિને સમજવા માટે સંશોધન કરી રહ્યા છીએ જેથી અમે અમારા મોડલોને વધુ ચોક્કસ વસ્તીના મૂલ્યો પર કન્ડિશન કરી શકીએ. વધુ સામાન્ય રીતે, મોડલ આઉટપુટ્સને ચોક્કસ માનવોના મૂલ્યો સાથે અલાઇન કરવાથી સામાજિક અસર ધરાવતા મુશ્કેલ પસંદગીઓ ઊભી થાય છે, અને અંતે આ નિર્ણયો લેવા માટે અમારે જવાબદાર અને સમાવેશી પ્રક્રિયાઓ સ્થાપિત કરવી પડશે.

આગલા પગલાં

આ અમારી અલાઇનમેન્ટ રિસર્ચનો અમારા પ્રોડક્ટ પરનો પહેલો ઉપયોગ છે. અમારા પરિણામો બતાવે છે કે આ ટેક્નિક્સ સામાન્ય હેતુવાળી AI સિસ્ટમોને માનવીય ઇરાદાઓ સાથેના અલાઇનમેન્ટમાં નોંધપાત્ર સુધારો કરવા માટે અસરકારક છે. જોકે, આ તો માત્ર શરૂઆત છે: અમે આ ટેક્નિક્સને આગળ ધપાવતા રહીશું જેથી અમારા વર્તમાન અને ભવિષ્યના મોડલોનું અલાઇનમેન્ટ માનવો માટે સલામત અને ઉપયોગી ભાષા સાધનો તરફ વધુ સુધરે.

જો તમને આ સંશોધન દિશાઓમાં રસ હોય, તો અમે ભરતી કરી રહ્યા છીએ⁠(નવી વિન્ડોમાં ખૂલે છે)!

ફૂટનોટ્સ

A
અમે માત્ર જાન્યુઆરી 2021માં ડિપ્લોય કરાયેલા InstructGPT મોડલોના પહેલાના સંસ્કરણને Playground દ્વારા સબમિટ કરાયેલા પ્રોમ્પ્ટ્સ જ વાપરીએ છીએ. અમારા માનવ એનોટેટર્સ તમામ પ્રોમ્પ્ટ્સને ટ્રેનિંગ સેટમાં ઉમેરતા પહેલાં તેમાંથી વ્યક્તિગત ઓળખપાત્ર માહિતી દૂર કરે છે.
B
APIમાં ડિપ્લોય કરાયેલા InstructGPT મોડલો એ જ માનવ ફીડબેક ડેટાનો ઉપયોગ કરીને ટ્રેન કરાયેલા અપડેટેડ સંસ્કરણો છે. તેઓ સમાન પરંતુ થોડું જુદી ટ્રેનિંગ પદ્ધતિ વાપરે છે, જેનું વર્ણન અમે આવનાર પ્રકાશનમાં કરીશું.
C
અમે અમારી API વિતરણમાં સંભવિત હાનિકારક આઉટપુટ્સના કેટલાક અન્ય પરિમાણો પણ માપીએ છીએ: શું આઉટપુટ્સમાં યૌન અથવા હિંસક સામગ્રી છે, સુરક્ષિત વર્ગને નીચું બતાવે છે, અથવા દુર્વ્યવહારને પ્રોત્સાહન આપે છે. અમે જોયું કે આ માપદંડો પર InstructGPT, GPT-3ની સરખામણીએ નોંધપાત્ર સુધારો કરતું નથી; બંને મોડલો માટે ઘટના દર સમાન રીતે નીચો છે.
D
અમને આ અભિગમ માત્ર KL ગુણાંક વધારવા કરતાં વધુ અસરકારક લાગ્યો.
E
આ લેબલર્સ Scale AI અને Upworkમાંથી લેવામાં આવે છે, અમારા ટ્રેનિંગ લેબલર્સની જેમ જ, પરંતુ તેઓ સ્ક્રીનિંગ ટેસ્ટમાંથી પસાર થતા નથી.

સંદર્ભો

1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017. ડીપ રીઇન્ફોર્સમેન્ટ લર્નિંગ ફ્રોમ હ્યુમન પ્રેફરન્સિસ. arXiv preprint arXiv:1706.03741.
2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021. હ્યુમન ફીડબેક સાથે પુસ્તકોનું રિકર્સિવ સારાંશકરણ. arXiv preprint arXiv:2109.10862.
4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. ફાઇનટ્યુન કરેલા લેન્ગ્વેજ મોડલો ઝીરો-શોટ શીખનાર છે. arXiv preprint arXiv:2109.01652.
5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021. મલ્ટીટાસ્ક પ્રોમ્પ્ટેડ ટ્રેનિંગ ઝીરો-શોટ ટાસ્ક જનરલાઇઝેશન સક્ષમ બનાવે છે. arXiv preprint arXiv:2110.08207.
6
Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March. સ્ટોકાસ્ટિક પેરોટ્સના જોખમો વિશે: શું લેન્ગ્વેજ મોડલો બહુ મોટા થઈ શકે?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021. ફાઉન્ડેશન મોડલોના અવસરો અને જોખમો વિશે. arXiv preprint arXiv:2108.07258.
8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021. લેન્ગ્વેજ એજન્ટ્સનું અલાઇનમેન્ટ. arXiv preprint arXiv:2103.14659.
9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021. લેન્ગ્વેજ મોડલોથી થતા નુકસાનના નૈતિક અને સામાજિક જોખમો. arXiv preprint arXiv:2112.04359.
10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021. મોટા લેન્ગ્વેજ મોડલોની ક્ષમતાઓ, મર્યાદાઓ અને સામાજિક અસરને સમજવું. arXiv preprint arXiv:2102.02503.
11
Solaiman, I. and Dennison, C., 2021. વેલ્યુઝ-ટાર્ગેટેડ ડેટાસેટ્સ સાથે લેન્ગ્વેજ મોડલોને સમાજ માટે અનુકૂલિત કરવાની પ્રક્રિયા (PALMS). arXiv preprint arXiv:2106.10328.
12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021. કન્ડિશનલ-લાઈકલીહૂડ ફિલ્ટ્રેશનથી લેન્ગ્વેજ મોડલોમાં નુકસાન ઘટાડવું. arXiv preprint arXiv:2108.07790.
13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020. ઓપન-ડોમેન ચેટબોટ્સમાં સલામતી માટેની રેસીપીઓ. arXiv preprint arXiv:2010.07079.
14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019. Ctrl: નિયંત્રિત જનરેશન માટેનું કન્ડિશનલ ટ્રાન્સફોર્મર લેન્ગ્વેજ મોડલ. arXiv preprint arXiv:1909.05858.
15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020. Gedi: જનરેટિવ ડિસ્ક્રિમિનેટર ગાઇડેડ સિક્વન્સ જનરેશન. arXiv preprint arXiv:2009.06367.
16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019. પ્લગ એન્ડ પ્લે લેન્ગ્વેજ મોડલો: નિયંત્રિત ટેક્સ્ટ જનરેશન માટેનો એક સરળ અભિગમ. arXiv preprint arXiv:1912.02164.
17
Lin, S., Hilton, J. and Evans, O., 2021. TruthfulQA: મોડલો માનવીય અસત્યને કેવી રીતે અનુસરે છે તેનો માપ. arXiv preprint arXiv:2109.07958.
18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020. RealToxicityPrompts: લેન્ગ્વેજ મોડલોમાં ન્યુરલ ટોક્સિક ડિજનરેશનનું મૂલ્યાંકન. arXiv preprint arXiv:2009.11462.
19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018. કોરેફરન્સ રિઝોલ્યુશનમાં લિંગભેદ. arXiv preprint arXiv:1804.09301.
20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020. CrowS-pairs: માસ્ક્ડ લેન્ગ્વેજ મોડલોમાં સામાજિક પૂર્વગ્રહ માપવા માટેનો ચેલેન્જ ડેટાસેટ. arXiv preprint arXiv:2010.00133.

લેખકો

Ryan Lowe, Jan Leike

આભારવિધિ

અમે અમારા પેપરના સહ-લેખકોનો આભાર માનીએ છીએ: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, અને Paul Christiano, તેમજ પેપર અને બ્લોગ પોસ્ટ પર પ્રતિસાદ આપનાર સૌનો. અમે Comms ટીમનો પણ તેમના માર્ગદર્શન અને સહાય માટે આભાર માનીએ છીએ, જેમાં Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego, અને Justin Jay Wangનો સમાવેશ થાય છે. અંતમાં, અમે અમારા લેબલર્સનો આભાર માનીએ છીએ, જેઓ વગર આ પ્રોજેક્ટ શક્ય બન્યો ન હોત.

સંબંધિત લેખો

બધું જુઓ

Disrupting malicious uses of AI by state-affiliated threat actors

સુરક્ષા14 ફેબ્રુ, 2024

Building an early warning system for LLM-aided biological threat creation

પ્રકાશન31 જાન્યુ, 2024

Democratic Inputs To AI Grant Program Update

Democratic inputs to AI grant program: lessons learned and implementation plans

સુરક્ષા16 જાન્યુ, 2024