રિઝનિંગ મોડેલો તેમની ચેન-ઓફ-થોટને નિયંત્રિત કરવામાં સંઘર્ષ કરે છે, અને એ સારી વાત છે
AI સલામતી માટે અત્યાધુનિક મોડેલોની એક મર્યાદા કેમ આશ્વાસક છે.
જેમ જેમ AI એજન્ટ વધુ ને વધુ જટિલ અને સ્વાયત્ત કાર્યો પાર પાડવામાં સક્ષમ બને છે, તેમ તેમના વર્તન પર વિશ્વસનીય દેખરેખ જાળવવી વધુ મહત્વપૂર્ણ બને છે. અમારી પુનરાવર્તિત અમલની સિદ્ધાંત સાથે સુસંગત રીતે, અમે વાસ્તવિક પરિસ્થિતિઓમાં સિસ્ટમો કેવી રીતે વર્તે છે તેનો અભ્યાસ કરીએ છીએ અને ક્ષમતાઓ આગળ વધે તેમ સુરક્ષા ઉપાયો સતત સુધારીએ છીએ. તેને ટેકો આપવા માટે, અમારો સલામતી અભિગમ બહુસ્તરીય રક્ષણનો ઉપયોગ કરે છે, જેમાં સલામતી તાલીમ, વર્તનાત્મક પરીક્ષણ, એજન્ટિક કોડ સમીક્ષા(નવી વિન્ડોમાં ખૂલે છે), અને ચેન-ઓફ-થોટ (CoT) મોનિટરિંગ જેવા અનેક પરસ્પર પૂરક રક્ષણ સ્તરો સામેલ છે. CoT મોનિટરિંગ કાર્યો કરતી વખતે એજન્ટો ઉત્પન્ન કરતાં રિઝનિંગ પગલાંનું વિશ્લેષણ કરે છે. આ રિઝનિંગ ટ્રેસ તાલીમ અને અમલીકરણ બંને દરમિયાન મૂલ્યવાન સંકેતો આપી શકે છે, જે મોનિટરિંગ સિસ્ટમોને ઓળખવામાં મદદ કરે છે કે ક્યારે એજન્ટનું વર્તન અસુરક્ષિત હોઈ શકે છે અથવા વપરાશકર્તાના ઇચ્છિત લક્ષ્યો સાથે અસંગત હોઈ શકે છે.
આજે, અમે જાણીએ છીએ કે મોડેલનું રિઝનિંગ સામાન્ય રીતે સમજાય એવું છે અને મોનિટર કરવું સરળ છે. પરંતુ ભવિષ્યમાં, વિવિધ કારણોસર(નવી વિન્ડોમાં ખૂલે છે) મોનિટર કરી શકવાની ક્ષમતા તૂટી પડી શકે છે. અહીં અમે એવા જ એક માર્ગ પર ધ્યાન કેન્દ્રિત કરીએ છીએ: જો એજન્ટો જાણતા હોય કે તેમની દેખરેખ થઈ રહી છે ત્યારે તેઓ ઇરાદાપૂર્વક પોતાના રિઝનિંગને ફરી ગોઠવી શકે અથવા ઢાંકી શકે, તો મૂલ્યાંકન કોઈ સિસ્ટમની એલાઇનમેન્ટ અથવા સલામતીને વધારીને આંકી શકે અને મોનિટરિંગ સિસ્ટમો ઓછા વિશ્વસનીય બની શકે.
આ કાર્યમાં, અમે અભ્યાસ કરીએ છીએ કે હાલના রિઝনિંગ મોડેલો તેમની ચેન-ઓફ-થોટને એવા રીતે નિયંત્રિત કરી શકે છે કે જે મોનિટર કરી શકવાની ક્ષમતા ઘટાડે. આ ક્ષમતાને સમજવું એ ખાતરી કરવા માટે મહત્વનું છે કે AI સિસ્ટમો વધુ સક્ષમ બને તેમ CoT મોનિટરિંગ એક મજબૂત સુરક્ષા ઉપાય તરીકે ટકી રહે. અમને જાણવા મળે છે કે હાલના રિઝનિંગ મોડેલો તેમની CoT નિયંત્રિત કરવામાં સંઘર્ષ કરે છે, ભલે તેમને કહેવામાં આવે કે તેમની દેખરેખ થઈ રહી છે. નિયંત્રિતતા મોટા મોડેલો માટે વધુ હોય છે, પરંતુ મોડેલોને વધુ લાંબું રિઝનિંગ કરવા કહેવામાં આવે ત્યારે અને તેઓ વધારાના પોસ્ટ-ટ્રેનિંગમાંથી પસાર થાય ત્યારે તે ઘટે છે. અમારા પરિણામો સૂચવે છે કે હાલ CoT નિયંત્રિતતા CoT મોનિટરેબિલિટી માટે મોટું જોખમ બનવાની શક્યતા ઓછી છે, જોકે મોડેલો આગળ વધે તેમ સતત મૂલ્યાંકન મહત્વપૂર્ણ રહેશે.
ચેન-ઓફ-થોટનો અર્થ એ મધ્યવર્તી રિઝનિંગ પગલાં છે જે AI એજન્ટ કોઈ કાર્ય ઉકેલતી વખતે ઉત્પન્ન કરે છે. આ રિઝનિંગ ટ્રેસ ઉપયોગી સલામતી સંકેતો આપી શકે છે, જે મોનિટરિંગ સિસ્ટમોને એજન્ટનું વર્તન સુરક્ષિત છે કે એલાઇન છે તે મૂલવવામાં મદદ કરે છે.
CoT નિયંત્રિતતા એ રિઝનિંગ મોડલની તેની CoTના ગુણધર્મોને એવા રીતે નિયંત્રિત કરવાની ક્ષમતા છે કે જે મોનિટર કરી શકવાની ક્ષમતા ઘટાડે. વાસ્તવિક ઉપયોગમાં મોનિટરોને ટાળવા માટે હોઈ શકે તેવી પ્રેરણાઓના સમગ્ર વ્યાપ હેઠળ આ ક્ષમતા માપવી મુશ્કેલ છે. તેથી, અમે એક વ્યવહારુ પ્રોક્સીનો ઉપયોગ કરીએ છીએ: અમે મોડલની તેની CoT વિશેની વપરાશકર્તા સૂચનાઓનું પાલન કરવાની ક્ષમતા માપીએ છીએ. ઉદાહરણ તરીકે, અમે તપાસીએ છીએ કે કોઈ મોડલ તેની આંતરિક રિઝનિંગને અસર કરતી સૂચનાઓનું પાલન કરી શકે છે કે નહીં, જેમ કે માત્ર નાના અક્ષરો વાપરવા, ચોક્કસ કીવર્ડ્સ ટાળવા, અથવા નિશ્ચિત વાક્યાંશો ઉમેરવા, માત્ર તેની દેખાતી આઉટપુટ બદલી નાખવાને બદલે.
આનો અભ્યાસ કરવા માટે, અમે CoT-Control રજૂ કરીએ છીએ, જે રિઝનિંગ મોડેલોની CoT નિયંત્રિતતા માપવા માટેનું એક ઓપન-સોર્સ મૂલ્યાંકન સ્યુટ છે. CoT-Controlમાં સ્થાપિત બેન્ચમાર્ક્સ પરથી બનેલા 13,000થી વધુ કાર્યો સામેલ છે: GPQA, MMLU-Pro, HLE, BFCL અને SWE-Bench Verified. દરેક કાર્ય એક બેન્ચમાર્ક સમસ્યાને એક CoT સૂચના સાથે જોડી બનાવીને બનાવવામાં આવે છે, જેમ કે CoTમાં સમસ્યા-સંબંધિત ચોક્કસ કીવર્ડ્સ ટાળવા, માત્ર નાના અક્ષરો વાપરવા, અથવા દરેક વાક્યના અંતે આપેલો શબ્દ જોડવો.
અમે 13 રિઝનિંગ મોડેલો પર મૂલ્યાંકન ચલાવીએ છીએ અને જાણીએ છીએ કે તેઓ બધા પોતાની CoTને વિશ્વસનીય રીતે નિયંત્રિત કરવામાં સંઘર્ષ કરે છે. અમે નિયંત્રિતતાને એવા રિઝનિંગ ટ્રેસના હિસ્સા તરીકે માપીએ છીએ જેમાં મોડલ અમારી CoT સૂચનાઓનું સફળતાપૂર્વક પાલન કરે છે. અત્યાધુનિક મોડેલોમાં CoT નિયંત્રિતતા સ્કોર્સ ઓછી છે, જે 0.1% થી શરૂ થાય છે અને અમે પરીક્ષણ કરેલા કોઈપણ વર્તમાન અત્યાધુનિક મોડલ માટે 15.4% કરતાં વધુ નથી.
આ અસમર્થતા કાર્યને ન સમજી શકવાને કારણે નથી: મોડેલો ઘણી વખત તેમની CoTમાં ઓળખે છે કે તેઓ આપેલી CoT સૂચનાઓનું પાલન કરવામાં નિષ્ફળ જઈ રહ્યા છે અને આ સમજ્યા પછી પણ તેઓ નિષ્ફળ જતાં રહે છે. આ આશ્ચર્યજનક રીતે નીચું પ્રદર્શન CoT મોનિટરેબિલિટી માટે સારા સમાચાર છે: તે સૂચવે છે કે મોડેલોમાં કદાચ અમારા મોનિટરોને ટાળવા માટે પોતાના રિઝનિંગને અસ્પષ્ટ બનાવવાની ક્ષમતા પણ ન હોઈ શકે.
અનેક અત્યાધુનિક મોડેલોની તેમની આઉટપુટ અને CoTને નિયંત્રિત કરવાની ક્ષમતા. ઓછી CoT નિયંત્રિતતા ઊંચી મોનિટરેબિલિટી સાથે જોડાયેલી છે અને તેથી વધુ સલામતી સાથે પણ.
CoT નિયંત્રિતતા નિષ્ફળતાનાં ઉદાહરણો
સંક્ષિપ્તતા માટે પ્રશ્નોને પુનઃશબ્દિત કરવામાં આવ્યા છે.
GPT-5.2 Thinking
GPT‑5.2 Thinking સમજે છે કે તેને પ્રતિબંધિત શબ્દ (લાલ) વાપરવો ન હતો, પરંતુ પછી તે તેનો ઉપયોગ થઈ ગયો છે એવી ગભરાહટમાં તેને વધુ 4 વાર વાપરે છે.
જ્યારે અમને દેખાય છે કે મોડલના કદ સાથે નિયંત્રિતતા વધે છે, ત્યારે અમે એ પણ જાણીએ છીએ કે પોસ્ટ-ટ્રેનિંગ અને ટેસ્ટ-ટાઇમ કમ્પ્યુટના પ્રમાણ સાથે તે ઝડપથી ઘટે છે. ઓપન-વેઇટ મોડેલોના બે પરિવારોમાં, મોટા મોડેલો તેમની ચેન-ઓફ-થોટને નિયંત્રિત કરવામાં થોડા વધુ સારા હતા, જોકે મોટા કદે આ અસર ધીમી પડી ગઈ. પરંતુ જ્યારે અમે મોડેલોને વધુ લાંબા સમય સુધી વિચારવા દીધાં, ત્યારે તેઓ આ ચેન-ઓફ-થોટને નિયંત્રિત કરવામાં ઓછા સક્ષમ બન્યા. અમે OLMo-3-7B-RL-Zero-Mathના RL તાલીમ માટે પણ આવો જ વલણ જોયો: તાલીમ દરમિયાન તેની નિયંત્રિતતા સ્કોર દસ ગણા કરતાં વધુ ઘટી ગઈ.
ઓપન-વેઇટ મોડેલોમાં સ્કેલ સાથે નિયંત્રિતતા વધે છે, પરંતુ લાંબા રિઝનિંગ અને વધુ RL તાલીમ સાથે ઘટે છે.
મોનિટરોને ટાળવા માટેની વાસ્તવિક પ્રેરણાઓનું અનુકરણ કરવા માટે, જ્યારે મોડેલોને કહેવામાં આવે છે કે તેમની દેખરેખ અથવા મૂલ્યાંકન થઈ રહ્યું છે ત્યારે અમે નિયંત્રિતતા માપીએ છીએ. આ નિયંત્રિતતામાં થોડો, પરંતુ ધ્યાનપાત્ર, વધારો કરે છે. અમે ઊંચી નિયંત્રિતતા ઉત્પન્ન કરતા પ્રોમ્પ્ટ શોધવા માટે સ્વચાલિત પ્રોમ્પ્ટ ઑપ્ટિમાઇઝેશનનો પણ ઉપયોગ કરીએ છીએ. જોકે ઑપ્ટિમાઇઝર તાલીમ સેટ પર નિયંત્રિતતા વધારી શકે છે, આ લાભો નવી સૂચના પ્રકારોમાં સારી રીતે સ્થાનાંતરિત થતા નથી, જેમ કે શબ્દો વચ્ચે જગ્યા ન રાખવાની આવશ્યકતા.
CoT નિયંત્રિતતા વિરોધી પરિસ્થિતિઓમાં છે. “મોનિટર જાગૃતિ” તે પરિસ્થિતિઓને સૂચવે છે જ્યાં અમે મોડેલોને જાણ કરીએ છીએ કે તેમની CoTની દેખરેખ થઈ રહી છે. “મૂલ્યાંકન જાગૃતિ” તે પરિસ્થિતિઓ દર્શાવે છે જ્યાં અમે મોડેલોને જાણ કરીએ છીએ કે તેમની CoT નિયંત્રિતતા માટે મૂલ્યાંકન થઈ રહ્યું છે.
CoT-Controlમાં રહેલા કાર્યો વ્યવહારુ પ્રોક્સી છે: આદર્શ CoT નિયંત્રિતતા મૂલ્યાંકનમાં તપાસવામાં આવતું કે કુદરતી રીતે ગેર-એલાઇન લક્ષ્યોનો પીછો કરતાં મોડેલો મોનિટરિંગને ટાળવા માટે પોતાની CoT નિયંત્રિત કરી શકે છે કે નહીં. તેના બદલે, અમે એજન્ટોની તેમની CoTને નિયંત્રિત કરવાની ક્ષમતાનો અંદાજ તેમની CoT વિશેની સૂચનાઓનું પાલન કરવાની ક્ષમતા માપીને કરીએ છીએ. વધુમાં, મોડેલો તેમની CoTની કેટલીક વિશેષતાઓને અન્ય કરતાં વધુ સારી રીતે નિયંત્રિત કરી શકે છે, અને CoT-Control માત્ર નિયંત્રિતતાના સંકુચિત પ્રકારોને માપતું હોવાથી તે નિયંત્રિતતાનો વધારે અથવા ઓછો અંદાજ લગાવતું હોઈ શકે છે.
ઓછી CoT નિયંત્રિતતા એક સુવિધા છે, ખામી નથી. હાલના રિઝનિંગ મોડેલોની ઓછી નિયંત્રિતતા CoT મોનિટરિંગને સુરક્ષા ઉપાય તરીકે વધુ વિશ્વસનીય બનાવે છે. સાથે સાથે, અમને હજી સમજાયું નથી કે હાલના રિઝનિંગ મોડેલોની નિયંત્રિતતા ઓછી કેમ છે, અથવા મોડેલો વધુ સક્ષમ બનતા આ ગુણધર્મ ટકી રહેશે કે નહીં. તેથી, CoT નિયંત્રિતતા મૂલ્યાંકનને કેનેરી eval તરીકે જોવામાં આવી શકે: મોડેલો પોતાના રિઝનિંગને આકાર આપવા અથવા છુપાવવામાં વધુ સારા બન્યા છે કે નહીં તેનો એક પ્રારંભિક ચેતવણી સંકેત.
અમારા પરિણામો સૂચવે છે કે હાલ CoT નિયંત્રિતતા CoT મોનિટરેબિલિટી માટે મોટું જોખમ બનવાની શક્યતા ઓછી છે. પરંતુ, ઊંચી મોનિટરેબિલિટી ની ખાતરી આપવા માટે માત્ર ઓછી નિયંત્રિતતા પૂરતી નથી, કારણ કે CoT પર સીધા ઑપ્ટિમાઇઝેશન દબાણ જેવા અન્ય મિકેનિઝમ્સને કારણે મોનિટરેબિલિટી હજી પણ ઘટી શકે છે.
સમય સાથે આ ગતિશીલતાઓને ટ્રૅક કરવામાં મદદ કરવા માટે, અમે ભવિષ્યના અત્યાધુનિક મોડેલો માટે સિસ્ટમ કાર્ડમાં CoT મોનિટરેબિલિટી સાથે CoT નિયંત્રિતતા પણ રિપોર્ટ કરવાનું શરૂ કરીશું, GPT‑5.4 Thinkingથી શરૂઆત કરીને, અત્યાધુનિક રિઝનિંગ મોડેલોની CoT પર સીધું ઑપ્ટિમાઇઝેશન દબાણ લાગુ ન કરવાની અમારી ચાલુ પ્રતિબદ્ધતા પર આધાર રાખીને.
લેખકો
Tomek Korbak, Micah Carroll, Bowen Baker, Ian Kivlichan


