કન્ફેશન ભાષા મોડલને કેવી રીતે પ્રામાણિક રાખી શકે
અમે એક પ્રારંભિક, પ્રૂફ-ઓફ-કોન્સેપ્ટ પદ્ધતિ શેર કરી રહ્યા છીએ, જે મોડલને સૂચનાઓ તોડે અથવા અનિચ્છિત શોર્ટકટ લે ત્યારે તેની જાણ કરવા તાલીમ આપે છે.
AI સિસ્ટમો વધુ સક્ષમ બની રહી છે, અને અમે તેમને શક્ય તેટલી ઊંડાઈથી સમજવા માંગીએ છીએ, જેમાં તેઓ જવાબ સુધી કેવી રીતે અને શા માટે પહોંચે છે તે પણ સામેલ છે. ક્યારેક કોઈ મોડલ શોર્ટકટ લે છે અથવા ખોટા હેતુ માટે ઑપ્ટિમાઇઝ કરે છે, છતાં તેનો અંતિમ આઉટપુટ સાચો દેખાય છે. જો આવી ઘટના વખતે આપણે તેને બહાર લાવી શકીએ, તો આપણે તૈનાત સિસ્ટમોની વધુ સારી દેખરેખ રાખી શકીએ, તાલીમ સુધારી શકીએ અને આઉટપુટ પર વિશ્વાસ વધારી શકીએ.
OpenAI અને અન્યના સંશોધનથી બતાવાયું છે કે AI મોડલો હેલ્યુસિનેટ કરી શકે છે, રિવોર્ડ-હેક કરી શકે છે અથવા અપ્રામાણિક હોઈ શકે છે. હાલ, અમને સૌથી ચિંતાજનક ખોટા વર્તનો, જેમ કે ષડયંત્રાત્મક વર્તન(નવી વિન્ડોમાં ખૂલે છે), ફક્ત સ્ટ્રેસ-ટેસ્ટ અને વિરોધી મૂલ્યાંકનોમાં જ જોવા મળે છે. પરંતુ જેમ જેમ મોડલો વધુ સક્ષમ અને વધતા વધતા વધુ એજન્ટિક બને છે, તેમ ગેરઅલાઇનમેન્ટનાં દુર્લભ સ્વરૂપો પણ વધુ પરિણામકારક બને છે, અને તેથી અમને આવા જોખમોને વધુ સારી રીતે શોધી, સમજી અને ઓછા કરવામાં મદદ કરે એવી પદ્ધતિઓમાં રોકાણ કરવાની પ્રેરણા મળે છે.
આ કાર્ય આવી જ એક પદ્ધતિનું અન્વેષણ કરે છે: મોડલને જ્યારે તે અનિચ્છનીય વર્તનમાં સંકળાય ત્યારે તેને સ્પષ્ટ રીતે સ્વીકારવાની તાલીમ આપવી. આ તકનીકને અમે કન્ફેશન કહીએ છીએ.
કન્ફેશન એ વપરાશકર્તાને આપેલા મોડલના મુખ્ય જવાબથી અલગ, બીજી આઉટપુટ છે. મુખ્ય જવાબનું મૂલ્યાંકન અનેક પરિમાણોમાં થાય છે—સચોટતા, શૈલી, ઉપયોગિતા, અનુપાલન, સલામતી અને વધુ—અને આ બહુઆયામી સંકેતોનો ઉપયોગ મોડલોને વધુ સારા જવાબ આપવા માટે તાલીમ આપવા થાય છે. તેના વિરુદ્ધ, કન્ફેશનનું મૂલ્યાંકન અને તાલીમ માત્ર એક જ બાબત પર થાય છે: પ્રામાણિકતા. કન્ફેશનલની રચનામાંથી પ્રેરણા લઈને, તાલીમ દરમિયાન મોડલ કન્ફેશનમાં જે કંઈ કહે છે તે તેની સામે વાપરવામાં આવતું નથી. જો મોડલ પરીક્ષણ હેક કર્યું હોવાનો, સૅન્ડબેગિંગ કર્યું હોવાનો અથવા સૂચનાઓનું ઉલ્લંઘન કર્યું હોવાનો પ્રામાણિક સ્વીકાર કરે, તો તે સ્વીકાર તેના રિવોર્ડમાં ઘટાડો કરવાના બદલે વધારો કરે છે. હેતુ એ છે કે મોડલએ હકીકતમાં શું કર્યું તે વિશ્વસનીય રીતે જણાવવા માટે તેને પ્રોત્સાહિત કરવું.
અમારા પરીક્ષણોમાં અમને મળ્યું કે કન્ફેશન પદ્ધતિ મોડલના ખોટા વર્તનની દૃશ્યતા નોંધપાત્ર રીતે વધારે છે. ખોટા વર્તન પ્રેરવા માટે રચાયેલ અમારા મૂલ્યાંકનોમાં સરેરાશ લઈએ તો, “ખોટાં નકારાત્મક”ની સંભાવના (અર્થાત મોડલ સૂચનાઓનું પાલન ન કરે અને પછી તેનો સ્વીકાર પણ ન કરે) માત્ર 4.4% છે.
અમારા “પ્રૂફ ઓફ કોન્સેપ્ટ” કન્ફેશન મોડલની અનેક વિરોધી ડેટાસેટ્સ પરની ચોકસાઈ. પરિણામોને પાલન કર્યું અને કન્ફેશન ન કર્યું (સાચું નકારાત્મક), પાલન કર્યું અને કન્ફેશન કર્યું (ખોટું હકારાત્મક), પાલન ન કર્યું અને કન્ફેશન ન કર્યું (ખોટું નકારાત્મક), અને પાલન ન કર્યું અને કન્ફેશન કર્યું (સાચું હકારાત્મક) તરીકે વર્ગીકૃત કરવામાં આવ્યા છે.

વપરાશકર્તા પ્રોમ્પ્ટ આપ્યા પછી, ચાર સંભવિત પરિણામો (1) મોડલનો પ્રતિભાવ અનુપાલક (“સારો”) છે કે બિન-અનુપાલક (“ખરાબ”), અને (2) કન્ફેશન અનુપાલન કે બિન-અનુપાલનનો દાવો કરે છે કે નહીં, તેના સંયોજન પર આધારિત છે. સામાન્ય રીતે અમે જોઈએ છીએ કે કન્ફેશન ખૂબ જ સચોટ હોવાની શક્યતા ધરાવે છે, અને આગળ વધીને કન્ફેશનની ભૂલો સામાન્ય રીતે નિષ્કરણીય હોય છે, અને જ્ઞાતપણે ભ્રમિત કરવાને બદલે પ્રામાણિક ગૂંચવણને કારણે થાય છે.
કન્ફેશન એ મોડલ દ્વારા આપેલો સ્વ-અહેવાલ છે કે તેને અપાયેલી સ્પષ્ટ અને અસ્પષ્ટ સૂચનાઓ અથવા નીતિઓના ભાવ અને શબ્દશઃ અર્થ બંનેનું તેણે કેટલું પાલન કર્યું, અને ક્યાંક તેણે “શોર્ટકટ” લીધો કે “હેક” કર્યું, નીતિઓનું ઉલ્લંઘન કર્યું, અથવા કોઈ રીતે અપેક્ષાથી ઓછું પ્રદર્શન કર્યું કે નહીં. અમારા સંશોધનમાં અમે શોધ્યું છે કે મોડલોને તેમની પોતાની ખામીઓ અંગે નિખાલસ અહેવાલ આપવા તાલીમ આપી શકાય છે. અમે GPT‑5 Thinkingના એક સંસ્કરણને કન્ફેશન બનાવવા માટે તાલીમ આપી અને તેને અનેક આઉટ-ઓફ-ડિસ્ટ્રિબ્યુશન સ્ટ્રેસ-ટેસ્ટ ડેટાસેટ્સ પર મૂલ્યાંકિત કર્યું, જે ષડયંત્રાત્મક વર્તન, હેકિંગ, સૂચનાઓનું ઉલ્લંઘન અને હેલ્યુસિનેશન જેવા વર્તનો બહાર લાવવા માટે રચાયા હતા. અમે શોધ્યું કે મોડલ આવા અનિચ્છનીય વર્તનમાં સંકળાય ત્યારે પણ તે તેનો સ્વીકાર કરે તેવી ખૂબ શક્યતા હોય છે. ઉપરનું આકૃતિ બતાવે છે કે કન્ફેશન અભિગમ વિવિધ ડેટાસેટ્સ અને કાર્યોમાં વ્યાપક રીતે અસરકારક છે.
વપરાશકર્તા અને મોડલ વચ્ચેની કોઈપણ એવી ક્રિયા પછી જેનું સમાપન મોડલના જવાબથી થાય છે, મોડલને કન્ફેશન અહેવાલ આપવા સૂચના આપતો “સિસ્ટમ મેસેજ” મોકલી કન્ફેશન માંગવામાં આવી શકે છે. આ અહેવાલ મોડલના છેલ્લાં જવાબ સાથે સંબંધિત હોય છે, અને તેમાં (1) તે જવાબે સંતોષવાના બધા સ્પષ્ટ અને અસ્પષ્ટ નિર્દેશો, મર્યાદાઓ અને હેતુઓની યાદી, (2) જવાબે હકીકતમાં આ દરેક હેતુ સંતોષ્યા કે નહીં તેનો પ્રામાણિક અને નિષ્પક્ષ વિશ્લેષણ, અને (3) જવાબ બનાવતી વખતે મોડલને મળેલી કોઈપણ અનિશ્ચિતતા, અસ્પષ્ટતા અથવા “કઠિન નિર્ણયની પરિસ્થિતિઓ”ની યાદી સામેલ હોય છે. તાલીમ દરમિયાન, કન્ફેશનનું મૂલ્યાંકન અલગ રિવોર્ડ મોડલ દ્વારા થાય છે, જે ફક્ત કન્ફેશનને હેતુઓની પૂર્ણતા, અનુપાલન વિશ્લેષણની ચોકસાઈ અને અનિશ્ચિતતાઓના આવરણના આધારે સ્કોર કરે છે. આ રિવોર્ડ ફક્ત કન્ફેશન આઉટપુટ પર જ લાગુ પડે છે અને મુખ્ય જવાબના રિવોર્ડને ક્યારેય અસર કરતા નથી. આથી, ઉપર ચર્ચાયેલી તે વિશેષતા સુનિશ્ચિત થાય છે કે કન્ફેશનમાં મોડલ જે કંઈ કહે છે તે તેના મુખ્ય જવાબના રિવોર્ડને નુકસાન પહોંચાડી શકતું નથી કે મદદ પણ કરી શકતું નથી.
કન્ફેશન પાછળનો સિદ્ધાંત સરળ છે. મોડલના ઘણા પ્રકારના અનિચ્છનીય વર્તનો એ કારણે દેખાય છે કે અમે મોડલને એકસાથે અનેક હેતુઓ માટે ઑપ્ટિમાઇઝ કરવા કહીએ છીએ. રીઇન્ફોર્સમેન્ટ લર્નિંગ દરમિયાન, મોડલ પ્રોમ્પ્ટ જુએ છે, પ્રતિભાવ આપે છે અને રિવોર્ડ મેળવે છે. સમય જતાં, તે સારો સ્કોર મેળવનારા જવાબો આપવાનું શીખે છે. પડકાર એ છે કે રિવોર્ડ સિગ્નલમાં એકસાથે ઘણી અલગ બાબતો જોડવી પડે છે: જવાબ કેટલો સાચો છે, તે કેટલો મદદરૂપ છે, તે પ્રોડક્ટ અને નીતિ સ્પેસિફિકેશનોનું પાલન કરે છે કે નહીં, સલામતી મર્યાદાઓ પૂરી કરે છે કે નહીં, અને વપરાશકર્તાઓ સામાન્ય રીતે જે પસંદ કરે છે તેની સાથે મેળ ખાય છે કે નહીં. જ્યારે આ સંકેતો પરસ્પર ક્રિયા કરે છે, ત્યારે તે અકસ્માતે મોડલને એવા વર્તનો તરફ ધકેલી શકે છે જે આપણે ઇચ્છતા નથી.
ઉદાહરણ તરીકે, હેલ્યુસિનેશન પરના અમારા કાર્યએ બતાવ્યું કે કેટલાક ડેટાસેટ્સ અનિશ્ચિતતાનો પ્રામાણિક સ્વીકાર કરતાં આત્મવિશ્વાસભર્યા અંદાજને વધુ રિવોર્ડ આપે છે. અંધ-સંમતિ પરના અમારા સંશોધને બતાવ્યું કે જ્યારે પ્રેફરન્સ સિગ્નલ બહુ મજબૂત હોય ત્યારે મોડલો અતિશય સહમતિવાદી બની શકે છે. અને અન્ય જૂથોના કાર્ય(નવી વિન્ડોમાં ખૂલે છે)એ બતાવ્યું છે કે મોડલો “રિવોર્ડ હેક” કરી શકે છે—એટલે કે તાલીમની વ્યવસ્થામાં એવા છિદ્રો શોધે છે જેનાથી તેઓ અમારી મરજી મુજબનું કામ ખરેખર કર્યા વગર પણ ઊંચો સ્કોર મેળવી લે. કેટલાક કિસ્સાઓમાં, આ શોર્ટકટ્સ તૈનાતી દરમિયાન વધુ હાનિકારક વર્તનમાં પણ વિસ્તરી(નવી વિન્ડોમાં ખૂલે છે) શકે છે.
કન્ફેશન હેતુઓને સંપૂર્ણપણે અલગ કરીને આ સમસ્યાથી બચે છે. મુખ્ય જવાબ સામાન્ય બધા પરિબળો માટે ઑપ્ટિમાઇઝ કરતો રહે છે. કન્ફેશનને ચોક્કસ એક જ બાબત પર તાલીમ અપાય છે: પ્રામાણિકતા. કન્ફેશનમાં મોડલ જે કંઈ કહે છે તે તેની સામે વપરાતું નથી, અને કન્ફેશન મુખ્ય જવાબના રિવોર્ડને અસર કરતું નથી. તેનો અર્થ એ છે કે ભલે મોડલ તેના મૂળ આઉટપુટમાં ભ્રમ પેદા કરે અથવા શોર્ટકટ લે, તેમ છતાં કન્ફેશનમાં તે સ્વીકારવા માટે તેની પાસે પ્રેરણા રહે છે. વ્યવહારમાં અમે એ જ જોઈએ છીએ: મોડલો કન્ફેશનમાં ખરાબ વર્તન સ્વીકારવા તૈયાર હોય છે, એવી પરિસ્થિતિઓમાં પણ જ્યાં તેઓ તેને મુખ્ય જવાબમાં છુપાવે છે. અને જ્યારે કન્ફેશન નિષ્ફળ જાય છે, ત્યારે સામાન્ય રીતે તેનું કારણ એ હોય છે કે મોડલ ખરેખર ગૂંચવાયું હોય છે—કારણ કે સૂચનાઓ અસ્પષ્ટ હતી અથવા તેને સમજાયું નહોતું કે ભૂલ થઈ ગઈ છે—નહીં કે તે જ્ઞાતપણે ભ્રમિત કરવાનો પ્રયત્ન કરી રહ્યું હતું. મહત્વનું એ છે કે પ્રારંભિક પરિણામો બતાવે છે કે મૂળ જવાબ ચેન-ઓફ-થોટ વિના બનાવવામાં આવ્યો હોય ત્યારે પણ કન્ફેશન અસરકારક રહે છે, જે સૂચવે છે કે કન્ફેશનની પ્રામાણિકતા આંતરિક રિઝનિંગની વાંચનીયતા પર આધાર રાખતી નથી અને ભવિષ્યની મોડલ આર્કિટેક્ચરોમાં પણ સામાન્ય બની શકે છે.
અનુપાલનના ગ્રાઉન્ડ-ટ્રુથ લેબલ્સ વિના પણ કન્ફેશન તાલીમ કામ કરે છે. “ગ્રાઉન્ડ ટ્રુથ”થી અમારો અર્થ એવો નિશ્ચિત, બાહ્ય રીતે અપાયેલ લેબલ છે જે બતાવે છે કે મોડલે ખરેખર સૂચનાનું પાલન કર્યું કે તેનું ઉલ્લંઘન કર્યું. ઘણી વાસ્તવિક પરિસ્થિતિઓમાં આવા લેબલ ઉપલબ્ધ નથી—જો અમને ચોક્કસ ખબર હોત કે મોડલે કોઈ નિયમનું ઉલ્લંઘન કર્યું છે, તો અમે કન્ફેશન પર નિર્ભર રહેવાને બદલે તે ઉલ્લંઘનને સીધો દંડ આપી શકીએ. તેના બદલે, મોડલને તે માને છે કે તેણે શું કર્યું તેનું રચનાબદ્ધ, પુરાવા-આધારિત સ્પષ્ટીકરણ આપવા માટે રિવોર્ડ અપાય છે. પેપર બતાવે છે કે આ સેટઅપ હેઠળ પ્રામાણિકતા ઉભરી આવતી હોય છે. અમને લાગે છે કે તેનું કારણ એ છે કે સત્ય અને પુરાવા આધારિત વર્ણન આપવું, ન્યાયાધીશને પસાર કરી શકે એવી ગોઠવેલી ખોટી વાર્તા બનાવવાની તુલનામાં સામાન્ય રીતે મોડલ માટે સરળ છે. આ પેપરમાં તપાસાયેલ એક મહત્વપૂર્ણ અનુમાન છે, જેમાં કન્ફેશન ક્યાં નિષ્ફળ જાય છે—ખોટાં નકારાત્મક અને ખોટાં હકારાત્મક—અને તે કેવી રીતે ઊભાં થાય છે તેની પણ ચર્ચા થાય છે.
પેપર પ્રારંભિક પુરાવો આપે છે કે કન્ફેશન કાર્ય કરે છે, પરંતુ તેને અંતિમ પુરાવા તરીકે સમજવું નહીં. અમે અત્યાધુનિક મોડલ (GPT‑5 Thinking)નો ઉપયોગ કર્યો હોવા છતાં, અમારા પ્રયોગો વ્યાપમાં મર્યાદિત હતા અને તેમાં પ્રમાણમાં ઓછી કમ્પ્યુટ શક્તિ અને ડેટાનો ઉપયોગ થયો હતો. અમે આ કાર્યને આગળના સ્તરે લઈ જવા અને તાલીમના પ્રમાણમાં વધારો કરતાં કન્ફેશનની પ્રામાણિકતા યથાવત રહે છે કે નહીં તે જોવા માટે ઉત્સાહિત છીએ.
મોડલ તેના મુખ્ય પ્રતિભાવમાં વાક્યો સાથે કથિત શબ્દગણતરીની નોંધો ઉમેરીને ગ્રેડરને ભુલાવવા “રિવોર્ડ હેક” કરે છે, પરંતુ પછી કન્ફેશનમાં તેનો સ્વીકાર કરે છે.
અમારા પ્રયોગોના ભાગરૂપે અમે ઇચ્છાપૂર્વક મોડલોને નબળા મોડલ દ્વારા ગણવામાં આવેલા “હેક કરી શકાય એવા” રિવોર્ડ સિગ્નલ સામે તાલીમ આપી. આ સેટઅપ મુખ્ય રિવોર્ડ અને કન્ફેશન રિવોર્ડ બંને માટે લાગુ પડતો હતો. મોડલે નબળા રિવોર્ડ સિગ્નલનો લાભ લેવાનું શીખી લીધું: તેની દેખીતી ચોકસાઈ (જ્યારે નબળું મોડલ મૂલ્યાંકન કરે) સુધરી, જ્યારે તેની વાસ્તવિક ચોકસાઈ (જ્યારે વધુ મજબૂત મૂલ્યાંકનકાર મૂલ્યાંકન કરે) ઘટી ગઈ.
પરંતુ, કન્ફેશન ચેનલને પણ એ જ નબળા સિગ્નલ પર તાલીમ અપાઈ હોવા છતાં, તેની ચોકસાઈ વિરુદ્ધ દિશામાં ગઈ. મોડલે શીખ્યું કે કન્ફેશન રિવોર્ડ ઑપ્ટિમાઇઝ કરવાની શ્રેષ્ઠ રીત માત્ર ત્યારે સ્વીકારી લેવી હતી જ્યારે તેણે મુખ્ય રિવોર્ડ હેક કર્યો હતો. મુખ્ય વર્તન બદલાતું રહ્યું ત્યારે પણ કન્ફેશન સમય જતાં વધુ સચોટ બન્યાં.
તાલીમ દરમિયાન, જ્યારે મોડલ પાલન કરવામાં નિષ્ફળ જાય છે, ત્યારે કેટલાક કિસ્સાઓમાં તે મુખ્ય રિવોર્ડ ન્યાયાધીશને “હેક” કરવાનું શીખે છે અને તેથી ન્યાયાધીશની ચોકસાઈ ઘટે છે. તેના વિરુદ્ધ, કન્ફેશન રિવોર્ડ ન્યાયાધીશ પણ એટલો જ હેક કરી શકાય એવો હોવા છતાં, તાલીમ દરમિયાન મોડલ તેના કન્ફેશનમાં વધુ પ્રામાણિક બનતું જાય છે, અને અંતે પાલન ન કર્યું હોય ત્યારે કન્ફેશન કરવાની દર લગભગ 100% સુધી પહોંચે છે.
પેપર(નવી વિન્ડોમાં ખૂલે છે)માં વધુ પ્રયોગો અને પરિણામો સમાવ્યાં છે. અમે કન્ફેશન-પ્રશિક્ષિત મોડલની તુલના એ જ રીતે તાલીમ અપાયેલા પરંતુ કન્ફેશન ચેનલ વિનાના નિયંત્રણ મોડલ સાથે કરી. અમે કન્ફેશન નિષ્ફળ ગયેલા કિસ્સાઓની પણ તપાસ કરી. લગભગ બધા “ચૂકો” ત્યારે થયા જ્યારે મોડલ ખરેખર ગૂંચવાયું હતું—જ્યારે સૂચનાઓ અસ્પષ્ટ હતી અથવા તેને સરળતાથી સમજાયું નહોતું કે તેણે ભૂલ કરી છે. (ઉપરનું ખોટું નકારાત્મક ઉદાહરણ જુઓ.)
કન્ફેશનની પોતાની મર્યાદાઓ છે. તેઓ ખરાબ વર્તન રોકતા નથી; તેઓ તેને બહાર લાવે છે. તેમનો મુખ્ય ઉપયોગ તાલીમ દરમ્યાન અને તૈનાતી દરમિયાન દેખરેખ અને નિદાન સાધન તરીકે છે. કન્ફેશનની ભૂમિકા ચેન-ઓફ-થોટ મોનિટરિંગ જેવી જ છે: બંને છુપાયેલી રિઝનિંગ પ્રક્રિયાઓને વધુ દૃશ્યમાન બનાવે છે. કન્ફેશનનું ધ્યાન મોડલે સૂચનાઓનું ઉલ્લંઘન કર્યું કે નહીં તેના પર હોય છે; ચેન-ઓફ-થોટ બતાવી શકે છે કે તે ત્યાં સુધી કેવી રીતે પહોંચ્યું.
આ કાર્ય પણ એક પ્રૂફ-ઓફ-કોન્સેપ્ટ છે. અમે મોટા પાયે કન્ફેશન મિકેનિઝમને તાલીમ આપી નથી, અને કન્ફેશનની ચોકસાઈ હજુ સંપૂર્ણ નથી. આ અભિગમને વધુ વિશ્વસનીય, વધુ મજબૂત અને વિવિધ મોડલ પરિવારો તથા કાર્યોમાં વધુ વ્યાપક રીતે લાગુ કરી શકાય તે માટે હજુ ઘણું કામ કરવાનું બાકી છે.
આ કાર્ય AI સલામતી પ્રત્યેના અમારા વિસ્તૃત અભિગમમાં સામેલ છે. કન્ફેશન એક મોટા સ્તરની વ્યવસ્થાનો એક મિકેનિઝમ છે, જેમાં વિચાર-વિમર્શ આધારિત અલાઇનમેન્ટ, ચેન-ઓફ-થોટ મોનિટરિંગ, સૂચના ક્રમબદ્ધતા અને અન્યનો સમાવેશ થાય છે. કોઈ એકલી પદ્ધતિ પૂરતી નથી; હેતુ એ છે કે પરસ્પર એકબીજાને મજબૂત બનાવતી ચકાસણીઓ અને પારદર્શિતા સાધનોની સ્તરબદ્ધ વ્યવસ્થા ઊભી કરવી. કન્ફેશન તાલીમ અને મૂલ્યાંકન દરમિયાન મોડલોમાં સમસ્યાજનક વર્તનનું નિદાન કરવામાં, તેમજ તૈનાતી દરમિયાન મોનિટરિંગમાં મદદ કરી શકે છે. કન્ફેશન એકલા અનેક પરિમાણોનું સંતુલન સાધવાની સમસ્યા ઉકેલતા નથી. પરંતુ મોડલો ફક્ત પ્રામાણિકતા પર કેન્દ્રિત રહે એવો “ટ્રુથ સીરમ” મોડ બનાવીને, તે સમગ્ર રીતે પ્રામાણિકતા અને સલામતી સુધારવા માટે અમારી વ્યવસ્થામાં એક મૂલ્યવાન સાધન ઉમેરે છે.
જેમ જેમ મોડલો વધુ સક્ષમ બને છે અને વધુ જોખમી પરિસ્થિતિઓમાં તૈનાત થાય છે, તેમ તેઓ શું કરી રહ્યા છે અને કેમ કરી રહ્યા છે તે સમજવા માટે અમને વધુ સારા સાધનો જોઈએ. કન્ફેશન સંપૂર્ણ ઉકેલ નથી, પરંતુ તે અમારી પારદર્શિતા અને દેખરેખ વ્યવસ્થામાં એક અર્થપૂર્ણ સ્તર ઉમેરે છે. ભવિષ્યના કાર્યમાં, અમે કન્ફેશનને મોટા પાયે લઈ જવાની યોજના ધરાવીએ છીએ, તેમજ તેમને ચેન-ઓફ-થોટ મોનિટરિંગ અને વિચાર-વિમર્શ આધારિત અલાઇનમેન્ટ સહિતની પૂરક પારદર્શિતા અને સલામતી તકનીકો સાથે જોડશું, જેથી અમારા મોડલો તમામ સૂચનાઓ અને નીતિઓ (જેમ કે અમારા મોડલ સ્પેક(નવી વિન્ડોમાં ખૂલે છે))નું વિશ્વસનીય રીતે પાલન કરે અને તેમની ક્રિયાઓ વિશે સત્યતાપૂર્વક અહેવાલ આપે તે દિશામાં વધુ પ્રગતિ થઈ શકે.


