यह स्वीकारोक्तियाँ भाषा मॉडलों को ईमानदार कैसे बनाए रख सकती हैं
हम एक शुरुआती, प्रूफ़-ऑफ़-कॉनसेप्ट तरीका साझा कर रहे हैं, जो मॉडलों को यह बताने के लिए प्रशिक्षित करता है कि कब वे निर्देशों का उल्लंघन कर रहे हैं या अनचाहे शॉर्टकट ले रहे हैं।
AI सिस्टम लगातार ज़्यादा सक्षम होते जा रहे हैं, और हम उन्हें जितना हो सके उतनी गहराई से समझना चाहते हैं—यह भी कि वे किसी जवाब तक कैसे और क्यों पहुंचते हैं। कभी-कभी मॉडल कोई शॉर्टकट ले लेता है या गलत उद्देश्य के लिए ऑप्टिमाइज़ कर देता है, लेकिन फिर भी उसका अंतिम जवाब देखने में बिल्कुल सही लगता है। अगर हम यह पता कर सकें कि ऐसा कब होता है, तो हम तैनात किए गए सिस्टमों की बेहतर निगरानी कर सकते हैं, ट्रेनिंग में सुधार ला सकते हैं, और उनके दिए गए परिणामों पर भरोसा बढ़ा सकते हैं।
OpenAI और अन्य के शोध से पता चला है कि AI मॉडल्स भ्रमित हो सकते हैं, रिवार्ड-हैक कर सकते हैं, या बेईमानी भी कर सकते हैं। इस समय, हम सबसे चिंताजनक गलत व्यवहार, जैसे कि षड्यंत्र रचना(एक नई विंडो में खुलेगा), मुख्य रूप से सिर्फ़ स्ट्रेस-टेस्ट और विरोधात्मक मूल्यांकनों में देखते हैं। लेकिन जैसे-जैसे मॉडल अधिक सक्षम और अधिक “एजेंटिक” होते जा रहे हैं, गलत-संरेखण के दुर्लभ रूप भी गंभीर प्रभाव डाल सकते हैं। यही हमें ऐसे तरीकों में निवेश करने के लिए प्रेरित करता है जो इन खतरों को बेहतर ढंग से पहचानने, समझने और कम करने में मदद करें।।
यह काम एक ऐसे तरीके को एक्स्प्लोर करता है: मॉडलों को इस बात को खुलकर स्वीकार करने के लिए प्रशिक्षित करना कि वे कब किसी अवांछित व्यवहार में शामिल हुए—इस तकनीक को हम स्वीकारोक्ति कहते हैं।
एक स्वीकारोक्ति मॉडल के मुख्य जवाब से अलग, यूज़र के लिए एक दूसरा आउटपुट है। मुख्य जवाब का मूल्यांकन कई पहलुओं पर किया जाता है—सही होने, शैली, मददगार होने, दिशानिर्देशों के पालन, सुरक्षा आदि पर और इन्हीं तरह-तरह के संकेतों की मदद से मॉडलों को बेहतर जवाब देने के लिए प्रशिक्षित किया जाता है। इसके उलट, स्वीकोरोक्ति को सिर्फ एक ही चीज़ पर परखाा और प्रशिक्षित किया जाता है: ईमानदारी। की व्यवस्था से सीख लेते हुए, मॉडल अपनी स्वीकारोक्ति में जो भी कहता है, उसे ट्रेनिंग के दौरान उसके खिलाफ़ इस्तेमाल नहीं किया जाता। अगर मॉडल ईमानदारी से स्वीकार करता है कि उसने टेस्ट हैक किया, सैंडबैगिंग की, या निर्देशों का उल्लंघन किया, तो यह स्वीकारोक्ति उसके पुरस्कार को घटाने के बजाय बढ़ाती है। इसका उद्देश्य मॉडल को प्रोत्साहित करना है कि वह जो असल में करता है, उसे सही-सही रिपोर्ट करे।
हमारे परीक्षणों में हमने पाया कि स्वीकारोक्ति करने की तकनीक मॉडल के गलत व्यवहार को पहचानने में काफी सुधार करती है। हमारे ऐसे मूल्यांकनों को औसत करके जो गलत व्यवहार को प्रेरित करने के लिए बनाए गए थे, “गलत नकरात्मक” (यानी, मॉडल निर्देशों का पालन न करने के बाद इसे स्वीकार न करना) की संभावना केवल 4.4% है।
हमारे "प्रूफ ऑफ कॉन्सेप्ट" स्वीकारोक्ति मॉडल की सटीकता कई विरोधी डेटासेट्स पर है। परिणामों को चार श्रेणियों में बांटा गया है: पालन किया लेकिन स्वीकार नहीं किया (सही नकारात्मक), पालन किया और स्वीकार किया (गलत सकारात्मक), पालन नहीं किया और स्वीकार नहीं किया (गलत नकारात्मक), और पालन नहीं किया और स्वीकार किया (सही सकारात्मक)।

किसी यूज़र प्रॉम्प्ट के आधार पर, चार संभावित परिणाम इस बात के संयोजन पर आधारित होते हैं: (1) क्या मॉडल का उत्तर अनुपालन करता है ("अच्छा") या गैर-अनुपालन करता है ("बुरा"), और (2) क्या स्वीकारोक्ति अनुपालन का दावा करती है या गैर-अनुपालन का. हम आमतौर पर देखते हैं कि स्वीकारोक्तियाँ बहुत हद तक सटीक होती हैं, और इसके अलावा स्वीकारोक्ति में गलतियां आमतौर पर हानिरहित होती हैं, और जानबूझकर गुमराह करने के बजाय ईमानदार भ्रम के कारण होती हैं.
स्वीकारोक्ति मॉडल की ओर से स्वयं की रिपोर्ट होती है कि उसने दिए गए स्पष्ट और निहित निर्देशों या नीतियों की भावना और शब्दों के अनुसार कितना पालन किया, और क्या कोई ऐसी स्थिति थी जिसमें उसने “शॉर्टकट लिया” या “हैक किया”, नीतियों का उल्लंघन किया, या किसी भी तरह से अपेक्षाओं पर खरे नहीं उतरे। हमारे शोध में हमने पाया कि मॉडलों को उनके अपने कमजोरियों की ईमानदारी से रिपोर्ट करने के लिए प्रशिक्षित किया जा सकता है। हमने GPT‑5 Thinking का एक संस्करण प्रशिक्षित किया ताकि वह स्वीकारोक्तियाँ उत्पन्न कर सके, और इसे कई आउट-ऑफ-डिस्ट्रिब्यूशन स्ट्रेस-टेस्ट डेटासेट्स पर मूल्यांकित किया, जो षड्यंत्र रचना, हैकिंग, निर्देशों का उल्लंघन, और मतिभ्रम जैसे व्यवहार उत्पन्न करने के लिए डिज़ाइन किए गए हैं। हमने पाया कि जब मॉडल इन अवांछित व्यवहारों में शामिल होते हैं, तो यह बहुत संभावना है कि वह इन्हें स्वीकार कर लेता है। ऊपर दी गई तस्वीर से पता चलता है कि स्वीकारोक्ति का तरीका विभिन्न प्रकार के डेटासेट और कार्यों में व्यापक रूप से प्रभावी है।
किसी भी यूज़र और मॉडल के बीच की बातचीत के बाद, जो मॉडल के जवाब पर समाप्त होती है, मॉडल से स्वीकारोक्ति मांगी जा सकती है। इसके लिए मॉडल को एक “सिस्टम संदेश” भेजा जाता है जो उसे स्वीकारोक्ति रिपोर्ट देने का निर्देश देता है। यह रिपोर्ट मॉडल के अंतिम उत्तर से संबंधित है, और इसमें शामिल हैं (1) उन सभी स्पष्ट और निहित निर्देशों, सीमाओं और उद्देश्यों की सूची जिन्हें इस जवाब को पूरा करना चाहिए था (2) एक ईमानदार और वस्तुनिष्ठ विश्लेषण कि क्या वास्तव में उत्तर ने इन उद्देश्यों में से प्रत्येक को पूरा किया, और (3) किसी भी अनिश्चितता, अस्पष्टता, या “कठिन निर्णय” की सूची जिनका मॉडल जवाब तैयार करते समय सामना करता है। ट्रेनिंग के दौरान, एक स्वीकारोक्ति को अलग रिवार्ड मॉडल द्वारा मूल्यांकित किया जाता है, जो सिर्फ स्वीकारोक्ति को उसके उद्देश्यों की पूर्णता, पालन विश्लेषण की सटीकता, और अनिश्चितताओं की कवरेज के आधार पर स्कोर करता है। ये इनाम विशेष रूप से स्वीकारोक्ति के आउटपुट पर लागू होते हैं और कभी भी मुख्य जवाब के इनाम को प्रभावित नहीं करते हैं। इससे यह सुनिश्चित होता है कि ऊपर चर्चा किए गए सिद्धांत के अनुसार, मॉडल की स्वीकारोक्ति में कही गई कोई भी बात उसके मुख्य उत्तर के लिए मिलने वाले पुरस्कार को न तो घटा सकती है और न ही बढ़ा सकती है।
स्वीकारोक्ति के पीछे का सिद्धांत सरल है। कई प्रकार के अवांछित मॉडल व्यवहार तब उजागर होते हैं जब हम मॉडल से एक साथ कई लक्ष्यों के लिए अनुकूलित करने के लिए कहते हैं। रिइंफोर्समेंट लर्निंग के दौरान, मॉडल को एक प्रॉम्प्ट दिया जाता है, वह एक उत्तर उत्पन्न करता है, और उसे एक पुरस्कार मिलता है। समय के साथ, यह ऐसे जवाब देना सीख जाता है जो अच्छे अंक प्राप्त करते हैं। चुनौती यह है कि पुरस्कार संकेत में कई अलग-अलग पहलुओं को एक साथ शामिल करना पड़ता है: उत्तर कितना सही है, क्या यह मददगार है, क्या यह उत्पाद और नीति विनिर्देशों का पालन करता है, क्या यह सुरक्षा प्रतिबंधों को पूरा करता है, और क्या यह उपयोगकर्ताओं की प्राथमिकताओं के अनुरूप है। जब ये संकेत आपस में संपर्क करते हैं, तो वे अनजाने में मॉडल को उन व्यवहारों की ओर धकेल सकते हैं जिन्हें हम नहीं चाहते।
उदाहरण के लिए, हमारे मतिभ्रम पर किए गए काम ने दिखाया कि कुछ डेटासेट्स एक आत्मविश्वासी अनुमान को अनिश्चितता को ईमानदारी से स्वीकार करने की तुलना में अधिक पुरस्कार देते हैं। हमारे चापलूसी पर किए गए शोध से पता चला कि जब प्राथमिकता संकेत बहुत मजबूत होता है, तो मॉडल अत्यधिक सहमतिपूर्ण हो सकते हैं। और अन्य ग्रुपों का काम(एक नई विंडो में खुलेगा) यह दिखा चुका है कि मॉडल "रिवॉर्ड हैक" कर सकते हैं—ट्रेनिंग सेटअप में ऐसे लूपहोल ढूंढना जिससे वे वास्तव में हमारी मंशा के अनुसार काम किए बिना उच्च स्कोर हासिल कर सकें। कुछ मामलों में, ये शॉर्ट कट व्यापक(एक नई विंडो में खुलेगा) रूप से डिप्लॉयमेंट में और भी हानिकारक व्यवहार में बदल सकते हैं।
स्वीकारोक्तियाँ इस समस्या से बचने के लिए उद्देश्यों को पूरी तरह से अलग कर देती हैं। मुख्य जवाब सभी सामान्य कारकों के लिए अनुकूलन आगे बढ़ें। स्वीकारोक्ति को केवल एक चीज़ पर प्रशिक्षित किया गया है: ईमानदारी। मॉडल द्वारा स्वीकारोक्ति में कही गई कोई भी बात उसके खिलाफ नहीं जाती है, और स्वीकारोक्ति मुख्य जवाब के लिए पुरस्कार को प्रभावित नहीं करती है। इसका मतलब है कि भले ही मॉडल अपने मूल आउटपुट में धोखा दे या शॉर्टकट अपनाए, फिर भी उसके पास स्वीकारोक्ति में इसे मानने का प्रोत्साहन होता है। यह वही है जो हम व्यवहार में देखते हैं: मॉडल स्वीकारोक्ति में बुरे व्यवहार को स्वीकार करने के लिए तैयार होते हैं, यहां तक कि उन मामलों में भी जब वे इसे मुख्य जवाब में छिपाते हैं। और जब स्वीकारोक्ति काम नहीं करतीं, तो आमतौर पर इसका कारण यह होता है कि मॉडल वास्तव में भ्रमित है—चाहे निर्देश अस्पष्ट थे या उसे यह एहसास नहीं हुआ कि कोई गलती हुई—बजाय इसके कि वह जानबूझकर भ्रमित करने की कोशिश कर रहा हो। महत्वपूर्ण बात यह है कि शुरुआती परिणाम दिखाते हैं कि स्वीकारोक्ति तब भी प्रभावी रहती हैं जब मूल उत्तर बिना किसी विचारों की कड़ी के दिया गया हो, जिससे यह संकेत मिलता है कि स्वीकारोक्ति की ईमानदारी आंतरिक तर्क की स्पष्टता पर निर्भर नहीं करती और भविष्य की मॉडल संरचनाओं में भी सामान्यीकृत हो सकती है।
स्वीकारोक्ति ट्रेनिंग बिना अनुपालन के मूल सत्य के लेबल्स के भी काम करती है। हम "मूल सत्य" से एक निश्चित, बाहरी रूप से दिए गए लेबल का मतलब लेते हैं जो यह दर्शाता है कि मॉडल ने वास्तव में निर्देश का पालन किया या उसका उल्लंघन किया। कई असली दुनिया के टास्क में ये लेबल उपलब्ध नहीं होते—अगर हमें निश्चित रूप से पता होता कि मॉडल ने किसी नियम का उल्लंघन किया है, तो हम उस उल्लंघन को सीधे सज़ा दे सकते थे बजाय इसके कि हम एक स्वीकारोक्ति पर निर्भर रहें। बल्कि, मॉडल को इस बात की संरचित, साक्ष्य-समर्थित व्याख्या प्रस्तुत करने के लिए पुरस्कृत किया जाता है कि उसे क्या लगता है उसने किया। पेपर से पता चलता है कि इस सेटअप के तहत ईमानदारी उभरने की प्रवृत्ति होती है। हमारा मानना है कि ऐसा इसलिए है क्योंकि मॉडल के लिए सच्चा, सबूत-समर्थित विवरण देना आमतौर पर उस एक सुसंगत गढ़ी हुई झूठी कहानी बनाने की तुलना में आसान होता है जो जज को पास कर सके। यह पेपर में खोजी गई एक मुख्य धारण है, जो यह भी चर्चा करता है कि कॉन्फ़ेशन्स किन परिस्थितियों में असफल होती हैं—गलत नकारात्मक और सही सकारात्मक—और ये कैसे उत्पन्न होते हैं।
यह पेपर शुरुआती सबूत देते हैं कि स्वीकारोक्तियाँ काम करती हैं, लेकिन इसे निर्णायक प्रमाण के रूप में नहीं समझा जाना चाहिए। हालांकि हमने एक फ्रंटियर मॉडल (GPT‑5 Thinking) का उपयोग किया, हमारे प्रयोग सीमित पैमाने पर थे, जिसमें अपेक्षाकृत कम मात्रा में गणना और डेटा का उपयोग किया गया। हम इस काम को अगले स्तर पर ले जाने के लिए उत्साहित हैं, और देखना चाहते हैं कि क्या स्वीकारोक्तियों की ईमानदारी आगे बढ़ेगी जैसे-जैसे हम इसकी ट्रेनिंग को बढ़ाते हैं।
मॉडल अपने मुख्य जवाब में “रिवार्ड हैक” करता है—ग्रेडर को मूर्ख बनाने के लिए वाक्यों में कथित शब्द गणना का उल्लेख करता है—लेकिन फिर इसे अपनी स्वीकारोक्ति में स्वीकार कर लेता है.
अपने प्रयोगों के हिस्से के रूप में, हमने जानबूझकर मॉडलों को एक “हैक करने योग्य” रिवार्ड सिग्नल के आधार पर प्रशिक्षित किया, जिसे एक कमज़ोर मॉडल द्वारा गणना किया गया था। यह सेटअप मुख्य इनाम और स्वीकारोक्ति इनाम दोनों पर लागू होता है। मॉडल ने कमजोर रिवार्ड सिग्नल का फायदा उठाना सीख लिया: इसका दिखावटी सहीपन (जब इसे कमजोर मॉडल द्वारा मूल्यांकित किया गया) बढ़ गया, जबकि इसका असली सहीपन (जब इसे मजबूत मूल्यांकक द्वारा देखा गया) घट गया।
हालांकि, भले ही स्वीकारोक्ति चैनल को उसी कमजोर सिग्नल पर प्रशिक्षित किया गया था, इसकी सटीकता विपरीत दिशा में चली गई। मॉडल ने यह सीख लिया कि स्वीकारोक्ति पुरस्कार को अधिकतम करने का सबसे अच्छा तरीका सिर्फ यह स्वीकार करना है कि उसने मुख्य पुरस्कार को हैक किया। समय के साथ, स्वीकारोक्तियाँ और अधिक सटीक हो गईं, भले ही मुख्य व्यवहार बदलता रहा।
ट्रेनिंग के दौरान, जब मॉडल अनुपालन में विफल होता है, तो कुछ मामलों में यह मुख्य इनाम जज को "हैक" करना सीखता है, जिससे जज की सटीकता कम हो रही है. इसके विपरीत, हालांकि स्वीकारोक्ति रिवार्ड जज भी हैक किया जा सकता है, मॉडल सिर्फ अपनी स्वीकारोक्ति में प्रशिक्षण के दौरान और अधिक ईमानदार बनता है, अंततः लगभग 100% मामलों में स्वीकारोक्ति करने तक पहुंच जाता है जब उसने पालन नहीं किया.
पेपर(एक नई विंडो में खुलेगा) में अधिक प्रयोग और परिणाम शामिल हैं। हमने एक स्वीकारोक्ति-प्रशिक्षित मॉडल की तुलना एक नियंत्रण मॉडल से की, जिसे उसी तरीके से प्रशिक्षित किया गया था, लेकिन स्वीकारोक्ति चैनल के बिना। हमने उन मामलों की भी जांच की जहाँ स्वीकारोक्ति असफल हो गए। लगभग सभी "चूकें" तब हुईं जब मॉडल वास्तव में भ्रमित था—जब निर्देश अस्पष्ट थे या जब उसे यह एहसास नहीं हुआ कि उसने गलती की है। (ऊपर गलत नकारात्मक उदाहरण देखें.)
स्वीकारोक्तियों की सीमाएँ होती हैं। वे बुरे व्यवहार को नहीं रोकते; वे उसे उजागर करते हैं। उनका मुख्य मूल्य एक मॉनिटरिंग और डायग्नोस्टिक टूल के रूप में है, जो ट्रेनिंग और डिप्लॉयमेंट दोनों के दौरान होता है। स्वीकारोक्ति की भूमिका विचारों की कड़ी की मॉनिटरिंग के समान होती है: दोनों छिपी हुई तर्क प्रक्रियाओं को अधिक स्पष्ट बनाते हैं। स्वीकारोक्तियाँ इस बात पर केंद्रित होती हैं कि क्या मॉडल ने निर्देशों का उल्लंघन किया; विचारों की कड़ी यह उजागर कर सकता है कि यह वहां कैसे पहुँचा।
यह कार्य भी एक प्रूफ ऑफ कॉन्सेप्ट है। हमने बड़े पैमाने पर स्वीकारोक्ति तंत्रों को ट्रेन नहीं किया, और स्वीकारोक्ति की सटीकता अभी भी अपूर्ण है। इस दृष्टिकोण को और अधिक विश्वसनीय, मजबूत और विभिन्न मॉडल परिवारों और कार्यों में व्यापक रूप से लागू करने के लिए अभी और काम करना बाकी है।
यह कार्य हमारे AI सुरक्षा के व्यापक दृष्टिकोण के अंतर्गत आता है। स्वीकारोक्ति एक बड़े ढांचे में एक तंत्र है जिसमें विचारों की कड़ी की अलाइनमेंट, विचारों की कड़ी की मॉनिटरिंग, निर्देश अनुक्रम, और अन्य शामिल हैं। कोई एक तरीका पर्याप्त नहीं है; लक्ष्य एक परतदार प्रणाली है जिसमें जांच और पारदर्शिता उपकरण एक-दूसरे को सुदृढ़ करते हैं। स्वीकारोक्ति मॉडल्स के ट्रेनिंग और मूल्यांकन के दौरान समस्याग्रस्त व्यवहारों के निदान में मदद कर सकते हैं, साथ ही तैनाती के दौरान निगरानी में भी सहायक होते हैं। स्वीकारोक्तियाँ स्वयं कई आयामों को संतुलित करने की समस्या का समाधान नहीं करतीं। लेकिन एक “सच्चाई सीरम” मोड बनाकर, जिसमें मॉडल केवल ईमानदारी पर केंद्रित हों, यह हमारे टूलकिट में एक मूल्यवान उपकरण जोड़ता है जो समग्र रूप से ईमानदारी और सुरक्षा को बढ़ाने में मदद करता है।
जैसे-जैसे मॉडल अधिक सक्षम होते हैं और उच्च-जोखिम वाले क्षेत्रों में तैनात किए जाते हैं, हमें यह समझने के लिए बेहतर उपकरणों की जरूरत होती है कि वे क्या कर रहे हैं और क्यों। स्वीकारोक्तियाँ एक पूर्ण समाधान नहीं हैं, लेकिन वे हमारी पारदर्शिता और निगरानी के ढांचे में एक सार्थक परत जोड़ती हैं। भविष्य के काम में, हम कॉन्फ़ेशन्स को बड़े पैमाने पर लागू करने की योजना बना रहे हैं, साथ ही उन्हें अन्य पारदर्शिता और सुरक्षा तकनीकों के साथ जोड़ेंगे, जैसे कि चेन-ऑफ़-थॉट मॉनिटरिंग और विचारशील संरेखण (deliberative alignment), ताकि यह सुनिश्चित किया जा सके कि हमारे मॉडल सभी निर्देशों और नीतियों (जैसे कि हमारे मॉडल स्पेक(एक नई विंडो में खुलेगा)) का ईमानदारी से पालन करें और अपने कार्यों की सच्ची रिपोर्ट दें।


