5 सितंबर 2025

क्यों लैंग्वेज मॉडल्स हैलुसीनेट करते हैं

एक एब्‍सट्रक्‍ट इमेज जिसमें टील, ब्लू और लैवेंडर के ग्रेडिएंट्स को सॉफ्ट और फ्लोइंग स्ट्रीक्‍स के साथ तिरछे तौर पर ब्लेंड किया गया है.

लोड किया जा रहा है...

OpenAI में, हम कड़ी मेहनत कर रहे हैं ताकि AI सिस्टम्स और अधिक उपयोगी और भरोसेमंद बन सकें. लैंग्वेज मॉडल्स जैसे-जैसे और केपेबल होते जा रहे हैं, एक चुनौती अभी भी पूरी तरह हल करना मुश्किल बनी हुई है: वो है हैलुसीनेशन्स. इसका मतलब उन स्थितियों से है जब मॉडल पूरा भरोसा दिखाते हुए ऐसा जवाब जनरेट करता है जो सच नहीं होता. हमारे नए रिसर्च पेपर⁠(एक नई विंडो में खुलेगा) में कहा गया है कि लैंग्वेज मॉडल्स इसलिए हैलुसीनेट करते हैं क्योंकि सामान्य ट्रेनिंग और एवल्यूएशन प्रक्रियाएं अनुमान लगाने को बढ़ावा देती हैं, जबकि अनिश्चितता को मानने को नहीं.

ChatGPT भी हैलुसीनेट करता है. GPT‑5 में हैलुसीनेशन्स काफी कम हैं, खासकर रीज़निंग करते समय⁠, लेकिन ये फिर भी हो सकते हैं. हैलुसीनेशन्स सभी बड़े लैंग्वेज मॉडल्स के लिए एक मूल चुनौती बनी हुई हैं, लेकिन हम इन्हें और कम करने के लिए कड़ी मेहनत कर रहे हैं.

हेलुसिनेशन्स क्‍या हैं?

हैलुसीनेशन्स वे बयान होते हैं जो लैंग्वेज मॉडल्स जनरेट करते हैं — जो सही लगते हैं लेकिन असल में ग़लत होते हैं. ये हैलुसीनेशन्स चौंकाने वाले तरीकों से सामने आ सकते हैं, चाहे सवाल बिल्कुल आसान ही क्यों न लगे. उदाहरण के लिए, जब हमने एक पॉपुलर चैटबॉट से Adam Tauman Kalai (जो इस पेपर के लेखक हैं) की पीएचडी डिसर्टेशन का टाइटल पूछा, तो उसने पूरे भरोसे के साथ तीन अलग-अलग जवाब दिए — और तीनों ही ग़लत थे. जब हमने उनकी बर्थडे पूछी, तो चैटबॉट ने तीन अलग-अलग डेट्स बताईं — और तीनों ही ग़लत थीं.

टेस्ट के लिए सिखाना

हैलुसीनेशन्स इसलिए भी बने रहते हैं क्योंकि मौजूदा एवल्यूएशन मेथड्स ग़लत तरह के इंसेंटिव्स सेट करते हैं. एवल्यूएशन खुद हैलुसीनेशन का कारण नहीं होते, लेकिन ज़्यादातर एवल्यूएशन मॉडल की परफॉर्मेंस को ऐसे मापते हैं जिससे मॉडल गेस करने लगे, बजाय अनसर्टेन्टी को ईमानदारी से बताने के.

इसे ऐसे सोचें जैसे मल्टीपल-चॉइस टेस्ट. अगर आपको जवाब नहीं पता, लेकिन बस अंदाज़ा लगाओ, तो कभी-कभी किस्मत से सही भी निकल सकता है. खाली छोड़ने पर पक्का जीरो मिलेगा. उसी तरह, जब मॉडल्स को सिर्फ़ एक्युरेसी, यानी कितने सवाल बिल्कुल सही किए, पर ग्रेड किया जाता है, तो उन्हें गेस करने की आदत पड़ती है बजाय इसके कि वे कहें “मुझे नहीं पता.

एक और उदाहरण लीजिए: मान लीजिए किसी लैंग्वेज मॉडल से किसी का बर्थडे पूछा गया, लेकिन उसे पता नहीं है. अगर वो गेस करके बोले “10 सितम्बर,” तो 365 में से 1 बार सही होने का चांस है. “मुझे नहीं पता” कहने पर पक्का जीरो पॉइंट्स मिलेंगे. हज़ारों टेस्ट क्वेश्चन्स में, गेस करने वाला मॉडल स्कोरबोर्ड पर ज़्यादा अच्छा दिखता है बनिस्बत उस मॉडल के, जो ईमानदारी से अनसर्टेन्टी मान लेता है.

जिन सवालों का सिर्फ़ एक “सही जवाब” होता है, वहाँ जवाब तीन तरह के हो सकते हैं: सही जवाब, ग़लतियाँ, और अब्सटेंशन मतलब जब मॉडल गेस करने की कोशिश ही न करे. अब्सटेन करना (यानी “नहीं पता” कहना) ह्यूमिलिटी का हिस्सा है, जो OpenAI की कोर वैल्यूज़⁠ में से एक है. ज़्यादातर स्कोरबोर्ड्स मॉडल्स को एक्युरेसी के आधार पर रैंक करते हैं, लेकिन असली में ग़लतियाँ अब्सटेंशन से ज़्यादा बुरी होती हैं. हमारी मॉडल Spec⁠(एक नई विंडो में खुलेगा) कहती है कि अगर अनसर्टेन्टी है तो उसे दिखाना या क्लैरिफिकेशन माँगना बेहतर है, बजाय इसके कि कॉन्फिडेंस के साथ ग़लत जानकारी दी जाए.

एक ठोस उदाहरण के लिए, GPT‑5 System Card से SimpleQA eval⁠(एक नई विंडो में खुलेगा) को एक उदाहरण के तौर पर मानें.

मीट्रिक	gpt-5-thinking-mini	OpenAI o4-mini
एब्‍सटेंशन रेट (कोई विशेष जवाब नहीं दिया गया)	52%	1%
एक्यूरेसी रेट (सही जवाब, जितना अधिक होगा उतना बेहतर होगा)	22%	24%
एरर रेट (ग़लत जवाब, कम बेहतर है)	26%	75%
कुल	100%	100%

एक्युरेसी के मामले में, पुराना OpenAI o4-mini मॉडल थोड़ा बेहतर प्रदर्शन करता है. हालांकि इसकी एरर रेट (यानी हैलुसीनेशन रेट) काफ़ी ज़्यादा है. अनसर्टेन होने पर स्ट्रैटेजिक गेस करने से एक्युरेसी बढ़ती है, लेकिन ग़लतियाँ और हैलुसीनेशन्स भी बढ़ जाते हैं.

जब दर्जनों एवल्यूएशन्स के रिज़ल्ट्स को एवरेज किया जाता है, तो ज़्यादातर बेंचमार्क्स सिर्फ़ एक्युरेसी मेट्रिक को देखते हैं, लेकिन इससे सही और ग़लत के बीच एक ग़लत द्वैधता बन जाती है. SimpleQA जैसे आसान एवल्यूएशन्स में, कुछ मॉडल्स लगभग 100% एक्युरेसी पा लेते हैं और इस तरह हैलुसीनेशन्स को खत्म कर देते हैं. हालांकि मुश्किल एवल्यूएशन्स और असली इस्तेमाल में, एक्युरेसी 100% से ऊपर नहीं जा सकती, क्योंकि कुछ सवाल ऐसे होते हैं जिनके जवाब अलग-अलग रीज़न से नहीं पता किए जा सकते जैसे जानकारी उपलब्ध न होना, छोटे मॉडल्स की सोचने की सीमित क्षमता, या अस्पष्टताएँ जिन्हें क्लैरिफ़ाई करना ज़रूरी है.

फिर भी, सिर्फ़ एक्युरेसी वाले स्कोरबोर्ड्स ही लीडरबोर्ड्स और मॉडल कार्ड्स पर छाए रहते हैं, जिससे डेवलपर्स ऐसे मॉडल बनाते हैं जो गेस करें बजाय रोकने के. यही एक रीज़न है कि मॉडल्स चाहे और एडवांस हो जाएँ, फिर भी वे हैलुसीनेट कर सकते हैं, पूरी कॉन्फिडेंस के साथ ग़लत जवाब दें बजाय इसके कि वे अनसर्टेन्टी को मानें.

एवल्यूएशन्स को ग्रेड करने का बेहतर तरीका

इसका एक सरल समाधान है. पूरी कॉन्फिडेंस के साथ की गई ग़लतियों को अनसर्टेन्टी दिखाने की तुलना में ज्यादा पेनल्टी दें, और अनसर्टेन्टी को सही तरीके से व्यक्त करने पर आंशिक क्रेडिट दें. ये आईडिया नया नहीं है. कुछ स्टैण्डर्डाइज्ड टेस्ट्स लंबे समय से ग़लत जवाबों पर नेगेटिव मार्किंग या खाली छोड़ने पर आंशिक क्रेडिट का इस्तेमाल करते आए हैं, ताकि अंधाधुंध अनुमान लगाने से बचा जा सके. कई रिसर्च ग्रुप्स ने ऐसे एवल्यूएशन्स को भी एक्स्प्लोर किया है जो अनसर्टेन्टी और कैलिब्रेशन को ध्यान में रखते हैं.

हमारा पॉइंट थोड़ाअलग है. बस कुछ नए अनसर्टेन्टी-एवेयर टेस्ट्स जोड़ना ही काफी नहीं है. जो आमतौर पर इस्तेमाल होने वाले एक्‍यूरेसी-आधारित टेस्ट्स हैं, उन्हें अपडेट करना चाहिए ताकि उनका स्कोरिंग गेसिंग को कम प्रोत्साहित करे. अगर मुख्य स्कोरबोर्ड्स लकी गेस को इनाम देते रहें, तो मॉडल्स भी बस गेस करना सीखते रहेंगे. स्कोरबोर्ड्स को सही करना हैलुसीनेशन-रिडक्शन तकनीकों के इस्तेमाल को बढ़ा सकता है, चाहे वे नई हों या पहले के रिसर्च की हों.

हैलुसीनेशन्स अगला शब्द प्रेडिक्शन से कैसे पैदा होते हैं

हमने बात की कि हैलुसीनेशन्स हटाना क्यों मुश्किल है, लेकिन ये बेहद खास और ग़लत फैक्ट्स सबसे पहले कहाँ से आते हैं? आखिरकार, बड़े प्रीट्रेंड मॉडल्स शायद ही कभी अन्य तरह की ग़लतियाँ करते हैं, जैसे स्पेलिंग मिस्टेक्स या पैरेंथेसिस का मेल न होना. फर्क इस बात से है कि डेटा में किस तरह के पैटर्न मौजूद हैं.

लैंग्वेज मॉडल्स सबसे पहले प्रीट्रेनिंग के जरिए सीखते हैं, जो बहुत बड़े टेक्स्ट में अगले शब्द की भविष्यवाणी करने की प्रक्रिया है. पारंपरिक मशीन लर्निंग प्रॉब्लम्स के उलट, हर स्टेटमेंट के साथ कोई “सही/ग़लत” लेबल नहीं जुड़े होते. मॉडल को सिर्फ़ फ्लुएंट भाषा के पॉज़िटिव उदाहरण दिखाए जाते हैं और उसे पूरी भाषा के वितरण का अंदाज़ा लगाना पड़ता है.

जब आपके पास कोई ग़लत उदाहरण लेबल नहीं होते, तब सही और ग़लत स्टेटमेंट्स में फर्क करना दोगुना मुश्किल हो जाता है. लेकिन लेबल्स होने के बावजूद, कुछ ग़लतियाँ तो अनिवार्य हैं. समझने के लिए, एक आसान उदाहरण सोचें. इमेज रिकग्निशन में, अगर लाखों बिल्ली और कुत्ते की इमेज को “बिल्ली” या “कुत्ता” लेबल किया गया है, तो एल्गोरिदम उन्हें भरोसेमंद तरीके से क्लासिफ़ाई करना सीख सकते हैं. लेकिन सोचिएअगर हर पालतू की फोटो को उसके जन्मदिन के हिसाब से लेबल किया जाए. चूंकि जन्मदिन असल में रैंडम होते हैं, यह टास्क हमेशा ग़लतियाँ देगा, चाहे एल्गोरिदम कितना भी एडवांस क्यों न हो.

यही सिद्धांत प्रीट्रेनिंग में भी लागू होता है. स्पेलिंग और पैरेंथेसिस में पैटर्न कॉन्सिस्टेंट होते हैं, इसलिए बड़े पैमाने पर ये ग़लतियाँ गायब हो जाती हैं. लेकिन कम-आने वाले फैक्ट्स, जैसे किसी पालतू का जन्मदिन, सिर्फ़ पैटर्न से नहीं बताए जा सकते और इसलिए ये हैलुसीनेशन्स पैदा करते हैं. हमारा विश्लेषण बताता है कि अगले शब्द की भविष्यवाणी से किस तरह की हैलुसीनेशन्स बननी चाहिए. आदर्श रूप में, प्रीट्रेनिंग के बाद के स्टेज उन्हें हटा देना चाहिए, लेकिन यह पूरी तरह सफल नहीं होता, जैसे पिछले सेक्शन में बताया गया.

निष्कर्ष

हमें उम्मीद है कि हमारे पेपर में दिया गया स्टैटिस्टिकल दृष्टिकोण हैलुसीनेशन्स की प्रकृति को स्पष्ट करेगा और आम ग़लतफहमियों को दूर करेगा:

दावा: हैलुसीनेशन्स सिर्फ़ एक्युरेसी बेहतर करने पर खत्म होंगे, क्योंकि 100% सही मॉडल कभी हैलुसीनेट नहीं करता है.

निष्‍कर्ष: एक्युरेसी कभी 100% नहीं पहुँच पाएगी क्योंकि मॉडल का साइज, सर्च या रीज़निंग क्षमता चाहे जैसी भी हो, कुछ रियल-वर्ल्ड सवाल अपने आप में जवाब न देने योग्य होते हैं.
दावा: हैलुसीनेशन्स अनिवार्य हैं.

निष्‍कर्ष: ऐसा नहीं है, क्योंकि लैंग्वेज मॉडल्स अनसर्टेन होने पर “नहीं पता” कह सकते हैं.
दावा: हैलुसीनेशन्स से बचने के लिए एक तरह की इंटेलिजेंस चाहिए, जो सिर्फ़ बड़े मॉडल्स में ही संभव है.

निष्‍कर्ष: छोटे मॉडल के लिए अपनी सीमाएँ जानना आसान हो सकता है. उदाहरण के लिए, जब कोई माओरी भाषा का सवाल पूछा जाता है, तो एक छोटा मॉडल जिसे माओरी नहीं आती वो आसानी से कह सकता है "मुझे नहीं पता" जबकि एक मॉडल जो कुछ माओरी जानता है उसे अपने यकीन का फ़ैसला करना पड़ता है. पेपर में चर्चा के अनुसार, “कैलिब्रेटेड” होना सही होने से कहीं कम कंप्यूटेशन लेता है.
दावा: हैलुसीनेशन्स आधुनिक लैंग्वेज मॉडल्स में एक रहस्यमय गड़बड़ी हैं.

निष्‍कर्ष: हम समझते हैं कि हैलुसीनेशन्स किस सांख्यिकीय तरीके से पैदा होते हैं और एवल्यूएशन्स में इन्हें कैसे इनाम मिलता है.
दावा: हैलुसीनेशन्स को मापने के लिए हमें सिर्फ़ एक अच्छा हैलुसीनेशन एवल्यूएशन चाहिए.

निष्‍कर्ष: हैलुसीनेशन एवल्यूएशन्स पब्लिश हो चुके हैं. हालांकि, एक अच्छा हैलुसीनेशन एवल्यूएशन, सैकड़ों पारंपरिक एक्‍यूरेसी-आधारित टेस्ट्स के खिलाफ बहुत असर नहीं करता, जो ह्यूमिलिटी को दंडित करते हैं और गेसिंग को इनाम देते हैं. इसके बजाय, सभी मुख्य एवल्यूएशन मेट्रिक्स को इस तरह से बदला जाना चाहिए कि अनसर्टेन्टी दिखाने पर इनाम मिले.

हमारे नए मॉडल्स में हैलुसीनेशन रेट कम है, और हम लगातार काम कर रहे हैं ताकि हमारे भाषा मॉडल्स के ग़लत लेकिन यकीन से दिए गए जवाबों का रेट और भी कम हो सके.

घोषणा योगदानकर्ता

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel और Johannes Heidecke

पढ़ते रहें

सभी देखें

$math-breakthroughs art-card 1x1$

Ten advances in mathematics and theoretical computer science

प्रकाशन1 अगस्त 2026

दो सेटिंग्स चालू करने पर ARC-AGI-3 मानदंड में हमारा स्कोर तीन गुना कैसे हुआ

रिसर्च29 जुलाई 2026

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

कंपनी29 जुलाई 2026