स्किप करके मेन कंटेंट पर जाऍं
OpenAI

क्यों लैंग्वेज मॉडल्स हैलुसीनेट करते हैं

एक एब्‍सट्रक्‍ट इमेज जिसमें टील, ब्लू और लैवेंडर के ग्रेडिएंट्स को सॉफ्ट और फ्लोइंग स्ट्रीक्‍स के साथ तिरछे तौर पर ब्लेंड किया गया है.
लोड किया जा रहा है...

OpenAI में, हम कड़ी मेहनत कर रहे हैं ताकि AI सिस्टम्स और अधिक उपयोगी और भरोसेमंद बन सकें. लैंग्वेज मॉडल्स जैसे-जैसे और केपेबल होते जा रहे हैं, एक चुनौती अभी भी पूरी तरह हल करना मुश्किल बनी हुई है: वो है हैलुसीनेशन्स. इसका मतलब उन स्थितियों से है जब मॉडल पूरा भरोसा दिखाते हुए ऐसा जवाब जनरेट करता है जो सच नहीं होता. हमारे नए रिसर्च पेपर(एक नई विंडो में खुलेगा) में कहा गया है कि लैंग्वेज मॉडल्स इसलिए हैलुसीनेट करते हैं क्योंकि सामान्य ट्रेनिंग और एवल्यूएशन प्रक्रियाएं अनुमान लगाने को बढ़ावा देती हैं, जबकि अनिश्चितता को मानने को नहीं.

ChatGPT भी हैलुसीनेट करता है. GPT‑5 में हैलुसीनेशन्स काफी कम हैं, खासकर रीज़निंग करते समय, लेकिन ये फिर भी हो सकते हैं. हैलुसीनेशन्स सभी बड़े लैंग्वेज मॉडल्स के लिए एक मूल चुनौती बनी हुई हैं, लेकिन हम इन्हें और कम करने के लिए कड़ी मेहनत कर रहे हैं.

हेलुसिनेशन्स क्‍या हैं?

हैलुसीनेशन्स वे बयान होते हैं जो लैंग्वेज मॉडल्स जनरेट करते हैं — जो सही लगते हैं लेकिन असल में ग़लत होते हैं. ये हैलुसीनेशन्स चौंकाने वाले तरीकों से सामने आ सकते हैं, चाहे सवाल बिल्कुल आसान ही क्यों न लगे. उदाहरण के लिए, जब हमने एक पॉपुलर चैटबॉट से Adam Tauman Kalai (जो इस पेपर के लेखक हैं) की पीएचडी डिसर्टेशन का टाइटल पूछा, तो उसने पूरे भरोसे के साथ तीन अलग-अलग जवाब दिए — और तीनों ही ग़लत थे. जब हमने उनकी बर्थडे पूछी, तो चैटबॉट ने तीन अलग-अलग डेट्स बताईं — और तीनों ही ग़लत थीं. 

टेस्ट के लिए सिखाना

हैलुसीनेशन्स इसलिए भी बने रहते हैं क्योंकि मौजूदा एवल्यूएशन मेथड्स ग़लत तरह के इंसेंटिव्स सेट करते हैं. एवल्यूएशन खुद हैलुसीनेशन का कारण नहीं होते, लेकिन ज़्यादातर एवल्यूएशन मॉडल की परफॉर्मेंस को ऐसे मापते हैं जिससे मॉडल गेस करने लगे, बजाय अनसर्टेन्टी को ईमानदारी से बताने के.

इसे ऐसे सोचें जैसे मल्टीपल-चॉइस टेस्ट. अगर आपको जवाब नहीं पता, लेकिन बस अंदाज़ा लगाओ, तो कभी-कभी किस्मत से सही भी निकल सकता है. खाली छोड़ने पर पक्का जीरो मिलेगा. उसी तरह, जब मॉडल्स को सिर्फ़ एक्युरेसी, यानी कितने सवाल बिल्कुल सही किए, पर ग्रेड किया जाता है, तो उन्हें गेस करने की आदत पड़ती है बजाय इसके कि वे कहें “मुझे नहीं पता.

एक और उदाहरण लीजिए: मान लीजिए किसी लैंग्वेज मॉडल से किसी का बर्थडे पूछा गया, लेकिन उसे पता नहीं है. अगर वो गेस करके बोले “10 सितम्बर,” तो 365 में से 1 बार सही होने का चांस है. “मुझे नहीं पता” कहने पर पक्का जीरो पॉइंट्स मिलेंगे. हज़ारों टेस्ट क्वेश्चन्स में, गेस करने वाला मॉडल स्कोरबोर्ड पर ज़्यादा अच्छा दिखता है बनिस्बत उस मॉडल के, जो ईमानदारी से अनसर्टेन्टी मान लेता है.

जिन सवालों का सिर्फ़ एक “सही जवाब” होता है, वहाँ जवाब तीन तरह के हो सकते हैं: सही जवाब, ग़लतियाँ, और अब्सटेंशन मतलब जब मॉडल गेस करने की कोशिश ही न करे. अब्सटेन करना (यानी “नहीं पता” कहना) ह्यूमिलिटी का हिस्सा है, जो OpenAI की कोर वैल्यूज़ में से एक है. ज़्यादातर स्कोरबोर्ड्स मॉडल्स को एक्युरेसी के आधार पर रैंक करते हैं, लेकिन असली में ग़लतियाँ अब्सटेंशन से ज़्यादा बुरी होती हैं. हमारी मॉडल Spec(एक नई विंडो में खुलेगा) कहती है कि अगर अनसर्टेन्टी है तो उसे दिखाना या क्लैरिफिकेशन माँगना बेहतर है, बजाय इसके कि कॉन्फिडेंस के साथ ग़लत जानकारी दी जाए. 

एक ठोस उदाहरण के लिए, GPT‑5 System Card से SimpleQA eval(एक नई विंडो में खुलेगा) को एक उदाहरण के तौर पर मानें.

मीट्रिक

gpt-5-thinking-mini

OpenAI o4-mini

एब्‍सटेंशन रेट
(कोई विशेष जवाब नहीं दिया गया) 

52%

1%

एक्यूरेसी रेट
(सही जवाब, जितना अधिक होगा उतना बेहतर होगा)

22%

24%

एरर रेट
(ग़लत जवाब, कम बेहतर है)

26%

75%

कुल

100%

100%

एक्युरेसी के मामले में, पुराना OpenAI o4-mini मॉडल थोड़ा बेहतर प्रदर्शन करता है. हालांकि इसकी एरर रेट (यानी हैलुसीनेशन रेट) काफ़ी ज़्यादा है. अनसर्टेन होने पर स्ट्रैटेजिक गेस करने से एक्युरेसी बढ़ती है, लेकिन ग़लतियाँ और हैलुसीनेशन्स भी बढ़ जाते हैं. 

जब दर्जनों एवल्यूएशन्स के रिज़ल्ट्स को एवरेज किया जाता है, तो ज़्यादातर बेंचमार्क्स सिर्फ़ एक्युरेसी मेट्रिक को देखते हैं, लेकिन इससे सही और ग़लत के बीच एक ग़लत द्वैधता बन जाती है. SimpleQA जैसे आसान एवल्यूएशन्स में, कुछ मॉडल्स लगभग 100% एक्युरेसी पा लेते हैं और इस तरह हैलुसीनेशन्स को खत्म कर देते हैं. हालांकि मुश्किल एवल्यूएशन्स और असली इस्तेमाल में, एक्युरेसी 100% से ऊपर नहीं जा सकती, क्योंकि कुछ सवाल ऐसे होते हैं जिनके जवाब अलग-अलग रीज़न से नहीं पता किए जा सकते जैसे जानकारी उपलब्ध न होना, छोटे मॉडल्स की सोचने की सीमित क्षमता, या अस्पष्टताएँ जिन्हें क्लैरिफ़ाई करना ज़रूरी है.

फिर भी, सिर्फ़ एक्युरेसी वाले स्कोरबोर्ड्स ही लीडरबोर्ड्स और मॉडल कार्ड्स पर छाए रहते हैं, जिससे डेवलपर्स ऐसे मॉडल बनाते हैं जो गेस करें बजाय रोकने के. यही एक रीज़न है कि मॉडल्स चाहे और एडवांस हो जाएँ, फिर भी वे हैलुसीनेट कर सकते हैं, पूरी कॉन्फिडेंस के साथ ग़लत जवाब दें बजाय इसके कि वे अनसर्टेन्टी को मानें.

एवल्यूएशन्स को ग्रेड करने का बेहतर तरीका

इसका एक सरल समाधान है. पूरी कॉन्फिडेंस के साथ की गई ग़लतियों को अनसर्टेन्टी दिखाने की तुलना में ज्यादा पेनल्टी दें, और अनसर्टेन्टी को सही तरीके से व्यक्त करने पर आंशिक क्रेडिट दें. ये आईडिया नया नहीं है. कुछ स्टैण्डर्डाइज्ड टेस्ट्स लंबे समय से ग़लत जवाबों पर नेगेटिव मार्किंग या खाली छोड़ने पर आंशिक क्रेडिट का इस्तेमाल करते आए हैं, ताकि अंधाधुंध अनुमान लगाने से बचा जा सके. कई रिसर्च ग्रुप्स ने ऐसे एवल्यूएशन्स को भी एक्स्प्लोर किया है जो अनसर्टेन्टी और कैलिब्रेशन को ध्यान में रखते हैं.

हमारा पॉइंट थोड़ाअलग है. बस कुछ नए अनसर्टेन्टी-एवेयर टेस्ट्स जोड़ना ही काफी नहीं है. जो आमतौर पर इस्तेमाल होने वाले एक्‍यूरेसी-आधारित टेस्ट्स हैं, उन्हें अपडेट करना चाहिए ताकि उनका स्कोरिंग गेसिंग को कम प्रोत्साहित करे. अगर मुख्य स्कोरबोर्ड्स लकी गेस को इनाम देते रहें, तो मॉडल्स भी बस गेस करना सीखते रहेंगे. स्कोरबोर्ड्स को सही करना हैलुसीनेशन-रिडक्शन तकनीकों के इस्तेमाल को बढ़ा सकता है, चाहे वे नई हों या पहले के रिसर्च की हों.

हैलुसीनेशन्स अगला शब्द प्रेडिक्शन से कैसे पैदा होते हैं

हमने बात की कि हैलुसीनेशन्स हटाना क्यों मुश्किल है, लेकिन ये बेहद खास और ग़लत फैक्ट्स सबसे पहले कहाँ से आते हैं? आखिरकार, बड़े प्रीट्रेंड मॉडल्स शायद ही कभी अन्य तरह की ग़लतियाँ करते हैं, जैसे स्पेलिंग मिस्टेक्स या पैरेंथेसिस का मेल न होना. फर्क इस बात से है कि डेटा में किस तरह के पैटर्न मौजूद हैं.

लैंग्वेज मॉडल्स सबसे पहले प्रीट्रेनिंग के जरिए सीखते हैं, जो बहुत बड़े टेक्स्ट में अगले शब्द की भविष्यवाणी करने की प्रक्रिया है. पारंपरिक मशीन लर्निंग प्रॉब्लम्स के उलट, हर स्टेटमेंट के साथ कोई “सही/ग़लत” लेबल नहीं जुड़े होते. मॉडल को सिर्फ़ फ्लुएंट भाषा के पॉज़िटिव उदाहरण दिखाए जाते हैं और उसे पूरी भाषा के वितरण का अंदाज़ा लगाना पड़ता है. 

जब आपके पास कोई ग़लत उदाहरण लेबल नहीं होते, तब सही और ग़लत स्टेटमेंट्स में फर्क करना दोगुना मुश्किल हो जाता है. लेकिन लेबल्स होने के बावजूद, कुछ ग़लतियाँ तो अनिवार्य हैं. समझने के लिए, एक आसान उदाहरण सोचें. इमेज रिकग्निशन में, अगर लाखों बिल्ली और कुत्ते की इमेज को “बिल्ली” या “कुत्ता” लेबल किया गया है, तो एल्गोरिदम उन्हें भरोसेमंद तरीके से क्लासिफ़ाई करना सीख सकते हैं. लेकिन सोचिएअगर हर पालतू की फोटो को उसके जन्मदिन के हिसाब से लेबल किया जाए. चूंकि जन्मदिन असल में रैंडम होते हैं, यह टास्क हमेशा ग़लतियाँ देगा, चाहे एल्गोरिदम कितना भी एडवांस क्यों न हो.

यही सिद्धांत प्रीट्रेनिंग में भी लागू होता है. स्पेलिंग और पैरेंथेसिस में पैटर्न कॉन्सिस्टेंट होते हैं, इसलिए बड़े पैमाने पर ये ग़लतियाँ गायब हो जाती हैं. लेकिन कम-आने वाले फैक्ट्स, जैसे किसी पालतू का जन्मदिन, सिर्फ़ पैटर्न से नहीं बताए जा सकते और इसलिए ये हैलुसीनेशन्स पैदा करते हैं. हमारा विश्लेषण बताता है कि अगले शब्द की भविष्यवाणी से किस तरह की हैलुसीनेशन्स बननी चाहिए. आदर्श रूप में, प्रीट्रेनिंग के बाद के स्टेज उन्हें हटा देना चाहिए, लेकिन यह पूरी तरह सफल नहीं होता, जैसे पिछले सेक्शन में बताया गया. 

निष्कर्ष

हमें उम्मीद है कि हमारे पेपर में दिया गया स्टैटिस्टिकल दृष्टिकोण हैलुसीनेशन्स की प्रकृति को स्पष्ट करेगा और आम ग़लतफहमियों को दूर करेगा:

  • दावा: हैलुसीनेशन्स सिर्फ़ एक्युरेसी बेहतर करने पर खत्म होंगे, क्योंकि 100% सही मॉडल कभी हैलुसीनेट नहीं करता है.

    निष्‍कर्ष:
    एक्युरेसी कभी 100% नहीं पहुँच पाएगी क्योंकि मॉडल का साइज, सर्च या रीज़निंग क्षमता चाहे जैसी भी हो, कुछ रियल-वर्ल्ड सवाल अपने आप में जवाब न देने योग्य होते हैं. 
  • दावा: हैलुसीनेशन्स अनिवार्य हैं.

    निष्‍कर्ष:
    ऐसा नहीं है, क्योंकि लैंग्वेज मॉडल्स अनसर्टेन होने पर “नहीं पता” कह सकते हैं.
  • दावा: हैलुसीनेशन्स से बचने के लिए एक तरह की इंटेलिजेंस चाहिए, जो सिर्फ़ बड़े मॉडल्स में ही संभव है.

    निष्‍कर्ष:
    छोटे मॉडल के लिए अपनी सीमाएँ जानना आसान हो सकता है. उदाहरण के लिए, जब कोई माओरी भाषा का सवाल पूछा जाता है, तो एक छोटा मॉडल जिसे माओरी नहीं आती वो आसानी से कह सकता है "मुझे नहीं पता" जबकि एक मॉडल जो कुछ माओरी जानता है उसे अपने यकीन का फ़ैसला करना पड़ता है. पेपर में चर्चा के अनुसार, “कैलिब्रेटेड” होना सही होने से कहीं कम कंप्यूटेशन लेता है.
  • दावा: हैलुसीनेशन्स आधुनिक लैंग्वेज मॉडल्स में एक रहस्यमय गड़बड़ी हैं.

    निष्‍कर्ष:
    हम समझते हैं कि हैलुसीनेशन्स किस सांख्यिकीय तरीके से पैदा होते हैं और एवल्यूएशन्स में इन्हें कैसे इनाम मिलता है.
  • दावा: हैलुसीनेशन्स को मापने के लिए हमें सिर्फ़ एक अच्छा हैलुसीनेशन एवल्यूएशन चाहिए.

    निष्‍कर्ष:
    हैलुसीनेशन एवल्यूएशन्स पब्लिश हो चुके हैं. हालांकि, एक अच्छा हैलुसीनेशन एवल्यूएशन, सैकड़ों पारंपरिक एक्‍यूरेसी-आधारित टेस्ट्स के खिलाफ बहुत असर नहीं करता, जो ह्यूमिलिटी को दंडित करते हैं और गेसिंग को इनाम देते हैं. इसके बजाय, सभी मुख्य एवल्यूएशन मेट्रिक्स को इस तरह से बदला जाना चाहिए कि अनसर्टेन्टी दिखाने पर इनाम मिले.

हमारे नए मॉडल्स में हैलुसीनेशन रेट कम है, और हम लगातार काम कर रहे हैं ताकि हमारे भाषा मॉडल्स के ग़लत लेकिन यकीन से दिए गए जवाबों का रेट और भी कम हो सके.

घोषणा योगदानकर्ता

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel और Johannes Heidecke