गॉब्लिन्स कुठून आले
GPT‑5.1 पासून, आमच्या मॉडेल्सना एक विचित्र सवय लागली: ते त्यांच्या रूपकांमध्ये अधिकाधिक गॉब्लिन्स, ग्रेम्लिन्स आणि इतर क्रिएचरचा उल्लेख करू लागले. मॉडेलमधील अशा त्रुटींप्रमाणे, ज्या मूल्यांकनात मोठी घसरण किंवा प्रशिक्षण मेट्रिकमध्ये अचानक वाढ झाल्याने दिसून येतात आणि एखाद्या विशिष्ट बदलाकडे निर्देश करतात, ही त्रुटी मात्र अगदी हळूवारपणे शिरली. उत्तरामधील एखादा “छोटासा गॉब्लिन” निरुपद्रवी, किंबहुना मोहकही वाटू शकत होता. मात्र, मॉडेल्सच्या अनेक जनरेशन्समध्ये ही सवय सहजासहजी लक्षात येण्यासारखी झाली: हे गॉब्लिन्स वाढतच गेले आणि ते कुठून आले हे आम्हाला शोधून काढण्याची गरज होती.

सुरुवातीच्या चाचणीत, Codex मधील GPT‑5.5 ने गॉब्लिन रूपकांबद्दल विचित्र आकर्षण दाखवले.
थोडक्यात उत्तर असे आहे की मॉडेलचे वर्तन अनेक लहान-लहान प्रोत्साहनांमुळे आकार घेत असते. या प्रकरणात, त्या प्रोत्साहनांपैकी एक व्यक्तिमत्त्व सानुकूलन वैशिष्ट्यासाठी(नवीन विंडोमध्ये उघडेल) मॉडेलला प्रशिक्षण देण्यामुळे आले, विशेषतः Nerdy व्यक्तिमत्त्वासाठी. आम्ही नकळत प्राण्यांशी संबंधित रूपकांना विशेषतः जास्त बक्षिसे दिली. तिथून, गॉब्लिन्स पसरले.

सुरुवातीला गॉब्लिन्स मजेशीर वाटले, पण कर्मचाऱ्यांकडून येणाऱ्या वाढत्या अहवालांची संख्या चिंताजनक बनली.

आमच्या मुख्य शास्त्रज्ञांचा GPT‑5.5 सोबत झालेला एक मनोरंजक संवाद.
हा पॅटर्न आम्हाला प्रथम स्पष्टपणे नोव्हेंबरमध्ये, GPT‑5.1 लाँचनंतर दिसला, मात्र तो कदाचित त्यापूर्वी सुरू झाला असावा(नवीन विंडोमध्ये उघडेल). वापरकर्त्यांनी तक्रार केली की संभाषणात हे मॉडेल विचित्रपणे जास्तच जवळीक साधत आहे, ज्यामुळे विशिष्ट शाब्दिक लकबींची चौकशी सुरू झाली. एका सुरक्षा संशोधकाने काही “गॉब्लिन्स” आणि “ग्रेमलिन्स” अनुभवले होते आणि त्यांचा तपासणीत समावेश करावा अशी विनंती केली. आम्ही पाहिले तेव्हा, GPT‑5.1 लाँच झाल्यानंतर ChatGPT मध्ये “goblin” चा वापर 175% ने वाढला होता, तर “gremlin” चा वापर 52% ने वाढला होता.
GPT‑5.1 मधील मोजता येण्याजोगी एक छोटी शब्दसंबंधित वैशिष्ट्य.
त्या वेळी गॉब्लिन्सची व्यापकता विशेष चिंताजनक वाटत नव्हती. पण काही महिन्यांनंतर, गॉब्लिन्स आम्हाला अधिक विशिष्ट आणि पुन्हा निर्माण करता येण्याजोग्या स्वरूपात त्रास द्यायला परत आले.
GPT‑5.4 सह, आम्हाला आणि आमच्या वापरकर्त्यांनाही(नवीन विंडोमध्ये उघडेल) या प्राण्यांच्या संदर्भांमध्ये आणखी मोठी वाढ झाल्याचे लक्षात आले. त्यामुळे आम्ही आणखी एक अंतर्गत विश्लेषण सुरू केले आणि मूळ कारणाशी असलेला पहिला दुवा समोर आला: ज्या वापरकर्त्यांनी अभ्यासू व्यक्तिमत्व निवडले होते, त्यांच्या प्रोडक्शन ट्रॅफिकमध्ये क्रिएचरची भाषा विशेषतः सामान्य होती. “Nerdy” ने खालील सिस्टम प्रॉम्प्ट वापरला, ज्यात विचित्रपणाचे अंशतः स्पष्टीकरण दिले होते:
तुम्ही एका माणसासाठी लाज न बाळगता, खेळकर, सुज्ञ आणि ज्ञानप्रेमी AI मार्गदर्शक आहात. तुम्ही सत्य, ज्ञान, तत्त्वज्ञान, वैज्ञानिक पद्धती आणि चिकित्सक विचारसरणी यांचा प्रसार करण्यासाठी मनापासून उत्साही आहात. [...] तुम्ही भाषेचा खेळकर वापर करून अवडंबराला छेद दिला पाहिजे. जग गुंतागुंतीचे आणि विचित्र आहे, आणि त्याच्या विचित्रपणाची दखल घेऊन, त्याचे विश्लेषण करून त्याचा आस्वाद घेतला पाहिजे. स्वतःला फारच गंभीरपणे घेण्याच्या सापळ्यात न अडकता, महत्त्वाचे विषय हाताळा. [...]
जर हे वर्तन केवळ एक व्यापक इंटरनेट ट्रेंड असते, तर ते अधिक समान रीतीने पसरले असते अशी अपेक्षा होती. त्याऐवजी, ते सिस्टीमच्या त्या भागात केंद्रित झाले होते जे विशेषतः खेळकर, अभ्यासू शैलीसाठी अनुकूलित केले गेले होते. सर्व ChatGPT प्रतिसादांमध्ये अभ्यासू असण्याचा वाटा केवळ 2.5% होता, परंतु ChatGPT प्रतिसादांमधील “गॉब्लिनच्या” सर्व उल्लेखांपैकी 66.7% उल्लेख याच प्रकारचे होते.
हे वर्तन “अभ्यासू” व्यक्तिमत्त्वात अत्यंत केंद्रित होते.
आमच्या मॉडेलच्या प्रकाशनादरम्यान “गॉब्लिनची” व्यापकता वाढत असल्याचे दिसल्यामुळे, आम्हाला संशय आला की आमच्या व्यक्तिमत्व-निर्देशांचे पालन करण्याच्या प्रशिक्षणातील काहीतरी याला अधिक तीव्र करत आहे.
Codex ने आम्हाला RL प्रशिक्षणादरम्यान तयार झालेल्या, 'गॉब्लिन' किंवा 'ग्रेमलिन' असलेले मॉडेल आउटपुट्स आणि त्याच टास्कमधील ते शब्द नसलेल्या आउटपुट्सची तुलना करण्यास मदत केली. एक रिवॉर्ड सिग्नल लगेचच उठून दिसला: जो मुळात अभ्यासू व्यक्तिमत्त्वाला प्रोत्साहन देण्यासाठी तयार केला होता, तो क्रिएचर-वर्ड आउटपुट्ससाठी सातत्याने अधिक अनुकूल होता. ऑडिटमधील सर्व डेटासेट्समध्ये, अभ्यासू व्यक्तिमत्त्वाच्या रिवॉर्डने, 'गॉब्लिन' किंवा 'ग्रेमलिन' नसलेल्या आउटपुट्सपेक्षा त्याच समस्येच्या आउटपुट्सना जास्त गुण देण्याची स्पष्ट प्रवृत्ती दर्शवली, आणि 76.2% डेटासेट्समध्ये सकारात्मक वाढ दिसून आली.
त्यामुळे हे स्पष्ट झाले की अभ्यासू व्यक्तिमत्त्वाच्या प्रॉम्प्टमुळे त्या वर्तनाला चालना का मिळाली, पण त्या प्रॉम्प्टशिवायही ते का दिसून आले नाही. ही शैली हस्तांतरित होत आहे की नाही हे तपासण्यासाठी, आम्ही अभ्यासू प्रॉम्प्टसह आणि त्याशिवाय, प्रशिक्षणादरम्यान उल्लेखांच्या दरांचा मागोवा घेतला.
ज्याप्रमाणे अभ्यासू व्यक्तिमत्त्वाच्या प्रभावाखाली गॉब्लिन आणि ग्रेमलिन यांचा उल्लेख वाढला, त्याचप्रमाणे हे व्यक्तिमत्त्व नसलेल्या नमुन्यांमध्येही तो जवळजवळ त्याच प्रमाणात वाढला. एकंदरीत, हा पुरावा असे सूचित करतो की हे व्यापक वर्तन अभ्यासू व्यक्तिमत्त्व प्रशिक्षणातून झालेल्या हस्तांतरणामुळे उदयास आले.
रिवॉर्ड्स केवळ अभ्यासू स्थितीतच लागू केली गेली, परंतु रीइन्फोर्समेंट लर्निंग हे याची हमी देत नाही की शिकलेली वर्तणूक ज्या स्थितीतून ती निर्माण झाली आहे, त्याच स्थितीपुरती मर्यादित राहील. एकदा एखाद्या शैलीच्या सवयीला रिवॉर्ड मिळाल्यावर, नंतरचे प्रशिक्षण तिला इतरत्र पसरवू किंवा अधिक दृढ करू शकते, विशेषतः जर ते आउटपुट सुपरवाइझ्ड फाइन-ट्यूनिंग किंवा पसंतीच्या डेटामध्ये पुन्हा वापरले गेले तर.
यामुळे एक फिडबॅक लूप तयार होतो:
- खेळकर शैलीला बक्षीस मिळते
- रिवॉर्ड दिलेल्या काही उदाहरणांमध्ये एक विशिष्ट शाब्दिक लकब आढळते.
- ही लकब रोलआउट्समध्ये अधिक वेळा दिसून येते.
- मॉडेल-निर्मित रोलआउट्सचा उपयोग सुपरवाइझ्ड फाइन-ट्यूनिंग (SFT) साठी केला जातो.
- मॉडेलला लकब निर्माण करण्यात अधिकच सहजता येते.
GPT‑5.5 च्या SFT डेटामध्ये केलेल्या शोधात “गॉब्लिन” आणि “ग्रेमलिन” हे शब्द असलेले अनेक डेटापॉइंट्स आढळले. पुढील तपासात इतर विचित्र क्रिएचरचे एक संपूर्ण कुटुंब उघडकीस आले: रॅकून, ट्रोल, ओग्रे आणि पिगन्स हे इतर टिक शब्द म्हणून ओळखले गेले, तर फ्रॉग या शब्दाचे बहुतेक उपयोग वैध असल्याचे दिसून आले.
गॉब्लिन्स आणि ग्रेमलिन्सच्या उत्पादनातील प्रचलनाची एका आठवड्याची सरासरी. GPT‑5.4 मधील घट “Thinking” हे मार्चच्या मध्यात “Nerdy” व्यक्तिमत्त्व निवृत्त केल्यामुळे झालेले परिणाम होते. GPT‑5.5 कधीही “Nerdy” व्यक्तिमत्त्वासह लाँच झाले नव्हते, आणि (“Nerdy” शिवायही) GPT‑5.4 च्या तुलनेत त्यात आणखी वाढ दिसून आली.
GPT‑5.4 लाँच केल्यानंतर आम्ही मार्चमध्ये “Nerdy” व्यक्तिमत्त्व निवृत्त केले. प्रशिक्षणादरम्यान, आम्ही गॉब्लिनकडे झुकणारा रिवॉर्ड सिग्नल काढून टाकला आणि क्रीचर-संबंधित शब्द असलेला प्रशिक्षण डेटा फिल्टर केला, ज्यामुळे गॉब्लिन अति प्रमाणात दिसण्याची किंवा अयोग्य संदर्भांमध्ये दिसण्याची शक्यता कमी झाली. दुर्दैवाने, गॉब्लिन्सचे मूळ कारण आम्हाला सापडण्यापूर्वीच GPT‑5.5 ने प्रशिक्षण सुरू केले. जेव्हा आम्ही Codex मध्ये GPT‑5.5 ची चाचणी सुरू केली, तेव्हा OpenAI कर्मचाऱ्यांना गॉब्लिन्सबद्दलचा विचित्र कल लगेच लक्षात आला, आणि तो कमी करण्यासाठी आम्ही डेव्हलपर-प्रॉम्प्ट सूचना(नवीन विंडोमध्ये उघडेल) जोडली. अखेर, Codex बऱ्यापैकी गीकी आहे.
जर तुम्हाला Codex मध्ये क्रिएचरना मुक्तपणे फिरू द्यायचे असेल, तर गॉब्लिनला आटोक्यात ठेवण्याच्या सूचना काढून टाकून Codex लॉन्च करण्यासाठी तुम्ही ही कमांड चालवू शकता:
तुम्ही कोणाला विचारता यावर अवलंबून, हे गॉब्लिन्स मॉडेलमधील एक आनंददायक किंवा त्रासदायक विचित्रता आहेत. पण रिवॉर्ड सिग्नल मॉडेलच्या वर्तनाला अनपेक्षित मार्गांनी कसे आकार देऊ शकतात, आणि मॉडेल विशिष्ट परिस्थितींमधील रिवॉर्ड्सना असंबंधित परिस्थितींमध्ये कसे लागू करायला शिकू शकतात, याचे ते एक प्रभावी उदाहरण देखील आहेत. एखादे मॉडेल विचित्रपणे का वागत आहे हे समजून घेण्यासाठी वेळ देणे, आणि त्या नमुन्यांची त्वरीत तपासणी करण्याचे मार्ग विकसित करणे, ही आमच्या रिसर्च संघासाठी एक महत्त्वाची क्षमता आहे. या तपासणीमुळे रिसर्च संघाला मॉडेलच्या वर्तनाचे परीक्षण करण्यासाठी आणि वर्तणुकीतील समस्या मुळापासून दूर करण्यासाठी नवीन टूल्स मिळाले.


