காப்லின்கள் எங்கிருந்து வந்தன
GPT‑5.1 முதல், எங்கள் மாடல்களில் ஒரு விசித்திரமான பழக்கம் உருவாகத் தொடங்கியது: அவை தங்களின் உருவகங்களில் காப்லின்கள், கிரெம்லின்கள் மற்றும் பிற உயிர்களை அதிகமாகக் குறிப்பிடத் தொடங்கின. மதிப்பீடு திடீரென சரிவதோ அல்லது பயிற்சி அளவுகோல் திடீரென உயர்வதோ மூலம் தெரியவரும், ஒரு குறிப்பிட்ட மாற்றத்தைக் காட்டும் மாடல் பிழைகளைப் போலல்லாமல், இது நுணுக்கமாக நுழைந்தது. பதிலில் ஒரு “little goblin” மட்டும் வந்தால் அது பாதிப்பற்றதாக, கூடவே கவர்ச்சியாகத் தோன்றியிருக்கலாம். ஆனால் மாடல் தலைமுறைகள் முழுவதும் பார்த்தபோது, அந்த பழக்கத்தை கவனிக்காமல் இருக்க முடியவில்லை: காப்லின்கள் தொடர்ந்து பெருகின, அவை எங்கிருந்து வந்தன என்பதை நாம் கண்டுபிடிக்க வேண்டியிருந்தது.

ஆரம்ப சோதனையில், Codex இல் GPT‑5.5 காப்லின் உருவகங்களிடம் ஒரு விசித்திரமான ஈர்ப்பைக் காட்டியது.
சுருக்கமான பதில் என்னவென்றால், மாடலின் நடத்தை பல சிறிய ஊக்கங்களால் வடிவமைக்கப்படுகிறது. இந்தச் சூழலில், அந்த ஊக்கங்களில் ஒன்று ஆளுமை தனிப்பயனாக்குதல் அம்சத்திற்காக(புதிய சாளரத்தில் திறக்கும்) மாடலைப் பயிற்சியளித்ததிலிருந்து, குறிப்பாக Nerdy ஆளுமைக்காக, வந்தது. நாங்கள் அறியாமலேயே, உயிரினங்களை உள்ளடக்கிய உருவகங்களுக்கு குறிப்பாக அதிகமான வெகுமதிகளை வழங்கிவிட்டோம். அங்கிருந்து, காப்லின்கள் பரவின.

முதலில் காப்லின்கள் வேடிக்கையாக இருந்தன, ஆனால் அதிகரித்து வந்த ஊழியர் அறிக்கைகளின் எண்ணிக்கை கவலைக்குரியதாக மாறியது.

எங்கள் தலைமை அறிவியலாளர் GPT‑5.5 உடன் நடத்திய ஒரு சுவாரஸ்யமான தொடர்பு.
அந்தப் போக்கை நாங்கள் முதன்முறையாக தெளிவாகக் கண்டது நவம்பரில், GPT‑5.1 அறிமுகத்திற்குப் பிறகுதான், அது அதற்கு முன்பே தொடங்கியிருக்கலாம் என்றாலும்(புதிய சாளரத்தில் திறக்கும்). பயனர்கள் உரையாடலில் மாடல் வினோதமாக அளவுக்கு மீறிய நெருக்கத்துடன் நடந்து கொள்வதாக புகார் கூறினர்; இது குறிப்பிட்ட வாக்கிய ப்ராம்ப்ட்கள் குறித்த விசாரணைக்கு வழிவகுத்தது. ஒரு பாதுகாப்பு ஆராய்ச்சியாளர் சில “காப்லின்கள்” மற்றும் “கிரெம்லின்கள்” ஆகியவற்றை எதிர்கொண்டிருந்ததால், அவற்றையும் சரிபார்ப்பில் சேர்க்குமாறு கேட்டார். நாங்கள் பார்த்தபோது, GPT‑5.1 அறிமுகத்திற்குப் பிறகு ChatGPT இல் “goblin” பயன்பாடு 175% அதிகரித்திருந்தது, அதே நேரத்தில் “gremlin” பயன்பாடு 52% அதிகரித்திருந்தது.
GPT‑5.1 இல் அளவிடக்கூடிய ஒரு சிறிய சொல்வழக்கு விசித்திரம்.
அந்த நேரத்தில், காப்லின்களின் பரவல் அதிக எச்சரிக்கைக்குரியதாகத் தோன்றவில்லை. சில மாதங்கள் கழித்து, காப்லின்கள் மிகவும் குறிப்பிட்டதும் மீண்டும் உருவாக்கக்கூடியதுமான வடிவில் திரும்பி வந்து எங்களைப் பீடித்தன.
GPT‑5.4 உடன், நாங்களும் எங்கள் பயனர்களும்(புதிய சாளரத்தில் திறக்கும்) இந்த உயிரினங்களைப் பற்றிய குறிப்புகளில் இன்னும் பெரிய அதிகரிப்பைக் கவனித்தோம். அது மேலும் ஒரு உள்துறை பகுப்பாய்வைத் தூண்டியது; அப்போது மூல காரணத்துடன் முதல் தொடர்பு வெளிச்சத்துக்கு வந்தது: “Nerdy” தன்மையைத் தேர்ந்தெடுத்த பயனர்களிடமிருந்து வந்த production traffic இல் உயிரினச் சொற்கள் குறிப்பாக அதிகமாக இருந்தன. “நெர்டி” பின்வரும் ப்ராம்ப்ட்டைப் பயன்படுத்தியது, அது அந்த வினோதத்தன்மையை ஓரளவு விளக்கியது:
நீங்கள், தயக்கமின்றி அறிவாளியாகவும், விளையாட்டுத்தனமாகவும், ஞானமாகவும் இருக்கும் ஒரு மனிதருக்கான AI வழிகாட்டி. உண்மை, அறிவு, தத்துவம், அறிவியல் முறை மற்றும் விமர்சனச் சிந்தனை ஆகியவற்றை ஊக்குவிப்பதில் நீங்கள் மிகுந்த ஆர்வமும் உற்சாகமும் கொண்டவர். [...] நீங்கள் மொழியை விளையாட்டுத்தனமாகப் பயன்படுத்தி பாசாங்குத்தனத்தைத் தகர்க்க வேண்டும். உலகம் சிக்கலானதும் விசித்திரமானதும் ஆகும்; அதன் விசித்திரத்தன்மை ஏற்றுக்கொள்ளப்பட்டு, பகுப்பாய்வு செய்யப்பட்டு, ரசிக்கப்பட வேண்டும். தன்னையே அளவுக்கு மீறி தீவிரமாக எடுத்துக்கொள்ளும் வலையில் சிக்காமல், ஆழமான தலைப்புகளைக் கையாளுங்கள். [...]
இந்த நடத்தை வெறும் பரவலான இணையப் போக்காக இருந்திருந்தால், அது மேலும் சமமாகப் பரவும் என்று எதிர்பார்ப்போம். ஆனால் அதற்கு பதிலாக, அது விளையாட்டுத்தனமான, nerdy பாணிக்காகத் தெளிவாக மேம்படுத்தப்பட்ட அமைப்பின் பகுதியிலேயே திரண்டிருந்தது. ChatGPT பதில்களில் Nerdy வெறும் 2.5% மட்டுமே இருந்தது; ஆனால் ChatGPT பதில்களில் வந்த அனைத்து “goblin” குறிப்புகளிலும் 66.7% அதிலிருந்தே வந்தன.
இந்த நடத்தை “Nerdy” தன்மையில் மிகவும் செறிவாகக் காணப்பட்டது.
எங்கள் மாடல் வெளியீடுகள் முழுவதும் “goblin” பரவல் அதிகரித்தது போலத் தோன்றியதால், எங்கள் personality instruction-following பயிற்சியில் ஏதோ ஒன்று இதை பெரிதாக்குகிறது என்ற சந்தேகம் எங்களுக்கு ஏற்பட்டது.
RL பயிற்சியின் போது உருவாக்கப்பட்ட, “goblin” அல்லது “gremlin” கொண்ட மாடல் வெளியீடுகளை, அதே பணியில் அவற்றைக் கொண்டிருக்காத வெளியீடுகளுடன் ஒப்பிட Codex எங்களுக்கு உதவியது. ஒரு ரிவார்ட் சிக்னல் உடனடியாகத் தனித்துப் புலப்பட்டது: Nerdy ஆளுமையை ஊக்குவிக்க முதலில் வடிவமைக்கப்பட்ட சிக்னல், உயிரின-சொல் வெளியீடுகளுக்கு தொடர்ந்து அதிக சாதகமாக இருந்தது. தணிக்கையில் உள்ள அனைத்து தரவுத்தொகுப்புகளிலும், Nerdy ஆளுமை வெகுமதி, அதே பிரச்சினைக்கான “goblin” அல்லது “gremlin” கொண்ட வெளியீடுகளை, அவை இல்லாத வெளியீடுகளை விட அதிகமாக மதிப்பெண் வழங்கும் தெளிவான போக்கைக் காட்டியது; 76.2% தரவுத்தொகுப்புகளில் நேர்மறை உயர்வு காணப்பட்டது.
அதனால், Nerdy ப்ராம்ப்ட் உடன் இந்த நடத்தை ஏன் அதிகரித்தது என்பது விளங்கியது; ஆனால் அந்த ப்ராம்ப்ட் இல்லாமலும்கூட அது ஏன் தோன்றியது என்பது விளங்கவில்லை. அந்த நடை மற்றவர்களுக்கும் பரவுகிறதா என்பதைச் சோதிக்க, 'நெர்டி' தூண்டுதலுடன் மற்றும் அது இல்லாமலும், பயிற்சி முழுவதும் குறிப்பிடப்படும் விகிதங்களை நாங்கள் கண்காணித்தோம்.
Nerdy தன்மையின் கீழ் goblin மற்றும் gremlin குறிப்புகள் அதிகரித்தபோதே, அது இல்லாத மாதிரிகளிலும் கிட்டத்தட்ட அதே தொடர்புடைய விகிதத்தில் அதிகரித்தன. எல்லா ஆதாரங்களையும் ஒன்றாக எடுத்துப் பார்த்தால், இந்த விரிவான நடத்தை Nerdy தன்மை பயிற்சியிலிருந்து பரிமாற்றம் மூலம் உருவானது என்பதைக் காட்டுகிறது.
ரிவார்ட்கள் Nerdy நிலையிலேயே மட்டும் பயன்படுத்தப்பட்டன; ஆனால் ரீஇன்ஃபோர்ஸ்மென்ட் லெர்னிங், கற்றுக்கொண்ட நடத்தைகள் அவற்றை உருவாக்கிய சூழ்நிலைக்குள் மட்டும் ஒழுங்காகவே இருக்கும் என உத்தரவாதம் அளிக்காது. ஒரு பாணிச் சிறப்பம்சத்திற்கு ரிவார்ட் கிடைத்தவுடன், பின்னர் பயிற்சி அதை வேறு இடங்களிலும் பரப்பவோ வலுப்படுத்தவோ செய்யலாம், குறிப்பாக அந்த வெளியீடுகள் சூப்பர்வைஸ்ட் ஃபைன்-ட்யூனிங் அல்லது preference data இல் மீண்டும் பயன்படுத்தப்பட்டால்.
அதனால் ஒரு feedback loop உருவாகிறது:
- விளையாட்டுத்தனமான பாணிக்கு பரிசு வழங்கப்படுகிறது
- சில பரிசளிக்கப்பட்ட எடுத்துக்காட்டுகளில் தனித்துவமான சொல்வழக்குப் பழக்கம் காணப்படுகிறது.
- அந்தப் பழக்கம் rollouts இல் அடிக்கடி தோன்றுகிறது.
- மாடல் உருவாக்கிய rollouts சூப்பர்வைஸ்ட் ஃபைன்-ட்யூனிங் (SFT) க்கு பயன்படுத்தப்படுகின்றன.
- மாடல் அந்த பழக்கத்தை உருவாக்குவதில் மேலும் வசதியாகிறது.
GPT‑5.5‑இன் மூலம் ஒரு தேடல் SFT தரவில் “goblin” மற்றும் “gremlin” கொண்ட பல தரவு புள்ளிகள் இருந்ததை கண்டோம். மேலும் ஆய்வில், மற்ற பல விசித்திரமான உயிரினங்கள் இருப்பதும் தெரியவந்தது: raccoons, trolls, ogres மற்றும் pigeons ஆகியவை மற்ற tic சொற்களாக அடையாளம் காணப்பட்டன; ஆனால் frog என்ற சொல்லின் பெரும்பாலான பயன்பாடுகள் சரியானவையாகவே இருந்தன.
கோப்ளின்கள் மற்றும் கிரெம்லின்களின் புரொடக்ஷன் பரவலின் ஒரு வார சராசரி. GPT‑5.4‑இல் ஏற்பட்ட குறைவு மார்ச் நடுப்பகுதியில் “Nerdy” ஆளுமையை நிறுத்தியதன் விளைவாக “Thinking” ஏற்பட்டது. GPT‑5.5 “Nerdy” personality உடன் ஒருபோதும் அறிமுகப்படுத்தப்படவில்லை, மேலும் GPT‑5.4‑ஐ விட மேலும் ஒரு உயர்வைக் காட்டியது (“Nerdy” இல்லாமல்கூட).
GPT‑5.4‑ஐ வெளியிட்ட பிறகு, மார்ச் மாதத்தில் “Nerdy” ஆளுமையை பயன்பாட்டிலிருந்து நீக்கினோம். பயிற்சியில், கோப்லின்களுக்கு அனுகூலமான ரிவார்ட் சிக்னல் அகற்றப்பட்டு, உயிரினங்களைக் குறிக்கும் சொற்கள் கொண்ட பயிற்சி தரவை வடிகட்டினோம்; இதனால் கோப்லின்கள் அளவுக்கு அதிகமாகத் தோன்றுவதோ அல்லது பொருத்தமற்ற சூழல்களில் தோன்றுவதோ குறைந்த வாய்ப்புடையதாக ஆனது. துரதிர்ஷ்டவசமாக, கோப்ளின்களின் மூலக் காரணத்தை நாங்கள் கண்டறிவதற்கு முன்பே GPT‑5.5 பயிற்சியைத் தொடங்கிவிட்டது. Codex இல் GPT‑5.5 ஐ சோதிக்கத் தொடங்கியபோது, OpenAI ஊழியர்கள் காப்லின்கள் மீது இருந்த விசித்திரமான ஈர்ப்பை உடனடியாகக் கவனித்தனர், அதைத் தணிக்க நாங்கள் டெவலப்பர்-ப்ராம்ப்ட் அறிவுறுத்தல்(புதிய சாளரத்தில் திறக்கும்) ஒன்றைச் சேர்த்தோம். இறுதியில் பார்த்தால், Codex மிகவும் நெர்டியானதுதான்.
Codex இல் இந்த உயிரினங்களைத் திறந்துவிட விரும்பினால், காப்லின்களை அடக்கும் வழிமுறைகள் நீக்கப்பட்ட நிலையில் Codex ஐத் தொடங்க இந்த கட்டளையை இயக்கலாம்:
நீங்கள் யாரிடம் கேட்கிறீர்கள் என்பதைப் பொறுத்து, இந்தக் கோப்ளின்கள் மாடலின் ஒரு மகிழ்ச்சிகரமான அல்லது எரிச்சலூட்டும் விசித்திரமான குணமாகத் தோன்றலாம். ஆனால், வெகுமதி சமிக்ஞைகள் மாதிரியின் நடத்தையை எதிர்பாராத வழிகளில் எவ்வாறு வடிவமைக்க முடியும் என்பதற்கும், சில சூழ்நிலைகளில் கிடைக்கும் வெகுமதிகளைத் தொடர்பில்லாத மற்ற சூழ்நிலைகளுக்கும் மாதிரிகள் எவ்வாறு பொதுமைப்படுத்தக் கற்றுக்கொள்ள முடியும் என்பதற்கும் அவை ஒரு சக்திவாய்ந்த எடுத்துக்காட்டாகவும் இருக்கின்றன. ஒரு மாடல் ஏன் விசித்திரமான முறையில் நடந்துகொள்கிறது என்பதைப் புரிந்துகொள்ள நேரம் எடுத்துக்கொள்வதும், அந்த வடிவங்களை விரைவாக ஆராய்வதற்கான வழிகளை உருவாக்குவதும் எங்கள் ஆராய்ச்சிக் குழுவிற்கு ஒரு முக்கியமான திறனாகும். இந்த ஆய்வு, மாடலின் நடத்தையைத் தணிக்கை செய்வதற்கும், நடத்தைப் பிரச்சனைகளை அதன் மூலத்திலேயே சரிசெய்வதற்கும் ஆராய்ச்சிக் குழுவிற்குப் புதிய கருவிகளை வழங்கியது.


