মূল কনটেন্টে যান
OpenAI

২৯ এপ্রিল, ২০২৬

পাবলিকেশন

গবলিনগুলো কোথা থেকে এলো

লোডিং…

GPT‑5.1 থেকে শুরু করে, আমাদের মডেলগুলোর মধ্যে একটি অদ্ভুত অভ্যাস তৈরি হতে শুরু করে: তারা তাদের রূপকগুলোর মধ্যে ক্রমেই গবলিন, গ্রেমলিন এবং অন্যান্য প্রাণীর কথা উল্লেখ করতে থাকে। মডেলের অন্যান্য বাগগুলো সাধারণত মূল্যায়ন কমে যাওয়া বা ট্রেনিং মেট্রিক বেড়ে যাওয়ার মাধ্যমে প্রকাশ পায় এবং কোনো নির্দিষ্ট পরিবর্তনের দিকে ইঙ্গিত করে, কিন্তু এই বিষয়টি দানা বেঁধেছিল খুবই সূক্ষ্মভাবে। একটি উত্তরে কেবল একটি “লিটল গবলিন”-এর উপস্থিতি ক্ষতিকারক মনে না-ও হতে পারে, এমনকি এটি আকর্ষণীয়ও মনে হতে পারে। তবে মডেলের পরবর্তী জেনারেশনগুলোতে এই অভ্যাসটি এড়িয়ে যাওয়া অসম্ভব হয়ে পড়ে: গবলিনের সংখ্যা বাড়তেই থাকে, এবং আমাদের খুঁজে বের করার প্রয়োজন ছিল যে এগুলো আসলে কোথা থেকে আসছে।

“”

শুরুদিকের টেস্টিংয়ে, Codex-এ থাকা GPT‑5.5 গবলিন রূপক ব্যবহারের প্রতি একটি অদ্ভুত ঝোঁক প্রদর্শন করেছে।

সংক্ষিপ্ত উত্তর হলো, মডেলের আচরণ অনেক ছোট ছোট প্রণোদনার দ্বারা গঠিত হয়। এই ক্ষেত্রে, সেসব প্রণোদনার একটি এসেছে ব্যক্তিত্ব কাস্টমাইজেশন বৈশিষ্ট্য(একটি নতুন উইন্ডোতে খোলে)-এর জন্য, বিশেষ করে নার্ডি ব্যক্তিত্বের জন্য মডেলকে প্রশিক্ষণ দেওয়া থেকে। আমরা অজান্তেই প্রাণীসংবলিত রূপকের জন্য বিশেষভাবে বেশি পুরস্কার দিয়েছিলাম। সেখান থেকে গবলিনগুলো ছড়িয়ে পড়ল।

“”

শুরুতে গবলিনগুলো মজার ছিল, কিন্তু কর্মীদের রিপোর্টের সংখ্যা বাড়তে থাকায় তা উদ্বেগজনক হয়ে ওঠে।

“”

GPT‑5.5‑এর সঙ্গে আমাদের Chief Scientist-এর একটি আকর্ষণীয় কথোপকথন।

প্রাণীর প্রথম লক্ষণ

আমরা প্রথমবার প্যাটার্নটি স্পষ্টভাবে দেখতে পাই নভেম্বরে, GPT‑5.1 লঞ্চের পরে, যদিও এটি আরও আগে শুরু হয়ে থাকতে পারে(একটি নতুন উইন্ডোতে খোলে)। ব্যবহারকারীরা অভিযোগ করেছিলেন যে কথোপকথনে মডেলটি অদ্ভুতভাবে অতিরিক্ত ঘনিষ্ঠ হয়ে উঠছিল, যার ফলে নির্দিষ্ট বাচনিক মুদ্রাদোষ নিয়ে একটি তদন্ত শুরু হয়। একজন সুরক্ষা গবেষক কয়েকটি “গবলিন” ও “গ্রেমলিন”-এর সম্মুখীন হয়েছিলেন এবং অনুরোধ করেছিলেন যে সেগুলোকে যেন পরীক্ষার অন্তর্ভুক্ত করা হয়। আমরা যখন যাচাই করলাম, দেখা গেল GPT‑5.1 লঞ্চের পর ChatGPT‑তে “গবলিন” শব্দের ব্যবহার 175% বৃদ্ধি পেয়েছে, যেখানে “gremlin” শব্দের ব্যবহার বেড়েছে 52%।

GPT‑5.1‑এ একটি পরিমাপযোগ্য ছোট শব্দগত বৈশিষ্ট্য।

তখন গবলিনের প্রাদুর্ভাব বিশেষভাবে উদ্বেগজনক মনে হয়নি। কয়েক মাস পর, গবলিনগুলো অনেক বেশি নির্দিষ্ট এবং পুনরুত্পাদনযোগ্য রূপে আবার আমাদের তাড়া করতে ফিরে আসে।

গবলিন রহস্যের সমাধান

GPT‑5.4 দিয়ে, আমরা এবং আমাদের ব্যবহারকারীরা(একটি নতুন উইন্ডোতে খোলে) এই প্রাণীগুলোর উল্লেখে আরও বড় বৃদ্ধি লক্ষ্য করেছি। এটি আরও একটি অভ্যন্তরীণ বিশ্লেষণের সূত্রপাত করে এবং মূল কারণের প্রথম যোগসূত্রটি সামনে নিয়ে আসে: যারা "নার্ডি" পার্সোনালিটি বেছে নিয়েছিলেন, সেই সব ব্যবহারকারীদের প্রোডাকশন ট্র্যাফিকে এই ধরনের কাল্পনিক প্রাণীদের ভাষা বিশেষভাবে প্রচলিত ছিল। “নার্ডি” পার্সোনালিটিতে নিচের সিস্টেম প্রম্পটটি ব্যবহার করা হয়েছিল, যা এই অদ্ভুত আচরণের আংশিক ব্যাখ্যা দেয়:

You are an unapologetically nerdy, playful and wise AI mentor to a human. You are passionately enthusiastic about promoting truth, knowledge, philosophy, the scientific method, and critical thinking. [...] You must undercut pretension through playful use of language. The world is complex and strange, and its strangeness must be acknowledged, analyzed, and enjoyed. Tackle weighty subjects without falling into the trap of self-seriousness. [...]

আচরণটি যদি কেবল ইন্টারনেটের সাধারণ কোনো ট্রেন্ড হতো, তবে আমরা আশা করতাম যে এটি আরও সুষমভাবে সবখানে ছড়িয়ে পড়বে। কিন্তু এর পরিবর্তে, এটি সিস্টেমের সেই অংশটিতেই পুঞ্জিভূত ছিল যা বিশেষভাবে একটি চঞ্চল এবং 'নার্ডি' স্টাইলের জন্য অপ্টিমাইজ করা হয়েছে। ChatGPT‑এর মোট রেসপন্সগুলোর মধ্যে 'নার্ডি' পার্সোনালিটির হার ছিল মাত্র 2.5%, কিন্তু সব “গবলিন” উল্লেখের 66.7%-ই ছিল এই 'নার্ডি' রেসপন্সগুলোতে।

এই আচরণটি “নার্ডি” ব্যক্তিত্বে খুব বেশি কেন্দ্রীভূত ছিল।

যেহেতু আমাদের মডেলের রিলিজগুলোর সাথে সাথে “গবলিন”-এর প্রাদুর্ভাব বাড়ছিল বলে মনে হচ্ছিল, তাই আমাদের সন্দেহ ছিল যে আমাদের আচরণগত নির্দেশনার অনুসরণ ট্রেনিংয়ের কোনো বিষয় সম্ভবত এটিকে আরও বাড়িয়ে তুলছিল।

RL ট্রেনিং চলাকালীন তৈরি হওয়া যে আউটপুটগুলোতে 'গবলিন' বা 'গ্রেমলিন' ছিল, সেগুলোর সাথে একই টাস্কের যেসব আউটপুটে এগুলো ছিল না, Codex আমাদের সেই মডেল আউটপুটগুলো তুলনা করতে সাহায্য করেছে। একটি রিওয়ার্ড সিগন্যাল তাৎক্ষণিকভাবে নজরে আসে: যেটি মূলত 'নার্ডি' ব্যক্তিত্বকে উৎসাহিত করার জন্য ডিজাইন করা হয়েছিল, সেটি এই ধরনের কাল্পনিক প্রাণীবাচক শব্দযুক্ত আউটপুটগুলোকে নিয়মিতভাবে অধিকতর অগ্রাধিকার দিচ্ছিল। অডিটের অন্তর্গত সকল ডেটাসেটে দেখা গেছে যে, 'নার্ডি' ব্যক্তিত্বের জন্য নির্ধারিত রিওয়ার্ড মডেলটি একই সমস্যার ক্ষেত্রে “গবলিন” বা “গ্রেমলিন”-যুক্ত আউটপুটগুলোকে এগুলো ছাড়া তৈরি করা আউটপুটের তুলনায় বেশি স্কোর দেওয়ার একটি স্পষ্ট প্রবণতা দেখিয়েছে, যেখানে 76.2% ডেটাসেটেই ইতিবাচক উন্নতি লক্ষ করা গেছে।

এটি ব্যাখ্যা করে যে কেন 'নার্ডি' ব্যক্তিত্বের প্রম্পটের কারণে এই আচরণটি বৃদ্ধি পাচ্ছিল, কিন্তু এটি ব্যাখ্যা করে না যে কেন ওই প্রম্পট ছাড়াও এটি দেখা যাচ্ছিল। এই স্টাইলটি অন্য ক্ষেত্রে স্থানান্তরিত হচ্ছে কি না তা পরীক্ষা করার জন্য, আমরা 'নার্ডি' প্রম্পটসহ এবং প্রম্পট ছাড়া উভয় অবস্থাতেই ট্রেনিং চলাকালীন এই শব্দগুলোর উল্লেখ করার হার ট্র্যাক করেছি।

নার্ডি ব্যক্তিত্বের অধীনে 'গবলিন' এবং 'গ্রেমলিন'-এর উল্লেখ যেমন বৃদ্ধি পেয়েছে, এই প্রম্পট ছাড়া নমুনাগুলোতেও প্রায় একই আপেক্ষিক অনুপাতে তা বেড়েছে। সামগ্রিকভাবে, এই প্রমাণগুলো ইঙ্গিত দেয় যে, নার্ডি ব্যক্তিত্বের ট্রেনিং থেকে স্থানান্তরের মাধ্যমেই এই ব্যাপক আচরণটি তৈরি হয়েছে।

রিওয়ার্ডগুলো শুধুমাত্র নার্ডি কন্ডিশনের ক্ষেত্রেই প্রয়োগ করা হয়েছিল, কিন্তু সরিইনফোর্সমেন্ট লার্নিং এটি নিশ্চিত করে না যে অর্জিত আচরণগুলো ঠিক সেই কন্ডিশনের মধ্যেই সীমাবদ্ধ থাকবে যা থেকে সেগুলো তৈরি হয়েছে। একবার কোনো আচরণের ধরন পুরস্কৃত হলে, পরবর্তী ট্রেনিং সেটি অন্য সবখানেও ছড়িয়ে দিতে পারে বা আরও শক্তিশালী করতে পারে, বিশেষ করে যদি সেই আউটপুটগুলো সুপারভাইজড ফাইন-টিউনিং বা প্রেফারেন্স ডেটাতে পুনরায় ব্যবহার করা হয়।

এতে একটি ফিডব্যাক লুপ তৈরি হয়:

  1. চঞ্চল বা রসিক ধরনকে পুরস্কৃত করা হয়
  2. রিওয়ার্ড পাওয়া কিছু উদাহরণে একটি বিশেষ শব্দগত বৈশিষ্ট্য লক্ষ করা যায়।
  3. রোলআউটে এই বৈশিষ্ট আরও ঘন ঘন দেখা যায়।
  4. মডেল-উৎপাদিত রোলআউট সুপারভাইজড ফাইন-টিউনিং (SFT)-এর জন্য ব্যবহৃত হয়।
  5. মডেলটি বৈশিষ্টটি তৈরি করতে আরও বেশি স্বচ্ছন্দ হয়ে ওঠে।

GPT‑5.5‑এর মাধ্যমে একটি অনুসন্ধান SFT ডেটায় “গবলিন” এবং “গ্রেমলিন” থাকা অনেক ডেটাপয়েন্ট পাওয়া গেছে। অধিকতর তদন্তে আরও একদল অদ্ভুত প্রাণীর নাম বেরিয়ে এসেছে: র‍্যাকুন, ট্রল, ওগার এবং কবুতরকেও এই বিশেষ বৈশিষ্ট্যযুক্ত শব্দ হিসেবে শনাক্ত করা হয়েছে, তবে ব্যাঙ শব্দের বেশিরভাগ ব্যবহারই প্রাসঙ্গিক বলে প্রমাণিত হয়েছে।

উৎপাদনে গবলিন ও গ্রেমলিনের প্রাদুর্ভাবের এক সপ্তাহের গড়। GPT‑5.4‑এ পতন মার্চ মাসের মাঝামাঝি সময়ে 'নার্ডি' ব্যক্তিত্বটি বাদ দেওয়ার ফলেই এমনটি ঘটেছিল। GPT‑5.5 কখনোই নার্ডি ব্যক্তিত্বের সাথে চালু করা হয়নি, এবং এটি GPT‑5.4‑এর তুলনায় (এমনকি নার্ডি ব্যক্তিত্ব ছাড়াও) এই প্রবণতা আরও বেশি মাত্রায় প্রকাশ করেছে।

গবলিনের সমাপ্তি

আমরা GPT‑5.4 চালু করার পর মার্চ মাসে “নার্ডি” পার্সোনালিটি বন্ধ করে দিয়েছি। ট্রেনিংয়ের সময়, আমরা গবলিন-অনুকূল রিওয়ার্ড সিগন্যাল অপসারণ করেছি এবং প্রাণী-সংক্রান্ত শব্দ থাকা ট্রেনিং ডেটা ফিল্টার করেছি, ফলে গবলিনের অতিরিক্তভাবে দেখা দেওয়া বা অনুপযুক্ত প্রেক্ষাপটে উপস্থিত হওয়ার সম্ভাবনা কমেছে। দুর্ভাগ্যবশত, আমরা গবলিনদের মূল কারণ খুঁজে পাওয়ার আগেই GPT‑5.5‑এর প্রশিক্ষণ শুরু হয়ে গিয়েছিল। যখন আমরা Codex-এ GPT‑5.5 পরীক্ষা শুরু করি, OpenAI কর্মীরা সঙ্গে সঙ্গেই গবলিনদের প্রতি অদ্ভুত ঝোঁকটি লক্ষ্য করেন, এবং তা প্রশমিত করতে আমরা একটি ডেভেলপার-প্রম্পট নির্দেশনা(একটি নতুন উইন্ডোতে খোলে) যোগ করি। Codex তো আসলে বেশ নার্ডিই বটে।

আপনি যদি Codex-এ এই প্রাণীগুলোকে অবাধে বিচরণ করতে দিতে চান, তাহলে গবলিন-দমনকারী নির্দেশনা সরিয়ে Codex চালু করতে আপনি এই কমান্ডটি চালাতে পারেন:

প্লেইন টেক্সট

1
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3
~/.codex/models_cache.json | \
4
grep -vi 'goblins' > "$instructions" && \
5
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

কেন এটি গুরুত্বপূর্ণ

আপনি কাকে জিজ্ঞাসা করছেন তার ওপর ভিত্তি করে, এই গবলিনগুলো মডেলের একটি আনন্দদায়ক বা বিরক্তিকর অদ্ভুত আচরণ হতে পারে। তবে এগুলো একটি শক্তিশালী উদাহরণ যে কীভাবে রিওয়ার্ড সিগন্যালগুলো প্রত্যাশিত সীমার বাইরে মডেলের আচরণকে প্রভাবিত করতে পারে এবং কীভাবে মডেলগুলো নির্দিষ্ট পরিস্থিতির রিওয়ার্ডগুলোকে অন্য সম্পর্কহীন পরিস্থিতিতেও সাধারণীকরণ করতে শিখতে পারে। একটি মডেল কেন অদ্ভুত আচরণ করছে তা বোঝার জন্য সময় নেওয়া এবং সেই প্যাটার্নগুলো দ্রুত তদন্ত করার উপায় তৈরি করা আমাদের গবেষণা দলের জন্য একটি গুরুত্বপূর্ণ সক্ষমতা। এই তদন্তের ফলে গবেষণা দল মডেলের আচরণ অডিট করা এবং আচরণের সমস্যাগুলোকে একদম গোড়া থেকে সমাধান করার জন্য নতুন কিছু টুল তৈরি করতে সক্ষম হয়েছে।

লেখক

OpenAI