ডিপ্লয়মেন্ট সিমুলেট করে রিলিজের আগে মডেল আচরণ পূর্বাভাস
রিলিজের আগে অনাকাঙ্ক্ষিত মডেল আচরণ আরও ভালোভাবে অনুমান করতে বাস্তবসম্মত কথোপকথন প্রেক্ষাপট ব্যবহার.
নতুন মডেল প্রকাশের আগে, ল্যাবগুলোর শুধু এটি কী করতে পারে তা নয়, বাস্তব ব্যবহারে এটি কীভাবে আচরণ করতে পারে, কোথায় নতুন ঝুঁকি আনতে পারে তাও বোঝা দরকার. সক্ষমতা বাড়ার সঙ্গে সঙ্গে এটি আরও গুরুত্বপূর্ণ হয়ে ওঠে. প্রি-ডিপ্লয়মেন্ট নিরাপত্তা পর্যালোচনার অংশ হিসেবে, মডেল আচরণ বোঝার জন্য আমরা লক্ষ্যভিত্তিক মূল্যায়ন, রেড-টিমিং এবং অন্যান্য পরীক্ষা ব্যবহার করি. আমরা এখন মডেল ডিপ্লয়মেন্ট ঘটার আগে তা সিমুলেট করার একটি পদ্ধতি ব্যবহার শুরু করেছি, যা একটি পরিপূরক সংকেত যোগ করে: ব্যবহারকারীদের কাছে পৌঁছানোর আগে একটি প্রার্থী মডেল কীভাবে আচরণ করতে পারে তার ডিপ্লয়মেন্ট-সদৃশ প্রিভিউ.
ডিপ্লয়মেন্ট সিমুলেশন হলো ভবিষ্যৎ ডিপ্লয়মেন্ট ঘটার আগে তা সিমুলেট করার একটি পদ্ধতি. আমরা নতুন প্রার্থী মডেল দিয়ে গোপনীয়তা-রক্ষাকারী উপায়ে আগের কথোপকথন পুনরায় চালিয়ে এটি করি. এর ফলে রিলিজের আগে বাস্তবসম্মত প্রেক্ষাপটে নতুন মডেল কীভাবে সাড়া দেয়, নতুন অনাকাঙ্ক্ষিত আচরণ দেখা দেয় কি না এবং কত ঘন ঘন দেখা দিতে পারে তা আমরা অধ্যয়ন করতে পারি.
একাধিক GPT‑5‑সিরিজ Thinking ডিপ্লয়মেন্ট জুড়ে, ডিপ্লয়মেন্ট সিমুলেশন অনাকাঙ্ক্ষিত মডেল আচরণের হারের আমাদের অনুমান উন্নত করেছে, রিলিজের আগে নতুন ধরনের মিসঅ্যালাইনমেন্ট সামনে আনতে সাহায্য করেছে এবং মডেলগুলো যে বুঝে ফেলতে পারে তারা পরীক্ষিত হচ্ছে, সেই ঝুঁকি কমাতে সাহায্য করেছে. আমরা পদ্ধতিটি চ্যালেঞ্জিং এজেন্টিক রোলআউটেও প্রয়োগ করেছি, দেখিয়েছি যে এটি স্ট্যান্ডার্ড চ্যাটের বাইরে টুল ব্যবহারের সঙ্গে আরও জটিল এজেন্ট সেটিংসে বিস্তৃত হতে পারে, এবং অভ্যন্তরীণ মডেল ডিপ্লয়মেন্টের আগে ঝুঁকি মূল্যায়নেও ব্যবহৃত হতে পারে.
মডেল উন্নয়নের সময় আমরা ইতিমধ্যেই ডিপ্লয়মেন্ট সিমুলেশন থেকে পাওয়া অন্তর্দৃষ্টি ব্যবহার করে প্রচলিত মূল্যায়নের অদেখা দিক শনাক্ত করেছি এবং প্রশমন ও ডিপ্লয়মেন্ট সিদ্ধান্তে তথ্য দিয়েছি. পাইপলাইনটি চালানো সহজ করতে থাকলে, ভবিষ্যৎ মডেল উন্নয়ন প্রক্রিয়ায় এটি আরও বড় ভূমিকা নেবে বলে আমরা আশা করি.
শিল্পজুড়ে ব্যবহৃত প্রি-ডিপ্লয়মেন্ট মূল্যায়ন সাধারণত কৃত্রিম, হাতে লেখা, বা উৎপাদন প্রম্পটের মিশ্রণ নিয়ে গঠিত, যেগুলো ইচ্ছাকৃতভাবে কঠিন, উচ্চ-গুরুত্বপূর্ণ, বা প্রতিপক্ষীয় হিসেবে বেছে নেওয়া হয়. এসব মূল্যায়নের সাধারণত দুটি জড়িত লক্ষ্য থাকে: ডিপ্লয়মেন্ট ট্রাফিকে ঘটার সম্ভাবনা খুব কম এমন পরিস্থিতিতে স্ট্রেস-টেস্ট করলে মডেল কীভাবে সাড়া দেয় তা মূল্যায়ন করা, এবং অনাকাঙ্ক্ষিত মডেল আচরণ সম্পর্কে সাধারণ বোঝাপড়া অর্জন করা, যার মধ্যে নতুন অনাকাঙ্ক্ষিত আচরণ খুঁজে পাওয়া ও ডিপ্লয়মেন্ট-সময়ের ফ্রিকোয়েন্সি পূর্বাভাস অন্তর্ভুক্ত.
প্রথম লক্ষ্যের জন্য প্রচলিত মূল্যায়ন এখনও অত্যন্ত গুরুত্বপূর্ণ হলেও, দ্বিতীয় লক্ষ্যের ক্ষেত্রে নন-টেইল ঝুঁকির জন্য ডিপ্লয়মেন্ট সিমুলেশন একটি বড় অগ্রগতি (আমাদের পরীক্ষায়, আমাদের পদ্ধতি 200,000 বার্তার মধ্যে 1-এর কম ফ্রিকোয়েন্সির আচরণ মাপবে বলে আশা করা যায় না). ডিপ্লয়মেন্ট সিমুলেশনের শক্তি আসে প্রচলিত মূল্যায়নের কিছু মূল চ্যালেঞ্জ এড়িয়ে যাওয়া থেকে:
- কভারেজ: মূল্যায়ন প্রম্পট সব সম্ভাব্য ধরনের অনাকাঙ্ক্ষিত মডেল আচরণ কভার করবে—এ বিষয়ে আত্মবিশ্বাসী হওয়া কঠিন. নতুন ধরনের অনাকাঙ্ক্ষিত আচরণ মাপতে নতুন মূল্যায়ন তৈরি করতে হয়, এবং কোন ক্ষতি মাপতে হবে তা জানতে হয়. এটি সময় ও শ্রমসাধ্য হতে পারে, এবং সময়ের সঙ্গে মূল্যায়ন স্যাচুরেট হতে পারে.
- নির্বাচনজনিত পক্ষপাত: প্রচলিত মূল্যায়ন সাধারণত নির্দিষ্ট অনাকাঙ্ক্ষিত মডেল আচরণ মাথায় রেখে তৈরি হয়, এমনভাবে বেছে নেওয়া হয় যা আগে ঘটে যাওয়া প্রেক্ষাপটের দিকে পক্ষপাতী. এতে পূর্ণ ডিপ্লয়মেন্ট বণ্টনের বিস্তৃত পরিসরে এমন আচরণের ঘটনার হার সম্পর্কে তাদের অনুমান কম তথ্যবহুল হতে পারে.
- মডেলের কাছে পরীক্ষা হিসেবে চেনা পড়া: মডেলগুলো ক্রমেই বুঝতে পারছে যে তাদের পরীক্ষা করা হচ্ছে, যা তাদের আচরণ এবং নিরাপত্তা সম্পর্কে আমাদের পরবর্তী পরিমাপ বিকৃত করতে পারে. OpenAI-তে আমরা যে প্রচলিত মূল্যায়নের অনেকগুলো ব্যবহার করি সেগুলোও উৎপাদন ট্রাফিক থেকে নেওয়া এবং এই সমস্যায় পড়ে না, তবে শিল্পজুড়ে ব্যবহৃত অনেক প্রচলিত মূল্যায়নের জন্য এটি একটি সাধারণ উদ্বেগ.
ডিপ্লয়মেন্ট সিমুলেশনের মূল কৌশলটি সহজ: আমরা ডিপ্লয়মেন্ট থেকে সাম্প্রতিক কথোপকথন নিই, পুরোনো মডেলের মূল অ্যাসিস্ট্যান্ট উত্তর সরিয়ে দিই, এবং রিলিজের জন্য প্রার্থী মডেল দিয়ে তা নতুন করে তৈরি করি. নতুন ব্যর্থতার ধরন খুঁজে কমপ্লিশনগুলো মূল্যায়ন করি, এবং এই ডিপ্লয়মেন্ট-সদৃশ বণ্টনের ফ্রিকোয়েন্সির ভিত্তিতে ডিপ্লয়মেন্ট-সময়ের অনাকাঙ্ক্ষিত আচরণের ফ্রিকোয়েন্সি অনুমান করি. রিলিজের পর বাস্তব ডিপ্লয়মেন্ট ট্রাফিকেও আমরা একই পরিমাপ করতে পারি, যাতে আমাদের প্রি-ডিপ্লয়মেন্ট পূর্বাভাস যাচাই করা যায়.
ডিপ্লয়মেন্ট সিমুলেশন উপরে উল্লিখিত তিন সীমাবদ্ধতা উল্লেখযোগ্যভাবে কমায়: সাম্প্রতিক ব্যবহারের প্রতিনিধিত্বকারী মূল্যায়ন প্রম্পটের বণ্টন ব্যবহার করে স্যাম্পলিং পক্ষপাত মোকাবিলা করা হয়. প্রতিনিধিত্বশীল প্রম্পটসহ ডিপ্লয়মেন্ট সিমুলেশন কভারেজ নিয়ে উদ্বেগও কমাতে পারে: আরও বেশি ট্রাফিক সিমুলেট করলেই অনাকাঙ্ক্ষিত মডেল আচরণের বেশি কভারেজ পাই. কম্পিউট ও কভারেজের এই বিনিময় গুরুত্বপূর্ণ, কারণ এটি ঝুঁকি মূল্যায়নের এই অক্ষের গুণমানকে আরও মূল্যায়ন তৈরির জন্য প্রয়োজনীয় হাতে-কলমে প্রচেষ্টার বদলে কম্পিউটের সঙ্গে স্কেল করায়. মডেলগুলোও ডিপ্লয়মেন্ট সিমুলেশনের মাধ্যমে পাওয়া কথোপকথন ও বাস্তব ডিপ্লয়মেন্ট ট্রাফিকের মধ্যে পার্থক্য করতে পারে বলে মনে হয় না.
চিত্র এক: আমাদের ডিপ্লয়মেন্ট সিমুলেশন পাইপলাইনের সারসংক্ষেপ
এলাকা | প্রচলিত মূল্যায়ন | মোতায়েন সিমুলেশন |
কভারেজ | কম প্রাদুর্ভাব কিন্তু উচ্চ তীব্রতার ঝুঁকির ক্ষেত্রে এটি বেশি কার্যকর, যেগুলোর জন্য আমাদের কভারেজ নিশ্চিত করতে হবে | ডেপ্লয়মেন্ট ট্র্যাফিকের ক্ষেত্রে আমরা যে ধরনের ঝুঁকির সম্মুখীন হতে পারি, তার পরিসর বোঝার জন্য এটি আরও ভালো |
প্রতিনিধিত্বশীলতা / পক্ষপাত | নির্দিষ্ট অতীত বা পূর্বাভাসিত ঝুঁকি মূল্যায়নের উপর দৃষ্টি নিবদ্ধ করা, এমনকি সেইসব আচরণের ক্ষেত্রেও যেগুলোর মোতায়েনকালে প্রচলন অত্যন্ত কম | বর্তমান মোতায়েনকৃত ট্র্যাফিকের ক্ষেত্রে একটি নির্দিষ্ট ব্যাপকতার উপরে উদ্ভূত ঝুঁকির প্রতিনিধি |
মূল্যায়ন সচেতনতা | সম্ভাব্য সুস্পষ্ট পরীক্ষার সংকেত (যেমন, সিন্থেটিক ডেটার ক্ষেত্রে), যদি না ডেপ্লয়মেন্ট ডেটা দিয়ে মূল্যায়ন তৈরি করা হয়. | মোতায়েন-সদৃশ প্রেক্ষাপট মূল্যায়ন সচেতনতাকে উল্লেখযোগ্যভাবে হ্রাস করে বলে মনে হয় |
প্রচেষ্টা | কাস্টম প্রম্পট ডিস্ট্রিবিউশন এবং সেটআপের জন্য উল্লেখযোগ্যভাবে বেশি ম্যানুয়াল প্রচেষ্টার প্রয়োজন হয় | এর জন্য এককালীন পরিকাঠামোগত খরচ প্রয়োজন, এবং তারপর এটি ডেপ্লয়মেন্ট থেকে প্রিফিক্স ও পরিচিত অনাকাঙ্ক্ষিত আচরণ থেকে গ্রেডার পুনরায় ব্যবহার করে |
প্রচলিত মূল্যায়ন ও ডিপ্লয়মেন্ট সিমুলেশনের উচ্চ-স্তরের তুলনা
ডিপ্লয়মেন্ট সিমুলেশন মূল্যায়ন করতে, GPT‑5.4 Thinking-এর জন্য 20 ধরনের অনাকাঙ্ক্ষিত আচরণের ডিপ্লয়মেন্ট-সময়ের ফ্রিকোয়েন্সি সম্পর্কে আমরা পূর্বাভাস প্রি-রেজিস্টার করেছি. আমরা GPT‑5‑সিরিজের Thinking মডেলগুলোর অন্যান্য ডিপ্লয়মেন্ট জুড়েও পশ্চাদ্দৃষ্টিমূলক গবেষণা চালিয়েছি. আমরা যে মডেল আচরণ বিশ্লেষণ করি তা মিসঅ্যালাইনমেন্ট এবং নিষিদ্ধ কনটেন্ট—উভয় বিভাগই কভার করে, যেগুলো আমরা সিস্টেম কার্ডে রিপোর্ট করে আসছি (যেমন মডেল টুল সম্পর্কে মিথ্যা বলা, বা নিষিদ্ধ যৌন কনটেন্ট আউটপুট করা). এই ফলাফলের জন্য আমরা অনাকাঙ্ক্ষিত মডেল আচরণের মাত্র 20টি বিভাগ ট্র্যাক করি এবং কেবল নতুন মিসঅ্যালাইনড আচরণ খুঁজি, তবে ডিপ্লয়মেন্ট সিমুলেশন একটি সাধারণ কৌশল যা যে কোনো ডিপ্লয়মেন্ট-সময়ের মডেল বৈশিষ্ট্য সিমুলেট করতে প্রয়োগ করা যেতে পারে.
আমরা যে উৎপাদন ট্রাফিক ব্যবহার করেছি সেটিও GPT‑5‑সিরিজের Thinking মডেল থেকে ছিল. আমাদের মূল্যায়ন চালানোর আগে, আমরা স্বয়ংক্রিয়ভাবে অ্যাকাউন্ট-সংযুক্ত শনাক্তকারী ও শনাক্তযোগ্য তথ্য সরিয়ে দিয়েছি. আমাদের প্রাইভেসি পলিসি অনুযায়ী, আমরা কেবল সেই ব্যবহারকারীদের ChatGPT ট্রাফিক বিশ্লেষণ করেছি যারা তাদের ডেটা মডেল উন্নতির জন্য ব্যবহারের অনুমতি দেন. এই মূল্যায়নগুলো থেকে আমরা শুধু সমষ্টিগত ফলাফল রিপোর্ট করি. মোট, আমরা GPT‑5 Thinking থেকে GPT‑5.4 ডিপ্লয়মেন্ট পর্যন্ত প্রায় 1.3 মিলিয়ন পরিচয়-মোছা কথোপকথন বিশ্লেষণ করেছি, যা আগস্ট 2025 থেকে মার্চ 2026 পর্যন্ত বিস্তৃত.
ডিপ্লয়মেন্ট সিমুলেশন দ্বারা উৎপন্ন প্রি-ডিপ্লয়মেন্ট ঝুঁকি মূল্যায়নের গুণমান আমরা তিনটি প্রধান উপায়ে মূল্যায়ন করি:
- ট্যাক্সোনমি কভারেজ: রিলিজ-পরবর্তী অডিটিং কি আমাদের প্রাথমিক খারাপ আচরণের ট্যাক্সোনমিতে অনুপস্থিত কোনো গুরুত্বপূর্ণ মিসঅ্যালাইনড আচরণ সামনে এনেছিল?
- দিকনির্দেশগত নির্ভুলতা: পরিচিত আচরণের ক্ষেত্রে ডিপ্লয়মেন্টে প্রাবল্য বাড়বে নাকি কমবে, সিমুলেশন কি তা সঠিকভাবে পূর্বাভাস দিয়েছে?
- হার ক্যালিব্রেশন: আমাদের প্রি-ডিপ্লয়মেন্ট অনুমান কি পরে ডিপ্লয়মেন্টে পর্যবেক্ষণ করা হারের কাছাকাছি ছিল? ভালো হার ক্যালিব্রেশন অর্জনে দিকনির্দেশগত নির্ভুলতার চেয়ে বেশি কিছু দরকার, তাই এটিই সর্বোচ্চ সম্ভাব্য মানদণ্ড.
ডিপ্লয়মেন্ট সিমুলেশনের সময় মডেলগুলো কতটা বুঝতে পারে যে তারা মূল্যায়নে আছে, তাও আমরা মাপি; এবং ভিন্ন ধরনের ডিপ্লয়মেন্ট ট্রাফিক ও চ্যালেঞ্জিং টুল-ব্যবহার সেটিংসে পদ্ধতিটি কতটা রোবাস্ট তা পরীক্ষা করি.
GPT‑5‑সিরিজ Thinking ডিপ্লয়মেন্ট জুড়ে, ডিপ্লয়মেন্ট সিমুলেশন প্রকৃত ঝুঁকির হার নির্ধারণে চ্যালেঞ্জিং-প্রম্পট বেসলাইনকে ছাড়িয়ে গেছে, রিলিজের আগে ক্যালকুলেটর হ্যাকিং সামনে আনতে পেরেছে, এবং মডেলের কাছে সম্ভাব্যভাবে ডিপ্লয়মেন্ট থেকে আলাদা করা যায় না বলে মনে হয়েছে.
আমাদের পূর্বাভাসের সারসংক্ষেপ. GPT‑5‑সিরিজের Thinking মডেল ডিপ্লয়মেন্টের সব পূর্বাভাসের ভিজ্যুয়ালাইজেশনের জন্য চিত্র দুই দেখুন. GPT‑5.4 Thinking-এর পূর্বাভাসগুলো প্রি-রেজিস্টার করা ছিল, আর অন্যগুলো ছিল পশ্চাদ্দৃষ্টিমূলক পূর্বাভাস. সমষ্টিগতভাবে, আমাদের পূর্বাভাসগুলোর মধ্যম গুণনীয় ত্রুটি ছিল 1.5x (যেমন অনাকাঙ্ক্ষিত আচরণের হার যদি 100k-তে 10 হয়, তাহলে এটি 100k-তে 15 বা 6.67 হার অনুমানের সমতুল্য হবে). যদিও আমাদের পদ্ধতির টেইল ত্রুটি আনুমানিক 10x বড় হতে পারে, নিচে আলোচিত মতো আমাদের সিমুলেশন পাইপলাইনে আরও উন্নতি করলে তা উল্লেখযোগ্যভাবে কমানো যাবে বলে আমরা আশা করি.
চিত্র দুই. পূর্ববর্তী ডিপ্লয়মেন্ট ডেটার ভিত্তিতে ডিপ্লয়মেন্ট-সময়ের অনাকাঙ্ক্ষিত আচরণের ডিপ্লয়মেন্ট সিমুলেশন ফ্রিকোয়েন্সি পূর্বাভাস. 5.1 → 5 সংকেতটি বোঝায় যে আমরা GPT‑5 থেকে GPT‑5.1 দিয়ে প্রিফিক্স পুনরায় নমুনা করছি, অর্থাৎ GPT‑5‑এর ডেটার ভিত্তিতে GPT‑5.1‑এর ডিপ্লয়মেন্ট সিমুলেট করছি. GPT‑5.1‑এ অসামঞ্জস্যপূর্ণ আচরণের সর্বোচ্চ হার ছিল “ক্যালকুলেটর হ্যাকিং”, যা আমরা আগে(একটি নতুন উইন্ডোতে খোলে) আলোচনা করেছি.
ডিপ্লয়মেন্ট সিমুলেশন পূর্বাভাসকে বেসলাইনের সঙ্গে তুলনা. প্রি-ডিপ্লয়মেন্ট ঝুঁকি মূল্যায়নের জন্য সঠিকভাবে অনুমান করা সবচেয়ে গুরুত্বপূর্ণ বিভাগগুলো হলো যেগুলোর ঘটনার হার মডেল ডিপ্লয়মেন্টের পরে বড় পরিবর্তন দেখায় (যেমন >= 1.5x). এই উপসেটে, মডেল ডিপ্লয়মেন্টে কোনো নির্দিষ্ট অনাকাঙ্ক্ষিত আচরণের প্রাবল্য বাড়বে নাকি কমবে (চিত্র তিন, বাম) এবং তার সঠিক ডিপ্লয়মেন্ট-সময়ের ঘটনার হার অনুমান (চিত্র তিন, ডান)—উভয় ক্ষেত্রেই ডিপ্লয়মেন্ট সিমুলেশন বেসলাইনের চেয়ে যথেষ্ট ভালো. আমরা দুটি প্রধান বেসলাইন ব্যবহার করি: একটি চ্যালেঞ্জিং প্রম্পটস বেসলাইন, যা আমরা বর্তমানে সিস্টেম কার্ড ও লঞ্চ সিদ্ধান্তে ব্যবহার করি, এবং নতুন মডেলের অনুমান হিসেবে আগের ডিপ্লয়মেন্টের হার ব্যবহার করার একটি সরল বেসলাইন.
চিত্র তিন. ডিপ্লয়মেন্ট সিমুলেশন স্থির eval-এর তুলনায় ঘটনার পরিবর্তনের দিক (বাম) এবং সঠিক উৎপাদন হার (ডান)—উভয়ই ভালোভাবে পূর্বাভাস দেয়.
আমাদের পাইপলাইনে সিমুলেশন ত্রুটির উৎস. আমরা আমাদের পাইপলাইনে বর্তমান ত্রুটির উৎসগুলোও অধ্যয়ন করেছি. বিশেষ করে, বড় টেইল ত্রুটি ডিপ্লয়মেন্ট সিদ্ধান্তের জন্য পাইপলাইনকে কম বিশ্বাসযোগ্য করে: উদাহরণস্বরূপ, নির্দিষ্ট ধরনের অনাকাঙ্ক্ষিত আচরণে বড় পূর্বাভাসিত বৃদ্ধি দেখলে, যদি জানা থাকে যে পাইপলাইনে কখনো সখনো বড় ত্রুটিও হয়, তাহলে এটি নির্ভরযোগ্য অনুমান নাকি পাইপলাইনের আর্টিফ্যাক্ট—সে বিষয়ে সন্দেহ তৈরি হয়. সম্ভাব্য ত্রুটির দুটি প্রধান উৎস আছে:
- পুনঃনমুনাকরণ পরিবেশের বিশ্বস্ততা ত্রুটি: উৎপাদন হার সঠিকভাবে অনুমান করতে, আমাদের সিমুলেশন পাইপলাইনকে যতটা সম্ভব বাস্তবসম্মত হতে হবে. এটি আংশিকভাবে একটি প্রকৌশল সমস্যা (উৎপাদন ট্রাফিকের জন্য ব্যবহৃত একই পাইপলাইন ব্যবহার করে মডেল থেকে স্যাম্পলিং), এবং আংশিকভাবে এমন টুলের জন্য আকর্ষণীয় চ্যালেঞ্জ, যেগুলোর ক্রমাগত বদলাতে থাকা বাহ্যিক রিসোর্সে পড়া/লেখার অ্যাক্সেস দরকার (যেমন ওয়েব সার্চ বা লোকাল ফাইলের সঙ্গে ইন্টারঅ্যাক্ট করা). বাস্তব ডিপ্লয়মেন্ট ও তার সিমুলেশন থেকে পূর্বাভাস তুলনা করে আমরা সিমুলেশন বিশ্বস্ততা ত্রুটি আলাদা করতে পারি (অর্থাৎ, ইতিমধ্যেই ডিপ্লয় করা মডেলের ডিপ্লয়মেন্ট সিমুলেট করা).
- প্রম্পট বণ্টন পরিবর্তন ত্রুটি: ডিপ্লয়মেন্ট সিমুলেশন নিয়ে বড় উদ্বেগ হলো, যেকোনো মডেল ডিপ্লয়মেন্ট ইনপুটে বণ্টনগত পরিবর্তন ঘটাবে, বিশেষত ব্যবহারকারীরা নতুন মডেল সুবিধার সঙ্গে খাপ খাওয়ালে. সাম্প্রতিক প্রম্পট বনাম বাস্তবায়িত ডিপ্লয়মেন্টের প্রম্পট ব্যবহার করে ডিপ্লয়মেন্ট সিমুলেট করার সময় অনুমান তুলনা করে আমরা প্রম্পট বণ্টন ত্রুটি আলাদা করি.
চিত্র চার-এ দেখা যায়, আমাদের পাইপলাইনের ত্রুটির বড় অংশ—বিশেষ করে টেইল ত্রুটির ক্ষেত্রে—বর্তমানে সিমুলেশন বিশ্বস্ততার কারণে. এটি ভালো খবর, কারণ প্রম্পট বণ্টন পরিবর্তন কমানোর তুলনায় সিমুলেশন বিশ্বস্ততা উন্নত করা সাধারণত সহজ হবে বলে আমরা আশা করি. আমরা আরও দেখি যে আগের ডিপ্লয়মেন্টের সবচেয়ে সাম্প্রতিক ডেটা ব্যবহার করলে প্রম্পট বণ্টন পরিবর্তন ত্রুটি কমতে পারে. আরও বিস্তারিত গবেষণা প্রবন্ধে পাওয়া যাবে.
চিত্র চার: পুনঃনমুনাকরণ পরিবেশের বিশ্বস্ততা আমাদের অনুমানের সবচেয়ে বড় ত্রুটির উৎস বলে মনে হয়, বিশেষ করে সবচেয়ে চরম ত্রুটির ক্ষেত্রে.
স্বয়ংক্রিয় অডিটিং এসব ডিপ্লয়মেন্টে প্রবর্তিত একমাত্র নতুন মিসঅ্যালাইনমেন্ট খুঁজে পেয়েছে. আমরা যে ডিপ্লয়মেন্ট উইন্ডো অধ্যয়ন করেছি, সিমুলেটেড ডিপ্লয়মেন্ট-ভিত্তিক আমাদের স্বয়ংক্রিয় অডিটিং পাইপলাইন রিলিজের আগে ‘ক্যালকুলেটর হ্যাকিং’ সামনে আনত, যা বিশ্লেষিত ChatGPT ট্রাফিকে শনাক্ত করা একমাত্র নতুন মিসঅ্যালাইনমেন্ট ছিল. ক্যালকুলেটর হ্যাকিং হলো রিওয়ার্ড হ্যাকিংয়ের একটি রূপ, যেখানে মডেল ব্রাউজার টুলকে ক্যালকুলেটর হিসেবে ব্যবহার করে, কিন্তু কাজটিকে সার্চ হিসেবে উপস্থাপন করে. এর অর্থ এই নয় যে বৃহৎ-পরিসরের অডিটিং প্রতিটি নতুন ব্যর্থতা ধরবে, তবে এটি দেখায় বাস্তবসম্মত প্রেক্ষাপট কেন গুরুত্বপূর্ণ: এগুলো এমন আচরণ উদ্রেক করতে পারে যা সংকীর্ণ eval সেটে সরাসরি কখনো উঠে নাও আসতে পারে, এমনকি সিমুলেশন সিড করতে ব্যবহৃত মূল ট্রাফিকে সেগুলো না থাকলেও.
ডিপ্লয়মেন্ট-সদৃশ প্রেক্ষাপট ব্যবহারের আরেকটি সুবিধা হলো, মডেল যখন বুঝতে পারে তাকে পরীক্ষা করা হচ্ছে তখন যে বিকৃতি দেখা দেয় তা কমতে পারে. পূর্ববর্তী গবেষণায়, আমরা এবং অন্যরা(একটি নতুন উইন্ডোতে খোলে) দেখেছি যে মডেলগুলো প্রায়ই জানে কখন তাদের পরীক্ষা করা হচ্ছে. উদাহরণস্বরূপ, মডেলগুলো তাদের চেইন-অফ-থটে ভাবতে পারে তাদের কী বিষয়ে পরীক্ষা করা হচ্ছে, একজন মূল্যায়নকারী কী পছন্দ করতে পারেন, এবং – যদি তারা খারাপ আচরণ করে – তারা ধরা পড়বে কি না. এটি অ্যালাইনমেন্ট মূল্যায়নের জন্য সমস্যা তৈরি করে: যদি কোনো মডেল শুধু এই কারণে ভালো আচরণ করে যে সে মনে করে তাকে পরীক্ষা করা হচ্ছে, তাহলে ডিপ্লয় করা হয়েছে জানতে পারার পর সে নিরাপদে আচরণ করবে—এ বিষয়ে আমরা কীভাবে আস্থা তৈরি করব?
আমরা দেখাই যে বাস্তব ডিপ্লয়মেন্ট ডেটার ওপর ভিত্তি নয় এমন প্রচলিত মূল্যায়নের তুলনায় ডিপ্লয়মেন্ট সিমুলেশন মডেলগুলোর প্রদর্শিত মূল্যায়ন-সচেতনতার স্তর উল্লেখযোগ্যভাবে কমায়. আমরা মূল্যায়ন-সচেতনতা তিনভাবে মাপি: কোনো ট্র্যাজেক্টরি উৎপাদন থেকে এসেছে নাকি মূল্যায়ন থেকে, তা শ্রেণিবদ্ধ করতে একটি মডেলকে জিজ্ঞাসা করে; অ্যালাইনমেন্টের জন্য মূল্যায়িত হওয়া নিয়ে স্পষ্ট বক্তব্যের জন্য চেইন-অফ-থট পর্যবেক্ষণ করে; এবং মেটাগেমিং(একটি নতুন উইন্ডোতে খোলে) অর্থাৎ তত্ত্বাবধান নিয়ে যেকোনো যুক্তি পর্যবেক্ষণ করে. সিমুলেটেড ডিপ্লয়মেন্ট ট্রাফিক তিনটি পরিমাপেই বাস্তব ডিপ্লয়মেন্ট ট্রাফিকের সঙ্গে ঘনিষ্ঠভাবে মিলে গেছে. উদাহরণস্বরূপ, GPT‑5.2 বাস্তব উৎপাদন ট্রাফিককে 5.4% সময় এবং সিমুলেটেড ট্রাফিককে 5.1% সময় মূল্যায়ন-সদৃশ হিসেবে লেবেল করেছে, আর প্রচলিত মূল্যায়ন (যেমন SWE-Bench বা MonorepoBench, যা প্রধানত কৃত্রিম উদাহরণ দিয়ে গঠিত) প্রায় 100% সময় মূল্যায়ন হিসেবে শ্রেণিবদ্ধ হয়েছে.
চিত্র পাঁচ. মূল্যায়ন-সচেতনতা তুলনা: বাস্তব উৎপাদন ট্রাফিক ও সিমুলেটেড ট্রাফিক eval শনাক্তকরণ, মৌখিকভাবে প্রকাশিত অ্যালাইনমেন্ট মূল্যায়ন-সচেতনতা, এবং মেটাগেমিংয়ে একই ধরনের হার দেখায়, আর প্রচলিত eval ডেটাসেটে হার অনেক বেশি.
পদ্ধতিটি স্ট্যান্ডার্ড চ্যাট মোডের বাইরে বিস্তৃত হতে পারে কি না পরীক্ষা করতে, আমরা চ্যালেঞ্জিং এজেন্টিক কোডিং সেটিংসের জন্য ডিপ্লয়মেন্ট সিমুলেট করাও অধ্যয়ন করেছি. নির্দিষ্টভাবে, GPT‑5.5‑ভিত্তিক কোডিং এজেন্টগুলোর অভ্যন্তরীণ ডিপ্লয়মেন্ট সিমুলেট করতে আমরা GPT‑5.4 থেকে 120,000টি অভ্যন্তরীণ কর্মচারী এজেন্টিক ট্র্যাজেক্টরি ব্যবহার করি. এর দুটি উদ্দেশ্য আছে: এটি দেখায় অভ্যন্তরীণ ডিপ্লয়মেন্টের ঝুঁকি মূল্যায়নের জন্যও ডিপ্লয়মেন্ট সিমুলেশন ব্যবহার করা যায়, এবং দেখায় যে সতর্ক টুল সিমুলেশনের মাধ্যমে এজেন্টিক সেটিংসেও সিমুলেশন বিশ্বস্ততা উচ্চ করা সম্ভব.
উপরে আমরা আলোচনা করেছি যে সিমুলেশন বিশ্বস্ততা আমাদের বর্তমান পাইপলাইনের ত্রুটির অন্যতম প্রধান উৎস. ডিপ্লয়মেন্ট সিমুলেশন বাস্তবসম্মত করার একটি চ্যালেঞ্জ হলো, টুলগুলোকে বাস্তবসম্মতভাবে কাজ করতে হয়, এমনকি যখন তাদের ক্রমাগত বদলাতে থাকা বাহ্যিক রিসোর্সে পড়া/লেখার অ্যাক্সেস দরকার হয় (যেমন ওয়েব সার্চ বা লোকাল ফাইলের সঙ্গে ইন্টারঅ্যাক্ট করা).
এটি বিশেষত এজেন্টিক ডিপ্লয়মেন্টের মতো সেটিংসে চ্যালেঞ্জিং: একটি একক এজেন্ট ট্র্যাজেক্টরি শত শত টুল কল, রিপোজিটরির অবস্থা, নেটওয়ার্ক প্রতিক্রিয়া, বা ক্ষণস্থায়ী ব্যর্থতার ওপর নির্ভর করতে পারে. এতে বাস্তব টুল অ্যাক্সেস দিয়ে পুনঃনমুনাকরণ করা একই সঙ্গে চ্যালেঞ্জিং এবং সম্ভাব্য বিপজ্জনক হয়. এ কারণে, লাইভ সিস্টেমে টুল কল প্রয়োগ করার বদলে আমরা আরেকটি LLM দিয়ে সেগুলো সিমুলেট করি. আমরা দেখাই যে এই LLM-কে অতিরিক্ত সুবিধা দেওয়া বাস্তবতার জন্য এবং তাই অনুমানের গুণমানের জন্য অপরিহার্য.
আমরা টুল-সিমুলেটর মডেলকে মূল চূড়ান্ত-টার্ন রোলআউট, কথোপকথনের সময়কার রিপোজিটরি, টুল-কল/প্রতিক্রিয়া জোড়ার একটি ডেটাবেস, এবং রিড-অনলি কানেক্টর দিই. এক পরীক্ষায় যেখানে একটি ডিসক্রিমিনেটর সিমুলেটেড রোলআউটকে বাস্তব রোলআউট থেকে আলাদা করার চেষ্টা করেছিল, বাস্তবতা 11.6% জয়ের হার থেকে 49.5%-এ উন্নত হয়, যা 50% সম্ভাবনা স্তরের কাছাকাছি.
চিত্র ছয়: টুল কল সিমুলেট করার সময় বেশি সুবিধা দিলে টুল-ভারী সেটিংসেও পুনঃনমুনাকরণের বাস্তবতা প্রায় বাস্তব স্যাম্পলিং থেকে আলাদা করা যায় না.
সিমুলেশন বিশ্বস্ততার অতিরিক্ত প্রমাণ হিসেবে, GPT‑5.4 দিয়ে GPT‑5.4 Codex thinking ট্রাফিক সিমুলেট করার সময় মিসঅ্যালাইনমেন্ট হারগুলো মোটামুটি ত্রুটিসীমার মধ্যে থাকে. বিপরীতে, আমাদের প্রি-ডিপ্লয়মেন্ট পরীক্ষায় GPT‑5.5 বেশিরভাগ বিভাগে বেশি মিসঅ্যালাইনড ছিল.
চিত্র সাত: টুল সিমুলেশনসহ, GPT‑5.4 দিয়ে পুনঃনমুনাকৃত কথোপকথন ও প্রকৃত GPT‑5.4 উৎপাদন ট্রাফিকের আচরণ হার বেশ মিল আছে – যা উচ্চ পুনঃনমুনাকরণ পরিবেশ বিশ্বস্ততা নির্দেশ করে. বিভাগগুলো সম্পর্কে আরও প্রেক্ষাপটের জন্য GPT‑5.5 সিস্টেম কার্ড(একটি নতুন উইন্ডোতে খোলে) দেখুন.
এই ফলাফলগুলো ইঙ্গিত করে যে আশপাশের টুল পরিবেশ যথেষ্ট বিশ্বস্ততার সঙ্গে সিমুলেট করা হলে ডিপ্লয়মেন্ট সিমুলেশন জটিল এজেন্ট সেটিংসে বিস্তৃত হতে পারে.
স্বাভাবিক প্রশ্ন হলো, ব্যক্তিগত উৎপাদন ট্রাফিকে অ্যাক্সেস ছাড়াই বাহ্যিক অডিটররা একই ধরনের কিছু সুবিধা পেতে পারেন কি না. আমরা 100,000টি WildChat কথোপকথন প্রিফিক্স হিসেবে ব্যবহার করে এটি পরীক্ষা করেছি. WildChat সাম্প্রতিক OpenAI উৎপাদন ডেটার তুলনায় কম নির্ভুল ছিল, কিন্তু তবুও তথ্যবহুল: সাম্প্রতিক উৎপাদন ডেটার গড় গুণনীয় ত্রুটি WildChat-এর চেয়ে কম ছিল (1.75× বনাম 2.44×), আর WildChat প্রায়ই উৎপাদন হারের আনুমানিক 3×-এর মধ্যে থেকেছে এবং সম্ভাবনার চেয়ে বেশি হারে ভালো মডেল শনাক্ত করেছে. আমরা WildChat-ধাঁচের মূল্যায়নকে ডেভেলপার-চালিত ডিপ্লয়মেন্ট সিমুলেশনের একটি আশাব্যঞ্জক পরিপূরক হিসেবে দেখি. এই বিষয়ে আরও ফলাফলের জন্য এই সহগামী Alignment ব্লগপোস্ট(একটি নতুন উইন্ডোতে খোলে) দেখুন.
ডিপ্লয়মেন্ট সিমুলেশন প্রতিপক্ষীয় মূল্যায়ন, রেড-টিমিং, এবং লক্ষ্যভিত্তিক টেইল-ঝুঁকি বিশ্লেষণের পরিপূরক, প্রতিস্থাপন নয়. কিছু অনাকাঙ্ক্ষিত মডেল আচরণ শনাক্ত করা চেইন-অফ-থট পর্যবেক্ষণযোগ্যতার ওপর নির্ভর করে: ভবিষ্যৎ মডেল যদি কম স্পষ্টভাবে যুক্তি দেয়, মূল ধাপ বাদ দেয়, বা উদ্দেশ্য আড়াল করতে শেখে, তাহলে আমরা এ ধরনের অনাকাঙ্ক্ষিত আচরণ শনাক্ত করতে নাও পারি. তদুপরি, উৎপাদন ডেটা ব্যক্তিগত হওয়ায়, প্রতিনিধিত্বশীল প্রেক্ষাপটে বর্তমানে বাহ্যিক অডিটরদের তুলনায় ডেভেলপারদের অ্যাক্সেস বেশি. আরও ভালো পাবলিক ডেটাসেট সেই ফাঁক কমাতে পারে.
ডিপ্লয়মেন্ট সিমুলেশন সবচেয়ে উপযোগী সেই আচরণের জন্য, যা স্যাম্পল করা প্রিফিক্সে দেখা দেওয়ার মতো যথেষ্ট ঘন ঘন ঘটে. দশ মিলিয়ন কথোপকথনে একবার ঘটে এমন ব্যর্থতা এক মিলিয়ন-স্যাম্পল রানে আবিষ্কৃত হওয়ার সম্ভাবনা কম, তাই প্রতিপক্ষীয় মূল্যায়ন, রেড-টিমিং, এবং লক্ষ্যভিত্তিক টেইল-ঝুঁকি বিশ্লেষণ এখনও প্রয়োজন. আমরা বর্তমানে একক অ্যাসিস্ট্যান্ট প্রতিক্রিয়া সিমুলেট করার ওপর ফোকাস করি, কারণ প্রাথমিক পরীক্ষায় একাধিক টার্ন সিমুলেট করে আমাদের অনুমানে অর্থবহ উন্নতি পাইনি. ভবিষ্যতে সিমুলেশন বিশ্বস্ততা উন্নত করার জন্য এটি একটি গুরুত্বপূর্ণ ক্ষেত্র হতে পারে.
পদ্ধতিটি প্রিফিক্স বণ্টনের ওপরও নির্ভর করে—যে কথোপকথনগুলোর মিশ্রণ পুনরায় নমুনা করা হচ্ছে. বড় পণ্য পরিবর্তন, নতুন টুল রিলিজ, বিশ্বঘটনা, বা মৌসুমি পরিবর্তনের পরে ব্যবহারকারীরা আরও সক্ষম মডেলের সঙ্গে কীভাবে ইন্টারঅ্যাক্ট করেন, ঐতিহাসিক ট্রাফিক তার সঙ্গে নাও মিলতে পারে. পূর্ণ প্রবন্ধের বিশ্লেষণ ইঙ্গিত করে যে উপলভ্য সবচেয়ে সাম্প্রতিক ডেটা ব্যবহার করে এই সমস্যা কমানো যায়.
ডিপ্লয়মেন্ট সিমুলেশন প্রি-ডিপ্লয়মেন্ট ঝুঁকি মূল্যায়নের একটি নতুন পদ্ধতি, যা অত্যাধুনিক ল্যাব ও মূল্যায়নকারীদের ভাষা মডেল বাস্তব জগতে কীভাবে আচরণ করতে পারে তা পূর্বাভাস দিতে এবং ডিপ্লয়মেন্টের আগে তাদের সৃষ্ট ঝুঁকি বুঝতে সাহায্য করে. এটি বিদ্যমান নিরাপত্তা মূল্যায়ন, রেড-টিমিং, এবং লক্ষ্যভিত্তিক বিশ্লেষণের পরিপূরক হিসেবে আরও উৎপাদন-সদৃশ পূর্বাভাস স্তর যোগ করে, যা ডিপ্লয়মেন্ট আচরণের অনুমান উন্নত করতে, মূল্যায়ন-সচেতনতার প্রভাব কমাতে, এবং রিলিজের পরে প্রি-ডিপ্লয়মেন্ট পূর্বাভাস যাচাইযোগ্য করতে পারে. প্রচলিত মূল্যায়নের পাশাপাশি ব্যবহৃত হলে, ডিপ্লয়মেন্ট সিমুলেশন মডেল ঝুঁকি মূল্যায়নকে আরও বাস্তবসম্মত, আরও পরিমাণগত, এবং ডিপ্লয়মেন্ট সিদ্ধান্তের জন্য আরও উপযোগী করতে সাহায্য করতে পারে.


