বিশ্বস্ত তৃতীয় পক্ষের মূল্যায়নের জন্য একটি যৌথ প্লেবুক
ফ্রন্টিয়ার মডেলের সেফগার্ড ও সক্ষমতার কার্যকর স্বাধীন মূল্যায়নের জন্য কী গুরুত্বপূর্ণ.
স্বাধীন, বিশ্বস্ত তৃতীয় পক্ষের মূল্যায়ন নিরাপত্তা ইকোসিস্টেমকে শক্তিশালী করতে গুরুত্বপূর্ণ ভূমিকা পালন করে. এই মূল্যায়নগুলো ফ্রন্টিয়ার মডেলের ওপর পরিচালিত হয়, যাতে গুরুত্বপূর্ণ সক্ষমতা ও নিরাপত্তা-সংক্রান্ত প্রশমন ব্যবস্থা নিয়ে দাবিগুলোর জন্য অতিরিক্ত প্রমাণ দেওয়া যায়. এই পোস্টে আমরা এখন পর্যন্ত শেখা কিছু পাঠ শেয়ার করছি এবং এমন মূল্যায়ন নকশার পদ্ধতি সুপারিশ করছি যা ফ্রন্টিয়ার মডেলকে বৈধভাবে মূল্যায়ন করতে পারে এবং যা এই ক্ষেত্রের উদীয়মান মানদণ্ড গঠনে সহায়ক হবে বলে আমরা আশা করি.
আগে অনেক মূল্যায়নে মডেলকে চ্যাটবটের মতো ধরা হতো: মূল্যায়নে একটি মডেলকে এমনভাবে প্রম্পট দেওয়া হতো যেন সে কোনো প্রশ্ন করা ব্যবহারকারী, মডেল উত্তর দিত, এবং একজন মূল্যায়নকারী আউটপুট বিচার করতেন. আজকের ফ্রন্টিয়ার মডেল আরও অনেক কিছু করতে পারে: তারা টুল ব্যবহার করতে পারে, বহু ধাপ জুড়ে তথ্য ধরে রাখতে পারে, এবং বৃহত্তর ওয়ার্কফ্লোর মধ্যে কাজ করতে পারে. এর মানে পারফরম্যান্স শুধু মডেলের ওপর নয়, কাজটি যে পরিবেশে ঘটে তার ওপরও, এবং তার কার্যক্রমকে সহজতর করে এমন সেটআপের ওপরও নির্ভর করে. এই ঘিরে থাকা সেটআপটিকেই আমরা “হারনেস” বলি, এবং এটি সিস্টেমের পারফরম্যান্সের গুরুত্বপূর্ণ দিকগুলো বদলে দিতে পারে, যেমন এটি কীভাবে টুল ব্যবহার করে, তথ্য ধরে রাখে, বা ভুল থেকে পুনরুদ্ধার করে.
এতে মূল্যায়ন কীভাবে পরিচালিত হওয়া দরকার এবং মূল্যায়ন প্রতিবেদনে পাঠকদের কী খুঁজে দেখা উচিত, তা বদলে যায়. আমাদের মতে, সবচেয়ে উপযোগী প্রতিবেদনগুলো ফলাফলের বাইরে আরও দুটি বিষয় স্পষ্টভাবে বর্ণনা করে: প্রথমত, মূল্যায়ন সেটআপটি কোন দাবি পরীক্ষা করার জন্য নকশা করা হয়েছিল তা নির্দিষ্ট করে, এবং দ্বিতীয়ত, মূল্যায়নের ফল বৈধ—এমন উপলভ্য প্রমাণ শেয়ার করে.
মূল্যায়নে পরীক্ষিত দাবিগুলো সাধারণত তিনটি ভাগের একটিতে পড়ে1:
- সক্ষমতা এলিসিটেশন: মূল্যায়নাধীন সক্ষমতাটি কি একটি মডেল বিশ্বাসযোগ্যভাবে প্রদর্শন করতে পারে?
- সেফগার্ড পারফরম্যান্স: মূল্যায়নাধীন আচরণ বা আক্রমণের বিরুদ্ধে পরীক্ষিত সেফগার্ডগুলো কতটা দৃঢ়?
- তুলনা: সমতুল্য শর্তে বিভিন্ন মডেলের পারফরম্যান্স কেমন?
মূল্যায়ন প্রতিবেদনগুলোকে আরও ব্যাখ্যা করতে হবে, মূল্যায়নকারীরা কীভাবে এমন প্রভাবগুলো পরীক্ষা করেছেন যা ফলাফলের বৈধতাকে প্রভাবিত করতে পারে. এর মধ্যে রয়েছে:
- রিওয়ার্ড হ্যাকিং: কাজ বা স্কোরারে শর্টকাট কাজে লাগিয়ে এমনভাবে কৃতিত্ব পাওয়া, যাতে সিস্টেমটি মূল্যায়নে মাপার উদ্দেশ্য থাকা আচরণটি প্রদর্শন না করেও ক্রেডিট পায়.
- প্রত্যাখ্যান: এমনভাবে প্রত্যাখ্যান করা, যাতে পরীক্ষাধীন আচরণ আড়াল হয়ে যায়.
- কনটামিনেশন: মূল্যায়নের কাজ, উত্তর, বা কাছাকাছি ভ্যারিয়েন্ট প্রশিক্ষণ ডেটায় ছিল বা মূল্যায়নের সময়, যেমন ব্রাউজিংয়ের মাধ্যমে, খুঁজে পাওয়া গেছে বলে অতিরিক্ত ভালো পারফর্ম করা.
- ত্রুটিপূর্ণ সমস্যা: কাজগুলো অবৈধ হওয়ায় কম পারফর্ম করা. কারণের মধ্যে থাকতে পারে অন্যায্য স্কোরিং (যেমন সঠিক উত্তরের জন্য অঘোষিত বাস্তবায়ন-সংক্রান্ত বিবরণ দরকার) এবং অমীমাংসনীয় পরিবেশ (যেমন গুরুত্বপূর্ণ ফাইল অনুপস্থিত বা অবিশ্বস্ত টুল).
- স্যান্ডব্যাগিং: মূল্যায়ন করা হচ্ছে—এমন সচেতনতা দেখালে ইচ্ছাকৃতভাবে কম পারফর্ম করা.
আমরা লক্ষ্য করেছি, দীর্ঘতর ট্রাজেক্টরিতে কাজ করা সিস্টেমগুলোর জন্য হারনেসের ভূমিকা বিশেষভাবে গুরুত্বপূর্ণ. যখন মডেল টুল ব্যবহার করতে পারে, অবস্থা ধরে রাখতে পারে, এবং বহু ধাপ জুড়ে ভুল থেকে পুনরুদ্ধার করতে পারে, তখন হারনেস পর্যবেক্ষিত পারফরম্যান্সের স্তর বদলে দিতে পারে, এমনকি মূল্যায়নে মূল্যায়নাধীন সক্ষমতাটি আদৌ দেখা যাবে কি না তাও নির্ধারণ করতে পারে. উদাহরণস্বরূপ, এমন একটি হারনেস যা অবস্থা সংরক্ষণ করে এবং ব্যর্থ কাজ পুনরায় চেষ্টা করে, সেটি একটি মডেলকে বহু-ধাপের কাজ শেষ করতে দিতে পারে, যা একই মডেল একটি সহজতর হারনেসে কখনও শেষ করতে পারে না.
নিচের সারণিতে আমরা মূল্যায়নকারীরা যে তিন ধরনের দাবি করতে চাইতে পারেন এবং প্রতিটি ধরনের দাবির জন্য আমাদের মতে যে হারনেস দরকার, তা আলাদা করেছি.
মূল্যায়ন যে দাবিটিকে সমর্থন করার চেষ্টা করছে | উপযুক্ত হারনেস নির্বাচন | যে প্রমাণ প্রতিবেদন করা উচিত |
শক্তিশালী এলিসিটেশনের অধীনে সক্ষমতা: সেটআপটি যখন সিস্টেমের সবচেয়ে শক্তিশালী বিশ্বাসযোগ্য পারফরম্যান্স বের করে আনার জন্য নকশা করা হয়, তখন সিস্টেম A টাইপ X-এর কাজ সম্পন্ন করতে পারে. | সিস্টেমটির জন্য সবচেয়ে শক্তিশালী বিশ্বাসযোগ্য এলিসিটেশন সেটআপ ব্যবহার করুন, যার মধ্যে থাকবে হারনেস, টুল, স্ক্যাফোল্ডিং এবং এমন বাজেট যা একজন দক্ষ ব্যবহারকারী যুক্তিসঙ্গতভাবে ব্যবহার করতে পারেন. | হারনেস ও টুল সেটআপ, এলিসিটেশন নির্দেশনা, অনুমোদিত বাজেট/প্রচেষ্টা, টোকেন/খরচ/সময়, এবং কেন এই সেটআপ দাবিকৃত সক্ষমতার একটি বিশ্বাসযোগ্য প্রক্সি. ভিন্ন অপ্টিমাইজড সেটআপে সিস্টেম তুলনা করলে, সেটিকে সিস্টেম-টু-সিস্টেম বা শক্তিশালী-এলিসিটেশন তুলনা হিসেবে লেবেল দিন. |
নিয়ন্ত্রিত তুলনা: একটি অভিন্ন মূল্যায়ন সেটআপে সিস্টেম A, সিস্টেম B-এর চেয়ে ভালো পারফর্ম করে. | কাজ, স্কোরিং এবং বাজেট স্থির রাখুন. হয় একটি অভিন্ন হারনেস/টুল সেটআপ ব্যবহার করুন, নয়তো আগে থেকেই নির্বাচিত একটি স্থির মানক হারনেসের সেট ব্যবহার করুন, যাতে তুলনাধীন সিস্টেমগুলোর জন্য যুক্তিসঙ্গত সর্বোচ্চ এলিসিটেশন নিশ্চিত হয়. | অভিন্ন কাজের সেট, টুল, স্কোরিং পদ্ধতি, হারনেস, বাজেট, টোকেন দক্ষতা/খরচ, এবং পরিচিত সীমাবদ্ধতা. কোডিং-এজেন্ট মূল্যায়নের ক্ষেত্রে, Codex CLI-এর মতো একটি ওপেন-সোর্স হারনেস বিভিন্ন সিস্টেমে একটি স্থির এজেন্ট লুপ ও টুল ইন্টারফেস দিতে পারে. সর্বোচ্চ এলিসিটেশনের জন্য আদর্শ পদ্ধতি হবে প্রতিটি কাজ ও সিস্টেমের জন্য আলাদা কাস্টম হারনেস অপ্টিমাইজ করা, কিন্তু বাস্তবে এটি বর্তমানে অকার্যকর. |
এলিসিটেড আক্রমণের অধীনে সেফগার্ডের দৃঢ়তা: সিস্টেম A-এর সেফগার্ডগুলো প্রাসঙ্গিক মডেল আচরণ বা এলিসিটেড আক্রমণের জন্য যথেষ্ট. | প্রাসঙ্গিক প্রতিপক্ষ-মডেলের অধীনে সবচেয়ে শক্তিশালী বিশ্বাসযোগ্য আক্রমণ বের করে আনার জন্য নকশা করা একটি সেফগার্ড-পরীক্ষা সেটআপ ব্যবহার করুন. | মূল্যায়নকারীরা কীভাবে প্রাসঙ্গিক মডেল আচরণ চিহ্নিত করেছেন, পরীক্ষিত সেফগার্ড কনফিগারেশন, এলিসিটেশন কৌশল, তা কার্যকর করতে ব্যবহৃত হারনেস, এবং অনুমোদিত বাজেট বা প্রচেষ্টা. |
সক্ষমতা-সংক্রান্ত দাবি তার পেছনের এলিসিটেশনের মতোই শক্তিশালী: মূল্যায়নকারীদের এমন হারনেস বেছে নিতে হবে যা কাজ এবং মূল্যায়নে মাপতে চাওয়া সক্ষমতার সঙ্গে সবচেয়ে ভালো মানায়. একই শর্তে সিস্টেম তুলনার জন্য একটি মানক হারনেস উপযুক্ত হতে পারে, কিন্তু যদি তা মডেলকে কাজটি করতে সহায়ক নির্দিষ্ট হারনেস বৈশিষ্ট্য বাদ দেয়, তবে এটি সক্ষমতাকে কম দেখাতে পারে. উদাহরণস্বরূপ, OpenAI-এর সাইবার রেঞ্জে GPT‑5.5‑এর পারফরম্যান্স দেখায়, দীর্ঘ বহু-ধাপের টুল ব্যবহারের প্রয়োজন এমন কাজে হারনেসের পছন্দ কীভাবে মাপা সক্ষমতাকে বাস্তবভাবে বদলে দিতে পারে: ইন্টারঅ্যাকশন দীর্ঘ হলে কাজ-সংশ্লিষ্ট প্রেক্ষাপট ধরে রাখতে হারনেস কমপ্যাকশন ব্যবহার করলে মডেলটি ভালো পারফর্ম করে. এটি দেখায় যে কিছু মডেলের ক্ষেত্রে, কমপ্যাকশন বাদ দেওয়া হারনেস পারফরম্যান্স যথেষ্ট মাত্রায় বের করে আনতে ব্যর্থ হবে.
উচ্চতর সাফল্যের হার ভালো
অন্যান্য প্রকাশিত মূল্যায়নও2 দেখায় যে হারনেস ও বাজেটের পছন্দ মূল্যায়নের ফল বদলে দেয়. পরীক্ষাকালীন কম্পিউট বাড়ালে মূল্যায়ন কোন সক্ষমতা বের করে আনে তা উল্লেখযোগ্যভাবে বদলে যেতে পারে, বিশেষ করে এমন ক্ষেত্রে যেখানে সাফল্য যাচাই করা সহজ, যেমন অনেক সাইবার কাজ. UK AISI-এর সাইবার রেঞ্জ মূল্যায়নে(একটি নতুন উইন্ডোতে খোলে), বাজেট 10M থেকে 100M টোকেনে বাড়ালে পারফরম্যান্স সর্বোচ্চ 59% পর্যন্ত উন্নত হয়েছে, এবং পরীক্ষিত সর্বোচ্চ বাজেটেও পারফরম্যান্স বাড়ছিল. এটি বিস্তারিতভাবে জানালে মূল্যায়ন আরও ব্যাখ্যাযোগ্য হয়: এতে পাঠকরা দেখতে পারেন ফলাফলটি পরীক্ষিত এলিসিটেশন সেটআপের ওপর কীভাবে নির্ভর করছে. অতিরিক্ত বাজেটেও যদি পারফরম্যান্স বাড়তেই থাকে, তবে স্কোরটিকে সেই হারনেস ও বাজেটের অধীনে পারফরম্যান্স হিসেবে বর্ণনা করা উচিত, মাপা সক্ষমতার সর্বোচ্চ সীমা হিসেবে নয়. সক্ষমতা প্রায়ই সম্পদ-নির্ভর হয়, এমন কোনো স্থির পরিমাণ নয় যা একবারেই চূড়ান্তভাবে মাপা যায়. যেখানে বারবার চেষ্টার মাধ্যমে সাফল্য মাপা যায়, সেখানে প্রতিবেদনে শুধু নির্দিষ্ট টোকেন বাজেটে সাফল্যের হার নয়, প্রতি সফল সমাধানে প্রত্যাশিত খরচও বিবেচনা করা উচিত. এতে তীব্রতা ব্যাখ্যা করা সহজ হতে পারে: বারবার চেষ্টার খরচ যদি প্রাসঙ্গিক হুমকি-মডেলের মধ্যে থাকে, তবে কম সাফল্যের হারও বাস্তবে তাৎপর্যপূর্ণ হতে পারে. সক্ষমতা-সংক্রান্ত দাবির ক্ষেত্রে, এড়ানো সম্ভব এমন কম-এলিসিটেশন একটি পরিমাপগত ব্যর্থতা: যদি হারনেস বা বাজেট সিস্টেমকে এমন আচরণ দেখাতে বাধা দেয় যা সে অন্যথায় দেখাতে পারত, তবে স্কোরটি দাবিকৃত সক্ষমতাকে মাপে না. যেখানে মূল্যায়নকারীরা বাস্তবে যতদূর সম্ভব এলিসিটেশন বাড়িয়েছেন এবং তবুও পারফরম্যান্স বাড়ছে, সেখানে প্রতিবেদনে তা স্পষ্টভাবে বলা উচিত এবং এটিও পরিষ্কার করা উচিত যে ফলাফলটি কেবল একটি নিম্ন-সীমার অনুমান.
সেফগার্ড পরীক্ষা আক্রমণ সফল হতে পারে কি না, এবং তা কতটা গুরুতর হতে পারে, তা কম দেখাতে পারে যদি আক্রমণকারীদের জন্য উপলভ্য সম্পদ কাস্টম হারনেসসহ ধরা না হয়. UK AISI-এর GPT‑5.5 সাইবার মূল্যায়নে(একটি নতুন উইন্ডোতে খোলে), তাদের বিশেষজ্ঞ রেড টিমিং একটি ইউনিভার্সাল জেলব্রেক খুঁজে পায় যা OpenAI প্রদত্ত ক্ষতিকর কুয়েরিগুলোর জুড়ে, বহু-টার্ন এজেন্টিক সেটিংসহ, নীতিভঙ্গকারী সাইবার কনটেন্ট বের করে আনে. তারা মডেলের আক্রমণ পারফরম্যান্স শক্তিশালী করতে একটি কাস্টম হারনেস তৈরিতে Codex ব্যবহার করে: এটি ইন্টারঅ্যাকশনের মধ্যে পুনর্ব্যবহারযোগ্য সেফগার্ড-বাইপাস প্যাটার্ন এমবেড করেছিল, টার্ন ও ব্লক জুড়ে সেই প্যাটার্ন সংরক্ষণ করেছিল, এবং OpenAI প্রদত্ত ক্ষতিকর সাইবার কুয়েরিগুলোর জুড়ে তা প্রয়োগ করেছিল. সেফগার্ড পরীক্ষা প্রতিপক্ষের সঙ্গে সামঞ্জস্যপূর্ণ হওয়া উচিত. যদি দাবি হয় বিশেষজ্ঞ অপব্যবহারের বিরুদ্ধে দৃঢ়তা নিয়ে, তবে পরীক্ষায় একটি নির্ধারিত বাজেটের মধ্যে সবচেয়ে শক্তিশালী বিশ্বাসযোগ্য এন্ড-টু-এন্ড আক্রমণ কৌশল মূল্যায়ন করা উচিত, যার মধ্যে সেই কৌশল সংরক্ষণ ও পুনর্ব্যবহারের জন্য প্রয়োজনীয় যেকোনো হারনেসও থাকবে. অন্যথায়, ফলাফল ভুল ক্যালিব্রেশনের ঝুঁকি তৈরি করে: তা হয়তো কেবল সহজতর প্রম্পটিংয়ের বিরুদ্ধে প্রতিরোধের একটি সংকীর্ণ দাবি সমর্থন করবে, এলিসিটেশন পদ্ধতি কার্যকর হওয়ার পর আক্রমণ কতটা গুরুতর হয় এবং তার সাফল্যের সম্ভাবনা দুটিই মিস করতে পারে, এবং অতিরিক্ত বাজেট দিলে সমস্যা কতটা সম্ভাব্য বা গুরুতর তা অতিরঞ্জিতও করতে পারে.
মানক হারনেস তুলনারও সময় ও প্রেক্ষাপট আছে, তবে মূল্যায়নকারীদের স্পষ্ট করে বলা উচিত কেন একটি সঙ্গতিপূর্ণ হারনেস-সেট ব্যবহার করা উপযুক্ত এবং এটি কোন দাবিকে সমর্থন করতে পারে. METR-এর time-horizon মূল্যায়ন(একটি নতুন উইন্ডোতে খোলে) একটি বিস্তৃত, যথাযথভাবে স্থির মূল্যায়ন সেটআপের উদাহরণ: এটি মূল্যায়নাধীন সিস্টেমগুলোর মধ্যে তুলনাযোগ্য ফল তৈরি করার জন্য নকশা করা হয়েছে. METR একটি সাধারণ ফল নির্ধারণ করে, অর্থাৎ এমন একটি মানবিক কাজের সাধারণ সময়কাল যেখানে একটি AI এজেন্ট নির্দিষ্ট নির্ভরযোগ্যতার স্তরে সফল হবে বলে পূর্বাভাস দেওয়া হয়. এটি একসঙ্গে প্রতিবেদন করা প্রতিটি অনুমান-ব্যাচে একটি অভিন্ন টাস্ক স্যুট, স্কোরিং পদ্ধতি, ফিটিং পদ্ধতি, এবং Triframe and ReAct(একটি নতুন উইন্ডোতে খোলে)-এর মতো পুনর্ব্যবহারযোগ্য অল্প কিছু স্ক্যাফোল্ড প্রয়োগ করে. যখন METR টাস্ক স্যুট সম্প্রসারণ করে এবং Vivaria নামের একটি ফ্রেমওয়ার্ক থেকে Inspect নামের আরেকটিতে মূল্যায়ন অবকাঠামো সরিয়ে নেয়, তখন তারা সেই পরিবর্তনটি (Time Horizon 1.1 update(একটি নতুন উইন্ডোতে খোলে)) প্রতিবেদন করে এবং নতুন মূল্যায়ন সেটআপে মডেলগুলোকে পুনর্মূল্যায়ন করে. এটাই একটি মানক মূল্যায়ন সেটআপের মূল্য, যার মধ্যে একটি সঙ্গতিপূর্ণ হারনেস-সেটও রয়েছে: এটি পাঠকদের আত্মবিশ্বাস দেয় যে স্কোরের পার্থক্য সত্যিই তুলনাধীন সিস্টেমগুলোর পার্থক্যকে প্রতিফলিত করছে, পরিমাপের সেটআপের পরিবর্তনকে নয়.
আমরা সুপারিশ করি, তৃতীয় পক্ষের মূল্যায়ন প্রতিবেদনগুলোতে তাদের মূল্যায়ন সেটআপ কোন ধরনের দাবিকে সমর্থন করার জন্য তৈরি তা উল্লেখ করা হোক; যা পরীক্ষা করা হয়েছে তা সেই বিস্তৃত দাবিকে কতটা প্রতিফলিত করে তা বর্ণনা করা হোক; ফল গঠনে ভূমিকা রাখা হারনেস-নির্বাচনগুলো ব্যাখ্যা করা হোক; মূল্যায়নভেদে সেই নির্বাচনগুলো কখন বদলায় তা বিস্তারিত বলা হোক; এবং ফল কীভাবে তৈরি হয়েছে ও দাবির ক্ষেত্রে তা কতটা সাধারণীকরণযোগ্য তা দেখাতে সহায়ক প্রমাণ অন্তর্ভুক্ত করা হোক.
মডেল যত বেশি সক্ষম হচ্ছে, মূল্যায়ন স্কোর ভুলভাবে ব্যাখ্যা করা তত সহজ হয়ে উঠছে. বাস্তব সক্ষমতার তুলনায়, একটি মডেল যদি বুঝতে পারে যে তাকে মূল্যায়ন করা হচ্ছে এবং কৌশলগতভাবে কম পারফর্ম করে, তবে মূল্যায়ন স্কোর কৃত্রিমভাবে কমে যেতে পারে. মডেল যদি কাজ, প্রম্পট, স্কোরার বা হারনেসে কোনো শর্টকাট কাজে লাগায়, তবে স্কোর ফুলে-ফেঁপে বাড়তে পারে. কনটামিনেশনও ফল বিকৃত করতে পারে (যেখানে মডেল কাজ সমাধান না করেই উত্তর আগে থেকে জানে বা খুঁজে পায়), অথবা এমন “ত্রুটিপূর্ণ” সমস্যাও পারে যা অস্পষ্ট, ভুলভাবে স্কোর করা, অমীমাংসনীয়, বা অনিচ্ছাকৃত শর্টকাটের জন্য ঝুঁকিপূর্ণ. তাই মূল্যায়ন প্রতিবেদনগুলোতে শিরোনাম-স্কোরের সঙ্গে এসব ঝুঁকি নিয়ে আলোচনা থাকা উচিত, যাতে পাঠকেরা বিচার করতে পারেন স্কোরগুলো উদ্দেশ্যকৃত আচরণ প্রতিফলিত করছে কি না.
হারনেস, বাজেট, টুল, স্কোরিং নিয়ম, মনিটর এবং পর্যালোচনা পদ্ধতি—সবই প্রভাব ফেলে একটি এজেন্ট উদ্দেশ্যকৃত কাজটি সমাধান করছে, তা এড়িয়ে যাচ্ছে, মুখস্থ থেকে দিচ্ছে, নাকি এর চারপাশ দিয়ে অন্য পথ খুঁজে নিচ্ছে. একটি বিশ্বস্ত প্রতিবেদন এসব পরীক্ষা দৃশ্যমান করে: প্রতিবার মূল্যায়ন চালানোর সময় মূল্যায়নকারীদের এসব আচরণের জন্য নমুনা পর্যালোচনা করা উচিত.
রিওয়ার্ড হ্যাকিং
রিওয়ার্ড হ্যাকিং বলতে এমনভাবে উচ্চ মূল্যায়ন স্কোর অর্জন করা বোঝায়, যা উদ্দেশ্যকৃত সক্ষমতাকে প্রতিফলিত করে না. এখানে উদ্বেগ হলো, মূল্যায়নে যে কাজ মাপার কথা ছিল তা না করে সিস্টেমটি কাজ, স্কোরার, প্রম্পট বা হারনেসকে কাজে লাগিয়ে কৃতিত্ব পেয়ে যায়. GPT 5.4-এর ওপর METR-এর মূল্যায়ন(একটি নতুন উইন্ডোতে খোলে) দেখায় কেন এটি গুরুত্বপূর্ণ: প্রথম পর্যায়ে মডেলটি এমন হারে কাজ সফল করেছিল যা আনুমানিক 13-ঘন্টার time horizon হিসেবে ধরা পড়ত, কিন্তু মানব পর্যালোচনায় দেখা যায় ওই সাফল্যের কিছু অংশ রিওয়ার্ড হ্যাকিং থেকে এসেছে, এবং রিওয়ার্ড হ্যাকিংবিহীন ঘটনাগুলোই শুধু ধরে ফল সংশোধন করলে অনুমানটি প্রায় 6 ঘন্টায় নেমে আসে. মূল্যায়নকারীদের এমন সমন্বয়ের প্রয়োজন আছে কি না তা যাচাই করা উচিত এবং প্রয়োজন হলে তা স্পষ্টভাবে জানানো উচিত: কোন আপাত সাফল্য বাতিল হয়েছে, কেন বাতিল হয়েছে, এবং ফল কতটা সেই বিচারের ওপর নির্ভর করছে—পাঠকেরা তা দেখতে পারলে সক্ষমতার অনুমান অনেক বেশি উপযোগী হয়.

প্রত্যাখ্যান
সেফগার্ডের কারণেও মডেল সক্ষমতা-মূল্যায়নে কম পারফর্ম করতে পারে. একটি মডেল মূল্যায়নের কাজ সম্পন্ন করার বদলে তা প্রত্যাখ্যান করলে, তার সক্ষমতার তুলনায় মূল্যায়ন পারফরম্যান্স কম দেখা যেতে পারে. তাই প্রতিবেদনে ব্যাখ্যা করা উচিত, প্রত্যাখ্যান মূল্যায়নের ফলের অংশ ছিল কি না, আর যদি হয়ে থাকে, তবে তার কারণে কতগুলো নমুনা ক্ষতিগ্রস্ত হয়েছে.
কনটামিনেশন
সার্বজনিক বা পুনর্ব্যবহৃত বেঞ্চমার্কের ক্ষেত্রে কনটামিনেশন সবচেয়ে বেশি গুরুত্বপূর্ণ. যদি কাজ, উত্তর, বা কাছাকাছি ভ্যারিয়েন্ট প্রশিক্ষণ ডেটায় থাকে বা ব্রাউজিং-সক্ষম এজেন্ট তা খুঁজে পেতে পারে, তবে পারফরম্যান্স মডেলের সক্ষমতার বদলে মুখস্থ জ্ঞান বা রিট্রিভালকে প্রতিফলিত করতে পারে. সম্ভব হলে মূল্যায়নকারীদের ব্যক্তিগত বা নতুনভাবে নির্মিত কাজকে অগ্রাধিকার দেওয়া উচিত এবং সমাধানের আগে মডেল কাজ-নির্দিষ্ট বিবরণ পুনরুৎপাদন করছে কি না তা পরীক্ষা করা উচিত.
ত্রুটিপূর্ণ সমস্যা
ত্রুটিপূর্ণ সমস্যার মধ্যে এমন পরিস্থিতি পড়ে, যেমন কোনো সমস্যা ভুলবশত সমাধান-অযোগ্য হয়ে যাওয়া. ত্রুটিপূর্ণ সমস্যা যথেষ্ট সাধারণ(একটি নতুন উইন্ডোতে খোলে), তাই এগুলোকে বৈধতার একটি মানক ঝুঁকি হিসেবে বিবেচনা করা উচিত. এর মধ্যে রয়েছে ভুল ground truth, অস্পষ্ট প্রম্পট, অনুপস্থিত ফাইল, অস্থির সেবা, অন্যায্য স্কোরিং মানদণ্ড, এবং এমন পরিবেশ যা লুকানো উত্তর-ফাইল বা ground-truth patch-সহ রিপোজিটরির ইতিহাসের মতো শর্টকাট উন্মুক্ত করে.
স্যান্ডব্যাগিং
কোনো মডেল বা সিস্টেমের স্যান্ডব্যাগিং বলতে বোঝায়, শক্তিশালী পারফরম্যান্স কোনো উদ্দেশ্যের সঙ্গে সংঘর্ষ করলে কৌশলগতভাবে কম পারফর্ম করা. Apollo-এর GPT‑5.5 মূল্যায়ন(একটি নতুন উইন্ডোতে খোলে) এটি পরীক্ষা করেছে এমন একটি প্রেক্ষাপট তৈরি করে, যেখানে মডেলটি বুঝতে পারে যে উচ্চ মূল্যায়ন স্কোর unlearning শুরু করতে পারে বা deployment আটকে দিতে পারে. তবুও GPT‑5.5 সঠিক উত্তর দিয়েছে, যা কৌশলগত কম পারফরম্যান্সের আচরণগত প্রমাণ খুব কম থাকার ইঙ্গিত দেয়3. তবে তাদের রিজনিং ট্রেস পর্যালোচনা গুরুত্বপূর্ণ প্রেক্ষাপট যোগ করেছে: Apollo দেখেছে, স্যান্ডব্যাগিং-শর্তের 52% নমুনায় alignment-evaluation awareness-এর মাঝারি বা তার বেশি লক্ষণ ছিল, যেখানে counterfactual-এ তা ছিল 0%. এই প্রমাণ ফলাফলের ব্যাখ্যাকে জটিল করে তোলে, কিন্তু শেষ পর্যন্ত পাঠকদের আরও বেশি সংকেত দেয়: তারা আশ্বস্তকারী আচরণগত ফলও দেখতে পারেন, আবার সেটিকে অতিরিক্ত ব্যাখ্যা না করার কারণও দেখতে পারেন.
শক্তিশালী দাবির জন্য আচরণ বের করে আনার উপযুক্ত হারনেস যেমন দরকার, তেমনি ফলটি নির্ভরযোগ্য তা দেখাতে বৈধতা-পরীক্ষাও দরকার. হারনেস ও বৈধতা-পরীক্ষা মূল্যায়নের ফলের অংশ—এই আমাদের দৃষ্টিভঙ্গি বাস্তবে আমরা কীভাবে তৃতীয় পক্ষের মূল্যায়নকে সমর্থন করি, তা নির্ধারণ করে:
- আমরা মূল্যায়নকারীদের সঙ্গে নির্দিষ্ট সর্বোচ্চ-এলিসিটেশন নির্দেশনা শেয়ার করছি.
- আমরা সক্ষমতা-মূল্যায়নকারীদের বলছি OpenAI মডেলের জন্য Codex-কে একটি সাধারণ ন্যূনতম মান হিসেবে ব্যবহার করতে: পরীক্ষাগুলো অন্তত সেই একই এজেন্টিক ইন্টারফেসে একটি বেসলাইন চালাবে, যার ওপর ব্যবহারকারীরা নির্ভর করতে পারেন, কেবল সরলীকৃত মডেল ইন্টারফেসে নয়.
- প্রতারণা, স্যান্ডব্যাগিং বা ইভ্যালুয়েশন সচেতনতা মূল্যায়নের জন্য যেখানে প্রয়োজন, সেখানে আমরা রিজনিং ট্রেস এবং অন্যান্য মধ্যবর্তী উপাদানও উপলভ্য করছি. GPT‑5 থেকে OpenAI মূল্যায়নে METR এবং Apollo এই অ্যাক্সেস ব্যবহার করেছে.
- সবশেষে, প্রেক্ষাপট ব্যবস্থাপনা ও টুল অ্যাক্সেস থেকে শুরু করে retry আচরণ, স্কোরিং এবং সম্পদ-বাজেট পর্যন্ত—কখন এবং কীভাবে হারনেসের পছন্দ ফলকে বাস্তবভাবে বদলে দেয় তা আরও গভীরভাবে বোঝার গবেষণাকে আমরা অগ্রাধিকার দিচ্ছি.
এই সুপারিশগুলো শুধু পৃথক মূল্যায়ন প্রতিবেদন উন্নত করার জন্য নয়, বরং ফ্রন্টিয়ার AI মূল্যায়ন ও প্রতিবেদন নিয়ে উদীয়মান জাতীয় (একটি নতুন উইন্ডোতে খোলে)এবং আন্তর্জাতিক (একটি নতুন উইন্ডোতে খোলে)মানদণ্ড গঠনে সহায়তা করার উদ্দেশ্যেও করা হয়েছে. আগামীতে, তৃতীয় পক্ষের মূল্যায়ন মানদণ্ডে সিদ্ধান্তগ্রহণকারীদের বোঝার জন্য যথেষ্ট বিস্তারিত থাকা উচিত যে নির্দিষ্ট মূল্যায়নগুলো কোন দাবিকে সমর্থন করে, কোন সিস্টেম পরীক্ষা করা হয়েছে, কীভাবে ফল বের করে আনা হয়েছে, এবং মূল্যায়নকারীরা কীভাবে তার বৈধতা পরীক্ষা করেছেন. এজেন্টিক সক্ষমতা গুরুত্বপূর্ণ এমন কাজের ওপর পরীক্ষিত ফ্রন্টিয়ার সিস্টেমের ক্ষেত্রে, বিস্তারিতের মধ্যে থাকা উচিত (যেকোনো নিরাপত্তা বা গোপনীয়তা-সংক্রান্ত উদ্বেগ সাপেক্ষে):
- দাবি: মূল্যায়নটি সিস্টেম তুলনা করছে, সক্ষমতার সর্বোচ্চ সীমা অনুমান করছে, নাকি সেফগার্ড পরীক্ষা করছে.
- মূল্যায়নের বিষয়বস্তু: কাজ বা কাজের বণ্টন সম্পর্কে এতটুকু বিস্তারিত, যাতে পাঠকেরা বুঝতে পারেন মূল্যায়নটি আসলে কোন দক্ষতা, আচরণ বা ব্যর্থতার ধরন পরীক্ষা করছে.
- পরীক্ষিত সিস্টেম: মডেল, রিজনিং সেটিং, টুল অ্যাক্সেস, হারনেস এবং সেফগার্ড.
- বাজেট: টার্ন, টোকেন, প্রচেষ্টা/retry, wall-clock সময়, inference খরচ, এবং যেখানে প্রযোজ্য সেখানে প্রতি সফল সমাধানে প্রত্যাশিত খরচ.
- এলিসিটেশন পদ্ধতি: ফল বের করে আনতে ব্যবহৃত হারনেস-নির্বাচন, এবং যা পরীক্ষা করা হয়েছে তা করা বিস্তৃত দাবিকে কতটা প্রতিফলিত করে.
- বৈধতা-পরীক্ষা: মূল্যায়নকারীরা কীভাবে রিওয়ার্ড হ্যাকিং, ইভ্যালুয়েশন সচেতনতা, কনটামিনেশন, প্রত্যাখ্যান, স্যান্ডব্যাগিং এবং ফলকে দুর্বল করতে পারে এমন অন্যান্য আচরণ খুঁজেছেন, এবং নিশ্চিত হওয়া ঘটনাগুলো স্কোরিং বা ব্যাখ্যাকে কীভাবে প্রভাবিত করেছে.
যে মানদণ্ডে হারনেস-নির্বাচন বা বৈধতা-পরীক্ষা বাদ পড়ে, তা একটি সিস্টেম কী করতে পারে তা কম দেখাতে পারে বা নিরাপত্তা-সংক্রান্ত দাবিতে আস্থাকে অতিরঞ্জিত করতে পারে. শক্তিশালী হারনেস ও এলিসিটেশন পদ্ধতি তৈরি করা এখনও একটি উন্মুক্ত গবেষণা ক্ষেত্র, এবং এটি আরও অনুসন্ধান ও বিনিয়োগের একটি প্রধান অগ্রাধিকার হওয়া উচিত.
লেখক
শব্দকোষ
এই পোস্টে আমরা বেশ কিছু বিশেষায়িত পরিভাষা ব্যবহার করেছি বলে, নিচে একটি শব্দকোষ যুক্ত করেছি যেখানে আমরা কী বোঝাচ্ছি তার সহজ ভাষার ব্যাখ্যা দেওয়া হয়েছে:
এজেন্টিক সিস্টেম: এমন একটি সিস্টেম যা কেবল একটি প্রম্পটের একক উত্তর দেওয়ার বদলে, টুল ব্যবহার করে, কাজের অবস্থা ধরে রেখে এবং একটি পরিবেশে কাজ করে বহু ধাপে একটি কাজ সম্পন্ন করতে পারে.
মূল্যায়ন-রায়: প্রমাণ কোনো দাবি, ঝুঁকি-সংক্রান্ত উপসংহার, বা নিশ্চয়তা-সংক্রান্ত অবস্থানকে সমর্থন করে কি না সে বিষয়ে একটি বিস্তৃত সিদ্ধান্ত, যা মূল্যায়ন ডেটা, নথি পর্যালোচনা, সাক্ষাৎকার, প্রক্রিয়া পর্যালোচনা এবং অন্যান্য প্রাসঙ্গিক উপাদানের ওপর ভিত্তি করে হতে পারে.
কমপ্যাকশন: দীর্ঘ সময় চলা প্রক্রিয়ায় কাজ-সংশ্লিষ্ট প্রেক্ষাপট সংরক্ষণের পদ্ধতি.
কনফিগারেশন: মডেলের নামের বাইরে, সুনির্দিষ্টভাবে পরীক্ষিত সিস্টেম ও মূল্যায়নের শর্তাবলি.
কনটামিনেশন: যখন মূল্যায়নের কাজ, উত্তর, বা কাছাকাছি ভ্যারিয়েন্ট কোনো মডেলের প্রশিক্ষণ ডেটায় থাকে বা মূল্যায়নের সময় খুঁজে পাওয়া যায় (যেমন ব্রাউজিংয়ের মতো টুলের মাধ্যমে), ফলে পারফরম্যান্স মডেলের প্রকৃত সাধারণীকরণ ক্ষমতার চেয়ে বেশি বলে মনে হয়.
এলিসিটেশন: মূল্যায়নের সময় কোনো সিস্টেম থেকে একটি সক্ষমতা বা আচরণ বের করে আনার চেষ্টা করার প্রক্রিয়া.
পরিবেশ: যে কাজের প্রেক্ষাপটে একটি সিস্টেমকে পরীক্ষা করা হয়. এর মধ্যে মূল্যায়নের সময় এজেন্ট যে বাহ্যিক অবস্থার সঙ্গে মিথস্ক্রিয়া করে এবং পরিবর্তন আনে, যেমন একটি টার্মিনাল পরিবেশ বা একটি ভিডিও গেম, সেগুলোও অন্তর্ভুক্ত.
ইভ্যালুয়েশন: একটি মূল্যায়ন-রায়ের মধ্যে নির্দিষ্ট পরীক্ষা বা পরিমাপ.
ইভ্যালুয়েশন সচেতনতা: ইভ্যালুয়েশন সচেতনতা বলতে বোঝায়, একটি মডেল বুঝতে পারা, বা বুঝতে পারছে বলে মনে হওয়া, যে তাকে মূল্যায়ন করা হচ্ছে এবং সেই প্রেক্ষাপটে সম্ভাব্যভাবে তার আচরণ সামঞ্জস্য করা. এটি এমনভাবে দেখা যেতে পারে যে মডেলটি স্পষ্টভাবে পরীক্ষা হওয়া নিয়ে যুক্তি করছে, মূল্যায়নের উদ্দেশ্য অনুমান করছে, বা ফলাফল তার বিচার বা মোতায়েনকে প্রভাবিত করবে বলে ধরে নিয়ে আচরণ বদলাচ্ছে.
হারনেস: মডেলমুখী সেই কাঠামো যা একটি মডেলকে কাজ সম্পাদন করতে দেয়: প্রম্পট, টুল, ইন্টারফেস, নিয়ন্ত্রণ-যুক্তি, মেমরি, পুনরায় চেষ্টা, ভ্যালিডেটর, এবং মডেলকে ঘিরে থাকা অন্যান্য সহায়ক কাঠামো.
সর্বোচ্চ এলিসিটেশন: একটি নির্ধারিত বাজেটের মধ্যে কোনো সিস্টেম যে সবচেয়ে শক্তিশালী বিশ্বাসযোগ্য পারফরম্যান্স বা ব্যর্থতার ধরন দেখাতে পারে তা খুঁজে বের করার উদ্দেশ্যে করা পরীক্ষা, কেবল একটি মানক হারনেসে সিস্টেমটিকে একবার চালানোর বদলে.
রিজনিং ট্রেস: একটি পরীক্ষার সময় মডেলের মধ্যবর্তী যুক্তি-প্রক্রিয়ার রেকর্ড.
রিওয়ার্ড হ্যাকিং: মূল্যায়নকারীর উদ্দেশ্যের বাইরে কোনো শর্টকাট বা আচরণের মাধ্যমে উচ্চ স্কোর অর্জন করা.
সেফগার্ড: একটি মডেল বা পণ্যের চারপাশে প্রয়োগ করা ফিল্টার, মনিটর, ব্লকিং সিস্টেম এবং অন্যান্য সুরক্ষা.
স্যান্ডব্যাগিং: মূল্যায়নে এমনভাবে কৌশলগতভাবে কম পারফর্ম করা, যা ফলাফলকে দুর্বল করে.
স্কোরিং: পারফরম্যান্স কীভাবে মাপা হবে বা কোনো কাজ সফল হয়েছে কি না তা নির্ধারণের পদ্ধতি.
মানক হারনেস: এমন হারনেস যা নির্দিষ্ট কোনো মডেল বা কাজ অনুযায়ী কাস্টমাইজ না করে সব সিস্টেমে একই রাখা হয়, যাতে ফলাফলের পার্থক্য পরীক্ষিত মডেলের কারণে হয়েছে বলে নির্ধারণ করা সহজ হয়.
সময়-দিগন্ত: নির্দিষ্ট নির্ভরযোগ্যতায় একটি সিস্টেম যে দৈর্ঘ্যের কাজ সম্পন্ন করতে পারে, যা প্রায়ই একই কাজ একজন মানুষের করতে কত সময় লাগত তা দিয়ে প্রকাশ করা হয়.
টুল অ্যাক্সেস: মূল্যায়নের সময় মডেলের জন্য উপলভ্য বাহ্যিক টুল.
ট্রাজেক্টরি: একটি কাজ সম্পন্ন করার সময় সিস্টেম যে ধাপে-ধাপে পথ অনুসরণ করে.
ইউনিভার্সাল জেলব্রেক: একক আক্রমণ-প্যাটার্ন যা বহু প্রম্পট বা কাজ জুড়ে একটি সিস্টেমকে সেফগার্ড এড়িয়ে যেতে বাধ্য করে.
পাদটীকা
- 1
এই পোস্টে তৃতীয় পক্ষের কীভাবে মিসঅ্যালাইনমেন্ট বা propensity-সম্পর্কিত দাবিগুলো মূল্যায়ন করা উচিত, তা নির্ধারণের চেষ্টা করা হয়নি. ওই মূল্যায়নগুলোতে হারনেসের পছন্দ কীভাবে প্রভাব ফেলে তা বোঝার জন্য আরও কাজ দরকার, বিশেষ করে কারণ দীর্ঘতর সময়-দিগন্তের আচরণ সমর্থনকারী হারনেস মূল্যায়নকারীদের নজরদারির প্রয়োজন এমন অনিচ্ছাকৃত আচরণের ধরনও বদলে দিতে পারে.
- 2
HAL(একটি নতুন উইন্ডোতে খোলে) এজেন্ট মূল্যায়ন থেকে আরেকটি উদাহরণ দেয়: CORE-Bench(একটি নতুন উইন্ডোতে খোলে)-এ, হারনেসকে Claude Code-এ বদলালে একই বেঞ্চমার্কে মাপা পারফরম্যান্স এবং খরচের প্রোফাইল—দুটিই বদলেছে. অন্যান্য প্রকাশ্য উদাহরণের মধ্যে রয়েছে SWE-agent(একটি নতুন উইন্ডোতে খোলে), SeeAct(একটি নতুন উইন্ডোতে খোলে), ScienceAgentBench(একটি নতুন উইন্ডোতে খোলে), CORE-Bench(একটি নতুন উইন্ডোতে খোলে), এবং Inspect Cyber(একটি নতুন উইন্ডোতে খোলে); প্রতিটিই পাঠকদের জানায় কোন ইন্টারফেস বা হারনেস থেকে স্কোরটি এসেছে.
- 3
Sandbagging QA-এর উভয় ভ্যারিয়েন্টে 100% এবং strategic-deception sandbagging টাস্কে 99.6% স্কোর করেছে.


