আজ, আমরা gpt-oss-safeguard-এর একটি গবেষণা প্রিভিউ রিলিজ করছি, নিরাপত্তা শ্রেণিবিণ্যাসের জন্য আমাদের ওপেন-ওয়েট রিজনিং মডেল, দুইটি সাইজে পাওয়া যায়: gpt-oss-safeguard-120b এবং gpt-oss-safeguard-20b। এই মডেলগুলি আমাদের gpt-oss ওপেন মডেলের ফাইন-টিউন করা সংস্করণ এবং একই অনুমোদিত Apache 2.0 লাইসেন্সে পাওয়া যাবে, এর ফলে যে কেউ সেগুলি অবাধে ব্যবহার, পরিবর্তন এবং প্রয়োগ করতে পারবে। আজ থেকে উভয় মডেল Hugging Face(একটি নতুন উইন্ডোতে খোলে) থেকে ডাউনলোড করা যাবে।
gpt-oss-safeguard মডেল ইনফারেন্স সময়ে ডেভেলপার-প্রদত্ত নীতিকে সরাসরি ব্যাখ্যা করতে যুক্তি ব্যবহার করে—ডেভেলপারের নির্দেশনা মোতাবেক ব্যবহারকারীর মেসেজ, সমাপ্তি এবং সম্পূর্ণ চ্যাট শ্রেণিবদ্ধ করে। সর্বদা ডেভেলপার সিদ্ধান্ত নেয় কোন নীতি ব্যবহার করতে হবে, তাই প্রতিউত্তরগুলি আরও প্রাসঙ্গিক এবং ডেভেলপারের ব্যবহারের ক্ষেত্রে উপযোগী হয়। মডেলটি চেন অফ থট (চিন্তা-শৃঙ্খল) ব্যবহার করে, মডেলটি কীভাবে সিদ্ধান্ত গ্রহণ করছে তা বোঝার জন্য ডেভেলপার রিভিউ করতে পারে। এছাড়াও, নীতিটি ইন্টারফরেন্সের সময় প্রদান করা হয়, মডেলে প্রশিক্ষিত হওয়ার পরিবর্তে, তাই পারফরমেন্স বাড়াতে ডেভেলপার সহজেই নীতিগুলি পুনরাবৃত্তি করে সংশোধন করতে পারে। এই পদ্ধতি, যা আমরা প্রাথমিকভাবে অভ্যন্তরীণ ব্যবহারের জন্য ডেভলপ করেছি, লার্জ লেবেলযুক্ত উদাহরণ থেকে পরোক্ষভাবে সিদ্ধান্ত বাউন্ডারি অনুমান করার জন্য ক্লাসিফায়ারপ্রশিক্ষণের সাধারণ পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে অধীক নমনীয়।
gpt-oss-safeguard ডেভলপারদেরকে ব্যবহারিক ক্ষেত্রে সবচেয়ে উপযুক্ত পলিসি লাইন টানতে সক্ষম করে। উদাহরণস্বরূপ, একটি ভিডিও গেমিং আলোচনা ফোরাম গেমে প্রতারণা নিয়ে আলোচনা করে এমন পোস্ট শ্রেণিবদ্ধ করতে একটি নীতিমালা প্রণয়ন করতে চাইতে পারেন, অথবা একটি পণ্য রিভিউ সাইট তার নিজস্ব নীতি ব্যবহার করে নকল বলে মনে হতে পারে এমন রিভিউগুলি বাছাই করতে চাইতে পারে।
মডেলটি একসাথে দুটি ইনপুট গ্রহণ করে—একটি নীতি এবং সেই নীতির অধীনে শ্রেণিবদ্ধ করার জন্য কন্টেন্ট—এবং যুক্তিসহ কন্টেন্ট কোন বিভাগে পড়ে তার সংক্ষিপ্ত ধারণা প্রদান করে। ডেভেলপার সিদ্ধান্ত নেন, তাদের নিজস্ব নিরাপত্তা পাইপলাইনে এই সিদ্ধান্তগুলি কীভাবে, বা আদৌ, ব্যবহার করবেন কিনা। আমরা লক্ষ করেছি এই যুক্তি-ভিত্তিক পদ্ধতিটি ভাল কাজ করে এমন পরিস্থিতিতে যখন:
- ক্ষতির সম্ভাবনা তৈরি হয় বা বিকশিত হচ্ছে, এবং নীতিমালা দ্রুত মানিয়ে নেওয়া প্রয়োজন।
- ডোমেইন অত্যন্ত সূক্ষ্ম এবং ক্ষুদ্র ক্লাসিফায়ার জন্য পরিচালনা করা কঠিন।
- ডেভলপারের তাদের প্ল্যাটফর্মের প্রতিটি ঝুঁকিতে একটি উচ্চ-মানের ক্লাসিফায়ার প্রশিক্ষণ দেওয়ার জন্য যথেষ্ট স্যাম্পল থাকে না।
- উচ্চ মান, ব্যাখ্যাযোগ্য লেবেল তৈরির চেয়ে বিলম্ব কম গুরুত্বপূর্ণ হয়।
গবেষণা ও সেফটি কমিউনিটি থেকে ফিডব্যাক পেতে এবং মডেলের পারফরমেন্স সম্পর্কে আরও পুনরাবৃত্তি করার জন্য আমরা gpt-oss-Safeguard-এর এই প্রিভিউ রিলিজ করছি। কয়েক মাস ধরে, আমরা ডেভলপারের গুরুত্বপূর্ণ চাহিদা সনাক্ত, মডেলটি টেস্ট করতে এবং ডেভলপার ডকুমেন্টেশন তৈরি করতে ROOST(একটি নতুন উইন্ডোতে খোলে) এর সাথে এই ওপেন ওয়েট রিলিজে কাজ করেছি। অনলাইন স্পেসকে নিরাপদ রাখতে open AI মডেলগুলো অন্বেষণ করতে, এই লঞ্চের অংশ হিসেবে ROOST একটি মডেল কমিউনিটি(একটি নতুন উইন্ডোতে খোলে) প্রতিষ্ঠা করবে, যা আজই চালু হবে। এই রিলিজের পাশাপাশি, আমরা একটি সংক্ষিপ্ত প্রযুক্তিগত রিপোর্ট প্রকাশ করছি যেখানে এই প্রিভিউ মডেলের সেফটি পারফরমেন্স বিস্তারিতভাবে তুলে ধরে।
সেফটির ক্ষেত্রে, আমরা গভীর প্রতিরক্ষায় বিশ্বাস করি। আমরা আমাদের মডেলগুলিকে প্রশিক্ষণ দিই যেন নিরাপদে সাড়া দেয় এবং আমাদের নীতিমালার অধীনে সম্ভাব্য অনিরাপদ ইনপুট এবং আউটপুট সনাক্ত করে মোকাবিলা করতে আমরা অতিরিক্ত সুরক্ষার লেয়ার যুক্ত করি। সেফটি ক্লাসিফায়ার, যা একটি নির্দিষ্ট ঝুঁকিপূর্ণ বিষয়ে নিরাপদ এবং অনিরাপদ কন্টেন্ট আলাদা করে, দীর্ঘদিন ধরে আমাদের এবং অন্যান্য বড় ভাষার মডেলে একটি প্রাথমিক প্রতিরক্ষা স্তরে পরিণত হয়েছে।
সাধারণ সেফটি ক্লাসিফায়ার, যেমন আমাদের Moderation API(একটি নতুন উইন্ডোতে খোলে) এর মাধ্যমে উপলব্ধ, পূর্ব নির্ধারিত সুরক্ষা নীতির অধীনে নিরাপদ এবং অনিরাপদ কন্টেন্টের হাজার হাজার উদাহরণ ম্যানুয়ালি কিউরেট করে ডেভলপ করা হয়েছে। এই প্রশিক্ষণ ডেটা ব্যবহার করে ক্লাসিফায়ার নিরাপদ এবং অনিরাপদ আউটপুটের পার্থক্য করতে শেখে। এই প্রচলিত পদ্ধতিতে, ক্লাসিফায়ার আসলে কখনই সুরক্ষা নীতি যাচাই করে না। এর পরিবর্তে, এটি অনিরাপদ হিসেবে লেবেল করা কন্টেন্টে সাদৃশ্য এবং অনিরাপদ ও নিরাপদ কন্টেন্টের মধ্যে পার্থক্য খুঁজে উদাহরণগুলিকে লেবেল করতে ব্যবহৃত অন্তর্নিহিত নীতি বোঝার চেষ্টা করে।
প্রচলিত ক্লাসিফায়ারে কম বিলম্ব এবং অপারেটিং খরচে উচ্চ পারফরমেন্স প্রদর্শিত হতে পারে। কিন্তু পর্যাপ্ত পরিমাণে প্রশিক্ষণ উদাহরণ সংগ্রহ করা সময়সাপেক্ষ বিষয় এবং ব্যয়বহুল হতে পারে, এবং নীতি আপডেট বা পরিবর্তন করলে ক্লাসিফায়ারকে পুনরায় প্রশিক্ষণ দিতে হবে।
gpt-oss-safeguard ভিন্ন কারণ এর রিজনিং ক্ষমতার কারণে ডেভেলপার যে কোনো নীতি প্রয়োগ করতে পারে, তাদের নিজেদের লেখা বা অন্য উৎস থেকে নেওয়া, এবং রিজনিং মডেলগুলিকে নতুনভাবে লেখা নীতিগুলি সাধারণ করতে সাহায্য করে। নিরাপত্তা নীতির বাইরে, gpt-oss-safeguard নির্দিষ্ট প্রোডাক্ট এবং প্ল্যাটফর্মের জন্য গুরুত্বপূর্ণ অন্যান্য উপায়ে কন্টেন্ট লেবেল করতে ব্যবহার করা যেতে পারে।
আমাদের প্রাইমারি রিজনিং মডেলগুলি সরাসরি এখন আমাদের সুরক্ষা নীতিগুলি শিখে এবং কোনটি নিরাপদ তা নির্ধারণ করতে তাদের রিজনিং সক্ষমতা ব্যবহার করে। এই পদ্ধতিতে, যাকে আমরা ডেলিবারেটিভ অ্যালাইনমেন্ট (deliberative alignment) বলি, পূর্ববর্তী নিরাপত্তা প্রশিক্ষণ পদ্ধতিগুলির তুলনায় যথেষ্ট উন্নত এবং আমাদের রিজনিং মডেলগুলিকে পূর্বের নন-রিজনিংএর তুলনায় বিভিন্ন দিক থেকে আরও নিরাপদ করে তোলে, এমনকি তাদের সক্ষমতা বৃদ্ধি পেলেও। তবে শুধুমাত্র মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্যই রিজনিং উপকারী নয়। গভীর প্রতিরক্ষা নিশ্চিতে এটি নতুন সম্ভাবনাও তৈরি করে। রিজনিং-ভিত্তিক পদ্ধতিগুলি অধীক ফ্লেক্সিবল এবং তাদের পূর্ববর্তী প্রশিক্ষণের বিবরণ দ্বারা কম লিমিটেড, এমন সুবিধা যা কখনও কখনও তাদের অতিরিক্ত গণনা ব্যয় এবং বিলম্বকে ন্যায়সঙ্গত করার চেয়ে বেশি মূল্যবান।
gpt-oss-safeguard হল একটি ওপেন-ওয়েট পদ্ধতি যা আমরা অভ্যন্তরীণভাবে ডেভলপ করেছি, একটি টুলে যা Safety Reasoner নামে পরিচিত। আমরা নীতি লেবেলিং কাজে রিইনফোর্সমেন্ট ফাইন-টিউনিং দিয়ে শুরু করেছিলাম, মানব বিশেষজ্ঞদের সঠিক সিদ্ধান্ত ফুটিয়ে তুলতে মডেলকে পুরস্কৃত করেছি। এর মাধ্যমে মডেল শিখে কীভাবে নীতি অনুযায়ী সিদ্ধান্ত হয় সে সম্পর্কে রিজন করতে। আজ, সেফটি রিজনারের মাধ্যমে আমরা ক্লাসিফায়ার পুনরায় প্রশিক্ষণ দেওয়ার সময়ের চেয়ে কম সময়ে উৎপাদনে আমাদের নিরাপত্তা নীতিমালা গতিশীলভাবে আপডেট করতে সক্ষম করে। এটি সেফটি রিজানারকে পুনরাবৃত্তিমূলক প্রয়োগের জন্য একটি গুরুত্বপূর্ণ টুলস করে তোলে: যখন আমরা নতুন মডেলগুলো প্রোডাকশনে প্রয়োগ করি, আমরা প্রায়শই আরও কঠোর নীতিমালা দিয়ে শুরু করি এবং যেখানে প্রয়োজন সেখানে সেফটি রিজানারকে সাবধানতার সাথে সেই নীতিমালা প্রয়োগ করতে সক্ষম করার জন্য তুলনামূলকভাবে বেশি পরিমাণে কম্পিউট ব্যবহার করি। তারপর উৎপাদনের ঝুঁকি সম্পর্কে আমাদের বোঝাপড়া বাড়ায় আমরা আমাদের নীতিমালা সমন্বয় করি। আমাদের সাম্প্রতিক কিছু লঞ্চে, সেফটি রিজনিংয়ে মোট গণনার অংশ সর্বোচ্চ 16% পর্যন্ত হয়েছে।
সেফটি রিজনার আমাদের সেফটি স্ট্যাকের একটি মূল উপাদান হয়ে উঠেছে। ছবি তৈরি এবং Sora 2 এর জন্য, এটি তাৎক্ষণিকভাবে অনিরাপদ উৎপাদন সনাক্ত এবং ব্লক করার জন্য আউটপুটের ডাইনামিক, ধাপ-ভিত্তিক মূল্যায়ন করে। জীববিজ্ঞান এবং স্ব-ক্ষতির মতো ডোমেনে, কোন কন্টেন্ট আগ্রহের ডোমেনের রয়েছে তা নির্ধারণের জন্য আমরা Moderation API তে ব্যবহৃত মডেলগুলি ক্ষুদ্র, দ্রুত এবং উচ্চ-রিকল ক্লাসিফায়ার হিসাবে চালু করি এবং তারপরে সেই কন্টেন্ট রিভিউ করতে সেফটি রিজনার ব্যবহার করি। সেফটি রিজনার GPT‑5 এবং ChatGPT এজেন্টের মতো সিস্টেমগুলিতে আমাদের মাল্টি-লেয়ার সুরক্ষার অংশ গঠন করে কীভাবে সর্বোত্তম প্রতিক্রিয়া দেওয়া যায় তা নির্ধারণের জন্য একটি বিস্তারিত ক্লাসিফায়ারের বিপরীতে মডেল আউটপুট এবং এখন, gpt-oss-safeguard মডেলগুলি একই পদ্ধতি সবার ক্ষেত্রে উপলব্ধ করে দিয়েছে।
আমরা gpt-oss-safeguard মডেলগুলি অভ্যন্তরীণ এবং বাহ্যিক উভয় মূল্যায়ন সেটে মূল্যায়ন করেছি।
অভ্যন্তরীণ মূল্যায়নে, ইন্টারফারেন্স সময়ে আমরা gpt-oss-safeguard-এ একাধিক নীতি একসাথে প্রয়োগ করেছি। প্রতিটি টেস্ট ইনপুটের জন্য, আমরা মূল্যায়ন করি যে gpt-oss-safeguard অন্তর্ভুক্ত সমস্ত নীতির অনুযায়ী টেক্সট সঠিকভাবে শ্রেণিবদ্ধ করে কিনা। এটি একটি চ্যালেঞ্জিং কাজ—মডেলটি কেবল সমস্ত অন্তর্ভুক্ত নীতির জন্য গোল্ড সেট লেবেলের সাথে পুরোপুরি ম্যাচ করলেই সঠিক হিসাবে গণ্য হবে।
আমাদের gpt-oss-safeguard মডেল এবং অভ্যন্তরীণ সেফটি রিজনার মাল্টি-পলিসি নির্ভুলতায় gpt-5-thinking এবং gpt-oss ওপেন মডেলগুলিকে ছাড়িয়ে যায়। পূর্ববর্তী মডেলগুলির ছোট আকারের কারণে, gpt-oss-safeguard মডেলগুলি gpt-5-চিন্তাকে ছাড়িয়ে গেছে, বিশেষ করে আশ্চর্যজনক।
আমরা আমাদের 2022 গবেষণা পত্রের(একটি নতুন উইন্ডোতে খোলে) সাথে প্রকাশিত মডারেশন ডেটাসেটে(একটি নতুন উইন্ডোতে খোলে) এবং টক্সিচ্যাটে এই(একটি নতুন উইন্ডোতে খোলে) মডেলগুলি আরও মূল্যায়ন করেছি, যা একটি ওপেন-সোর্স চ্যাটবটের ব্যবহারকারীর প্রশ্নের উপর ভিত্তি করে একটি পাবলিক বেঞ্চমার্ক।
2022 সালের মডারেশন মূল্যায়ন সেটে, আমরা আমাদের অভ্যন্তরীণ সুরক্ষা নীতিগুলি ব্যবহার করে মূল্যায়ন করেছি (পরবর্তী পরিবর্তনগুলির জন্য একটি নীতি অ্যাকাউন্ট করার জন্য মানিয়ে নেওয়া হয়েছে)। gpt-oss-safeguard আমাদের অভ্যন্তরীণ সেফটি রিজনার এবং gpt-5-থিঙ্কিং সহ অন্যান্য পরীক্ষিত সমস্ত মডেলকে কিছুটা ছাড়িয়ে গেছে, যদিও সেফটি রিজনার এবং gpt-oss-safeguard-এর মধ্যে এই পার্থক্য পরিসংখ্যানগতভাবে উল্লেখযোগ্য নয়।
ToxicChat-এর জন্য, আমরা আমাদের কিছু অভ্যন্তরীণ নীতিমালা থেকে অভিযোজিত একটি সংক্ষিপ্ত হাতে লেখা নির্দেশ ব্যবহার করে মূল্যায়ন করেছি। আমাদের অভ্যন্তরীণ নিরাপত্তা যুক্তি আবার gpt-5-চিন্তাকে ছাড়িয়ে গেছে, এবং gpt-5-চিন্তা এবং সেফটি রিজনার উভয়ই জিপিটি-ওএস-সুরফার্ড-120 বি এবং জিপিটি-ওএস-সুরফার্ড-20বি অল্প পারফর্ম করে। আমরা আশা করি যে gpt-oss-safeguard-এর তুলনামূলকভাবে ছোট আকার এখনও এই ধরনের কাজের জন্য এটি পছন্দনীয় করে তোলে।
gpt-oss-safeguard-এর দুটি নির্দিষ্ট সীমাবদ্ধতা রয়েছে। প্রথমত, আমরা লক্ষ্য করেছি যে কয়েক হাজার উচ্চমানের লেবেলযুক্ত নমুনায় প্রশিক্ষিত ক্লাসিফায়ারের এখনও নীতি থেকে সরাসরি যুক্তি দেওয়ার সময় gpt-oss-safeguard এর চেয়ে বিষয়বস্তু শ্রেণিবদ্ধ করার ক্ষেত্রে আরও ভাল কাজ করে। আরও জটিল ঝুঁকিতে উচ্চতর পারফরমেন্সর জন্য একটি উত্সর্গীকৃত ক্লাসিফায়ারকারীকে প্রশিক্ষণ দেওয়ার জন্য সময় নেওয়া যেতে পারে।
দ্বিতীয়ত, gpt-oss-safeguard সময় এবং কম্পিউট-নিবিড় হতে পারে, যা সমস্ত প্ল্যাটফর্মের সামগ্রী জুড়ে স্কেল করা চ্যালেঞ্জিং করে তোলে। অভ্যন্তরীণভাবে, আমরা Safety Reasoner-এর মাধ্যমে এটি বিভিন্নভাবে পরিচালনা করি: (1) কোন বিষয়বস্তু মূল্যায়ন করতে হবে তা নির্ধারণ করতে আমরা ছোট এবং দ্রুত ক্লাসিফায়ার ব্যবহার করি এবং (2) কিছু পরিস্থিতিতে, আমরা অনিরাপদ বিষয়বস্তু সনাক্ত করলে হস্তক্ষেপ করার ক্ষমতা বজায় রেখে কম-বিলম্বিত ব্যবহারকারীর অভিজ্ঞতা প্রদানের জন্য Safety Reasoner অ্যাসিঙ্ক্রোনাসভাবে ব্যবহার করি।
gpt-oss-safeguard হল OpenAI-এর প্রথম ওপেন সেফটি মডেল যা সম্প্রদায়ের সাথে নির্মিত। আমরা প্রাথমিক পরীক্ষার অংশ হিসেবে SafetyKit, ROOST, Tomoro, এবং Discord-এর বিশ্বাস ও সুরক্ষা বিশেষজ্ঞদের সাথে gpt-oss-safeguard-এ পুনরাবৃত্তি করেছি। ROOST সিটিও বিনয় রাও বলেছেন, “gpt-oss-safeguard হল প্রথম ওপেন সোর্স যুক্তি মডেল যার সাথে 'আপনার নিজের নীতি এবং ক্ষতির সংজ্ঞা আনুন' নকশা। সংস্থাগুলি অবাধে অধ্যয়ন, সংশোধন এবং গুরুত্বপূর্ণ নিরাপত্তা প্রযুক্তি ব্যবহার করতে এবং উদ্ভাবন করতে পারার অধিকার রাখে। আমাদের পরীক্ষায়, এটি বিভিন্ন নীতিমালা বোঝার ক্ষেত্রে দক্ষ ছিল, এর যুক্তি ব্যাখ্যা করতে এবং নীতিগুলি প্রয়োগে সূক্ষ্মতা প্রদর্শন করতে, যা আমরা বিশ্বাস করি নির্মাতাদের এবং নিরাপত্তা দলের জন্য উপকারী হবে।”
আমরা ROOST মডেল কমিউনিটি (আরএমসি) এর মাধ্যমে ওপেন সেফটি টুলিং উন্নত করতে সম্প্রদায়ের সাথে পুনরাবৃত্তি চালিয়ে যাব। আরএমসি সুরক্ষা অনুশীলনকারী এবং গবেষকদের একত্রিত করে সুরক্ষা কর্মপ্রবাহে ওপেন সোর্স এআই মডেলগুলি প্রয়োগের জন্য সর্বোত্তম অনুশীলনগুলি ভাগ করে নেয়, যার মধ্যে মূল্যায়নের ফলাফল এবং মডেল প্রতিক্রিয়া রয়েছে। এই অংশীদারিত্ব এবং কীভাবে জড়িত হতে পারো সে সম্পর্কে আরও জানতে RMC GitHub রেপো(একটি নতুন উইন্ডোতে খোলে) দেখো।
এই মডেলগুলির সাথে কাজ শুরু করতে, Hugging Face(একটি নতুন উইন্ডোতে খোলে) থেকে এগুলি ডাউনলোড করো।

