OpenAI-এ, আমরা বিশ্বাস করি AI ন্যায্য, নিরাপদ এবং সবার জন্য সহজলভ্য হওয়া উচিত, যাতে আরও বেশি মানুষ এটি ব্যবহার করে কঠিন সমস্যাগুলোর সমাধান করতে পারে, সুযোগ সৃষ্টি করতে পারে এবং হেলথ, বিজ্ঞান, শিক্ষা, কাজ ও দৈনন্দিন জীবনের মতো ক্ষেত্রে উপকৃত হতে পারে. আমরা বিশ্বাস করি যে AI-তে সবার প্রবেশাধিকারই সামনে এগোনোর সর্বোত্তম পথ: এমন AI নয়, যার সুফল বা নিয়ন্ত্রণ অল্প কয়েকজনের হাতে কেন্দ্রীভূত, বরং এমন AI, যা আরও বেশি মানুষ ব্যবহার করতে, বুঝতে এবং এর গঠনে সহায়তা করতে পারে.
এটি একটি মূল কারণ, যার জন্য OpenAI মডেল স্পেক বিদ্যমান. মডেল স্পেক(একটি নতুন উইন্ডোতে খোলে) হলো মডেলের আচরণের জন্য আমাদের আনুষ্ঠানিক কাঠামো. এটি নির্ধারণ করে যে আমরা চাই মডেলগুলো কিভাবে নির্দেশনা অনুসরণ করবে, দ্বন্দ্ব সমাধান করবে, ব্যবহারকারীর স্বাধীনতাকে সম্মান করবে, এবং ব্যবহারকারীরা প্রতিদিন যে অবিশ্বাস্যভাবে বিস্তৃত পরিসরের প্রশ্ন করে সেগুলোর ক্ষেত্রে কিভাবে নিরাপদভাবে আচরণ করবে. আরও বিস্তৃতভাবে, এটি মডেলের অভিপ্রেত আচরণকে স্পষ্টভাবে তুলে ধরার আমাদের প্রচেষ্টা: শুধু আমাদের প্রশিক্ষণ প্রক্রিয়ার ভেতরে নয়, বরং এমন একটি রূপে, যা ব্যবহারকারী, ডেভেলপার, গবেষক, নীতিনির্ধারকরা এবং বিস্তৃত জনসাধারণ বাস্তবে পড়তে, পর্যালোচনা করতে এবং এ নিয়ে বিতর্ক করতে পারেন.
মডেল স্পেক এই দাবি করে না যে আমাদের মডেল আজই পুরোপুরি এইভাবে আচরণ করছে. অনেক দিক থেকে এটি বর্ণনামূলক, তবে মডেলের আচরণকে আমরা যে দিকে নিয়ে যেতে চাই, তারও এটি একটি লক্ষ্য. আমরা এটি ব্যবহার করি কাঙ্ক্ষিত আচরণকে আরও স্পষ্ট করতে, যাতে আমরা তার দিকে প্রশিক্ষণ দিতে পারি, তার বিপরীতে মূল্যায়ন করতে পারি এবং সময়ের সঙ্গে তা উন্নত করতে পারি.
এই পোস্টে মডেল স্পেকের মূল লেখাতেই নেই এমন পেছনের প্রেক্ষাপট তুলে ধরা হয়েছে, যার মধ্যে রয়েছে এর পেছনের দর্শন ও কার্যপ্রণালী: এটি কিভাবে গঠিত, কেন আমরা এই কাঠামোগত সিদ্ধান্তগুলো নিয়েছি এবং সময়ের সঙ্গে সঙ্গে আমরা কিভাবে এটি লিখি, বাস্তবায়ন করি ও বিকশিত করি.
মডেল স্পেক হলো নিরাপদ ও জবাবদিহিমূলক AI-এর প্রতি OpenAI-এর বিস্তৃত পদ্ধতির একটি অংশ. যেখানে প্রিপেয়ার্ডনেস ফ্রেমওয়ার্ক অত্যাধুনিক সক্ষমতাগুলো থেকে উদ্ভূত ঝুঁকি এবং সেই ঝুঁকি বাড়ার সঙ্গে সঙ্গে প্রয়োজনীয় সুরক্ষাব্যবস্থার উপর গুরুত্ব দেয়, সেখানে মডেল স্পেক একটি ভিন্ন কিন্তু পরিপূরক প্রশ্ন নিয়ে আলোচনা করে: বিস্তৃত পরিসরের পরিস্থিতিতে আমাদের মডেলগুলোর কিভাবে আচরণ করা উচিত. আরও বৃহত্তর পরিপ্রেক্ষিতে, AI সহনশীলতার লক্ষ্য হলো এই বিস্তৃত সামাজিক চ্যালেঞ্জ মোকাবিলা করা: ক্রমবর্ধমানভাবে আরও সক্ষম সিস্টেম মোতায়েন করা হওয়ার সঙ্গে সঙ্গে সমাজ যেন উন্নত AI-এর সুফল কাজে লাগাতে পারে, একই সঙ্গে ব্যাঘাত ও উদীয়মান ঝুঁকি কমাতে পারে. সব মিলিয়ে, এই উদ্যোগগুলোর লক্ষ্য হলো AGI-তে রূপান্তরকে ধীরগতির, পুনরাবৃত্তিমূলক এবং গণতান্ত্রিকভাবে বোধগম্য করে তুলতে সহায়তা করা: মানুষ ও প্রতিষ্ঠানগুলোকে খাপ খাইয়ে নেওয়ার জন্য সময় দেওয়া, একই সঙ্গে শক্তিশালী AI-কে মানবস্বার্থের সঙ্গে সামঞ্জস্যপূর্ণ রাখতে প্রয়োজনীয় সুরক্ষাব্যবস্থা, জবাবদিহিতার প্রক্রিয়া এবং জনসাধারণের বোঝাপড়া গড়ে তোলা.
মডেলের আচরণ সম্পর্কে জনসাধারণের স্পষ্ট ধারণা ন্যায্যতা ও নিরাপত্তা—উভয়ের জন্যই গুরুত্বপূর্ণ. এটি ন্যায্যতার জন্য গুরুত্বপূর্ণ, কারণ মানুষকে বুঝতে হবে AI কিভাবে এবং কেন তাদের সঙ্গে যে আচরণ করছে তা করছে—এবং ন্যায্যতা-সংক্রান্ত উদ্বেগ দেখা দিলে সেগুলো চিহ্নিত করতে, প্রশ্ন করতে এবং সমাধান করতে সক্ষম হতে হবে. এটি নিরাপত্তার জন্য গুরুত্বপূর্ণ, কারণ AI সিস্টেমগুলো আরও সক্ষম হয়ে উঠলে মানুষ এবং প্রতিষ্ঠানগুলোর জন্য আরও স্পষ্ট প্রত্যাশা দরকার হয়—সেগুলোর কিভাবে আচরণ করার কথা, সেগুলো কোন কোন সমঝোতা ধারণ করে এবং সময়ের সাথে সাথে কিভাবে সেই পছন্দগুলো উন্নত করা যেতে পারে. এই ধরনের স্পষ্টতা স্থিতিস্থাপকতাকেও সমর্থন করে, কারণ এটি আরও বেশি মানুষকে পরীক্ষা, প্রশ্ন এবং উন্নত করার জন্য একটি বাস্তব বিষয় দেয়.
2024 সালে প্রথম সংস্করণের পর থেকে, ব্যবহারকারীদের পছন্দ ও প্রয়োজন সম্পর্কে আরও শেখা, বৃহত্তর সক্ষমতা অন্তর্ভুক্ত করা এবং তার সাথে খাপ খাইয়ে নেওয়া এবং মডেলের আচরণ ও মডেল স্পেক সম্পর্কে জনসাধারণের প্রতিক্রিয়া থেকে শেখার মাধ্যমে মডেল স্পেক উল্লেখযোগ্যভাবে বিকশিত হয়েছে. পর্যায়ক্রমিক উন্নয়নের ধারা বজায় রেখে, 'মডেল স্পেক' হলো একটি বিবর্তনশীল দলিল; যা মৌলিক আদর্শ এবং সুস্পষ্ট ও সহজবোধ্য নিয়মনীতি—উভয়কেই অন্তর্ভুক্ত করে. এর সাথে রয়েছে বাস্তব প্রয়োগ এবং ফিডব্যাক থেকে প্রাপ্ত অভিজ্ঞতার ভিত্তিতে এর প্রতিটি অংশ পরিবর্তনের একটি সুনির্দিষ্ট প্রক্রিয়া. AI কিভাবে ব্যবহার করা হয় এবং AI-এর আচরণ কিভাবে গঠিত হয়, সে বিষয়ে মানবজাতির নিয়ন্ত্রণ বজায় রাখতে সহায়তা করার জন্য আমরা সমষ্টিগত সমন্বয়-এর মতো জনসাধারণের প্রতিক্রিয়া ব্যবস্থায় বিনিয়োগ করছি.
অভ্যন্তরীণভাবে, এটি আমাদের কাঙ্ক্ষিত আচরণের জন্য একটি দিকনির্দেশক এবং প্রশিক্ষণ, মূল্যায়ন ও শাসনের জন্য একটি অভিন্ন কাঠামো দেয়. বাহ্যিকভাবে, এটি একটি সর্বজনীন রেফারেন্স পয়েন্ট তৈরি করে, যা দিয়ে মানুষ আমাদের পদ্ধতি বুঝতে, সমালোচনা করতে এবং সময়ের সাথে সাথে উন্নত করতে পারে.
মডেল স্পেক বিভিন্ন ধরনের মডেল নির্দেশনা নিয়ে গঠিত. এটি ইচ্ছাকৃত. মডেলের আচরণের বিভিন্ন অংশকে ভিন্ন ভিন্নভাবে সামলাতে হয় এবং একটি কার্যকর পাবলিক ডকুমেন্টের কাজ শুধু নিয়মের তালিকা দেওয়ার চেয়েও বেশি কিছু করা.
মডেল স্পেক উচ্চ-স্তরের উদ্দেশ্য দিয়ে শুরু হয়: সিস্টেম স্তরে আমরা কী অপ্টিমাইজ করার চেষ্টা করছি এবং কেন—তার একটি স্পষ্ট বিবরণ.
এই ভূমিকা আমরা কিভাবে আমাদের মিশন অনুসরণ করার পরিকল্পনা করি সে সম্পর্কে তিনটি লক্ষ্য স্পষ্ট করে:
- পর্যায়ক্রমিক উন্নয়নের মাধ্যমে এমন মডেল স্থাপন করুন যা ডেভেলপার এবং ব্যবহারকারীদের ক্ষমতায়ন করবে
- আমাদের মডেলগুলো যাতে ব্যবহারকারী বা অন্য কারো মারাত্মক ক্ষতির কারণ না হয়, তা প্রতিরোধ করুন
- OpenAI-এর কার্যক্রম পরিচালনার অনুমতি বজায় রাখুন
এরপর এটি ব্যাখ্যা করে যে আমরা কিভাবে বাস্তবে এই লক্ষ্যগুলোর ভারসাম্য রক্ষা করি এবং এই সমঝোতাগুলোকে যথেষ্ট সুনির্দিষ্ট করি যাতে পরবর্তী বিস্তারিত নীতিগুলোকে সমর্থন করা যায়.
গুরুত্বপূর্ণভাবে, এই ভূমিকা মডেলের জন্য সরাসরি নির্দেশনা হিসেবে বোঝানো হয়নি. মানবতার উপকার করা OpenAI-এর লক্ষ্য, এমন কোনো লক্ষ্য নয় যা আমরা চাই আমাদের মডেল স্বায়ত্তশাসিতভাবে অনুসরণ করুক. এর পরিবর্তে, আমরা চাই মডেলগুলো এমন একটি কমান্ড চেইন অনুসরণ করুক, যাতে মডেল স্পেক এবং OpenAI, ডেভেলপার ও ব্যবহারকারীদের প্রযোজ্য নির্দেশনা অন্তর্ভুক্ত থাকে—এমনকি কোনো নির্দিষ্ট ক্ষেত্রে কিছু মানুষ ফলাফলের সঙ্গে একমত নাও হতে পারেন.
আমরা মনে করি এটি সঠিক ভারসাম্য, কারণ আমরা মানুষের স্বায়ত্তশাসন এবং বুদ্ধিবৃত্তিক স্বাধীনতাকে মূল্য দিই. যদি আমরা মডেলগুলোকে সমাজের জন্য কী ভালো সে সম্পর্কে আমাদের নিজস্ব দৃষ্টিভঙ্গির ভিত্তিতে কোন নির্দেশাবলী মেনে চলবে তা নির্ধারণ করতে প্রশিক্ষিত করতাম, তাহলে OpenAI অত্যন্ত বিস্তৃত পর্যায়ে নৈতিকতার বিচারক হওয়ার অবস্থানে থাকত. তা সত্ত্বেও, ভূমিকা এখনও গুরুত্বপূর্ণ. মডেল স্পেক কিভাবে প্রয়োগ করতে হবে সে বিষয়ে অস্পষ্টতা থাকলে, প্রস্তাবনাটি তা সমাধান করতে সাহায্য করবে.
মডেল স্পেক-এ এমন পাবলিক প্রতিশ্রুতিও রয়েছে, যা সরাসরি পরিমাপযোগ্য মডেলের আচরণকে ছাড়িয়ে গিয়ে প্রশিক্ষণের উদ্দেশ্য এবং স্থাপন-সংক্রান্ত সীমাবদ্ধতাকেও অন্তর্ভুক্ত করে. উদাহরণস্বরূপ, আমাদের রেড-লাইন নীতিমালার(একটি নতুন উইন্ডোতে খোলে) মধ্যে একটি প্রতিশ্রুতি হলো— ChatGPT‑এর মতো নিজস্ব প্ল্যাটফর্মগুলোতে আমরা কখনোই উদ্দেশ্যমূলকভাবে অবজেক্টিভিটি (নিরপেক্ষতা)(একটি নতুন উইন্ডোতে খোলে) বা সংশ্লিষ্ট নীতিগুলো ক্ষুণ্ণ করতে 'সিস্টেম মেসেজ' ব্যবহার করব না. এছাড়া, 'অন্য কোনো উদ্দেশ্য নেই'(একটি নতুন উইন্ডোতে খোলে) নীতিটি এই অঙ্গীকার করে যে, আমরা মডেলের উত্তরগুলোকে ব্যবহারকারীর উপকারের জন্যই অপ্টিমাইজ করব; রাজস্ব বৃদ্ধি বা সাইটে অপ্রয়োজনীয় সময় কাটানোর উদ্দেশ্যে নয়.
মডেল স্পেক-এর কেন্দ্রে রয়েছে চেইন অব কমান্ড: কোনো নির্দিষ্ট পরিস্থিতিতে কোন নির্দেশনা প্রযোজ্য হবে তা নির্ধারণ করার একটি কাঠামো. এটি আরও অন্তর্ভুক্ত করে যে মডেল কিভাবে অপর্যাপ্তভাবে নির্দিষ্ট নির্দেশাবলী পরিচালনা করবে, বিশেষ করে এজেন্টিক পরিবেশে, যেখানে সতর্কতার সঙ্গে বাস্তব জগতের পার্শ্বপ্রতিক্রিয়া নিয়ন্ত্রণ করে স্বয়ংক্রিয়ভাবে বিস্তারিত পূরণ করবে বলে প্রত্যাশা করা হয়.
কোন নির্দেশাবলী প্রযোজ্য হওয়া উচিত তা নির্ধারণের পেছনের মৌলিক ধারণাটি সহজ. নির্দেশাবলী বিভিন্ন উৎস থেকে আসতে পারে, যার মধ্যে OpenAI, ডেভেলপার এবং ব্যবহারকারী অন্তর্ভুক্ত. ঐ নির্দেশাবলী পরস্পরের সঙ্গে দ্বন্দ্ব সৃষ্টি করতে পারে. কমান্ডের শৃঙ্খল ব্যাখ্যা করে যে মডেলের সেই সংঘাতগুলো কিভাবে সমাধান করা উচিত.
প্রতিটি মডেল স্পেক নীতি এবং প্রতিটি নির্দেশনাকে একটি কর্তৃত্বের স্তর(একটি নতুন উইন্ডোতে খোলে) প্রদান করা হয়. সংঘাত দেখা দিলে মডেলকে উচ্চতর কর্তৃত্বসম্পন্ন নির্দেশনাগুলোর আক্ষরিক অর্থ এবং মর্মার্থকে অগ্রাধিকার দিতে বলা হয়েছে. যদি কোনো ব্যবহারকারী বোমা বানানোর জন্য সাহায্য চায়, তাহলে মডেলটির উচিত কঠোর নিরাপত্তা সীমারেখা(একটি নতুন উইন্ডোতে খোলে) অগ্রাধিকার দেওয়া. যদি কোনো ব্যবহারকারী তাকে রোস্ট করতে বলে, তবে মডেলের উচিত সাধারণত মডেল স্পেকের নিম্ন-অগ্রাধিকারের অপব্যবহারের বিরুদ্ধে নীতিমালা(একটি নতুন উইন্ডোতে খোলে)-এর চেয়ে সেই অনুরোধটিকেই অগ্রাধিকার দেওয়া.
এই কাঠামোটি আমাদের তুলনামূলকভাবে ছোট একটি অপরিবর্তনীয় নিয়মের সেট এবং আরও বড় একটি ডিফল্ট সেট সংজ্ঞায়িত করতে দেয়. এভাবেই আমরা নিরাপত্তার সীমাবদ্ধতার মধ্যে ব্যবহারকারীর স্বাধীনতা এবং ডেভেলপারের নিয়ন্ত্রণ সর্বাধিক করার চেষ্টা করি.
- কঠোর নিয়ম হলো সুস্পষ্ট সীমারেখা, যা ব্যবহারকারী বা ডেভেলপারদের দ্বারা অগ্রাহ্য করা যায় না (মডেল স্পেকের পরিভাষায়, এগুলো “রুট” বা “সিস্টেম” স্তরের নির্দেশনা). এগুলো বেশিরভাগই নিষেধমূলক, যেখানে মডেলগুলোকে এমন আচরণ এড়াতে বলা হয় যা বিপর্যয়মূলক ঝুঁকি বা সরাসরি শারীরিক ক্ষতিতে অবদান রাখতে পারে, আইন লঙ্ঘন করতে পারে, অথবা কমান্ড চেইনকে দুর্বল করতে পারে. আমরা আশা করি AI সমাজের জন্য একটি মৌলিক প্রযুক্তি হয়ে উঠবে, মৌলিক ইন্টারনেট অবকাঠামোর অনুরূপ, তাই আমরা কেবল সেই নিয়মগুলোই আরোপ করি যা বৌদ্ধিক স্বাধীনতাকে সীমিত করতে পারে, যখন আমরা বিশ্বাস করি যে এর সঙ্গে মিথস্ক্রিয়া করবে এমন বিস্তৃত পরিসরের ডেভেলপার ও ব্যবহারকারীদের জন্য সেগুলো প্রয়োজনীয়. মডেল স্পেক-এ, সীমার মধ্যে থাকুন(একটি নতুন উইন্ডোতে খোলে)-এ এমন কঠোর নিয়ম রয়েছে, যা বাস্তব জগতের সুনির্দিষ্ট নিরাপত্তা ঝুঁকি মোকাবিলা করে এবং 18 বছরের কম বয়সীদের জন্য নীতিমালা(একটি নতুন উইন্ডোতে খোলে) 18 বছরের কম বয়সী ব্যবহারকারীদের জন্য অতিরিক্ত সুরক্ষাব্যবস্থা যোগ করে.
- ডিফল্ট হলো পরিবর্তনযোগ্য প্রারম্ভিক বিন্দু: যখন ব্যবহারকারী বা ডেভেলপার কোনো পছন্দ নির্দিষ্ট করেননি, তখন অ্যাসিস্ট্যান্টের “সর্বোত্তম অনুমান”-ভিত্তিক আচরণ. আমরা ডিফল্ট সেটিংস ব্যবহার করি যাতে বৃহৎ পরিসরে আচরণ পূর্বানুমেয় ও নিয়ন্ত্রণযোগ্য থাকে, ফলে মানুষ প্রতিবার আলাদা করে নির্দেশনার সেট না লিখেই কী ঘটবে তা আগে থেকেই বুঝতে পারে. ডিফল্ট সেটিংস নিয়ন্ত্রণযোগ্যতা বজায় রাখে: ব্যবহারকারী এবং ডেভেলপাররা নিরাপত্তার সীমার মধ্যে টোন, গভীরতা, ফরম্যাট, এমনকি দৃষ্টিভঙ্গিও স্পষ্টভাবে নিয়ন্ত্রণ করতে পারেন. গাইডলাইন-লেভেল ডিফল্ট সেটিংস (যেমন টোন বা স্টাইল) এমনভাবে নকশা করা হয়েছে যে সেগুলো অন্তর্নিহিতভাবে নিয়ন্ত্রণযোগ্য, আর ইউজার-লেভেল ডিফল্ট সেটিংস (যেমন সত্যনিষ্ঠা এবং বস্তুনিষ্ঠতা) বিশ্বাস ও পূর্বানুমানযোগ্যতার ভিত্তি হিসেবে কাজ করে এবং সেগুলো শুধুমাত্র এক্সপ্লিসিট ইনস্ট্রাকশনের মাধ্যমে অগ্রাহ্য করা যেতে পারে. এসব যেন শুধু অনুভূতির ভিত্তিতে নিঃশব্দে সরে না যায়; ব্যবহারকারী যদি ভিন্ন কোনো তথ্যভিত্তিক অবস্থান চান, তবে সেটিকে স্পষ্ট নির্দেশনা হিসেবে দেওয়া পরিবর্তনটিকে স্বচ্ছ ও বোধগম্য রাখে. এই ডিফল্ট বা নির্ধারিত মানদণ্ডগুলো 'একত্রে সত্যের সন্ধান করুন'(একটি নতুন উইন্ডোতে খোলে), 'সেরা কাজটি করুন'(একটি নতুন উইন্ডোতে খোলে), এবং 'সঠিক স্টাইল ব্যবহার করুন'(একটি নতুন উইন্ডোতে খোলে), —এই নীতিগুলোর মাধ্যমে প্রতিফলিত হয়. এর মধ্যে রয়েছে সততা ও নিরপেক্ষতা বজায় রাখার নিয়ম, চাটুকারিতা পরিহার করা এবং যোগাযোগের ক্ষেত্রে স্পষ্টবাদিতা ও প্রসঙ্গের সাথে মানানসই আন্তরিকতা ও পেশাদারিত্ব বজায় রাখার রীতি.
শ্রেণিবিন্যাসের বাইরেও, মডেল স্পেক ব্যাখ্যামূলক সহায়িকা ব্যবহার করে যাতে মডেল (এবং মানুষ) ধূসর ক্ষেত্রগুলোতে এটি ধারাবাহিকভাবে প্রয়োগ করতে পারে. এই সহায়তাগুলির মধ্যে রয়েছে:
- সিদ্ধান্ত গ্রহণের মানদণ্ড যা মডেলকে অস্পষ্ট ক্ষেত্রগুলোতে সামঞ্জস্যপূর্ণ পছন্দ করতে সহায়তা করে, এমন ভান না করে যে এর জন্য কোনো একক যান্ত্রিক নিয়ম আছে. উদাহরণস্বরূপ, পার্শ্বপ্রতিক্রিয়া নিয়ন্ত্রণ(একটি নতুন উইন্ডোতে খোলে) সম্পর্কে মডেল স্পেক-এর নির্দেশিকায় অপরিবর্তনীয় পদক্ষেপ কমিয়ে আনা, উদ্দেশ্যের সঙ্গে সামঞ্জস্য রেখে পদক্ষেপ নেওয়া, অপ্রত্যাশিত নেতিবাচক পরিস্থিতি কমানো এবং প্রত্যাবর্তনযোগ্য পদ্ধতিকে অগ্রাধিকার দেওয়ার মতো বিবেচ্য বিষয়গুলোর তালিকা রয়েছে, যেগুলোকে কাজটি দ্রুত ও কার্যকরভাবে সম্পন্ন করার মতো অন্যান্য উদ্দেশ্যের সঙ্গে ভারসাম্য রেখে বিবেচনা করা উচিত.
- বাস্তব উদাহরণ যা দেখায় কিভাবে একটি নীতি বাস্তবে প্রয়োগ করা উচিত. এগুলো প্রম্পট-ও-প্রতিক্রিয়ার সংক্ষিপ্ত উদাহরণ, যেগুলোতে সাধারণত সঙ্গতিপূর্ণ এবং অসঙ্গতিপূর্ণ—উভয় ধরনের প্রতিক্রিয়াই অন্তর্ভুক্ত থাকে, প্রায়ই একটি গুরুত্বপূর্ণ সিদ্ধান্তসীমার কাছাকাছি থাকা কঠিন প্রম্পটের ক্ষেত্রে. লক্ষ্যটি সম্পূর্ণ বাস্তবসম্মত কথোপকথন অনুকরণ করা নয়. এটি মূল পার্থক্যটি স্পষ্ট করার জন্য এবং এমনভাবে করার জন্য যাতে কাঙ্ক্ষিত উত্তরদানের স্টাইলও প্রদর্শিত হয়.
আমরা উদাহরণের সংখ্যা তুলনামূলকভাবে কম রাখি এবং সবচেয়ে তথ্যবহুলগুলোর উপর মনোযোগ দিই. বিস্তৃত মূল্যায়ন স্যুট লং টেইলের আরও বেশি অংশ কভার করতে সহায়তা করে.
স্পেকের সর্বোত্তম উদ্দেশ্য অনুমান করুন(একটি নতুন উইন্ডোতে খোলে) বিভাগ থেকে বুদ্ধিবৃত্তিক স্বাধীনতা এবং বিচারহীন থাকার নীতিগুলোকে ব্যাখ্যা করে এমন একটি উদাহরণ.
স্পেক একটি ইন্টারফেস, বাস্তবায়ন নয়. এটি আমরা যে আচরণ চাই তা বর্ণনা করে, সেই আচরণ কিভাবে তৈরি করি তার প্রতিটি বিস্তারিত নয়. আমরা এটিকে বাস্তবায়নের খুঁটিনাটির সঙ্গে বেঁধে দিতে এড়িয়ে চলি, যেমন অভ্যন্তরীণ টোকেন ফরম্যাট বা কোনো নির্দিষ্ট আচরণের জন্য সুনির্দিষ্ট প্রশিক্ষণ-পদ্ধতি, কারণ কাঙ্ক্ষিত আচরণ অপরিবর্তিত থাকলেও ঐ খুঁটিনাটি বদলে যেতে পারে. মডেল স্পেক-এর প্রধান পাঠকগোষ্ঠী মডেল নয়, বরং মানুষ: এটি OpenAI-এর কর্মী, ব্যবহারকারী, ডেভেলপার, গবেষক এবং নীতিনির্ধারকদের অভিপ্রেত আচরণ বুঝতে, তা নিয়ে বিতর্ক করতে এবং সে সম্পর্কে সিদ্ধান্ত নিতে সহায়তা করার জন্য তৈরি করা হয়েছে.
স্পেকটি মডেল বর্ণনা করে, পুরো পণ্য নয়. এটি আমাদের ব্যবহারের নীতি দ্বারা পরিপূরক, যেখানে API এবং ChatGPT ব্যবহারের জন্য আমাদের প্রত্যাশা তুলে ধরা হয়েছে. ব্যবহারকারীরা যে সিস্টেমের সঙ্গে ইন্টারঅ্যাক্ট করেন, তাতে শুধু মডেল নয়; কাস্টম নির্দেশনা এবং মেমোরি-এর মতো প্রোডাক্ট ফিচার, মনিটরিং, নীতিমালা প্রয়োগ এবং অন্যান্য স্তরও গুরুত্বপূর্ণ. নিরাপত্তা শুধু মডেলের আচরণের চেয়ে অনেক বেশি এবং আমরা গভীর প্রতিরক্ষায় বিশ্বাস করি.
আর স্পেসিফিকেশনটি আমাদের সম্পূর্ণ প্রশিক্ষণ স্ট্যাকের বা প্রতিটি অভ্যন্তরীণ নীতিগত পার্থক্যের একটি সম্পূর্ণ বিস্তারিত বিবরণ নয়. লক্ষ্য প্রতিটি ডিটেইল ক্যাপচার করা নয়. এর উদ্দেশ্য হলো সবচেয়ে গুরুত্বপূর্ণ আচরণগত সিদ্ধান্তগুলোকে এমনভাবে বোধগম্য করে তোলা, যা আমাদের প্রত্যাশিত মডেল আচরণের সাথে পুরোপুরি সামঞ্জস্যপূর্ণ.
কেবল কয়েকটি উচ্চ-স্তরের লক্ষ্য থেকে পাঠক—বা মডেল—সবকিছু অনুমান করে নিতে পারে বলে ধরে নেওয়ার পরিবর্তে, এই পরিমাণ বিস্তারিত স্পেকে অন্তর্ভুক্ত করার বেশ কয়েকটি কারণ রয়েছে.
প্রথমত, মডেল স্পেক হলো স্বচ্ছতা ও জবাবদিহিতার একটি টুল. এটি অর্থবহ জনসাধারণের প্রতিক্রিয়া উৎসাহিত করার জন্য তৈরি করা হয়েছে. একটি স্পষ্ট সর্বজনবিদিত লক্ষ্য মানুষকে বুঝতে সাহায্য করে যে কোনো আচরণ বাগ নাকি ফিচার. এটি তাদের সমালোচনা এবং সুনির্দিষ্ট প্রতিক্রিয়ার জন্য একটি স্থিতিশীল রেফারেন্স পয়েন্ট প্রদান করে. সেই কারণেই আমরা মডেল স্পেক ওপেন-সোর্স করেছি(একটি নতুন উইন্ডোতে খোলে) এবং সর্বসমক্ষে পুনরাবৃত্তিমূলক উন্নয়নের পথ বেছে নিয়েছি. প্রথম প্রকাশের পর থেকে, জনসাধারণের মতামতের ভিত্তিতে অনেক পরিবর্তন করা হয়েছে, যা ফিডব্যাক ফর্ম, সর্বজনীন সমালোচনা এবং গণতান্ত্রিক মতামত সংগ্রহের জন্য সচেতন প্রচেষ্টা সহ বিভিন্ন উপায়ে সংগৃহীত হয়েছে.
দ্বিতীয়ত, মডেল স্পেক হলো OpenAI-এর একটি সমন্বয় টুল. এটি রিসার্চ, প্রোডাক্ট, সেফটি, পলিসি, লিগ্যাল, কমস এবং অন্যান্য ফাংশনের জন্য মডেল আচরণ নিয়ে আলোচনা করতে একটি অভিন্ন শব্দভাণ্ডার এবং পরিবর্তন প্রস্তাব ও পর্যালোচনার জন্য একটি প্রক্রিয়া প্রদান করে.
তৃতীয়ত, সুস্পষ্ট নীতিমালা মডেলের বুদ্ধিমত্তা এবং রানটাইম কন্টেক্সটের ব্যবহারিক সীমাবদ্ধতা পূরণ করতে পারে এবং আচরণকে আরও পূর্বানুমানযোগ্য করে তুলতে পারে. যদিও সময়ের সাথে সাথে এটি কম সত্য হয়ে উঠছে, তবুও কিছু নীতিমালা অপর্যাপ্ত বুদ্ধিমত্তার ঘাটতি পূরণ করার লক্ষ্য রাখে, যেখানে মডেল উচ্চ-স্তরের নীতিমালা থেকে নির্ভরযোগ্যভাবে সঠিক আচরণ নির্ণয় করতে নাও পারে. উদাহরণস্বরূপ, স্পষ্ট ও সরাসরি হোন(একটি নতুন উইন্ডোতে খোলে)-এ আগের মডেলগুলোকে গণনা-প্রয়োজনীয় কঠিন সমস্যার উত্তর দেওয়ার আগে তাদের কাজের ধাপ দেখাতে পরামর্শ দেওয়া হয়েছিল, কিন্তু আজ আমাদের মডেলগুলো রিইনফোর্সমেন্ট লার্নিং-এর মাধ্যমে স্বাভাবিকভাবেই এই আচরণ শিখে ফেলে.
অন্যান্য নীতিমালা রানটাইমে সীমিত প্রেক্ষাপট নিয়ে কাজ করে: সহকারী কেবল বর্তমান ইন্টারঅ্যাকশনে যা পর্যবেক্ষণ করা যায় তার উপর নির্ভর করতে পারে এবং খুব কম ক্ষেত্রেই ব্যবহারকারীর পূর্ণ পরিস্থিতি, অভিপ্রায়, পরবর্তী ব্যবহার, বা মডেলের বাইরে কী ধরনের সুরক্ষাব্যবস্থা আছে তা জানে. এসব ক্ষেত্রে, পর্যাপ্ত গবেষণা ও চিন্তাভাবনা করলে মডেলগুলো সঠিক আচরণ নির্ধারণ করতে সক্ষম হতে পারে, তবুও নির্দিষ্টতা দক্ষতা ও পূর্বানুমানযোগ্যতা বাড়ায়—অর্থাৎ বহু বিচারভিত্তিক সিদ্ধান্তকে এমন নির্দেশনায় সংকুচিত করে যা একই ধরনের প্রম্পটগুলোর মধ্যে ভিন্নতা কমায় এবং ব্যবহারকারী ও গবেষক উভয়ের জন্য আচরণকে আরও সহজে বোঝা সম্ভব করে.
সবশেষে, মডেল স্পেকের লক্ষ্য হলো মূল্যায়ন এবং পরিমাপের জন্য প্রাসঙ্গিক উচ্চ-স্তরের নীতির একটি পূর্ণাঙ্গ তালিকা হওয়া. একটি মডেল অভিপ্রেতভাবে আচরণ করছে কিনা আপনি যদি তা মূল্যায়ন করতে চান, তাহলে গুরুত্বপূর্ণ আচরণের প্রধান শ্রেণিগুলির একটি সর্বজনীন তালিকা থাকা উপযোগী.
“সহায়ক ও নিরাপদ হও”-এর মতো লক্ষ্যগুলোর একটি সংক্ষিপ্ত তালিকা থেকে একটি যথেষ্ট সক্ষম মডেল সঠিক আচরণ অনুমান করতে পারবে—এমনটা ভাবা প্রলুব্ধকর. এর মধ্যে কিছুটা সত্যতা আছে. যেসব ক্ষেত্রে সাফল্যের বস্তুনিষ্ঠ মানদণ্ড রয়েছে, যেমন গণিত, সেখানে বুদ্ধিমত্তা প্রায়ই বিস্তারিত নিয়মের বিকল্প হিসেবে কাজ করতে পারে.
কিন্তু সাধারণভাবে, মডেলের আচরণ সহজ গণিত সমস্যার সমাধানের মতো নয়; মডেলগুলো প্রায়ই জটিল ক্ষেত্রগুলোতে কাজ করে, যেখানে এমন কোনো একক নৈতিকভাবে সঠিক উত্তর নেই, যার সঙ্গে সবাই একমত হতে পারে. উদাহরণস্বরূপ, একটি মডেলের “সহায়ক ও নিরাপদ” হওয়ার অর্থ প্রেক্ষাপটের উপর অত্যন্ত নির্ভরশীল এবং এটি মূলত মূল্যবোধ-নির্ভর সিদ্ধান্তগ্রহণের ফল. নৈতিকতা ও মূল্যবোধের ক্ষেত্রে কোন সুবিধা-অসুবিধার সিদ্ধান্ত নিতে হবে, তা শুধুমাত্র বুদ্ধিমত্তা আপনাকে বলে দেয় না. তাই মডেলগুলো বুদ্ধিমত্তায় আরও উন্নত হলেও, মূল্যবোধভিত্তিক বিচারকে বোঝা ও সেগুলোকে নির্দেশনা দেওয়া বা কোনো নির্দিষ্ট ক্ষেত্রে “নৈতিকভাবে” কাজ করার অর্থ কী, তা বোঝার জন্য আমাদের এখনও কাজ করতে হবে. আর মডেল স্পেক থাকার বেশিরভাগ কারণই প্রাসঙ্গিক থাকে, এমনকি মডেলগুলো অনেক বেশি সক্ষম হয়ে উঠলেও: আমাদের এখনও একটি পাবলিক লক্ষ্য দরকার, যাকে কেন্দ্র করে মানুষ সমন্বয় করতে পারে, আচরণ আমাদের উদ্দেশ্যের সঙ্গে মেলে কিনা তা মূল্যায়নের একটি উপায় দরকার এবং আমরা শেখার সঙ্গে সঙ্গে নিয়মগুলো সংশোধন করার একটি প্রক্রিয়াও দরকার. যদি একমাত্র নিয়ম হয় “সহায়ক ও নিরাপদ হও”, তাহলে এমন কোনো প্রক্রিয়া থাকে না যার মাধ্যমে মানুষ, উদাহরণস্বরূপ, মডেলের কোন ধরনের বিষয়বস্তু দিতে অস্বীকার করা উচিত তার সীমারেখা নিয়ে বিতর্ক করতে পারে; ফলে এসব সিদ্ধান্তই মডেলের উপর ছেড়ে দেওয়া হয়.
বরং, মডেলগুলি আরও সক্ষম, আরও এজেন্টিক, এবং আরও ব্যাপকভাবে মোতায়েন করা হলে, অস্পষ্টতার খরচ বেড়ে যায়. এতে একটি স্পষ্ট আচরণগত কাঠামো আরও বেশি গুরুত্বপূর্ণ হয়ে ওঠে, কম নয়.
একটি উপযোগী সাদৃশ্য হলো একটি লিখিত সংবিধান ও নজিরভিত্তিক আইনের মধ্যে পার্থক্য. যদিও একটি লিখিত সংবিধান উচ্চ-স্তরের নীতিমালার পাশাপাশি সুনির্দিষ্ট নিয়মাবলি প্রদান করতে পারে, তবুও এটি উদ্ভূত হতে পারে এমন সব সম্ভাব্য পরিস্থিতির পূর্বানুমান করতে পারে না, যেগুলোর ক্ষেত্রে এর দিকনির্দেশনা প্রয়োজন হতে পারে. বাস্তব শাসনব্যবস্থার জন্য জটিল পরিস্থিতি বা অপ্রত্যাশিত সমস্যা সমাধানে ব্যাখ্যামূলক কাঠামো, স্পষ্টীকরণ এবং সুস্পষ্ট সিদ্ধান্তও প্রয়োজন. প্রকাশিত নিয়মগুলো বিভিন্ন অংশীজনকে সমন্বয় করতে সাহায্য করে, এমনকি তাদের মধ্যে মতভেদ থাকলেও এবং এতে যেকোনো পরিবর্তনকে স্পষ্টভাবে উল্লেখ করা বাধ্যতামূলক হওয়ায় পরিবর্তন সীমাবদ্ধ থাকে. মডেল স্পেক এই সবগুলো ভূমিকা পালন করার উদ্দেশ্যে তৈরি: নীতিমালার একটি বিবৃতি, একটি সর্বজনীন আচরণগত কাঠামো এবং সময়ের সাথে স্পেক পরিবর্তনের একটি প্রক্রিয়া.
তা সত্ত্বেও, আমরা মনে করি না যে মডেলের আচরণ সম্পর্কে গুরুত্বপূর্ণ সবকিছু সবসময় স্পষ্ট নিয়মে নামিয়ে আনা যাবে. সিস্টেমগুলো যত বেশি স্বায়ত্তশাসিত হয়ে উঠবে, নির্ভরযোগ্যতা ও আস্থা ততই ক্রমবর্ধমানভাবে আরও বিস্তৃত দক্ষতা ও প্রবণতার উপর নির্ভর করবে: অনিশ্চয়তা ভালোভাবে যোগাযোগ করা, স্বায়ত্তশাসনের সীমারেখাকে সম্মান করা, অপ্রত্যাশিত নেতিবাচক পরিস্থিতি এড়ানো, সময়ের সাথে সাথে উদ্দেশ্য অনুসরণ করা এবং প্রসঙ্গ অনুযায়ী মানবিক মূল্যবোধ সম্পর্কে সঠিকভাবে যুক্তি করা.
মডেল স্পেক লেখার সময়, আজকের মডেলের প্রকৃত আচরণকে ত্রুটি-বিচ্যুতিসহ বর্ণনা করা এবং দূর ভবিষ্যতের একটি আদর্শ লক্ষ্য বর্ণনা করার মধ্যে একটি বিস্তৃত পরিসর রয়েছে. আমরা ভারসাম্য বজায় রাখার চেষ্টা করি, সাধারণত বর্তমান সময়ের থেকে প্রায় 0-3 মাস এগিয়ে লক্ষ্য রাখি. ফলে, মডেল স্পেক প্রায়ই সক্রিয় উন্নয়নের অন্তত কয়েকটি ক্ষেত্রে মডেলের চেয়ে এগিয়ে থাকে.
এটি অভিপ্রেত আচরণের বর্ণনা হিসেবে মডেল স্পেকের ভূমিকাকে প্রতিফলিত করে. এটি আমাদের একটি সুসংগত দিকনির্দেশনা দিতে হবে, একই সঙ্গে আমরা ইতিমধ্যেই যা করি বা বাস্তবায়নের জন্য অদূর ভবিষ্যতে যেসব সুনির্দিষ্ট পরিকল্পনা রয়েছে, তার ভিত্তি করে থাকতে হবে.
মডেল স্পেক একটি উন্মুক্ত অভ্যন্তরীণ প্রক্রিয়ার মাধ্যমে তৈরি করা হয়. OpenAI-এ যে কেউ এতে মন্তব্য করতে বা পরিবর্তনের প্রস্তাব দিতে পারে এবং চূড়ান্ত আপডেটগুলো বিভিন্ন ক্রস-ফাংশনাল স্টেকহোল্ডারের একটি বিস্তৃত গোষ্ঠীর দ্বারা অনুমোদিত হয়. বাস্তবে, ডজনখানেক মানুষ সরাসরি টেক্সট রচনায় অবদান রেখেছেন এবং রিসার্চ, ইঞ্জিনিয়ারিং, প্রোডাক্ট, সেফটি, পলিসি, লিগ্যাল, কমস, গ্লোবাল অ্যাফেয়ার্স ও অন্যান্য কার্যক্ষেত্র জুড়ে আরও অনেকে মতামত দেন. আমরাও পাবলিক রিলিজ ও ফিডব্যাক থেকে শিখি, যা বাস্তব ডিপ্লয়মেন্টে এই সিদ্ধান্তগুলোকে যাচাই করতে সাহায্য করে.
এটি গুরুত্বপূর্ণ কারণ মডেলের আচরণ এবং বাস্তব জগতে এর প্রভাব অত্যন্ত জটিল. কেউই আচরণসমূহের পূর্ণ সেট, প্রশিক্ষণ প্রক্রিয়া এবং পরবর্তী প্রভাবসমূহ সবকিছু মাথায় ধরে রাখতে পারে না. তবে অনেক ক্রস-ফাংশনাল অবদানকারী ও পর্যালোচকের মাধ্যমে আমরা গুণমান উন্নত করতে এবং আস্থা বাড়াতে পারি.
একটি সুখকর বিস্ময় হলো যে প্রকৃত ঐকমত্য প্রায়ই সম্ভব—বিশেষত যখন আমরা নিজেদেরকে সমঝোতাগুলো যথেষ্ট নির্ভুলভাবে লিখে ফেলতে বাধ্য করি, যাতে মতভেদগুলো সুনির্দিষ্ট হয়ে ওঠে.
মডেল স্পেকও বিচ্ছিন্নভাবে লেখা হয়নি. এতে যা শেষ পর্যন্ত অন্তর্ভুক্ত হয় তার অনেকটাই আচরণ, নিরাপত্তা এবং নীতিমালা সম্পর্কিত বিস্তৃত কাজের সারসংক্ষেপ. মডেল স্পেক লেখা অনেকটাই আসলে অনুবাদ: বিদ্যমান কাজকে নিয়ে সেটিকে অন্তর্নিহিত উদ্দেশ্য না হারিয়ে আরও সহজ, আরও সামঞ্জস্যপূর্ণ, আরও সুসংগঠিত এবং আরও সহজলভ্য করে তোলা.
বেশ কয়েকটি কারণে আমাদের প্রোডাকশনে থাকা মডেলগুলো এখনও মডেল স্পেক পুরোপুরি প্রতিফলিত করে না.
- মডেল প্রশিক্ষণ মডেল স্পেক আপডেটের তুলনায় পিছিয়ে থাকতে পারে. এটি আমরা যে আচরণের দিকে এগিয়ে যাচ্ছি তা বর্ণনা করে, তাই এটি আমাদের সর্বশেষ মডেলকে যা করতে প্রশিক্ষণ দেওয়া হয়েছে তার চেয়েও এগিয়ে থাকতে পারে.
- প্রশিক্ষণ অনিচ্ছাকৃতভাবে মডেল স্পেকের সঙ্গে অসামঞ্জস্যপূর্ণ আচরণ শিখিয়ে দিতে পারে. আমরা এটি এড়াতে কঠোর চেষ্টা করি, আর যখন এটি ঘটে তখন আমরা এটিকে একটি গুরুতর বাগ হিসেবে বিবেচনা করি—আচরণ সমন্বয় করে, অথবা মডেল স্পেক সমন্বয় করে, যাতে দুটো একসঙ্গে সামঞ্জস্যপূর্ণ হয়.
- প্রশিক্ষণ কখনোই সম্ভাব্য সব আচরণের ক্ষেত্র সম্পূর্ণভাবে অন্তর্ভুক্ত করতে পারে না. বাস্তব ব্যবহারে বহুবিধ কন্টেক্সট ও এজ কেস থাকে, যা কেবল বৃহৎ পরিসরে প্রকাশ পায় এবং কোনো প্রশিক্ষণ প্রক্রিয়াই সবকিছু কভার করতে পারে না.
- সাধারণীকরণ আমরা যা উদ্দেশ্য করেছিলাম তার থেকে ভিন্ন হতে পারে. একটি মডেল অনিচ্ছাকৃত কারণে প্রশিক্ষণের সময় “সঠিক” আউটপুট তৈরি করতে পারে, যা প্রশিক্ষণে দেখা পরিস্থিতিগুলোর থেকে ভিন্ন নতুন পরিস্থিতিতে অনিচ্ছাকৃত আচরণের দিকে নিয়ে যেতে পারে. ভাবনা-বিবেচনা ভিত্তিক অ্যালাইনমেন্ট -এর মতো কৌশল সাহায্য করে, কিন্তু সেগুলো সম্পূর্ণ সমাধান নয়.
আরও বিস্তৃতভাবে, মডেল স্পেক-এ কাঙ্ক্ষিত আচরণের বিস্তৃত পরিসর বর্ণনা করা হয়েছে—এই সত্যের অর্থ এই নয় যে সেগুলো সব শেখানোর জন্য একটিমাত্র পদ্ধতি আছে. আচরণের বিভিন্ন দিক—নির্দেশনা অনুসরণ, নিরাপত্তার সীমানা, ব্যক্তিত্ব, অনিশ্চয়তার ক্যালিব্রেটেড প্রকাশ এবং আরও অনেক কিছু—প্রায়ই ভিন্ন কৌশল প্রয়োজন করে এবং ব্যর্থতার ধরনও ভিন্ন হয়. মডেল স্পেক অভিপ্রেত আচরণ বোঝা ও সমালোচনা করা সহজ করে, তবে এটিকে ভালোভাবে বাস্তবায়ন করা এখনও একদিকে একটি শিল্প, অন্যদিকে গবেষণার একটি সক্রিয় ক্ষেত্র.
এই পোস্টের পাশাপাশি, আমরা মডেল স্পেক মূল্যায়ন(একটি নতুন উইন্ডোতে খোলে) প্রকাশ করছি: একটি দৃশ্যপট-ভিত্তিক মূল্যায়ন স্যুট, যা অল্প সংখ্যক প্রতিনিধিত্বমূলক উদাহরণের মাধ্যমে মডেল স্পেক-এ থাকা যত বেশি সম্ভব দাবি অন্তর্ভুক্ত করার চেষ্টা করে. এটি আমাদের ট্র্যাক করতে সাহায্য করে কোথায় মডেলের আচরণ এবং মডেল স্পেক-এর মধ্যে সামঞ্জস্যহীনতা থাকতে পারে এবং এটি আমাদের যাচাই করতে সাহায্য করে মডেলগুলো আমাদের অভিপ্রেত উপায়ে মডেল স্পেক ব্যাখ্যা করছে কিনা. এই মূল্যায়নগুলো একটি বিস্তৃততর মূল্যায়ন কৌশলের কেবল একটি অংশ, যার মধ্যে আচরণের বহু মাত্রাজুড়ে আরও লক্ষ্যভিত্তিক মূল্যায়নও অন্তর্ভুক্ত রয়েছে, যেমন নির্দিষ্ট নিরাপত্তা ক্ষেত্র, সত্যনিষ্ঠা ও অন্ধ-সম্মতি, ব্যক্তিত্ব ও স্টাইল, এবং সক্ষমতা.
সময়ের সাথে OpenAI মডেলগুলোর বিভাগভিত্তিক মডেল স্পেক সম্মতির চার্ট. মূল্যায়ন এবং আমরা কিভাবে সেগুলো ব্যাখ্যা করি সে সম্পর্কে বিস্তারিত জানতে সংশ্লিষ্ট ব্লগ পোস্ট(একটি নতুন উইন্ডোতে খোলে) দেখুন. সংক্ষেপে, আমরা বিশ্বাস করি যে এই ফলাফলগুলো সময়ের সাথে সাথে মডেল অ্যালাইনমেন্টে প্রকৃত ও ব্যাপক উন্নতি প্রতিফলিত করে, যদিও এগুলো আরও সাম্প্রতিক নীতিমালার বিপরীতে পুরোনো মডেলগুলোকে পরিমাপ করার কারণে সৃষ্ট একটি ছোট প্রভাবও প্রতিফলিত করে.
বাস্তবে, বেশিরভাগ Spec আপডেট পুনরাবৃত্ত কিছু ইনপুট দ্বারা পরিচালিত হয়:
- সর্বজনীন সমস্যা ও মতামত. বিভ্রান্তি, প্রান্তিক কেস অথবা ব্যর্থতার ধরনসমূহ—যা মডেল স্পেক-এর ভাষা অথবা আমাদের মডেলের আচরণে পরিলক্ষিত হয়.
- অভ্যন্তরীণ সমস্যা. উন্নয়ন ও পরীক্ষার সময় আমরা যে প্যাটার্নগুলো দেখি, সেগুলোর মধ্যে এমন অস্পষ্টতাও অন্তর্ভুক্ত থাকে যেখানে ভিন্ন যুক্তিসঙ্গত ব্যাখ্যা ভিন্ন আচরণের দিকে নিয়ে যায়.
- আচরণ এবং নিরাপত্তা নীতিমালার আপডেট. যখন উচ্চ-স্তরের কনস্ট্রেইন্ট বা কমিটমেন্ট পরিবর্তিত হয়, তখন Spec-এ সেই নতুন কাঠামোটি স্পষ্টভাবে প্রতিফলিত করতে হবে.
- নতুন সক্ষমতা এবং পণ্য. মডেলগুলি নতুন আচরণে আরও সক্ষম হয়ে উঠলে এবং আমরা নতুন পণ্য প্রকাশ করলে, আমরা চাই মডেল স্পেক কনটেন্ট ও পরিসরের দিক থেকে তাল মিলিয়ে চলুক—উদাহরণস্বরূপ, মাল্টিমোডাল ইন্টারঅ্যাকশনের জন্য নিয়ম(একটি নতুন উইন্ডোতে খোলে), স্বয়ংক্রিয় এজেন্টদের(একটি নতুন উইন্ডোতে খোলে), এবং 18 বছরের কম বয়সী ব্যবহারকারীদের(একটি নতুন উইন্ডোতে খোলে) যোগ করে.
কয়েকটি নকশাগত নীতিমালা নির্দেশ করে আমরা কিভাবে মডেল স্পেক লিখি এবং সংশোধন করি.
- স্বচ্ছতা ও নির্ভুলতা. “সৎ হও” একটি ভালো মূল্যবোধ, কিন্তু এটি কোনো সম্পূর্ণ সিদ্ধান্ত গ্রহণের পদ্ধতি নয়. মডেল স্পেকের উচিত মতভেদকে আরও স্পষ্ট করা, গ্রহণযোগ্য শোনায় এমন ভাষার আড়ালে সেগুলোকে লুকিয়ে রাখা নয়. যেখানে ব্যবহারিকভাবে সম্ভব, আমাদের উচিত নিয়মগুলোর মধ্যে সম্ভাব্য কনফ্লিক্ট স্পষ্টভাবে উল্লেখ করা এবং সেগুলো কিভাবে সমাধান করতে হবে সে সম্পর্কে নির্দেশনা বা উদাহরণ দেওয়া. উদাহরণস্বরূপ, মিথ্যা বলো না(একটি নতুন উইন্ডোতে খোলে) উষ্ণ হও(একটি নতুন উইন্ডোতে খোলে)-এর সাথে একটি সম্ভাব্য সংঘাত তুলে ধরে এবং ব্যাখ্যা করে যে সহকারীটির ভদ্রতার রীতি অনুসরণ করা উচিত, তবে এমন সাদা মিথ্যা বলা থেকে বিরত থাকতে হবে যা অন্ধ-সম্মতি(একটি নতুন উইন্ডোতে খোলে)-তে পরিণত হতে পারে এবং ব্যবহারকারীর সর্বোত্তম স্বার্থের বিরুদ্ধে যেতে পারে.
- মূলগত নিয়ম. একজন পাঠকের এমন সক্ষম হওয়া উচিত যে তিনি একটি বাস্তবসম্মত প্রম্পট নিয়ে এমন একটি উত্তর তৈরি করতে পারেন, যা আরেকজন পাঠক স্পষ্টভাবে সীমার মধ্যে বা বাইরে তা চিনতে পারেন (যদিও প্রান্তিক ক্ষেত্রে বিচার-বিবেচনার অবকাশ থাকে).
- সংকেত-থেকে-শব্দের অনুপাত সর্বাধিক করে এমন উদাহরণসমূহ. ভালো উদাহরণ প্রায়ই একটি উচ্চ-মানের স্পেসিফিকেশন আপডেট তৈরি করতে কেন্দ্রীয় ভূমিকা পালন করে. উদাহরণগুলো মডেলের আচরণ নির্দিষ্ট করার মূল জটিলতাগুলোকে উন্মোচন করতে, কঠিন দ্বন্দ্বগুলোকে সামনে নিয়ে আসতে এবং সেগুলো কিভাবে সমাধান করা হবে সে বিষয়ে একটি স্পষ্ট অবস্থান নিতে সহায়তা করা উচিত. দ্বিতীয়ত, তাদের কাঙ্ক্ষিত টোন এবং স্টাইলের উদাহরণস্বরূপ হওয়ার চেষ্টা করা উচিত, যা গদ্যে প্রকাশ করা কঠিন হতে পারে.
- দৃঢ়তা. আমরা অপ্রয়োজনীয় অস্পষ্টতা বা জটিলতাযুক্ত উদাহরণ এড়িয়ে চলার চেষ্টা করি, যাতে মূল দ্বন্দ্ব এবং কাঙ্ক্ষিত সমাধান স্পষ্ট থাকে.
- সামঞ্জস্য এবং সুস্পষ্ট সংগঠন. আমরা চেষ্টা করি যাতে মডেল স্পেক-এর নিয়মগুলো একে অপরের সঙ্গে এবং আমাদের মডেলের অভিপ্রেত আচরণের সঙ্গে সম্পূর্ণ সামঞ্জস্যপূর্ণ হয় এবং ডকুমেন্টটির সামগ্রিক বিন্যাস স্পষ্ট ও সহজবোধ্য হয়.
মডেল স্পেক এমন দাবি নয় যে আমরা গুরুত্বপূর্ণ সবকিছু লিখে ফেলতে পারি বা মডেলগুলো সবসময় লক্ষ্যে পৌঁছাবে. এটি এমন একটি দাবি যে উদ্দেশ্যপ্রণোদিত আচরণ যথেষ্ট গুরুত্বপূর্ণ যাতে তা স্পষ্ট, কার্যকরযোগ্য এবং সংশোধনযোগ্য হয়.
সাফল্যের তিনটি মানদণ্ড এটিকে কিভাবে বিকশিত করি, তা নির্দেশ করে.
- পাঠযোগ্যতা. OpenAI-এর ভেতরে ও বাইরে থাকা মানুষরা আচরণ সম্পর্কে সঠিক প্রত্যাশা গঠন করতে পারে এবং আচরণ তাদের বিস্মিত করলে তারা সেই পাঠ্যের দিকে নির্দেশ করতে পারে.
- কার্যকরযোগ্যতা. মডেল স্পেক মূল্যায়ন ডিজাইন করতে, ঘটনা নির্ণয় করতে এবং সামঞ্জস্যপূর্ণ পণ্য-সংক্রান্ত সিদ্ধান্ত নিতে ব্যবহার করা যেতে পারে—শুধু মূল্যবোধ প্রকাশ করার জন্য নয়.
- সংশোধনযোগ্যতা. আমরা শেখার সাথে সাথে মডেল স্পেক বিকশিত হতে পারে, তবে এটি যেন একটি অস্থিতিশীল, ক্রমাগত পরিবর্তনশীল লক্ষ্যে পরিণত না হয়.
মডেল এবং পণ্য বিকশিত হওয়ার সাথে সাথে, আমরা আশা করি নতুন সক্ষমতা এবং স্থাপন প্রসঙ্গের সাথে তাল মিলিয়ে মডেল স্পেক প্রসারিত এবং আরও স্পষ্ট হবে. লক্ষ্য হলো আচরণগত স্পেসিফিকেশনকে সুসংগত, পরীক্ষাযোগ্য এবং AGI যেন সমগ্র মানবজাতির উপকারে আসে তা নিশ্চিত করার আমাদের মিশনের সাথে মানানসই রাখা.


