১২ মে, ২০২৬

Parameter Golf আমাদের যা শিখিয়েছে

1,000+ অংশগ্রহণকারী, 2,000+ সাবমিশন, এবং কোডিং এজেন্ট নির্ভর একটি উন্মুক্ত মেশিন লার্নিং চ্যালেঞ্জ থেকে পাওয়া শিক্ষা.

লোডিং…

আমরা মেশিন লার্নিং রিসার্চ কমিউনিটিকে একটি নতুন এবং কঠোরভাবে সীমাবদ্ধ মেশিন লার্নিং সমস্যা অন্বেষণে সম্পৃক্ত ও সহায়তা করতে Parameter Golf চালু করেছি. আমরা চেয়েছিলাম চ্যালেঞ্জটি এমন আকর্ষণীয় হোক যা প্রকৃত কারিগরি সৃজনশীলতাকে পুরস্কৃত করবে, পাশাপাশি এটি যেন ধারণাগতভাবে সহজ এবং যাচাইযোগ্য থাকে.

অংশগ্রহণকারীদের 16 MB-এর আর্টিফ্যাক্ট লিমিটের (মডেল ওয়েটস এবং ট্রেনিং কোড উভয়ই অন্তর্ভুক্ত) মধ্যে থেকে এবং 8×H100-এ 10-মিনিট ট্রেনিং বাজেটের মধ্যে একটি নির্দিষ্ট FineWeb ডেটাসেটে হেল্ড-আউট লস (held-out loss) সর্বনিম্ন করতে হয়েছে. আমরা একটি বেসলাইন, ডেটাসেট এবং ইভালুয়েশন স্ক্রিপ্ট সরবরাহ করেছি যাতে অংশগ্রহণকারীরা রিপোজিটরি ফোর্ক করে মডেলটির উন্নতি করতে এবং GitHub-এর মাধ্যমে তাদের ফলাফল জমা দিতে পারে.

আট সপ্তাহব্যাপী এই আয়োজনে আমরা 1,000-এরও বেশি অংশগ্রহণকারীর কাছ থেকে 2,000-টিরও বেশি সাবমিশন পেয়েছি. অপ্টিমাইজার টিউনিং এবং কোয়ান্টাইজেশন থেকে শুরু করে নতুন মডেলিং আইডিয়া এবং টেস্ট-টাইম ট্রেনিং, প্রতিটি সাবমিশনের কারিগরি ব্যাপ্তি, সৃজনশীলতা এবং প্রথাগত নিয়মের বাইরে গিয়ে উদ্ভাবন করার প্রচেষ্টা আমাদের মুগ্ধ করেছে.

চ্যালেঞ্জটির অন্যতম রোমাঞ্চকর দিক ছিল অংশগ্রহণকারীদের মাঝে AI কোডিং এজেন্টদের ব্যাপক ব্যবহার দেখা. এই এজেন্টগুলো পরীক্ষা নিরীক্ষার খরচ কমাতে সাহায্য করেছে, আরও বেশি মানুষের অংশগ্রহণ সহজ করেছে এবং প্রতিযোগিতার গতি পরিবর্তন করে দিয়েছে. একই সাথে এগুলো সাবমিশন রিভিউ, অ্যাট্রিবিউশন এবং স্কোরিংয়ের ক্ষেত্রে নতুন চ্যালেঞ্জও তৈরি করেছে.

চ্যালেঞ্জটি আমাদের জন্য অর্থবহ মেধা অন্বেষণের ক্ষেত্রেও পরিণত হয়েছিল. Parameter Golf-এর জন্য এটি আমাদের লক্ষ্যগুলোর একটি ছিল এবং এটি একটি কার্যকর সংকেত ছিল যে ওপেন-এন্ডেড কারিগরি চ্যালেঞ্জ অসাধারণ মেশিন লার্নিং বিচক্ষণতা ও নিরলস প্রচেষ্টাকে সামনে নিয়ে আসতে পারে.

এই পোস্টে, আমরা আমাদের কাছে আশ্চর্যজনক ও আকর্ষণীয় মনে হওয়া কিছু জমা দেওয়া কাজ তুলে ধরেছি এবং শক্তিশালী AI এজেন্টের যুগে একটি কোডিং প্রতিযোগিতা পরিচালনা করে আমরা যা শিখেছি, তা শেয়ার করেছি.

কারিগরি পর্যবেক্ষণ

রেকর্ড ট্র্যাক

আমরা রেকর্ড-ট্র্যাক লিডারবোর্ডের প্রতিটি সাবমিশন বিচার করেছি এবং স্বতন্ত্রভাবে পুনরায় তৈরি করেছি এবং নিশ্চিত করেছি যে প্রতিটি সাবমিশন জমা দেওয়ার সময় তা রেকর্ড-ব্রেকিং ছিল. এক্ষেত্রে বেশ কিছু বিষয় বিশেষভাবে নজরে এসেছে.

প্রশিক্ষণ অপ্টিমাইজেশন

সবচেয়ে শক্তিশালী কিছু ফল এসেছে বিদ্যমান উপাদানগুলো সতর্কভাবে টিউন করার মাধ্যমে.

জমা	অবদানকারী	কৌশল	কেন এটি গুরুত্বপূর্ণ ছিল
#60	@notapplica	"এর থেকে পূর্ববর্তী সম্মিলিত জয়সমূহ #50	#42	এবং সম্ভবত #39	তারপর Muon ওয়েট ডিকে	স্পেকট্রাল এমবেডিং ইনিশিয়ালাইজেশন	রেসিডুয়াল-মিক্স শিডিউলিং	এবং কম্পাইলড ইভ্যালুয়েশনের সাথে কাজ করার জন্য একটি গভীর মডেল তৈরি করা হয়েছে."	"সুশৃঙ্খল লিডারবোর্ড কাজের একটি শক্তিশালী উদাহরণ: বিদ্যমান উন্নতিগুলোর মধ্যে কোনটি গুরুত্বপূর্ণ তা চিহ্নিত করা এবং সেগুলোকে পরিচ্ছন্নভাবে একত্রিত করা."

কোয়ান্টাইজেশন

কয়েকটি সাবমিশন কম্প্রেশন ও এক্সপোর্ট নিয়ে জোরালোভাবে কাজ করেছে.

জমা	অবদানকারী	কৌশল	কেন এটি গুরুত্বপূর্ণ ছিল
#414	@signalrush	"প্রশিক্ষণের পরে ওয়েট কোয়ান্টাইজ করতে GPTQ-lite ব্যবহার করা হয়েছে."	"এই GPTQ-lite সফলভাবে ব্যবহার করা প্রথম লিডারবোর্ড সাবমিশন	যা আরও ভালো মূল্যায়নের দিকে নিয়ে যায়."
#1060	@dexhunter	"@raahilshah-এর #634-এর উপর ভিত্তি করে সম্পূর্ণ হেসিয়ান GPTQ সফলভাবে ব্যবহার করার জন্য তৈরি."	"পূর্ববর্তী কোয়ান্টাইজেশনের কাজকে আরও শক্তিশালী কম্প্রেশন পাথে প্রসারিত করা হয়েছে."

টেস্ট-টাইম ও মূল্যায়ন কৌশল

কিছু সাবমিশন মডেল উন্নয়ন ও মূল্যায়ন কৌশলের মধ্যকার সীমানাকে আরও প্রসারিত করেছে. নিয়ম অনুযায়ী এসব পদ্ধতি বৈধ ছিল, তবে আয়োজক হিসেবে আমাদের কাছ থেকে এগুলোর সতর্ক পর্যালোচনার প্রয়োজন ছিল.

জমা	অবদানকারী	কৌশল	কেন এটি গুরুত্বপূর্ণ ছিল
#77	@samacqua	"স্কোর-ভিত্তিক	প্রতি-ডকুমেন্ট LoRA পরীক্ষার সময় প্রশিক্ষণ ব্যবহার করা হয়েছে: আগে স্কোর করুন	শুধু ইতিমধ্যে স্কোর করা চাঙ্কে অ্যাডাপ্ট করুন এবং ডকুমেন্টের সীমানায় রিসেট করুন."	"নিয়ম অনুযায়ী পর্যালোচনাযোগ্য থেকে মডেল উন্নয়ন এবং মূল্যায়ন কৌশলের মধ্যকার সীমারেখাকে এগিয়ে নিয়েছে."
#1019	@abaybektursun	"স্ব-উত্পাদিত GPTQ ক্যালিব্রেশন ব্যবহার করা হয়েছে: প্রশিক্ষিত মডেল থেকে ক্যালিব্রেশন টেক্সট তৈরি করুন	তারপর সেই অ্যাক্টিভেশনগুলি থেকে GPTQ হেসিয়ান তৈরি করুন."	"একটি সৃজনশীল ক্যালিব্রেশন কৌশল যার জন্য আয়োজকদের সতর্ক পর্যালোচনার প্রয়োজন ছিল."

নতুন মডেলিং ও ডেটার ধারণা

কয়েকটি সাবমিশন বিশেষভাবে সৃজনশীল মডেলিং বা ডেটার ধারণা উপস্থাপন করেছে.

জমা	অবদানকারী	কৌশল	কেন এটি গুরুত্বপূর্ণ ছিল
#1729	@romeerp	CaseOps টোকেনাইজার চালু করা হয়েছে: অরিজিনাল-বাইট BPB সাইডকার অ্যাকাউন্টিং সহ লসলেস ক্যাপিটালাইজেশন অপারেটর টোকেন.	"একটি সৃজনশীল টোকেনাইজার ও ডেটা-উপস্থাপনার ধারণা."
#265	@unnir	"GQA-সচেতন গ্রুপড ভিউ সহ একটি কার্যকর আংশিক এক্সক্লুসিভ সেলফ অ্যাটেনশন পদ্ধতি XSA চালু করা হয়েছে."	"চ্যালেঞ্জটিতে একটি কার্যকর অ্যাটেনশন ভ্যারিয়েন্ট আনা হয়েছে."
#65	@aquariouseworkman	"SmearGate এবং BigramHash চালু করা হয়েছে: একটি লার্নড পূর্ববর্তী-টোকেন এমবেডিং ব্লেন্ড এবং সংলগ্ন-টোকেন-জোড়া হ্যাশ ফিচার."	"একেবারে নতুন করে ফিচার মেকানিজম যোগ করা হয়েছে."
#1204	@msisovic	"মিনি ডেপথ রিকারেন্স চালু করা হয়েছে: লেয়ার 4 এবং 5-এর পুনরাবৃত্তি	প্রশিক্ষণের মাঝামাঝি পর্যন্ত রিকারেন্স বিলম্বিত করা এবং পুনরাবৃত্ত MLP-গুলোকে আংশিকভাবে বিচ্ছিন্ন করা হয়েছে. রিকারেন্ট লেয়ারগুলোকে কার্যকরভাবে কাজ করানোর জন্য প্রথম গৃহীত লিডারবোর্ড সারি."

আমরা এই নয়টি সাবমিশনকে তুলে ধরার জন্য বেছে নিয়েছি কারণ এগুলো এমন সব ফলাফলের প্রতিনিধিত্ব করে যা আমরা এই চ্যালেঞ্জের মাধ্যমে দেখতে চেয়েছিলাম. কিছু অংশগ্রহণকারী নিবিড় টিউনিংয়ের মাধ্যমে সফল হয়েছেন. অন্যরা কোয়ান্টাইজেশন এবং লো-র‍্যাঙ্ক টেকনিকের ব্যবহারকে আরও এগিয়ে নিয়েছেন. কেউ কেউ ইভ্যালুয়েশন নিয়মের সীমাবদ্ধতাগুলো নিয়ে পরীক্ষা-নিরীক্ষা করেছেন. আবার বেশ কয়েকজন প্রচলিত গবেষণাপত্র থেকে অথবা একদম নতুনভাবে এমন কিছু মডেলিং বা ডেটা আইডিয়া নিয়ে এসেছেন, যা অপ্রত্যাশিত সাফল্য এনে দিয়েছে.

ননরেকর্ড ট্র্যাক

নন-রেকর্ড ট্র্যাকটিতে অনেক সৃজনশীল সাবমিশন জমা পড়েছিল. আমরা আমাদের পছন্দের 15-টি সাবমিশনকে তুলে ধরছি যার মধ্যে নন-অটোরিগ্রেসিভ টেক্সট মডেলিং থেকে শুরু করে ডায়নামিক টোকেনাইজেশনের মতো বিভিন্ন পদ্ধতি অন্তর্ভুক্ত ছিল.

যেহেতু এই ট্র্যাকটি অধিক পরীক্ষামূলক ছিল, তাই আমরা সরাসরি পারফরম্যান্সের চেয়ে পদ্ধতিটি কারিগরিভাবে কতটা আকর্ষণীয় ছিল সেদিকে বেশি গুরুত্ব দিয়েছি. এর মধ্যে তিনটি সাবমিশন বিশেষভাবে নজরে এসেছে:

এগুলো ছিল আমাদের প্রিয় তিনটি ননরেকর্ড সাবমিশন, যদিও পারফরম্যান্স অনুযায়ী এগুলো যে শীর্ষ তিনটি ছিল এমন নয়.

তা সত্ত্বেও, নন-রেকর্ড ট্র্যাকটিও যথেষ্ট প্রতিযোগিতামূলক ছিল. নন-রেকর্ড লিডারবোর্ডের অর্ধেক এন্ট্রিই 1.22 BPB-এর সাধারণ বেসলাইনকে অতিক্রম করেছে এবং শীর্ষস্থানে থাকা এন্ট্রিটি 1.12 BPB-তে পৌঁছেছে.

এটি আমাদের উৎসাহিত করেছে. এমনকি শক্তিশালী ট্রান্সফরমার বেসলাইনের বিপরীতেও, বিকল্প পদ্ধতিগুলো মাঝেমধ্যে এই প্রভাবশালী আর্কিটেকচারের সাথে পাল্লা দিতে পেরেছে.

আমরা এও মনে করি যে শক্তিশালী কোডিং এজেন্টদের সহজলভ্যতা এই ট্র্যাকটিকে বিশেষভাবে উপকৃত করেছে. এই এজেন্টগুলো অনুমাননির্ভর বা পরীক্ষামূলক আইডিয়াগুলোর প্রোটোটাইপ তৈরি করার খরচ অনেক কমিয়ে দিয়েছে, যার মধ্যে এমন সব পদ্ধতিও অন্তর্ভুক্ত ছিল যা আগে কোনো স্বল্পমেয়াদী প্রতিযোগিতায় চেষ্টা করার জন্য খুব বেশি সময়সাপেক্ষ বা অনিশ্চিত বলে মনে হতে পারত.

মূল শিক্ষা

Parameter Golf এবং এর আগের অনুরূপ প্রতিযোগিতাগুলোর মধ্যে একটি বড় পার্থক্য ছিল কোডিং এজেন্টদের ব্যাপক ব্যবহার. অধিকাংশ সাবমিশন প্রদানকারীই তাদের কাজের অংশ হিসেবে এজেন্ট ব্যবহার করার কথা উল্লেখ করেছেন.

এর ফলে প্রবেশের বাধা কমেছে. অংশগ্রহণকারীরা আরও দ্রুত এক্সপেরিমেন্ট সেট আপ করতে, অপরিচিত কোড পর্যালোচনা করতে এবং কম জটিলতায় ধারণা পরীক্ষা করতে পারতেন. Runpod-এর $1,000,000 মূল্যের কম্পিউট রিসোর্স স্পন্সরশিপও চ্যালেঞ্জটিকে আরও বেশি মানুষের জন্য সহজলভ্য করে তুলতে বড় ভূমিকা রেখেছে.

একই সাথে এজেন্টের ব্যবহার সাবমিশন এবং স্কোরিংয়ের ক্ষেত্রে নতুন কিছু সমস্যারও সৃষ্টি করেছে. অনেক সাবমিশনই ছিল বিদ্যমান শীর্ষ স্কোরারদের কাজে আনা ছোটখাটো পরিবর্তন মাত্র, একদম মৌলিকভাবে নতুন কোনো পদ্ধতি নয়. অবশ্য এটি প্রায়শই বেশ কার্যকর ছিল: শক্তিশালী আইডিয়াগুলো দ্রুত ছড়িয়ে পড়ত এবং অন্যদের মাধ্যমে আরও পরিমার্জিত হতো. তবে এটি কিছু অনাকাঙ্ক্ষিত জটিলতাও (noise) তৈরি করেছিল. যখন প্রতিযোগিতার নির্দেশিকার বাইরের কোনো সাবমিশন অস্বাভাবিকভাবে ভালো স্কোর করত, তখন অন্যান্য এজেন্টগুলো মাঝেমধ্যে সেই আইডিয়াগুলো কপি করত এবং ভুল পথেই এগিয়ে যেত.

সাবমিশনের বিশাল পরিমাণের কারণে আমাদের প্রতিযোগিতা পরিচালনার পদ্ধতিতেও পরিবর্তন আনতে হয়েছে. লিডারবোর্ডের গতি সচল রেখে প্রতিটি সাবমিশন ম্যানুয়াভাবে যাচাই করা আমাদের পক্ষে সম্ভব ছিল না. চ্যালেঞ্জ চলাকালীন, আমরা নতুন সাবমিশনগুলো পর্যবেক্ষণ করতে এবং সেগুলোকে মানুষের মাধ্যমে পর্যালোচনার জন্য চিহ্নিত করতে একটি অভ্যন্তরীণ Codex-ভিত্তিক ট্রায়াজ বট তৈরি করেছিলাম. এটি বিশেষ করে সেই সময়ে খুবই গুরুত্বপূর্ণ হয়ে উঠেছিল যখন আমরা প্রতিদিন শত শত সাবমিশন পাচ্ছিলাম.

চ্যালেঞ্জটিকে কেন্দ্র করে গড়ে ওঠা কমিউনিটির অংশ হয়ে উঠেছিল AI এজেন্টগুলোও. প্রতিযোগিতার একটি বড় সময় জুড়ে @notapplica এবং তাদের কোডিং এজেন্ট একটি "লাইভ আপডেট" বুলেটিন পরিচালনা করেছিল, যা মূলত বড় ঘটনাগুলো ট্র্যাক করা, লিডারবোর্ডের বিভিন্ন পদ্ধতি ব্যাখ্যা করা এবং অন্যান্য অংশগ্রহণকারীদের প্রতিযোগিতার খবরাখবর রাখতে সাহায্য করেছিল. এছাড়া কম অভিজ্ঞ অংশগ্রহণকারীরা যাতে তাদের সাবমিশনগুলো নিয়মের মধ্যে আছে কি না তা যাচাই করতে পারে এবং সাধারণ ভুল পদ্ধতিগুলো এড়িয়ে চলতে পারে, সেজন্য বেশ কিছু কমিউনিটি রিভিউ টুলও তৈরি করা হয়েছিল.

এরপর কী?

আমাদের প্রধান লক্ষ্য ছিল এমন একটি চ্যালেঞ্জ চালু করা, যাতে যোগ্য অংশগ্রহণকারীরা⁠(একটি নতুন উইন্ডোতে খোলে) অংশ নিতে পারেন এবং মেশিন লার্নিং গবেষণার অভিজ্ঞতা অর্জন করতে পারেন. Parameter Golf কারিগরিভাবে শক্তিশালী ও সৃজনশীল বিস্তৃত পরিসরের সাবমিশন নিয়ে এসেছে এবং AI এজেন্টগুলো আরও সক্ষম ও ব্যাপকভাবে ব্যবহৃত হওয়ার ফলে উন্মুক্ত গবেষণা প্রতিযোগিতাগুলো কিভাবে পরিবর্তিত হতে পারে, সে সম্পর্কে আমাদের আরও স্পষ্ট ধারণা দিয়েছে.

আমরা ভবিষ্যতে এই ধরনের আরও চ্যালেঞ্জ চালু করার কথা ভাবছি. আপনি আগ্রহী হলে অনুগ্রহ করে চ্যালেঞ্জে অংশগ্রহণের ফর্মটি⁠(একটি নতুন উইন্ডোতে খোলে) পূরণ করুন.

2026

লেখক

OpenAI

পড়া চালিয়ে যান

সব দেখুন

কোডিং মূল্যায়নে সংকেত ও গোলমাল আলাদা করা

গবেষণা৮ জুলাই, ২০২৬

GeneBench-Pro পরিচিতি

গবেষণা৩০ জুন, ২০২৬

A near-autonomous AI chemist improves a challenging reaction

প্রায়-স্বায়ত্তশাসিত AI রসায়নবিদ ঔষধি রসায়নের একটি কঠিন বিক্রিয়া উন্নত করে

গবেষণা১৭ জুন, ২০২৬