Parameter Golf আমাদের যা শিখিয়েছে
1,000+ অংশগ্রহণকারী, 2,000+ সাবমিশন, এবং কোডিং এজেন্ট নির্ভর একটি উন্মুক্ত মেশিন লার্নিং চ্যালেঞ্জ থেকে পাওয়া শিক্ষা.
আমরা মেশিন লার্নিং রিসার্চ কমিউনিটিকে একটি নতুন এবং কঠোরভাবে সীমাবদ্ধ মেশিন লার্নিং সমস্যা অন্বেষণে সম্পৃক্ত ও সহায়তা করতে Parameter Golf চালু করেছি. আমরা চেয়েছিলাম চ্যালেঞ্জটি এমন আকর্ষণীয় হোক যা প্রকৃত কারিগরি সৃজনশীলতাকে পুরস্কৃত করবে, পাশাপাশি এটি যেন ধারণাগতভাবে সহজ এবং যাচাইযোগ্য থাকে.
অংশগ্রহণকারীদের 16 MB-এর আর্টিফ্যাক্ট লিমিটের (মডেল ওয়েটস এবং ট্রেনিং কোড উভয়ই অন্তর্ভুক্ত) মধ্যে থেকে এবং 8×H100-এ 10-মিনিট ট্রেনিং বাজেটের মধ্যে একটি নির্দিষ্ট FineWeb ডেটাসেটে হেল্ড-আউট লস (held-out loss) সর্বনিম্ন করতে হয়েছে. আমরা একটি বেসলাইন, ডেটাসেট এবং ইভালুয়েশন স্ক্রিপ্ট সরবরাহ করেছি যাতে অংশগ্রহণকারীরা রিপোজিটরি ফোর্ক করে মডেলটির উন্নতি করতে এবং GitHub-এর মাধ্যমে তাদের ফলাফল জমা দিতে পারে.
আট সপ্তাহব্যাপী এই আয়োজনে আমরা 1,000-এরও বেশি অংশগ্রহণকারীর কাছ থেকে 2,000-টিরও বেশি সাবমিশন পেয়েছি. অপ্টিমাইজার টিউনিং এবং কোয়ান্টাইজেশন থেকে শুরু করে নতুন মডেলিং আইডিয়া এবং টেস্ট-টাইম ট্রেনিং, প্রতিটি সাবমিশনের কারিগরি ব্যাপ্তি, সৃজনশীলতা এবং প্রথাগত নিয়মের বাইরে গিয়ে উদ্ভাবন করার প্রচেষ্টা আমাদের মুগ্ধ করেছে.
চ্যালেঞ্জটির অন্যতম রোমাঞ্চকর দিক ছিল অংশগ্রহণকারীদের মাঝে AI কোডিং এজেন্টদের ব্যাপক ব্যবহার দেখা. এই এজেন্টগুলো পরীক্ষা নিরীক্ষার খরচ কমাতে সাহায্য করেছে, আরও বেশি মানুষের অংশগ্রহণ সহজ করেছে এবং প্রতিযোগিতার গতি পরিবর্তন করে দিয়েছে. একই সাথে এগুলো সাবমিশন রিভিউ, অ্যাট্রিবিউশন এবং স্কোরিংয়ের ক্ষেত্রে নতুন চ্যালেঞ্জও তৈরি করেছে.
চ্যালেঞ্জটি আমাদের জন্য অর্থবহ মেধা অন্বেষণের ক্ষেত্রেও পরিণত হয়েছিল. Parameter Golf-এর জন্য এটি আমাদের লক্ষ্যগুলোর একটি ছিল এবং এটি একটি কার্যকর সংকেত ছিল যে ওপেন-এন্ডেড কারিগরি চ্যালেঞ্জ অসাধারণ মেশিন লার্নিং বিচক্ষণতা ও নিরলস প্রচেষ্টাকে সামনে নিয়ে আসতে পারে.
এই পোস্টে, আমরা আমাদের কাছে আশ্চর্যজনক ও আকর্ষণীয় মনে হওয়া কিছু জমা দেওয়া কাজ তুলে ধরেছি এবং শক্তিশালী AI এজেন্টের যুগে একটি কোডিং প্রতিযোগিতা পরিচালনা করে আমরা যা শিখেছি, তা শেয়ার করেছি.
আমরা রেকর্ড-ট্র্যাক লিডারবোর্ডের প্রতিটি সাবমিশন বিচার করেছি এবং স্বতন্ত্রভাবে পুনরায় তৈরি করেছি এবং নিশ্চিত করেছি যে প্রতিটি সাবমিশন জমা দেওয়ার সময় তা রেকর্ড-ব্রেকিং ছিল. এক্ষেত্রে বেশ কিছু বিষয় বিশেষভাবে নজরে এসেছে.
প্রশিক্ষণ অপ্টিমাইজেশন
সবচেয়ে শক্তিশালী কিছু ফল এসেছে বিদ্যমান উপাদানগুলো সতর্কভাবে টিউন করার মাধ্যমে.
| জমা | অবদানকারী | কৌশল | কেন এটি গুরুত্বপূর্ণ ছিল | ||||||
| #60 | @notapplica | "এর থেকে পূর্ববর্তী সম্মিলিত জয়সমূহ #50 | #42 | এবং সম্ভবত #39 | তারপর Muon ওয়েট ডিকে | স্পেকট্রাল এমবেডিং ইনিশিয়ালাইজেশন | রেসিডুয়াল-মিক্স শিডিউলিং | এবং কম্পাইলড ইভ্যালুয়েশনের সাথে কাজ করার জন্য একটি গভীর মডেল তৈরি করা হয়েছে." | "সুশৃঙ্খল লিডারবোর্ড কাজের একটি শক্তিশালী উদাহরণ: বিদ্যমান উন্নতিগুলোর মধ্যে কোনটি গুরুত্বপূর্ণ তা চিহ্নিত করা এবং সেগুলোকে পরিচ্ছন্নভাবে একত্রিত করা." |
কোয়ান্টাইজেশন
কয়েকটি সাবমিশন কম্প্রেশন ও এক্সপোর্ট নিয়ে জোরালোভাবে কাজ করেছে.
| জমা | অবদানকারী | কৌশল | কেন এটি গুরুত্বপূর্ণ ছিল | |
| #414 | @signalrush | "প্রশিক্ষণের পরে ওয়েট কোয়ান্টাইজ করতে GPTQ-lite ব্যবহার করা হয়েছে." | "এই GPTQ-lite সফলভাবে ব্যবহার করা প্রথম লিডারবোর্ড সাবমিশন | যা আরও ভালো মূল্যায়নের দিকে নিয়ে যায়." |
| #1060 | @dexhunter | "@raahilshah-এর #634-এর উপর ভিত্তি করে সম্পূর্ণ হেসিয়ান GPTQ সফলভাবে ব্যবহার করার জন্য তৈরি." | "পূর্ববর্তী কোয়ান্টাইজেশনের কাজকে আরও শক্তিশালী কম্প্রেশন পাথে প্রসারিত করা হয়েছে." |
টেস্ট-টাইম ও মূল্যায়ন কৌশল
কিছু সাবমিশন মডেল উন্নয়ন ও মূল্যায়ন কৌশলের মধ্যকার সীমানাকে আরও প্রসারিত করেছে. নিয়ম অনুযায়ী এসব পদ্ধতি বৈধ ছিল, তবে আয়োজক হিসেবে আমাদের কাছ থেকে এগুলোর সতর্ক পর্যালোচনার প্রয়োজন ছিল.
| জমা | অবদানকারী | কৌশল | কেন এটি গুরুত্বপূর্ণ ছিল | ||
| #77 | @samacqua | "স্কোর-ভিত্তিক | প্রতি-ডকুমেন্ট LoRA পরীক্ষার সময় প্রশিক্ষণ ব্যবহার করা হয়েছে: আগে স্কোর করুন | শুধু ইতিমধ্যে স্কোর করা চাঙ্কে অ্যাডাপ্ট করুন এবং ডকুমেন্টের সীমানায় রিসেট করুন." | "নিয়ম অনুযায়ী পর্যালোচনাযোগ্য থেকে মডেল উন্নয়ন এবং মূল্যায়ন কৌশলের মধ্যকার সীমারেখাকে এগিয়ে নিয়েছে." |
| #1019 | @abaybektursun | "স্ব-উত্পাদিত GPTQ ক্যালিব্রেশন ব্যবহার করা হয়েছে: প্রশিক্ষিত মডেল থেকে ক্যালিব্রেশন টেক্সট তৈরি করুন | তারপর সেই অ্যাক্টিভেশনগুলি থেকে GPTQ হেসিয়ান তৈরি করুন." | "একটি সৃজনশীল ক্যালিব্রেশন কৌশল যার জন্য আয়োজকদের সতর্ক পর্যালোচনার প্রয়োজন ছিল." |
নতুন মডেলিং ও ডেটার ধারণা
কয়েকটি সাবমিশন বিশেষভাবে সৃজনশীল মডেলিং বা ডেটার ধারণা উপস্থাপন করেছে.
| জমা | অবদানকারী | কৌশল | কেন এটি গুরুত্বপূর্ণ ছিল |
| #1729 | @romeerp | CaseOps টোকেনাইজার চালু করা হয়েছে: অরিজিনাল-বাইট BPB সাইডকার অ্যাকাউন্টিং সহ লসলেস ক্যাপিটালাইজেশন অপারেটর টোকেন. | "একটি সৃজনশীল টোকেনাইজার ও ডেটা-উপস্থাপনার ধারণা." |
| #265 | @unnir | "GQA-সচেতন গ্রুপড ভিউ সহ একটি কার্যকর আংশিক এক্সক্লুসিভ সেলফ অ্যাটেনশন পদ্ধতি XSA চালু করা হয়েছে." | "চ্যালেঞ্জটিতে একটি কার্যকর অ্যাটেনশন ভ্যারিয়েন্ট আনা হয়েছে." |
| #65 | @aquariouseworkman | "SmearGate এবং BigramHash চালু করা হয়েছে: একটি লার্নড পূর্ববর্তী-টোকেন এমবেডিং ব্লেন্ড এবং সংলগ্ন-টোকেন-জোড়া হ্যাশ ফিচার." | "একেবারে নতুন করে ফিচার মেকানিজম যোগ করা হয়েছে." |
| #1204 | @msisovic | "মিনি ডেপথ রিকারেন্স চালু করা হয়েছে: লেয়ার 4 এবং 5-এর পুনরাবৃত্তি | প্রশিক্ষণের মাঝামাঝি পর্যন্ত রিকারেন্স বিলম্বিত করা এবং পুনরাবৃত্ত MLP-গুলোকে আংশিকভাবে বিচ্ছিন্ন করা হয়েছে. রিকারেন্ট লেয়ারগুলোকে কার্যকরভাবে কাজ করানোর জন্য প্রথম গৃহীত লিডারবোর্ড সারি." |
আমরা এই নয়টি সাবমিশনকে তুলে ধরার জন্য বেছে নিয়েছি কারণ এগুলো এমন সব ফলাফলের প্রতিনিধিত্ব করে যা আমরা এই চ্যালেঞ্জের মাধ্যমে দেখতে চেয়েছিলাম. কিছু অংশগ্রহণকারী নিবিড় টিউনিংয়ের মাধ্যমে সফল হয়েছেন. অন্যরা কোয়ান্টাইজেশন এবং লো-র্যাঙ্ক টেকনিকের ব্যবহারকে আরও এগিয়ে নিয়েছেন. কেউ কেউ ইভ্যালুয়েশন নিয়মের সীমাবদ্ধতাগুলো নিয়ে পরীক্ষা-নিরীক্ষা করেছেন. আবার বেশ কয়েকজন প্রচলিত গবেষণাপত্র থেকে অথবা একদম নতুনভাবে এমন কিছু মডেলিং বা ডেটা আইডিয়া নিয়ে এসেছেন, যা অপ্রত্যাশিত সাফল্য এনে দিয়েছে.
নন-রেকর্ড ট্র্যাকটিতে অনেক সৃজনশীল সাবমিশন জমা পড়েছিল. আমরা আমাদের পছন্দের 15-টি সাবমিশনকে তুলে ধরছি যার মধ্যে নন-অটোরিগ্রেসিভ টেক্সট মডেলিং থেকে শুরু করে ডায়নামিক টোকেনাইজেশনের মতো বিভিন্ন পদ্ধতি অন্তর্ভুক্ত ছিল.
যেহেতু এই ট্র্যাকটি অধিক পরীক্ষামূলক ছিল, তাই আমরা সরাসরি পারফরম্যান্সের চেয়ে পদ্ধতিটি কারিগরিভাবে কতটা আকর্ষণীয় ছিল সেদিকে বেশি গুরুত্ব দিয়েছি. এর মধ্যে তিনটি সাবমিশন বিশেষভাবে নজরে এসেছে:
এগুলো ছিল আমাদের প্রিয় তিনটি ননরেকর্ড সাবমিশন, যদিও পারফরম্যান্স অনুযায়ী এগুলো যে শীর্ষ তিনটি ছিল এমন নয়.
তা সত্ত্বেও, নন-রেকর্ড ট্র্যাকটিও যথেষ্ট প্রতিযোগিতামূলক ছিল. নন-রেকর্ড লিডারবোর্ডের অর্ধেক এন্ট্রিই 1.22 BPB-এর সাধারণ বেসলাইনকে অতিক্রম করেছে এবং শীর্ষস্থানে থাকা এন্ট্রিটি 1.12 BPB-তে পৌঁছেছে.
এটি আমাদের উৎসাহিত করেছে. এমনকি শক্তিশালী ট্রান্সফরমার বেসলাইনের বিপরীতেও, বিকল্প পদ্ধতিগুলো মাঝেমধ্যে এই প্রভাবশালী আর্কিটেকচারের সাথে পাল্লা দিতে পেরেছে.
আমরা এও মনে করি যে শক্তিশালী কোডিং এজেন্টদের সহজলভ্যতা এই ট্র্যাকটিকে বিশেষভাবে উপকৃত করেছে. এই এজেন্টগুলো অনুমাননির্ভর বা পরীক্ষামূলক আইডিয়াগুলোর প্রোটোটাইপ তৈরি করার খরচ অনেক কমিয়ে দিয়েছে, যার মধ্যে এমন সব পদ্ধতিও অন্তর্ভুক্ত ছিল যা আগে কোনো স্বল্পমেয়াদী প্রতিযোগিতায় চেষ্টা করার জন্য খুব বেশি সময়সাপেক্ষ বা অনিশ্চিত বলে মনে হতে পারত.
Parameter Golf এবং এর আগের অনুরূপ প্রতিযোগিতাগুলোর মধ্যে একটি বড় পার্থক্য ছিল কোডিং এজেন্টদের ব্যাপক ব্যবহার. অধিকাংশ সাবমিশন প্রদানকারীই তাদের কাজের অংশ হিসেবে এজেন্ট ব্যবহার করার কথা উল্লেখ করেছেন.
এর ফলে প্রবেশের বাধা কমেছে. অংশগ্রহণকারীরা আরও দ্রুত এক্সপেরিমেন্ট সেট আপ করতে, অপরিচিত কোড পর্যালোচনা করতে এবং কম জটিলতায় ধারণা পরীক্ষা করতে পারতেন. Runpod-এর $1,000,000 মূল্যের কম্পিউট রিসোর্স স্পন্সরশিপও চ্যালেঞ্জটিকে আরও বেশি মানুষের জন্য সহজলভ্য করে তুলতে বড় ভূমিকা রেখেছে.
একই সাথে এজেন্টের ব্যবহার সাবমিশন এবং স্কোরিংয়ের ক্ষেত্রে নতুন কিছু সমস্যারও সৃষ্টি করেছে. অনেক সাবমিশনই ছিল বিদ্যমান শীর্ষ স্কোরারদের কাজে আনা ছোটখাটো পরিবর্তন মাত্র, একদম মৌলিকভাবে নতুন কোনো পদ্ধতি নয়. অবশ্য এটি প্রায়শই বেশ কার্যকর ছিল: শক্তিশালী আইডিয়াগুলো দ্রুত ছড়িয়ে পড়ত এবং অন্যদের মাধ্যমে আরও পরিমার্জিত হতো. তবে এটি কিছু অনাকাঙ্ক্ষিত জটিলতাও (noise) তৈরি করেছিল. যখন প্রতিযোগিতার নির্দেশিকার বাইরের কোনো সাবমিশন অস্বাভাবিকভাবে ভালো স্কোর করত, তখন অন্যান্য এজেন্টগুলো মাঝেমধ্যে সেই আইডিয়াগুলো কপি করত এবং ভুল পথেই এগিয়ে যেত.
সাবমিশনের বিশাল পরিমাণের কারণে আমাদের প্রতিযোগিতা পরিচালনার পদ্ধতিতেও পরিবর্তন আনতে হয়েছে. লিডারবোর্ডের গতি সচল রেখে প্রতিটি সাবমিশন ম্যানুয়াভাবে যাচাই করা আমাদের পক্ষে সম্ভব ছিল না. চ্যালেঞ্জ চলাকালীন, আমরা নতুন সাবমিশনগুলো পর্যবেক্ষণ করতে এবং সেগুলোকে মানুষের মাধ্যমে পর্যালোচনার জন্য চিহ্নিত করতে একটি অভ্যন্তরীণ Codex-ভিত্তিক ট্রায়াজ বট তৈরি করেছিলাম. এটি বিশেষ করে সেই সময়ে খুবই গুরুত্বপূর্ণ হয়ে উঠেছিল যখন আমরা প্রতিদিন শত শত সাবমিশন পাচ্ছিলাম.
চ্যালেঞ্জটিকে কেন্দ্র করে গড়ে ওঠা কমিউনিটির অংশ হয়ে উঠেছিল AI এজেন্টগুলোও. প্রতিযোগিতার একটি বড় সময় জুড়ে @notapplica এবং তাদের কোডিং এজেন্ট একটি "লাইভ আপডেট" বুলেটিন পরিচালনা করেছিল, যা মূলত বড় ঘটনাগুলো ট্র্যাক করা, লিডারবোর্ডের বিভিন্ন পদ্ধতি ব্যাখ্যা করা এবং অন্যান্য অংশগ্রহণকারীদের প্রতিযোগিতার খবরাখবর রাখতে সাহায্য করেছিল. এছাড়া কম অভিজ্ঞ অংশগ্রহণকারীরা যাতে তাদের সাবমিশনগুলো নিয়মের মধ্যে আছে কি না তা যাচাই করতে পারে এবং সাধারণ ভুল পদ্ধতিগুলো এড়িয়ে চলতে পারে, সেজন্য বেশ কিছু কমিউনিটি রিভিউ টুলও তৈরি করা হয়েছিল.
আমাদের প্রধান লক্ষ্য ছিল এমন একটি চ্যালেঞ্জ চালু করা, যাতে যোগ্য অংশগ্রহণকারীরা(একটি নতুন উইন্ডোতে খোলে) অংশ নিতে পারেন এবং মেশিন লার্নিং গবেষণার অভিজ্ঞতা অর্জন করতে পারেন. Parameter Golf কারিগরিভাবে শক্তিশালী ও সৃজনশীল বিস্তৃত পরিসরের সাবমিশন নিয়ে এসেছে এবং AI এজেন্টগুলো আরও সক্ষম ও ব্যাপকভাবে ব্যবহৃত হওয়ার ফলে উন্মুক্ত গবেষণা প্রতিযোগিতাগুলো কিভাবে পরিবর্তিত হতে পারে, সে সম্পর্কে আমাদের আরও স্পষ্ট ধারণা দিয়েছে.
আমরা ভবিষ্যতে এই ধরনের আরও চ্যালেঞ্জ চালু করার কথা ভাবছি. আপনি আগ্রহী হলে অনুগ্রহ করে চ্যালেঞ্জে অংশগ্রহণের ফর্মটি(একটি নতুন উইন্ডোতে খোলে) পূরণ করুন.


