12 მაისი, 2026

რა გვასწავლა Parameter Golf-მა

გაკვეთილები 1,000-ზე მეტი მონაწილის, 2,000-ზე მეტი წარდგენისა და კოდირების აგენტების მიერ ჩამოყალიბებული ღია მანქანური სწავლების გამოწვევიდან.

იტვირთება…

ჩვენ გავუშვით Parameter Golf, რათა ჩავრთოთ და მხარი დავუჭიროთ მანქანური სწავლების მკვლევართა საზოგადოებას ახალი, მკაცრად შეზღუდული მანქანური სწავლების პრობლემის შესწავლაში. გვინდოდა, რომ გამოწვევა ყოფილიყო საკმარისად საინტერესო რეალური ტექნიკური კრეატიულობის წასახალისებლად, თუმცა ამავე დროს დარჩენილიყო კონცეპტუალურად მარტივი და ადვილად შესამოწმებელი.

მონაწილეებს უნდა მოეხდინათ დანაკარგის მინიმიზაცია ფიქსირებულ FineWeb მონაცემთა ბაზაზე, ამასთანავე არ უნდა გასცდენოდნენ 16 მეგაბაიტიან ზღვარს, რომელიც მოიცავდა როგორც მოდელის წონებს, ისე საწვრთნელ კოდს; წვრთნის ბიუჯეტი კი შეზღუდული იყო 10 წუთით 8×H100 გრაფიკულ პროცესორზე. ჩვენ უზრუნველვყავით საბაზისო მოდელი, მონაცემთა ნაკრები და შეფასების სკრიპტები, რათა მონაწილეებს შეძლებოდათ რეპოზიტორიის განშტოება, გაეუმჯობესებინათ მოდელი და თავიანთი შედეგები GitHub-ის მეშვეობით წარედგინათ.

რვა კვირის განმავლობაში ჩვენ მივიღეთ 2,000-ზე მეტი განაცხადი 1,000-ზე მეტი მონაწილისგან. ჩვენზე შთაბეჭდილება მოახდინა ნამუშევრებში გამოვლენილმა ტექნიკურმა სიფართოვემ, კრეატიულობამ და წესებისადმი მოქნილმა მიდგომამ — ოპტიმიზატორის ფრთხილი რეგულირებიდან და კვანტიზაციაზე მუშაობიდან დაწყებული, მოდელირების ახალი იდეებითა და ტესტირების დროს სწავლებით დამთავრებული.

გამოწვევის ერთ-ერთი ყველაზე საინტერესო ნაწილი იყო იმის დანახვა, თუ რამდენად ფართოდ იყენებდნენ მონაწილეები ხელოვნური ინტელექტის კოდირების აგენტებს. აგენტებმა ხელი შეუწყვეს ექსპერიმენტების ხარჯების შემცირებას, უფრო მეტ ადამიანს გაუადვილეს მონაწილეობა და შეცვალეს კონკურსის ტემპი. მათ ასევე შექმნეს ახალი გამოწვევები წარდგენების განხილვის, ატრიბუციისა და ქულების მინიჭებისთვის.

გამოწვევა ჩვენთვის ნიჭის აღმოჩენის მნიშვნელოვან სივრცედაც იქცა. ეს Parameter Golf-ისთვის ჩვენი ერთ-ერთი მიზანი იყო და სასარგებლო სიგნალიც აღმოჩნდა იმისა, რომ ღია ტიპის ტექნიკურ გამოწვევებს შეუძლიათ გამოავლინონ მანქანური სწავლების გამორჩეული ალღო და შეუპოვრობა.

ამ პოსტში ჩვენ მიმოვიხილავთ რამდენიმე წარდგენილ ნამუშევარს, რომლებიც ჩვენთვის მოულოდნელი და საინტერესო აღმოჩნდა, და გაგიზიარებთ იმ გამოცდილებას, რომელიც მივიღეთ პროგრამირების კონკურსის ჩატარებით ძლიერი AI აგენტების ეპოქაში.

ტექნიკური შთაბეჭდილებები

საუკეთესო შედეგების მიმართულება

ჩვენ შევაფასეთ და დამოუკიდებლად აღვადგინეთ თითოეული წარდგენილი ნამუშევარი სარეკორდო მაჩვენებლების ლიდერბორდზე და დავადასტურეთ, რომ თითოეული მათგანი წარდგენის მომენტში სარეკორდო იყო. რამდენიმე თემა გამოიკვეთა.

სწავლების ოპტიმიზაცია

ზოგიერთი ყველაზე ძლიერი შედეგი მიღწეული იქნა არსებული კომპონენტების საგულდაგულო დახვეწის შედეგად.

წარდგენა	კონტრიბუტორი	ტექნიკა	რატომ იყო ეს მნიშვნელოვანი
#60	@notapplica	გაერთიანებული წინა გამარჯვებები #50-დან, #42-მა, და სავარაუდოდ #39-მას შემდეგ უფრო ღრმა მოდელის მუშაობა შესაძლებელი გახადა Muon-ის weight decay-ით, სპექტრული embedding-ის ინიციალიზაციით, residual-mix-ის დაგეგმვითა და კომპილირებული შეფასებით.	დისციპლინირებული მუშაობის ძლიერი მაგალითი ლიდერბორდზე: იმის დადგენა, არსებული გაუმჯობესებებიდან რომელია მნიშვნელოვანი, და მათი სუფთად გაერთიანება.

კვანტიზაცია

რამდენიმე წარდგენილმა ნამუშევარმა განსაკუთრებული აქცენტი გააკეთა შეკუმშვასა და ექსპორტზე.

წარდგენა	კონტრიბუტორი	ტექნიკა	რატომ იყო ეს მნიშვნელოვანი
#414	@signalrush	გამოიყენა GPTQ-lite ტრენინგის შემდეგ წონების კვანტიზაციისთვის.	პირველი წარდგენა ლიდერბორდზე, რომელმაც GPTQ-lite წარმატებით გამოიყენა, რამაც უკეთესი შეფასება განაპირობა.
[a href=	ttps://github.com/openai/parameter-golf/pull/1060"]#1060[/a]"	@dexhunter	დაეფუძნა @raahilshah-ის მიერ [a href=	ttps://github.com/openai/parameter-golf/pull/634"]#634[/a]-ზე სრული ჰესიანის GPTQ-ის წარმატებით გამოსაყენებლად."	გააფართოვა კვანტიზაციის ადრინდელი სამუშაო და აქცია უფრო ძლიერ შეკუმშვის მიმართულებად.

ტესტირების დროისა და შეფასების სტრატეგიები

ზოგიერთმა წარდგენილმა ნამუშევარმა მოდელის გაუმჯობესებასა და შეფასების სტრატეგიას შორის არსებული ზღვარი გადალახა. ეს მიდგომები წესების ფარგლებში დასაშვები იყო, თუმცა ორგანიზატორების მხრიდან საგულდაგულო განხილვას საჭიროებდა.

წარდგენა	კონტრიბუტორი	ტექნიკა	რატომ იყო ეს მნიშვნელოვანი
#77	@samacqua	გამოყენებულია LoRA-ს ტესტირების დროის სწავლების მეთოდი, რომელიც ორიენტირებულია ჯერ ქულების მინიჭებაზე თითოეული დოკუმენტის მიხედვით:ჯერ ქულა მიანიჭეთ, ადაპტაცია მხოლოდ უკვე შეფასებულ ფრაგმენტებზე განახორციელეთ და დოკუმენტის საზღვრებზე მდგომარეობა საწყისზე დააბრუნეთ. მან მოდელის გაუმჯობესებასა და შეფასების სტრატეგიას შორის ზღვარი გადასწია, ამასთან წესების ფარგლებში გადამოწმებადობა შეინარჩუნა.	a href=""https://github.com/openai/parameter-golf/pull/1019""]#1019[/a]"	@abaybektursun	გამოყენებულია თვითგენერირებული GPTQ კალიბრაცია: დააგენერირეთ კალიბრაციის ტექსტი გაწვრთნილი მოდელიდან, შემდეგ კი ააგეთ GPTQ ჰესიანები ამ აქტივაციებიდან.	შემოქმედებითი კალიბრაციის სტრატეგია, რომელიც ორგანიზატორების მხრიდან ყურადღებით განხილვას მოითხოვდა.

ახალი იდეები მოდელირებისა და მონაცემების მიმართულებით

რამდენიმე ნამუშევარმა წარმოადგინა მოდელირებისა თუ მონაცემების დამუშავების იდეები, რომლებიც განსაკუთრებული კრეატიულობით გამოირჩეოდა.

წარდგენა	კონტრიბუტორი	ტექნიკა	რატომ იყო ეს მნიშვნელოვანი
#1729	@romeerp	წარადგინა CaseOps ტოკენიზატორი: კაპიტალიზაციის უდანაკარგო ოპერატორის token-ები საწყისი ბაიტების BPB sidecar-აღრიცხვით.	კრეატიული ტოკენიზატორისა და მონაცემთა წარმოდგენის იდეა.
#265	@unnir	წარმოადგინა XSA — ეფექტური ნაწილობრივი ექსკლუზიური თვითყურადღების (Exclusive Self Attention) მიდგომა, GQA-ზე ორიენტირებული დაჯგუფებული ხედებით.“,	ამოწვევაში ყურადღების მექანიზმის ეფექტური ვარიაცია შემოიტანა.“
#65	@aquariouseworkman	წარმოადგინა SmearGate და BigramHash: წინა ტოკენის დასწავლილი ჩაშენებების ნაზავი და მეზობელი ტოკენების წყვილების ჰეშ-მახასიათებლები.	დაემატა ახალი ფუნქციების მექანიზმები ნულიდან.
#1204	@msisovic	დაინერგა მინი სიღრმის რეკურენტულობა: განმეორებული მე-4 და მე-5 შრეები, რეკურენტულობის გადადება სწავლების შუა ეტაპამდე და განმეორებული MLP-ების ნაწილობრივ განცალკევება.	ლიდერბორდის პირველი მიღებული ჩანაწერი, რომელმაც რეკურენტული შრეები ეფექტიანად აამუშავა.

ჩვენ გადავწყვიტეთ გამოგვეყო ეს ცხრა ნამუშევარი, რადგან ისინი წარმოადგენენ იმ შედეგების მრავალფეროვნებას (range of results), რომელთა გამოვლენასაც ამ გამოწვევისაგან ველოდით. ზოგიერთმა მონაწილემ წარმატებას მიაღწია დახვეწის გზით. სხვებმა კი მაქსიმალურად გამოიყენეს კვანტიზაციისა და დაბალი რანგის ტექნიკები. ზოგიერთმა კი შეფასების წესების ზღვრული შესაძლებლობები გამოიკვლია. რამდენიმე მათგანმა კი წარმოადგინა მოდელირებისა თუ მონაცემების დამუშავების იდეები — სამეცნიერო ლიტერატურიდან აღებული თუ ნულიდან შექმნილი — რომლებმაც მოულოდნელი გაუმჯობესება გამოიწვია.

არარეკორდული მიმართულება

არარეკორდული მიმართულება მრავალი კრეატიული ნამუშევრის ასპარეზად იქცა. ჩვენ გამოვყავით 15 რჩეული ნამუშევარი, რომლებიც მოიცავს სხვადასხვა მიდგომებს — დაწყებული არაავტორეგრესიული ტექსტური მოდელირებიდან, დასრულებული დინამიური ტოკენიზაციით.

რადგან ეს მიმართულება უფრო ექსპერიმენტული იყო, ჩვენ ნაკლებად გავამახვილეთ ყურადღება უშუალო წარმადობაზე და უფრო იმაზე, იყო თუ არა მიდგომა ტექნიკურად საინტერესო. განსაკუთრებით გამოირჩეოდა სამი წარდგენილი ნამუშევარი:

ეს იყო ჩვენი ფავორიტი სამი ნამუშევარი არასარეკორდო მიმართულებიდან, მიუხედავად იმისა საუკეთესო სამეულში არ შედიოდნენ წარმადობის მიხედვით.

ამის მიუხედავად, არარეკორდული მიმართულება მაინც კონკურენტული იყო. არარეკორდული ლიდერბორდის ჩანაწერების ნახევარმა აჯობა ნაივურ საბაზისო მაჩვენებელს (1.22 BPB), ხოლო პირველ ადგილზე მყოფმა ჩანაწერმა 1.12 BPB-ს მიაღწია.

ჩვენთვის ეს დამაიმედებელი აღმოჩნდა. ძლიერ ტრანსფორმერ საბაზისო მოდელებთან შედარებითაც კი, ალტერნატიულ მიდგომებს ზოგჯერ შეეძლოთ დომინანტური არქიტექტურისთვის ღირსეულად გაეწიათ კონკურენცია.

ჩვენ ასევე ვფიქრობთ, რომ ეს მიმართულება განსაკუთრებით დიდ სარგებელს იღებს ძლიერი კოდირების აგენტების ხელმისაწვდომობისგან. აგენტებმა ჰიპოთეტური იდეების პროტოტიპირება გაცილებით ნაკლებ ხარჯიანი გახადა, მათ შორის ისეთი მიდგომებისაც, რომლებიც ადრე შესაძლოა ზედმეტად შრომატევადად ან გაურკვევლად ჩათვლილიყო მოკლევადიან კონკურსის ფარგლებში.

დასკვნები

უმთავრესი განსხვავება Parameter Golf-სა და მის მსგავს ადრეულ კონკურსებს შორის იყო კოდირების აგენტების ფართომასშტაბიანი გამოყენება. წარმდგენთა აბსოლუტურმა უმრავლესობამ აღნიშნა, რომ მუშაობის პროცესში აგენტებს იყენებდა.

ამან შესვლის ბარიერი შეამცირა. მონაწილეებს შეეძლოთ ექსპერიმენტების უფრო სწრაფად გამართვა, უცნობი კოდის შესწავლა და იდეების ნაკლები დაბრკოლებით გამოცდა. Runpod-ის მიერ 1 000 000 $-ის ღირებულების გამოთვლითი რესურსების სპონსორობამ, ასევე, მნიშვნელოვანი როლი ითამაშა იმაში, რომ გამოწვევა უფრო მეტი ადამიანისთვის გამხდარიყო ხელმისაწვდომი.

ამავდროულად, აგენტების გამოყენებამ ახალი პრობლემები წარმოშვა ნამუშევრების წარდგენისა და მათი შეფასების პროცესში. ნამუშევრების დიდი ნაწილი წარმოადგენდა მცირე ცვლილებებს უკვე არსებულ ლიდერ მოდელებში და არა ფუნდამენტურად ახალ მიდგომებს. ეს ხშირად სასარგებლოც იყო: ძლიერი იდეები სწრაფად ვრცელდებოდა და სხვების მიერ იხვეწებოდა. თუმცა ამავდროულად ამან ზედმეტი ხმაურიც გამოიწვია. როდესაც წარდგენები, რომლებიც კონკურსის მითითებებს არ შეესაბამებოდა, უჩვეულოდ მაღალ ქულებს იღებდა, სხვა აგენტები ზოგჯერ ამ იდეებს აკოპირებდნენ და იმავე არასწორი გზით განაგრძეს სვლა.

წარმოდგენილი ნამუშევრების რაოდენობამ შეცვალა ისიც, თუ როგორ უნდა ჩაგვეტარებინა კონკურსი. ჩვენ ვერ შევძლებდით თითოეული წარდგენილი ნამუშევრის ხელით შემოწმებას და ამავდროულად ლიდერბორდის შეუფერხებლად განახლებას. გამოწვევის განმავლობაში შევიმუშავეთ შიდა, Codex-ზე დაფუძნებული ტრიაჟის ბოტი, რომელიც ახალ ნამუშევრებს აკონტროლებდა და მათ ადამიანის მიერ გადასასინჯად მონიშნავდა. ეს განსაკუთრებით მნიშვნელოვანი გახდა იმ პერიოდებში, როდესაც დღეში ასობით განაცხადს ვიღებდით.

AI აგენტებიც გახდნენ იმ საზოგადოების ნაწილი, რომელიც ამ გამოწვევის გარშემო ჩამოყალიბდა. კონკურსის დიდი ნაწილის განმავლობაში, @notapplica და მისი კოდირების აგენტი უძღვებოდნენ ბიულეტენს „ახალი ამბები პირდაპირ რეჟიმში", სადაც თვალს ადევნებდნენ მნიშვნელოვან მოვლენებს, განმარტავდნენ ლიდერბორდის მიდგომებს და სხვა მონაწილეებს შეჯიბრისთვის თვალყურის დევნებაში ეხმარებოდნენ. ასევე გამოჩნდა საზოგადოების მიერ შექმნილი რეცენზირების ინსტრუმენტებიც, რომლებიც ნაკლებად გამოცდილ მონაწილეებს ეხმარებოდა შეემოწმებინათ, შეესაბამებოდა თუ არა მათი წარდგენილი მასალები წესებს, და თავიდან აეცილებინათ გავრცელებული არასწორი მიდგომები.

რა არის შემდეგი?

ჩვენი მთავარი მიზანი იყო ისეთი გამოწვევის დაწყება, რომელშიც შესაბამისი კრიტერიუმების მქონე მონაწილეები⁠(იხსნება ახალ ფანჯარაში) შეძლებდნენ ჩართვას და მანქანური სწავლების კვლევის პროცესში გამოცდილების მიღებას. Parameter Golf-მა ტექნიკურად ძლიერი და შემოქმედებითი ნამუშევრების ფართო სპექტრი მოიზიდა. მან უფრო ნათლად დაგვანახვა, თუ როგორ შეიძლება შეიცვალოს ღია კვლევითი კონკურსები AI აგენტების შესაძლებლობების ზრდასა და მათ ფართოდ გავრცელებასთან ერთად.

ჩვენ ვფიქრობთ, მომავალში მსგავსი გამოწვევების წამოწყებაზე. თუ დაინტერესებული ხართ, გთხოვთ, შეავსოთ გამოწვევის მონაწილეობის ფორმა⁠(იხსნება ახალ ფანჯარაში).

ავტორი

OpenAI

განაგრძეთ კითხვა

ყველას ნახვა

კოდის შეფასებებში სიგნალის გამიჯვნა ხმაურისგან

კვლევა8 ივლ. 2026

გაიცანით GeneBench-Pro

კვლევა30 ივნ. 2026

A near-autonomous AI chemist improves a challenging reaction

თითქმის ავტონომიური AI-ქიმიკოსი აუმჯობესებს რთულ რეაქციას სამედიცინო ქიმიაში

კვლევა17 ივნ. 2026