Aqbeż għall-kontenut prinċipali
OpenAI

12 ta’ Mejju 2026

Riċerka

X’għallimna Parameter Golf

Lezzjonijiet minn aktar minn 1,000 parteċipant, aktar minn 2,000 sottomissjoni u sfida miftuħa tat-tagħlim bil-magni, iffurmata minn aġenti tal-kodifikazzjoni.

Qed jillowdja…

Nedejna Parameter Golf biex ninteraġixxu u nappoġġaw lill-komunità tar-riċerka fit-tagħlim awtomatiku fl-esplorazzjoni ta’ problema ġdida tat-tagħlim awtomatiku b’restrizzjonijiet stretti ħafna. Ridna li l-isfida tkun interessanti biżżejjed biex tippremja kreattività teknika reali, filwaqt li tibqa’ sempliċi kunċettwalment u faċli biex tiġi vverifikata.

Il-parteċipanti kellhom jimminimizzaw it-telf fuq dejta miżmuma barra fuq sett ta’ dejta FineWeb fiss, filwaqt li jibqgħu fi ħdan limitu ta’ artefatt ta’ 16 MB, inklużi kemm il-piżijiet tal-mudell u kif ukoll il-kodiċi tat-taħriġ u baġit ta’ taħriġ ta’ 10 minuti fuq 8×H100s. Ipprovdejna linja bażi, sett tad-dejta u skripts ta’ evalwazzjoni sabiex il-parteċipanti jkunu jistgħu jagħmlu fork tar-repożitorju, itejbu l-mudell u jissottomettu r-riżultati tagħhom permezz ta’ GitHub.

Matul perjodu ta’ tmien ġimgħat, irċevejna aktar minn 2,000 sottomissjoni mingħand aktar minn 1,000 parteċipant. Konna impressjonati bil-wisa’ teknika, il-kreattività u t-tgħawwiġ tar-regoli fis-sottomissjonijiet kollha, minn irfinar bir-reqqa tal-ottimizzatur u xogħol fuq il-kwantizzazzjoni sa ideat ġodda ta’ mmudellar u taħriġ fil-ħin tat-test.

Waħda mill-aktar partijiet eċċitanti tal-isfida kienet li naraw kemm il-parteċipanti użaw b’mod mifrux aġenti tal-kodifikazzjoni bl-IA. L-aġenti għenu biex titnaqqas l-ispiża tal-esperimentazzjoni, għamluha aktar faċli għal aktar nies jipparteċipaw u bidlu r-ritmu tal-kompetizzjoni. Huma ħolqu wkoll sfidi ġodda għar-reviżjoni tas-sottomissjonijiet, l-attribuzzjoni u l-punteġġ.

L-isfida saret ukoll pjattaforma sinifikanti għalina biex niskopru talenti ġodda. Dak kien wieħed mill-għanijiet tagħna għal Parameter Golf u kien sinjal utli li sfidi tekniċi miftuħa jistgħu jiżvelaw ħila eċċezzjonali fit-tagħlim awtomatiku u perseveranza.

F’din il-pubblikazzjoni, nenfasizzaw xi wħud mis-sottomissjonijiet li sibniehom sorprendenti u interessanti u naqsmu dak li tgħallimna mill-organizzazzjoni ta’ kompetizzjoni tal-ipprogrammar fl-era ta’ aġenti tal-IA b’saħħithom.

Impressjonijiet tekniċi

Irrekordja track

Ivvalutajna u rriproduċejna b’mod indipendenti kull sottomissjoni fuq il-klassifika tar-record-track u vverifikajna li kull sottomissjoni kienet rekord ġdid fil-ħin li ġiet sottomessa. Spikkaw diversi temi.

Ottimizzazzjoni tat-taħriġ

Uħud mill-aqwa riżultati nkisbu permezz ta’ rfinar bir-reqqa tal-komponenti eżistenti.

SottomissjoniKontributurTeknikaGħaliex kienet importanti
#60@notapplicaIkkombinat rebħiet preċedenti minn #50, #42 u probabbilment #39, imbagħad għamlu mudell aktar profond jaħdem b’Muon weight decay, inizjalizzazzjoni tal-integrazzjoni spettrali, skedar tar-residual-mix u evalwazzjoni kkumpilata. eżempju b’saħħtu ta’ xogħol dixxiplinat fuq il-klassifika: li jiġi identifikat liema titjib eżistenti huwa importanti u li jingħaqad b’mod nadif.

Kwantizzazzjoni

Diversi sottomissjonijiet poġġew enfasi qawwija fuq il-kompressjoni u l-esportazzjoni.

SottomissjoniKontributurTeknikaGħaliex kienet importanti
#414@signalrush?Użaw GPTQ-lite biex jiġu kkwantifikati l-piżijiet wara t-taħriġ.L- ewwel sottomissjoni fil-klassifika li użat GPTQ-lite b’suċċess u dan wassal għal evalwazzjoni aħjar.
#1060@dexhunterMibni fuq #634 minn @raahilshah biex juża b’suċċess GPTQ b’Hessian sħiħ.Estenda x-xogħol preċedenti ta’ kwantizzazzjoni f’mogħdija ta’ kompressjoni aktar robusta.

Strateġiji għall-ħin tat-test u għall-evalwazzjoni

Xi sottomissjonijiet imbuttaw il-limitu bejn it-titjib tal-mudell u l-istrateġija ta’ evalwazzjoni. Dawn l-approċċi kienu validi skont ir-regoli iżda kienu jeħtieġu reviżjoni bir-reqqa min-naħa tagħna bħala organizzaturi.

SottomissjoniKontributurTeknikaGħaliex kienet importanti
#77@samacquaUża l-punteġġ l-ewwel, taħriġ fil-ħin tat-test LoRA għal kull dokument: l-ewwel agħti punteġġ. adatta biss fuq biċċiet li diġà ngħataw skor u erġa’ ssettja fil-konfini tad-dokumenti.Wessa' l-konfini bejn it-titjib tal-mudell u l-istrateġija ta’ evalwazzjoni filwaqt li baqa’ jista' jiġi rivedut skont ir-regoli.
#1019@abaybektursunUża kalibrazzjoni GPTQ iġġenerata awtomatikament: iġġenera test ta’ kalibrazzjoni mill-mudell imħarreġ, imbagħad ibni matriċi Hessjani GPTQ minn dawk l-attivazzjonijiet.Strateġija kreattiva ta’ kalibrazzjoni li kienet teħtieġ reviżjoni bir-reqqa mill-organizzaturi.

Ideat ġodda dwar l-immudellar u d-dejta

Xi sottomissjonijiet introduċew ideat dwar l-immudellar jew id-dejta li kienu partikolarment kreattivi.

SottomissjoniKontributurTeknikaGħaliex kienet importanti
#1729@romeerpĠie introdott it-tokenizer CaseOps: tokens ta' operaturi tal-kapitalizzazzjoni mingħajr telf b'kontabbiltà sidecar tal-byte oriġinali BPB.A idea kreattiva ta’ tokenizer u rappreżentazzjoni tad-dejta.
#265@unnirIntroduċa XSA, approċċ effiċjenti ta’ Attenzjoni Esklussiva Parzjali b’veduti raggruppati konxji tal-GQA.Miġjub varjant effiċjenti tal-attenzjoni fl-isfida.
#65@aquariouseworkmanIntroduċa SmearGate u BigramHash: taħlita mgħallma ta' integrazzjoni tat-token preċedenti flimkien ma' karatteristiċi tal-hash ta' pari ta' token adjaċenti.Miżjud mekkaniżmi għal funzjonalitajiet ġodda mill-bidu nett.
#1204@msisovicIntroduċa rikorrenza b’fond żgħir: saffi 4 u 5 ripetuti, rikorrenza mdewma sa nofs it-taħriġ u l-MLPs ripetuti nħallew parzjalment mhux marbuta.L-ewwel ringiela aċċettata fil-klassifika li rnexxielha tagħmel is-saffi rikorrenti jaħdmu b’mod effettiv.

Għażilna li nenfasizzaw dawn id-disa’ sottomissjonijiet għax jirrappreżentaw il-firxa ta’ riżultati li konna nittamaw li l-isfida tressaq ’il quddiem. Xi parteċipanti kisbu suċċessi permezz ta’ rfinar bir-reqqa. Oħrajn avvanzaw tekniki ta’ kwantifikazzjoni u ta’ klassifikazzjoni baxxa. Xi wħud esploraw l-aspetti tar-regoli tal-evalwazzjoni. U diversi introduċew ideat dwar l-immudellar jew id-data, mil-letteratura jew mill-bidu nett, li pproduċew titjib mhux mistenni.

Track mingħajr rekord

It-track mingħajr rekord kien dar għal ħafna sottomissjonijiet kreattivi. Enfasizzajna 15-il favorit, inklużi approċċi li jvarjaw mill-immudellar tat-test mhux awtoregressiv sat-tokenizzazzjoni dinamika.

Peress li din it-track kienet aktar sperimentali, iffukajna inqas fuq il-prestazzjoni pura u aktar fuq jekk l-approċċ kienx interessanti minn aspett tekniku. Tliet sottomissjonijiet spikkaw b’mod partikolari:

Dawn kienu t-tliet sottomissjonijiet mhux rekord favoriti tagħna, għalkemm mhux bilfors kienu l-aqwa tlieta f’termini ta’ prestazzjoni.

Madankollu, it-track mingħajr rekord kienet xorta waħda kompetittiva. Nofs l-entrati mingħajr rekord fil-klassifika għelbu l-linja bażi sempliċi ta’ 1.22 BPB u l-entrata fl-ogħla pożizzjoni laħqet 1.12 BPB.

Dn sibnieha inkoraġġanti. Anke kontra mudelli ta’ referenza transformer b’saħħithom, approċċi alternattivi setgħu xi drabi jżommu tagħhom kontra l-arkitettura dominanti.

Aħna wkoll nemmnu li dan il-perkors jibbenefika b’mod speċjali mid-disponibbiltà ta’ aġenti tal-programmazzjoni b’saħħithom. L-aġenti għamluha ħafna orħos li jinħolqu prototipi għal ideat spekulattivi, inklużi approċċi li qabel setgħu dehru wisq li jieħdu ħin jew li huma wisq inċerti biex jiġu ppruvati f’kompetizzjoni qasira.

Punti ewlenin

Differenza ewlenija bejn Parameter Golf u kompetizzjonijiet simili ta’ qabel kienet l-użu mifrux ta’ aġenti tal-kodifikazzjoni. Il-maġġoranza l-kbira ta’ dawk li ssottomettew semmew l-użu ta’ aġenti tal-kodifikazzjoni bħala parti mix-xogħol tagħhom.

Dan naqqas l-ostaklu għall-entrata. Il-parteċipanti setgħu jwaqqfu esperimenti aktar malajr, jispezzjonaw kodiċi mhux familjari u jittestjaw ideat b’inqas xkiel. L-isponsorjar ta’ Runpod ta’ $1,000,000 f’riżorsi ta’ komputazzjoni wkoll kellu rwol ewlieni biex l-isfida ssir aċċessibbli għal aktar nies.

Fl-istess ħin, l-użu tal-aġent ħoloq kwistjonijiet ġodda għas-sottomissjoni u l-iskor. Ħafna mis-sottomissjonijiet kienu modifiki żgħar għal entrati eżistenti bl-ogħla punteġġi, aktar milli approċċi fundamentalment ġodda. Dan spiss kien utli: ideat sodi kienu jinfirxu malajr u kienu jiġu rfinati minn oħrajn. Imma dan ħoloq ukoll storbju. Meta sottomissjonijiet li ma kinux konformi mal-linji gwida tal-kompetizzjoni kisbu punteġġi mhux tas-soltu b’saħħithom, aġenti oħra kultant ikkupjaw dawk l-ideat u komplew jimxu fl-istess triq mhux valida.

L-għadd ta’ sottomissjonijiet biddel ukoll il-mod kif kellna nmexxu l-kompetizzjoni. Ma stajniex neżaminaw manwalment kull sottomissjoni u fl-istess ħin inżommu l-klassifika għaddejja. Matul l-isfida, żviluppajna bot intern ta’ trijaġġ ibbażat fuq Codex biex jissorvelja s-sottomissjonijiet il-ġodda u jimmarkahom għal reviżjoni minn bniedem. Dan sar partikolarment importanti matul perjodi meta konna nirċievu mijiet ta’ sottomissjonijiet kuljum.

L-aġenti tal-IA saru wkoll parti mill-komunità relatata mal-isfida. Matul il-biċċa l-kbira tal-kompetizzjoni, @notapplica u l-aġent tal-kodifikazzjoni tagħhom mexxew bullettin ta’ “Aġġornamenti Live”, fejn irrappurtaw avvenimenti ewlenin, spjegaw approċċi għall-klassifika u għenu lill-parteċipanti l-oħra jsegwu l-kompetizzjoni. L-għodod tar-reviżjoni tal-komunità dehru wkoll biex jgħinu lill-parteċipanti b’inqas esperjenza jiċċekkjaw jekk is-sottomissjonijiet tagħhom humiex konformi mar-regoli u biex jevitaw approċċi komuni invalidi.

Xi jmiss?

L-għan ewlieni tagħna kien li nniedu sfida li fiha parteċipanti eliġibbli(jinfetaħ f’tieqa ġdida) setgħu jipparteċipaw u jesperjenzaw ir-riċerka fit-tagħlim awtomatiku. Parameter Golf ġab firxa wiesgħa ta’ sottomissjonijiet b’saħħithom u kreattivi u tana stampa aktar ċara ta’ kif il-kompetizzjonijiet miftuħa tar-riċerka jistgħu jinbidlu hekk kif l-aġenti tal-IA jsiru aktar kapaċi u jintużaw b’mod aktar mifrux.

Qed naħsbu li nniedu aktar sfidi bħal din fil-futur. Jekk inti interessat/a, jekk jogħġbok imla l-formola għall-parteċipanti fl-isfida(jinfetaħ f’tieqa ġdida).