Үндсэн агуулга руу алгасах
OpenAI

2026 оны тавдугаар сарын 12

Судалгаа

Parameter Golf бидэнд ямар сургамж өгсөн бэ

1,000+ оролцогчийн хичээл, 2,000+ илтгэл, код бичих агентуудын бүтээсэн нээлттэй машин сургалтын сорилт.

Ачаалж байна…

Бид машин сургалтын судалгааны нийгэмлэгийг шинэ, хатуу хязгаарлагдмал машин сургалтын асуудлыг судлахад татан оролцуулж, дэмжих зорилгоор Parameter Golf-ийг эхлүүлсэн. Бид сорилтыг бодит техникийн бүтээлч байдлыг үнэлж урамшуулахуйц сонирхолтой атлаа, үзэл баримтлалын хувьд энгийн бөгөөд шалгаж баталгаажуулахад хялбар байлгахыг зорьсон.

Оролцогчид загварын жин болон сургалтын кодыг хоёуланг нь багтаасан 16 МБ-ын артефактын хязгаарт, мөн 8×H100 дээрх 10 минутын сургалтын төсөвт багтахын зэрэгцээ тогтсон FineWeb өгөгдлийн багц дээрх тусгаарласан өгөгдлийн алдагдлыг хамгийн бага байлгах шаардлагатай байв. Оролцогчид репозиторийг хувааж, загварыг сайжруулж, үр дүнгээ GitHub-аар дамжуулан илгээх боломжтой байхын тулд бид суурь мэдээлэл, өгөгдлийн багц болон үнэлгээний скриптүүдийг өгсөн.

Найман долоо хоногийн хугацаанд бид 1,000 гаруй оролцогчоос 2,000 гаруй бүтээл хүлээн авсан. Бид ирүүлсэн материалуудын техникийн өргөн цар хүрээ, бүтээлч байдал, дүрэм журмыг өөрчлөх чадварт сэтгэл хангалуун байсан бөгөөд үүнд оновчлогчийн нарийн тохируулга, тоон үзүүлэлтийн ажлаас эхлээд шинэ загварчлалын санаанууд болон туршилтын цагийн сургалт багтсан.

Сорилтын хамгийн сонирхолтой хэсгүүдийн нэг нь оролцогчид хиймэл оюун ухааны код бичих агентуудыг хэр өргөн ашиглаж байгааг харах явдал байв. Агентууд туршилтын зардлыг бууруулж, илүү олон хүнд оролцоход хялбар болгож, тэмцээний хурдыг өөрчилсөн. Тэд мөн ирүүлсэн материалыг хянах, хариуцлага хүлээлгэх, оноо өгөх зэрэг шинэ сорилтуудыг бий болгосон.

Энэ сорилт нь бидний хувьд авьяас чадварыг нээх утга учиртай боломж болсон. Энэ бол Parameter Golf-ийн бидний зорилгуудын нэг байсан бөгөөд нээлттэй техникийн сорилтууд нь машин сургалтын онцгой амт, тэсвэр тэвчээрийг харуулж чадна гэсэн ашигтай дохио байсан.

Энэ нийтлэлд бид гайхалтай, сонирхолтой гэж үзсэн зарим илтгэлүүдийг онцолж, хүчирхэг хиймэл оюун ухааны агентуудын эрин үед код бичих уралдаан зохион байгуулснаар сурсан зүйлсээ хуваалцаж байна.

Техникийн сэтгэгдэл

Бичлэг хийх

Бид ирүүлсэн материал бүрийг үнэлж, бие даан дээд амжилтын самбар дээр хуулбарласан бөгөөд ирүүлсэн материал бүрийг ирүүлэх үед дээд амжилт тогтоосон эсэхийг баталгаажуулсан. Олон сэдэв онцлог байсан.

Сургалтын оновчлол

Хамгийн хүчтэй үр дүнгүүдийн зарим нь одоо байгаа бүрэлдэхүүн хэсгүүдийг сайтар тохируулснаас гарсан.

Илгээлт хувь нэмэр оруулагч техник яагаад чухал байсан бэ
[a href=ttps://github.com/openai/parameter-golf/pull/60""]#60[/a]"@notapplica өмнөх ялалтуудыг нэгтгэсэн [a href=ttps://github.com/openai/parameter-golf/pull/50""]#50[/a] #42 мөн #39 гэсэн магадлалтай бөгөөд дараа нь Муоны жингийн бууралт спектрийн оруулгын эхлүүлэлт үлдэгдэл холимог хуваарь эмхэтгэсэн үнэлгээтэй илүү гүнзгий загварын ажил хийсэн."" сахилга баттай тэргүүлэгчийн хүчтэй жишээ: одоо байгаа сайжруулалтуудыг тодорхойлж тэдгээрийг цэвэрхэн хослуулна."

Квантизаци

Хэд хэдэн ирүүлсэн материалууд шахалт болон экспортыг чангатгасан.

Илгээлт хувь нэмэр оруулагч техник яагаад чухал байсан бэ
[a href=ttps://github.com/openai/parameter-golf/pull/414""]#414[/a]"@signalrush бэлтгэл хийсний дараа жинг тоон үзүүлэлтээр хэмжих GPTQ-lite-г ашигласан. GPTQ-lite-г амжилттай ашигласан анхны тэргүүлэгчдийн самбарын ирэлт нь илүү сайн үнэлгээнд хүргэсэн.
[a href=ttps://github.com/openai/parameter-golf/pull/1060"]#1060[/a]"@dexhunter@raahilshah-ын бүрэн Hessian GPTQ-г амжилттай ашиглахын тулд [a href=ttps://github.com/openai/parameter-golf/pull/634"]#634[/a] дээр бүтээгдсэн."Өмнөх квантжуулалтын ажлыг илүү хүчтэй шахалтын зам болгон өргөтгөсөн.

Туршилтын хугацаа болон үнэлгээний стратегиуд

Зарим ирүүлсэн материалууд нь загварыг сайжруулах болон үнэлгээний стратегийн хоорондох хил хязгаарыг түлхсэн. Эдгээр арга барил нь дүрмийн дагуу хүчин төгөлдөр байсан боловч зохион байгуулагчдын хувьд биднээс сайтар хянаж үзэхийг шаардсан.

Илгээлт хувь нэмэр оруулагч техник яагаад чухал байсан бэ
#77@samacqua оноог эхэнд ашигласан, баримт бичиг тус бүрийн LoRA туршилтын цагийн сургалт: оноог эхэнд тавих, зөвхөн аль хэдийн оноо авсан хэсгүүд дээр дасан зохицох, баримт бичгийн хил хязгаарт дахин тохируулах.Загварын сайжруулалт болон үнэлгээний стратегийн хоорондох хил хязгаарыг дүрмийн дагуу хянаж болохуйц хэвээр үлдээсэн.
#1019@abaybektursun өөрөө үүсгэсэн GPTQ тохируулга ашигласан: сургагдсан загвараас тохируулгын текст үүсгэж, дараа нь эдгээр идэвхжүүлэлтээс GPTQ Hessians-ийг бүтээх." зохион байгуулагчдаас сайтар хянаж үзэх шаардлагатай бүтээлч тохируулгын стратеги.

Шинэ загварчлал ба өгөгдлийн санаанууд

Цөөн хэдэн илгээлтэд загварчлал эсвэл өгөгдлийн санаанууд онцгой бүтээлч байсан.

Илгээлт хувь нэмэр оруулагч техник яагаад чухал байсан бэ
#1729@romeerpCaseOps токенжуулагч: lossless capitalization оператор токен оригинал байт BPB сайдкар бүртгэлтэй. бүтээлч токенжуулагч болон өгөгдөл дүрслэх санаа.
#265@unnir XSA-г танилцуулсан GQA-г мэддэг бүлэглэсэн үзэл бодолтой, үр ашигтай хэсэгчилсэн онцгой өөртөө анхаарал хандуулах арга юм. сорилтод үр ашигтай анхаарал хандуулах хувилбарыг авчирсан.
a href=""https://github.com/openai/parameter-golf/pull/65""]#65[/a]"@aquariouseworkman SmearGate болон BigramHash-г нэвтрүүлсэн: өмнөх токен оруулах холимог болон зэргэлдээ токен хосын хэш функцууд." эхнээс нь шинэ функцын механизмуудыг нэмсэн.
#1204@msisovic мини гүн давталт нэвтрүүлсэн: 4 ба 5 давхаргыг давтах, давталтыг сургалтын дунд үе хүртэл хойшлуулах, давтагдсан MLP-үүдийг хэсэгчлэн тайлах.Давтагдах давхаргуудыг үр дүнтэй ажиллуулахын тулд хүлээн зөвшөөрөгдсөн эхний тэргүүлэгчдийн самбарын мөр.

Бид эдгээр есөн бүтээлийг онцлохоор шийдсэн, учир нь эдгээр нь бидний сорилт гарч ирнэ гэж найдаж байсан үр дүнгийн хүрээг илэрхийлж байна. Зарим оролцогчид болгоомжтой тохируулгын ачаар ялалт байгуулсан. Бусад нь квантжуулалт болон доод зэрэглэлийн техникийг түлхсэн. Үнэлгээний дүрмийн зарим давуу талыг судалсан. Мөн хэд хэдэн хүн уран зохиолоос эсвэл эхнээс нь загварчлал эсвэл өгөгдлийн санаануудыг нэвтрүүлсэн нь гэнэтийн ашиг авчирсан.

Бүртгэлгүй зам

Цомгийн бус дуу нь олон бүтээлч бүтээлийн эх үүсвэр болсон. Бид авторегрессив бус текст загварчлалаас эхлээд динамик токенизаци хүртэлх 15 хандлагыг онцолсон.

Энэ зам нь илүү туршилтын шинж чанартай байсан тул бид түүхий гүйцэтгэлд бага анхаарлаа хандуулж, арга барил нь техникийн хувьд сонирхолтой эсэхэд илүү анхаарлаа хандуулсан. Гурван бүтээл онцгойлон онцолсон:

Эдгээр нь бидний хамгийн дуртай гурван бичлэггүй бүтээл байсан ч гүйцэтгэлээрээ эхний гурванд багтах албагүй байлаа.

Бичигдээгүй зам нь өрсөлдөөнтэй хэвээр байсан. Тэргүүлэгчдийн самбарт бичигдээгүй оролцогчдын тал хувь нь 1.22 BPB-ийн энгийн түвшинг давсан бөгөөд хамгийн өндөр оноотой оролцогч 1.12 BPB-д хүрсэн.

Бид үүнийг урам зориг өгсөн гэж үзсэн. Хүчтэй трансформер суурь загваруудтай харьцуулахад, өөр арга хандлагууд заримдаа давамгайлж буй архитектуртай эн тэнцүү өрсөлдөж чаддаг.

Мөн бид энэ чиглэл нь ялангуяа хүчирхэг код бичих агентуудын бэлэн байдлаас ихээхэн ашиг тус хүртдэг гэж үзэж байна. Агентууд өмнө нь богино хугацааны тэмцээнд туршиж үзэхэд хэтэрхий цаг хугацаа шаардсан эсвэл тодорхойгүй мэт санагдаж байсан аргуудыг багтаасан таамаглал дэвшүүлэх санаануудыг туршилтын хувилбар болгон боловсруулах ажлыг илүү хямд болгосон.

Гол санаанууд

Parameter Golf болон өмнөх тэмцээнүүдийн хоорондох гол ялгаа нь код бичих агентуудыг өргөнөөр ашигладаг байсан явдал юм. Илгээгчдийн дийлэнх нь ажлынхаа нэг хэсэг болгон агентуудыг ашиглаж байгаагаа дурдсан байна.

Энэ нь нэвтрэх саадыг бууруулсан. Оролцогчид туршилтуудыг илүү хурдан тохируулах, танихгүй кодоо шалгах, мөн санаануудаа бага саад бэрхшээлтэйгээр туршиж үзэх боломжтой болсон. Түүнчлэн, Runpod-оос тооцоолох чадлын зардалд зориулж 1,000,000 ам.долларын дэмжлэг үзүүлсэн нь уг сорилтыг илүү олон хүнд нээлттэй, хүртээмжтэй болгоход голлох үүрэг гүйцэтгэсэн.

Үүний зэрэгцээ, агентын хэрэглээ нь ирүүлэх болон оноо авахад шинэ асуудлууд үүсгэсэн. Олон илгээмж нь шинэ арга барилаас илүү одоогийн шилдэг оноо авсан бүтээлүүдэд жижиг өөрчлөлт байсан. Энэ нь ихэвчлэн ашигтай байсан: хүчтэй санаанууд хурдан тархаж, бусад хүмүүс сайжруулдаг байсан. Гэхдээ энэ нь бас чимээ шуугиан үүсгэсэн. Тэмцээний удирдамжаас гадуурх бүтээлүүд ер бусын өндөр оноо авсан үед бусад агентууд заримдаа эдгээр санааг хуулбарлаж, буруу замаар үргэлжлүүлдэг байсан.

Мөн ирүүлсэн материалын тоо нь бидний тэмцээнийг хэрхэн зохион байгуулахад нөлөөлсөн. Бид ирүүлсэн материал бүрийг гараар шалгаж, тэргүүлэгчдийн самбарыг хөдөлгөж чадахгүй байсан. Сорилтын үеэр бид шинээр ирүүлсэн материалыг хянаж, хүний хяналтад оруулах зорилгоор Codex дээр суурилсан дотоод ангиллын бот боловсруулсан. Энэ нь бидэнд өдөрт хэдэн зуун өргөдөл хүлээн авдаг байсан үеүүдэд онцгой чухал болсон.

Хиймэл оюун ухааны агентууд мөн энэ сорилтыг тойрсон хамт олны нэг хэсэг болсон. Тэмцээний ихэнх хугацаанд @notapplica болон тэдний код бичих агент нь томоохон үйл явдлуудыг хянах, тэргүүлэгчдийн самбарын арга барилыг тайлбарлах, бусад оролцогчдод тэмцээнийг дагахад нь туслах зорилгоор “Шууд шинэчлэлтүүд” мэдээллийн самбарыг хөтөлсөн. Олон нийтийн үнэлгээний хэрэгслүүд туршлага багатай оролцогчдод илгээсэн бүтээлүүд дүрэмд нийцэж байгаа эсэхийг шалгах, түгээмэл буруу аргуудыг зайлсхийхэд тусалдаг байсан.

Дараа нь юу вэ?

Манай гол зорилго нь оролцох эрхтэй(шинэ цонхонд нээгдэнэ) оролцогчдод машин сургалтын судалгааг турших боломжийг олгох сорилыг эхлүүлэх явдал байв. Parameter Golf нь техникийн хувьд хүчтэй, бүтээлч олон төрлийн бүтээлүүдийг авчирсан бөгөөд хиймэл оюун ухааны агентууд илүү чадварлаг, өргөн хэрэглэгдэхийн хэрээр нээлттэй судалгааны тэмцээнүүд хэрхэн өөрчлөгдөж болохыг бидэнд илүү тодорхой харуулсан.

Бид ирээдүйд иймэрхүү сорилтуудыг илүү олон удаа эхлүүлэх талаар бодож байна. Хэрэв та сонирхож байвал уралдаанд оролцогчийн маягтыг(шинэ цонхонд нээгдэнэ) бөглөнө үү.