Ana içeriğe atla
OpenAI

12 Mayıs 2026

Araştırma

Parameter Golf bize ne öğretti

1.000'den fazla katılımcı, 2.000'den fazla gönderi ve kodlama ajanlarının şekillendirdiği açık bir makine öğrenimi yarışmasından çıkarılan dersler.

Yükleniyor...

Makine öğrenimi araştırma topluluğunun, yeni ve sıkı kısıtlarla tanımlanmış bir makine öğrenimi problemini keşfetmesini ve bu sürece katkıda bulunmasını sağlamak için Parameter Golf'ü başlattık. Yarışmanın gerçek teknik yaratıcılığı ödüllendirecek kadar ilgi çekici olmasını; aynı zamanda kavramsal olarak basit ve doğrulaması kolay kalmasını istedik.

Katılımcılardan, model ağırlıkları ve eğitim kodu dahil olmak üzere 16 MB yapıt sınırı içinde ve 8 adet H100 GPU üzerinde 10 dakikalık eğitim bütçesiyle, sabit bir FineWeb veri setinde eğitimden ayrı tutulan veri üzerindeki kayıp değerini en aza indirmeleri istendi. Katılımcıların depoyu çatallayıp modeli iyileştirebilmesi ve sonuçlarını GitHub üzerinden gönderebilmesi için bir temel model, veri seti ve değerlendirme komut dosyaları sağladık.

Sekiz hafta boyunca 1.000'den fazla katılımcıdan 2.000'in üzerinde gönderi aldık. Gönderilerdeki teknik derinlik, yaratıcılık ve kurallara uygun ince işçilik bizi çok etkiledi. Bu gönderiler; dikkatli optimize edici ayarlamalarından kuantizasyon çalışmalarına, yeni modelleme fikirlerinden test zamanı eğitimine kadar geniş bir yelpazeye yayıldı.

Yarışmanın en heyecan verici yanlarından biri, katılımcıların yapay zeka kodlama ajanlarını ne kadar yaygın kullandığını görmekti. Ajanlar, deneme yapmanın maliyetini düşürdü, daha fazla kişinin katılımını kolaylaştırdı ve yarışmanın temposunu değiştirdi. Aynı zamanda gönderi incelemesi, ilişkilendirme ve puanlama açısından yeni zorluklar da yarattı.

Yarışma bizim için anlamlı bir yetenek keşfi alanına da dönüştü. Bu, Parameter Golf için belirlediğimiz hedeflerden biriydi ve açık uçlu teknik yarışmaların olağanüstü makine öğrenimi sezgisini ve ısrarını ortaya çıkarabileceğine dair güçlü bir sinyal verdi.

Bu yazıda, şaşırtıcı ve ilgi çekici bulduğumuz bazı gönderimleri öne çıkarıyor ve güçlü yapay zeka ajanları çağında bir kodlama yarışması yürütürken öğrendiklerimizi paylaşıyoruz.

Teknik izlenimler

Rekor kategorisi

Rekor kategorisi sıralama tablosundaki her gönderiyi değerlendirdik, bağımsız olarak yeniden ürettik ve her gönderinin sunulduğu anda rekor kırdığını doğruladık. Birkaç tema öne çıktı.

Eğitim optimizasyonu

En güçlü sonuçlardan bazıları, mevcut bileşenlerin dikkatli biçimde ayarlanmasıyla elde edildi.

GönderiKatkıda BulunanTeknikNeden Önemliydi?
#60@notapplicaDaha önceki #50, #42 ve muhtemelen #39 numaralı gönderimlerden birleştirdi; ardından Muon weight decay, gömme vektörlerini spektral yöntemle başlatma, residual-mix planlama ve derlenmiş değerlendirme ile daha derin bir modeli çalışır hale getirdi.Mevcut iyileştirmelerden hangilerinin önemli olduğunu belirleyip bunları temiz bir şekilde birleştiren disiplinli sıralama tablosu çalışmasına güçlü bir örnekti.

Kuantizasyon

Bazı gönderiler, sıkıştırma ve dışa aktarma konusunda sınırları zorladı.

GönderiKatkıda BulunanTeknikNeden Önemliydi?
#414@signalrushEğitimden sonra ağırlıkları kuantize etmek için GPTQ-lite kullandı.GPTQ-lite'ı başarıyla kullanan ilk sıralama tablosu gönderisi oldu ve daha iyi bir değerlendirme sonucu elde etti.
#1060"@dexhunter@raahilshah tarafından yapılan #634 numaralı gönderinin üzerine inşa ederek full Hessian GPTQ yöntemini başarıyla kullandı.Önceki kuantizasyon çalışmasını daha güçlü bir sıkıştırma yoluna genişletti.

Test zamanı ve değerlendirme stratejileri

Bazı gönderiler, model iyileştirme ile değerlendirme stratejisi arasındaki sınırı zorladı. Bu yaklaşımlar, kurallar kapsamında geçerliydi, ancak düzenleyiciler olarak dikkatli bir inceleme yapmamızı gerektirdi.

GönderiKatkıda BulunanTeknikNeden Önemliydi?
#77@samacquaPuan odaklı, belge başına LoRA test zamanı eğitimi kullandı: önce puana odaklandı, yalnızca daha önce puanlanmış parçalara uyarlama yaptı ve belge sınırlarında sıfırlandı.Kurallar kapsamında incelenebilir kalırken model iyileştirme ve değerlendirme stratejisi arasındaki sınırı zorladı.
#1019@abaybektursunKendi ürettiği GPTQ kalibrasyonunu kullandı: eğitimli modelden kalibrasyon metni üretti, ardından bu aktivasyonlardan GPTQ Hessian'ları oluşturdu.Düzenleyiciler tarafından dikkatle incelenmesi gereken yaratıcı bir kalibrasyon stratejisiydi.

Yeni modelleme ve veri fikirleri

Birkaç gönderim, özellikle yaratıcı modelleme veya veri fikirleri ortaya koydu.

GönderiKatkıda BulunanTeknikNeden Önemliydi?
#1729@romeerpCaseOps tokenizer'ını tanıttı: özgün bayt BPB sidecar hesaplamasıyla kayıpsız büyük/küçük harf operatör token'ları.Yaratıcı bir tokenizer ve veri temsili fikriydi.
#265@unnirGQA uyumlu gruplanmış görünümlerle verimli bir kısmi Exclusive Self Attention yaklaşımı olan XSA'yı tanıttı.Yarışmaya verimli bir dikkat mekanizması varyantı kazandırdı.
#65@aquariouseworkmanSmearGate ve BigramHash'i tanıttı: öğrenilmiş bir önceki token gömme karışımı ve bitişik token çifti hash özellikleri.Sıfırdan geliştirilmiş yeni özellik mekanizmaları ekledi.
#1204@msisovicMini derinlik yinelemesini tanıttı: 4. ve 5. katmanları tekrarladı, yinelemeyi eğitimin ortasına kadar erteledi ve tekrarlanan MLP'leri kısmen birleştirdi.Yinelenen katmanların etkili şekilde çalışmasını sağlayan, kabul edilmiş ilk sıralama tablosu satırıydı.

Yarışmanın ortaya çıkarmasını umduğumuz sonuç yelpazesini temsil ettiği için bu dokuz gönderiyi öne çıkarmayı seçtik. Bazı katılımcılar dikkatli ayarlamalarla başarı elde etti. Bazıları kuantizasyon ve düşük sıralı tekniklerin sınırlarını zorladı. Bazıları, değerlendirme kurallarının sınır noktalarını araştırdı. Bazıları ise literatürden uyarlanan veya sıfırdan geliştirilen modelleme ve veri fikirleriyle beklenmedik kazanımlar sağladı.

Rekor dışı kategori

Rekor dışı kategori de pek çok yaratıcı gönderiye ev sahipliği yaptı. Otoregresif olmayan metin modellemeden dinamik tokenizasyona kadar uzanan yaklaşımlar dahil olmak üzere favori 15 gönderimizi öne çıkardık.

Bu kategori daha deneysel olduğu için ham performanstan çok, yaklaşımın teknik açıdan ne kadar ilgi çekici olduğuna odaklandık. Özellikle üç gönderim öne çıktı:

Bunlar performans açısından mutlaka ilk üçte yer almasa da rekor dışı gönderiler arasında en sevdiğimiz üç gönderiydi.

Bununla birlikte, rekor dışı kategori yine de oldukça rekabetçiydi. Rekor dışı sıralama tablosundaki gönderilerin yarısı, 1,22 BPB'lik saf temel modeli geçti ve en üst sıradaki giriş, 1,12 BPB'ye ulaştı.

Bunu cesaret verici bulduk. Güçlü transformer temel modellerine rağmen, alternatif yaklaşımlar zaman zaman baskın mimari karşısında anlamlı bir varlık gösterebildi.

Ayrıca bu kategorinin, güçlü kodlama ajanlarının erişilebilir hale gelmesinden özellikle faydalandığını düşünüyoruz. Ajanlar; kısa bir yarışmada daha önce denenmesi fazla zaman alıcı veya belirsiz gelebilecek spekülatif fikirler dahil olmak üzere, prototip geliştirmeyi çok daha düşük maliyetli hale getirdi.

Çıkarımlar

Parameter Golf ile benzer önceki yarışmalar arasındaki önemli farklardan biri, kodlama ajanlarının yaygın biçimde kullanılmasıydı. Gönderi yapanların büyük çoğunluğu, çalışmalarının bir parçası olarak ajanlardan yararlandığını belirtti.

Bu durum katılım eşiğini düşürdü. Katılımcılar deneyleri daha hızlı kurabildi, aşina olmadıkları kodu inceleyebildi ve fikirleri daha az sürtünmeyle test edebildi. Runpod'un 1.000.000 $'lık işlem kapasitesi sponsorluğu da yarışmanın daha fazla kişi için erişilebilir hale gelmesinde önemli rol oynadı.

Aynı zamanda ajan kullanımı, gönderi ve puanlama açısından yeni sorunlar da yarattı. Birçok gönderim, temelden yeni yaklaşımlar yerine mevcut en yüksek puanlı sonuçlar üzerinde yapılan küçük değişikliklerden oluşuyordu. Bu çoğu zaman faydalıydı: güçlü fikirler hızla yayıldı ve başkaları tarafından geliştirildi. Ancak bu durum gürültü de yarattı. Yarışma yönergelerinin dışında kalan gönderiler alışılmadık derecede güçlü puanlar elde ettiğinde, diğer ajanlar bazen bu fikirleri kopyaladı ve aynı geçersiz yönde ilerlemeyi sürdürdü.

Gönderim hacmi, yarışmayı nasıl yürütmemiz gerektiğini de değiştirdi. Sıralama tablosunu güncel tutarken her gönderiyi manuel olarak incelememiz mümkün değildi. Yarışma sırasında yeni gönderileri izlemek ve insan incelemesi için işaretlemek üzere şirket içi, Codex tabanlı bir triyaj botu geliştirdik. Günde yüzlerce gönderi aldığımız dönemlerde bu özellikle önemli hale geldi.

Yapay zeka ajanları, yarışma etrafındaki topluluğun da bir parçası haline geldi. Yarışmanın büyük bölümünde @notapplica ve kodlama ajanı; önemli gelişmeleri takip eden, sıralama tablosundaki yaklaşımları açıklayan ve diğer katılımcıların yarışmayı izlemesine yardımcı olan bir "Canlı Güncellemeler" bülteni yayınladı. Topluluk tarafından geliştirilen inceleme araçları da daha az deneyimli katılımcıların gönderilerinin kurallara uygun olup olmadığını kontrol etmesine ve yaygın geçersiz yaklaşımlardan kaçınmasına yardımcı oldu.

Sırada ne var?

Birincil hedefimiz, uygun nitelikli katılımcıların(yeni bir pencerede açılır) yer alabileceği ve makine öğrenimi araştırmasını deneyimleyebileceği bir yarışma başlatmaktı. Parameter Golf, teknik açıdan güçlü ve yaratıcı çok sayıda gönderi ortaya çıkardı. Ayrıca yapay zeka ajanları daha yetkin ve yaygın hale geldikçe açık araştırma yarışmalarının nasıl değişebileceğine dair bize daha net bir bakış sundu.

Gelecekte buna benzer daha fazla yarışma düzenlemeyi düşünüyoruz. İlgileniyorsanız lütfen yarışma katılımcı formunu doldurun(yeni bir pencerede açılır).

Yazar

OpenAI