Pular para o conteúdo principal
OpenAI

12 de maio de 2026

Pesquisa

O que o Parameter Golf nos ensinou

Lições de mais de 1.000 participantes, mais de 2.000 submissões e um desafio aberto de aprendizado de máquina moldado por agentes de programação.

Carregando…

Lançamos o Parameter Golf para envolver e apoiar a comunidade de pesquisa em machine learning na exploração de um problema novo e altamente restrito de machine learning. Queríamos que o desafio fosse interessante o suficiente para recompensar criatividade técnica real, sem deixar de ser conceitualmente simples e fácil de verificar.

Os participantes precisavam minimizar a perda em holdout em um conjunto de dados FineWeb fixo, mantendo-se dentro de um limite de artefato de 16 MB, incluindo tanto os pesos do modelo quanto o código de treinamento, e um orçamento de treinamento de 10 minutos em 8×H100s. Fornecemos uma baseline, um conjunto de dados e scripts de avaliação para que os participantes pudessem fazer fork do repositório, melhorar o modelo e enviar seus resultados pelo GitHub.

Ao longo de oito semanas, recebemos mais de 2.000 envios de mais de 1.000 participantes. Ficamos impressionados com a amplitude técnica, a criatividade e a flexibilidade na interpretação das regras entre os envios, desde ajustes cuidadosos de otimizadores e trabalhos de quantização até novas ideias de modelagem e treinamento em tempo de teste.

Uma das partes mais empolgantes do desafio foi ver como os participantes usaram agentes de programação de forma ampla. Os agentes ajudaram a reduzir o custo da experimentação, facilitaram a participação de mais pessoas e mudaram o ritmo da competição. Eles também criaram novos desafios para a análise, a atribuição e a pontuação dos envios.

O desafio também se tornou uma superfície significativa de descoberta de talentos para nós. Esse era um dos nossos objetivos com o Parameter Golf, e foi um sinal útil de que desafios técnicos abertos podem revelar excepcional bom gosto e persistência em machine learning.

Nesta publicação, destacamos alguns dos envios que achamos surpreendentes e interessantes e compartilhamos o que aprendemos ao organizar uma competição de programação na era de agentes de IA poderosos.

Impressões técnicas

Trilha de recordes

Julgamos e reproduzimos de forma independente cada envio no placar da trilha de recordes e verificamos que cada envio quebrava o recorde no momento em que foi submetido. Alguns temas se destacaram.

Otimização de treinamento

Alguns dos resultados mais fortes vieram de ajustes cuidadosos de componentes existentes.

EnvioColaboradorTécnicaPor que foi importante
#60@notapplicaCombinou ganhos anteriores do #50, do #42 e provavelmente do #39, e depois fez um modelo mais profundo funcionar com weight decay Muon, inicialização espectral de embeddings, agendamento de residual-mix e avaliação compilada.Um forte exemplo de trabalho disciplinado em placar: identificar quais melhorias existentes importam e combiná-las de forma limpa.

Quantização

Vários envios se empenharam bastante em compressão e exportação.

EnvioColaboradorTécnicaPor que foi importante
#414@signalrushUsou GPTQ-lite para quantizar pesos após o treinamento.O primeiro envio ao placar a usar GPTQ-lite com sucesso, resultando em melhor avaliação.
#1060@dexhunterBaseou-se no #634 de @raahilshah para usar com sucesso GPTQ com Hessiana completa.Estendeu trabalhos anteriores de quantização para um caminho de compressão mais forte.

Estratégias de tempo de teste e avaliação

Alguns envios exploraram o limite entre melhoria de modelo e estratégia de avaliação. Essas abordagens eram válidas pelas regras, mas exigiram uma análise cuidadosa da nossa parte como organizadores.

EnvioColaboradorTécnicaPor que foi importante
#77@samacquaUsou treinamento em tempo de teste LoRA por documento com priorização da pontuação: pontuar primeiro, adaptar apenas em chunks já pontuados e redefinir nos limites dos documentos.Explorou o limite entre melhoria de modelo e estratégia de avaliação, permanecendo analisável sob as regras.
#1019@abaybektursunUsou calibração GPTQ autogerada: gerar texto de calibração a partir do modelo treinado e, em seguida, construir Hessianas GPTQ a partir dessas ativações.Uma estratégia criativa de calibração que exigiu análise cuidadosa dos organizadores.

Novas ideias de modelagem e dados

Alguns envios introduziram ideias de modelagem ou dados especialmente criativas.

EnvioColaboradorTécnicaPor que foi importante
#1729@romeerpIntroduziu o tokenizador CaseOps: tokens de operador de capitalização sem perdas com contabilização auxiliar de BPB por byte original.Uma ideia criativa de tokenizador e representação de dados.
#265@unnirIntroduziu XSA, uma abordagem eficiente de Exclusive Self Attention parcial com visualizações agrupadas compatíveis com GQA.Trouxe ao desafio uma variante eficiente de atenção.
#65@aquariouseworkmanIntroduziu SmearGate e BigramHash: uma mescla aprendida de embeddings do token anterior mais recursos de hash de pares de tokens adjacentes.Adicionou novos mecanismos de recursos criados do zero.
#1204@msisovicIntroduziu mini recorrência de profundidade: repetiu as camadas 4 e 5, adiou a recorrência até o meio do treinamento e desvinculou parcialmente os MLPs repetidos.A primeira linha aceita no placar a fazer camadas recorrentes funcionarem de forma eficaz.

Escolhemos destacar esses nove envios porque eles representam a variedade de resultados que esperávamos que o desafio trouxesse à tona. Alguns participantes encontraram ganhos por meio de ajustes cuidadosos. Outros avançaram em quantização e técnicas de baixo posto. Alguns exploraram as bordas das regras de avaliação. E vários introduziram ideias de modelagem ou dados, vindas da literatura ou criadas do zero, que produziram ganhos inesperados.

Trilha sem recordes

A trilha sem recordes abrigou muitos envios criativos. Destacamos 15 favoritos, incluindo abordagens que iam de modelagem de texto não autorregressiva a tokenização dinâmica.

Como essa trilha era mais experimental, nos concentramos menos no desempenho bruto e mais em saber se a abordagem era tecnicamente interessante. Três envios se destacaram em particular:

Esses foram nossos três envios favoritos da trilha sem recordes, embora não fossem necessariamente os três melhores em desempenho.

Dito isso, a trilha sem recordes ainda foi competitiva. Metade das entradas do placar sem recordes superou a baseline ingênua de 1,22 BPB, e a entrada mais bem colocada chegou a 1,12 BPB.

Achamos isso encorajador. Mesmo contra baselines fortes de transformers, abordagens alternativas às vezes conseguiam se manter competitivas diante da arquitetura dominante.

Também acreditamos que essa trilha se beneficia especialmente da disponibilidade de agentes de programação fortes. Agentes tornaram muito mais barato prototipar ideias especulativas, incluindo abordagens que antes talvez parecessem demoradas ou incertas demais para testar em uma competição curta.

Aprendizados

Uma grande diferença entre o Parameter Golf e competições anteriores semelhantes foi o uso amplo de agentes de programação. A grande maioria dos participantes mencionou o uso de agentes como parte do seu trabalho.

Isso reduziu a barreira de entrada. Os participantes conseguiam configurar experimentos mais rápido, inspecionar código desconhecido e testar ideias com menos atrito. O patrocínio de US$ 1.000.000 em computação da Runpod também teve um papel importante em tornar o desafio acessível a mais pessoas.

Ao mesmo tempo, o uso de agentes criou novos problemas para o envio e a pontuação. Muitos envios eram pequenas alterações em soluções já bem colocadas, em vez de abordagens fundamentalmente novas. Isso muitas vezes foi útil: ideias fortes se espalharam rapidamente e foram refinadas por outras pessoas. Mas também gerou ruído. Quando envios fora das diretrizes da competição produziam pontuações incomumente altas, outros agentes às vezes copiavam essas ideias e continuavam pelo mesmo caminho inválido.

O volume de envios também mudou a forma como tivemos que conduzir a competição. Não podíamos inspecionar manualmente cada envio e, ao mesmo tempo, manter o placar em movimento. Durante o desafio, desenvolvemos um bot interno de triagem baseado no Codex para monitorar novos envios e sinalizá-los para análise humana. Isso se tornou especialmente importante em períodos em que recebemos centenas de envios por dia.

Agentes de IA também passaram a fazer parte da comunidade em torno do desafio. Durante boa parte da competição, @notapplica e seu agente de programação mantiveram um boletim de “Live Updates”, acompanhando grandes eventos, explicando abordagens do placar e ajudando outros participantes a acompanhar a competição. Ferramentas de análise da comunidade também surgiram para ajudar participantes menos experientes a verificar se seus envios estavam dentro das regras e a evitar abordagens inválidas comuns.

O que vem a seguir?

Nosso objetivo principal era lançar um desafio do qual participantes elegíveis(abre em uma nova janela) pudessem participar e vivenciar a pesquisa em machine learning. O Parameter Golf atraiu uma ampla variedade de envios tecnicamente fortes e criativos e nos deu uma visão mais clara de como competições abertas de pesquisa podem mudar à medida que agentes de IA se tornam mais capazes e amplamente usados.

Estamos pensando em lançar mais desafios como este no futuro. Se tiver interesse, preencha o formulário de participantes do desafio(abre em uma nova janela).

Autoria

OpenAI