Saltar para o conteúdo principal
OpenAI

12 de maio de 2026

Investigação

O que o Parameter Golf nos ensinou

Lições de mais de 1.000 participantes, mais de 2.000 submissões e um desafio aberto de aprendizagem automática moldado por agentes de programação.

A carregar…

Lançámos o Parameter Golf para envolver e apoiar a comunidade de investigação em machine learning na exploração de um novo problema de machine learning fortemente limitado. Queríamos que o desafio fosse suficientemente interessante para recompensar criatividade técnica real, mantendo-se conceptualmente simples e fácil de verificar.

Os participantes tinham de minimizar a perda num conjunto de validação fixo do FineWeb, mantendo-se dentro de um limite de artefacto de 16 MB, incluindo pesos do modelo e código de treino, e de um orçamento de treino de 10 minutos em 8×H100s. Fornecíamos uma baseline, o conjunto de dados e scripts de avaliação para que os participantes pudessem fazer fork do repositório, melhorar o modelo e submeter os resultados através do GitHub.

Ao longo de oito semanas, recebemos mais de 2000 submissões de mais de 1000 participantes. Ficámos impressionados com a amplitude técnica, a criatividade e a interpretação criativa das regras nas submissões, desde a afinação cuidadosa de otimizadores e trabalho de quantização até novas ideias de modelação e treino em tempo de teste.

Uma das partes mais entusiasmantes do desafio foi ver a amplitude com que os participantes usaram agentes de programação com IA. Os agentes ajudaram a reduzir o custo da experimentação, facilitaram a participação de mais pessoas e mudaram o ritmo da competição. Também criaram novos desafios para a revisão, atribuição e pontuação das submissões.

O desafio também se tornou uma superfície relevante de descoberta de talento para nós. Esse era um dos nossos objetivos para o Parameter Golf, e foi um sinal útil de que desafios técnicos em aberto podem revelar gosto e persistência excecionais em machine learning.

Nesta publicação, destacamos algumas das submissões que considerámos surpreendentes e interessantes, e partilhamos o que aprendemos ao organizar um concurso de programação na era dos poderosos agentes de IA.

Impressões técnicas

Categoria de recordes

Avaliámos e reproduzimos de forma independente cada submissão na tabela de classificação da categoria de recordes e verificámos que cada submissão era recordista no momento em que foi submetida. Destacaram-se vários temas.

Otimização do treino

Alguns dos resultados mais fortes vieram da afinação cuidadosa de componentes existentes.

SubmissãoContribuidorTécnicaPorque foi importante
#60@notapplicaCombinou ganhos anteriores da #50, #42 e provavelmente da #39, e depois fez um modelo mais profundo funcionar com decaimento de pesos Muon, inicialização espectral de embeddings, agendamento de mistura residual e avaliação compilada.Um forte exemplo de trabalho disciplinado na tabela de classificação: identificar que melhorias existentes importam e combiná-las de forma limpa.

Quantização

Várias submissões puxaram muito pela compressão e exportação.

SubmissãoContribuidorTécnicaPorque foi importante
#414@signalrushUsou GPTQ-lite para quantizar os pesos após o treino.A primeira submissão da tabela de classificação a usar GPTQ-lite com sucesso, levando a uma melhor avaliação.
#1060@dexhunterBaseou-se na #634 de @raahilshah para usar com sucesso GPTQ com Hessiana completa.Expandiu trabalho anterior de quantização para um caminho de compressão mais forte.

Estratégias de tempo de teste e avaliação

Algumas submissões exploraram a fronteira entre melhoria do modelo e estratégia de avaliação. Estas abordagens eram válidas ao abrigo das regras, mas exigiram uma revisão cuidadosa da nossa parte enquanto organizadores.

SubmissãoContribuidorTécnicaPorque foi importante
#77@samacquaUsou treino LoRA em tempo de teste score-first por documento: pontuar primeiro, adaptar apenas em fragmentos já pontuados e repor nos limites dos documentos.Explorou a fronteira entre melhoria do modelo e estratégia de avaliação, mantendo-se passível de revisão ao abrigo das regras.
#1019@abaybektursunUsou calibração GPTQ autogerada: gerar texto de calibração a partir do modelo treinado e depois criar Hessianas GPTQ a partir dessas ativações.Uma estratégia de calibração criativa que exigiu revisão cuidadosa por parte dos organizadores.

Novas ideias de modelação e dados

Algumas submissões introduziram ideias de modelação ou dados especialmente criativas.

SubmissãoContribuidorTécnicaPorque foi importante
#1729@romeerpIntroduziu o tokenizer CaseOps: tokens operadores de capitalização sem perdas, com contabilização auxiliar BPB por byte original.Uma ideia criativa de tokenizer e representação de dados.
#265@unnirIntroduziu XSA, uma abordagem eficiente de Exclusive Self Attention parcial com vistas agrupadas cientes de GQA.Trouxe uma variante eficiente de atenção para o desafio.
#65@aquariouseworkmanIntroduziu SmearGate e BigramHash: uma mistura aprendida de embedding do token anterior, além de funcionalidades de hash de pares de tokens adjacentes.Adicionou novos mecanismos de funcionalidades criados de raiz.
#1204@msisovicIntroduziu mini depth recurrence: repetiu as camadas 4 e 5, adiou a recorrência até meio do treino e desvinculou parcialmente os MLPs repetidos.A primeira linha aceite na tabela de classificação a fazer camadas recorrentes funcionar de forma eficaz.

Escolhemos destacar estas nove submissões porque representam a variedade de resultados que esperávamos que o desafio revelasse. Alguns participantes encontraram ganhos através de afinação cuidadosa. Outros exploraram quantização e técnicas de baixo posto. Alguns investigaram os limites das regras de avaliação. E vários introduziram ideias de modelação ou dados, provenientes da literatura ou criadas de raiz, que produziram ganhos inesperados.

Categoria sem recordes

A categoria sem recordes foi palco de muitas submissões criativas. Destacámos 15 favoritas, incluindo abordagens que vão da modelação de texto não autorregressiva à tokenização dinâmica.

Como esta categoria era mais experimental, focámo-nos menos no desempenho bruto e mais em saber se a abordagem era tecnicamente interessante. Três submissões destacaram-se em particular:

Estas foram as nossas três submissões favoritas da categoria sem recordes, embora não fossem necessariamente as três melhores em termos de desempenho.

Ainda assim, a categoria sem recordes continuou competitiva. Metade das entradas da tabela de classificação sem recordes superou a baseline ingénua de 1,22 BPB, e a entrada mais bem classificada atingiu 1,12 BPB.

Achámos isto encorajador. Mesmo contra baselines fortes de transformers, abordagens alternativas conseguiam por vezes manter-se competitivas face à arquitetura dominante.

Também acreditamos que esta categoria beneficia especialmente da disponibilidade de agentes de programação fortes. Os agentes tornaram muito mais barato prototipar ideias especulativas, incluindo abordagens que anteriormente poderiam ter parecido demasiado demoradas ou incertas para experimentar numa competição curta.

Conclusões

Uma grande diferença entre o Parameter Golf e competições anteriores semelhantes foi a utilização generalizada de agentes de programação. A grande maioria dos participantes referiu ter usado agentes como parte do seu trabalho.

Isso reduziu a barreira de entrada. Os participantes conseguiram configurar experiências mais depressa, inspecionar código desconhecido e testar ideias com menos fricção. O patrocínio da Runpod de 1 000 000 dólares em computação também desempenhou um papel importante para tornar o desafio acessível a mais pessoas.

Ao mesmo tempo, a utilização de agentes criou novos problemas para a submissão e a pontuação. Muitas submissões eram pequenas alterações a entradas já muito bem classificadas, em vez de abordagens fundamentalmente novas. Isto foi muitas vezes útil: ideias fortes espalharam-se rapidamente e foram refinadas por outros. Mas também criou ruído. Quando submissões que ficavam fora das diretrizes da competição produziam pontuações invulgarmente fortes, outros agentes por vezes copiavam essas ideias e continuavam pelo mesmo caminho inválido.

O volume de submissões também mudou a forma como tivemos de gerir a competição. Não conseguíamos inspecionar manualmente todas as submissões e, ao mesmo tempo, manter a tabela de classificação em movimento. Durante o desafio, desenvolvemos um bot interno de triagem baseado no Codex para monitorizar novas submissões e sinalizá-las para revisão humana. Isto tornou-se especialmente importante durante períodos em que recebíamos centenas de submissões por dia.

Os agentes de IA também se tornaram parte da comunidade em torno do desafio. Durante grande parte da competição, @notapplica e o respetivo agente de programação mantiveram um boletim «Live Updates», acompanhando os principais acontecimentos, explicando abordagens da tabela de classificação e ajudando outros participantes a acompanhar a competição. Também surgiram ferramentas de revisão da comunidade para ajudar participantes menos experientes a verificar se as suas submissões estavam dentro das regras e a evitar abordagens inválidas comuns.

O que vem a seguir?

O nosso principal objetivo era lançar um desafio em que participantes elegíveis(abre numa nova janela) pudessem participar e experienciar investigação em machine learning. O Parameter Golf atraiu uma vasta gama de submissões tecnicamente fortes e criativas, e deu-nos uma visão mais clara de como as competições abertas de investigação podem mudar à medida que os agentes de IA se tornam mais capazes e amplamente utilizados.

Estamos a considerar lançar mais desafios deste tipo no futuro. Se tiver interesse, preencha o formulário de participante no desafio(abre numa nova janela).

Autor

OpenAI