2026년 5월 12일

Parameter Golf가 우리에게 가르쳐준 것

1,000명 이상의 참가자와 2,000건 이상의 제출, 그리고 코딩 에이전트의 영향을 받아 형성된 오픈 머신 러닝 챌린지에서 얻은 교훈

로딩 중...

OpenAI는 머신 러닝 연구 커뮤니티가 새롭고 제약이 엄격한 머신 러닝 문제를 탐구할 수 있도록 지원하고 참여를 확대하기 위해 Parameter Golf를 시작했습니다. 이 챌린지가 실제 기술적 창의성에 보상을 줄 만큼 흥미로우면서도, 개념적으로는 단순하고 검증하기 쉬운 형태이기를 바랐습니다.

참가자들은 고정된 FineWeb 데이터 세트에서 검증 손실을 최소화해야 했으며, 모델 가중치와 학습 코드를 모두 포함해 16MB 아티팩트 제한과 8×H100 환경에서의 10분 학습 제한을 지켜야 했습니다. OpenAI는 베이스라인 모델, 데이터 세트, 평가 스크립트를 제공했으며, 참가자들은 저장소를 포크해 모델을 개선하고 GitHub를 통해 결과를 제출할 수 있었습니다.

8주 동안 1,000명 이상의 참가자로부터 2,000건이 넘는 제출을 받았습니다. OpenAI는 정교한 옵티마이저 튜닝과 양자화 작업부터 새로운 모델링 아이디어와 테스트 시점 학습에 이르기까지, 제출 전반에 걸쳐 나타난 기술적 폭과 창의성, 그리고 규칙의 한계를 넘나드는 시도에 깊은 인상을 받았습니다.

이 챌린지에서 가장 흥미로운 부분 중 하나는 참가자들이 AI 코딩 에이전트를 얼마나 폭넓게 활용했는지를 확인할 수 있었다는 점입니다. 에이전트는 실험 비용을 낮추고 더 많은 사람들이 참여할 수 있도록 했으며, 경쟁의 속도도 변화시켰습니다. 동시에 제출 검토, 기여도 표시, 점수 산정과 관련해 새로운 과제도 만들어냈습니다.

이 챌린지는 OpenAI에게 의미 있는 인재 발굴의 장이 되기도 했습니다. 이는 Parameter Golf의 목표 중 하나였으며, 개방형 기술 챌린지가 뛰어난 머신 러닝 감각과 끈기를 가진 인재를 발견하는 데 효과적이라는 점을 보여주는 유용한 신호이기도 했습니다.

이 글에서는 OpenAI가 특히 인상 깊게 본 제출물 몇 가지를 소개하고, 강력한 AI 에이전트의 시대에 코딩 대회를 운영하며 배운 점을 공유합니다.

기술적 인상

기록 트랙

OpenAI는 기록 트랙 리더보드의 각 제출물을 심사하고 독립적으로 재현했으며, 각 제출물이 제출 당시 실제로 기록을 경신했는지도 검증했습니다. 그 과정에서 몇 가지 공통된 흐름이 두드러졌습니다.

학습 최적화

가장 뛰어난 결과 중 일부는 기존 구성 요소를 세심하게 튜닝한 데서 나왔습니다.

제출물	기여자	기법	중요했던 이유
#60	@notapplica	#50, #42, 그리고 아마도 #39의 기존 성과를 결합한 뒤, Muon 가중치 감쇠, 스펙트럴 임베딩 초기화, residual-mix 스케줄링, 컴파일된 평가를 활용해 더 깊은 모델이 효과적으로 작동하도록 만들었습니다.	어떤 기존 개선 사항이 중요한지 식별하고 이를 깔끔하게 결합한, 체계적인 리더보드 작업의 뛰어난 사례였습니다.

양자화

여러 제출물은 압축과 내보내기에 집중했습니다.

제출물	기여자	기법	중요했던 이유
#414	@signalrush	학습 후 GPTQ-lite를 사용해 가중치를 양자화했습니다.	GPTQ-lite를 성공적으로 사용한 최초의 리더보드 제출물이었으며, 더 나은 평가 결과로 이어졌습니다.
#1060	@dexhunter	@raahilshah의 #634를 기반으로 전체 Hessian GPTQ를 성공적으로 사용했습니다.	기존 양자화 작업을 더 강력한 압축 방식으로 확장했습니다.

테스트 시점 및 평가 전략

일부 제출물은 어디까지를 모델 개선으로 보고 어디까지를 평가 전략으로 볼 수 있는지 그 경계를 시험했습니다. 이러한 접근 방식은 규칙상 허용됐지만, 운영진인 OpenAI의 세심한 검토가 필요했습니다.

제출물	기여자	기법	중요했던 이유
#77	@samacqua	채점 우선 방식의 문서별 LoRA 테스트 시점 학습을 사용했습니다. 먼저 점수를 계산한 뒤 이미 채점된 청크에 대해서만 적응을 수행하고, 문서 경계마다 상태를 초기화했습니다.	규칙에 따라 검토 가능한 상태를 유지하면서도 모델 개선과 평가 전략 사이의 경계를 탐색했습니다.
#1019	@abaybektursun	자체 생성 GPTQ 보정 방식을 사용했습니다. 학습된 모델로 보정용 텍스트를 생성한 뒤, 해당 활성화값을 기반으로 GPTQ Hessian을 구축했습니다.	운영진의 면밀한 검토가 필요했던 창의적인 보정 전략이었습니다.

새로운 모델링 및 데이터 아이디어

몇몇 제출물은 특히 창의적인 모델링 또는 데이터 아이디어를 제시했습니다.

제출물	기여자	기법	중요했던 이유
#1729	@romeerp	CaseOps 토크나이저를 도입했습니다. 원본 바이트 기준 BPB 사이드카 계산을 포함한 손실 없는 대문자화 연산자 토큰 방식입니다.	창의적인 토크나이저 및 데이터 표현 아이디어였습니다.
#265	@unnir	GQA 인식 그룹 뷰를 활용한 효율적인 부분 Exclusive Self Attention 방식인 XSA를 도입했습니다.	효율적인 어텐션 변형 기법을 챌린지에 도입했습니다.
#65	@aquariouseworkman	SmearGate와 BigramHash를 도입했습니다. 학습된 이전 토큰 임베딩 혼합과 인접 토큰 쌍 해시 특징을 결합한 방식입니다.	새로운 특징 메커니즘을 처음부터 설계해 추가했습니다.
#1204	@msisovic	미니 깊이 반복 구조를 도입했습니다. 4번과 5번 레이어를 반복 사용하고, 학습 중반까지 반복 적용을 지연했으며, 반복되는 MLP 일부의 가중치 공유를 해제했습니다.	반복 레이어를 효과적으로 작동시킨 최초의 승인 리더보드 제출물이었습니다.

OpenAI가 이 아홉 개의 제출물을 선정한 이유는, 이번 챌린지를 통해 발견하고자 했던 다양한 유형의 성과를 잘 보여주었기 때문입니다. 어떤 참가자들은 세심한 튜닝으로 성과를 냈고, 다른 이들은 양자화와 저랭크 기법을 밀어붙였습니다. 또 어떤 이들은 평가 규칙의 경계를 탐색했습니다. 그리고 몇몇은 문헌에서 가져오거나 처음부터 만든 모델링 또는 데이터 아이디어를 도입해 예상 밖의 향상을 만들어냈습니다.

비기록 트랙

비기록 트랙에서는 매우 창의적인 제출물이 다수 등장했습니다. OpenAI는 비자기회귀 텍스트 모델링부터 동적 토큰화까지 다양한 접근 방식을 포함한 15개의 제출물을 선정해 소개했습니다.

이 트랙은 더 실험적이었기 때문에, OpenAI는 순수 성능보다 기술적으로 얼마나 흥미로운 접근인지에 더 집중했습니다. 특히 다음 세 제출물이 두드러졌습니다.

이 세 제출물은 성능 기준 상위 3개는 아니었지만, OpenAI가 가장 인상 깊게 본 비기록 트랙 제출물이었습니다.

그렇다고 해서 비기록 트랙의 경쟁 수준이 낮았던 것은 아닙니다. 비기록 리더보드 제출물의 절반은 1.22 BPB의 단순 기준선을 넘어섰고, 최고 순위 제출물은 1.12 BPB를 기록했습니다.

OpenAI는 이를 매우 고무적으로 보았습니다. 강력한 트랜스포머 기준 모델과 비교해도, 대안적 접근 방식이 지배적인 아키텍처와 충분히 경쟁할 수 있다는 점을 보여주었기 때문입니다.

OpenAI는 또한 이 트랙이 강력한 코딩 에이전트의 등장으로 특히 큰 혜택을 받았다고 생각합니다. 에이전트는 실험적 아이디어를 시제품으로 구현하는 비용을 크게 낮췄습니다. 덕분에 이전에는 짧은 대회 기간 안에 시도하기엔 너무 많은 시간이나 불확실성이 따른다고 여겨졌던 접근 방식까지도 쉽게 실험할 수 있었습니다.

핵심 교훈

Parameter Golf와 이전 유사 대회의 가장 큰 차이점 중 하나는 코딩 에이전트가 매우 폭넓게 사용됐다는 점이었습니다. 제출자의 대다수는 작업 과정에서 에이전트를 활용했다고 언급했습니다.

그 결과 진입 장벽이 낮아졌습니다. 참가자들은 실험을 더 빠르게 구성하고, 익숙하지 않은 코드를 살펴보며, 아이디어를 더 수월하게 테스트할 수 있었습니다. Runpod의 100만 달러 규모 컴퓨팅 리소스 후원 역시 더 많은 사람들이 챌린지에 참여할 수 있도록 하는 데 중요한 역할을 했습니다.

동시에 에이전트 사용은 제출과 점수 산정 과정에서 새로운 문제도 만들어냈습니다. 많은 제출물은 완전히 새로운 접근 방식이라기보다 기존 상위 점수 제출물에 작은 변화를 준 수준에 가까웠습니다. 이는 종종 긍정적인 효과를 냈습니다. 좋은 아이디어가 빠르게 확산됐고, 다른 참가자들에 의해 계속 개선될 수 있었기 때문입니다. 하지만 동시에 혼선도 발생했습니다. 대회 가이드라인을 벗어난 제출물이 비정상적으로 높은 점수를 기록하면, 다른 에이전트들이 그 아이디어를 그대로 따라 하고 같은 잘못된 방향으로 계속 발전시키는 경우도 있었습니다.

제출물 규모 자체도 OpenAI가 대회를 운영하는 방식을 바꿔놓았습니다. OpenAI는 모든 제출물을 수동으로 검토하면서 동시에 리더보드를 계속 운영할 수는 없었습니다. 그래서 챌린지 기간 동안 OpenAI는 새로운 제출물을 모니터링하고 사람이 검토해야 할 항목을 표시하는 내부 Codex 기반 분류 봇을 개발했습니다. 이 봇은 하루에 수백 건의 제출물이 몰리던 시기에 특히 중요한 역할을 했습니다.

AI 에이전트는 챌린지를 둘러싼 커뮤니티의 일부가 되기도 했습니다. 대회 기간의 상당 부분 동안 @notapplica와 해당 코딩 에이전트는 '실시간 업데이트' 게시판을 운영하며 주요 이벤트를 추적하고, 리더보드 접근 방식을 설명하고, 다른 참가자들이 대회 흐름을 따라갈 수 있도록 도왔습니다. 또한 경험이 적은 참가자들이 자신의 제출물이 규칙 범위 안에 있는지 확인하고 흔히 발생하는 잘못된 접근 방식을 피할 수 있도록 돕는 커뮤니티 검토 툴도 등장했습니다.

다음 단계

OpenAI의 가장 중요한 목표는 참가 자격을 갖춘 참가자⁠(새 창에서 열기)들이 직접 참여해 머신 러닝 연구를 경험할 수 있는 챌린지를 만드는 것이었습니다. Parameter Golf는 기술적으로 뛰어나고 창의적인 다양한 제출을 끌어모았고, AI 에이전트가 더 유능해지고 널리 사용됨에 따라 개방형 연구 대회가 어떻게 바뀔 수 있는지 더 분명히 보여주었습니다.

OpenAI는 앞으로도 이와 유사한 챌린지를 추가로 진행하는 방안을 검토하고 있습니다. 관심이 있으시다면 챌린지 참가자 양식⁠(새 창에서 열기)을 작성해 주시기 바랍니다.