Bỏ qua nội dung chính
OpenAI

12 tháng 5, 2026

Nghiên cứu

Parameter Golf đã dạy chúng tôi điều gì

Những bài học từ hơn 1.000 người tham gia, hơn 2.000 bài gửi và một thử thách học máy chưa giải quyết được định hình bởi các tác nhân lập trình.

Đang tải…

Chúng tôi ra mắt Parameter Golf để thu hút và hỗ trợ cộng đồng nghiên cứu học máy khám phá một bài toán học máy mới với các ràng buộc chặt chẽ. Chúng tôi muốn thử thách đủ thú vị để tưởng thưởng cho sự sáng tạo kỹ thuật thực sự, đồng thời vẫn đơn giản về mặt khái niệm và dễ xác minh.

Người tham gia phải giảm thiểu tổn thất bị giữ trên một bộ dữ liệu FineWeb cố định trong khi vẫn nằm trong giới hạn artifact 16 MB, bao gồm cả trọng số mô hình và mã huấn luyện, cùng ngân sách huấn luyện 10 phút trên 8×H100. Chúng tôi cung cấp baseline, bộ dữ liệu và các đoạn mã đánh giá để người tham gia có thể tạo nhánh repo, cải thiện mô hình và gửi kết quả qua GitHub.

Trong tám tuần, chúng tôi nhận được hơn 2.000 bài gửi từ hơn 1.000 người tham gia. Chúng tôi ấn tượng với độ rộng kỹ thuật, sự sáng tạo và cả việc lách luật trong các bài gửi, từ tinh chỉnh trình tối ưu hóa và lượng tử hóa cẩn thận đến các ý tưởng mô hình hóa mới và huấn luyện ở thời điểm suy luận.

Một trong những phần thú vị nhất của thử thách là chứng kiến mức độ rộng rãi mà người tham gia sử dụng các tác nhân lập trình AI. Các tác nhân giúp giảm chi phí thử nghiệm, khiến nhiều người dễ tham gia hơn và thay đổi nhịp độ cuộc thi. Chúng cũng tạo ra những thách thức mới cho việc rà soát bài gửi, ghi nhận đóng góp và chấm điểm.

Thử thách cũng trở thành một kênh khám phá nhân tài có ý nghĩa đối với chúng tôi. Đó là một trong những mục tiêu của chúng tôi với Parameter Golf, và là tín hiệu hữu ích cho thấy các thử thách kỹ thuật mở có thể bộc lộ gu học máy xuất sắc và sự bền bỉ.

Trong bài viết này, chúng tôi nêu bật một số bài gửi mà chúng tôi thấy bất ngờ và thú vị, đồng thời chia sẻ những gì đã học được khi tổ chức một cuộc thi lập trình trong thời đại của các tác nhân AI mạnh mẽ.

Ấn tượng về kỹ thuật

Nhánh kỷ lục

Chúng tôi đã chấm và tái tạo độc lập từng bài gửi trên bảng xếp hạng nhánh kỷ lục, đồng thời xác minh rằng mỗi bài gửi đều phá kỷ lục tại thời điểm được gửi. Một số chủ đề nổi bật đã xuất hiện.

Tối ưu hóa huấn luyện

Một số kết quả tốt nhất đến từ việc tinh chỉnh cẩn thận các thành phần hiện có.

Bài gửiNgười đóng gópKỹ thuậtVì sao điều này quan trọng
#60@notapplicaĐã kết hợp các chiến thắng trước đó từ #50, #42, và có khả năng là #39, sau đó đã giúp một mô hình sâu hơn hoạt động được với suy giảm trọng số Muon, khởi tạo embedding phổ, lập lịch residual-mix và đánh giá đã biên dịch.A ví dụ điển hình về cách làm việc có kỷ luật với bảng xếp hạng: xác định những cải tiến hiện có nào là quan trọng và kết hợp chúng một cách gọn gàng.

Lượng tử hóa

Một số bài gửi đã đẩy mạnh giải pháp nén và xuất mô hình.

Bài gửiNgười đóng gópKỹ thuậtVì sao điều này quan trọng
#414@signalrushĐã sử dụng GPTQ-lite để lượng tử hóa trọng số sau khi huấn luyện. bài nộp lên bảng xếp hạng đầu tiên sử dụng thành công GPTQ-lite, dẫn đến quá trình đánh giá tốt hơn.
#1060@dexhunterPhát triển từ #634 của @raahilshah để dùng thành công hoàn toàn Hessian GPTQ.Mở rộng công trình lượng tử hóa trước đó thành lộ trình nén mạnh hơn.

Chiến lược thời gian kiểm tra và đánh giá

Một số bài gửi đã vượt ra khỏi ranh giới giữa cải thiện mô hình và chiến lược đánh giá. Những cách tiếp cận này hợp lệ theo luật, nhưng đòi hỏi chúng tôi với vai trò ban tổ chức phải rà soát cẩn thận.

Bài nộpNgười đóng gópKỹ thuậtTại sao điều này quan trọng
#77@samacquaĐã sử dụng Huấn luyện LoRA tại thời điểm kiểm thử theo từng tài liệu, theo hướng chấm điểm trước: chấm điểm trước, chỉ thích ứng trên các đoạn đã được chấm điểm, và đặt lại tại ranh giới tài liệu. Đã mở rộng ranh giới giữa cải thiện mô hình và chiến lược đánh giá, trong khi vẫn có thể được rà soát theo các quy định.
a href=""https://github.com/openai/parameter-golf/pull/1019""]#1019[/a]"@abaybektursunĐã sử dụng hiệu chuẩn GPTQ tự tạo: tạo văn bản hiệu chuẩn từ mô hình đã huấn luyện, sau đó xây dựng các ma trận Hessian GPTQ từ các kích hoạt đó.A chiến lược hiệu chuẩn sáng tạo đòi hỏi ban tổ chức phải xem xét cẩn thận.

Ý tưởng mới về mô hình và dữ liệu

Một vài bài gửi đưa ra các ý tưởng về mô hình hoặc dữ liệu đặc biệt sáng tạo.

Bài gửiNgười đóng gópKỹ thuậtVì sao điều này quan trọng
#1729@romeerpĐã giới thiệu bộ tách token CaseOps: các token trình vận hành về chữ hoa/thường không mất dữ liệu, với cơ chế ghi nhận sidecar BPB theo byte gốc.A ý tưởng sáng tạo về bộ tách token và biểu diễn dữ liệu.
#265@unnirĐã giới thiệu XSA, một phương pháp Tự chú ý độc quyền một phần hiệu quả với các khung nhìn được nhóm có nhận biết GQA.Được mang một biến thể cơ chế chú ý hiệu quả vào thử thách.
#65@aquariouseworkmanĐã giới thiệu SmearGate và BigramHash: một kết hợp embedding của token trước đó đã được học cùng với các đặc trưng băm của cặp token liền kề.Đã thêm các cơ chế tính năng mới từ đầu.
#1204@msisovicĐã giới thiệu hồi quy độ sâu mini: lặp lại các lớp 4 và 5, trì hoãn hồi quy cho đến giữa quá trình huấn luyện, và gỡ ràng buộc một phần các MLP được lặp lại.Hàng đầu tiên được chấp nhận trên bảng xếp hạng giúp các lớp hồi quy hoạt động hiệu quả.

Chúng tôi chọn nêu bật chín bài gửi này vì chúng đại diện cho phạm vi kết quả mà chúng tôi hy vọng sẽ lộ diện bởi thử thách. Một số người tham gia tìm được lợi thế nhờ tinh chỉnh cẩn thận. Những người khác đẩy mạnh lượng tử hóa và các kỹ thuật hạng thấp. Một số khám phá các rìa của luật đánh giá. Và một số khác đưa ra các ý tưởng về mô hình hoặc dữ liệu, từ tài liệu nghiên cứu hoặc tự phát triển, tạo ra những cải thiện bất ngờ.

Nhánh không kỷ lục

Nhánh không kỷ lục là nơi có nhiều bài gửi sáng tạo. Chúng tôi đã nêu bật 15 mục yêu thích, bao gồm các cách tiếp cận từ mô hình hóa văn bản không tự hồi quy đến phân tách token linh động.

Vì nhánh này mang tính thử nghiệm hơn, chúng tôi ít tập trung vào hiệu năng thô, và quan tâm nhiều hơn đến việc cách tiếp cận đó có thú vị về mặt kỹ thuật hay không. Sau đây là ba bài gửi đặc biệt nổi bật:

Đây là ba bài gửi không theo nhánh kỷ lục chúng tôi yêu thích nhất, dù không nhất thiết là ba bài đứng đầu về hiệu năng.

Dù vậy, nhánh không kỷ lục vẫn rất cạnh tranh. Một nửa số mục trên bảng xếp hạng không kỷ lục vượt baseline ngây thơ 1,22 BPB, và mục xếp hạng cao nhất đạt 1,12 BPB.

Chúng tôi thấy điều này rất đáng khích lệ. Ngay cả trước các đường cơ sở của kiến trúc mô hình ngôn ngữ mạnh, những cách tiếp cận thay thế đôi khi vẫn có thể đứng vững trước kiểu kiến trúc đang thống trị.

Chúng tôi cũng cho rằng nhánh này đặc biệt hưởng lợi từ sự sẵn có của các tác nhân lập trình mạnh. Các tác nhân khiến việc tạo nguyên mẫu cho các ý tưởng mang tính suy đoán rẻ hơn nhiều, bao gồm cả những cách tiếp cận trước đây có thể bị xem là quá tốn thời gian hoặc quá không ổn định để thử trong một cuộc thi ngắn.

Bài học rút ra

Một khác biệt lớn giữa Parameter Golf và các cuộc thi tương tự trước đó là việc sử dụng rộng rãi các tác nhân lập trình. Đại đa số người gửi bài đều nhắc đến việc dùng tác nhân trong công trình của họ.

Điều đó đã làm giảm rào cản gia nhập. Người tham gia có thể thiết lập thử nghiệm nhanh hơn, xem xét mã chưa quen thuộc và thử nghiệm các ý tưởng với ít trở ngại hơn. Khoản tài trợ 1.000.000 USD tài nguyên điện toán của Runpod cũng đóng vai trò quan trọng trong việc giúp thử thách dễ tiếp cận hơn với nhiều người hơn.

Đồng thời, việc dùng tác nhân tạo ra các vấn đề mới cho việc gửi bài và chấm điểm. Nhiều bài gửi chỉ là những thay đổi nhỏ đối với các bài đang dẫn đầu, thay vì các cách tiếp cận mới về cơ bản. Điều này thường đem lại lợi ích: các ý tưởng mạnh lan truyền nhanh và được người khác tinh chỉnh. Nhưng nó cũng gây nhiễu. Khi các bài gửi không tuân theo quy định cuộc thi mà tạo ra điểm số mạnh bất thường, các tác nhân khác đôi khi sao chép những ý tưởng đó và tiếp tục đi theo cùng một hướng không hợp lệ.

Khối lượng bài gửi cũng làm thay đổi cách chúng tôi phải vận hành cuộc thi. Chúng tôi không thể vừa kiểm tra thủ công mọi bài gửi lại vừa liên tục cập nhật bảng xếp hạng. Trong thời gian diễn ra thử thách, chúng tôi đã phát triển một bot phân loại nội bộ dựa trên Codex để theo dõi các bài gửi mới và gắn cờ chúng để con người rà soát. Điều này trở nên đặc biệt quan trọng trong những giai đoạn chúng tôi nhận hàng trăm bài gửi mỗi ngày.

Các tác nhân AI cũng trở thành một phần của cộng đồng tham gia thử thách. Trong phần lớn thời gian cuộc thi, @notapplica và tác nhân lập trình của họ đã vận hành một bản tin “Cập nhật trực tiếp”, theo dõi các sự kiện lớn, giải thích các cách tiếp cận trên bảng xếp hạng và giúp những người tham gia khác theo dõi cuộc thi. Các công cụ rà soát cộng đồng cũng xuất hiện để giúp những người tham gia ít kinh nghiệm hơn kiểm tra xem bài gửi của họ có tuân theo luật hay không và tránh các cách tiếp cận nhưng không hợp lệ thường gặp.

Tiếp theo là gì?

Mục tiêu chính của chúng tôi là phát động một thử thách mà những người tham gia đủ điều kiện(mở trong cửa sổ mới) có thể tham gia và trải nghiệm nghiên cứu về học máy. Parameter Golf đã thu hút nhiều bài gửi mạnh về kỹ thuật và sáng tạo, đồng thời cho chúng tôi cái nhìn rõ hơn về cách các cuộc thi nghiên cứu mở có thể thay đổi khi các tác nhân AI có năng lực hơn và được sử dụng rộng rãi hơn.

Chúng tôi đang cân nhắc tổ chức thêm nhiều thử thách như thế này trong tương lai. Nếu bạn quan tâm, vui lòng điền vào mẫu đơn dành cho người tham gia thử thách(mở trong cửa sổ mới).

Tác giả

OpenAI