12 Μαΐου 2026

Τι μας δίδαξε το Parameter Golf

Μαθήματα από 1.000+ συμμετέχοντες, 2.000+ υποβολές και μια ανοιχτή πρόκληση μηχανικής μάθησης που διαμορφώθηκε από πράκτορες προγραμματισμού.

Φόρτωση…

Ξεκινήσαμε το Parameter Golf για να ενεργοποιήσουμε και να υποστηρίξουμε την ερευνητική κοινότητα της μηχανικής μάθησης στην εξερεύνηση ενός νέου, αυστηρά περιορισμένου προβλήματος μηχανικής μάθησης. Θέλαμε η πρόκληση να είναι αρκετά ενδιαφέρουσα, ώστε να ανταμείβει την πραγματική τεχνική δημιουργικότητα, ενώ παράλληλα να παραμένει εννοιολογικά απλή και εύκολη στην επαλήθευση.

Οι συμμετέχοντες έπρεπε να ελαχιστοποιήσουν το held-out loss σε ένα σταθερό σύνολο δεδομένων FineWeb, παραμένοντας εντός ορίου artifact 16 MB, το οποίο περιελάμβανε τόσο τα βάρη του μοντέλου όσο και τον κώδικα εκπαίδευσης, και εντός προϋπολογισμού εκπαίδευσης 10 λεπτών σε 8×H100. Παρείχαμε μια baseline, το σύνολο δεδομένων και script αξιολόγησης, ώστε οι συμμετέχοντες να μπορούν να κάνουν fork το αποθετήριο, να βελτιώσουν το μοντέλο και να υποβάλουν τα αποτελέσματά τους μέσω GitHub.

Κατά τη διάρκεια οκτώ εβδομάδων, λάβαμε περισσότερες από 2.000 υποβολές από πάνω από 1.000 συμμετέχοντες. Μας εντυπωσίασαν το τεχνικό εύρος, η δημιουργικότητα και η τάση υπέρβασης των ορίων των κανόνων στις υποβολές, από προσεκτική ρύθμιση optimizer και εργασία κβαντοποίησης έως νέες ιδέες μοντελοποίησης και εκπαίδευση κατά τον χρόνο δοκιμής.

Ένα από τα πιο συναρπαστικά μέρη της πρόκλησης ήταν να δούμε πόσο ευρέως οι συμμετέχοντες χρησιμοποίησαν πράκτορες TN για προγραμματισμό. Οι πράκτορες βοήθησαν να μειωθεί το κόστος του πειραματισμού, έκαναν ευκολότερη τη συμμετοχή περισσότερων ανθρώπων και άλλαξαν τον ρυθμό του διαγωνισμού. Δημιούργησαν επίσης νέες προκλήσεις για τον έλεγχο των υποβολών, την απόδοση και τη βαθμολόγηση.

Η πρόκληση έγινε επίσης για εμάς μια ουσιαστική πηγή ανακάλυψης ταλέντων. Αυτός ήταν ένας από τους στόχους μας για το Parameter Golf και αποτέλεσε χρήσιμη ένδειξη το ότι οι ανοιχτού τύπου τεχνικές προκλήσεις μπορούν να αναδείξουν εξαιρετικό αισθητήριο μηχανικής μάθησης και επιμονής.

Σε αυτήν την ανάρτηση, επισημαίνουμε ορισμένες από τις υποβολές που μας φάνηκαν απρόσμενες και ενδιαφέρουσες και μοιραζόμαστε όσα μάθαμε από τη διοργάνωση ενός διαγωνισμού προγραμματισμού στην εποχή των ισχυρών πρακτόρων ΤΝ.

Τεχνικές εντυπώσεις

Κατηγορία ρεκόρ

Κρίναμε και αναπαράγαμε ανεξάρτητα κάθε υποβολή στον πίνακα κατάταξης της κατηγορίας ρεκόρ και επαληθεύσαμε ότι κάθε υποβολή κατέρριπτε ρεκόρ τη στιγμή που υποβλήθηκε. Αρκετά μοτίβα ξεχώρισαν.

Βελτιστοποίηση εκπαίδευσης

Μερικά από τα ισχυρότερα αποτελέσματα προήλθαν από προσεκτική ρύθμιση υπαρχόντων στοιχείων.

Υποβολή	Συνεισφέρων	Τεχνική	Γιατί ήταν σημαντικό
#60	@notapplica	«Συνδύασε προηγούμενες επιτυχίες από τα #50	#42	και πιθανότατα το #39 και	στη συνέχεια	έκανε να λειτουργήσει ένα βαθύτερο μοντέλο με Muon weight decay	spectral embedding initialization	residual-mix scheduling και compiled evaluation.»	«Ένα ισχυρό παράδειγμα πειθαρχημένης δουλειάς στον πίνακα κατάταξης: εντοπισμός των υπαρχουσών βελτιώσεων που έχουν σημασία και καθαρός συνδυασμός τους.»

Κβαντοποίηση

Αρκετές υποβολές πίεσαν έντονα τη συμπίεση και την εξαγωγή.

Υποβολή	Συνεισφέρων	Τεχνική	Γιατί ήταν σημαντικό
#414	@signalrush	«Χρησιμοποίησε GPTQ-lite για να κβαντοποιήσει τα βάρη μετά την εκπαίδευση.»	«Η πρώτη υποβολή στον πίνακα κατάταξης που χρησιμοποίησε με επιτυχία GPTQ-lite	οδηγώντας σε καλύτερη αξιολόγηση.»
#1060	@dexhunter	Built on #634 του @raahilshah για να χρησιμοποιήσει επιτυχώς πλήρες Hessian GPTQ.»,«Επέκτεινε την προηγούμενη εργασία κβαντοποίησης σε μια ισχυρότερη διαδρομή συμπίεσης.»

Στρατηγικές κατά τον χρόνο δοκιμής και αξιολόγησης

Ορισμένες υποβολές μετακίνησαν το όριο ανάμεσα στη βελτίωση του μοντέλου και τη στρατηγική αξιολόγησης. Αυτές οι προσεγγίσεις ήταν έγκυρες σύμφωνα με τους κανόνες, αλλά απαιτούσαν προσεκτικό έλεγχο από εμάς ως διοργανωτές.

Υποβολή	Συνεισφέρων	Τεχνική	Γιατί ήταν σημαντικό
#77	@samacqua	«Χρησιμοποίησε score-first εκπαίδευση LoRA κατά τον χρόνο δοκιμής ανά έγγραφο: πρώτα βαθμολόγηση	προσαρμογή μόνο σε ήδη βαθμολογημένα τμήματα και επαναφορά στα όρια των εγγράφων.»	«Μετέφερε το όριο ανάμεσα στη βελτίωση του μοντέλου και τη στρατηγική αξιολόγησης	παραμένοντας παράλληλα ελέγξιμη σύμφωνα με τους κανόνες.»
#1019	@abaybektursun	«Χρησιμοποίησε αυτοπαραγόμενη βαθμονόμηση GPTQ: δημιουργία κειμένου βαθμονόμησης από το εκπαιδευμένο μοντέλο και	στη συνέχεια	κατασκευή Hessian GPTQ από αυτές τις ενεργοποιήσεις.»	«Μια δημιουργική στρατηγική βαθμονόμησης που απαιτούσε προσεκτικό έλεγχο από τους διοργανωτές.»

Νέες ιδέες μοντελοποίησης και δεδομένων

Μερικές υποβολές εισήγαγαν ιδέες μοντελοποίησης ή δεδομένων που ήταν ιδιαίτερα δημιουργικές.

Υποβολή	Συνεισφέρων	Τεχνική	Γιατί ήταν σημαντικό
#1729	@romeerp	«Εισήγαγε τον tokenizer CaseOps: lossless token τελεστών κεφαλαιοποίησης με sidecar λογιστική BPB αρχικών byte.»	«Μια δημιουργική ιδέα tokenizer και αναπαράστασης δεδομένων.»
#265	@unnir	«Εισήγαγε το XSA	μια αποδοτική προσέγγιση μερικού Exclusive Self Attention με ομαδοποιημένες προβολές συμβατές με GQA.»	«Έφερε μια αποδοτική παραλλαγή attention στην πρόκληση.»
#65	@aquariouseworkman	«Εισήγαγε τα SmearGate και BigramHash: έναν μαθημένο συνδυασμό embedding προηγούμενου token συν χαρακτηριστικά hash ζευγών γειτονικών token.»	«Πρόσθεσε νέους μηχανισμούς χαρακτηριστικών από το μηδέν.»
#1204	@msisovic	«Εισήγαγε mini depth recurrence: επαναλαμβανόμενα επίπεδα 4 και 5	καθυστερημένη recurrence μέχρι τα μέσα της εκπαίδευσης και μερικώς αποδεσμευμένα επαναλαμβανόμενα MLPs.»	«Η πρώτη αποδεκτή γραμμή του πίνακα κατάταξης που έκανε τα recurrent layers να λειτουργήσουν αποτελεσματικά.»

Επιλέξαμε να αναδείξουμε αυτές τις εννέα υποβολές επειδή αντιπροσωπεύουν το εύρος των αποτελεσμάτων που ελπίζαμε ότι θα αναδείκνυε η πρόκληση. Ορισμένοι συμμετέχοντες βρήκαν επιτυχίες μέσω προσεκτικής ρύθμισης. Άλλοι προώθησαν την κβαντοποίηση και τις low-rank τεχνικές. Κάποιοι εξερεύνησαν τα όρια των κανόνων αξιολόγησης. Και αρκετοί εισήγαγαν ιδέες μοντελοποίησης ή δεδομένων, από τη βιβλιογραφία ή από το μηδέν, που παρήγαγαν απρόσμενα κέρδη.

Κατηγορία χωρίς ρεκόρ

Η κατηγορία χωρίς ρεκόρ φιλοξένησε πολλές δημιουργικές υποβολές. Αναδείξαμε 15 αγαπημένες, συμπεριλαμβανομένων προσεγγίσεων που κυμαίνονταν από τη μη αυτοπαλινδρομική μοντελοποίηση κειμένου έως τη δυναμική μετατροπή σε token.

Επειδή αυτή η κατηγορία ήταν πιο πειραματική, εστιάσαμε λιγότερο στην ακατέργαστη απόδοση και περισσότερο στο αν η προσέγγιση ήταν τεχνικά ενδιαφέρουσα. Τρεις υποβολές ξεχώρισαν ιδιαίτερα:

Αυτές ήταν οι τρεις αγαπημένες μας υποβολές χωρίς ρεκόρ, παρόλο που δεν ήταν απαραίτητα οι τρεις κορυφαίες σε απόδοση.

Παρόλα αυτά, η κατηγορία χωρίς ρεκόρ παρέμεινε ανταγωνιστική. Οι μισές εγγραφές του πίνακα κατάταξης χωρίς ρεκόρ ξεπέρασαν την απλή baseline των 1,22 BPB και η κορυφαία εγγραφή έφτασε τα 1,12 BPB.

Αυτό μας φάνηκε ενθαρρυντικό. Ακόμη και απέναντι σε ισχυρές baseline μετασχηματιστή, εναλλακτικές προσεγγίσεις μπορούσαν μερικές φορές να σταθούν απέναντι στην κυρίαρχη αρχιτεκτονική.

Πιστεύουμε επίσης ότι αυτή η κατηγορία ωφελείται ιδιαίτερα από τη διαθεσιμότητα ισχυρών πρακτόρων προγραμματισμού. Οι πράκτορες έκαναν πολύ φθηνότερη τη δημιουργία πρωτοτύπων για υποθετικές ιδέες, συμπεριλαμβανομένων προσεγγίσεων που παλαιότερα ίσως φαίνονταν υπερβολικά χρονοβόρες ή αβέβαιες για να δοκιμαστούν σε έναν σύντομο διαγωνισμό.

Συμπεράσματα

Μια σημαντική διαφορά μεταξύ του Parameter Golf και παρόμοιων προηγούμενων διαγωνισμών ήταν η ευρεία χρήση πρακτόρων προγραμματισμού. Η συντριπτική πλειονότητα των υποβαλλόντων ανέφερε ότι χρησιμοποίησε πράκτορες ως μέρος της δουλειάς της.

Αυτό μείωσε το εμπόδιο εισόδου. Οι συμμετέχοντες μπορούσαν να στήνουν πειράματα ταχύτερα, να εξετάζουν μη οικείο κώδικα και να δοκιμάζουν ιδέες με λιγότερα εμπόδια. Η χορηγία της Runpod, ύψους 1.000.000 δολαρίων, σε υπολογιστικά προγράμματα έπαιξε επίσης σημαντικό ρόλο στο να καταστεί η πρόκληση προσβάσιμη σε περισσότερους ανθρώπους.

Ταυτόχρονα, η χρήση πρακτόρων δημιούργησε νέα ζητήματα για την υποβολή και τη βαθμολόγηση. Πολλές υποβολές ήταν μικρές αλλαγές σε υπάρχοντες κορυφαίους βαθμολογητές, αντί για θεμελιωδώς νέες προσεγγίσεις. Αυτό ήταν συχνά χρήσιμο: οι ισχυρές ιδέες διαδίδονταν γρήγορα και βελτιώνονταν από άλλους. Αλλά δημιούργησε και θόρυβο. Όταν υποβολές που βρίσκονταν εκτός των οδηγιών του διαγωνισμού παρήγαγαν ασυνήθιστα ισχυρές βαθμολογίες, άλλοι πράκτορες μερικές φορές αντέγραφαν αυτές τις ιδέες και συνέχιζαν στην ίδια μη έγκυρη κατεύθυνση.

Ο όγκος των υποβολών άλλαξε επίσης τον τρόπο με τον οποίο έπρεπε να διεξάγουμε τον διαγωνισμό. Δεν μπορούσαμε να επιθεωρούμε χειροκίνητα κάθε υποβολή και ταυτόχρονα να διατηρούμε τον πίνακα κατάταξης σε κίνηση. Κατά τη διάρκεια της πρόκλησης, αναπτύξαμε ένα εσωτερικό bot διαλογής βασισμένο στο Codex για να παρακολουθεί νέες υποβολές και να τις επισημαίνει για ανθρώπινο έλεγχο. Αυτό έγινε ιδιαίτερα σημαντικό σε περιόδους κατά τις οποίες λαμβάναμε εκατοντάδες υποβολές την ημέρα.

Οι πράκτορες ΤΝ έγιναν επίσης μέρος της κοινότητας γύρω από την πρόκληση. Για μεγάλο μέρος του διαγωνισμού, ο @notapplica και ο πράκτορας προγραμματισμού του διατηρούσαν ένα δελτίο «Ζωντανές ενημερώσεις», παρακολουθώντας σημαντικά γεγονότα, εξηγώντας τις προσεγγίσεις του πίνακα κατάταξης και βοηθώντας άλλους συμμετέχοντες να παρακολουθούν τον διαγωνισμό. Εμφανίστηκαν επίσης εργαλεία κοινοτικού ελέγχου για να βοηθούν λιγότερο έμπειρους συμμετέχοντες να ελέγχουν αν οι υποβολές τους ήταν εντός των κανόνων και να αποφεύγουν συνήθεις μη έγκυρες προσεγγίσεις.

Τι ακολουθεί;

Ο βασικός μας στόχος ήταν να ξεκινήσουμε μια πρόκληση στην οποία οι επιλέξιμοι συμμετέχοντες⁠(ανοίγει σε νέο παράθυρο) θα μπορούσαν να λάβουν μέρος και να αποκτήσουν εμπειρία στην έρευνα μηχανικής μάθησης. Το Parameter Golf προσέλκυσε ένα ευρύ φάσμα τεχνικά ισχυρών και δημιουργικών υποβολών και μας έδωσε σαφέστερη εικόνα για το πώς μπορεί να αλλάξουν οι ανοιχτοί ερευνητικοί διαγωνισμοί καθώς οι πράκτορες TN γίνονται πιο ικανοί και χρησιμοποιούνται ευρύτερα.

Σκεφτόμαστε να διοργανώσουμε περισσότερες τέτοιου είδους προκλήσεις στο μέλλον. Αν ενδιαφέρεστε, συμπληρώστε τη φόρμα συμμετοχής στην πρόκληση⁠(ανοίγει σε νέο παράθυρο).

2026

Συντάκτης

OpenAI

Συνεχίστε να διαβάζετε

Εμφάνιση όλων

Διαχωρισμός σήματος από θόρυβο στις αξιολογήσεις προγραμματισμού

Έρευνα8 Ιουλ 2026

Ανακαλύψτε το GeneBench-Pro

Έρευνα30 Ιουν 2026

A near-autonomous AI chemist improves a challenging reaction

Ένας σχεδόν αυτόνομος χημικός TN βελτιώνει μια απαιτητική αντίδραση στη φαρμακευτική χημεία

Έρευνα17 Ιουν 2026