ข้ามไปยังเนื้อหาหลัก
OpenAI

12 พฤษภาคม 2569

งานวิจัย

บทเรียนที่เราได้รับจาก Parameter Golf

บทเรียนที่กลั่นกรองจากผู้เข้าร่วมกว่า 1,000 คน รายการผลงานกว่า 2,000 รายการ และความสำเร็จของความท้าทายด้าน Machine Learning แบบสาธารณะที่ขับเคลื่อนด้วยการใช้เอเจนต์ด้านการเขียนโค้ด

กำลังโหลด…

เราเริ่มต้นโครงการ Parameter Golf เพื่อสนับสนุนให้นักวิจัยด้าน Machine Learning ได้ลองแก้โจทย์ที่มีข้อจำกัดเฉพาะตัวรูปแบบใหม่ โดยเราออกแบบการแข่งขันนี้ให้ท้าทายความสามารถทางเทคนิคอย่างเต็มที่ แต่ยังคงไว้ซึ่งหลักการที่เข้าใจง่ายและกระบวนการตรวจสอบที่ตรงไปตรงมา

ผู้เข้าร่วมต้องลดค่า Held-out Loss บนชุดข้อมูล FineWeb ที่กำหนดให้เหลือน้อยที่สุด ภายใต้ข้อจำกัดของขนาดไฟล์รวมไม่เกิน 16 MB ซึ่งนับรวมทั้งน้ำหนักโมเดลและโค้ดสำหรับการเทรน นอกจากนี้ยังมีเวลาจำกัดเพียง 10 นาทีบนระบบ 8×H100 โดยเราได้เตรียมโมเดลพื้นฐาน ชุดข้อมูล และสคริปต์ประเมินผลไว้ให้ เพื่อให้ผู้เข้าร่วมสามารถ Fork เรโปไปพัฒนาต่อ และส่งผลงานผ่าน GitHub ได้ทันที

ตลอดระยะเวลา 8 สัปดาห์ เราได้รับผลงานกว่า 2,000 รายการจากผู้เข้าร่วมมากกว่า 1,000 คน เราประทับใจในความหลากหลายทางเทคนิคและความกล้าที่จะลองอะไรใหม่ๆ ตั้งแต่การปรับจูน Optimizer อย่างละเอียดและการทำ Quantization ไปจนถึงการนำเสนอโครงสร้างโมเดลแบบใหม่และเทคนิคการเทรนขณะทดสอบ (Test-time Training) ที่น่าสนใจ

สิ่งที่น่าประทับใจมากที่สุดอย่างหนึ่งของการแข่งขันครั้งนี้ คือการได้เห็นผู้เข้าร่วมนำเอเจนต์เขียนโค้ด AI มาใช้งานอย่างแพร่หลาย เอเจนต์เหล่านี้ช่วยลดต้นทุนในการทดลอง ทำให้ผู้คนเข้ามามีส่วนร่วมได้ง่ายขึ้น และเร่งสปีดการแข่งขันให้ดุเดือดกว่าเดิม ในขณะเดียวกันเครื่องมือเหล่านี้ก็สร้างความท้าทายใหม่ๆ ในการตรวจสอบผลงาน การระบุที่มา และการให้คะแนนด้วยเช่นกัน

การแข่งขันนี้ยังกลายเป็นเวทีสำคัญในการค้นหาคนเก่งๆ ซึ่งเป็นหนึ่งในเป้าหมายหลักของ Parameter Golf นอกจากนี้ยังพิสูจน์ให้เห็นว่า โจทย์ทางเทคนิคที่ให้อิสระในการแก้ปัญหาสามารถสะท้อนถึงวิสัยทัศน์ที่แหลมคมและความมานะอุตสาหะของผู้เข้าแข่งขันได้อย่างดี

ในโพสต์นี้เราจะพาไปดูผลงานบางส่วนที่น่าประทับใจและมีความโดดเด่น พร้อมทั้งแบ่งปันบทเรียนที่ได้รับจากการจัดการแข่งขันเขียนโค้ด ท่ามกลางยุคสมัยที่เอเจนต์ AI เข้ามามีบทบาทสำคัญ

ภาพรวมทางเทคนิค

ผลงานที่ทำลายสถิติ

เราตรวจสอบและลงมือทดสอบซ้ำด้วยตัวเองสำหรับทุกรายการผลงานบนตารางจัดอันดับผลงานที่ทำลายสถิติ พร้อมทั้งยืนยันว่าแต่ละผลงานสามารถทำลายสถิติได้จริงในขณะที่ส่งเข้ามา ซึ่งเราพบประเด็นสำคัญที่น่าสนใจหลายประการ

การเพิ่มประสิทธิภาพการเทรน

ผลงานที่โดดเด่นที่สุดบางส่วนมาจากการปรับแต่งองค์ประกอบที่มีอยู่เดิมอย่างละเอียดและรอบคอบ

ผลงานที่ส่งผู้มีส่วนร่วมเทคนิคเหตุใดจึงสำคัญ
#60@notapplicaผสม ผสานเทคนิคที่ชนะจากผลงาน #50, #42, และน่าจะรวมถึง #39, จากนั้นปรับจูนโมเดลที่ลึกขึ้นให้ทำงานได้ด้วย Muon Weight Decay, การตั้งค่าเริ่มต้นแบบ Spectral Embedding, การจัดตารางแบบ Residual-mix และการประเมินผลแบบคอมไพล์ตัวอย่างที่ชัดเจนของการทำงานกับลีดเดอร์บอร์ดอย่างเป็นระบบ: การระบุว่าการปรับปรุงที่มีอยู่เดิมรายการใดมีความสำคัญ และนำมาผสานกันอย่างลงตัว

Quantization

ผลงานงานหลายรายเน้นไปที่การบีบอัดและการส่งออกไฟล์เพื่อทำลายสถิติ

ผลงานที่ส่งผู้มีส่วนร่วมเทคนิคเหตุใดจึงสำคัญ
#414@signalrushใช้ GPTQ-lite เพื่อควอนไทซ์น้ำหนักหลังการฝึก การส่งผลงานขึ้นตารางอันดับครั้งแรกที่ใช้ GPTQ-lite ได้สำเร็จ ซึ่งนำไปสู่การประเมินที่ดีขึ้น
#1060@dexhunterต่อยอดจาก #634 ของ @raahilshah เพื่อใช้ full Hessian GPTQ ได้สำเร็จขยายงานด้านการควอนไทซ์ก่อนหน้านี้ให้เป็นแนวทางการบีบอัดที่มีประสิทธิภาพยิ่งขึ้น

กลยุทธ์ช่วงทดสอบและการประเมินผล

ผลงานบางรายการได้พยายามข้ามเส้นแบ่งระหว่างการพัฒนาโมเดลกับกลยุทธ์การประเมินผล ซึ่งแม้จะทำได้ภายใต้กฎกติกา แต่ในฐานะผู้จัดการแข่งขัน เราจำเป็นต้องดำเนินการตรวจสอบอย่างละเอียดถี่ถ้วนเป็นพิเศษ

ผลงานที่ส่งผู้มีส่วนร่วมเทคนิคเหตุใดจึงสำคัญ
#77@samacquaใช้ ใช้การเทรนในขั้นตอนทดสอบระบบแบบกำหนดคะแนนก่อนและแยกรายเอกสารด้วย LoRA: ให้คะแนนก่อน ปรับเปลี่ยนระบบเฉพาะบนชิ้นส่วนข้อมูลที่ให้คะแนนแล้วเท่านั้น และรีเซ็ตระบบใหม่เมื่อสิ้นสุดขอบเขตของแต่ละเอกสารนี่คือการทลายกรอบและยกระดับเส้นแบ่งระหว่างการปรับปรุงโมเดลกับกลยุทธ์การประเมินผล โดยที่ยังคงอยู่ภายใต้เกณฑ์การตรวจสอบที่กำหนดไว้
#1019@abaybektursunใช้ระบบ สร้างข้อความสำหรับปรับเทียบจากโมเดลที่ผ่านการเทรนแล้ว จากนั้นจึงสร้างเมทริกซ์ GPTQ Hessian จากค่าการกระตุ้นเหล่านั้นกลยุทธ์การปรับเทียบที่เปี่ยมด้วยความคิดสร้างสรรค์ ซึ่งจำเป็นต้องผ่านการตรวจสอบอย่างละเอียดจากทีมผู้จัดงาน

แนวคิดใหม่ด้านการสร้างโมเดลและข้อมูล

มีผลงานบางรายการที่นำเสนอแนวคิดด้านโมเดลหรือข้อมูลได้อย่างสร้างสรรค์

ผลงานที่ส่งผู้มีส่วนร่วมเทคนิคเหตุใดจึงสำคัญ
#1729@romeerpปิดตัว Tokenizer แบบ CaseOps: โทเค็นตัวดำเนินการแปลงอักษรพิมพ์ใหญ่-พิมพ์เล็กแบบไม่สูญเสียข้อมูล พร้อมระบบคำนวณ Sidecar Accounting แบบ BPB ด้วยไบต์ดั้งเดิม" "แนวคิดการสร้าง Tokenizer และการนำเสนอข้อมูลที่เปี่ยมด้วยความคิดสร้างสรรค์"
#265@unnirเปิด ตัว XSA ซึ่งเป็นแนวทางการทำ Exclusive Self Attention แบบบางส่วน (Partial) ที่มีประสิทธิภาพสูง พร้อมมุมมองแบบจัดกลุ่มที่รองรับกลไก GQA,นำเสนอ กลไกความสนใจ (Attention) รูปแบบใหม่ที่มีประสิทธิภาพเข้ามาช่วยเพิ่มความท้าทายในการแข่งขันครั้งนี้
a href=""https://github.com/openai/parameter-golf/pull/65""]#65[/a]"@aquariouseworkmanนำเสนอ SmearGate และ BigramHash ซึ่งเป็นวิธีการผสมผสานเวกเตอร์ฝังตัวของโทเค็นก่อนหน้าแบบเรียนรู้ด้วยตนเอง ร่วมกับฟีเจอร์แฮชของคู่โทเค็นที่อยู่ติดกันดำเนินการสร้างและเพิ่มเติม กลไกฟีเจอร์ใหม่ขึ้นจากศูนย์
#1204 @msisovic "เปิดตัว ระบบวนซ้ำในชั้นความลึกขนาดเล็ก โดยทำซ้ำเลเยอร์ 4 และ 5 โดยชะลอการทำระบบวนซ้ำไปจนถึงช่วงกลางของการเทรน และปลดการผูกเชื่อมโยงโครงสร้าง MLP ที่ทำซ้ำบางส่วน"เป็นข้อมูลบนตารางจัดอันดับคะแนน แถวแรกที่ได้รับการยอมรับ ซึ่งทำให้เลเยอร์แบบวนซ้ำทำงานได้อย่างมีประสิทธิภาพ

ผลงานทั้ง 9 ชิ้นที่เราหยิบยกมานี้ สะท้อนถึงเป้าหมายหลักของโครงการที่ต้องการเห็นวิธีการแก้ปัญหาที่หลากหลาย ผู้แข่งขันบางคนทำผลงานออกได้ดีด้วยการการปรับจูนอย่างละเอียด บางคนเน้นเทคนิคการทำ Quantization และ Low-rank ขณะที่บางคนเลือกสำรวจขอบเขตของกฎการประเมินผล นอกจากนี้ยังมีอีกหลายคนที่นำเสนอแนวคิดใหม่ด้านโมเดลหรือข้อมูล ทั้งที่ต่อยอดจากงานวิจัยเดิมหรือคิดค้นขึ้นใหม่เอง จนสร้างผลลัพธ์ที่ยอดเยี่ยมเกินความคาดหมาย

รายการนอกตารางสถิติ

ผลงานนอกตารางสถิติหลักรวบรวมผลงานที่มีความคิดสร้างสรรค์ไว้มากมาย เราจึงคัดเลือกผลงานชิ้นโปรด 15 รายการมานำเสนอ ซึ่งครอบคลุมตั้งแต่วิธีการสร้างโมเดลข้อความแบบ Non-Autoregressive ไปจนถึงการทำ Tokenization แบบยืดหยุ่น

เนื่องจากหมวดหมู่นี้เน้นการทดลองเป็นหลัก เราจึงลดความสำคัญเรื่องประสิทธิภาพของตัวเลขลง และหันไปให้ความสำคัญกับความน่าสนใจเชิงเทคนิคของวิธีการแทน โดยมีผลงาน 3 รายการที่โดดเด่นเป็นพิเศษ ดังนี้

นี่คือสามผลงานนอกตารางสถิติที่เราชื่นชอบที่สุด แม้ว่าผลงานเหล่านี้อาจจะไม่ใช่กลุ่มที่มีประสิทธิภาพสูงสุดเมื่อพิจารณาจากตัวเลขคะแนนก็ตาม

อย่างไรก็ตามการแข่งขันในหมวดนอกตารางสถิติก็มีความเข้มข้นมาก โดยผลงานกว่าครึ่งในตารางวจัดอันดับสามารถทำคะแนนได้ดีกว่าเกณฑ์พื้นฐานที่ 1.22 BPB และผลงานอันดับสูงสุดในกลุ่มนี้ทำสถิติได้ถึง 1.12 BPB

เรามองว่านี่เป็นสัญญาณที่น่าพอใจ เพราะพิสูจน์ให้เห็นว่าแนวทางใหม่ๆ ยังสามารถต่อกรกับสถาปัตยกรรมอย่าง Transformer ได้อย่างสูสี แม้จะเป็นรุ่นที่มีมาตรฐานสูงก็ตาม

เรายังเห็นว่าหมวดหมู่นี้ได้รับประโยชน์อย่างมากจากการมีเอเจนต์ด้านการเขียนโค้ดที่มีประสิทธิภาพสูง ซึ่งเอเจนต์เหล่านี้ช่วยลดต้นทุนในการสร้างต้นแบบสำหรับแนวคิดใหม่ๆ แม้จะเป็นแนวคิดที่เคยดูเหมือนจะใช้เวลานานหรือมีความเสี่ยงสูงเกินไปสำหรับการแข่งขันที่มีเวลาจำกัดแบบนี้ก็ตาม

ข้อสรุปสำคัญ

สิ่งที่ทำให้ Parameter Golf ต่างจากการแข่งขันในอดีตอย่างเห็นได้ชัดคือความนิยมในการใช้เอเจนต์ช่วยเขียนโค้ด ซึ่งผู้เข้าแข่งขันเกือบทั้งหมดต่างกล่าวถึงการนำเอเจนต์มาช่วยในกระบวนการทำงานของตนเอง

ปัจจัยดังกล่าวช่วยลดอุปสรรคในการเข้าร่วมแข่งขัน ทำให้ผู้สมัครสามารถวางระบบการทดลองได้รวดเร็วยิ่งขึ้น สามารถตรวจสอบโค้ดที่ไม่คุ้นเคย และทดสอบแนวคิดต่างๆ ได้อย่างคล่องตัว นอกจากนี้การที่ RunPod สนับสนุนงบประมาณด้านระบบประมวลผลมูลค่า 1,000,000 ดอลลาร์ ยังมีส่วนสำคัญอย่างยิ่งที่ทำให้คนจำนวนมากขึ้นเข้าถึงการแข่งขันครั้งนี้ได้

ในขณะเดียวกันการใช้งานเอเจนต์ก็ได้สร้างประเด็นท้าทายใหม่ๆ ต่อการส่งผลงานและการให้คะแนน เนื่องจากผลงานจำนวนมากเป็นการปรับเปลี่ยนเพียงเล็กน้อยจากผลงานที่ทำคะแนนสูงสุดอยู่เดิม มากกว่าจะเป็นการนำเสนอแนวคิดใหม่โดยสิ้นเชิง แม้เรื่องนี้จะช่วยให้ไอเดียดีๆ แพร่หลายและถูกขัดเกลาโดยคนอื่นๆ ได้ไวขึ้น แต่ก็สร้างปัญหาตามมา เพราะเมื่อมีงานที่ทำผิดกฎแต่กลับได้คะแนนสูงอย่างไม่น่าเชื่อ เอเจนต์ตัวอื่นๆ ก็มักจะลอกเลียนไอเดียนั้น และหลงทางไปในแนวทางที่ผิดกติกาตามกันไปหมด

จำนวนผลงานที่ถูกส่งเข้ามาเป็นจำนวนมากส่งผลให้เราต้องปรับเปลี่ยนรูปแบบการดำเนินงานแข่งขัน โดยเราไม่สามารถตรวจสอบทุกผลงานด้วยตนเองควบคู่ไปกับการดูแลอัปเดตตารางจัดอันดับคะแนนได้ในระหว่างการแข่งขัน เราจึงได้พัฒนาบอตคัดกรองภายในที่ใช้ระบบ Codex เพื่อเฝ้าติดตามผลงานใหม่และคัดเลือกงานที่ต้องใช้คนตรวจจริงๆ ระบบนี้มีความสำคัญอย่างยิ่งในช่วงเวลาที่มีผลงานถูกส่งเข้ามาหลายร้อยรายการต่อวัน

เอเจนต์ AI ได้เข้ามาเป็นส่วนหนึ่งของชุมชนผู้เข้าร่วมการแข่งขันในครั้งนี้ด้วย ตลอดระยะเวลาส่วนใหญ่ของการแข่งขัน ผู้ใช้งาน @notapplica และเอเจนต์ด้านการเขียนโค้ดของเขาได้ร่วมกันดำเนินรายการ "อัปเดตข่าวสด" เพื่อเกาะติดสถานการณ์สำคัญวิเคราะห์เทคนิคเด่นๆ ที่ติดอันดับบนตารางจัดอันดับ และช่วยให้เพื่อนร่วมแข่งขันไม่พลาดความเคลื่อนไหวสำคัญๆ ได้ง่ายขึ้น ชุมชนยังร่วมกันสร้างเครื่องมือตรวจสอบเพื่อช่วยให้ผู้เล่นหน้าใหม่เช็กได้ว่างานที่ส่งนั้นทำถูกกติกาไหม เพื่อป้องกันการทำผิดกฎโดยไม่ได้ตั้งใจ

ก้าวต่อไปคืออะไร

เป้าหมายหลักของเราคือการเปิดตัวการแข่งขันที่ ผู้เข้าร่วมที่มีคุณสมบัติตามเกณฑ์(เปิดในหน้าต่างใหม่) สามารถเข้าร่วมและสัมผัสประสบการณ์การวิจัยด้านแมชชีนเลิร์นนิงได้ Parameter Golf ไม่เพียงแต่ดึงดูดผลงานที่มีความโดดเด่นทางเทคนิคและเปี่ยมด้วยความคิดสร้างสรรค์เท่านั้น แต่ยังช่วยให้เราเห็นภาพชัดเจนขึ้นว่า การแข่งขันวิจัยจะเปลี่ยนแปลงไปอย่างไรในยุคที่เอเจนต์ AI มีความสามารถสูงขึ้นและถูกนำมาใช้งานอย่างแพร่หลาย

เรามีแผนที่จะจัดการแข่งขันในลักษณะนี้เพิ่มเติมในอนาคต หากคุณสนใจ โปรดกรอกแบบฟอร์มเข้าร่วมการแข่งขัน(เปิดในหน้าต่างใหม่)

ผู้เขียน

OpenAI