การส่งผลงาน First Proof ของเรา
เราแบ่งปันผลงานการพิสูจน์ในโครงการ First Proof ซึ่งเป็นการแข่งขันคณิตศาสตร์ที่วัดความสามารถของ AI ในการสร้างบทพิสูจน์ที่ตรวจสอบได้ในปัญหาเฉพาะด้าน
เราใช้โมเดลภายในของเราทดลองแก้โจทย์ทั้ง 10 ข้อของ First Proof(เปิดในหน้าต่างใหม่) ซึ่งเป็นโจทย์คณิตศาสตร์ระดับงานวิจัยที่ออกแบบมาเพื่อดูว่า AI สามารถสร้างบทพิสูจน์ที่ถูกต้องและตรวจสอบได้หรือไม่ ปัญหาแบบนี้ต้องประกอบเหตุผลตั้งแต่ต้นจนจบในโดเมนเฉพาะ และต้องใช้ผู้เชี่ยวชาญช่วยตรวจเพื่อยืนยันความถูกต้อง ซึ่งต่างจากโจทย์แบบตอบสั้นหรือโจทย์แข่งขัน ผู้เขียนโจทย์ First Proof เป็นผู้เชี่ยวชาญระดับแถวหน้าในสาขาของตัวเอง และมีโจทย์อย่างน้อยสองสามข้อที่แก้ไม่ได้อยู่หลายปีก่อนที่จะหาวิธีแก้โจทย์ได้ ภาควิชาที่มีความรู้ครอบคลุมในสาขาที่เกี่ยวข้อง อาจสามารถแก้โจทย์หลายข้อได้ภายในหนึ่งสัปดาห์
เรา แชร์(เปิดในหน้าต่างใหม่) ความพยายามในการพิสูจน์ของเราในวันเสาร์ที่ 14 กุมภาพันธ์ พ.ศ. 2569 เวลา 24:00 น. ตามเวลาแปซิฟิก จากความคิดเห็นของผู้เชี่ยวชาญ เราประเมินว่าบทพิสูจน์ของโมเดลอย่างน้อย 5 ข้อ (โจทย์ 4, 5, 6, 9 และ 10) มีโอกาสถูกต้องสูง ส่วนโจทย์อื่นๆ ยังคงอยู่ระหว่างการตรวจทาน ช่วงแรกเราคิดว่าคำตอบที่เราทำไว้สำหรับข้อ 2 มีโอกาสถูกต้องสูง หลังจากอ่านคำอธิบายอย่างเป็นทางการของ First Proof และการวิเคราะห์จากชุมชน ตอนนี้เราคิดว่าคำตอบนั้นไม่ถูกต้อง เราซาบซึ้งกับการมีส่วนร่วมของทุกคน และหวังว่าจะได้เห็นการตรวจต่อเนื่องในอนาคต สามารถดูชุดความพยายามในการพิสูจน์ทั้งหมดของเราได้ที่นี่(เปิดในหน้าต่างใหม่) เอกสารฉบับพรีพริ้นท์รวมบทพิสูจน์ทั้ง 10 ข้อ พร้อมภาคผนวกใหม่ ที่รวบรวมรูปแบบคำสั่งและตัวอย่างที่จำลองการโต้ตอบแบบแมนนวลของเรากับโมเดลระหว่างการทดสอบ
เราเชื่อว่างานวิจัยแนวหน้าที่สร้างความก้าวหน้าใหม่เป็นเส้นทางที่สำคัญที่สุดในการวัดศักยภาพของโมเดล AI รุ่นถัดไป เกณฑ์วัดผลมีประโยชน์ แต่เกณฑ์เหล่านี้อาจมองข้ามส่วนที่ยากที่สุดของงานวิจัย เช่น การรักษาการให้เหตุผลที่ยาวต่อเนื่อง การเลือกนามธรรมที่เหมาะสม การรับมือกับโจทย์ที่มีความคลุมเครือ และการสร้างเหตุผลที่ผู้เชี่ยวชาญตรวจแล้วเห็นว่ามีความน่าเชื่อถือ โจทย์ท้าทายแนวหน้าอย่าง First Proof เปิดโอกาสให้เรากดดันและทดสอบขีดความสามารถเหล่านี้ ในสภาพแวดล้อมที่การตรวจความถูกต้องทำได้ยาก และทำให้เราเห็นรูปแบบความล้มเหลวที่ให้ข้อมูลสำคัญ
“ปัจจุบันเรากำลังพัฒนาโมเดลใหม่ โดยโฟกัสที่การเทรนที่ทำให้กระบวนการคิดมีความเข้มงวดมากขึ้น เราต้องการให้โมเดลคิดยาวนานต่อเนื่องหลายชั่วโมง และยังมั่นใจในผลลัพธ์ที่สรุปได้ พอมีการเปิดตัวโจทย์ First Proof เรามองว่ามันเหมาะกับการทดลองมาก เลยใช้เวลาสุดสัปดาห์ลองแก้โจทย์ดู ตอนนั้นมันแก้โจทย์ได้แล้วสองข้อ (ข้อ 9 กับข้อ 10) ยิ่งฝึกมากขึ้น มันก็ยิ่งเก่งขึ้น และจากการประเมินของเรา เราพบว่ามันแก้โจทย์เพิ่มได้อย่างน้อยสามข้อ เราดีใจมากตอนที่มันแก้โจทย์ข้อ 6 ได้ และสองวันถัดมาก็แก้ข้อ 4 ได้ เพราะโจทย์สองข้อนั้นอยู่ในสาขาที่หลายคนในทีมคุ้นเคย การที่ได้เห็นโมเดลฉลาดขึ้นอย่างชัดเจนวันต่อวันเป็นเรื่องที่ประทับใจมาก“
– James R. Lee (นักวิจัย OpenAI ด้านการให้เหตุผล)
เราให้โมเดลทำงานเองเกือบทั้งหมด โดยมีมนุษย์ช่วยกำกับแค่บางส่วน ระหว่างที่เราพิมพ์คำสั่งให้โมเดลในแต่ละช่วงของการเทรน บางครั้งเราแนะนำให้มันลองใช้วิธีเดิมที่เคยได้ผลในรอบก่อนๆ ในบางรอบเราแนะนำให้โมเดลขยายหรืออธิบายส่วนของบทพิสูจน์หลังจากได้รับคำแนะนำจากผู้เชี่ยวชาญ เพื่อให้การตรวจสอบเหตุผลง่ายขึ้น เรายังเปิดให้โมเดลตัวนี้สื่อสารกลับไปกลับมากับ ChatGPT เพื่อช่วยตรวจสอบรูปแบบ เหตุผล และสไตล์ สำหรับบางโจทย์ เรานำเสนอผลงานที่ดีที่สุดจากความพยายามหลายครั้งซึ่งคัดเลือกโดยมนุษย์ นี่เป็นการทำงานแบบเร่งด่วน และกระบวนการของเรายังไม่เรียบร้อยเท่าที่เราต้องการสำหรับการประเมินที่มีการควบคุมอย่างเป็นระบบ เราตั้งหน้าตั้งตารอที่จะได้พูดคุยกับผู้จัด First Proof เกี่ยวกับกรอบการทดลองและการประเมินผลที่เข้มงวดขึ้นสำหรับรอบถัดไป
งานนี้ต่อยอดจากผลลัพธ์ก่อนหน้าของโมเดลการให้เหตุผลระดับแนวหน้าในด้านคณิตศาสตร์และวิทยาศาสตร์ ในเดือนกรกฎาคม 2568 เราทำผลงานได้ในระดับเหรียญทอง(เปิดในหน้าต่างใหม่) ในการแข่งขันคณิตศาสตร์โอลิมปิกนานาชาติด้วยโมเดลการให้เหตุผลแบบอเนกประสงค์ (35/42 คะแนน) ในเดือนพฤศจิกายน พ.ศ. 2568 เราได้เผยแพร่ “การทดลองในระยะแรกเพื่อเร่งความก้าวหน้าทางวิทยาศาสตร์ด้วย GPT‑5” ซึ่งเป็นชุดกรณีศึกษาที่ GPT‑5 ช่วยให้นักวิจัยสร้างความก้าวหน้าที่เป็นรูปธรรมในสาขาคณิตศาสตร์ ฟิสิกส์ ชีววิทยา และสาขาอื่นๆ พร้อมทั้งข้อจำกัดที่เราค้นพบ และล่าสุด เราได้รายงาน ความร่วมมือด้านฟิสิกส์ ที่ GPT‑5.2 เสนอสมการที่เป็นไปได้สำหรับสูตรแอมพลิจูดของกลูออน ซึ่งต่อมาถูกพิสูจน์อย่างเป็นทางการโดยโมเดลภายในและได้รับการยืนยันจากผู้เขียน
เราหวังว่าจะได้มีส่วนร่วมกับชุมชนอย่างใกล้ชิดมากขึ้นในการประเมินการให้เหตุผลระดับงานวิจัย รวมถึงรับความคิดเห็นจากผู้เชี่ยวชาญเกี่ยวกับความพยายามเหล่านี้ และเราตื่นเต้นที่จะเปิดใช้งานความสามารถใหม่เหล่านี้ในโมเดลสาธารณะรุ่นถัดไป


