20 กุมภาพันธ์ 2569

การส่งผลงาน First Proof ของเรา

เราแบ่งปันผลงานการพิสูจน์ในโครงการ First Proof ซึ่งเป็นการแข่งขันคณิตศาสตร์ที่วัดความสามารถของ AI ในการสร้างบทพิสูจน์ที่ตรวจสอบได้ในปัญหาเฉพาะด้าน

ดูผลงานการพิสูจน์ที่เราจัดทำไว้

กำลังโหลด…

เราใช้โมเดลภายในของเราทดลองแก้โจทย์ทั้ง 10 ข้อของ First Proof⁠(เปิดในหน้าต่างใหม่) ซึ่งเป็นโจทย์คณิตศาสตร์ระดับงานวิจัยที่ออกแบบมาเพื่อดูว่า AI สามารถสร้างบทพิสูจน์ที่ถูกต้องและตรวจสอบได้หรือไม่ ปัญหาแบบนี้ต้องประกอบเหตุผลตั้งแต่ต้นจนจบในโดเมนเฉพาะ และต้องใช้ผู้เชี่ยวชาญช่วยตรวจเพื่อยืนยันความถูกต้อง ซึ่งต่างจากโจทย์แบบตอบสั้นหรือโจทย์แข่งขัน ผู้เขียนโจทย์ First Proof เป็นผู้เชี่ยวชาญระดับแถวหน้าในสาขาของตัวเอง และมีโจทย์อย่างน้อยสองสามข้อที่แก้ไม่ได้อยู่หลายปีก่อนที่จะหาวิธีแก้โจทย์ได้ ภาควิชาที่มีความรู้ครอบคลุมในสาขาที่เกี่ยวข้อง อาจสามารถแก้โจทย์หลายข้อได้ภายในหนึ่งสัปดาห์

เรา แชร์⁠(เปิดในหน้าต่างใหม่) ความพยายามในการพิสูจน์ของเราในวันเสาร์ที่ 14 กุมภาพันธ์ พ.ศ. 2569 เวลา 24:00 น. ตามเวลาแปซิฟิก จากความคิดเห็นของผู้เชี่ยวชาญ เราประเมินว่าบทพิสูจน์ของโมเดลอย่างน้อย 5 ข้อ (โจทย์ 4, 5, 6, 9 และ 10) มีโอกาสถูกต้องสูง ส่วนโจทย์อื่นๆ ยังคงอยู่ระหว่างการตรวจทาน ช่วงแรกเราคิดว่าคำตอบที่เราทำไว้สำหรับข้อ 2 มีโอกาสถูกต้องสูง หลังจากอ่านคำอธิบายอย่างเป็นทางการของ First Proof และการวิเคราะห์จากชุมชน ตอนนี้เราคิดว่าคำตอบนั้นไม่ถูกต้อง เราซาบซึ้งกับการมีส่วนร่วมของทุกคน และหวังว่าจะได้เห็นการตรวจต่อเนื่องในอนาคต สามารถดูชุดความพยายามในการพิสูจน์ทั้งหมดของเราได้ที่นี่⁠(เปิดในหน้าต่างใหม่) เอกสารฉบับพรีพริ้นท์รวมบทพิสูจน์ทั้ง 10 ข้อ พร้อมภาคผนวกใหม่ ที่รวบรวมรูปแบบคำสั่งและตัวอย่างที่จำลองการโต้ตอบแบบแมนนวลของเรากับโมเดลระหว่างการทดสอบ

เราเชื่อว่างานวิจัยแนวหน้าที่สร้างความก้าวหน้าใหม่เป็นเส้นทางที่สำคัญที่สุดในการวัดศักยภาพของโมเดล AI รุ่นถัดไป เกณฑ์วัดผลมีประโยชน์ แต่เกณฑ์เหล่านี้อาจมองข้ามส่วนที่ยากที่สุดของงานวิจัย เช่น การรักษาการให้เหตุผลที่ยาวต่อเนื่อง การเลือกนามธรรมที่เหมาะสม การรับมือกับโจทย์ที่มีความคลุมเครือ และการสร้างเหตุผลที่ผู้เชี่ยวชาญตรวจแล้วเห็นว่ามีความน่าเชื่อถือ โจทย์ท้าทายแนวหน้าอย่าง First Proof เปิดโอกาสให้เรากดดันและทดสอบขีดความสามารถเหล่านี้ ในสภาพแวดล้อมที่การตรวจความถูกต้องทำได้ยาก และทำให้เราเห็นรูปแบบความล้มเหลวที่ให้ข้อมูลสำคัญ

“ปัจจุบันเรากำลังพัฒนาโมเดลใหม่ โดยโฟกัสที่การเทรนที่ทำให้กระบวนการคิดมีความเข้มงวดมากขึ้น เราต้องการให้โมเดลคิดยาวนานต่อเนื่องหลายชั่วโมง และยังมั่นใจในผลลัพธ์ที่สรุปได้ พอมีการเปิดตัวโจทย์ First Proof เรามองว่ามันเหมาะกับการทดลองมาก เลยใช้เวลาสุดสัปดาห์ลองแก้โจทย์ดู ตอนนั้นมันแก้โจทย์ได้แล้วสองข้อ (ข้อ 9 กับข้อ 10) ยิ่งฝึกมากขึ้น มันก็ยิ่งเก่งขึ้น และจากการประเมินของเรา เราพบว่ามันแก้โจทย์เพิ่มได้อย่างน้อยสามข้อ เราดีใจมากตอนที่มันแก้โจทย์ข้อ 6 ได้ และสองวันถัดมาก็แก้ข้อ 4 ได้ เพราะโจทย์สองข้อนั้นอยู่ในสาขาที่หลายคนในทีมคุ้นเคย การที่ได้เห็นโมเดลฉลาดขึ้นอย่างชัดเจนวันต่อวันเป็นเรื่องที่ประทับใจมาก“

– James R. Lee (นักวิจัย OpenAI ด้านการให้เหตุผล)

เราให้โมเดลทำงานเองเกือบทั้งหมด โดยมีมนุษย์ช่วยกำกับแค่บางส่วน ระหว่างที่เราพิมพ์คำสั่งให้โมเดลในแต่ละช่วงของการเทรน บางครั้งเราแนะนำให้มันลองใช้วิธีเดิมที่เคยได้ผลในรอบก่อนๆ ในบางรอบเราแนะนำให้โมเดลขยายหรืออธิบายส่วนของบทพิสูจน์หลังจากได้รับคำแนะนำจากผู้เชี่ยวชาญ เพื่อให้การตรวจสอบเหตุผลง่ายขึ้น เรายังเปิดให้โมเดลตัวนี้สื่อสารกลับไปกลับมากับ ChatGPT เพื่อช่วยตรวจสอบรูปแบบ เหตุผล และสไตล์ สำหรับบางโจทย์ เรานำเสนอผลงานที่ดีที่สุดจากความพยายามหลายครั้งซึ่งคัดเลือกโดยมนุษย์ นี่เป็นการทำงานแบบเร่งด่วน และกระบวนการของเรายังไม่เรียบร้อยเท่าที่เราต้องการสำหรับการประเมินที่มีการควบคุมอย่างเป็นระบบ เราตั้งหน้าตั้งตารอที่จะได้พูดคุยกับผู้จัด First Proof เกี่ยวกับกรอบการทดลองและการประเมินผลที่เข้มงวดขึ้นสำหรับรอบถัดไป

งานนี้ต่อยอดจากผลลัพธ์ก่อนหน้าของโมเดลการให้เหตุผลระดับแนวหน้าในด้านคณิตศาสตร์และวิทยาศาสตร์ ในเดือนกรกฎาคม 2568 เราทำผลงานได้ในระดับเหรียญทอง⁠(เปิดในหน้าต่างใหม่) ในการแข่งขันคณิตศาสตร์โอลิมปิกนานาชาติด้วยโมเดลการให้เหตุผลแบบอเนกประสงค์ (35/42 คะแนน) ในเดือนพฤศจิกายน พ.ศ. 2568 เราได้เผยแพร่ “การทดลองในระยะแรกเพื่อเร่งความก้าวหน้าทางวิทยาศาสตร์ด้วย GPT‑5” ซึ่งเป็นชุดกรณีศึกษาที่ GPT‑5 ช่วยให้นักวิจัยสร้างความก้าวหน้าที่เป็นรูปธรรมในสาขาคณิตศาสตร์ ฟิสิกส์ ชีววิทยา และสาขาอื่นๆ พร้อมทั้งข้อจำกัดที่เราค้นพบ และล่าสุด เราได้รายงาน ความร่วมมือด้านฟิสิกส์ ที่ GPT‑5.2 เสนอสมการที่เป็นไปได้สำหรับสูตรแอมพลิจูดของกลูออน ซึ่งต่อมาถูกพิสูจน์อย่างเป็นทางการโดยโมเดลภายในและได้รับการยืนยันจากผู้เขียน

เราหวังว่าจะได้มีส่วนร่วมกับชุมชนอย่างใกล้ชิดมากขึ้นในการประเมินการให้เหตุผลระดับงานวิจัย รวมถึงรับความคิดเห็นจากผู้เชี่ยวชาญเกี่ยวกับความพยายามเหล่านี้ และเราตื่นเต้นที่จะเปิดใช้งานความสามารถใหม่เหล่านี้ในโมเดลสาธารณะรุ่นถัดไป

2569

ผู้เขียน

OpenAI

อ่านต่อ

ดูทั้งหมด

เราเพิ่มคะแนนบนเกณฑ์มาตรฐาน ARC-AGI-3 เป็น 3 เท่าด้วยการเปิดการตั้งค่า 2 รายการได้อย่างไร

งานวิจัย29 ก.ค. 2569

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

บริษัท29 ก.ค. 2569

Scientific computing agentic AI card image (1x1)

การประมวลผลเชิงวิทยาศาสตร์ในยุค Agentic AI

สิ่งพิมพ์28 ก.ค. 2569