ข้ามไปยังเนื้อหาหลัก
OpenAI

ยกระดับงานวิทยาศาสตร์และคณิตศาสตร์ด้วย GPT‑5.2

GPT‑5.2 เป็นโมเดลของ OpenAI ที่ให้ผลลัพธ์ด้านคณิตศาสตร์และวิทยาศาสตร์ได้ดีที่สุดในตอนนี้

กำลังโหลด…

หนึ่งในความหวังของเราต่อ AI ที่มีศักยภาพสูง คือการสนับสนุนให้งานวิจัยทางวิทยาศาสตร์ก้าวหน้าเพื่อประโยชน์ของทุกคน ช่วยให้นักวิจัยสำรวจไอเดียมากขึ้น ทดสอบได้เร็วขึ้น และเปลี่ยนการค้นพบให้เกิดผลลัพธ์ที่มีความหมาย 

ตลอดปีที่ผ่านมา เราได้ทำงานร่วมกับนักวิทยาศาสตร์ในสาขาคณิตศาสตร์ ฟิสิกส์ ชีววิทยา และวิทยาการคอมพิวเตอร์อย่างใกล้ชิด เพื่อให้เข้าใจอย่างลึกซึ้งว่า AI สามารถมีบทบาทได้ในส่วนใด และยังมีข้อจำกัดในส่วนใด เมื่อเดือนที่แล้ว เราได้ เผยแพร่บทความ ที่รวบรวมงานตัวอย่างเชิงวิจัยจากสาขาคณิตศาสตร์ ฟิสิกส์ ชีววิทยา วิทยาการคอมพิวเตอร์ ดาราศาสตร์ และวัสดุศาสตร์ เพื่อแสดงให้เห็นว่า GPT‑5 ช่วยนักวิจัยทำงานได้อย่างไร และได้เริ่มมีบทบาทในการวิจัยจริงแล้ว ด้วย GPT‑5.2 เราเริ่มเห็นความก้าวหน้าเหล่านั้นพัฒนาไปในทิศทางที่มั่นคงและเชื่อถือได้มากขึ้น

ประสิทธิภาพที่เหนือกว่าในงานที่ต้องการความแม่นยำ

GPT‑5.2 Pro และ GPT‑5.2 Thinking เป็นโมเดลที่แข็งแกร่งที่สุดของเราสำหรับงานวิทยาศาสตร์และคณิตศาสตร์ในขณะนี้

การให้เหตุผลทางคณิตศาสตร์ที่มั่นคงเป็นรากฐานของความน่าเชื่อถือในงานวิทยาศาสตร์และงานด้านเทคนิค ความสามารถนี้ช่วยให้โมเดลติดตามตรรกะหลายลำดับขั้น คงค่าต่างๆ ให้สอดคล้องกัน และหลีกเลี่ยงข้อผิดพลาดเล็กๆ ที่อาจสะสมจนกระทบต่อการวิเคราะห์จริง ตั้งแต่การจำลอง การวิเคราะห์สถิติ ไปจนถึงการพยากรณ์และการสร้างแบบจำลอง ความก้าวหน้าในเกณฑ์ทดสอบอย่าง FrontierMath สะท้อนความสามารถด้านเหตุผลและการคิดเชิงนามธรรมที่ดีขึ้น ซึ่งส่งต่อไปยังงานวิทยาศาสตร์จริงได้โดยตรง ตั้งแต่การเขียนโค้ด การวิเคราะห์ข้อมูล ไปจนถึงการออกแบบการทดลอง

ความสามารถเหล่านี้ยังเป็นส่วนสำคัญของความก้าวหน้าที่มุ่งไปสู่ปัญญาทั่วไป (General Intelligence) ระบบที่ใช้เหตุผลกับแนวคิดเชิงนามธรรมได้อย่างมั่นคง รักษาความสอดคล้องของตรรกะในโซ่ความคิดยาวๆ และประยุกต์ความรู้ได้ข้ามสาขา คือระบบที่มีคุณสมบัติพื้นฐานของ AGI ไม่ใช่ความสามารถเฉพาะงาน แต่เป็นทักษะการใช้เหตุผลที่กว้างและถ่ายโอนได้ ซึ่งมีน้ำหนักจริงในงานวิทยาศาสตร์ วิศวกรรม และการตัดสินใจในโลกจริง

เราเชื่อว่า GPT‑5.2 Pro และ GPT‑5.2 Thinking เป็นโมเดลที่ช่วยให้นักวิทยาศาสตร์ทำงานได้ดีและเร็วที่สุดในโลก บน GPQA Diamond ซึ่งเป็นเกณฑ์ทดสอบคำถามระดับบัณฑิตศึกษาที่ออกแบบให้ค้นหาคำตอบจากกูเกิลไม่ได้ GPT‑5.2 Pro ทำคะแนนได้ 93.2% ตามด้วย GPT‑5.2 Thinking ที่ทำได้ใกล้เคียงกันที่ 92.4%

ใน GPQA Diamond(เปิดในหน้าต่างใหม่) โมเดลจะตอบคำถามแบบปรนัยด้านฟิสิกส์ เคมี และชีววิทยา ไม่มีการเปิดใช้เครื่องมือ และการใช้เหตุผลถูกตั้งค่าไว้ที่ระดับสูงสุด

บน FrontierMath (Tier 1–3), ซึ่งเป็นการประเมินคณิตศาสตร์ระดับผู้เชี่ยวชาญ GPT‑5.2 Thinking ทำสถิติใหม่ของวงการ โดยแก้โจทย์ได้ 40.3%

ใน FrontierMath(เปิดในหน้าต่างใหม่) โมเดลจะแก้โจทย์คณิตศาสตร์ระดับผู้เชี่ยวชาญ โดยเปิดใช้เครื่องมือ Python และการใช้เหตุผลถูกตั้งค่าไว้ที่ระดับสูงสุด

กรณีศึกษา

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(เปิดในหน้าต่างใหม่).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

มองไปข้างหน้า

ผลลัพธ์นี้บอกเราถึงแนวโน้มที่เป็นประโยชน์ว่าระบบ AI จะสนับสนุนงานวิจัยทางวิทยาศาสตร์ได้อย่างไร โดยเฉพาะในสาขาที่มีรากฐานทฤษฎีแบบอักซิโอมาติก เช่น คณิตศาสตร์และทฤษฎีวิทยาการคอมพิวเตอร์ ในบริบทเช่นนี้ โมเดลระดับแนวหน้าสามารถช่วยสำรวจแนวทางการพิสูจน์ ทดสอบสมมติฐาน และค้นหาความเชื่อมโยงที่โดยปกติอาจต้องใช้เวลาและความพยายามของมนุษย์อย่างมากกว่าจะมองเห็น

ขณะเดียวกัน ระบบเหล่านี้ยังไม่ใช่นักวิจัยที่สามารถทำงานได้อย่างอิสระ การตัดสินของผู้เชี่ยวชาญ การตรวจสอบความถูกต้อง และความเข้าใจในสาขายังคงมีความสำคัญ แม้โมเดลที่มีความสามารถสูงก็ยังอาจผิดพลาดหรืออาศัยสมมติฐานที่ไม่ได้ระบุไว้ได้ แต่โมเดลก็สามารถสร้างเหตุผลที่มีโครงสร้างและรายละเอียดครบถ้วน ซึ่งควรได้รับการพิจารณาและขัดเกลาโดยมนุษย์อย่างรอบคอบ ดังนั้น ความน่าเชื่อถือของงานวิจัยที่ใช้ AI จึงขึ้นอยู่กับเวิร์กโฟลว์ที่ให้ความสำคัญกับการตรวจสอบ ความโปร่งใส และการทำงานร่วมกันในทุกขั้นตอน

เมื่อมองเป็นกรณีศึกษา ผลลัพธ์นี้แสดงให้เห็นถึงรูปแบบการทำวิจัยที่เริ่มชัดเจนขึ้น โมเดลอย่าง GPT‑5.2 สามารถทำหน้าที่เป็นเครื่องมือช่วยเหตุผลทางคณิตศาสตร์และเร่งการสำรวจในช่วงต้นได้ ขณะที่ความถูกต้อง การตีความ และบริบทยังคงเป็นความรับผิดชอบของนักวิจัย หากใช้อย่างระมัดระวัง ระบบเหล่านี้อาจช่วยทำให้งานทฤษฎีหลายส่วนมีความกระชับและเป็นระบบมากขึ้น โดยไม่ลดบทบาทสำคัญของการตัดสินเชิงมนุษย์ในกระบวนการวิทยาศาสตร์