ยกระดับงานวิทยาศาสตร์และคณิตศาสตร์ด้วย GPT‑5.2
GPT‑5.2 เป็นโมเดลของ OpenAI ที่ให้ผลลัพธ์ด้านคณิตศาสตร์และวิทยาศาสตร์ได้ดีที่สุดในตอนนี้
หนึ่งในความหวังของเราต่อ AI ที่มีศักยภาพสูง คือการสนับสนุนให้งานวิจัยทางวิทยาศาสตร์ก้าวหน้าเพื่อประโยชน์ของทุกคน ช่วยให้นักวิจัยสำรวจไอเดียมากขึ้น ทดสอบได้เร็วขึ้น และเปลี่ยนการค้นพบให้เกิดผลลัพธ์ที่มีความหมาย
ตลอดปีที่ผ่านมา เราได้ทำงานร่วมกับนักวิทยาศาสตร์ในสาขาคณิตศาสตร์ ฟิสิกส์ ชีววิทยา และวิทยาการคอมพิวเตอร์อย่างใกล้ชิด เพื่อให้เข้าใจอย่างลึกซึ้งว่า AI สามารถมีบทบาทได้ในส่วนใด และยังมีข้อจำกัดในส่วนใด เมื่อเดือนที่แล้ว เราได้ เผยแพร่บทความ ที่รวบรวมงานตัวอย่างเชิงวิจัยจากสาขาคณิตศาสตร์ ฟิสิกส์ ชีววิทยา วิทยาการคอมพิวเตอร์ ดาราศาสตร์ และวัสดุศาสตร์ เพื่อแสดงให้เห็นว่า GPT‑5 ช่วยนักวิจัยทำงานได้อย่างไร และได้เริ่มมีบทบาทในการวิจัยจริงแล้ว ด้วย GPT‑5.2 เราเริ่มเห็นความก้าวหน้าเหล่านั้นพัฒนาไปในทิศทางที่มั่นคงและเชื่อถือได้มากขึ้น
GPT‑5.2 Pro และ GPT‑5.2 Thinking เป็นโมเดลที่แข็งแกร่งที่สุดของเราสำหรับงานวิทยาศาสตร์และคณิตศาสตร์ในขณะนี้
การให้เหตุผลทางคณิตศาสตร์ที่มั่นคงเป็นรากฐานของความน่าเชื่อถือในงานวิทยาศาสตร์และงานด้านเทคนิค ความสามารถนี้ช่วยให้โมเดลติดตามตรรกะหลายลำดับขั้น คงค่าต่างๆ ให้สอดคล้องกัน และหลีกเลี่ยงข้อผิดพลาดเล็กๆ ที่อาจสะสมจนกระทบต่อการวิเคราะห์จริง ตั้งแต่การจำลอง การวิเคราะห์สถิติ ไปจนถึงการพยากรณ์และการสร้างแบบจำลอง ความก้าวหน้าในเกณฑ์ทดสอบอย่าง FrontierMath สะท้อนความสามารถด้านเหตุผลและการคิดเชิงนามธรรมที่ดีขึ้น ซึ่งส่งต่อไปยังงานวิทยาศาสตร์จริงได้โดยตรง ตั้งแต่การเขียนโค้ด การวิเคราะห์ข้อมูล ไปจนถึงการออกแบบการทดลอง
ความสามารถเหล่านี้ยังเป็นส่วนสำคัญของความก้าวหน้าที่มุ่งไปสู่ปัญญาทั่วไป (General Intelligence) ระบบที่ใช้เหตุผลกับแนวคิดเชิงนามธรรมได้อย่างมั่นคง รักษาความสอดคล้องของตรรกะในโซ่ความคิดยาวๆ และประยุกต์ความรู้ได้ข้ามสาขา คือระบบที่มีคุณสมบัติพื้นฐานของ AGI ไม่ใช่ความสามารถเฉพาะงาน แต่เป็นทักษะการใช้เหตุผลที่กว้างและถ่ายโอนได้ ซึ่งมีน้ำหนักจริงในงานวิทยาศาสตร์ วิศวกรรม และการตัดสินใจในโลกจริง
เราเชื่อว่า GPT‑5.2 Pro และ GPT‑5.2 Thinking เป็นโมเดลที่ช่วยให้นักวิทยาศาสตร์ทำงานได้ดีและเร็วที่สุดในโลก บน GPQA Diamond ซึ่งเป็นเกณฑ์ทดสอบคำถามระดับบัณฑิตศึกษาที่ออกแบบให้ค้นหาคำตอบจากกูเกิลไม่ได้ GPT‑5.2 Pro ทำคะแนนได้ 93.2% ตามด้วย GPT‑5.2 Thinking ที่ทำได้ใกล้เคียงกันที่ 92.4%
ใน GPQA Diamond(เปิดในหน้าต่างใหม่) โมเดลจะตอบคำถามแบบปรนัยด้านฟิสิกส์ เคมี และชีววิทยา ไม่มีการเปิดใช้เครื่องมือ และการใช้เหตุผลถูกตั้งค่าไว้ที่ระดับสูงสุด
บน FrontierMath (Tier 1–3), ซึ่งเป็นการประเมินคณิตศาสตร์ระดับผู้เชี่ยวชาญ GPT‑5.2 Thinking ทำสถิติใหม่ของวงการ โดยแก้โจทย์ได้ 40.3%
ใน FrontierMath(เปิดในหน้าต่างใหม่) โมเดลจะแก้โจทย์คณิตศาสตร์ระดับผู้เชี่ยวชาญ โดยเปิดใช้เครื่องมือ Python และการใช้เหตุผลถูกตั้งค่าไว้ที่ระดับสูงสุด
กรณีศึกษา
ผลลัพธ์นี้บอกเราถึงแนวโน้มที่เป็นประโยชน์ว่าระบบ AI จะสนับสนุนงานวิจัยทางวิทยาศาสตร์ได้อย่างไร โดยเฉพาะในสาขาที่มีรากฐานทฤษฎีแบบอักซิโอมาติก เช่น คณิตศาสตร์และทฤษฎีวิทยาการคอมพิวเตอร์ ในบริบทเช่นนี้ โมเดลระดับแนวหน้าสามารถช่วยสำรวจแนวทางการพิสูจน์ ทดสอบสมมติฐาน และค้นหาความเชื่อมโยงที่โดยปกติอาจต้องใช้เวลาและความพยายามของมนุษย์อย่างมากกว่าจะมองเห็น
ขณะเดียวกัน ระบบเหล่านี้ยังไม่ใช่นักวิจัยที่สามารถทำงานได้อย่างอิสระ การตัดสินของผู้เชี่ยวชาญ การตรวจสอบความถูกต้อง และความเข้าใจในสาขายังคงมีความสำคัญ แม้โมเดลที่มีความสามารถสูงก็ยังอาจผิดพลาดหรืออาศัยสมมติฐานที่ไม่ได้ระบุไว้ได้ แต่โมเดลก็สามารถสร้างเหตุผลที่มีโครงสร้างและรายละเอียดครบถ้วน ซึ่งควรได้รับการพิจารณาและขัดเกลาโดยมนุษย์อย่างรอบคอบ ดังนั้น ความน่าเชื่อถือของงานวิจัยที่ใช้ AI จึงขึ้นอยู่กับเวิร์กโฟลว์ที่ให้ความสำคัญกับการตรวจสอบ ความโปร่งใส และการทำงานร่วมกันในทุกขั้นตอน
เมื่อมองเป็นกรณีศึกษา ผลลัพธ์นี้แสดงให้เห็นถึงรูปแบบการทำวิจัยที่เริ่มชัดเจนขึ้น โมเดลอย่าง GPT‑5.2 สามารถทำหน้าที่เป็นเครื่องมือช่วยเหตุผลทางคณิตศาสตร์และเร่งการสำรวจในช่วงต้นได้ ขณะที่ความถูกต้อง การตีความ และบริบทยังคงเป็นความรับผิดชอบของนักวิจัย หากใช้อย่างระมัดระวัง ระบบเหล่านี้อาจช่วยทำให้งานทฤษฎีหลายส่วนมีความกระชับและเป็นระบบมากขึ้น โดยไม่ลดบทบาทสำคัญของการตัดสินเชิงมนุษย์ในกระบวนการวิทยาศาสตร์


