วันนี้เรากำลังเปิดให้ใช้งาน GPT‑5.4 ใน ChatGPT (ในชื่อ GPT‑5.4 Thinking), API และ Codex ซึ่งเป็นโมเดลระดับแนวหน้าที่มีความสามารถและมีประสิทธิภาพมากที่สุดของเราสำหรับงานระดับมืออาชีพ เรายังเปิดให้ใช้งาน GPT‑5.4 Pro ใน ChatGPT และ API ด้วย สำหรับผู้ที่ต้องการประสิทธิภาพสูงสุดในการทำงานที่ซับซ้อน
GPT‑5.4 นำจุดเด่นจากความก้าวหน้าล่าสุดของเราในด้านการคิดวิเคราะห์ การเขียนโปรแกรม และเวิร์กโฟลว์แบบเอเยนต์ มารวมอยู่ในโมเดลระดับแนวหน้าตัวเดียว โดยผสานความสามารถด้านการเขียนโค้ดชั้นนำของอุตสาหกรรมจาก GPT‑5.3‑Codex พร้อมทั้งปรับปรุงวิธีที่โมเดลทำงานข้ามเครื่องมือ สภาพแวดล้อมซอฟต์แวร์ และงานระดับมืออาชีพที่เกี่ยวข้องกับสเปรดชีต งานนำเสนอ และเอกสาร ผลลัพธ์ที่ได้คือโมเดลที่จัดการงานจริงอันซับซ้อนได้อย่างแม่นยำ มีประสิทธิผล และมีประสิทธิภาพ พร้อมทั้งส่งมอบสิ่งที่ท่านต้องการโดยลดขั้นตอนการโต้ตอบไปมา
ใน ChatGPT โมเดล GPT‑5.4 Thinking ตอนนี้สามารถแสดงแผนการคิดล่วงหน้าได้แล้ว เพื่อให้คุณ ปรับทิศทางระหว่างการตอบได้ในระหว่างที่กำลังทำงาน และได้ผลลัพธ์สุดท้ายที่สอดคล้องกับสิ่งที่คุณต้องการมากขึ้นโดยไม่ต้องโต้ตอบเพิ่มเติม GPT‑5.4 Thinking ยังช่วยปรับปรุง การค้นคว้าข้อมูลบน Deep Web ด้วย โดยเฉพาะสำหรับคำถามที่เฉพาะเจาะจง พร้อมทั้งรักษาบริบทได้ดียิ่งขึ้น สำหรับคำถามที่ต้องใช้เวลาคิดนานขึ้น การปรับปรุงทั้งหมดนี้ส่งผลให้ได้คำตอบที่มีคุณภาพสูงขึ้น ซึ่งมาพร้อมความรวดเร็วและตรงประเด็นกับงานที่กำลังทำอยู่เสมอ
ในส่วนของ Codex และ API นั้น GPT‑5.4 ถือเป็นโมเดลอเนกประสงค์รุ่นแรกที่เราเปิดตัวพร้อมความสามารถในการใช้งานคอมพิวเตอร์ในตัวที่ล้ำสมัย ซึ่งช่วยให้เอเจนต์สามารถควบคุมคอมพิวเตอร์และจัดการขั้นตอนการทำงานที่ซับซ้อนข้ามแอปพลิเคชันได้ โดยสามารถรองรับบริบทได้สูงสุดถึง 1 ล้าน token ช่วยให้เอเจนต์สามารถวางแผน ดำเนินการ และตรวจสอบงานต่อเนื่องยาวนานได้อย่างแม่นยำ นอกจากนี้ GPT‑5.4 ยังพัฒนาการทำงานร่วมกับระบบนิเวศของเครื่องมือและตัวเชื่อมต่อจำนวนมากผ่านการค้นหาเครื่องมือ ซึ่งช่วยให้เอเจนต์ค้นพบและใช้งานเครื่องมือที่ถูกต้องได้รวดเร็วยิ่งขึ้นโดยไม่สูญเสียความชาญฉลาดในการประมวลผล ท้ายที่สุดนี้ GPT‑5.4 คือโหมดการใช้เหตุผลที่ประหยัด token มากที่สุดของเราในปัจจุบัน โดยใช้จำนวน token น้อยลงอย่างมากในการแก้ปัญหาเมื่อเปรียบเทียบกับ GPT‑5.2 ซึ่งส่งผลให้การใช้ทอเคนลดลงและประมวลผลได้รวดเร็วยิ่งขึ้น
เมื่อรวมกับความก้าวหน้าด้านการใช้เหตุผลทั่วไป การเขียนโปรแกรม และการทำงานหาความรู้ในระดับวิชาชีพ GPT‑5.4 ช่วยให้เอเจนต์มีความน่าเชื่อถือมากขึ้น ช่วยให้กระบวนการทำงานของนักพัฒนารวดเร็วขึ้น และสร้างผลลัพธ์ที่มีคุณภาพสูงขึ้นทั้งใน ChatGPT, API และ Codex
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (ชนะหรือเสมอ) | 83.0% | 70.9% | 70.9% |
SWE-Bench Pro (เวอร์ชันสาธารณะ) | 57.7% | 56.8% | 55.6% |
OSWorld-Verified | 75.0% | 74.0%* | 47.3% |
Toolathlon | 54.6% | 51.9% | 46.3% |
BrowseComp | 82.7% | 77.3% | 65.8% |
*ข้อมูลเดิมระบุตัวเลขไว้ที่ 64.7% GPT‑5.3‑Codex ทำคะแนนได้ 74.0% ด้วยพารามิเตอร์ API ที่เพิ่งเพิ่มเข้ามาใหม่ ซึ่งคงความละเอียดของภาพต้นฉบับไว้
พัฒนาต่อยอดมาจาก GPT‑5.2 GPT‑5.4 ใช้ความสามารถด้านเหตุผลขั้นสูงเพื่อให้ได้งานที่คงเส้นคงวาและมีคุณภาพสูงขึ้น ตอบโจทย์ภารกิจสำคัญในโลกการทำงานจริงของมืออาชีพได้อย่างดีเยี่ยม
ในการทดสอบ GDPval ซึ่งประเมินความสามารถของเอเจนต์ในการสร้างผลงานความรู้เฉพาะทางใน 44 สาขาอาชีพ ผลการประเมินพบว่า GPT‑5.4 ได้สร้างสถิติสูงสุดใหม่ โดยทำผลงานได้เทียบเท่าหรือเหนือกว่ามืออาชีพในอุตสาหกรรมถึง 83.0% เมื่อเทียบกับ GPT‑5.2 ที่ทำได้ 71.0%
ชุดทดสอบ GDPval ให้โมเดลจัดการงานที่ต้องใช้ความรู้เฉพาะทาง โดยครอบคลุม 44 อาชีพใน 9 กลุ่มอุตสาหกรรมชั้นนำที่เป็นส่วนสำคัญของ GDP สหรัฐฯ งานเหล่านี้ต้องการผลลัพธ์ที่เป็นผลงานจริงๆ ในการทำงาน อาทิ สไลด์นำเสนอการขาย ตารางบัญชี ตารางเวรฉุกเฉิน เอกสารยื่นภาษี แผนภาพการผลิต หรือวิดีโอสั้นๆ ระบบกำหนดเกณฑ์การประมวลผลเหตุผลในระดับสูงสุด (xhigh) ให้กับ GPT‑5.4 และระดับหนัก (heavy) ให้กับ GPT‑5.2 (มีระดับต่ำกว่าเล็กน้อยใน ChatGPT)
“GPT-5.4 เป็นโมเดลที่ดีที่สุดที่เราเคยลองใช้มา ขณะนี้โมเดลดังกล่าวครองอันดับสูงสุดบนตารางผู้นำของเกณฑ์มาตรฐาน APEX-Agents ซึ่งเป็นดัชนีวัดประสิทธิภาพของโมเดลในงานบริการด้านวิชาชีพระดับสูง มีความโดดเด่นในการสร้างผลงานที่ใช้ระยะเวลานาน เช่น ชุดสไลด์นำเสนอ แบบจำลองทางการเงิน และการวิเคราะห์ทางกฎหมาย โดยมอบประสิทธิภาพสูงสุดในขณะที่ทำงานรวดเร็วขึ้นและมีต้นทุนต่ำกว่าโมเดลระดับแนวหน้าของคู่แข่ง”
เราให้ความสำคัญเป็นพิเศษกับการพัฒนาประสิทธิภาพของ GPT‑5.4 ในด้าน ความสามารถในการจัดการงานด้านเอกสาร ทั้งการสร้างและแก้ไขสเปรดชีตหรืองานนำเสนอ ผลการทดสอบมาตรฐานภายในด้านการสร้างแบบจำลองสเปรดชีตระดับนักวิเคราะห์การลงทุนระดับจูเนียร์ แสดงให้เห็นว่า GPT‑5.4 ทำคะแนนเฉลี่ยได้ 87.5% เมื่อเทียบกับ GPT‑5.2 ที่ทำได้ 68.4% ในการประเมินชุดคำสั่งด้านงานนำเสนอ ผู้ประเมินที่เป็นมนุษย์เลือกงานจาก GPT‑5.4 มากถึง 68.0% เมื่อเทียบกับ GPT‑5.2 เนื่องจากมีความสวยงามที่โดดเด่นกว่า มีความหลากหลายทางทัศนศิลป์มากกว่า และใช้การสร้างรูปภาพได้อย่างมีประสิทธิภาพยิ่งกว่า

เอกสารถูกสร้างขึ้นโดยตั้งค่าความพยายามในการให้เหตุผลไว้ระดับสูงสุด (xhigh)
คุณสามารถสัมผัสประสบการณ์การทำงานเหล่านี้ได้ใน ChatGPT โดยเลือกใช้ GPT‑5.4 Thinking หรือ Pro หากคุณเป็นลูกค้า Enterprise เราขอแนะนำให้ใช้ ปลั๊กอิน ChatGPT สำหรับ Excel และ Google Sheets ที่เพิ่งเปิดตัวใหม่ของเรา(เปิดในหน้าต่างใหม่) ซึ่งพร้อมให้ใช้งานในวันนี้แล้วเช่นกัน เรายังได้อัปเดต สเปรดชีต(เปิดในหน้าต่างใหม่) และ ทักษะด้านงานนำเสนอ(เปิดในหน้าต่างใหม่) ที่พร้อมใช้งานใน Codex และ API ด้วย
เพื่อสร้าง GPT‑5.4 ให้ทำงานได้ดีขึ้นในงานจริง เรายังคงพัฒนาอย่างไม่หยุดยั้งเพื่อลดอาการหลอนของ AI และลดข้อผิดพลาดต่างๆ ให้เหลือน้อยที่สุด GPT‑5.4 คือโมเดลที่ให้ข้อมูลถูกต้องตามข้อเท็จจริงมากที่สุดเท่าที่เราเคยมีมา โดยจากการทดสอบกับชุดคำสั่งที่ไม่ระบุตัวตนซึ่งผู้ใช้เคยรายงานข้อผิดพลาดด้านข้อเท็จจริงไว้นั้น พบว่าข้อมูลแต่ละส่วนของ GPT‑5.4 มีโอกาสผิดพลาดน้อยลง 33% และคำตอบในภาพรวมมีโอกาสเกิดข้อผิดพลาดน้อยลง 18% เมื่อเทียบกับ GPT‑5.2
“GPT-5.4 สร้างมาตรฐานใหม่ให้กับงานด้านกฎหมายที่ต้องจัดการเอกสารปริมาณมาก โดยทำคะแนนได้สูงถึง 91% ในการประเมินประสิทธิภาพบน BigLaw Bench ของเรา เมื่อเปรียบเทียบกับโมเดลอื่น GPT-5.4 มีความเชี่ยวชาญกว่าในการจัดโครงสร้างการวิเคราะห์ธุรกรรมที่ซับซ้อน การรักษาความแม่นยำตลอดทั้งสัญญาที่มีความยาว และการส่งมอบรายละเอียดระดับสูงตามที่นักกฎหมายต้องการ”
GPT‑5.4 คือโมเดลเอนกประสงค์ตัวแรกของเราที่มาพร้อมความสามารถในการใช้งานคอมพิวเตอร์แบบเนทีฟ และถือเป็นก้าวสำคัญสำหรับทั้งนักพัฒนาและเอเจนต์ โมเดลนี้คือตัวเลือกที่ดีที่สุดในปัจจุบันสำหรับนักพัฒนาที่ต้องการสร้างเอเจนต์ที่ต้องทำงานจริงให้สำเร็จทั้งบนหน้าเว็บและระบบซอฟต์แวร์ที่ซับซ้อน
เราออกแบบ GPT‑5.4 ให้ทำงานได้อย่างมีประสิทธิภาพในเวิร์กโหลดด้านการใช้งานคอมพิวเตอร์ที่หลากหลาย โมเดลนี้มีโดดเด่นในด้านการเขียนโค้ดเพื่อควบคุมคอมพิวเตอร์ผ่านไลบรารีอย่าง Playwright อีกทั้งยังสามารถสั่งการเมาส์และคีย์บอร์ดโดยวิเคราะห์จากภาพหน้าจอได้ด้วย นักพัฒนาสามารถปรับทิศทางการทำงานของโมเดลได้ผ่านข้อความคำสั่ง ส่งผลให้นักพัฒนาสามารถปรับแต่งพฤติกรรมของ AI ให้เข้ากับแต่ละงานได้อย่างเหมาะสม นอกจากนี้นักพัฒนาสามารถกำหนดพฤติกรรมด้านความปลอดภัยของโมเดลให้สอดคล้องกับระดับความเสี่ยงที่ยอมรับได้ โดยการระบุนโยบายการยืนยันตัวตนแบบกำหนดเอง
ผลการทดสอบมาตรฐานในหลายรูปแบบช่วยยืนยันถึงความเก่งและความคล่องตัวของโมเดลในการสั่งงานคอมพิวเตอร์ภายใต้เงื่อนไขที่แตกต่างกัน ในการทดสอบ OSWorld-Verified ซึ่งวัดความสามารถของโมเดลในการใช้งานสภาพแวดล้อมเดสก์ท็อปผ่านภาพหน้าจอและการสั่งการคีย์บอร์ดหรือเมาส์ GPT‑5.4 สามารถทำคะแนนสูงสุดเป็นประวัติการณ์ที่ 75.0% โดยอัตราความสำเร็จ ซึ่งสูงกว่า GPT‑5.2 ที่ทำคะแนนได้ 47.3% และยังทำผลงานได้เหนือกว่ามนุษย์ที่ทำคะแนนไว้ 72.4%1
ในการทดสอบ WebArena-Verified ซึ่งประเมินการใช้งานเว็บเบราว์เซอร์ GPT‑5.4 ทำอัตราความสำเร็จสูงสุดที่ 67.3% เมื่อใช้งานทั้งระบบ DOM และการโต้ตอบผ่านภาพหน้าจอ โดยพัฒนาขึ้นจากระดับ 65.4% ของ GPT‑5.2 สำหรับเกณฑ์วัด Online-Mind2Web ที่เน้นทดสอบเบราว์เซอร์ GPT‑5.4 คว้าอัตราความสำเร็จไปได้ 92.8% จากการดูภาพหน้าจอเพียงอย่างเดียว โดยพัฒนาขึ้นจากโหมด Agent ของ ChatGPT Atlas ที่ทำอัตราความสำเร็จได้ 70.9%
ผลลัพธ์จากเครื่องมือเกิดขึ้นเมื่อผู้ช่วยหยุดรอการตอบกลับจากเครื่องมือ หากมีการเรียกใช้ 3 เครื่องมือพร้อมกันและตามด้วยอีก 3 เครื่องมือในลักษณะเดียวกัน จำนวนการคืนค่าจะเป็น 2 ครั้ง ซึ่งการคืนค่าจากเครื่องมือเป็นตัวบ่งชี้ความหน่วงที่ดีกว่าการเรียกใช้เครื่องมือ เพราะสะท้อนถึงประโยชน์ของการทำงานแบบขนาน
GPT‑5.4 ตีความภาพถ่ายหน้าจอของอินเทอร์เฟซเบราว์เซอร์ และโต้ตอบกับองค์ประกอบต่างๆ ของส่วนติดต่อผู้ใช้ผ่านการคลิกตามพิกัด เพื่อส่งอีเมลและนัดหมายกิจกรรมในปฏิทิน
ความสามารถในการใช้งานคอมพิวเตอร์ที่ดียิ่งขึ้นของ GPT‑5.4 มีรากฐานมาจากความสามารถในการมองเห็นและเข้าใจภาพทั่วไปที่แม่นยำกว่าเดิม สำหรับเกณฑ์วัด MMMU-Pro ที่ทดสอบการทำความเข้าใจภาพและการใช้เหตุผล GPT‑5.4 ทำคะแนนสำเร็จถึง 81.2% โดยใช้เพียงความสามารถของตัวเอง ซึ่งดีกว่าผลงานของ GPT‑5.2 79.5% การมองเห็นที่พัฒนาขึ้นยังช่วยให้โมเดลอ่านและดึงข้อมูลจากเอกสารต่างๆ ได้แม่นยำกว่าเดิม ในการประเมิน OmniDocBench พบว่า GPT‑5.4 ที่ไม่ได้ใช้ความพยายามในการให้เหตุผล มีค่าความคลาดเคลื่อนเฉลี่ยเพียง 0.109 เมื่อเทียบข้อมูลที่โมเดลตอบกับคำตอบที่ถูกต้อง ซึ่งถือว่าทำได้ดีกว่า GPT‑5.2 ที่เคยทำไว้ 0.140
MMMUPro ถูกเรียกใช้งานโดยตั้งค่าความพยายามในการให้เหตุผลไว้ระดับสูงสุด (xhigh) การทดสอบ OmniDocBench ดำเนินการโดยปิดความพยายามการให้เหตุผลเป็น เพื่อให้สะท้อนถึงประสิทธิภาพการทำงานในรูปแบบต้นทุนต่ำและความหน่วงต่ำ
เราพัฒนาให้โมเดลเข้าใจภาพความละเอียดสูงที่มีรายละเอียดซับซ้อนได้ดียิ่งขึ้น เพื่อตอบโจทย์การใช้งานที่ต้องการความคมชัดและความถูกต้องของข้อมูลอย่างละเอียดถี่ถ้วน ตั้งแต่รุ่น GPT‑5.4 เป็นต้นไป เราเพิ่มระดับรายละเอียดอินพุต(เปิดในหน้าต่างใหม่)ของภาพ ต้นฉบับ ที่รองรับการรับรู้ความละเอียดเต็มที่สูงสุดถึง 10.24 ล้านพิกเซลรวม หรือขนาดด้านกว้างที่สุดไม่เกิน 6,000 พิกเซล โดยระดับรายละเอียดแบบสูงในปัจจุบันจะรองรับได้สูงสุดที่ 2.56 ล้านพิกเซล หรือขนาดด้านกว้างที่สุด 2,048 พิกเซล ในการทดสอบเบื้องต้นกับผู้ใช้ API เราพบว่ามีการพัฒนาความสามารถด้านการระบุตำแหน่ง การเข้าใจภาพ และความแม่นยำในการคลิกอย่างชัดเจนเมื่อใช้ระดับรายละเอียดต้นฉบับหรือสูง
“จากการประเมินประสิทธิภาพการใช้งานคอมพิวเตอร์ผ่านพอร์ทัลภาษีที่ดินและสมาคม HOA ราว 30,000 แห่ง พบว่า GPT-5.4 ทำงานสำเร็จในครั้งแรกสูงถึง 95% และสำเร็จครบ 100% ภายใน 3 ครั้ง ซึ่งสูงกว่าโมเดล CUA รุ่นก่อนๆ ที่ทำได้เพียง 73–79% ระบบยังทำงานจนจบเซสชันได้เร็วขึ้นประมาณ 3 เท่า โดยใช้ token น้อยลงราว 70% ซึ่งช่วยเพิ่มความน่าเชื่อถือและความคุ้มค่าด้านต้นทุนในการใช้งานระดับใหญ่ได้อย่างมีนัยสำคัญ”
นักพัฒนาสามารถเข้าถึงขีดความสามารถเหล่านี้ผ่านทาง API ได้โดยการใช้งานเครื่องมือคอมพิวเตอร์เวอร์ชันล่าสุด กรุณาอ่าน เอกสารที่อัปเดตแล้ว(เปิดในหน้าต่างใหม่) ของเราสำหรับแนวทางปฏิบัติที่ดีที่สุด
GPT‑5.4 ผสมผสานจุดแข็งด้านการเขียนโค้ดของ GPT‑5.3‑Codex เข้ากับความสามารถชั้นนำด้านงานวิชาการและการใช้งานคอมพิวเตอร์ ซึ่งมีบทบาทสำคัญอย่างยิ่งในการทำงานระยะยาวที่โมเดลสามารถใช้เครื่องมือ ปรับปรุงงานซ้ำ และขับเคลื่อนงานให้รุดหน้าโดยอาศัยการสั่งการจากมนุษย์น้อยลง โมเดลนี้ให้ประสิทธิภาพที่เทียบเท่าหรือเหนือกว่า GPT‑5.3‑Codex ในการทดสอบ SWE-Bench Pro อีกทั้งยังมีความหน่วงที่ต่ำกว่าในทุกระดับความพยายามในการใช้เหตุผล
เราประเมินความหน่วงโดยพิจารณาจากพฤติกรรมการใช้งานจริงของโมเดล ร่วมกับการจำลองสถานการณ์แบบออฟไลน์ การประเมินความหน่วงนี้ครอบคลุมถึงระยะเวลาการเรียกใช้เครื่องมือ (เวลาประมวลผลโค้ด) จำนวน Token ขาออก และจำนวน Token ขาเข้า ความหน่วงในการใช้งานจริงอาจแตกต่างกันอย่างมาก และขึ้นอยู่กับปัจจัยหลายประการที่การจำลองของเราไม่ได้ครอบคลุมไว้ ความพยายามในการให้เหตุผลถูกปรับจาก none เป็น xhigh
เมื่อเปิดใช้งาน โหมด /fast ใน Codex จะเพิ่มความเร็วในการสร้าง token ของ GPT‑5.4 ได้สูงสุดถึง 1.5 เท่า นี่คือโมเดลเดียวกันและความสามารถเดียวกัน เพียงแต่ทำงานเร็วขึ้น สิ่งนี้ช่วยให้ผู้ใช้งานสามารถดำเนินงานเขียนโค้ด การปรับปรุงชิ้นงาน และการแก้ไขจุดบกพร่องได้อย่างต่อเนื่องโดยไม่ขาดตอน นักพัฒนาสามารถเข้าถึง GPT‑5.4 ด้วยความเร็วที่รวดเร็วเช่นเดิมผ่าน API ได้โดยใช้ การประมวลผลแบบเร่งด่วน(เปิดในหน้าต่างใหม่)
จากการประเมินและการทดสอบภายใน เราพบว่า GPT‑5.4 มีความเชี่ยวชาญในงานฟรอนต์เอนด์ที่ซับซ้อน โดยสร้างผลลัพธ์ที่มีความสวยงามและใช้งานได้จริงมากกว่าโมเดลทุกรุ่นที่เราเคยเปิดตัวมาก่อนหน้านี้อย่างเห็นได้ชัด
เราเปิดตัวฟีเจอร์ทดลองในชื่อ “Playwright (Interactive)” และยังเปิดให้ทดลองใช้ทักษะ Codex(เปิดในหน้าต่างใหม่) เพื่อแสดงให้เห็นว่า GPT‑5.4 สามารถใช้คอมพิวเตอร์และเขียนโค้ดประสานงานกันได้เก่งขึ้นแค่ไหน สิ่งนี้นี้ช่วยให้ Codex สามารถไล่เช็กจุดบกพร่อง (Debug) ของแอปพลิเคชันเว็บและ Electron ผ่านการมองเห็นได้ อีกทั้งยังสามารถใช้ทดสอบแอปพลิเคชันที่โมเดลกำลังสร้างได้ในเวลาเดียวกัน
เกมจำลองสวนสนุกที่สร้างขึ้นด้วย GPT‑5.4 จากคำสั่งสั้นๆ เพียงครั้งเดียว โดยใช้ Playwright Interactive สำหรับการทดสอบการเล่นบนเบราว์เซอร์ และใช้การสร้างภาพสำหรับชุดทรัพยากรกราฟิกมุมมองไอโซเมตริก ตัวเกมจำลองระบบได้ครบ ทั้งการปูทางเดินแบบช่องตาราง การสร้างเครื่องเล่นและของตกแต่ง มีระบบที่นักท่องเที่ยวเดินหาทางเองได้ มีการต่อคิว และรอบเครื่องเล่น ส่วนสถิติต่างๆ อย่างเงิน จำนวนคน ความสุข ความสะอาด และคะแนนสวนสนุก จะเปลี่ยนไปตามผังที่เราวางไว้และปฏิกิริยาของคนที่เข้ามาเล่น เราใช้ Playwright เพื่อทดสอบการเล่นบนเบราว์เซอร์โดยอัตโนมัติ ทั้งการสร้างและขยายสวนสนุก การวางและลบเส้นทางหรือเครื่องเล่น การตรวจสอบการเคลื่อนที่ของกล้อง พร้อมทั้งยืนยันว่านักท่องเที่ยว ระบบคิว สถานะเครื่องเล่น และตัวเลขบนหน้าจอแสดงผลได้อย่างถูกต้องตลอดการเล่นหลายรอบ
คำสั่ง: ใช้ $playwright-interactive และ $imagegen สร้างเกมจำลองสวนสนุกแบบไอโซเมตริกที่สามารถสร้างและสำรวจได้ในเบราว์เซอร์ ใช้ imagegen เพื่อกำหนดวิสัยทัศน์ด้านภาพรวมและสร้างทรัพยากรของเกม เช่น เครื่องเล่น เส้นทาง พื้นดิน ต้นไม้ น้ำ ร้านอาหาร การตกแต่ง อาคาร ไอคอน และภาพประกอบ UI โลกในเกมต้องดูเป็นหนึ่งเดียว และมีรายละเอียดภาพสวยงาม พร้อมศิลปะระดับพรีเมียมจากมุมมองไอโซเมตริก ให้สามารถวางและลบเส้นทาง เพิ่มเครื่องเล่น จัดวางวิว และเคลื่อนรอบสวนสนุกได้อย่างราบรื่น พร้อมติดตามกิจกรรมของแขก สถานะเครื่องเล่น และการเติบโตของสวน สนับสนุนการเคลื่อนไหวของแขกอย่างสมจริง ระบบบริหารสวนง่ายๆ เช่น เงิน ความสะอาด การเข้าคิว และความสุข โดยทำให้ประสบการณ์การเล่นรู้สึกสนุกสนาน ชัดเจน เข้าใจง่าย และสมบูรณ์ ไมู่ดเหมือนร่างแบบหยาบๆ เน้นความมีเสน่ห์ เล่นง่าย และความรู้สึกสนุกขณะเล่นมากกว่าความสมจริง
ในระหว่างการทดสอบการเล่น ต้องตรวจสอบให้แน่ใจว่าได้สร้างและขยายสวนสนุกผ่านการเล่นหลายรอบ ยืนยันว่าการจัดวางและการนำทางทำงานได้อย่างราบรื่น ดูว่านักท่องเที่ยวมีปฏิกิริยากับผังเมืองและเครื่องเล่นที่เราวางไว้ไหม และต้องมั่นใจว่างานภาพ หน้าจอ UI รวมถึงการโต้ตอบในเกมมีความเสถียรและดูเป็นอันหนึ่งอันเดียวกัน
“วิศวกรของเราพบว่า GPT-5.4 มีความเป็นธรรมชาติและหนักแน่นกว่าโมเดลรุ่นก่อนหน้า มันสามารถแก้ปัญหาที่มีความคลุมเครือได้โดยไม่ต้องลังเล และยังมีความกระตือรือร้นในการแบ่งงานเพื่อทำไปพร้อมๆ กันเพื่อให้กระบวนการดำเนินต่อไปอย่างรวดเร็ว”
ด้วย GPT‑5.4, เราปรับปรุงประสิทธิภาพการทำงานร่วมกับเครื่องมือภายนอกของโมเดลให้ดียิ่งขึ้นอย่างมีนัยสำคัญ ในปัจจุบันเอเจนต์สามารถปฏิบัติงานครอบคลุมระบบนิเวศเครื่องมือที่กว้างขวางขึ้น เลือกใช้เครื่องมือที่เหมาะสมได้อย่างแม่นยำกว่าเดิม และปิดงานที่มีหลายขั้นตอนได้โดยใช้ต้นทุนและเวลาที่ลดลง
ในส่วนของ API นั้น GPT‑5.4 นำเสนอระบบการค้นหาเครื่องมือ(เปิดในหน้าต่างใหม่) ซึ่งช่วยให้โมเดลสามารถทำงานได้อย่างมีประสิทธิภาพแม้ในสภาวะที่มีเครื่องมือให้เลือกใช้งานเป็นจำนวนมาก
แต่เดิมนั้นเมื่อเรากำหนดเครื่องมือให้แก่โมเดล ระบบจะใส่คำจำกัดความของเครื่องมือทั้งหมดลงในคำสั่งตั้งแต่ต้น หากระบบมีเครื่องมือเยอะมาก วิธีนี้จะทำให้เราต้องเสีย token เพิ่มขึ้นเป็นพันหรือหมื่น token ต่อครั้ง ซึ่งนอกจากจะเปลืองค่าใช้จ่ายและทำให้ตอบช้าแล้ว และทำให้บริบทเต็มไปด้วยข้อมูลที่โมเดลอาจไม่ได้ใช้งานจริง
เมื่อใช้ระบบค้นหาเครื่องมือ GPT‑5.4 จะรับเพียงรายชื่อเครื่องมือที่มีอยู่แบบย่อควบคู่ไปกับความสามารถในการค้นหาเครื่องมือแทน เมื่อโมเดลจำเป็นต้องใช้งานเครื่องมือ ระบบจะทำการค้นหาคำจำกัดความของเครื่องมือนั้นและเพิ่มข้อมูลลงในบทสนทนาได้ทันทีในขณะนั้น
แนวทางนี้ช่วยลดจำนวน token ที่จำเป็นสำหรับเวิร์กโฟลว์ที่ใช้เครื่องมือจำนวนมากได้อย่างมหาศาล อีกทั้งยังช่วยรักษาแคชไว้ ซึ่งส่งผลให้การประมวลผลคำสั่งรวดเร็วและประหยัดค่าใช้จ่ายยิ่งขึ้น นอกจากนี้ยังช่วยให้เอเจนต์จัดการกับชุดเครื่องมือจำนวนมหาศาลได้อย่างแม่นยำและน่าเชื่อถือได้มากกว่าเดิม สำหรับเซิร์ฟเวอร์ MCP ที่อาจมีรายละเอียดเครื่องมือรวมกันหลายหมื่น token นั้น แนวทางนี้จะช่วยเพิ่มประสิทธิภาพในการทำงานได้อย่างมหาศาล
เพื่อแสดงให้เห็นถึงประสิทธิภาพที่เพิ่มขึ้น เราได้ประเมินงานจำนวน 250 รายการจากเกณฑ์มาตรฐาน MCP Atlas(เปิดในหน้าต่างใหม่) ของ Scale โดยเปิดใช้งานเซิร์ฟเวอร์ MCP ทั้ง 36 แห่งในสองรูปแบบ ได้แก่ (1) การใส่ทุกฟังก์ชันของ MCP ลงในบริบทของโมเดลโดยตรง และ (2) การนำเซิร์ฟเวอร์ MCP ทั้งหมดไปไว้ภายใต้ระบบค้นหาเครื่องมือ การกำหนดค่าการค้นหาเครื่องมือช่วยลดการใช้ token ทั้งหมดลง 47% ขณะเดียวกันก็ยังคงความแม่นยำเท่าเดิม
จำนวน token ในตัวอย่างมาจากการเฉลี่ยงาน 250 งานในชุดข้อมูลสาธารณะ MCP-Atlas
นอกจากนี้ GPT‑5.4 ยังปรับปรุงการเรียกใช้เครื่องมือให้มีความแม่นยำและมีประสิทธิภาพยิ่งขึ้นในขั้นตอนการตัดสินใจเลือกใช้เครื่องมือระหว่างการใช้เหตุผล โดยเฉพาะอย่างยิ่งในการใช้งานผ่าน API เมื่อเปรียบเทียบกับ GPT‑5.2 โมเดลรุ่นนี้ทำคะแนนความแม่นยำได้สูงกว่าโดยใช้จำนวนรอบการทำงานที่น้อยลงใน Toolathlon ซึ่งเป็นเกณฑ์มาตรฐานสำหรับทดสอบความสามารถของเอเจนต์ AI ในการใช้เครื่องมือและ API จริงเพื่อจัดการงานหลายขั้นตอนให้สำเร็จ ตัวอย่างเช่น เอเจนต์จำเป็นต้องอ่านอีเมล ดึงไฟล์แนบของงานที่ได้รับมอบหมาย อัปโหลดไฟล์เหล่านั้น ให้คะแนน และบันทึกผลลัพธ์ลงในสเปรดชีต
ผลลัพธ์จากเครื่องมือเกิดขึ้นเมื่อผู้ช่วยหยุดรอการตอบกลับจากเครื่องมือ หากมีการเรียกใช้ 3 เครื่องมือพร้อมกันและตามด้วยอีก 3 เครื่องมือในลักษณะเดียวกัน จำนวนการคืนค่าจะเป็น 2 ครั้ง ซึ่งการคืนค่าจากเครื่องมือเป็นตัวบ่งชี้ความหน่วงที่ดีกว่าการเรียกใช้เครื่องมือ เพราะสะท้อนถึงประโยชน์ของการทำงานแบบขนาน
ในกรณีการใช้งานที่ให้ความสำคัญกับความไวของการตอบสนองและต้องการกำหนดระดับการใช้เหตุผลเป็น None นั้น GPT‑5.4 มีประสิทธิภาพที่ดียิ่งขึ้นเมื่อเทียบกับโมเดลรุ่นก่อนหน้า
ใน τ2-bench(เปิดในหน้าต่างใหม่) โมเดลต้องใช้เครื่องมือเพื่อทำงานบริการลูกค้าให้สำเร็จ ซึ่งอาจมีผู้ใช้จำลองที่สามารถสื่อสารและดำเนินการกับสถานะโลกได้ การให้เหตุผลถูกตั้งค่าเป็น None
GPT‑5.4 มีความสามารถที่ดีกว่าในการค้นหาเว็บเชิงเอเจนต์ ในการทดสอบ BrowseComp ซึ่งเป็นเกณฑ์วัดความสามารถของเอเจนต์ AI ในการค้นหาข้อมูลที่หายากบนเว็บอย่างต่อเนื่องนั้น GPT‑5.4 มีประสิทธิภาพก้าวกระโดดขึ้นจาก GPT‑5.2 ถึง 17% ในเชิงค่าสัมบูรณ์ และ GPT‑5.4 Pro ทำสถิติใหม่สูงสุดไว้ที่ 89.3%
ในทางปฏิบัติหมายความว่า GPT‑5.4 Thinking มีความสามารถมากกว่าในการตอบคำถามที่ต้องรวบรวมข้อมูลจากแหล่งข้อมูลจำนวนมากทั่วอินเทอร์เน็ต โมเดลสามารถค้นหาข้อมูลอย่างต่อเนื่องผ่านการทำงานหลายรอบเพื่อระบุแหล่งที่มาที่เกี่ยวข้องมากที่สุด โดยเฉพาะอย่างยิ่งสำหรับคำถามประเภท "งมเข็มในมหาสมุทร" พร้อมทั้งประมวลข้อมูลเหล่านั้นออกมาเป็นคำตอบที่ชัดเจนและมีเหตุผลรองรับ
ใน BrowseComp ทีมงานใช้รายการบล็อกการค้นหาเพื่อคัดเว็บไซต์ที่มีเฉลยข้อสอบออกจากกระบวนการประเมินผล เพื่อป้องกันข้อมูลปนเปื้อนและรักษาความเที่ยงตรงในการวัดประสิทธิภาพ เราดำเนินการวัดผล GPT‑5.4 ภายหลังจากที่วัดผล GPT‑5.2 คะแนนนี้จึงรวมผลของการเปลี่ยนโมเดล ระบบค้นหา และสถานการณ์ปัจจุบันบนอินเทอร์เน็ตเข้าด้วยกัน ในการทดสอบ GPT‑5.4 เราใช้บล็อกลิสต์ฉบับอัปเดตที่ครอบคลุมมากขึ้น โมเดลใช้เครื่องมือค้นหาของ ChatGPT ซึ่งอาจมีความแตกต่างเล็กน้อยจาก API search
“GPT-5.4 xhigh คือมาตรฐานใหม่ของวงการในการทำงานร่วมกับเครื่องมือแบบหลายขั้นตอน Zapier ดำเนินการทดสอบเกณฑ์มาตรฐานการใช้เครื่องมือที่เข้มงวดที่สุดในอุตสาหกรรม โดยทดสอบโมเดลต่างๆ ผ่านกระบวนการทำงานขั้นสูงในโลกแห่งความเป็นจริงหลายร้อยรูปแบบ GPT-5.4 สามารถปฏิบัติงานจนเสร็จสิ้นในขณะที่โมเดลรุ่นก่อนๆ ถอดใจไปเสียก่อน จึงถือเป็นโมเดลที่มีความมุมานะในการทำงานสูงสุดเท่าที่เคยมีมา”
ในทำนองเดียวกับที่ Codex สรุปแนวทางการทำงานเมื่อเริ่มปฏิบัติงาน โดย GPT‑5.4 Thinking ก็มีวิธีการในลักษณะเดียวกัน โดย ChatGPT จะสรุปโครงสร้างการทำงานด้วยบทนำก่อนเริ่มจัดการคำถามที่ยาวและมีความซับซ้อนมากขึ้น คุณยังสามารถเพิ่มคำแนะนำหรือปรับทิศทางระหว่างการตอบกลับได้เช่นกัน วิธีนี้ช่วยให้คุณปรับทิศทางของโมเดลไปสู่ผลลัพธ์ที่ต้องการได้อย่างแม่นยำ โดยไม่จำเป็นต้องเริ่มกระบวนการใหม่หรือส่งคำสั่งเพิ่มเติมหลายรอบ ฟีเจอร์นี้พร้อมใช้งานแล้ววันนี้บน chatgpt.com(เปิดในหน้าต่างใหม่) และแอป Android และจะพร้อมใช้งานเร็วๆ นี้บนแอป iOS
โมเดลสามารถใช้เวลาประมวลผลนานขึ้นกับงานที่ยาก พร้อมทั้งรักษาความเข้าใจในลำดับขั้นตอนก่อนหน้าของการสนทนาได้อย่างแม่นยำยิ่งขึ้น คุณสมบัตินี้ช่วยให้โมเดลสามารถจัดการลำดับงานที่ยาวขึ้นและคำสั่งที่มีความซับซ้อนได้ โดยยังคงรักษาความสอดคล้องและความตรงประเด็นของคำตอบไว้ได้ตลอดกระบวนการ
วิดีโอนี้ถูกเร่งความเร็วเพื่อประกอบการอธิบาย
ในช่วงหลายเดือนที่ผ่านมา เราพัฒนามาตรการความปลอดภัยที่เราเริ่มใช้ใน GPT‑5.3‑Codex อย่างต่อเนื่อง ควบคู่ไปกับการเตรียมความพร้อมเพื่อเปิดใช้งาน GPT‑5.4 เช่นเดียวกับ GPT‑5.3‑Codex เราจัดให้ GPT‑5.4 อยู่ในกลุ่มโมเดลที่มีความสามารถทางไซเบอร์ระดับสูงภายใต้กรอบการเตรียมความพร้อมของเรา และเรากำลังเปิดใช้งานโมเดลนี้พร้อมมาตรการป้องกันที่เกี่ยวข้องตามที่ระบุไว้ในการ์ดระบบ มาตรการเหล่านี้ครอบคลุมชุดความปลอดภัยทางไซเบอร์ที่ขยายขอบเขตขึ้น ทั้งระบบเฝ้าระวัง การควบคุมการเข้าถึงที่เชื่อถือได้ และการบล็อกคำสั่งที่มีความเสี่ยงสูงแบบอะซิงโครนัสสำหรับลูกค้าบนระบบที่ไม่เก็บข้อมูล พร้อมทั้งการลงทุนอย่างต่อเนื่องในระบบนิเวศความปลอดภัยโดยรวม
เนื่องจากขีดความสามารถทางความปลอดภัยทางไซเบอร์มีลักษณะที่ใช้งานได้แบบดาบสองคม เราจึงยึดถือแนวทางการเปิดใช้งานอย่างระมัดระวัง พร้อมทั้งปรับจูนนโยบายและระบบจำแนกประเภทข้อมูลของเราอย่างต่อเนื่อง สำหรับลูกค้าบางส่วนบนระบบที่ไม่เก็บข้อมูล การบล็อกในระดับคำสั่งยังคงเป็นส่วนหนึ่งของมาตรการบรรเทาความเสี่ยงทางไซเบอร์ของเรา และเนื่องจากระบบจำแนกประเภทข้อมูลยังอยู่ในช่วงพัฒนา จึงอาจเกิดการบล็อกผิดพลาดได้ในขณะที่เราเดินหน้าปรับปรุงมาตรการป้องกันเหล่านี้ การอัปเดตเหล่านี้มีเป้าหมายเพื่อปรับปรุงการทำงานของมาตรการป้องกันในทางปฏิบัติ ซึ่งรวมถึงการลดการปฏิเสธคำสั่งโดยไม่จำเป็นและการตอบกลับที่ระบุข้อควรระวังมากเกินไป โดยที่ยังคงรักษาการป้องกันการใช้งานในทางที่ผิดอย่างเข้มงวด
เราดำเนินงานวิจัยด้านความปลอดภัยเกี่ยวกับการตรวจสอบการให้เหตุผลแบบเป็นลำดับขั้นอย่างต่อเนื่อง เพื่อสร้างความเข้าใจที่ดียิ่งขึ้นต่อกระบวนการใช้เหตุผลของโมเดล และช่วยตรวจจับพฤติกรรมที่ไม่เหมาะสมที่อาจเกิดขึ้น ในฐานะส่วนหนึ่งของงานนี้ เราได้นำเสนอการประเมินแบบโอเพนซอร์สใหม่ ความสามารถในการควบคุม CoT, เพื่อวัดว่าโมเดลสามารถทำให้การให้เหตุผลของตนคลุมเครือโดยเจตนาเพื่อหลบเลี่ยงการเฝ้าติดตามได้หรือไม่ เราพบว่า GPT‑5.4 Thinking ยังมีความสามารถในการควบคุมลำดับความคิดอยู่ในระดับต่ำ ซึ่งเป็นเรื่องดีต่อความปลอดภัยเพราะแปลว่าโมเดลยังแอบซ่อนวิธีคิดของตัวเองไม่ได้ ทำให้ตรวจสอบการให้เหตุผลแบบเป็นลำดับขั้น ยังเป็นวิธีคุมความปลอดภัยที่ได้ผลดีอยู่
วันนี้เรากำลังเริ่มทยอยเปิดใช้งาน GPT‑5.4 ในระบบ ChatGPT และ Codex ในส่วนของ API ทุกคนสามารถเข้าใช้งาน GPT‑5.4 ได้แล้วในขณะนี้ภายใต้ชื่อรุ่น gpt-5.4 GPT‑5.4 Pro มีให้ใช้งานใน API ในชื่อ gpt-5.4-pro สำหรับนักพัฒนาที่ต้องการประสิทธิภาพสูงสุดสำหรับงานที่ซับซ้อนที่สุด
ใน ChatGPT โมเดล GPT‑5.4 Thinking พร้อมให้ใช้งานตั้งแต่วันนี้สำหรับผู้ใช้ ChatGPT Plus, Team และ Pro โดยมาแทนที่ GPT‑5.2 Thinking GPT‑5.2 Thinking จะยังคงให้บริการแก่ผู้ใช้ที่ชำระเงินเป็นเวลาสามเดือนในตัวเลือกโมเดลภายใต้ส่วน Legacy Models หลังจากนั้นจะเลิกให้บริการในวันที่ 5 มิถุนายน 2569 ผู้ใช้แพ็กเกจ Enterprise และ Edu สามารถเปิดใช้งานการเข้าถึงล่วงหน้าได้ผ่านการตั้งค่าของผู้ดูแลระบบ GPT‑5.4 Pro พร้อมให้ใช้งานสำหรับแพ็กเกจ Pro และ Enterprise หน้าต่างบริบท(เปิดในหน้าต่างใหม่) ใน ChatGPT สำหรับ GPT‑5.4 Thinking ยังคงเหมือนกับที่มีอยู่ใน GPT‑5.2 Thinking
GPT‑5.4 คือโมเดลการให้เหตุผลหลักรุ่นแรกของเราที่รวบรวมขีดความสามารถด้านการเขียนโค้ดระดับแนวหน้าของ GPT‑5.3‑codex เข้าไว้ด้วยกัน และเรากำลังทยอยเปิดให้ใช้งานทั้งใน ChatGPT, API และ Codex เราเลือกใช้ชื่อ GPT‑5.4 เพื่อสะท้อนถึงการก้าวกระโดดดังกล่าว และเพื่อช่วยให้ผู้ใช้งานตัดสินใจเลือกโมเดลในระบบ Codex ได้ง่ายยิ่งขึ้น ในอนาคตคุณจะสังเกตได้ว่าโมเดลรุ่น Instant และโมเดลรุ่น Thinking จะมีพัฒนาการในความเร็วที่แตกต่างกันไป
GPT‑5.4 ใน Codex มาพร้อมการรองรับหน้าต่างบริบทขนาด 1 ล้าน token ในรูปแบบการทดลอง นักพัฒนาสามารถลองทำได้โดยกำหนดค่า model_context_window และ model_auto_compact_token_limit คำสั่งที่มีปริมาณเกินกว่าหน้าต่างบริบทมาตรฐาน 272K จะนับรวมในขีดจำกัดการใช้งานด้วยอัตรา 2 เท่าของราคาปกติ
ราคาต่อ token ของ GPT‑5.4 ใน API สูงกว่า GPT‑5.2 เพื่อแสดงถึงความสามารถที่พัฒนาขึ้น ขณะที่ประสิทธิภาพการใช้ token ช่วยลดจำนวน token ทั้งหมดที่ต้องใช้ในงานหลายประเภท เราเปิดให้ใช้งานราคาแบบ Batch และ Flex ในอัตราเพียงครึ่งหนึ่งของราคา API มาตรฐาน ในขณะที่การประมวลผลแบบ Priority จะมีอัตราค่าบริการเป็นสองเท่าของราคา API มาตรฐาน
โมเดล API | ราคาอินพุต | ราคาอินพุตที่เก็บไว้ในแคช | ราคาเอาต์พุต |
gpt-5.2 | 1.75 ดอลลาร์สหรัฐ / 1 ล้าน token | 0.175 ดอลลาร์สหรัฐ / 1 ล้านโทเค็น | 14 ดอลลาร์สหรัฐ / 1 ล้าน token |
gpt-5.4 | 2.50 ดอลลาร์สหรัฐ / 1 ล้าน token | 0.25 ดอลลาร์สหรัฐ / 1 ล้าน token | 15 ดอลลาร์สหรัฐ / 1 ล้าน token |
gpt-5.2-pro | 21 ดอลลาร์สหรัฐ / 1 ล้าน token | - | 168 ดอลลาร์สหรัฐ / 1 ล้าน token |
gpt-5.4-pro | 30 ดอลลาร์สหรัฐ / 1 ล้าน token | - | 180 ดอลลาร์สหรัฐ / 1 ล้าน token |
มืออาชีพ
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83.0% | 82.0% | 70.9% | 70.9% | 74.1% |
FinanceAgent v1.1 | 56.0% | 61.5% | 54.0% | 59.5% | — |
งานการสร้างแบบจำลองการธนาคารเพื่อการลงทุน (ภายใน) | 87.3% | 83.6% | 79.3% | 68.4% | 71.7% |
OfficeQA | 68.1% | — | 65.1% | 63.1% | — |
การเขียนโค้ด
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (เวอร์ชันสาธารณะ) | 57.7% | — | 56.8% | 55.6% | — |
Terminal-Bench 2.0 | 75.1% | — | 77.3% | 62.2% | — |
การใช้คอมพิวเตอร์และการมองเห็น
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-Verified | 75.0% | — | 74.0% | 47.3% | — |
MMMU Pro (ไม่มีเครื่องมือ) | 81.2% | — | — | 79.5% | — |
MMMU Pro (พร้อมเครื่องมือ) | 82.1% | — | — | 80.4% | — |
การใช้เครื่องมือ
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82.7% | 89.3% | 77.3% | 65.8% | 77.9% |
MCP Atlas | 67.2% | — | — | 60.6% | — |
Toolathlon | 54.6% | — | 51.9% | 45.7% | — |
Tau2-bench Telecom | 98.9% | — | — | 98.7% | — |
งานวิชาการ
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
งานวิจัยวิทยาศาสตร์ระดับแนวหน้า | 33.0% | 36.7% | — | 25.2% | — |
FrontierMath ระดับ 1–3 | 47.6% | — | — | 40.7% | — |
FrontierMath ระดับ 4 | 27.1% | 38.0% | — | 18.8% | 31.3% |
GPQA Diamond | 92.8% | 94.4% | 92.6% | 92.4% | 93.2% |
Humanity's Last Exam (ไม่ใช้เครื่องมือ) | 39.8% | 42.7% | — | 34.5% | 36.6% |
Humanity's Last Exam (พร้อมเครื่องมือ) | 52.1% | 58.7% | — | 45.5% | 50.0% |
บริบทยาว
Eval | GPT‑5.4 | GPT‑5.4 Pro | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93.0% | — | — | 94.0% | — |
Graphwalks BFS 256K–1M | 21.4% | — | — | — | — |
Graphwalks Parent 0–128K (ความแม่นยำ) | 89.8% | — | — | 89.0% | — |
Graphwalks Parents 256K–1M (ความแม่นยำ) | 32.4% | — | — | — | — |
OpenAI MRCR v2 8-needle 4K–8K | 97.3% | — | — | 98.2% | — |
OpenAI MRCR v2 8-needle 8K–16K | 91.4% | — | — | 89.3% | — |
OpenAI MRCR v2 8-needle 16K–32K | 97.2% | — | — | 95.3% | — |
OpenAI MRCR v2 8-needle 32K–64K | 90.5% | — | — | 92.0% | — |
OpenAI MRCR v2 8-needle 64K–128K | 86.0% | — | — | 85.6% | — |
OpenAI MRCR v2 8-needle 128K–256K | 79.3% | — | — | 77.0% | — |
OpenAI MRCR v2 8-needle 256K–512K | 57.5% | — | — | — | — |
OpenAI MRCR v2 8-needle 512K–1M | 36.6% | — | — | — | — |
การให้เหตุผลเชิงนามธรรม
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (Verified) | 93.7% | 94.5% | — | 86.2% | 90.5% |
ARC-AGI-2 (Verified) | 73.3% | 83.3% | — | 52.9% | 54.2% (สูง) |
การประเมินโดยไม่มีการให้เหตุผล
Eval | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (ระยะแก้ไขที่ปรับให้เป็นมาตรฐาน) | 0.109 | 0.140 | — |
Tau2-bench Telecom | 64.3% | 57.2% | 43.6% |
เราดำเนินการประเมินผลโดยกำหนดระดับความพยายามในการใช้เหตุผลไว้ที่ระดับสูงสุด (xhigh) ยกเว้นในกรณีที่มีการระบุเป็นอย่างอื่น การทดสอบมาตรฐานได้ดำเนินการในสภาพแวดล้อมการวิจัย ซึ่งอาจให้ผลลัพธ์ที่แตกต่างจาก ChatGPT เวอร์ชันใช้งานจริงในบางกรณี
ผู้เขียน
เชิงอรรถ
1 มีการรายงานประสิทธิภาพการทำงานของมนุษย์ไว้ใน OSWorld: การประเมินผลเอเจนต์ที่รองรับข้อมูลหลายรูปแบบสำหรับงานที่ไม่มีขอบเขตตายตัวในระบบคอมพิวเตอร์จริง(เปิดในหน้าต่างใหม่)


