เราขอแนะนำ GPT‑5.1‑Codex‑Max โมเดลการเขียนโค้ดแบบเอเจนต์ล่าสุดของเรามีให้บริการใน Codex แล้ววันนี้ GPT‑5.1‑Codex‑Max พัฒนามาจากโมเดลเหตุผลพื้นฐานของเราที่ได้รับการเทรนผ่านงานเชิงปฏิบัติการต่างๆ เช่น วิศวกรรมซอฟต์แวร์ คณิตศาสตร์ การวิจัย และอีกมากมาย GPT‑5.1‑Codex‑Max มีความเร็วมากขึ้น ฉลาดขึ้น และใช้โทเค็นได้อย่างมีประสิทธิภาพในทุกขั้นตอนของวงจรการพัฒนา และถือเป็นอีกก้าวสำคัญสู่การเป็นคู่หูด้านการเขียนโค้ดที่ไว้ใจได้
GPT‑5.1‑Codex‑Max ออกแบบมาสำหรับงานที่ต้องใช้เวลานานและซับซ้อน โมเดลนี้เป็นโมเดลแรกของเราที่ได้รับการเทรนมาโดยเฉพาะสำหรับการใช้งานกับหน้าต่างบริบทหลายหน้าต่างผ่านกระบวนการที่เรียกว่า compaction ทำให้สามารถจัดการโทเค็นนับล้านได้อย่างมีประสิทธิภาพในงานเดียว สิ่งนี้ช่วยปลดล็อกการปรับโครงสร้างโค้ดในระดับโครงการ การดีบักเชิงลึก และการทำงานแบบวนลูปของเอเจนต์หลายชั่วโมง
GPT‑5.1‑Codex‑Max พร้อมใช้งานใน Codex แล้ววันนี้ โดยรองรับการใช้งานผ่าน CLI, ส่วนขยาย IDE, คลาวด์ และการตรวจสอบโค้ด ส่วนการเข้าถึงผ่าน API จะเปิดให้ใช้งานเร็วๆ นี้
GPT‑5.1‑Codex‑Max ได้รับการเทรนจากงานวิศวกรรมซอฟต์แวร์จริง เช่น การสร้าง PR การตรวจสอบโค้ด การเขียนโค้ดฝั่งหน้า และการถามตอบ โดยทำงานได้ดีกว่าโมเดลรุ่นก่อนหน้าของเราในการทดสอบการเขียนโค้ดขั้นสูงหลายด้าน นอกจากการทำคะแนนได้ดีขึ้นในการทดสอบมาตรฐานแล้ว โมเดลยังได้รับปรับปรุงให้ใช้งานจริงได้ดียิ่งขึ้น: GPT‑5.1‑Codex‑Max เป็นโมเดลแรกที่ได้รับการเทรนให้ทำงานใน Windows และได้รับการเทรนด้วยงานที่ช่วยให้เป็นคู่หูที่มีประสิทธิภาพมากขึ้นใน Codex CLI
* การประเมินทั้งหมดรันด้วยการเปิดใช้ฟีเจอร์บีบอัดที่มีระดับการใช้เหตุผลสูงพิเศษ
* Terminal-Bench2.0 ทำงานร่วมกับ Codex CLI ภายใต้ระบบทดสอบของ Laude Institute Harbor(เปิดในหน้าต่างใหม่)
GPT‑5.1‑Codex‑Max มีประสิทธิภาพการใช้โทเค็นดีขึ้นอย่างชัดเจนเนื่องจากมีการให้เหตุผลที่มีประสิทธิภาพมากขึ้นกว่าเดิม จากการทดสอบ SWE-bench Verified พบว่า GPT‑5.1‑Codex‑Max ที่ใช้ความพยายามในการให้เหตุผลระดับ ‘ปานกลาง’ สามารถทำผลงานได้ดีกว่า GPT‑5.1‑Codex โมเดลใช้โทเค็นในการคิดน้อยลงถึง 30% แม้ใช้ความพยายามในการให้เหตุผลเท่าเดิม สำหรับงานที่ไม่จำเป็นต้องตอบสนองทันที เราได้เพิ่มโหมดการใช้เหตุผลระดับสูงพิเศษ (‘xhigh’) ซึ่งคิดได้นานกว่าเพื่อให้ได้คำตอบที่แม่นยำขึ้น เราแนะนำให้ใช้ระดับกลางเป็นค่าเริ่มต้นสำหรับงานทั่วไป
เราคาดว่าการปรับปรุงประสิทธิภาพการใช้โทเค็นจะช่วยประหยัดค่าใช้จ่ายในการใช้งานจริงสำหรับนักพัฒนา
ตัวอย่างเช่น GPT‑5.1‑Codex‑Max สามารถสร้างดีไซน์ฝั่งหน้า (Frontend) ที่มีคุณภาพสูง พร้อมฟังก์ชันและความสวยงามเทียบเท่า แต่ต้นทุนต่ำกว่า GPT‑5.1‑Codex อย่างมาก
คำสั่ง: สร้างแอปเบราว์เซอร์หน้าเดียวที่ทำงานครบในตัว ซึ่งแสดงแซนด์บ็อกซ์ CartPole แบบโต้ตอบได้ พร้อมกราฟิกบนแคนวาส มีตัวควบคุมนโยบาย มีตัวควบคุมนโยบาย (policy-gradient) ขนาดเล็ก พร้อมทั้งตัวชี้วัดและตัวแสดงภาพเครือข่ายแบบ SVG
คุณสมบัติ
จำเป็นต้องสามารถฝึกนโยบายได้จริง เพื่อทำให้โมเดลมีประสิทธิภาพสูงขึ้นใน CartPoleเครื่องมือแสดงผลการทำงานภายในและค่าน้ำหนักของโมเดลในระหว่างการเทรนและการทำนายผลสเต็ปของรอบนี้และรางวัลในรอบนี้สถิติการอยู่รอดรอบล่าสุด และสถิติการอยู่รอดสูงสุดโดยวัดจากสเต็ป
บันทึกเป็น index.html
Compaction ช่วยให้ GPT‑5.1‑Codex‑Max ทำงานที่ก่อนหน้านี้ไม่สามารถทำได้เพราะข้อจำกัดของหน้าต่างบริบท เช่น การปรับโครงสร้างโค้ดที่ซับซ้อน และการวนลูปของเอเจนต์ที่ใช้เวลานาน โดยการตัดประวัติที่ไม่จำเป็นออกและเก็บเฉพาะบริบทสำคัญไว้ในระยะยาว ในแอปพลิเคชัน Codex, GPT‑5.1‑Codex‑Max ระบบจะทำการบีบอัดเซสชันโดยอัตโนมัติเมื่อใกล้ถึงขีดจำกัดของหน้าต่างบริบทเพื่อสร้างหน้าต่างบริบทใหม่ ระบบจะวนซ้ำขั้นตอนนี้ไปเรื่อยๆ จนกว่างานจะเสร็จ
การรักษาการทำงานที่มีความต่อเนื่องและสอดคล้องในระยะยาว ถือเป็นความสามารถหลักที่วางรากฐานสู่ระบบ AI ที่มีความทั่วไปและสร้างความน่าเชื่อถือยิ่งขึ้น GPT‑5.1‑Codex‑Max สามารถทำงานเองได้นานหลายชั่วโมงต่อเนื่อง จากการประเมินภายในของเรา เราได้สังเกตว่า GPT‑5.1‑Codex‑Max สามารถทำงานต่อเนื่องเกิน 24 ชั่วโมง ระบบจะปรับปรุงการทำงานซ้ำๆ รวมทั้งแก้ไขการทดสอบที่ล้มเหลวจนสามารถได้ผลลัพธ์ที่สำเร็จ
ตัวอย่างนี้แสดงให้เห็นว่า GPT‑5.1‑Codex‑Max กำลังปรับโครงสร้างใหม่ของ Codex CLI ซึ่งเป็นโอเพ่นซอร์สด้วยตัวเอง
เมื่อความยาวของเซสชันเข้าใกล้ขีดจำกัดของหน้าต่างบริบท โมเดลจะบีบอัดเซสชันโดยอัตโนมัติเพื่อเพิ่มพื้นที่ว่างในการทำงานต่อโดยไม่เสียความคืบหน้า
วิดีโอถูกปรับให้สั้นลงและเร็วขึ้นเพื่อให้เข้าใจง่าย
GPT‑5.1‑Codex‑Max มีประสิทธิภาพสูงกว่าอย่างชัดเจนในการประเมินที่ต้องอาศัยการให้เหตุผลแบบระยะยาวต่อเนื่อง ด้วยความสามารถในการทำงานข้ามหน้าต่างบริบทจำนวนมากอย่างต่อเนื่องผ่าน Compaction โมเดลจึงสามารถสร้างผลลัพธ์ที่เหนือกว่าในงานที่ซับซ้อน เช่น การเขียนโค้ดระยะยาวและการรักษาความปลอดภัยทางไซเบอร์ เราวิเคราะห์ผลลัพธ์การทำงานของโมเดลนี้จากการประเมินโดยผู้ทดสอบทั้งภายในและภายนอก GPT‑5.1‑Codex‑Max คู่มือการทำงานของระบบ
แม้ว่า GPT‑5.1‑Codex‑Max จะยังไม่สามารถทำงานด้านความปลอดภัยไซเบอร์ได้ถึงระดับสูงตาม กรอบความพร้อมของเรา ของเรา แต่ก็เป็นโมเดลที่ทรงประสิทธิภาพที่สุดที่เราได้นำมาใช้จนถึงตอนนี้ และยังมีความสามารถเชิงปฏิบัติการด้านความปลอดภัยไซเบอร์ที่กำลังพัฒนาอย่างรวดเร็ว ด้วยเหตุนี้เราจึงกำลังดำเนินมาตรการเตรียมพร้อมเพื่อยกระดับความสามารถด้านความปลอดภัยไซเบอร์ โดยปรับปรุงมาตรการป้องกันในโลกไซเบอร์เพื่อให้แน่ใจว่าผู้ป้องกันจะได้รับประโยชน์จากความสามารถที่พัฒนาขึ้นผ่านโปรแกรมอย่าง Aardvark
ตอนที่เราเปิดตัว GPT‑5‑Codex เราได้ใช้การตรวจสอบเฉพาะทางด้านความปลอดภัยไซเบอร์ เพื่อค้นหาและป้องกันกิจกรรมที่เป็นภัยคุกคาม แม้ว่าเรายังไม่พบการใช้งานในทางที่ผิดเพิ่มขึ้นอย่างชัดเจน แต่เรากำลังเตรียมมาตรการบรรเทาผลกระทบเพิ่มเติมเพื่อรองรับความสามารถขั้นสูง ทีมงานของเราได้ หยุดยั้งปฏิบัติการทางไซเบอร์ ที่พยายามใช้โมเดลของเราไปในทางที่ผิด โดยกิจกรรมต้องสงสัยจะถูกส่งไปตรวจสอบตามระบบติดตามนโยบาย
Codex ได้รับการออกแบบให้ทำงานในพื้นที่จำลองที่ปลอดภัยตามค่าเริ่มต้น โดยการเขียนไฟล์จะถูกจำกัดภายในพื้นที่ทำงาน และการเข้าถึงเครือข่ายจะถูกปิดไว้จนกว่านักพัฒนาจะทำการเปิดใช้งาน เราแนะนำให้ใช้ Codex ในโหมดจำกัดการเข้าถึง เนื่องจากการเปิดใช้งานการค้นหาทางอินเทอร์เน็ตหรือเว็บอาจทำให้เกิดความเสี่ยงจาก คำสั่งแฝง ของเนื้อหาที่ไม่น่าเชื่อถือ
เมื่อ Codex มีความสามารถมากขึ้นในการทำงานที่ใช้เวลานาน นักพัฒนาจึงควรตรวจสอบงานของเอเจนต์อย่างรอบคอบก่อนที่จะปรับแก้หรือนำไปใช้จริง Codex จะสร้างบันทึกการทำงานในหน้าจอคำสั่งและระบุการเรียกใช้เครื่องมือพร้อมผลการทดสอบเพื่อช่วยให้การทำงานมีประสิทธิภาพ แม้ว่าการตรวจโค้ดของ Codex จะช่วยลดความเสี่ยงจากข้อผิดพลาดที่เกิดจากโมเดลหรือมนุษย์ก่อนนำไปใช้งาน แต่คุณควรใช้ Codex ในฐานะผู้ช่วยตรวจสอบเพิ่มเติม ไม่ใช่นำไปใช้แทนการตรวจสอบโดยมนุษย์
ศักยภาพด้านความมั่นคงปลอดภัยไซเบอร์นี้สามารถนำไปใช้ได้ทั้งเชิงรับและเชิงรุก ดังนั้นเราจึงควรมีแนวทางการปรับใช้อย่างเป็นขั้นตอน โดยเรียนรู้จากการใช้งานจริง ทำการปรับปรุงมาตรการ และรักษาเครื่องมือป้องกันที่สำคัญ เช่น การสแกนช่องโหว่อัตโนมัติและการช่วยแก้ไขปัญหา
GPT‑5.1‑Codex‑Max พร้อมใช้งานใน Codex กับบริการ ChatGPT Plus, Pro, Business, Edu และ Enterprise สำหรับรายละเอียดเกี่ยวกับวิธีการทำงานของขีดจำกัดการใช้งานสำหรับบริการของคุณ โปรดดู เอกสาร(เปิดในหน้าต่างใหม่) ของเรา
สำหรับนักพัฒนาที่ใช้ Codex CLI ผ่านคีย์ API เรามีแผนที่จะเปิดให้ GPT‑5.1‑Codex‑Max พร้อมใช้งานใน API เร็วๆ นี้
ตั้งแต่วันนี้เป็นต้นไป GPT‑5.1‑Codex‑Max จะมาแทนที่ GPT‑5.1‑Codex ในฐานะโมเดลค่าเริ่มต้นในแพลตฟอร์ม Codex เราขอแนะนำให้ใช้ GPT‑5.1‑Codex‑Max ซึ่งแตกต่างจาก GPT‑5.1 ที่เป็นโมเดลเอนกประสงค์ โมเดลตระกูล Codex ตัวนี้ได้รับการออกแบบมาเฉพาะสำหรับงานโค้ดแบบเอเจนต์ ในสภาพแวดล้อม Codex หรือระบบที่มีลักษณะคล้ายกัน
GPT‑5.1‑Codex‑Max แสดงให้เห็นถึงความก้าวหน้าของโมเดลในการรองรับงานเขียนโค้ดระยะยาว การจัดการเวิร์กโฟลว์ที่ซับซ้อน และการสร้างการนำไปใช้งานคุณภาพสูงด้วยจำนวนโทเค็นที่น้อยลงมาก เมื่อโมเดลถูกนำมาใช้ร่วมกับการอัปเกรด CLI, ส่วนขยาย IDE, การเชื่อมต่อคลาวด์ และเครื่องมือรีวิวโค้ดอย่างต่อเนื่อง เราพบว่าประสิทธิภาพการทำงานด้านวิศวกรรมเพิ่มขึ้นอย่างก้าวกระโดด: ปัจจุบัน วิศวกร OpenAI กว่า 95% ใช้ Codex ทุกสัปดาห์ และมี Pull Request เพิ่มขึ้นราว 70% ตั้งแต่เริ่มใช้งาน Codex เราตื่นเต้นที่จะได้เห็นว่าคุณจะสร้างสรรค์อะไรจากมันได้บ้างในขณะที่เราผลักดันขีดความสามารถสูงสุดของเอเจนต์ให้ก้าวหน้าไปอีกขั้น
GPT‑5.1‑Codex (high) | GPT‑5.1‑Codex‑Max (xhigh) | |
SWE-bench Verified (n=500) | 73.7% | 77.9% |
SWE-Lancer IC SWE | 66.3% | 79.9% |
Terminal-Bench 2.0 | 52.8% | 58.1% |


