วันนี้เรากำลังเปิดตัว GPT‑5 ในแพลตฟอร์ม API ของเรา ซึ่งเป็นโมเดลที่ดีที่สุดของเราสำหรับการเขียนโค้ดและงานเชิงเอเจนต์
GPT‑5 เป็นเทคโนโลยีล้ำสมัย (SOTA) ในเกณฑ์มาตรฐานการเข้ารหัสที่สำคัญ โดยได้คะแนน 74.9% ด้าน SWE-Bench Verified และ 88% ด้าน Aider Polyglot เราได้ฝึกฝน GPT‑5 ให้เป็นผู้ร่วมงานที่แท้จริงในการเขียนโค้ด โปรแกรมนี้เชี่ยวชาญด้านการผลิตโค้ดคุณภาพสูงและการจัดการงานต่างๆ เช่น การแก้ไขข้อบกพร่อง การแก้ไขโค้ด และการตอบคำถามเกี่ยวกับโค้ดเบสที่ซับซ้อน โมเดลนี้สามารถควบคุมทิศทางและทำงานร่วมกันได้ โดยสามารถปฏิบัติตามคำแนะนำที่ละเอียดได้อย่างแม่นยำ และสามารถให้คำอธิบายล่วงหน้าเกี่ยวกับการกระทำของโมเดล ก่อนและระหว่างการเรียกใช้เครื่องมือ โมเดลนี้ยังมีความเป็นเลิศในการเขียนโค้ดส่วนหน้า โดยสามารถเอาชนะ OpenAI o3 ในการพัฒนาเว็บส่วนหน้าได้ถึง 70% จากกรณีการทดสอบภายในทั้งหมด
เราได้ฝึกอบรม GPT‑5 บนงานโค้ดจริงโดยร่วมมือกับผู้ทดสอบกลุ่มแรกในสตาร์ทอัพและองค์กรต่างๆ Cursor กล่าวว่า GPT‑5 เป็น "โมเดลที่ชาญฉลาดที่สุดที่พวกเขาเคยใช้" และ "มีความชาญฉลาดอย่างน่าทึ่ง ควบคุมง่าย และยังมีบุคลิกที่ไม่เคยเห็นในโมเดลอื่น" GPT‑5 ที่ใช้ร่วมกันบน Windsurf เป็น SOTA ในการประเมินของพวกเขาและ “มีอัตราข้อผิดพลาดในการเรียกใช้เครื่องมือเพียงครึ่งเดียวเมื่อเทียบกับโมเดลแนวหน้าอื่นๆ” Vercel กล่าวว่า “นี่คือโมเดล AI ส่วนหน้าที่ดีที่สุด โดยมีประสิทธิภาพสูงสุดทั้งในด้านสุนทรียศาสตร์และคุณภาพของโค้ด ทำให้เป็นโมเดลที่โดดเด่นในประเภทของตัวเอง”
GPT‑5 ยังเป็นเลิศในงานเชิงเอเจนต์ที่ต่อเนื่องยาวนาน โดยบรรลุผลลัพธ์ SOTA บน τ2-bench telecom (96.7%) ซึ่งเป็นเกณฑ์มาตรฐานการเรียกใช้เครื่องมือที่เปิดตัวเมื่อ 2 เดือนที่แล้ว ความชาญฉลาดของเครื่องมือที่ได้รับการปรับปรุงของ GPT‑5 นี้ช่วยให้สามารถเชื่อมโยงการเรียกใช้เครื่องมือหลายสิบรายการเข้าด้วยกันได้อย่างน่าเชื่อถือ ทั้งแบบเป็นลำดับและแบบขนาน โดยไม่หลงทาง ทำให้สามารถดำเนินการงานที่ซับซ้อนในโลกแห่งความเป็นจริงได้ดียิ่งขึ้นตั้งแต่ต้นจนจบ นอกจากนี้ ยังปฏิบัติตามคำแนะนำเครื่องมือได้แม่นยำยิ่งขึ้น ดีกว่าในด้านการจัดการข้อผิดพลาดของเครื่องมือ และยอดเยี่ยมในการดึงเนื้อหาบริบทที่ยาว Manus กล่าวว่า GPT‑5 "บรรลุประสิทธิภาพที่ดีที่สุดเท่าที่ [พวกเขา] เคยเห็นจากโมเดลเดียวในเกณฑ์มาตรฐานภายใน [ของพวกเขา]" Notion กล่าวว่า “การตอบสนองที่รวดเร็ว [ของโมเดล] โดยเฉพาะในโหมดการใช้เหตุผลต่ำ ทำให้ GPT‑5 เป็นโมเดลที่เหมาะสมเมื่อคุณต้องการแก้ไขงานที่ซับซ้อนในครั้งเดียว” Inditex ได้แบ่งปันว่า “สิ่งที่ทำให้ [GPT‑5] โดดเด่นอย่างแท้จริงคือความลึกซึ้งของการให้เหตุผล: คำตอบที่มีความละเอียดอ่อนและหลายชั้นซึ่งสะท้อนถึงความเข้าใจในเนื้อหาสาระอย่างแท้จริง”
เรากำลังแนะนำฟีเจอร์ใหม่ๆ ใน API ของเราเพื่อให้นักพัฒนามีการควบคุมการตอบสนองของโมเดลมากขึ้น GPT‑5 สนับสนุนพารามิเตอร์ การใช้คำฟุ่มเฟื่อย ใหม่ (ค่า: ต่ำ, ปานกลาง, สูง) เพื่อช่วยควบคุมว่าคำตอบจะสั้นและตรงประเด็น หรือยาวและครอบคลุม พารามิเตอร์ reasoning_effort ของ GPT‑5 สามารถตั้งค่าให้ต่ำสุดเพื่อให้ได้คำตอบย้อนกลับเร็วขึ้น โดยไม่ต้องผ่านการให้เหตุผลอย่างละเอียดก่อน นอกจากนี้ เรายังได้เพิ่มประเภทเครื่องมือใหม่ ซึ่งเป็นเครื่องมือที่กำหนดเองเพื่อให้ GPT‑5 สามารถเรียกใช้เครื่องมือด้วยข้อความธรรมดาแทนที่จะเป็น JSON เครื่องมือที่กำหนดเองสนับสนุนการจำกัดโดยไวยากรณ์ที่ปราศจากบริบทซึ่งนักพัฒนาจัดหาให้
เรากำลังเปิดตัว GPT‑5 สามขนาดใน API ได้แก่gpt-5, gpt-5-mini, และ gpt-5-nanoเพื่อให้นักพัฒนามีความยืดหยุ่นมากขึ้นในการปรับสมดุลระหว่างประสิทธิภาพ ต้นทุน และเวลาในการตอบสนอง GPT‑5 ใน ChatGPT เป็นระบบที่ประกอบด้วยโมเดลการให้เหตุผล โมเดลที่ไม่ใช่การให้เหตุผล และโมเดลเราเตอร์ แต่ GPT‑5 ในแพลตฟอร์ม API เป็นโมเดลการให้เหตุผลที่ขับเคลื่อนประสิทธิภาพสูงสุดใน ChatGPT ที่น่าสังเกตคือ GPT‑5 ที่มีการใช้เหตุผลน้อยที่สุดเป็นโมเดลที่แตกต่างจากโมเดลที่ไม่มีการใช้เหตุผลใน ChatGPT และได้รับการปรับแต่งให้เหมาะสมยิ่งขึ้นสำหรับนักพัฒนา โมเดลที่ไม่มีการใช้เหตุผลที่ใช้ใน ChatGPT มีให้ใช้งานในชื่อ gpt-5-chat-latest
โปรดดู บล็อกวิจัยของเรา สำหรับ GPT‑5 ใน ChatGPT และเรียนรู้เพิ่มเติมเกี่ยวกับการปรับปรุงอื่นๆ ของ ChatGPT สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีที่องค์กรต่างๆ รู้สึกตื่นเต้นที่จะใช้ GPT‑5 โปรดดู บล็อกองค์กรของเรา
GPT‑5 เป็นโมเดลการเขียนโค้ดที่แข็งแกร่งที่สุดที่เราเคยเปิดตัวมา โดยมีประสิทธิภาพเหนือกว่า o3 ในเกณฑ์มาตรฐานการเขียนโค้ดและกรณีการใช้งานจริง และได้รับการปรับแต่งอย่างละเอียดเพื่อให้โดดเด่นในผลิตภัณฑ์การเขียนโค้ดแบบเอเจนต์ เช่น Cursor, Windsurf, GitHub Copilot และ Codex CLI GPT‑5 สร้างความประทับใจให้กับผู้ทดสอบอัลฟ่าของเรา โดยทำลายสถิติการประเมินภายในส่วนตัวหลายรายการ
ข้อเสนอแนะเบื้องต้นเกี่ยวกับ GPT‑5 สำหรับงานเขียนโค้ดในสถานการณ์จริง
“GPT-5 เป็นโมเดลการเขียนโค้ดที่ชาญฉลาดที่สุดที่เราเคยใช้ ทีมของเราพบว่า GPT-5 มีความฉลาดอย่างน่าทึ่ง ควบคุมได้ง่าย และแม้กระทั่งมีบุคลิกที่เราไม่เคยเห็นในโมเดลอื่นๆ ไม่เพียงแต่สามารถจับข้อบกพร่องที่ยุ่งยากและซ่อนอยู่อย่างลึกซึ้ง แต่ยังสามารถเรียกใช้เอเจนต์พื้นหลังที่ยาวและหลายเทิร์นเพื่อทำงานที่ซับซ้อนจนเสร็จสิ้น—ปัญหาประเภทที่เคยทำให้โมเดลอื่นติดขัด มันกลายเป็นเครื่องมือที่เราใช้ทุกวันสำหรับทุกอย่าง ตั้งแต่การกำหนดขอบเขตและการวางแผน PR ไปจนถึงการสร้างแบบครบวงจรให้เสร็จสมบูรณ์
ใน SWE-Bench Verified ซึ่งเป็นการประเมินตามงานวิศวกรรมซอฟต์แวร์ในโลกแห่งความเป็นจริง GPT‑5 ได้คะแนน 74.9% เพิ่มขึ้นจาก 69.1% ของ o3 ที่น่าสังเกตคือ GPT‑5 ได้คะแนนสูงด้วยประสิทธิภาพและความเร็วที่มากขึ้น: เมื่อเทียบกับ o3 ที่ใช้ความพยายามในการให้เหตุผลสูง GPT‑5 ใช้โทเค็นเอาต์พุตน้อยลง 22% และเรียกใช้เครื่องมือน้อยลง 45%
ใน SWE-bench Verified โมเดลจะได้รับที่เก็บโค้ดและคำอธิบายปัญหา และต้องสร้างแพตช์เพื่อแก้ไขปัญหา ป้ายข้อความแสดงระดับความพยายามในการให้เหตุผล คะแนนของเราละเว้นปัญหา 23 จาก 500 ประการที่วิธีแก้ไขปัญหานั้นไม่ผ่านโครงสร้างพื้นฐานของเราอย่างน่าเชื่อถือ GPT‑5 ได้รับคำสั่งสั้นๆ ที่เน้นการตรวจสอบโซลูชันอย่างถี่ถ้วน คำสั่งเดียวกันนี้ไม่เป็นประโยชน์ต่อ o3
ใน Aider Polyglot ซึ่งเป็นการประเมินการแก้ไขโค้ด GPT‑5 ได้สร้างสถิติใหม่ที่ 88% โดยลดอัตราความผิดพลาดลงหนึ่งในสามเมื่อเทียบกับ o3
ใน Aider polygot(เปิดในหน้าต่างใหม่) (diff) โมเดลได้รับแบบฝึกหัดการเขียนโค้ดจาก Exercism และต้องเขียนคำตอบเป็น code diff โมเดลการให้เหตุผลถูกดำเนินการด้วยความพยายามในการให้เหตุผลสูง
นอกจากนี้ เรายังพบว่า GPT‑5 มีประสิทธิภาพยอดเยี่ยมในการเจาะลึกโค้ดเบสเพื่อตอบคำถามเกี่ยวกับวิธีการทำงานของส่วนต่างๆ หรือการทำงานร่วมกัน ในโค้ดเบสที่ซับซ้อนพอๆ กับสแต็กการเรียนรู้แบบเสริมแรงของ OpenAI เราพบว่า GPT‑5 สามารถช่วยเราให้เหตุผลและตอบคำถามเกี่ยวกับโค้ดของเรา ซึ่งช่วยเร่งการทำงานประจำวันของเรา
เมื่อผลิตโค้ดส่วนหน้าสำหรับเว็บแอป GPT‑5 จะมีความใส่ใจในด้านความสวยงาม มีความทะเยอทะยาน และมีความแม่นยำมากขึ้น ในการเปรียบเทียบแบบเคียงข้างกันกับ o3 ผู้ทดสอบของเราเลือก GPT‑5 ถึง 70% ของการเลือกทั้งหมด
ต่อไปนี้คือตัวอย่างที่สนุกสนานและคัดสรรมาอย่างดีของสิ่งที่ GPT‑5 สามารถทำได้ด้วยคำสั่งเดียว:
พร้อมต์: โปรดสร้างหน้า Landing Page ที่สวยงามและสมจริงสำหรับบริการที่มอบสิทธิ์สมัครสมาชิกรายเดือน $200 ให้กับผู้ที่ชื่นชอบกาแฟอย่างแท้จริง พร้อมให้เช่าอุปกรณ์และสอนการคั่วกาแฟและชงเอสเพรสโซชั้นเลิศ กลุ่มเป้าหมายคือคนวัยกลางคนในเขตเบย์แอเรีย ซึ่งอาจทำงานด้านเทคโนโลยี มีการศึกษา มีรายได้ที่ใช้จ่ายได้ และหลงใหลในศาสตร์และศิลป์ของกาแฟ เพิ่มประสิทธิภาพสำหรับอัตราการแปลงสำหรับการสมัครใช้งาน 6 เดือน
ดูตัวอย่างเพิ่มเติมโดย GPT‑5 ในแกลเลอรีของเราที่นี่(เปิดในหน้าต่างใหม่)
GPT‑5 เป็นผู้ร่วมงานที่ดีกว่า โดยเฉพาะในผลิตภัณฑ์การเขียนโค้ดแบบเอเจนต์ เช่น Cursor, Windsurf, GitHub Copilot และ Codex CLI ในขณะที่ทำงาน GPT‑5 สามารถส่งมอบแผน การอัปเดต และการสรุประหว่างการเรียกใช้เครื่องมือ เมื่อเทียบกับโมเดลก่อนหน้าของเรา GPT‑5 มีลักษณะการทำงานเชิงรุกมากขึ้นในการทำงานที่ท้าทายให้เสร็จสิ้น โดยไม่หยุดรอการอนุมัติจากคุณหรือลังเลกับความซับซ้อนสูง
นี่คือตัวอย่างลักษณะของ GPT‑5 ในขณะที่จัดการกับงานที่ซับซ้อน (ซึ่งในกรณีนี้คือการสร้างเว็บไซต์สำหรับร้านอาหาร):
หลังจากที่ผู้ใช้ขอให้สร้างเว็บไซต์สำหรับร้านอาหารของตน GPT‑5 จะเสนอแผนงานอย่างรวดเร็ว วางโครงสร้างแอป ติดตั้งสิ่งที่ต้องพึ่งพา สร้างเนื้อหาเว็บไซต์ รันการสร้างเพื่อตรวจสอบข้อผิดพลาดในการคอมไพล์ สรุปงานที่ทำ และแนะนำขั้นตอนถัดไปที่เป็นไปได้ วิดีโอนี้ถูกเร่งความเร็วประมาณ 3 เท่าเพื่อประหยัดเวลารอของคุณ และระยะเวลาทั้งหมดในการสร้างเว็บไซต์คือประมาณสามนาที
นอกเหนือจากการเขียนโค้ดแบบเอเจนต์แล้ว GPT‑5 ยังทำงานได้ดีกว่าในงานแบบเอเจนต์โดยทั่วไป GPT‑5 สร้างสถิติใหม่ในเกณฑ์มาตรฐานของการปฏิบัติตามคำสั่ง (69.6% ด้าน Scale MultiChallenge ซึ่งได้รับการจัดอันดับโดย o3‑mini) และการเรียกใช้เครื่องมือ (96.7% ด้าน τ2-bench telecom) ความชาญฉลาดของเครื่องมือที่ได้รับการปรับปรุงช่วยให้ GPT‑5 สามารถเชื่อมโยงการกระทำเข้าด้วยกันได้อย่างน่าเชื่อถือมากขึ้นเพื่อทำงานในโลกแห่งความเป็นจริงให้สำเร็จ
ข้อเสนอแนะเบื้องต้นเกี่ยวกับ GPT‑5 สำหรับงานเชิงเอเจนต์
“GPT-5 เป็นก้าวกระโดดครั้งใหญ่ มันบรรลุประสิทธิภาพที่ดีที่สุดที่เราเคยเห็นจากโมเดลเดียวในเกณฑ์มาตรฐานภายในของเรา GPT-5 โดดเด่นในงานตัวแทนต่างๆ แม้กระทั่งก่อนที่เราจะปรับแต่งโค้ดบรรทัดเดียวหรือปรับแต่งคำสั่ง คำนำใหม่และการควบคุมการใช้เครื่องมือที่แม่นยำยิ่งขึ้นเปิดการใช้งานการก้าวกระโดดอย่างมีนัยสำคัญในด้านเสถียรภาพและความสามารถในการบังคับทิศทางของเอเจนต์ของเรา"
GPT‑5 ปฏิบัติตามคำแนะนำได้อย่างน่าเชื่อถือกว่ารุ่นก่อนๆ โดยได้คะแนนสูงในด้าน COLLIE, Scale MultiChallenge และการประเมินการปฏิบัติตามคำสั่งภายในของเรา
ใน COLLIE(เปิดในหน้าต่างใหม่) โมเดลต้องเขียนข้อความที่ตรงตามข้อจำกัดต่างๆ ใน Scale MultiChallenge(เปิดในหน้าต่างใหม่) โมเดลจะถูกท้าทายในการสนทนาหลายรอบเพื่อใช้ข้อมูลสี่ประเภทจากข้อความก่อนหน้าอย่างเหมาะสม คะแนนของเรามาจากการใช้ o3‑mini เป็นตัวให้คะแนน ซึ่งมีความแม่นยำมากกว่า GPT‑4o ในการประเมินการปฏิบัติตามคำสั่งของ OpenAI API ภายในของเรา โมเดลต้องปฏิบัติตามคำสั่งยากซึ่งได้มาจากข้อเสนอแนะจริงจากนักพัฒนา โมเดลการให้เหตุผลถูกดำเนินการด้วยความพยายามสูงในการให้เหตุผล
พวกเราทำงานอย่างหนักเพื่อปรับปรุงการเรียกใช้เครื่องมือในวิธีที่สำคัญต่อนักพัฒนา GPT‑5 มีความสามารถที่ดีกว่าในการปฏิบัติตามคำแนะนำของเครื่องมือ จัดการข้อผิดพลาดของเครื่องมือได้ดีกว่า และเรียกใช้เครื่องมือหลายตัวในเชิงรุกทั้งแบบลำดับและแบบขนานได้ดีกว่า เมื่อได้รับคำสั่ง GPT‑5 ยังสามารถส่งข้อความตั้งต้นก่อนและระหว่างการเรียกใช้เครื่องมือเพื่ออัปเดตผู้ใช้เกี่ยวกับความคืบหน้าในระหว่างงานเชิงเอเจนต์ที่ยาวนานขึ้น
เมื่อสองเดือนก่อน τ2-bench telecom ได้รับการเผยแพร่โดย Sierra.ai ในฐานะเกณฑ์มาตรฐานการใช้เครื่องมือที่ท้าทาย ซึ่งเน้นให้เห็นว่า ประสิทธิภาพของโมเดลภาษาลดลงอย่างมีนัยสำคัญเมื่อโต้ตอบกับสถานะของสภาพแวดล้อมที่ผู้ใช้สามารถเปลี่ยนแปลง ใน การเผยแพร่(เปิดในหน้าต่างใหม่)ของพวกเขา ไม่มีโมเดลใดที่ได้คะแนนเกิน 49% GPT‑5 ได้คะแนน 97%
ใน τ2-bench(เปิดในหน้าต่างใหม่) โมเดลต้องใช้เครื่องมือเพื่อทำงานบริการลูกค้าให้สำเร็จ ซึ่งอาจมีผู้ใช้ที่สามารถสื่อสารและดำเนินการกับสถานะโลก โมเดลการให้เหตุผลถูกดำเนินการด้วยความพยายามในการให้เหตุผลสูง
GPT‑5 แสดงให้เห็นการปรับปรุงประสิทธิภาพในบริบทที่ยาวได้อย่างชัดเจนเช่นกัน ใน OpenAI-MRCR ซึ่งเป็นมาตรวัดการดึงข้อมูลในบริบทยาว GPT‑5 มีประสิทธิภาพเหนือกว่า o3 และ GPT‑4.1 โดยมีส่วนต่างที่เพิ่มขึ้นอย่างมาก เมื่อความยาวของอินพุตเพิ่มขึ้น
ใน OpenAI-MRCR(เปิดในหน้าต่างใหม่) (การแก้ปัญหาการอ้างอิงร่วมหลายรอบ) คำขอของผู้ใช้ “needle” ที่เหมือนกันหลายรายการถูกแทรกลงใน “haystacks” ของคำขอและการตอบสนองที่คล้ายคลึงกันที่ยาว และโมเดลจะถูกขอให้สร้างการตอบสนองต่อ i-th needle อัตราส่วนการจับคู่เฉลี่ยวัดอัตราส่วนการจับคู่สตริงเฉลี่ยระหว่างคำตอบของโมเดลและคำตอบที่ถูกต้อง จุดที่โทเค็นอินพุตสูงสุด 256k แสดงถึงค่าเฉลี่ยของโทเค็นอินพุตในช่วง 128k–256k และอื่นๆ ในที่นี้ 256k หมายถึง 256 * 1,024 = 262,114 โทเค็น โมเดลการให้เหตุผลถูกดำเนินการด้วยความพยายามในการให้เหตุผลสูง
เรายังเปิดเผยซอร์สโค้ดของ BrowseComp Long Context(เปิดในหน้าต่างใหม่) ซึ่งเป็นมาตรฐานใหม่สำหรับการประเมินการตอบคำถามในบริบทยาว ในเกณฑ์มาตรฐานนี้ โมเดลได้รับคำถามจากผู้ใช้ รายการผลการค้นหาที่เกี่ยวข้องจำนวนมาก และต้องตอบคำถามโดยอ้างอิงจากผลการค้นหาเหล่านั้น เราออกแบบ BrowseComp Long Context ให้มีความสมจริง ยาก และมีคำตอบที่ถูกต้องเชื่อถือได้ บนอินพุตที่มีขนาด 128K–256K โทเค็น GPT‑5 ให้คำตอบที่ถูกต้อง 89% จากการตอบทั้งหมด
ใน API โมเดล GPT‑5 ทั้งหมดสามารถรับโทเค็นอินพุุตได้สูงสุด 272,000 โทเค็น และปล่อยโทเค็นการให้เหตุผลและโทเค็นเอาต์พุตสูงสุด 128,000 โทเค็น รวมความยาวบริบททั้งหมด 400,000 โทเค็น
GPT‑5 มีความน่าเชื่อถือมากกว่าโมเดลก่อนหน้าของเรา เมื่อได้รับคำสั่งจากเกณฑ์มาตรฐาน LongFact และ FactScore GPT‑5 ทำข้อผิดพลาดด้านข้อเท็จจริงน้อยกว่า o3 ประมาณ 80% จึงเหมาะสมยิ่งขึ้นสำหรับกรณีการใช้งานที่ต้องการความถูกต้อง โดยเฉพาะในโค้ด ข้อมูล และการตัดสินใจ
คะแนนที่สูงกว่านั้นแย่ลง LongFact(เปิดในหน้าต่างใหม่) และ FActScore(เปิดในหน้าต่างใหม่) ประกอบด้วยคำถามปลายเปิดที่มุ่งหาข้อเท็จจริง เราใช้ตัวให้คะแนนตามหลัก LLM พร้อมเรียกดูเพื่อตรวจสอบข้อเท็จจริงในการตอบกลับจากคำสั่งเหล่านี้ และวัดสัดส่วนของการอ้างสิทธิ์ที่ไม่ถูกต้องตามข้อเท็จจริง คุณสามารถพบรายละเอียดการดำเนินการและการให้คะแนนได้ในการ์ดระบบ โมเดลการให้เหตุผลใช้ความพยายามสูงในการให้เหตุผล และการค้นหาไม่สามารถถูกเปิดใช้งานได้
โดยทั่วไปแล้ว GPT‑5 ได้รับการฝึกฝนให้มีความตระหนักรู้ข้อจำกัดของตนเองมากขึ้นและสามารถจัดการกับสถานการณ์ที่ไม่คาดคิดได้ดีขึ้น นอกจากนี้ พวกเรายังได้ฝึกอบรม GPT‑5 ให้มีความแม่นยำมากยิ่งขึ้นด้านคำถามเกี่ยวกับสุขภาพ (อ่านเพิ่มเติมได้ใน บล็อกการวิจัย ของเรา) เช่นเดียวกับโมเดลภาษาทั้งหมด เราขอแนะนำให้คุณตรวจสอบการทำงานของ GPT‑5 เมื่อมีความเสี่ยงสูง
นักพัฒนาสามารถควบคุมเวลาการคิดของ GPT‑5 ผ่านพารามิเตอร์ reasoning_effort ใน API นอกเหนือจากค่าก่อนหน้า—ต่ำ, ปานกลาง (ค่าเริ่มต้น) และ สูง—GPT‑5 ยังสนับสนุน ขั้นต่ำ ซึ่งช่วยลดการใช้เหตุผลของ GPT‑5 เพื่อให้สามารถตอบคำถามได้อย่างรวดเร็ว
ค่า reasoning_effort ที่สูงขึ้น จะเพิ่มคุณภาพสูงสุด ในขณะที่ค่าที่ต่ำกว่าจะเพิ่มความเร็วสูงสุด ไม่ใช่งานทุกงานที่จะได้รับประโยชน์อย่างเท่าเทียมกันจากการใช้เหตุผลเพิ่มเติม ดังนั้นเราจึงขอแนะนำให้ทดลองเพื่อดูว่างานใดเหมาะสมที่สุดสำหรับกรณีการใช้งานที่คุณสนใจ
ตัวอย่างเช่น การให้เหตุผลที่สูงกว่า ต่ำ เพิ่มการดึงข้อมูลบริบทที่ค่อนข้างง่ายเพียงเล็กน้อย แต่เพิ่มคะแนนเปอร์เซ็นต์ค่อนข้างมากให้กับ CharXiv Reasoning(เปิดในหน้าต่างใหม่) ซึ่งเป็นเกณฑ์มาตรฐานการให้เหตุผลด้วยภาพ
ความพยายามในการให้เหตุผลของ GPT‑5 นำมาซึ่งประโยชน์ที่แตกต่างกันในแต่ละงาน สำหรับ CharXiv Reasoning GPT‑5 ได้รับสิทธิ์ในการเข้าถึงเครื่องมือ Python
เพื่อช่วยกำหนดความยาวเริ่มต้นของคำตอบของ GPT‑5 เราได้เสนอให้มีพารามิเตอร์ API ตัวใหม่ที่ชื่อว่า verbosity (ความยาวของคำตอบ) ซึ่งรับค่าต่างๆ ดังนี้ low, medium (ค่าเริ่มต้น) และ high หากคำสั่งที่ชัดเจนขัดแย้งกับพารามิเตอร์ verbosity คำสั่งที่ชัดเจนจะมีความสำคัญมากกว่า ตัวอย่างเช่น หากคุณขอให้ GPT‑5 "เขียนเรียงความ 5 ย่อหน้า" คำตอบของโมเดลควรเป็น 5 ย่อหน้าเสมอโดยไม่คำนึงถึงระดับ verbosity (อย่างไรก็ตาม ย่อหน้าอาจยาวหรือสั้นกว่าได้)
การใช้คำฟุ่มเฟือย=ต่ำ
Verbosity=medium
Verbosity=high
หากได้รับคำสั่ง GPT‑5 จะเอาต์พุตข้อความคำนำที่ผู้ใช้มองเห็นได้ก่อนและระหว่างการเรียกใช้เครื่องมือ ข้อความที่มองเห็นได้เหล่านี้ช่วยให้ GPT‑5 สามารถสื่อสารบริการและความคืบหน้ากับผู้ใช้ ซึ่งแตกต่างจากข้อความให้เหตุผลที่ซ่อนอยู่ ช่วยให้ผู้ใช้ปลายทางเข้าใจแนวทางและเจตนาที่อยู่เบื้องหลังการเรียกใช้เครื่องมือ
เราขอแนะนำเครื่องมือประเภทใหม่—เครื่องมือที่กำหนดเอง—ซึ่งช่วยให้ GPT‑5 สามารถเรียกใช้เครื่องมือด้วยข้อความธรรมดาแทนที่จะเป็น JSON เพื่อจำกัด GPT‑5 ให้ปฏิบัติตามรูปแบบเครื่องมือที่กำหนดเอง นักพัฒนาสามารถจัดเตรียม regex หรือแม้แต่ ไวยากรณ์ปราศจากบริบท(เปิดในหน้าต่างใหม่) ที่ระบุไว้อย่างครบถ้วนยิ่งขึ้น
ก่อนหน้านี้ อินเทอร์เฟซของเราสำหรับเครื่องมือที่นักพัฒนากำหนดเอง จำเป็นต้องเรียกใช้ด้วย JSON ซึ่งเป็นรูปแบบทั่วไปที่ใช้โดย Web API และนักพัฒนาโดยทั่วไป อย่างไรก็ตาม การสร้างเอาต์พุต JSON ที่ถูกต้องจำเป็นต้องให้โมเดลหลีกเลี่ยงเครื่องหมายคำพูด เครื่องหมายทับขวา บรรทัดใหม่ และอักขระควบคุมอื่นๆ อย่างสมบูรณ์แบบ แม้ว่าโมเดลของเราจะได้รับการฝึกฝนมาเป็นอย่างดีในการสร้างเอาต์พุต JSON แต่เมื่ออินพุตที่ยาว เช่น โค้ดหลายร้อยบรรทัดหรือรายงาน 5 หน้า โอกาสที่จะเกิดข้อผิดพลาดก็จะเพิ่มขึ้น เมื่อมีเครื่องมือแบบกำหนดเอง GPT‑5 ก็จะสามารถเขียนอินพุตเครื่องมือเป็นข้อความธรรมดา โดยไม่ต้องแปลงอักขระทั้งหมดที่ต้องแปลง
บน SWE-bench Verified ที่ใช้เครื่องมือแบบกำหนดเองแทนการใช้เครื่องมือแบบ JSON นั้น GPT‑5 ให้คะแนนใกล้เคียงกัน
GPT‑5 ก้าวล้ำไปอีกขั้นในเรื่องความปลอดภัย และเป็นโมเดลที่แข็งแกร่ง เชื่อถือได้ และมีประโยชน์มากขึ้น GPT‑5 มีแนวโน้มที่สร้างข้อมูลผิดพลาดน้อยกว่าโมเดลก่อนหน้าของเราอย่างมีนัยสำคัญ สื่อสารการกระทำและความสามารถของตัวเองกับผู้ใช้อย่างตรงไปตรงมามากขึ้น และให้คำตอบที่เป็นประโยชน์ที่สุดเท่าที่จะเป็นไปได้ในขณะที่ยังคงอยู่ในขอบเขตความปลอดภัย คุณสามารถอ่านเพิ่มเติมได้ในบล็อกการวิจัยของเรา
GPT‑5 พร้อมใช้งานแล้วในแพลตฟอร์ม API สามขนาด: gpt-5, gpt-5-mini, และ gpt-5-nano มีให้บริการใน Responses API, Chat Completions API และเป็นค่าเริ่มต้นใน Codex CLI GPT‑5 มีราคาอยู่ที่ $1.25/1M โทเค็นอินพุตและ $10/1M โทเค็นเอาต์พุต, GPT‑5 mini มีราคาอยู่ที่ $0.25/1M โทเค็นอินพุต และ $2/1M โทเค็นเอาต์พุต, และ GPT‑5 nano มีราคาอยู่ที่ $0.05/1M โทเค็นอินพุต และ $0.40/1M โทเค็นเอาต์พุต
โมเดลเหล่านี้รองรับพารามิเตอร์ API reasoning_effort และ verbosity เช่นเดียวกับเครื่องมือแบบกำหนดเอง นอกจากนี้ ยังสนับสนุนการเรียกใช้เครื่องมือแบบขนาน เครื่องมือในตัว (เช่น การค้นหาเว็บ การค้นหาไฟล์ การสร้างภาพ และอีกมากมาย) คุณสมบัติหลักของ API (การสตรีม เอาต์พุตที่มีโครงสร้าง และอีกมากมาย) และคุณสมบัติที่ช่วยประหยัดค่าใช้จ่าย เช่น การแคชคำสั่งและ Batch API
GPT‑5 เวอร์ชันที่ไม่ใช้การให้เหตุผล ซึ่งใช้ใน ChatGPT มีให้บริการใน API ในชื่อ gpt-5-chat-latest โดยมีราคาอยู่ที่ 1.25 ดอลลาร์สหรัฐฯ ต่อ 1 ล้านโทเค็นอินพุุต และ 10 ดอลลาร์สหรัฐฯ ต่อ 1 ล้านโทเค็นเอาต์พุต
GPT‑5 กำลังเปิดตัวบนแพลตฟอร์มของ Microsoft รวมถึง Microsoft 365 Copilot, Copilot, GitHub Copilot และ Azure AI Foundry
ดูเอกสารประกอบ(เปิดในหน้าต่างใหม่) GPT‑5 รายละเอียดราคา(เปิดในหน้าต่างใหม่) และคู่มือการแจ้ง(เปิดในหน้าต่างใหม่) เพื่อเริ่มต้นใช้งาน
อัจฉริยะ
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94.6% | 91.1% | 85.2% | 88.9% | 92.7% | 46.4% | 40.2% | - |
| FrontierMath(with python tool only) | 26.3% | 22.1% | 9.6% | 15.8% | 15.4% | - | - | - |
| GPQA diamond(no tools) | 85.7% | 82.3% | 71.2% | 83.3% | 81.4% | 66.3% | 65.0% | 50.3% |
| HLE[1](no tools) | 24.8% | 16.7% | 8.7% | 20.2% | 14.7% | 5.4% | 3.7% | - |
| HMMT 2025(no tools) | 93.3% | 87.8% | 75.6% | 81.7% | 85.0% | 28.9% | 35.0% | - |
[1] มีความคลาดเคลื่อนเล็กน้อยกับตัวเลขที่รายงานในบล็อกโพสต์ก่อนหน้าของเรา เนื่องจากตัวเลขเหล่านั้นถูกประมวลผลบน HLE เวอร์ชันก่อนหน้า
มัลติโมดัล
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84.2% | 81.6% | 75.6% | 82.9% | 81.6% | 74.8% | 72.7% | 55.4% |
| MMMU-Pro(avg across standard and vision sets) | 78.4% | 74.1% | 62.6% | 76.4% | 73.4% | 60.3% | 58.9% | 33.0% |
| CharXiv reasoning(python enabled) | 81.1% | 75.5% | 62.7% | 78.6% | 72.0% | 56.7% | 56.8% | 40.5% |
| VideoMMMU, max frame 256 | 84.6% | 82.5% | 66.8% | 83.3% | 79.4% | 60.9% | 55.1% | 30.2% |
| ERQA | 65.7% | 62.9% | 50.1% | 64.0% | 56.5% | 44.3% | 42.3% | 26.5% |
การเขียนโค้ด
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | US$112K | US$75K | US$49K | US$86K | US$66K | US$34K | US$31K | US$9K |
| SWE-bench Verified[2] | 74.9% | 71.0% | 54.7% | 69.1% | 68.1% | 54.6% | 23.6% | - |
| Aider polyglot(diff) | 88.0% | 71.6% | 48.4% | 79.6% | 58.2% | 52.9% | 31.6% | 6.2% |
[2] เราได้ละเว้นปัญหา 23/500 ที่ไม่สามารถทำงานบนโครงสร้างพื้นฐานของเรา รายการ 23 ภารกิจทั้งหมดที่ถูกละเว้นคือ 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', และ 'sphinx-doc__sphinx-9367'
การปฏิบัติตามคำสั่ง
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69.6% | 62.3% | 54.9% | 60.4% | 57.5% | 46.2% | 42.2% | 31.1% |
| Internal API instruction following eval(hard) | 64.0% | 65.8% | 56.1% | 47.4% | 44.7% | 49.1% | 45.1% | 31.6% |
| COLLIE | 99.0% | 98.5% | 96.9% | 98.4% | 96.1% | 65.8% | 54.6% | 42.5% |
[3] หมายเหตุ: เราพบว่าตัวให้คะแนนค่าเริ่มต้นใน MultiChallenge (GPT-4o) มักจะให้คะแนนการตอบสนองของโมเดลผิดพลาดบ่อยครั้ง เราพบว่าการเปลี่ยนเครื่องคัดเกรดเป็นโมเดลการให้เหตุผล เช่น o3-mini ช่วยเพิ่มความแม่นยำในการให้คะแนนตัวอย่างที่เราได้ตรวจสอบอย่างมีนัยสำคัญ
การเรียกฟังก์ชัน
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62.6% | 60.0% | 41.0% | 64.8% | 60.2% | 56.0% | 51.0% | 14.0% |
| Tau2-bench retail | 81.1% | 78.3% | 62.3% | 80.2% | 70.5% | 74.0% | 66.0% | 21.5% |
| Tau2-bench telecom | 96.7% | 74.1% | 35.5% | 58.2% | 40.5% | 34.0% | 44.0% | 12.1% |
บริบทยาว
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95.2% | 84.3% | 43.2% | 55.0% | 56.4% | 57.2% | 47.2% | 36.6% |
| OpenAI-MRCR: 2 needle 256k | 86.8% | 58.8% | 34.9% | - | - | 56.2% | 45.5% | 22.6% |
| Graphwalks bfs <128k | 78.3% | 73.4% | 64.0% | 77.3% | 62.3% | 61.7% | 61.7% | 25.0% |
| Graphwalks parents <128k | 73.3% | 64.3% | 43.8% | 72.9% | 51.1% | 58.0% | 60.5% | 9.4% |
| BrowseComp Long Context 128k | 90.0% | 89.4% | 80.4% | 88.3% | 80.0% | 85.9% | 89.0% | 89.4% |
| BrowseComp Long Context 256k | 88.8% | 86.0% | 68.4% | - | - | 75.5% | 81.6% | 19.1% |
| VideoMME(long, with subtitle category) | 86.7% | 78.5% | 65.7% | 84.9% | 79.5% | 78.7% | 68.4% | 55.2% |
ภาพหลอน
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1.0% | 0.7% | 1.0% | 5.2% | 3.0% | 0.7% | 1.1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1.2% | 1.3% | 2.8% | 6.8% | 8.9% | 1.1% | 1.8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2.8% | 3.5% | 7.3% | 23.5% | 38.7% | 6.7% | 10.9% | - |


