ข้ามไปยังเนื้อหาหลัก
OpenAI

7 สิงหาคม 2568

ผลิตภัณฑ์

แนะนำ GPT‑5 สำหรับนักพัฒนา

โมเดลที่ดีที่สุดสำหรับการเขียนโค้ดและงานเอเจนต์

กำลังโหลด…

ภาพรวม

วันนี้เรากำลังเปิดตัว GPT‑5 ในแพลตฟอร์ม API ของเรา ซึ่งเป็นโมเดลที่ดีที่สุดของเราสำหรับการเขียนโค้ดและงานเชิงเอเจนต์

GPT‑5 เป็นเทคโนโลยีล้ำสมัย (SOTA) ในเกณฑ์มาตรฐานการเข้ารหัสที่สำคัญ โดยได้คะแนน 74.9% ด้าน SWE-Bench Verified และ 88% ด้าน Aider Polyglot เราได้ฝึกฝน GPT‑5 ให้เป็นผู้ร่วมงานที่แท้จริงในการเขียนโค้ด โปรแกรมนี้เชี่ยวชาญด้านการผลิตโค้ดคุณภาพสูงและการจัดการงานต่างๆ เช่น การแก้ไขข้อบกพร่อง การแก้ไขโค้ด และการตอบคำถามเกี่ยวกับโค้ดเบสที่ซับซ้อน โมเดลนี้สามารถควบคุมทิศทางและทำงานร่วมกันได้ โดยสามารถปฏิบัติตามคำแนะนำที่ละเอียดได้อย่างแม่นยำ และสามารถให้คำอธิบายล่วงหน้าเกี่ยวกับการกระทำของโมเดล ก่อนและระหว่างการเรียกใช้เครื่องมือ  โมเดลนี้ยังมีความเป็นเลิศในการเขียนโค้ดส่วนหน้า โดยสามารถเอาชนะ OpenAI o3 ในการพัฒนาเว็บส่วนหน้าได้ถึง 70% จากกรณีการทดสอบภายในทั้งหมด

เราได้ฝึกอบรม GPT‑5 บนงานโค้ดจริงโดยร่วมมือกับผู้ทดสอบกลุ่มแรกในสตาร์ทอัพและองค์กรต่างๆ Cursor กล่าวว่า GPT‑5 เป็น "โมเดลที่ชาญฉลาดที่สุดที่พวกเขาเคยใช้" และ "มีความชาญฉลาดอย่างน่าทึ่ง ควบคุมง่าย และยังมีบุคลิกที่ไม่เคยเห็นในโมเดลอื่น" GPT‑5 ที่ใช้ร่วมกันบน Windsurf เป็น SOTA ในการประเมินของพวกเขาและ “มีอัตราข้อผิดพลาดในการเรียกใช้เครื่องมือเพียงครึ่งเดียวเมื่อเทียบกับโมเดลแนวหน้าอื่นๆ” Vercel กล่าวว่า “นี่คือโมเดล AI ส่วนหน้าที่ดีที่สุด โดยมีประสิทธิภาพสูงสุดทั้งในด้านสุนทรียศาสตร์และคุณภาพของโค้ด ทำให้เป็นโมเดลที่โดดเด่นในประเภทของตัวเอง”

GPT‑5 ยังเป็นเลิศในงานเชิงเอเจนต์ที่ต่อเนื่องยาวนาน โดยบรรลุผลลัพธ์ SOTA บน τ2-bench telecom (96.7%) ซึ่งเป็นเกณฑ์มาตรฐานการเรียกใช้เครื่องมือที่เปิดตัวเมื่อ 2 เดือนที่แล้ว ความชาญฉลาดของเครื่องมือที่ได้รับการปรับปรุงของ GPT‑5 นี้ช่วยให้สามารถเชื่อมโยงการเรียกใช้เครื่องมือหลายสิบรายการเข้าด้วยกันได้อย่างน่าเชื่อถือ ทั้งแบบเป็นลำดับและแบบขนาน โดยไม่หลงทาง ทำให้สามารถดำเนินการงานที่ซับซ้อนในโลกแห่งความเป็นจริงได้ดียิ่งขึ้นตั้งแต่ต้นจนจบ นอกจากนี้ ยังปฏิบัติตามคำแนะนำเครื่องมือได้แม่นยำยิ่งขึ้น ดีกว่าในด้านการจัดการข้อผิดพลาดของเครื่องมือ และยอดเยี่ยมในการดึงเนื้อหาบริบทที่ยาว Manus กล่าวว่า GPT‑5 "บรรลุประสิทธิภาพที่ดีที่สุดเท่าที่ [พวกเขา] เคยเห็นจากโมเดลเดียวในเกณฑ์มาตรฐานภายใน [ของพวกเขา]" Notion กล่าวว่า “การตอบสนองที่รวดเร็ว [ของโมเดล] โดยเฉพาะในโหมดการใช้เหตุผลต่ำ ทำให้ GPT‑5 เป็นโมเดลที่เหมาะสมเมื่อคุณต้องการแก้ไขงานที่ซับซ้อนในครั้งเดียว” Inditex ได้แบ่งปันว่า “สิ่งที่ทำให้ [GPT‑5] โดดเด่นอย่างแท้จริงคือความลึกซึ้งของการให้เหตุผล: คำตอบที่มีความละเอียดอ่อนและหลายชั้นซึ่งสะท้อนถึงความเข้าใจในเนื้อหาสาระอย่างแท้จริง”

เรากำลังแนะนำฟีเจอร์ใหม่ๆ ใน API ของเราเพื่อให้นักพัฒนามีการควบคุมการตอบสนองของโมเดลมากขึ้น GPT‑5 สนับสนุนพารามิเตอร์ การใช้คำฟุ่มเฟื่อย ใหม่ (ค่า: ต่ำ, ปานกลาง, สูง) เพื่อช่วยควบคุมว่าคำตอบจะสั้นและตรงประเด็น หรือยาวและครอบคลุม พารามิเตอร์ reasoning_effort ของ GPT‑5 สามารถตั้งค่าให้ต่ำสุดเพื่อให้ได้คำตอบย้อนกลับเร็วขึ้น โดยไม่ต้องผ่านการให้เหตุผลอย่างละเอียดก่อน นอกจากนี้ เรายังได้เพิ่มประเภทเครื่องมือใหม่ ซึ่งเป็นเครื่องมือที่กำหนดเองเพื่อให้ GPT‑5 สามารถเรียกใช้เครื่องมือด้วยข้อความธรรมดาแทนที่จะเป็น JSON เครื่องมือที่กำหนดเองสนับสนุนการจำกัดโดยไวยากรณ์ที่ปราศจากบริบทซึ่งนักพัฒนาจัดหาให้

เรากำลังเปิดตัว GPT‑5 สามขนาดใน API ได้แก่gpt-5, gpt-5-mini, และ gpt-5-nanoเพื่อให้นักพัฒนามีความยืดหยุ่นมากขึ้นในการปรับสมดุลระหว่างประสิทธิภาพ ต้นทุน และเวลาในการตอบสนอง GPT‑5 ใน ChatGPT เป็นระบบที่ประกอบด้วยโมเดลการให้เหตุผล โมเดลที่ไม่ใช่การให้เหตุผล และโมเดลเราเตอร์ แต่ GPT‑5 ในแพลตฟอร์ม API เป็นโมเดลการให้เหตุผลที่ขับเคลื่อนประสิทธิภาพสูงสุดใน ChatGPT ที่น่าสังเกตคือ GPT‑5 ที่มีการใช้เหตุผลน้อยที่สุดเป็นโมเดลที่แตกต่างจากโมเดลที่ไม่มีการใช้เหตุผลใน ChatGPT และได้รับการปรับแต่งให้เหมาะสมยิ่งขึ้นสำหรับนักพัฒนา โมเดลที่ไม่มีการใช้เหตุผลที่ใช้ใน ChatGPT มีให้ใช้งานในชื่อ gpt-5-chat-latest

โปรดดู บล็อกวิจัยของเรา สำหรับ GPT‑5 ใน ChatGPT และเรียนรู้เพิ่มเติมเกี่ยวกับการปรับปรุงอื่นๆ ของ ChatGPT สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีที่องค์กรต่างๆ รู้สึกตื่นเต้นที่จะใช้ GPT‑5 โปรดดู บล็อกองค์กรของเรา

การเขียนโค้ด

GPT‑5 เป็นโมเดลการเขียนโค้ดที่แข็งแกร่งที่สุดที่เราเคยเปิดตัวมา โดยมีประสิทธิภาพเหนือกว่า o3 ในเกณฑ์มาตรฐานการเขียนโค้ดและกรณีการใช้งานจริง และได้รับการปรับแต่งอย่างละเอียดเพื่อให้โดดเด่นในผลิตภัณฑ์การเขียนโค้ดแบบเอเจนต์ เช่น Cursor, Windsurf, GitHub Copilot และ Codex CLI GPT‑5 สร้างความประทับใจให้กับผู้ทดสอบอัลฟ่าของเรา โดยทำลายสถิติการประเมินภายในส่วนตัวหลายรายการ 

ข้อเสนอแนะเบื้องต้นเกี่ยวกับ GPT‑5 สำหรับงานเขียนโค้ดในสถานการณ์จริง

“GPT-5 เป็นโมเดลการเขียนโค้ดที่ชาญฉลาดที่สุดที่เราเคยใช้ ทีมของเราพบว่า GPT-5 มีความฉลาดอย่างน่าทึ่ง ควบคุมได้ง่าย และแม้กระทั่งมีบุคลิกที่เราไม่เคยเห็นในโมเดลอื่นๆ ไม่เพียงแต่สามารถจับข้อบกพร่องที่ยุ่งยากและซ่อนอยู่อย่างลึกซึ้ง แต่ยังสามารถเรียกใช้เอเจนต์พื้นหลังที่ยาวและหลายเทิร์นเพื่อทำงานที่ซับซ้อนจนเสร็จสิ้น—ปัญหาประเภทที่เคยทำให้โมเดลอื่นติดขัด มันกลายเป็นเครื่องมือที่เราใช้ทุกวันสำหรับทุกอย่าง ตั้งแต่การกำหนดขอบเขตและการวางแผน PR ไปจนถึงการสร้างแบบครบวงจรให้เสร็จสมบูรณ์
Michael Truell ผู้ร่วมก่อตั้งและซีอีโอของ Cursor

ใน SWE-Bench Verified ซึ่งเป็นการประเมินตามงานวิศวกรรมซอฟต์แวร์ในโลกแห่งความเป็นจริง GPT‑5 ได้คะแนน 74.9% เพิ่มขึ้นจาก 69.1% ของ o3 ที่น่าสังเกตคือ GPT‑5 ได้คะแนนสูงด้วยประสิทธิภาพและความเร็วที่มากขึ้น: เมื่อเทียบกับ o3 ที่ใช้ความพยายามในการให้เหตุผลสูง GPT‑5 ใช้โทเค็นเอาต์พุตน้อยลง 22% และเรียกใช้เครื่องมือน้อยลง 45%

ใน SWE-bench Verified โมเดลจะได้รับที่เก็บโค้ดและคำอธิบายปัญหา และต้องสร้างแพตช์เพื่อแก้ไขปัญหา ป้ายข้อความแสดงระดับความพยายามในการให้เหตุผล คะแนนของเราละเว้นปัญหา 23 จาก 500 ประการที่วิธีแก้ไขปัญหานั้นไม่ผ่านโครงสร้างพื้นฐานของเราอย่างน่าเชื่อถือ GPT‑5 ได้รับคำสั่งสั้นๆ ที่เน้นการตรวจสอบโซลูชันอย่างถี่ถ้วน คำสั่งเดียวกันนี้ไม่เป็นประโยชน์ต่อ o3

ใน Aider Polyglot ซึ่งเป็นการประเมินการแก้ไขโค้ด GPT‑5 ได้สร้างสถิติใหม่ที่ 88% โดยลดอัตราความผิดพลาดลงหนึ่งในสามเมื่อเทียบกับ o3

ใน Aider polygot(เปิดในหน้าต่างใหม่) (diff) โมเดลได้รับแบบฝึกหัดการเขียนโค้ดจาก Exercism และต้องเขียนคำตอบเป็น code diff โมเดลการให้เหตุผลถูกดำเนินการด้วยความพยายามในการให้เหตุผลสูง

นอกจากนี้ เรายังพบว่า GPT‑5 มีประสิทธิภาพยอดเยี่ยมในการเจาะลึกโค้ดเบสเพื่อตอบคำถามเกี่ยวกับวิธีการทำงานของส่วนต่างๆ หรือการทำงานร่วมกัน ในโค้ดเบสที่ซับซ้อนพอๆ กับสแต็กการเรียนรู้แบบเสริมแรงของ OpenAI เราพบว่า GPT‑5 สามารถช่วยเราให้เหตุผลและตอบคำถามเกี่ยวกับโค้ดของเรา ซึ่งช่วยเร่งการทำงานประจำวันของเรา 

วิศวกรรมส่วนหน้า

เมื่อผลิตโค้ดส่วนหน้าสำหรับเว็บแอป GPT‑5 จะมีความใส่ใจในด้านความสวยงาม มีความทะเยอทะยาน และมีความแม่นยำมากขึ้น ในการเปรียบเทียบแบบเคียงข้างกันกับ o3 ผู้ทดสอบของเราเลือก GPT‑5 ถึง 70% ของการเลือกทั้งหมด

ต่อไปนี้คือตัวอย่างที่สนุกสนานและคัดสรรมาอย่างดีของสิ่งที่ GPT‑5 สามารถทำได้ด้วยคำสั่งเดียว:

พร้อมต์: โปรดสร้างหน้า Landing Page ที่สวยงามและสมจริงสำหรับบริการที่มอบสิทธิ์สมัครสมาชิกรายเดือน $200 ให้กับผู้ที่ชื่นชอบกาแฟอย่างแท้จริง พร้อมให้เช่าอุปกรณ์และสอนการคั่วกาแฟและชงเอสเพรสโซชั้นเลิศ กลุ่มเป้าหมายคือคนวัยกลางคนในเขตเบย์แอเรีย ซึ่งอาจทำงานด้านเทคโนโลยี มีการศึกษา มีรายได้ที่ใช้จ่ายได้ และหลงใหลในศาสตร์และศิลป์ของกาแฟ เพิ่มประสิทธิภาพสำหรับอัตราการแปลงสำหรับการสมัครใช้งาน 6 เดือน

ดูตัวอย่างเพิ่มเติมโดย GPT‑5 ในแกลเลอรีของเราที่นี่(เปิดในหน้าต่างใหม่)

การทำงานร่วมกันในการเขียนโค้ด

GPT‑5 เป็นผู้ร่วมงานที่ดีกว่า โดยเฉพาะในผลิตภัณฑ์การเขียนโค้ดแบบเอเจนต์ เช่น Cursor, Windsurf, GitHub Copilot และ Codex CLI ในขณะที่ทำงาน GPT‑5 สามารถส่งมอบแผน การอัปเดต และการสรุประหว่างการเรียกใช้เครื่องมือ เมื่อเทียบกับโมเดลก่อนหน้าของเรา GPT‑5 มีลักษณะการทำงานเชิงรุกมากขึ้นในการทำงานที่ท้าทายให้เสร็จสิ้น โดยไม่หยุดรอการอนุมัติจากคุณหรือลังเลกับความซับซ้อนสูง

นี่คือตัวอย่างลักษณะของ GPT‑5 ในขณะที่จัดการกับงานที่ซับซ้อน (ซึ่งในกรณีนี้คือการสร้างเว็บไซต์สำหรับร้านอาหาร):

หลังจากที่ผู้ใช้ขอให้สร้างเว็บไซต์สำหรับร้านอาหารของตน GPT‑5 จะเสนอแผนงานอย่างรวดเร็ว วางโครงสร้างแอป ติดตั้งสิ่งที่ต้องพึ่งพา สร้างเนื้อหาเว็บไซต์ รันการสร้างเพื่อตรวจสอบข้อผิดพลาดในการคอมไพล์ สรุปงานที่ทำ และแนะนำขั้นตอนถัดไปที่เป็นไปได้ วิดีโอนี้ถูกเร่งความเร็วประมาณ 3 เท่าเพื่อประหยัดเวลารอของคุณ และระยะเวลาทั้งหมดในการสร้างเว็บไซต์คือประมาณสามนาที

งานเชิงเอเจนต์

นอกเหนือจากการเขียนโค้ดแบบเอเจนต์แล้ว GPT‑5 ยังทำงานได้ดีกว่าในงานแบบเอเจนต์โดยทั่วไป GPT‑5 สร้างสถิติใหม่ในเกณฑ์มาตรฐานของการปฏิบัติตามคำสั่ง (69.6% ด้าน Scale MultiChallenge ซึ่งได้รับการจัดอันดับโดย o3‑mini) และการเรียกใช้เครื่องมือ (96.7% ด้าน τ2-bench telecom) ความชาญฉลาดของเครื่องมือที่ได้รับการปรับปรุงช่วยให้ GPT‑5 สามารถเชื่อมโยงการกระทำเข้าด้วยกันได้อย่างน่าเชื่อถือมากขึ้นเพื่อทำงานในโลกแห่งความเป็นจริงให้สำเร็จ

ข้อเสนอแนะเบื้องต้นเกี่ยวกับ GPT‑5 สำหรับงานเชิงเอเจนต์

“GPT-5 เป็นก้าวกระโดดครั้งใหญ่ มันบรรลุประสิทธิภาพที่ดีที่สุดที่เราเคยเห็นจากโมเดลเดียวในเกณฑ์มาตรฐานภายในของเรา GPT-5 โดดเด่นในงานตัวแทนต่างๆ แม้กระทั่งก่อนที่เราจะปรับแต่งโค้ดบรรทัดเดียวหรือปรับแต่งคำสั่ง คำนำใหม่และการควบคุมการใช้เครื่องมือที่แม่นยำยิ่งขึ้นเปิดการใช้งานการก้าวกระโดดอย่างมีนัยสำคัญในด้านเสถียรภาพและความสามารถในการบังคับทิศทางของเอเจนต์ของเรา"
Yichao ‘Peak’ Ji ผู้ร่วมก่อตั้งและผู้บริหารฝ่ายวิทยาศาสตร์ที่ Manus

การปฏิบัติตามคำสั่ง

GPT‑5 ปฏิบัติตามคำแนะนำได้อย่างน่าเชื่อถือกว่ารุ่นก่อนๆ โดยได้คะแนนสูงในด้าน COLLIE, Scale MultiChallenge และการประเมินการปฏิบัติตามคำสั่งภายในของเรา

ใน COLLIE(เปิดในหน้าต่างใหม่) โมเดลต้องเขียนข้อความที่ตรงตามข้อจำกัดต่างๆ ใน Scale MultiChallenge(เปิดในหน้าต่างใหม่) โมเดลจะถูกท้าทายในการสนทนาหลายรอบเพื่อใช้ข้อมูลสี่ประเภทจากข้อความก่อนหน้าอย่างเหมาะสม คะแนนของเรามาจากการใช้ o3‑mini เป็นตัวให้คะแนน ซึ่งมีความแม่นยำมากกว่า GPT‑4o ในการประเมินการปฏิบัติตามคำสั่งของ OpenAI API ภายในของเรา โมเดลต้องปฏิบัติตามคำสั่งยากซึ่งได้มาจากข้อเสนอแนะจริงจากนักพัฒนา โมเดลการให้เหตุผลถูกดำเนินการด้วยความพยายามสูงในการให้เหตุผล

การเรียกใช้เครื่องมือ

พวกเราทำงานอย่างหนักเพื่อปรับปรุงการเรียกใช้เครื่องมือในวิธีที่สำคัญต่อนักพัฒนา GPT‑5 มีความสามารถที่ดีกว่าในการปฏิบัติตามคำแนะนำของเครื่องมือ จัดการข้อผิดพลาดของเครื่องมือได้ดีกว่า และเรียกใช้เครื่องมือหลายตัวในเชิงรุกทั้งแบบลำดับและแบบขนานได้ดีกว่า เมื่อได้รับคำสั่ง GPT‑5 ยังสามารถส่งข้อความตั้งต้นก่อนและระหว่างการเรียกใช้เครื่องมือเพื่ออัปเดตผู้ใช้เกี่ยวกับความคืบหน้าในระหว่างงานเชิงเอเจนต์ที่ยาวนานขึ้น

เมื่อสองเดือนก่อน τ2-bench telecom ได้รับการเผยแพร่โดย Sierra.ai ในฐานะเกณฑ์มาตรฐานการใช้เครื่องมือที่ท้าทาย ซึ่งเน้นให้เห็นว่า ประสิทธิภาพของโมเดลภาษาลดลงอย่างมีนัยสำคัญเมื่อโต้ตอบกับสถานะของสภาพแวดล้อมที่ผู้ใช้สามารถเปลี่ยนแปลง ใน การเผยแพร่(เปิดในหน้าต่างใหม่)ของพวกเขา ไม่มีโมเดลใดที่ได้คะแนนเกิน 49% GPT‑5 ได้คะแนน 97%

ใน τ2-bench(เปิดในหน้าต่างใหม่) โมเดลต้องใช้เครื่องมือเพื่อทำงานบริการลูกค้าให้สำเร็จ ซึ่งอาจมีผู้ใช้ที่สามารถสื่อสารและดำเนินการกับสถานะโลก โมเดลการให้เหตุผลถูกดำเนินการด้วยความพยายามในการให้เหตุผลสูง

GPT‑5 แสดงให้เห็นการปรับปรุงประสิทธิภาพในบริบทที่ยาวได้อย่างชัดเจนเช่นกัน ใน OpenAI-MRCR ซึ่งเป็นมาตรวัดการดึงข้อมูลในบริบทยาว GPT‑5 มีประสิทธิภาพเหนือกว่า o3 และ GPT‑4.1 โดยมีส่วนต่างที่เพิ่มขึ้นอย่างมาก เมื่อความยาวของอินพุตเพิ่มขึ้น

ใน OpenAI-MRCR(เปิดในหน้าต่างใหม่) (การแก้ปัญหาการอ้างอิงร่วมหลายรอบ) คำขอของผู้ใช้ “needle” ที่เหมือนกันหลายรายการถูกแทรกลงใน “haystacks” ของคำขอและการตอบสนองที่คล้ายคลึงกันที่ยาว และโมเดลจะถูกขอให้สร้างการตอบสนองต่อ i-th needle อัตราส่วนการจับคู่เฉลี่ยวัดอัตราส่วนการจับคู่สตริงเฉลี่ยระหว่างคำตอบของโมเดลและคำตอบที่ถูกต้อง จุดที่โทเค็นอินพุตสูงสุด 256k แสดงถึงค่าเฉลี่ยของโทเค็นอินพุตในช่วง 128k–256k และอื่นๆ ในที่นี้ 256k หมายถึง 256 * 1,024 = 262,114 โทเค็น โมเดลการให้เหตุผลถูกดำเนินการด้วยความพยายามในการให้เหตุผลสูง

เรายังเปิดเผยซอร์สโค้ดของ BrowseComp Long Context(เปิดในหน้าต่างใหม่) ซึ่งเป็นมาตรฐานใหม่สำหรับการประเมินการตอบคำถามในบริบทยาว ในเกณฑ์มาตรฐานนี้ โมเดลได้รับคำถามจากผู้ใช้ รายการผลการค้นหาที่เกี่ยวข้องจำนวนมาก และต้องตอบคำถามโดยอ้างอิงจากผลการค้นหาเหล่านั้น เราออกแบบ BrowseComp Long Context ให้มีความสมจริง ยาก และมีคำตอบที่ถูกต้องเชื่อถือได้ บนอินพุตที่มีขนาด 128K–256K โทเค็น GPT‑5 ให้คำตอบที่ถูกต้อง 89% จากการตอบทั้งหมด

ใน API โมเดล GPT‑5 ทั้งหมดสามารถรับโทเค็นอินพุุตได้สูงสุด 272,000 โทเค็น และปล่อยโทเค็นการให้เหตุผลและโทเค็นเอาต์พุตสูงสุด 128,000 โทเค็น รวมความยาวบริบททั้งหมด 400,000 โทเค็น

ข้อเท็จจริง

GPT‑5 มีความน่าเชื่อถือมากกว่าโมเดลก่อนหน้าของเรา เมื่อได้รับคำสั่งจากเกณฑ์มาตรฐาน LongFact และ FactScore GPT‑5 ทำข้อผิดพลาดด้านข้อเท็จจริงน้อยกว่า o3 ประมาณ 80% จึงเหมาะสมยิ่งขึ้นสำหรับกรณีการใช้งานที่ต้องการความถูกต้อง โดยเฉพาะในโค้ด ข้อมูล และการตัดสินใจ

คะแนนที่สูงกว่านั้นแย่ลง LongFact(เปิดในหน้าต่างใหม่) และ FActScore(เปิดในหน้าต่างใหม่) ประกอบด้วยคำถามปลายเปิดที่มุ่งหาข้อเท็จจริง เราใช้ตัวให้คะแนนตามหลัก LLM พร้อมเรียกดูเพื่อตรวจสอบข้อเท็จจริงในการตอบกลับจากคำสั่งเหล่านี้ และวัดสัดส่วนของการอ้างสิทธิ์ที่ไม่ถูกต้องตามข้อเท็จจริง คุณสามารถพบรายละเอียดการดำเนินการและการให้คะแนนได้ในการ์ดระบบ โมเดลการให้เหตุผลใช้ความพยายามสูงในการให้เหตุผล และการค้นหาไม่สามารถถูกเปิดใช้งานได้

โดยทั่วไปแล้ว GPT‑5 ได้รับการฝึกฝนให้มีความตระหนักรู้ข้อจำกัดของตนเองมากขึ้นและสามารถจัดการกับสถานการณ์ที่ไม่คาดคิดได้ดีขึ้น นอกจากนี้ พวกเรายังได้ฝึกอบรม GPT‑5 ให้มีความแม่นยำมากยิ่งขึ้นด้านคำถามเกี่ยวกับสุขภาพ (อ่านเพิ่มเติมได้ใน บล็อกการวิจัย ของเรา) เช่นเดียวกับโมเดลภาษาทั้งหมด เราขอแนะนำให้คุณตรวจสอบการทำงานของ GPT‑5 เมื่อมีความเสี่ยงสูง

คุณสมบัติใหม่ๆ

ความพยายามในการใช้เหตุผลน้อยที่สุด

นักพัฒนาสามารถควบคุมเวลาการคิดของ GPT‑5 ผ่านพารามิเตอร์ reasoning_effort ใน API นอกเหนือจากค่าก่อนหน้า—ต่ำ, ปานกลาง (ค่าเริ่มต้น) และ สูง—GPT‑5 ยังสนับสนุน ขั้นต่ำ ซึ่งช่วยลดการใช้เหตุผลของ GPT‑5 เพื่อให้สามารถตอบคำถามได้อย่างรวดเร็ว

ค่า reasoning_effort ที่สูงขึ้น จะเพิ่มคุณภาพสูงสุด ในขณะที่ค่าที่ต่ำกว่าจะเพิ่มความเร็วสูงสุด ไม่ใช่งานทุกงานที่จะได้รับประโยชน์อย่างเท่าเทียมกันจากการใช้เหตุผลเพิ่มเติม ดังนั้นเราจึงขอแนะนำให้ทดลองเพื่อดูว่างานใดเหมาะสมที่สุดสำหรับกรณีการใช้งานที่คุณสนใจ

ตัวอย่างเช่น การให้เหตุผลที่สูงกว่า ต่ำ เพิ่มการดึงข้อมูลบริบทที่ค่อนข้างง่ายเพียงเล็กน้อย แต่เพิ่มคะแนนเปอร์เซ็นต์ค่อนข้างมากให้กับ CharXiv Reasoning(เปิดในหน้าต่างใหม่) ซึ่งเป็นเกณฑ์มาตรฐานการให้เหตุผลด้วยภาพ

ความพยายามในการให้เหตุผลของ GPT‑5 นำมาซึ่งประโยชน์ที่แตกต่างกันในแต่ละงาน สำหรับ CharXiv Reasoning GPT‑5 ได้รับสิทธิ์ในการเข้าถึงเครื่องมือ Python

ความเยิ่นเย้อ

เพื่อช่วยกำหนดความยาวเริ่มต้นของคำตอบของ GPT‑5 เราได้เสนอให้มีพารามิเตอร์ API ตัวใหม่ที่ชื่อว่า verbosity (ความยาวของคำตอบ) ซึ่งรับค่าต่างๆ ดังนี้ low, medium (ค่าเริ่มต้น) และ high หากคำสั่งที่ชัดเจนขัดแย้งกับพารามิเตอร์ verbosity คำสั่งที่ชัดเจนจะมีความสำคัญมากกว่า ตัวอย่างเช่น หากคุณขอให้ GPT‑5 "เขียนเรียงความ 5 ย่อหน้า" คำตอบของโมเดลควรเป็น 5 ย่อหน้าเสมอโดยไม่คำนึงถึงระดับ verbosity (อย่างไรก็ตาม ย่อหน้าอาจยาวหรือสั้นกว่าได้)

การใช้คำฟุ่มเฟือย=ต่ำ

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

ข้อความตั้งต้นก่อนการเรียกใช้เครื่องมือ

หากได้รับคำสั่ง GPT‑5 จะเอาต์พุตข้อความคำนำที่ผู้ใช้มองเห็นได้ก่อนและระหว่างการเรียกใช้เครื่องมือ ข้อความที่มองเห็นได้เหล่านี้ช่วยให้ GPT‑5 สามารถสื่อสารบริการและความคืบหน้ากับผู้ใช้ ซึ่งแตกต่างจากข้อความให้เหตุผลที่ซ่อนอยู่ ช่วยให้ผู้ใช้ปลายทางเข้าใจแนวทางและเจตนาที่อยู่เบื้องหลังการเรียกใช้เครื่องมือ

เครื่องมือที่ปรับแต่งเอง

เราขอแนะนำเครื่องมือประเภทใหม่—เครื่องมือที่กำหนดเอง—ซึ่งช่วยให้ GPT‑5 สามารถเรียกใช้เครื่องมือด้วยข้อความธรรมดาแทนที่จะเป็น JSON เพื่อจำกัด GPT‑5 ให้ปฏิบัติตามรูปแบบเครื่องมือที่กำหนดเอง นักพัฒนาสามารถจัดเตรียม regex หรือแม้แต่ ไวยากรณ์ปราศจากบริบท(เปิดในหน้าต่างใหม่) ที่ระบุไว้อย่างครบถ้วนยิ่งขึ้น

ก่อนหน้านี้ อินเทอร์เฟซของเราสำหรับเครื่องมือที่นักพัฒนากำหนดเอง จำเป็นต้องเรียกใช้ด้วย JSON ซึ่งเป็นรูปแบบทั่วไปที่ใช้โดย Web API และนักพัฒนาโดยทั่วไป อย่างไรก็ตาม การสร้างเอาต์พุต JSON ที่ถูกต้องจำเป็นต้องให้โมเดลหลีกเลี่ยงเครื่องหมายคำพูด เครื่องหมายทับขวา บรรทัดใหม่ และอักขระควบคุมอื่นๆ อย่างสมบูรณ์แบบ แม้ว่าโมเดลของเราจะได้รับการฝึกฝนมาเป็นอย่างดีในการสร้างเอาต์พุต JSON แต่เมื่ออินพุตที่ยาว เช่น โค้ดหลายร้อยบรรทัดหรือรายงาน 5 หน้า โอกาสที่จะเกิดข้อผิดพลาดก็จะเพิ่มขึ้น เมื่อมีเครื่องมือแบบกำหนดเอง GPT‑5 ก็จะสามารถเขียนอินพุตเครื่องมือเป็นข้อความธรรมดา โดยไม่ต้องแปลงอักขระทั้งหมดที่ต้องแปลง

บน SWE-bench Verified ที่ใช้เครื่องมือแบบกำหนดเองแทนการใช้เครื่องมือแบบ JSON นั้น GPT‑5 ให้คะแนนใกล้เคียงกัน

ความปลอดภัย

GPT‑5 ก้าวล้ำไปอีกขั้นในเรื่องความปลอดภัย และเป็นโมเดลที่แข็งแกร่ง เชื่อถือได้ และมีประโยชน์มากขึ้น GPT‑5 มีแนวโน้มที่สร้างข้อมูลผิดพลาดน้อยกว่าโมเดลก่อนหน้าของเราอย่างมีนัยสำคัญ สื่อสารการกระทำและความสามารถของตัวเองกับผู้ใช้อย่างตรงไปตรงมามากขึ้น และให้คำตอบที่เป็นประโยชน์ที่สุดเท่าที่จะเป็นไปได้ในขณะที่ยังคงอยู่ในขอบเขตความปลอดภัย คุณสามารถอ่านเพิ่มเติมได้ในบล็อกการวิจัยของเรา

การพร้อมใช้งานและการกำหนดราคา

GPT‑5 พร้อมใช้งานแล้วในแพลตฟอร์ม API สามขนาด: gpt-5, gpt-5-mini, และ gpt-5-nano มีให้บริการใน Responses API, Chat Completions API และเป็นค่าเริ่มต้นใน Codex CLI GPT‑5 มีราคาอยู่ที่ $1.25/1M โทเค็นอินพุตและ $10/1M โทเค็นเอาต์พุต, GPT‑5 mini มีราคาอยู่ที่ $0.25/1M โทเค็นอินพุต และ $2/1M โทเค็นเอาต์พุต, และ GPT‑5 nano มีราคาอยู่ที่ $0.05/1M โทเค็นอินพุต และ $0.40/1M โทเค็นเอาต์พุต

โมเดลเหล่านี้รองรับพารามิเตอร์ API reasoning_effort และ verbosity เช่นเดียวกับเครื่องมือแบบกำหนดเอง นอกจากนี้ ยังสนับสนุนการเรียกใช้เครื่องมือแบบขนาน เครื่องมือในตัว (เช่น การค้นหาเว็บ การค้นหาไฟล์ การสร้างภาพ และอีกมากมาย) คุณสมบัติหลักของ API (การสตรีม เอาต์พุตที่มีโครงสร้าง และอีกมากมาย) และคุณสมบัติที่ช่วยประหยัดค่าใช้จ่าย เช่น การแคชคำสั่งและ Batch API

GPT‑5 เวอร์ชันที่ไม่ใช้การให้เหตุผล ซึ่งใช้ใน ChatGPT มีให้บริการใน API ในชื่อ gpt-5-chat-latest โดยมีราคาอยู่ที่ 1.25 ดอลลาร์สหรัฐฯ ต่อ 1 ล้านโทเค็นอินพุุต และ 10 ดอลลาร์สหรัฐฯ ต่อ 1 ล้านโทเค็นเอาต์พุต

GPT‑5 กำลังเปิดตัวบนแพลตฟอร์มของ Microsoft รวมถึง Microsoft 365 Copilot, Copilot, GitHub Copilot และ Azure AI Foundry

เกณฑ์มาตรฐานที่ละเอียด

อัจฉริยะ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94.6%91.1%85.2%88.9%92.7%46.4%40.2%-
FrontierMath(with python tool only)26.3%22.1%9.6%15.8%15.4%---
GPQA diamond(no tools)85.7%82.3%71.2%83.3%81.4%66.3%65.0%50.3%
HLE[1](no tools)24.8%16.7%8.7%20.2%14.7%5.4%3.7%-
HMMT 2025(no tools)93.3%87.8%75.6%81.7%85.0%28.9%35.0%-

[1] มีความคลาดเคลื่อนเล็กน้อยกับตัวเลขที่รายงานในบล็อกโพสต์ก่อนหน้าของเรา เนื่องจากตัวเลขเหล่านั้นถูกประมวลผลบน HLE เวอร์ชันก่อนหน้า

มัลติโมดัล
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84.2%81.6%75.6%82.9%81.6%74.8%72.7%55.4%
MMMU-Pro(avg across standard and vision sets)78.4%74.1%62.6%76.4%73.4%60.3%58.9%33.0%
CharXiv reasoning(python enabled)81.1%75.5%62.7%78.6%72.0%56.7%56.8%40.5%
VideoMMMU, max frame 25684.6%82.5%66.8%83.3%79.4%60.9%55.1%30.2%
ERQA65.7%62.9%50.1%64.0%56.5%44.3%42.3%26.5%
การเขียนโค้ด
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding TasksUS$112KUS$75KUS$49KUS$86KUS$66KUS$34KUS$31KUS$9K
SWE-bench Verified[2]74.9%71.0%54.7%69.1%68.1%54.6%23.6%-
Aider polyglot(diff)88.0%71.6%48.4%79.6%58.2%52.9%31.6%6.2%

[2] เราได้ละเว้นปัญหา 23/500 ที่ไม่สามารถทำงานบนโครงสร้างพื้นฐานของเรา รายการ 23 ภารกิจทั้งหมดที่ถูกละเว้นคือ 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', และ 'sphinx-doc__sphinx-9367'

การปฏิบัติตามคำสั่ง
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69.6%62.3%54.9%60.4%57.5%46.2%42.2%31.1%
Internal API instruction following eval(hard)64.0%65.8%56.1%47.4%44.7%49.1%45.1%31.6%
COLLIE99.0%98.5%96.9%98.4%96.1%65.8%54.6%42.5%

[3] หมายเหตุ: เราพบว่าตัวให้คะแนนค่าเริ่มต้นใน MultiChallenge (GPT-4o) มักจะให้คะแนนการตอบสนองของโมเดลผิดพลาดบ่อยครั้ง เราพบว่าการเปลี่ยนเครื่องคัดเกรดเป็นโมเดลการให้เหตุผล เช่น o3-mini ช่วยเพิ่มความแม่นยำในการให้คะแนนตัวอย่างที่เราได้ตรวจสอบอย่างมีนัยสำคัญ

การเรียกฟังก์ชัน
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62.6%60.0%41.0%64.8%60.2%56.0%51.0%14.0%
Tau2-bench retail81.1%78.3%62.3%80.2%70.5%74.0%66.0%21.5%
Tau2-bench telecom96.7%74.1%35.5%58.2%40.5%34.0%44.0%12.1%
บริบทยาว
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95.2%84.3%43.2%55.0%56.4%57.2%47.2%36.6%
OpenAI-MRCR: 2 needle 256k86.8%58.8%34.9%--56.2%45.5%22.6%
Graphwalks bfs <128k78.3%73.4%64.0%77.3%62.3%61.7%61.7%25.0%
Graphwalks parents <128k73.3%64.3%43.8%72.9%51.1%58.0%60.5%9.4%
BrowseComp Long Context 128k90.0%89.4%80.4%88.3%80.0%85.9%89.0%89.4%
BrowseComp Long Context 256k88.8%86.0%68.4%--75.5%81.6%19.1%
VideoMME(long, with subtitle category)86.7%78.5%65.7%84.9%79.5%78.7%68.4%55.2%
ภาพหลอน
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1.0%0.7%1.0%5.2%3.0%0.7%1.1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1.2%1.3%2.8%6.8%8.9%1.1%1.8%-
FActScore hallucination rate(no tools)[lower is better]2.8%3.5%7.3%23.5%38.7%6.7%10.9%-

ผู้เขียน

OpenAI