ขอแนะนำ GPT‑5
โมเดลที่ฉลาดที่สุด รวดเร็วที่สุด และมีประโยชน์ที่สุดที่เราเคยสร้างมา พร้อมระบบคิดในตัวที่มอบความฉลาดระดับผู้เชี่ยวชาญให้ทุกคนได้ใช้งาน
เรากำลังเปิดตัว GPT‑5 ซึ่งเป็นระบบ AI ที่ดีที่สุดของเราในตอนนี้ GPT‑5 คือการพัฒนาก้าวสำคัญในด้านความฉลาดเมื่อเทียบกับโมเดลที่ผ่านมาของเรา โดยมีการแสดงผลที่ล้ำสมัยในด้านต่างๆ ไม่ว่าจะเป็นด้านการเขียนโค้ด ด้านคณิตศาสตร์ ด้านการเขียน ด้านสุขภาพ การทำความเข้าใจรูปภาพ และด้านอื่นๆ อีกมากมาย นี่คือระบบแบบบูรณาการ ที่สามารถตัดสินใจได้ว่าเมื่อใดควรตอบอย่างรวดเร็ว และเมื่อใดควรใช้เวลาพิจารณา เพื่อมอบคำตอบที่มีคุณภาพในระดับผู้เชี่ยวชาญ GPT‑5 พร้อมให้บริการแก่ผู้ใช้ทุกคน โดยผู้ใช้ Plus จะได้สิทธิ์ใช้งานมากขึ้น ส่วนผู้สมัคร Pro จะได้ใช้ GPT‑5 pro รุ่นที่มีการให้เหตุผลขั้นสูงเพื่อคำตอบที่ละเอียดและแม่นยำยิ่งกว่าเดิม
GPT‑5 เป็นระบบแบบครบวงจรที่ประกอยไปด้วยโมเดลที่ชาญฉลาดและมีประสิทธิภาพ ในการตอบคำถามส่วนใหญ่ โมเดลการให้เหตุผลเชิงลึก (GPT‑5 Thinking) สำหรับแก้ปัญหาที่ซับซ้อม และ เราเตอร์แบบเรียลไทม์ ที่ตัดสินใจได้อย่างรวดเร็วโดยพิจารณาข้อมูลจากประเภทการสนทนา ความซับซ้อน ความต้องการของเครื่องมือ และเจตนาที่ชัดเจนของผู้ใช้ (เช่นเวลาที่คุณพิมพ์ในคำสั่งว่า "ให้วิเคราะห์อย่างละเอียด") เราเตอร์ได้รับการฝึกอย่างต่อเนื่องด้วยข้อมูลการใช้งานจริง รวมถึงข้อมูลเมื่อผู้ใช้เปลี่ยนโมเดล ความพึงพอใจในคำตอบที่ได้รับ และความถูกต้องที่สามารถวัดได้ สิ่งเหล่านี้ช่วยให้ระบบมีการพัฒนาอย่างต่อเนื่องตามกาลเวลา เมื่อใช้งานจนครบขีดจำกัดการใช้งานแล้ว ระบบจะสลับไปใช้รุ่นย่อของแต่ละโมเดลในการจัดการคำถามที่เหลือ ในอนาคตอันใกล้เราวางแผนที่จะรวมความสามารถเหล่านี้ไว้ในโมเดลเพียงตัวเดียว
GPT‑5 ไม่เพียงแต่ทำผลงานได้ดีกว่ารุ่นก่อนๆ ในการทดสอบมาตรฐานและตอบคำถามได้เร็วขึ้นเท่านั้น แต่ที่สำคัญที่สุดคือมันมีประโยชน์มากกว่าเดิมในการตอบคำถามจากสถานการณ์จริง เราได้พัฒนาความสามารถในการลดการสร้างข้อมูลผิดพลาด ปรับปรุงการทำตามคำสั่ง และลดการประจบประแจง พร้อมกับเพิ่มประสิทธิภาพของ GPT‑5 ใน 3 ด้านที่เป็นการใช้งานหลักของ ChatGPT นั่นก็คือด้านการเขียน การเขียนโค้ด และด้านสุขภาพ
GPT‑5 เป็นโมเดลการเขียนโค้ดที่ดีที่สุดของเราในปัจจุบัน โมเดลมีการพัฒนาที่โดดเด่นโดยเฉพาะในด้าน การสร้างส่วนหน้า (front-end) ที่ซับซ้อน และ การดีบักในคลังเก็บข้อมูลโค้ดขนาดใหญ่ โมเดลสามารถสร้างเว็บไซต์ แอป และเกมที่งดงามและใช้งานได้อย่างมีประสิทธิภาพ โดยคำนึงถึงความละเอียดอ่อนด้านสุนทรียศาสตร์ เพียงการป้อนคำสั่งเดียวก็สามารถเปลี่ยนแนวคิดให้เป็นจริงได้อย่างชาญฉลาดและมีรสนิยมที่ดี ผู้ทดลองใช้ในระยะแรกยังสังเกตว่าโมเดลมีการตัดสินใจด้านการออกแบบที่ดีขึ้น โดยมีความเข้าใจในเรื่องของการจัดระยะห่าง รูปแบบตัวอักษร และการใช้พื้นที่ว่างอย่างเห็นได้ชัด ดูรายละเอียดที่นี่ เพื่อศึกษาว่า GPT‑5 ให้อะไรกับนักพัฒนาบ้าง
นี่คือตัวอย่างของสิ่งที่ GPT‑5 สามารถสร้างได้จากคำสั่งเดียว
คำสั่ง: สร้างแอปพลิเคชันหน้าเดียวในรูปแบบไฟล์ HTML ตามข้อกำหนดต่อไปนี้:
- ชื่อ: Jumping Ball Runner
- เป้าหมาย: กระโดดข้ามสิ่งกีดขวางเพื่ออยู่รอดให้นานที่สุด
- ฟีเจอร์: เพิ่มความเร็ว มีการเก็บสถิติคะแนนสูงสุด มีปุ่มลองเล่นใหม่ และมีเสียงเฟกต์สนุกๆ ประกอบเหตุการณ์ต่างๆ
- UI ควรมีสีสันสดใส พร้อมพื้นหลังที่เคลื่อนไหวแบบให้ความลึก (Parallax)
- ตัวละครควรมีลักษณะเหมือนการ์ตูนและดูน่าเล่น
- เป็นเกมที่เหมาะกับทุกคน
GPT‑5 เป็นคู่หูด้านการเขียนที่เก่งที่สุดของเราในขณะนี้ ช่วยให้คุณนำไอเดียดิบๆ มาต่อยอดและแปลงเป็น งานเขียนที่ทรงพลังและกินใจ พร้อมทั้งมอบความลึกซึ้งทั้งทางด้านวรรณกรรมและจังหวะการเขียน มันจัดการงานเขียนที่ซับซ้อนด้านโครงสร้างได้ดีกว่าเดิมมาก เช่น การรักษารูปแบบฉันทลักษณ์ที่ไม่มีสัมผัสหรือร้อยแก้วอิสระที่ไหลลื่น โดยให้ความสำคัญกับรูปแบบไปพร้อมกับความชัดเจนในการสื่อสาร ความสามารถในการเขียนที่ดีขึ้นนี้ทำให้ ChatGPT สามารถช่วยคุณทำงานในชีวิตประจำวันได้ดีขึ้น เช่น การร่างและการแก้ไขรายงาน อีเมล บันทึกข้อความ และอื่นๆ สามารถเปรียบเทียบสไตล์การเขียนของ GPT‑5 และ GPT‑4o ได้จากตารางด้านล่าง
GPT‑5 เป็นโมเดลที่เก่งที่สุดของเราในการตอบคำถามเรื่องสุขภาพ โดยช่วยให้ผู้ใช้เข้าใจและดูแลสุขภาพตัวเองได้ดียิ่งขึ้น โมเดลนี้ทำคะแนนได้สูงกว่าทุกโมเดลก่อนหน้านี้อย่างมีนัยสำคัญใน HealthBench ซึ่งเป็นการประเมินที่เราเผยแพร่ไปเมื่อต้นปีนี้ โดยเป็นการประเมินที่อ้างอิงจากสถานการณ์สมจริงและใช้เกณฑ์ประเมินที่แพทย์กำหนด เมื่อเทียบกับโมเดลก่อนๆ โมเดลนี้ทำงานเหมือนเป็นคู่คิดที่คอยช่วยเตือนประเด็นที่อาจมีปัญหา และตั้งคำถามเพื่อให้คำตอบที่มีประโยชน์มากขึ้น ตอนนี้โมเดลให้คำตอบที่แม่นยำและเชื่อถือได้มากขึ้น โดยปรับคำตอบตามบริบท ระดับความรู้ และภูมิศาสตร์ของผู้ใช้ ทำให้สามารถให้คำตอบที่ปลอดภัยและเป็นประโยชน์ในหลากหลายสถานการณ์ สิ่งที่ควรตระหนักคือ ChatGPT ไม่ได้ถูกออกแบบมาเพื่อแทนที่บุคลากรทางการแพทย์ แต่ให้มองว่าเป็นคู่คิดที่จะช่วยคุณทำความเข้าใจผลลัพธ์ ช่วยให้คุณตั้งคำถามที่เหมาะสมเวลาที่พบแพทย์ และช่วยชั่งน้ำหนักทางเลือกต่างๆ เพื่อให้คุณสามารถตัดสินใจได้อย่างมั่นใจและมีข้อมูลประกอบครบถ้วน
คุณจะเห็นได้ว่า GPT‑5 ดีกว่ารุ่นก่อน ๆ ในหลายด้าน ทั้งละเอียดกว่า มีข้อมูลมากกว่า และมีประโยชน์มากกว่า ผ่านตัวอย่างเหล่านี้
GPT-4o
GPT-5
คำตอบของ GPT‑5 สร้างอารมณ์ที่ลึกซึ้งขึ้นซึ่งสร้างความรู้สึกที่ชัดเจนของวัฒนธรรมและสถานที่ด้วยบทสรุปที่ทรงพลัง ภาพที่ชัดเจน และอุปมาอุปไมยที่โดดเด่น (“ธงดำของชาติที่ล่มสลายไปแล้ว” “สายธารเสียงระฆังแห่งเกียวโตส่งยามเย็นเคลื่อนคล้อยลงจากเชิงเขา) ซึ่งสร้างความรู้สึกที่ชัดเจนของวัฒนธรรมและสถานที่ เวอร์ชันของ GPT‑4o มีโครงสร้างและสัมผัสที่คาดเดาได้ง่ายกว่า เน้นการเล่าเรื่องแทนการสื่อผ่านการกระทำ (“เธอร้องไห้แต่ไม่บอก”)
*เราเลือกคำตอบระหว่าง 4o และ OpenAI o3 โดยพิจารณาว่าโมเดลใดที่ทำงานได้ดีกว่าสำหรับคำสั่งที่กำหนด
GPT‑5 มีความฉลาดมากขึ้นในทุกมิติ ซึ่งสะท้อนให้เห็นจากผลการทดสอบเชิงวิชาการและการประเมินโดยมนุษย์ โดยเฉพาะในด้านคณิตศาสตร์ การเขียนโปรแกรม การรับรู้ทางภาพ และสุขภาพ โมเดลได้สร้างมาตรฐานใหม่ในหลายด้าน ไม่ว่าจะเป็นด้านคณิตศาสตร์ (ได้คะแนน 94.6% จาก AIME 2568 โดยไม่ใช้เครื่องมือ) ด้านการเขียนโค้ดสำหรับใช้งานจริง (ได้คะแนน 74.9% บน SWE‑bench Verified และได้คะแนน 88% บน Aider Polyglot) ด้ารความเข้าใจแบบหลายมิติ (ได้คะแนน 84.2% จาก MMMU) และด้านสุขภาพ (ได้คะแนน 46.2% จาก HealthBench Hard) และการพัฒนาเหล่านี้สามารถเห็นได้ัดชในชีวิตประจำวัน ด้วยศักยภาพการให้เหตุผลที่มากขึ้นของ GPT‑5 pro ทำให้โมเดลนี้สามารถสร้างมาตรฐานระดับสูงสุด (SOTA) ใหม่บน GPQA โดยทำคะแนนได้ 88.4% โดยไม่ใช้เครื่องมือ
*ผลลัพธ์ AIME ที่ใช้งานร่วมกับเครื่องมือไม่ควรถูกนำไปเปรียบเทียบโดยตรงกับประสิทธิภาพของโมเดลที่ไม่ได้ใช้เครื่องมือผลลัพธ์เหล่านั้นเป็นเพียงตัวอย่างที่แสดงให้เห็นว่า GPT‑5 สามารถใช้เครื่องมือที่มีอยู่ได้อย่างมีประสิทธิภาพเพียงใด
ทุกการประเมิน SWE-bench ดำเนินการโดยใช้ชุดทดสอบที่ได้รับการตรวจสอบแล้วจำนวน 477 รายการ ซึ่งผ่านการตรวจสอบและรับรองบนโครงสร้างพื้นฐานภายในของเรา
GPT‑5 ทำคะแนนดีขึ้นอย่างมากในการทดสอบที่วัดการทำตามคำสั่งและการใช้เครื่องมือเชิงตัวแทน ซึ่งเป็นความสามารถที่ช่วยให้มันทำงานหลายขั้นตอนอย่างต่อเนื่อง ประสานงานกับเครื่องมือต่างๆ และปรับตัวตามบริบทที่เปลี่ยนไปได้ ในทางปฏิบัติสิ่งนี้หมายความว่า GPT‑5 มีความสามารถในการจัดการงานที่ซับซ้อนและมีการเปลี่ยนแปลงได้ดียิ่งขึ้น โดยสามารถปฏิบัติตามคำสั่งของผู้ใช้ได้อย่างแม่นยำ และดำเนินงานให้เสร็จสมบูรณ์ตั้งแต่ต้นจนจบโดยใช้เครื่องมือที่มีอยู่
โมเดลนี้สามารถทำงานได้ดีในหลายการทดสอบหลากหลายรูปแบบ รวมถึงการให้เหตุผลทางภาพ วิดีโอ การคิดเชิงพื้นที่ และการคิดเชิงวิทยาศาสตร์ การทำงานที่แข็งแกร่งขึ้นในหลายรูปแบบหมายความว่า ChatGPT สามารถให้การวิเคราะห์ที่แม่นยำยิ่งขึ้นจากภาพและข้อมูลที่ไม่ใช่ข้อความ ไม่ว่าจะเป็นการตีความกราฟ สรุปภาพจากการนำเสนอ หรือการตอบคำถามเกี่ยวกับแผนภาพ
GPT‑5 ได้รับการพิสูจน์ว่าเป็นโมเดลที่มีประสิทธิภาพสูงสุดของเราจากการทดสอบภายในที่มุ่งวัดความสามารถในการจัดการงานความรู้ที่ซับซ้อนและมีคุณค่าทางเศรษฐกิจ เมื่อพิจารณาความสามารถด้านการให้เหตุผล GPT‑5 แสดงให้เห็นว่ามีศักยภาพเทียบเท่าหรือเหนือกว่าผู้เชี่ยวชาญครึ่งหนึ่ง อีกทั้งยังทำผลงานได้ดีกว่า o3 และ ChatGPT Agent ในงานที่หลากหลาย ครอบคลุมกว่า 40 สาขา ตั้งแต่กฎหมาย โลจิสติกส์ การขาย ไปจนถึงวิศวกรรม
ระเบียบวิธีการประเมินข้างต้น: ผลลัพธ์ของ GPT‑4o เป็นข้อมูลจากเวอร์ชันล่าสุดของโมเดลใน ChatGPT ณ เดือนสิงหาคม 2568 โมเดลทั้งหมดได้รับการประเมินในสภาพแวดล้อมที่ต้องใช้ 'ความพยายามในการใช้เหตุผล' สูง ความพยายามในการใช้เหตุผลอาจแตกต่างกันออกไปใน ChatGPT โดยที่ระดับสูงแสดงถึงขีดจำกัดสูงสุดของสิ่งที่ผู้ใช้อาจเจอเมื่อใช้โมเดล
GPT‑5 สร้างคุณค่าได้มากขึ้นแม้ใช้เวลาในการคิดน้อยลง จากการประเมินพบว่า GPT‑5 (ที่มีการใช้เหตุผล) มีประสิทธิภาพเหนือกว่า OpenAI o3 โดยใช้โทเค็นเอาต์พุตน้อยลง 50-80% ครอบคลุมความสามารถด้านการให้เหตุผลเชิงภาพ การเขียนโค้ดเชิงตัวแทน และการแก้ปัญหาทางวิทยาศาสตร์ในระดับบัณฑิตศึกษา
GPT‑5 ผ่านการเทรนจากซูเปอร์คอมพิวเตอร์ของ Microsoft Azure AI
GPT‑5 มีโอกาสที่จะสร้างข้อมูลผิดน้อยกว่ารุ่นก่อนๆ อย่างชัดเจน เมื่อใช้การค้นหาผ่านเว็บกับคำถามที่ไม่ระบุตัวตนซึ่งสะท้อนการใช้งานจริงของ ChatGPT พบว่า GPT‑5 มีโอกาสเกิดข้อผิดพลาดทางข้อเท็จจริงน้อยกว่าประมาณ 45% เมื่อเทียบกับ GPT‑4o และผลลัพธ์จากการใช้เหตุผลแสดงให้เห็นว่า GPT‑5 มีโอกาสที่จะเกิดข้อผิดพลาดน้อยกว่าประมาณ 80% เมื่อเทียบกับ OpenAI o3
เราได้ลงทุนอย่างจริงจังเพื่อพัฒนาโมเดลให้มีความน่าเชื่อถือมากขึ้นในการใช้เหตุผลกับคำถามที่ซับซ้อนและมีลักษณะปลายเปิด เราได้เพิ่มการประเมินรูปแบบใหม่เพื่อทดสอบความถูกต้องของคำถามปลายเปิด เราวัดอัตราการเกิดการสร้างข้อมูลผิดของ GPT‑5 ขณะประมวลผลเพื่อตอบคำถามปลายเปิดที่ต้องการข้อเท็จจริง โดยใช้สองเกณฑ์มาตรฐานในการตรวจสอบความถูกต้องของข้อมูลสาธารณะ ได้แกา LongFact(เปิดในหน้าต่างใหม่) (ครอบคลุมแนวคิดและวัตถุ) และ FActScore(เปิดในหน้าต่างใหม่) ผลการทดสอบทุกชุดแสดงให้เห็นว่า "GPT‑5 Thinking" สามารถลดการสร้างข้อมูลเท็จลงได้อย่างชัดเจน โดยน้อยกว่า o3 ประมาณหกเท่า ซึ่งเป็นก้าวสำคัญในการสร้างเนื้อหายาวที่มีความถูกต้องอย่างสม่ำเสมอ รายละเอียดการดำเนินงานและการให้คะแนนสำหรับการประเมินผลบนเกณฑ์มาตรฐานเหล่านี้สามารถดูได้ใน การ์ดระบบ
นอกเหนือจากการเพิ่มความแม่นยำแล้ว GPT‑5 (เมื่อมีการใช้เหตุผล) ยังสามารถสื่อสารการกระทำและความสามารถของมันกับผู้ใช้ได้จริงใจมากขึ้น โดยเฉพาะในงานที่เป็นไปไม่ได้ ขาดรายละเอียด หรือขาดเครื่องมือสำคัญ ในระหว่างการเทรนโมเดลที่มีการมอบรางวัลให้กับโมเดล โมเดลการใช้เหตุผลอาจโกหกว่าทำงานสำเร็จหรือมั่นใจเกินจริงทั้งที่ไม่แน่ใจเพื่อให้ได้คะแนนรางวัลมากขึ้น เพื่อทำการทดสอบเราได้ลบภาพทั้งหมดออกจากคำสั่งของชุดทดสอบ CharXiv ที่ทดสอบการทำงานแบบหลายรูปแบบ และพบว่า OpenAI o3 ยังตอบอย่างมั่นใจเกี่ยวกับภาพที่ไม่มีอยู่จริงถึง 86.7% ในขณะที่ GPT‑5 มีเพียง 9% เท่านั้น
เมื่อใชเหตุผล GPT‑5 สามารถแยกแยะได้ดีกว่าว่างานไหนทำไม่ได้ และจะสื่อสารกับผู้ใช้อย่างตรงไปตรงมาว่ามีข้อจำกัดอะไร เราได้ประเมินอัตราการโกหกในกรณีที่เกี่ยวข้องกับงานการเขียนโค้ดที่เป็นไปไม่ได้และการขาดแหล่งข้อมูลหลายรูปแบบ และพบว่า GPT‑5 (เมื่อมีการใช้เหตุผล) มีการโกหกน้อยกว่า o3 ในทุกกรณี ในการทดสอบด้วยชุดการสนทนาขนาดใหญ่ที่สะท้อนการใช้งานจริงของ ChatGPT, เราได้ลดอัตราการโกหกจาก 4.8% ใน o3 ลงมาเหลือ 2.1% สำหรับคำตอบจากการคิดของ GPT‑5 แม้ว่าสิ่งนี้จะสะท้อนถึงการปรับปรุงที่มีนัยสำคัญสำหรับผู้ใช้ แต่เส้นทางการพัฒนายังไม่สิ้นสุด เรายังคงมุ่งมั่นทำการวิจัยเพื่อยกระดับความถูกต้องและความซื่อสัตย์ของโมเดล สามารถดูรายละเอียดเพิ่มเติมได้ใน การ์ดระบบ
ก่อนการบรรเทา
หลังการบรรเทา
GPT‑5 ก้าวหน้าไปอีกขั้นในด้านความปลอดภัย ก่อนหน้านี้ ChatGPT ใช้การฝึกด้านความปลอดภัยแบบเน้นการปฏิเสธเป็นหลัก คือเมื่อผู้ใช้ถาม โมเดลจะต้องเลือกว่าจะทำตามหรือปฏิเสธ การฝึกแบบนี้ใช้ได้ผลดีกับคำสั่งที่เป็นอันตรายชัดเจน แต่จะลำบากเมื่อเจอกรณีที่เจตนาของผู้ใช้ไม่ชัด หรือข้อมูลนั้นอาจถูกใช้ทั้งในทางที่ไม่เป็นอันตรายหรือเป็นอันตรายก็ได้ การฝึกให้โมเดลปฏิเสธคำสั่งมีข้อจำกัดโดยเฉพาะในสาขาที่ข้อมูลเป็นเหมือนดาบสองคมอย่างเช่นสาขาไวรัสวิทยา ซึ่งคำขอที่ไม่เป็นอันตรายสามารถตอบได้อย่างปลอดภัยในระดับสูง แต่หากให้รายละเอียดเชิงลึกอาจเปิดโอกาสให้ผู้ไม่หวังดีนำไปใช้ได้
เราได้นำวิธีการฝึกเพื่อความปลอดภัยรูปแบบใหม่ที่เรียกว่าการสร้างคำตอบที่ปลอดภัยมาใช้กับ GPT‑5 ซึ่งสอนให้โมเดลตอบอย่างมีประโยชน์ที่สุดเท่าที่ทำได้ แต่ยังคงอยู่ในขอบเขตความปลอดภัย ในบางกรณีอาจจำเป็นต้องตอบคำถามของผู้ใช้เพียงบางส่วนหรือตอบในระดับภาพรวมเท่านั้น ถ้าโมเดลจำเป็นต้องปฏิเสธ GPT‑5 ถูกฝึกให้บอกอย่างตรงไปตรงมาว่าทำไมถึงปฏิเสธ พร้อมเสนอทางเลือกที่ปลอดภัยแทน ทั้งจากการทดลองควบคุมและจากการใช้งานจริง เราพบว่าวิธีการนี้มีความละเอียดอ่อนมากขึ้น ทำให้สามารถรับมือกับคำถามที่มีความเสี่ยงสองด้านได้ดีกว่าเดิม ซึ่งช่วยให้โมเดลมีความทนทานต่อเจตนาที่ไม่ชัดเจนมากขึ้นและลดการปฏิเสธที่ไม่จำเป็น อ่านเพิ่มเติมเกี่ยวกับแนวทางใหม่ในการฝึกด้านความปลอดภัย รวมถึงรายละเอียดเต็มของระเบียบวิธีวิจัย ตัวชี้วัด และผลลัพธ์ได้ในวิจัยการสร้างคำตอบที่ปลอดภัยของเรา
ความปลอดภัยและความเป็นประโยชน์ (ถ้าเป็นคำตอบที่ปลอดภัย) ในประเภทเจตนาของคำสั่ง GPT‑5 (เมื่อมีการใช้เหตุผล) แสดงให้เห็นถึงความปลอดภัยที่สูงขึ้นและมีประโยชน์มากขึ้นในทุกประเภทของคำสั่ง
โดยรวมแล้ว GPT‑5 จะ เห็นด้วยอย่างไม่พร่ำเพรื่อ ใช้ อีโมจิที่ไม่จำเป็นน้อยลง และมีความระมัดระวังและคิดอย่างรอบคอบมากขึ้นในการตอบเมื่อเทียบกับ GPT‑4o ลดความรู้สึกที่เหมือน "คุยกับ AI" ให้น้อยลงและให้ความรู้สึกเหมือนพูดคุยกับเพื่อนที่ช่วยเหลือเราได้พร้อมความฉลาดระดับปริญญาเอกมากกว่า
เมื่อต้นปีนี้ เรา ได้ปล่อยอัปเดตสำหรับ GPT‑4o โดยไม่ได้ตั้งใจ ทำให้โมเดลนี้ขี้ประจบมากเกินไปหรือเห็นด้วยกับผู้ใช้มากเกินไป เราได้ คืนค่าการเปลี่ยนแปลง อย่างรวดเร็วและตั้งแต่นั้นมาได้ทำความเข้าใจและลดพฤติกรรมนี้โดย:
- พัฒนาการประเมินใหม่เพื่อวัดระดับการประจบสอพลอ
- ปรับปรุงการเทรนของเราเพื่อให้โมเดลไม่ประจบประแจงเกินไป ตัวอย่างเช่น การเพิ่มตัวอย่างที่ปกติแล้วจะนำไปสู่การคล้อยตามมากเกินไปแล้วสอนให้โมเดลไม่ทำเช่นนั้น
ในการประเมินที่มุ่งเน้นการตรวจสอบคำตอบเชิงประจบ โดยใช้คำสั่งที่ออกแบบมาเพื่อให้โมเดลตอบในลักษณะนั้น ผลลัพธ์แสดงให้เห็นว่า GPT‑5 สามารถลดการตอบเชิงประจบลงได้อย่างมีนัยสำคัญ (จากเดิมที่ 14.5% เหลือไม่ถึง 6%) ในบางครั้งการลดการประจบสอพลออาจทำให้ความพึงพอใจของผู้ใช้ลดลง แต่การปรับปรุงที่เราทำช่วยลดการตอบแบบประจบได้มากกว่าครึ่งหนึ่ง ในขณะเดียวกันก็ให้ผลลัพธ์อื่นๆ ที่วัดได้เช่นกัน ดังนั้นผู้ใช้จึงยังคงมีบทสนทนาที่มีคุณภาพสูงและสร้างสรรค์ต่อไป ซึ่งสอดคล้องกับเป้าหมายของเราในการช่วยให้ผู้คนใช้ ChatGPT ได้ดี
GPT‑5 มีความสามารถในการปฏิบัติตามคำสั่งดีขึ้นอย่างเห็นได้ชัด และเราสังเกตเห็นการปรับปรุงที่สอดคล้องกับความสามารถในการปฏิบัติตามคำสั่งแบบกำหนดเอง
เรากำลังเปิดให้ทดลองใช้บุคลิกภาพสำเร็จรูป 4 แบบใหม่สำหรับผู้ใช้ ChatGPT ทุกคน ซึ่งเป็นผลจากการปรับปรุงด้านความสามารถในการกำหนดทิศทางของระบบให้ดีขึ้น บุคลิกเหล่านี้เริ่มต้นใช้ได้กับการแชตที่เป็นข้อความ และจะตามมาในโหมดเสียง ช่วยให้คุณตั้งค่าการโต้ตอบของ ChatGPT ได้เอง ไม่ว่าจะเป็นการตั้งค่าให้ตอบแบบสั้นกระชับและเป็นมืออาชีพ ตอบอย่างรอบคอบและให้การสนับสนุน หรือตอบแบบประชดประชันเล็กน้อยโดยไม่ต้องเขียนคำสั่งเอง มีบุคลิกให้เลือก 4 แบบ คือ Cynic, Robot, Listener และ Nerd คุณสามารถเปิดใช้เองได้และปรับได้ตลอดในเมนูตั้งค่า และออกแบบมาให้เข้ากับสไตล์การสื่อสารของคุณ
บุคลิกภาพใหม่เหล่านี้มีผลการประเมินภายในด้านการลดความประจบประแจงอยู่ในระดับที่ผ่านหรือเกินกว่ามาตรฐานที่กำหนดไว้
เรามุ่งหวังที่จะเรียนรู้และพัฒนาต่อยอดจากข้อเสนอแนะในระยะเริ่มต้น
เราพิจารณาว่าโมเดล “GPT‑5 thinking” เป็นโมเดลที่มีความสามารถสูงในด้านชีววิทยาและเคมี และได้ดำเนินการใช้มาตรการป้องกันที่มีประสิทธิภาพเพื่อลดความเสี่ยงที่อาจเกิดขึ้นให้มากที่สุด เราได้ทดสอบโมเดลอย่างเข้มงวดด้วยการประเมินความปลอดภัยภายใต้ กรอบการเตรียมความพร้อม ของเราโดยใช้เวลาไป 5,000 ชั่วโมงในการทดสอบเจาะระบบร่วมกับหน่วยงานต่างๆ เช่น CAISI และ UK AISI
แม้ว่าเราจะยังไม่มีหลักฐานแน่ชัดว่าโมเดลนี้สามารถช่วยให้คนที่ไม่มีประสบการณ์สร้างอันตรายทางชีวภาพร้ายแรงตามเกณฑ์ที่เรากำหนด(เปิดในหน้าต่างใหม่)เพื่อใช้จัดว่าโมเดลมีความสามารถสูง แต่เราได้ดำเนินการใช้แนวทางป้องกันล่วงหน้าและกำลังเปิดใช้งานมาตรการป้องกันที่จำเป็นตอนนี้ เพื่อเตรียมความพร้อมเมื่อความสามารถเหล่านี้พร้อมใช้งานเช่นเดียวกับแนวทางที่เราใช้กับ ChatGPT Agent ผลลัพธ์ที่ได้คือ "GPT‑5 thinking" มีระบบความปลอดภัยที่แข็งแกร่ง พร้อมการป้องกันหลายชั้นสำหรับด้านชีววิทยา ไม่ว่าจะเป็นการสร้างแบบจำลองภัยคุกคามที่ครอบคลุม การเทรนโมเดลไม่ให้สร้างเนื้อหาที่เป็นอันตรายด้วยแนวทางใหม่สำหรับการสร้างคำตอบที่ปลอดภัย การใช้ตัวจำแนกและตัวตรวจสอบการให้เหตุผลที่ทำงานตลอดเวลา ไปจนถึงกระบวนการบังคับใช้อย่างชัดเจน
อ่านข้อมูลเกี่ยวกับแนวทางความปลอดภัยที่แข็งแกร่งของเราสำหรับ GPT‑5 ได้ใน การ์ดระบบ ของเรา
เราได้เปิดตัว GPT‑5 pro สำหรับงานที่ท้าทายและมีความซับซ้อน ซึ่งจะมาแทนที่ OpenAI o3‑pro โดยเป็นรุ่นย่อยของ GPT‑5 ที่เพิ่มระยะการคิด ใช้การประมวลผลแบบขนานในช่วงทดสอบที่ปรับขนาดขึ้นอย่างมีประสิทธิภาพเพื่อมอบคำตอบที่มีคุณภาพสูงสุดและครอบคลุมที่สุด GPT‑5 pro ได้รับการพิสูจน์ว่าเป็นรุ่นที่มีสมรรถนะสูงที่สุดในตระกูล GPT‑5 โดยสามารถทำคะแนนได้โดดเด่นในหลายเกณฑ์ทดสอบด้านสติปัญญาที่ท้าทาย และยังทำผลงานได้ในระดับล้ำสมัยบน GPQA ซึ่งเป็นชุดคำถามทางวิทยาศาสตร์ที่มีความยากอย่างยิ่ง
ในการประเมินคำสั่งเชิงการให้เหตุผลจริงที่มีคุณค่าทางเศรษฐกิจมากกว่า 1,000 รายการ ผู้เชี่ยวชาญจากภายนอกแสดงความพึงพอใจต่อ GPT‑5 pro มากกว่า "GPT‑5 thinking" ถึง 67.8% ของเวลาในอัตราส่วน 67.8% GPT‑5 pro สร้างความผิดพลาดลดลงถึง 22% และมีความโดดเด่นในสาขาสุขภาพ วิทยาศาสตร์ คณิตศาสตร์ และการเขียนโค้ด ผู้เชี่ยวชาญให้ความเห็นว่าคำตอบมีความตรงประเด็น มีประโยชน์ และให้ข้อมูลที่ครบถ้วน
GPT‑5 เป็นค่าเริ่มต้นใหม่ใน ChatGPT โดยแทนที่ GPT‑4o, OpenAI o3, OpenAI o4-mini, GPT‑4.1 และ GPT‑4.5 สำหรับผู้ใช้ที่ลงชื่อเข้าใช้ เพียงเปิด ChatGPT และพิมพ์คำถามของคุณ GPT‑5 จะจัดการส่วนที่เหลือให้ โดยใช้การวิเคราะห์อัตโนมัติหากห็นว่าจะสามารถสร้างคำตอบที่มีประโยชน์จากการวิเคราะห์ได้ ผู้ใช้ที่ชำระเงินแล้วสามารถเลือก “GPT‑5 Thinking” จากตัวเลือกโมเดล หรือพิมพ์ข้อความเช่น ‘คิดเรื่องนี้ให้ละเอียด’ ในคำสั่งเพื่อให้แน่ใจว่ามีการใช้เหตุผลเมื่อสร้างคำตอบ
GPT‑5 เริ่มเปิดให้ใช้งานแล้ววันนี้ สำหรับผู้ใช้ Plus, Pro, Team และ Free ทุกคน โดยผู้ใช้ Enterprise และ Edu จะสามารถเข้าถึงได้ในสัปดาห์ถัดไป ผู้ใช้ Pro, Plus และ Team สามารถเริ่มเขียนโค้ดด้วย GPT‑5 ใน Codex CLI(เปิดในหน้าต่างใหม่) ได้โดยการลงชื่อเข้าใช้ด้วย ChatGPT
เช่นเดียวกับใน GPT‑4o การใช้งาน GPT‑5 แบบฟรีและแบบเสียเงินแตกต่างกันที่จำนวนการใช้งาน สมาชิก Pro จะได้รับสิทธิ์เข้าถึง GPT‑5 ได้ไม่จำกัด และสามารถเข้าถึง GPT‑5 Pro ได้ ผู้ใช้ Plus สามารถเลิอกใช้เป็นโมเดลค่าเริ่มต้นสำหรับคำถามในชีวิตประจำวันได้อย่างสะดวกสบาย โดยมีการใช้งานที่สูงกว่าผู้ใช้ฟรีอย่างมาก ลูกค้า Team, Enterprise และ Edu ก็สามารถใช้ GPT‑5 เป็นโมเดลหลักสำหรับงานประจำได้อย่างสบายใจ ด้วยขีดจำกัดที่กว้าง ทำให้องค์กรทั้งหมดสามารถพึ่งพา GPT‑5 ได้ง่ายขึ้น สำหรับผู้ใช้ ChatGPT Free ความสามารถด้านการให้เหตุผลอย่างเต็มรูปแบบอาจต้องใช้เวลาหลายวันในการเปิดใช้งานอย่างสมบูรณ์ เมื่อผู้ใช้ฟรีถึงขีดจำกัดการใช้ GPT‑5 แล้ว จะเปลี่ยนไปใช้ GPT‑5 mini ซึ่งเป็นโมเดลที่เล็กกว่า เร็วd;jk และมีความสามารถสูง
ผู้เขียน
เชิงอรรถ
*มีความคลาดเคลื่อนเล็กน้อยกับตัวเลขที่รายงานไว้ในบล็อกโพสต์ก่อนหน้านี้ เนื่องจากผลการทดสอบดังกล่าวมาจากการใช้ HLE เวอร์ชันก่อนหน้า
**เราพบว่าเครื่องมือให้คะแนนเริ่มต้นใน MultiChallenge (GPT-4o) มักจะให้คะแนนคำตอบโมเดลผิดอยู่บ่อยๆ เราพบว่าเมื่อเปลี่ยนเครื่องมือให้คะแนนไปใช้โมเดลให้เหตุผล เช่น o3‑mini ความแม่นยำในการให้คะแนนดีขึ้นอย่างมากในตัวอย่างที่เราได้ตรวจสอบ
***สำหรับ MMMUPro เรานำคะแนนของส่วนที่เป็นมาตรฐานและส่วนที่เป็นวิสัยทัศน์มาคำนวณหาค่าเฉลี่ย
ผู้มีส่วนร่วม
Aaditya Singh Adam Fry Adam Perelman Adam Tart Adi Ganesh Ahmed El-Kishky Aidan McLaughlin Aiden Low AJ Ostrow Akhila Ananthram Akshay Nathan Alan Luo Alec Helyar Aleksander Madry Aleksandr Efremov Aleksandra Spyra Alex Baker-Whitcomb Alex Beutel Alex Karpenko Alex Makelov Alex Neitz Alex Wei Alexandra Barr Alexandre Kirchmeyer Alexey Ivanov Alexi Christakis Alistair Gillespie Allison Tam Ally Bennett Alvin Wan Alyssa Huang Amy McDonald Sandjideh Amy Yang Ananya Kumar Andre Saraiva Andrea Vallone Andrei Gheorghe Andres Garcia Garcia Andrew Braunstein Andrew Liu Andrew Schmidt Andrey Mereskin Andrey Mishchenko Andy Applebaum Andy Rogerson Ann Rajan Annie Wei Anoop Kotha Anubha Srivastava Anushree Agrawal Arun Vijayvergiya Ashley Tyra Ashvin Nair Avi Nayak Ben Eggers Bessie Ji Beth Hoover Bill Chen Blair Chen Boaz Barak Borys Minaiev Botao Hao Bowen Baker Brad Lightcap Brandon McKinzie Brandon Wang Brendan Quinn Brian Fioca Brian Hsu Brian Yang Brian Yu Brian Zhang Brittany Brenner Callie Riggins Zetino Cameron Raymond Camillo Lugaresi Carolina Paz Cary Hudson Cedric Whitney Chak Li Charles Chen Charlotte Cole Chelsea Voss Chen Ding Chen Shen Chengdu Huang Chris Colby Chris Hallacy Chris Koch Chris Lu Christina Kaplan Christina Kim CJ Minott-Henriques Cliff Frey Cody Yu Coley Czarnecki Colin Reid Colin Wei Cory Decareaux Cristina Scheau Cyril Zhang Cyrus Forbes Da Tang Dakota Goldberg Dan Roberts Dana Palmie Daniel Kappler Daniel Levine Daniel Wright Dave Leo David Lin David Robinson Declan Grabb Derek Chen Derek Lim Derek Salama Dibya Bhattacharjee Dimitris Tsipras Dinghua Li Dingli Yu DJ Strouse Drew Williams Dylan Hunn Ed Bayes Edwin Arbus Ekin Akyurek Elaine Ya Le Elana Widmann Eli Yani Elizabeth Proehl Enis Sert Enoch Cheung Eri Schwartz Eric Han Eric Jiang Eric Mitchell Eric Sigler Eric Wallace Erik Ritter Erin Kavanaugh Evan Mays Evgenii Nikishin Fangyuan Li Felipe Petroski Such Filipe de Avila Belbute Peres Filippo Raso Florent Bekerman Foivos Tsimpourlas Fotis Chantzis Francis Song Francis Zhang Gaby Raila Garrett McGrath Gary Briggs Gary Yang Giambattista Parascandolo Gildas Chabot Grace Kim Grace Zhao Gregory Valiant Guillaume Leclerc Hadi Salman Hanson Wang Hao Sheng Haoming Jiang Haoyu Wang Haozhun Jin Harshit Sikchi Heather Schmidt Henry Aspegren Honglin Chen Huida Qiu Hunter Lightman Ian Covert Ian Kivlichan Ian Silber Ian Sohl Ibrahim Hammoud Ignasi Clavera Ikai Lan Ilge Akkaya Ilya Kostrikov Irina Kofman Isak Etinger Ishaan Singal Jackie Hehir Jacob Huh Jacqueline Pan Jake Wilczynski Jakub Pachocki James Lee James Quinn Jamie Kiros Janvi Kalra Jasmyn Samaroo Jason Wang Jason Wolfe Jay Chen Jay Wang Jean Harb Jeffrey Han Jeffrey Wang Jennifer Zhao Jeremy Chen Jerene Yang Jerry Tworek Jesse Chand Jessica Landon Jessica Liang Ji Lin Jiancheng Liu Jianfeng Wang Jie Tang Jihan Yin Joanne Jang Joel Morris Joey Flynn Johannes Ferstad Johannes Heidecke John Fishbein John Hallman Jonah Grant Jonathan Chien Jonathan Gordon Jongsoo Park Jordan Liss Jos Kraaijeveld Joseph Guay Joseph Mo Josh Lawson Josh McGrath Joshua Vendrow Joy Jiao Julian Lee Julie Steele Julie Wang Junhua Mao Kai Chen Kai Hayashi Kai Xiao Kamyar Salahi Kan Wu Karan Sekhri Karan Sharma Karan Singhal Karen Li Kenny Nguyen Keren Gu-Lemberg Kevin King Kevin Liu Kevin Stone Kevin Yu Kristen Ying Kristian Georgiev Kristie Lim Kushal Tirumala Kyle Miller Lama Ahmad Larry Lv Laura Clare Laurance Fauconnet Lauren Itow Lauren Yang Laurentia Romaniuk Leah Anise Lee Byron Leher Pathak Leon Maksin Leyan Lo Leyton Ho Li Jing Liang Wu Liang Xiong Lien Mamitsuka Lin Yang Lindsay McCallum Lindsey Held Liz Bourgeois Logan Engstrom Lorenz Kuhn Louis Feuvrier Lu Zhang Lucas Switzer Lukas Kondraciuk Lukasz Kaiser Manas Joglekar Mandeep Singh Mandip Shah Manuka Stratta Marcus Williams Mark Chen Mark Sun Marselus Cayton Martin Li Marvin Zhang Marwan Aljubeh Matt Nichols Matthew Haines Max Schwarzer Mayank Gupta Meghan Shah Melody Huang Meng Dong Mengqing Wang Mia Glaese Micah Carroll Michael Lampe Michael Malek Michael Sharman Michael Zhang Michele Wang Michelle Pokrass Mihai Florian Mikhail Pavlov Miles Wang Ming Chen Mingxuan Wang Minnia Feng Mo Bavarian Molly Lin Moose Abdool Mostafa Rohaninejad Nacho Soto Natalie Staudacher Natan LaFontaine Nathan Marwell Nelson Liu Nick Preston Nick Turley Nicklas Ansman Nicole Blades Nikil Pancha Nikita Mikhaylin Niko Felix Nikunj Handa Nishant Rai Nitish Keskar Noam Brown Ofir Nachum Oleg Boiko Oleg Murk Olivia Watkins Oona Gleeson Pamela Mishkin Patryk Lesiewicz Paul Baltescu Pavel Belov Peter Zhokhov Philip Pronin Phillip Guo Phoebe Thacker Qi Liu Qiming Yuan Qinghua Liu Rachel Dias Rachel Puckett Rahul Arora Ravi Teja Mullapudi Raz Gaon Reah Miyara Rennie Song Rishabh Aggarwal RJ Marsan Robel Yemiru Robert Xiong Rohan Kshirsagar Rohan Nuttall Roman Tsiupa Ronen Eldan Rose Wang Roshan James Roy Ziv Rui Shu Ruslan Nigmatullin Saachi Jain Saam Talaie Sam Altman Sam Arnesen Sam Toizer Sam Toyer Samuel Miserendino Sandhini Agarwal Sarah Yoo Savannah Heon Scott Ethersmith Sean Grove Sean Taylor Sebastien Bubeck Sever Banesiu Shaokyi Amdo Shengjia Zhao Sherwin Wu Shibani Santurkar Shiyu Zhao Shraman Ray Chaudhuri Shreyas Krishnaswamy Shuaiqi (Tony) Xia Shuyang Cheng Shyamal Anadkat Simón Posada Fishman Simon Tobin Siyuan Fu Somay Jain Song Mei Sonya Egoian Spencer Kim Spug Golden SQ Mah Steph Lin Stephen Imm Steve Sharpe Steve Yadlowsky Sulman Choudhry Sungwon Eum Suvansh Sanjeev Tabarak Khan Tal Stramer Tao Wang Tao Xin Tarun Gogineni Taya Christianson Ted Sanders Tejal Patwardhan Thomas Degry Thomas Shadwell Tianfu Fu Tianshi Gao Timur Garipov Tina Sriskandarajah Toki Sherbakov Tomer Kaftan Tomo Hiratsuka Tongzhou Wang Tony Song Tony Zhao Troy Peterson Val Kharitonov Victoria Chernova Vineet Kosaraju Vishal Kuo Vitchyr Pong Vivek Verma Vlad Petrov Wanning Jiang Weixing Zhang Wenda Zhou Wenlei Xie Wenting Zhan Wes McCabe Will DePue Will Ellsworth Wulfie Bain Wyatt Thompson Xiangning Chen Xiangyu Qi Xin Xiang Xinwei Shi Yann Dubois Yaodong Yu Yara Khakbaz Yifan Wu Yilei Qian Yin Tat Lee Yinbo Chen Yizhen Zhang Yizhong Xiong Yonglong Tian Young Cha Yu Bai Yu Yang Yuan Yuan Yuanzhi Li Yufeng Zhang Yuguang Yang Yujia Jin Yun Jiang Yunyun Wang Yushi Wang Yutian Liu Zach Stubenvoll Zehao Dou Zheng Wu และZhigang Wang


