เราขอแนะนำ GPT‑5.2 โมเดลซีรีส์ที่ทรงพลังที่สุดสำหรับงานความรู้ระดับมืออาชีพ
ผู้ใช้ ChatGPT Enterprise โดยเฉลี่ย กล่าวว่า AI ช่วยประหยัดเวลาได้ 40–60 นาทีต่อวัน และผู้ใช้ที่ใช้งานหนักกล่าวว่าช่วยประหยัดเวลาได้มากกว่า 10 ชั่วโมงต่อสัปดาห์ เราออกแบบ GPT‑5.2 เพื่อเพิ่มมูลค่าทางเศรษฐกิจให้กับผู้คนได้มากยิ่งขึ้น มันเก่งขึ้นในการสร้างสเปรดชีต ทำงานนำเสนอ เขียนโค้ด วิเคราะห์ภาพ เข้าใจเนื้อหาที่ยาว และสามารถจัดการงานหลายขั้นตอนที่ซับซ้อนได้ดีกว่าเดิม
GPT‑5.2 สร้างมาตรฐานใหม่ในหลายตัวชี้วัด รวมถึง GDPval ซึ่งสามารถทำผลงานได้ดีกว่าผู้เชี่ยวชาญในอุตสาหกรรมในงานที่ต้องใช้ความรู้เฉพาะเจาะจงใน 44 สาขาอาชีพ
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (ชนะหรือเสมอ) | 70.9% | 38.8% (GPT‑5) |
SWE-Bench Pro (สาธารณะ) | 55.6% | 50.8% |
SWE-bench Verified | 80.0% | 76.3% |
GPQA Diamond (ไม่มีเครื่องมือ) | 92.4% | 88.1% |
CharXiv Reasoning (ใช้ Python) | 88.7% | 80.3% |
HMMT (ก.พ. 2568) | 99.4% | 96.3% |
FrontierMath (ระดับ 1–3) | 40.3% | 31.0% |
ARC-AGI-1 (Verified) | 86.2% | 72.8% |
ARC-AGI-2 (Verified) | 52.9% | 17.6% |
Notion(เปิดในหน้าต่างใหม่), Box(เปิดในหน้าต่างใหม่), Shopify(เปิดในหน้าต่างใหม่), Harvey(เปิดในหน้าต่างใหม่) และ Zoom(เปิดในหน้าต่างใหม่) พบว่า GPT‑5.2 มีประสิทธิภาพการให้เหตุผลแบบระยะยาว และการเรียกใช้เครื่องมือที่ล้ำสมัยที่สุด Databricks(เปิดในหน้าต่างใหม่), Hex(เปิดในหน้าต่างใหม่) และ Triple Whale(เปิดในหน้าต่างใหม่) พบว่า GPT‑5.2 มีความสามารถยอดเยี่ยมในงานวิทยาศาสตร์ข้อมูลเชิงเอเจนต์และการวิเคราะห์เอกสาร Cognition(เปิดในหน้าต่างใหม่), Warp(เปิดในหน้าต่างใหม่), Charlie Labs(เปิดในหน้าต่างใหม่), JetBrains(เปิดในหน้าต่างใหม่) และ Augment Code(เปิดในหน้าต่างใหม่) กล่าวว่า GPT‑5.2 มอบประสิทธิภาพการเขียนโค้ดที่ล้ำสมัย โดยมีการปรับปรุงที่วัดผลได้ในด้านต่างๆ เช่น การเขียนโค้ดแบบโต้ตอบ การตรวจสอบโค้ด และการค้นหาข้อบกพร่อง
ใน ChatGPT โมเดล GPT‑5.2 Instant, Thinking และ Pro จะเริ่มเปิดให้ใช้งานตั้งแต่วันนี้ โดยเริ่มจากผู้ใช้แบบชำระเงินก่อน ขณะนี้เปิดให้นักพัฒนาใช้งานผ่าน API ได้แล้ว
โดยรวมแล้ว GPT‑5.2 ได้พัฒนาอย่างก้าวกระโดดทั้งในด้านความฉลาดโดยรวม ความสามารถในการตีความบริบทขนาดยาว การสั่งงานเครื่องมือโดยอัตโนมัติ และการประมวลผลภาพ ทำให้สามารถจัดการงานจริงที่ซับซ้อนได้ตั้งแต่ต้นจนจบได้ดีกว่าโมเดลรุ่นก่อน
GPT‑5.2 Thinking เป็นโมเดลที่ดีที่สุดสำหรับการใช้งานในโลกจริงและงานระดับมืออาชีพ บน GDPval ซึ่งเป็นการประเมินที่วัดงานที่ต้องใช้ความรู้เฉพาะเจาะจงใน 44 อาชีพ GPT‑5.2 Thinking สร้างสถิติใหม่ระดับแนวหน้า และเป็นโมเดลแรกของเราที่ทำงานได้ในระดับเดียวกับหรือสูงกว่าผู้เชี่ยวชาญมนุษย์ โดยเฉพาะโมเดล GPT‑5.2 Thinking ที่สามารถทำผลงานได้ดีกว่าหรือเทียบเท่าผู้เชี่ยวชาญชั้นนำในอุตสาหกรรมได้ถึง 70.9% จากการเปรียบเทียบในงานที่ใช้ความรู้ GDPval ตามการประเมินของผู้เชี่ยวชาญ งานเหล่านี้ประกอบด้วยการสร้างการนำเสนอ สเปรดชีต และสิ่งประดิษฐ์อื่นๆ GPT‑5.2 Thinking สร้างผลลัพธ์สำหรับงาน GDPval ได้เร็วกว่า 11 เท่า และมีค่าใช้จ่ายน้อยกว่า 1% ของผู้เชี่ยวชาญ แสดงให้เห็นว่าเมื่อทำงานร่วมกับการกำกับดูแลจากมนุษย์ GPT‑5.2 สามารถสนับสนุนการทำงานระดับมืออาชีพได้อย่างมีประสิทธิภาพ การประมาณความเร็วและต้นทุนอิงจากตัวชี้วัดในอดีต โดยความเร็วใน ChatGPT อาจแตกต่างกัน
ชุดทดสอบ GDPval ให้โมเดลจัดการงานที่ต้องใช้ความรู้เฉพาะทาง โดยครอบคลุม 44 อาชีพใน 9 กลุ่มอุตสาหกรรมชั้นนำที่เป็นส่วนสำคัญของ GDP สหรัฐฯ งานเหล่านี้ต้องการผลลัพธ์ที่เป็นผลงานจริงๆ ในการทำงาน อาทิ สไลด์นำเสนอการขาย ตารางบัญชี ตารางเวรฉุกเฉิน เอกสารยื่นภาษี แผนภาพการผลิต หรือวิดีโอสั้นๆ ใน ChatGPT โมเดล GPT‑5.2 Thinking มีเครื่องมือใหม่ที่ GPT‑5 Thinking ไม่มี
ผู้ประเมิน GDPval รายหนึ่งให้ความเห็นเมื่อเห็นผลงานระดับดีเยี่ยมชิ้นหนึ่งว่า "เป็นการยกระดับคุณภาพผลงานที่น่าตื่นเต้นและชัดเจนมาก... ดูแล้วเหมือนเป็นผลงานจากบริษัทที่มีพนักงานมืออาชีพทำเอง มีการออกแบบและให้คำแนะนำที่ดีมากสำหรับทั้งสองงาน แม้จะมีข้อผิดพลาดที่ต้องแก้ไขเล็กน้อยก็ตาม"
นอกจากนี้ในการทดสอบมาตรฐานภายในของเราเกี่ยวกับงานสร้างโมเดลสเปรดชีตของนักวิเคราะห์การลงทุนระดับต้น เช่น การสร้างโมเดลงบการเงินสามงบสำหรับบริษัท Fortune 500 พร้อมรูปแบบและการอ้างอิงที่ถูกต้อง หรือการสร้างโมเดลการซื้อกิจการด้วยการกู้ยืมสำหรับการนำบริษัทออกจากตลาด พบว่า GPT‑5.2 Thinking ทำคะแนนเฉลี่ยต่อภารกิจได้สูงกว่า GPT‑5.1 ถึง 9.3% โดยเพิ่มขึ้นจาก 59.1% เป็น 68.4%
การเปรียบเทียบแบบเคียงกันเผยให้เห็นถึงการพัฒนาที่ดีขึ้นในงานสเปรดชีตและการจัดรูปแบบสไลด์ที่สร้างโดย GPT‑5.2 Thinking:

คำสั่ง: สร้างโมเดลการวางแผนกำลังคน: จำนวนพนักงาน แผนการจ้างงาน การลาออก และผลกระทบด้านงบประมาณ รวมถึงแผนกวิศวกรรม การตลาด กฎหมาย และการขาย
คุณจะสามารถใช้ความสามารถด้านสเปรดชีตและงานนำเสนอใน ChatGPT ได้ก็ต่อเมื่อคุณเป็นสมาชิกแพ็กเกจแบบชำระเงิน และเลือก GPT‑5.2 Thinking หรือ Pro การสร้างผลงานที่ซับซ้อนอาจใช้เวลาหลายนาที
GPT‑5.2 Thinking ทำลายสถิติเดิมด้วยคะแนน 55.6% จากการประเมิน SWE-bench Pro ซึ่งเป็นการประเมินที่เข้มงวดเกี่ยวกับวิศวกรรมซอฟต์แวร์ในโลกความเป็นจริง ต่างจาก SWE-bench Verified ที่ทดสอบแค่ภาษา Python เพียงอย่างเดียว SWE-Bench Pro ทดสอบสี่ภาษาและมีเป้าหมายให้ทนทานต่อการปนเปื้อนข้อมูลมากขึ้น โดยมีความท้าทายมากขึ้น หลากหลายมากขึ้น และเกี่ยวข้องกับอุตสาหกรรมมากขึ้น
ในการประเมิน SWE-Bench Pro(เปิดในหน้าต่างใหม่) โมเดลจะได้รับคลังโค้ดและต้องสร้างแพตช์เพื่อแก้ไขงานวิศวกรรมซอฟต์แวร์ที่สมจริง
ในการทดสอบ SWE-bench Verified (ไม่แสดงกราฟ) พบว่า โมเดล GPT‑5.2 Thinking ทำสถิติใหม่ด้วยคะแนนสูงสุด 80%
สำหรับการใช้งานระดับมืออาชีพ สิ่งนี้จะทำให้โมเดลสามารถดีบักโค้ดที่ใช้จริงได้อย่างเชื่อถือได้มากขึ้น สามารถเพิ่มฟีเจอร์ตามคำขอ รีแฟกเตอร์โค้ดเบสขนาดใหญ่ และส่งมอบการแก้ไขได้ตั้งแต่เริ่มจนจบโดยลดการควบคุมดูแลจากมนุษย์
GPT‑5.2 Thinking มีความสามารถในการพัฒนาโปรแกรมส่วนหน้าดีกว่า GPT‑5.1 Thinking ผู้ทดลองใช้ในช่วงแรกพบว่าโมเดลมีศักยภาพสูงมากในด้านการพัฒนาส่วนหน้าและงาน UI ที่ซับซ้อนหรือแหวกแนว โดยเฉพาะงานที่เกี่ยวข้องกับองค์ประกอบ 3D และกลายเป็นคู่หูที่ขาดไม่ได้สำหรับวิศวกรทุกระดับ ดูตัวอย่างบางส่วนของงานที่สามารถสร้างได้จากคำสั่งเดียว:
คำสั่ง: สร้างแอปหน้าเดียวในไฟล์ HTML เดียวโดยมีข้อกำหนดดังต่อไปนี้:
- ชื่อ: การจำลองคลื่นมหาสมุทร
- เป้าหมาย: แสดงคลื่นที่เคลื่อนไหวอย่างสมจริง
- คุณสมบัติ: เปลี่ยนความเร็วลม, ความสูงของคลื่น, แสงสว่าง
- UI ควรให้ความรู้สึกสงบและสมจริง
ผู้ทดลองใช้เบื้องต้นได้แบ่งปันข้อเสนอแนะเกี่ยวกับ GPT‑5.2 ความสามารถในการเขียนโค้ด:
"GPT-5.2 นับเป็นก้าวกระโดดที่ยิ่งใหญ่ที่สุดของโมเดล GPT ในด้านการเขียนโค้ดสำหรับงานเอเจนต์ นับตั้งแต่ GPT-5 และยังเป็นโมเดลเขียนโค้ดระดับ SOTA ที่ดีที่สุดในช่วงราคาเดียวกันอีกด้วย การเพิ่มเวอร์ชันนั้นไม่อาจสะท้อนถึงระดับความฉลาดที่พัฒนาขึ้นอย่างแท้จริง เรารู้สึกตื่นเต้นที่จะทำให้มันเป็นค่าเริ่มต้นใน Windsurf และงานหลักหลายงานของ Devin"
GPT‑5.2 Thinking สร้างข้อมูลที่หลอนน้อยกว่า GPT‑5.1 Thinking เมื่อใช้ชุดคำถามที่ไม่เปิดเผยข้อมูลระบุตัวตนจาก ChatGPT คำตอบที่ผิดพลาดพบได้น้อยลงถึง 38%(เชิงสัมพันธ์) สิ่งนี้ทำให้ผู้ทำงานระดับมืออาชีพสามารถใช้โมเดลเพื่อการวิจัย, การสร้างเนื้อหา การวิเคราะห์ข้อมูล และการสนับสนุนการสรุปผลได้โดยมีข้อผิดพลาดลดลงอย่างมาก จึงเพิ่มความมั่นใจในการใช้งานในงานที่ต้องใช้ความรู้ทั่วไป
ความพยายามในการให้เหตุผลถูกตั้งค่าไว้ที่ระดับสูงสุดที่มีอยู่ และได้เปิดการใช้งานเครื่องมือค้นหา โมเดลอื่นเป็นผู้ตรวจพบข้อผิดพลาด แต่ก็มีความเป็นไปได้ที่โมเดลเหล่านั้นจะผิดพลาดเอง อัตราความผิดพลาดในระดับข้ออ้างต่ำกว่าอัตราความผิดพลาดในระดับการตอบสนองมาก เนื่องจากการตอบสนองส่วนใหญ่มีหลายข้ออ้างรวมอยู่
เช่นเดียวกับโมเดลทั้งหมด GPT‑5.2 Thinking ไม่ได้สมบูรณ์แบบ สำหรับงานหรือข้อมูลที่สำคัญ ควรตรวจสอบคำตอบซ้ำเพื่อความมั่นใจ
GPT‑5.2 Thinking สร้างมาตรฐานใหม่ในด้านการให้เหตุผลในบริบทที่ยาว โดยทำผลงานได้ในระดับแนวหน้าในการประเมิน OpenAI MRCRv2 ซึ่งประเมินความสามารถของโมเดลในการรวบรวมข้อมูลที่กระจัดกระจายอยู่ในเอกสารที่มีความยาวมาก ในการทำงานจริง เช่น การวิเคราะห์เอกสารเชิงลึกที่ต้องอาศัยข้อมูลที่เชื่อมโยงกันหลายแสนโทเค็น พบว่า GPT‑5.2 Thinking มีความแม่นยำมากกว่า GPT‑5.1 Thinking อย่างมีนัยสำคัญ ที่น่าสนใจเป็นพิเศษคือ โมเดลนี้เป็นรุ่นแรกที่ทำความแม่นยำได้เกือบเต็ม 100% ในการทดสอบ MRCR 4-needle (ด้วยบริบทที่ยาวถึง 256,000 โทเค็น)
ในแง่การใช้งานจริง หมายความว่าผู้ทำงานระดับมืออาชีพสามารถใช้ GPT‑5.2 จัดการเอกสารชุดยาวๆ ได้เช่น รายงาน สัญญา เปเปอร์วิจัย บันทึกการถอดเทป และโปรเจกต์ที่มีหลายไฟล์ โดยยังคงรักษาความสอดคล้องและความแม่นยำได้แม้มีข้อมูลหลายแสนโทเค็น สิ่งนี้ทำให้ GPT‑5.2 เหมาะสมอย่างยิ่งสำหรับการวิเคราะห์เชิงลึก การสังเคราะห์ และเวิร์กโฟลว์ที่ซับซ้อนจากหลายแหล่งข้อมูล
ในการประเมิน OpenAI-MRCR(เปิดในหน้าต่างใหม่) v2 (การแก้ปัญหาการอ้างอิงร่วมหลายรอบ) มีการสอดแทรกคำขอที่เป็น 'เข็ม' เข้าไปในบริบทยาวที่เป็นเสมือน 'กองฟาง' ซึ่งประกอบด้วยคำขอและการตอบกลับที่คล้ายกัน จากนั้นโมเดลจะถูกขอให้สร้างการตอบกลับสำหรับเข็มที่ลำดับที่ n โดยจากการประเมินพบว่า การประเมินเวอร์ชันที่ 2 สามารถแก้ไขชุดข้อมูลที่ Ground Truth ผิดพลาดไปประมาณ 5% มีการใช้อัตราส่วนความสอดคล้องเฉลี่ยในการวัดความคล้ายคลึงของข้อความที่โมเดลตอบกับคำเฉลย นอกจากนี้ยังพบว่าจุดที่โทเค็นอินพุตสูงสุดจำนวน 256k โทเค็น แสดงถึงค่าเฉลี่ยของโทเค็นอินพุตที่อยู่ในช่วง 128k–256k ในที่นี้ 256k หมายถึง 256 * 1,024 = 262,114 โทเค็น และใช้ระดับความพยายามในการใช้เหตุผลสูงสุด
สำหรับงานที่ต้องใช้การคิดเกินกว่าขอบเขตบริบทที่กำหนด GPT‑5.2 Thinking สามารถทำงานร่วมกับปลายทาง Responses /Compact Endpoint ใหม่ของเราซึ่งเป็นการขยายหน้าต่างบริบทที่มีประสิทธิภาพของโมเดล สิ่งนี้ช่วยให้ GPT‑5.2 Thinking สามารถแก้ปัญหางานที่ต้องพึ่งพาเครื่องมือหลายอย่างและใช้เวลานาน ซึ่งเดิมถูกจำกัดด้วยด้วยความยาวของบริบท อ่านข้อมูลเพิ่มเติมใน เอกสาร API(เปิดในหน้าต่างใหม่) ของเรา
GPT‑5.2 Thinking เป็นโมเดลที่มีความสามารถด้านภาพสูงสุดของเรา โดยสามารถลดอัตราความผิดพลาดลงได้ประมาณครึ่งหนึ่งในการวิเคราะห์กราฟและการทำความเข้าใจอินเทอร์เฟซซอฟต์แวร์
สำหรับการใช้งานในระดับมืออาชีพในชีวิตประจำวัน หมายความว่า โมเดลนี้สามารถตีความแดชบอร์ด ภาพหน้าจอผลิตภัณฑ์ แผนภาพทางเทคนิค และรายงานภาพได้อย่างแม่นยำยิ่งขึ้น พร้อมทั้งสามารถสนับสนุนการทำงานในด้านการเงิน การดำเนินงาน วิศวกรรม การออกแบบ และฝ่ายสนับสนุนลูกค้าที่ข้อมูลภาพเป็นสิ่งสำคัญ
ในการประเมิน CharXiv Reasoning(เปิดในหน้าต่างใหม่) โมเดลตอบคำถามเกี่ยวกับแผนภูมิจากเอกสารวิชาการ โดนมีการเปิดใช้งานเครื่องมือ Python และความพยายามในการให้เหตุผลถูกตั้งค่าไว้ในระดับสูงสุด
ในการประเมิน ScreenSpot-Pro(เปิดในหน้าต่างใหม่) โมเดลต้องวิเคราะห์ภาพหน้าจอความละเอียดสูงจากสภาพแวดล้อมการทำงานจริงหลายรูปแบบ จากสภาพแวดล้อมทางวิชาชีพที่หลากหลาย มีการเปิดใช้งานเครื่องมือ Python และตั้งระดับความพยายามในการใช้เหตุผลไว้ที่สูงสุด หากไม่มีเครื่องมือ Python คะแนนจะต่ำกว่ามาก เราขอแนะนำให้เปิดใช้งานเครื่องมือ Python สำหรับงานประมวลผลภาพประเภทนี้
เมื่อเปรียบเทียบกับโมเดลก่อนหน้า GPT‑5.2 Thinking มีความสามารถในการทำความเข้าใจตำแหน่งขององค์ประกอบในภาพได้ดียิ่งขึ้น ซึ่งเป็นประโยชน์ต่อภารกิจที่การจัดวางเชิงสัมพันธ์มีความสำคัญต่อการแก้ไขปัญหา ในตัวอย่างด้านล่างนี้ เราขอให้โมเดลระบุส่วนประกอบในภาพอินพุต (ในกรณีนี้คือเมนบอร์ด) และสร้างป้ายกำกับพร้อมกรอบตำแหน่งคร่าวๆ แม้ในกรณีที่ภาพมีคุณภาพต่ำ GPT‑5.2 ยังคงสามารถระบุบริเวณหลักและกำหนดกรอบที่สอดคล้องกับตำแหน่งจริงขององค์ประกอบแต่ละส่วนได้ ในขณะที่ GPT‑5.1 สามารถระบุได้เพียงบางส่วนและมีความเข้าใจด้านการจัดวางเชิงพื้นที่ต่ำกว่าอย่างชัดเจน
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking ทำคะแนนสูงสุดใหม่ที่ 98.7% จากการประเมิน Tau2-bench Telecom แสดงให้เห็นถึงศักยภาพในการใช้เครื่องมือได้อย่างมีประสิทธิภาพในงานที่ยาวและต่อเนื่องหลายรอบ
สำหรับกรณีการใช้งานที่ไวต่อเวลา GPT‑5.2 Thinking ยังทำงานได้ดีกว่าในด้านการใช้เหตุผล โดยไม่ต้องใช้ความพยายามใดๆ และมีประสิทธิภาพเหนือกว่า GPT‑5.1 และ GPT‑4.1 อย่างมาก
ในการประเมิน τ2-bench(เปิดในหน้าต่างใหม่) โมเดลใช้เครื่องมือเพื่อทำงานสนับสนุนลูกค้าในบทสนทนาแบบหลายรอบกับผู้ใช้จำลองสำหรับงานบริการด้านโทรคมนาคม เราได้ใส่คำแนะนำที่มีประโยชน์สั้นๆ ลงในคำสั่งของระบบเพื่อเพิ่มประสิทธิภาพ และเราได้ตัดชุดข้อมูลสายการบินออกเนื่องจากการให้คะแนนอ้างอิงนั้นมีคุณภาพไม่เพียงพอ
สิ่งนี้ทำให้ผู้ทำงานอาชีพมีขั้นตอนการทำงานที่ต่อเนื่องและดีกว่าเดิม ตั้งแต่การจัดการเคสสนับสนุนลูกค้า การดึงข้อมูลจากหลายระบบ การทำการวิเคราะห์ ไปจนถึงการสร้างผลลัพธ์สุดท้าย โดยลดการติดขัดระหว่างขั้นตอน
ตัวอย่างเช่น เมื่อมีคำถามด้านบริการลูกค้าที่ซับซ้อนและต้องแก้ปัญหาหลายขั้นตอน โมเดลสามารถประสานเวิร์กโฟลว์เต็มรูปแบบระหว่างเอเจนต์หลายตัวได้อย่างมีประสิทธิภาพมากขึ้น ในเหตุการณ์ด้านล่างนี้ ผู้เดินทางแจ้งปัญหาเที่ยวบินดีเลย์ ตกเครื่อง ต้องค้างคืนที่นิวยอร์ก และความต้องการที่นั่งพิเศษเนื่องจากเหตุผลทางการแพทย์ GPT‑5.2 สามารถจัดการแก้ปัญหาทั้งหมดได้ ไม่ว่าจะเป็นการจองเที่ยวบินใหม่ จองที่นั่งพิเศษสำหรับผู้ที่ต้องการความช่วยเหลือ และการชดเชย โดยให้ผลลัพธ์ที่สมบูรณ์ยิ่งกว่า GPT‑5.1
GPT‑5.1

GPT‑5.2

หนึ่งในความตั้งใจของเราคือให้ AI ช่วยเร่งงานวิจัยทางวิทยาศาสตร์ให้ก้าวหน้าเร็วขึ้นเพื่อประโยชน์ส่วนรวม เพื่อบรรลุเป้าหมายนี้ เราได้ทำงานและรับฟังความคิดเห็นจากนักวิทยาศาสตร์เพื่อสำรวจว่า AI สามารถเร่งให้งานของพวกเขาเสร็จเร็วขึ้นได้อย่างไร และเมื่อเดือนที่แล้วเราได้แบ่งปันการทดลองร่วมกันในระยะเริ่มต้นบางส่วน ที่นี่
เราเชื่อว่า GPT‑5.2 Pro และ GPT‑5.2 Thinking เป็นโมเดลที่ดีที่สุดในโลกในการให้การสนับสนุนและเร่งให้งานของนักวิทยาศาสตร์สำเร็จได้เร็วขึ้น จากการประเมิน GPQA Diamond ซึ่งเป็นเกณฑ์มาตรฐานในการวัดผลการตอบคำถามระดับบัณฑิตศึกษาที่ป้องกันการค้นหาด้วย Google พบว่า GPT‑5.2 Pro ทำคะแนนได้ 93.2% ตามมาติดๆ ด้วย GPT‑5.2 Thinking ที่ทำคะแนนได้ 92.4%
ในการประเมิน GPQA Diamond(เปิดในหน้าต่างใหม่) โมเดลตอบคำถามแบบปรนัยเกี่ยวกับฟิสิกส์ เคมี และชีววิทยา โดยไม่มีการเปิดการใช้งานเครื่องมือ และความพยายามในการให้เหตุผลถูกตั้งค่าไว้สูงสุด
ใน FrontierMath (ระดับ 1–3) ซึ่งเป็นการประเมินคณิตศาสตร์ระดับผู้เชี่ยวชาญ โมเดล GPT‑5.2 Thinking ทำสถิติใหม่ของวงการ โดยแก้โจทย์ได้ 40.3%
ใน FrontierMath(เปิดในหน้าต่างใหม่) โมเดลแก้ปัญหาคณิตศาสตร์ระดับผู้เชี่ยวชาญได้ มีการเปิดการใช้งานเครื่องมือ Python และตั้งค่าความพยายามในการใช้เหตุผลไว้สูงสุด
เรากำลังเริ่มเห็นว่าโมเดล AI ช่วยผลักดันความก้าวหน้าด้านคณิตศาสตร์และวิทยาศาสตร์ได้อย่างมีนัยสำคัญและจับต้องได้ ตัวอย่างเช่น ใน งานล่าสุด กับ GPT‑5.2 Pro นักวิจัยได้สำรวจคำถามที่ยังไม่ได้รับคำตอบในทฤษฎีการเรียนรู้ทางสถิติ ภายใต้บริบทที่กำหนดไว้อย่างชัดเจนและเจาะจง โมเดลได้เสนอข้อพิสูจน์ที่ภายหลังได้รับการตรวจสอบโดยผู้เขียนและผ่านการตรวจสอบจากผู้เชี่ยวชาญภายนอก ซึ่งสะท้อนให้เห็นว่าโมเดลแนวหน้าสามารถสนับสนุนการวิจัยทางคณิตศาสตร์ได้เมื่อมีการกำกับดูแลจากมนุษย์อย่างใกล้ชิด
ในการประเมิน ARC-AGI-1 (Verified) ซึ่งเป็นเกณฑ์มาตรฐานที่ออกแบบมาเพื่อวัดความสามารถในการให้เหตุผลทั่วไป GPT‑5.2 ถือเป็นโมเดลแรกที่สามารถผ่านเกณฑ์ 90% โดยปรับปรุงจาก 87% ของ o3‑preview ในปีที่ผ่านมา พร้อมทั้งลดต้นทุนในการทำให้ได้ผลลัพธ์นั้นลงประมาณ 390 เท่า
ในการทดสอบ ARC-AGI-2 (Verified) ซึ่งเพิ่มระดับความยากและแยกการให้เหตุผลเชิงพลวัตได้ชัดเจนขึ้น พบว่า GPT‑5.2 Thinking สร้างมาตรฐานใหม่สำหรับโมเดลที่มีกระบวนการคิดเป็นลำดับ (Chain-of-thought) โดยทำคะแนนได้ 52.9% GPT‑5.2 Pro ทำงานได้ดีกว่าเดิม โดยสามารถทำคะแนนได้ถึง 54.2% ซึ่งช่วยขยายความสามารถของโมเดลในการให้เหตุผลผ่านปัญหาใหม่ๆ ที่เป็นนามธรรม
ผลการปรับปรุงจากการประเมินต่างๆ แสดงให้เห็นถึงศักยภาพของ GPT‑5.2 ที่มีการให้เหตุผลหลายขั้นตอนมีประสิทธิภาพมากขึ้น มีความแม่นยำเชิงปริมาณสูงขึ้น และทำให้การแก้ปัญหาทางเทคนิคที่ซับซ้อนมีความน่าเชื่อถือมากขึ้น
นี่คือความคิดเห็นจากผู้ทดลองใช้กลุ่มแรกของเราที่มีต่อ GPT‑5.2:
"GPT-5.2 ได้ปลดล็อกการปรับเปลี่ยนโครงสร้างระบบอย่างเต็มรูปแบบสำหรับเรา เราได้ยุบระบบหลายเอเจนต์ที่เปราะบางให้กลายเป็นเมกะเอเจนต์เพียงตัวเดียวที่มีเครื่องมือมากกว่า 20 รายการ ส่วนที่ดีที่สุดคือ มันทำงานได้อย่างราบรื่น เมก้าเอเจนต์มีความเร็วมากขึ้น ฉลาดขึ้น และดูแลง่ายขึ้นกว่าเดิมถึง 100 เท่า เราพบว่าเวลาในการตอบสนองลดลงอย่างมาก ความสามารถในการเรียกใช้เครื่องมือดีขึ้นอย่างเด่นชัด และเราไม่จำเป็นต้องใช้คำสั่งระบบที่ยาวและซับซ้อนอีกต่อไป เพราะ 5.2 สามารถทำงานได้อย่างแม่นยำด้วยเพียงคำสั่งง่ายๆเพียงบรรทัดเดียว มันให้ความรู้สึกเหมือนสิ่งมหัศจรรย์อย่างแท้จริง"
ภายใน ChatGPT ผู้ใช้ควรสังเกตว่า GPT‑5.2 มีประสบการณ์การใช้งานที่ดียิ่งขึ้นในแต่ละวัน โดยมีความเป็นระบบมากขึ้น มีความน่าเชื่อถือสูงขึ้น และยังพูดคุยสนุกอีกด้วย
GPT‑5.2 Instant สามารถทำงานได้รวดเร็วและมีประสิทธิภาพสูง เป็นเครื่องมือที่เหมาะกับการทำงานและการเรียนรู้ในชีวิตประจำวัน โดยมีพัฒนาการชัดเจนในด้านการค้นหาข้อมูล วิธีทำงาน การเขียนเชิงเทคนิค และการแปลภาษา ซึ่งพัฒนามาจากการใช้โทนสนทนาอบอุ่นที่อยู่ใน GPT‑5.1 Instant ผู้ทดลองใช้ในช่วงแรกสังเกตว่าโมเดลสามารถอธิบายได้ชัดเจนมากขึ้น พร้อมนำเสนอข้อมูลสำคัญตั้งแต่ต้น
GPT‑5.2 Thinking GPT‑5.2 Thinking ได้รับการออกแบบเพื่อรองรับงานเชิงลึก โดยช่วยให้ผู้ใช้สามารถจัดการงานที่ซับซ้อนมากขึ้นได้อย่างมีประสิทธิภาพิทั้งการเขียนโปรแกรม การสรุปเอกสารขนาดใหญ่ การตอบคำถามจากไฟล์ที่อัปโหลด การแก้โจทย์คณิตศาสตร์และตรรกะทีละขั้นตอน ตลอดจนการสนับสนุนการวางแผนและการตัดสินใจด้วยโครงสร้างที่ชัดเจนและรายละเอียดที่เป็นประโยชน์
GPT‑5.2 Pro คือโมเดลที่ชาญฉลาดและน่าไว้วางใจที่สุดสำหรับคำถามซับซ้อน ซึ่งคำตอบที่มีคุณภาพสูงนั้นคุ้มค่ากับการรอคอย จากการทดสอบเบื้องต้นแสดงให้เห็นถึงความแม่นยำที่ดีขึ้น มีการสร้างข้อผิดพลาดร้ายแรงน้อยลง และสามารถทำงานได้ดีขึ้นในสาขาที่มีความซับซ้อนอย่างการเขียนโปรแกรม
GPT‑5.2 ได้พัฒนาต่อยอดจากงานวิจัยด้าน การสร้างคำตอบที่ปลอดภัย ที่เราได้นำเสนอไปพร้อมกับ GPT‑5 ซึ่งสอนให้แบบจำลองให้คำตอบที่เป็นประโยชน์ที่สุด โดยยังคงรักษาขอบเขตด้านความปลอดภัยไว้
ในการเปิดตัวครั้งนี้ เราได้ต่อไปเพื่อ เสริมสร้างการตอบสนองของโมเดลในบทสนทนาที่ละเอียดอ่อน โดยมีการปรับปรุงอย่างมีนัยสำคัญในวิธีที่โมเดลตอบสนองต่อคำสั่งที่แสดงสัญญาณของการฆ่าตัวตายหรือการทำร้ายตนเอง ความทุกข์ทางจิตใจ หรือการพึ่งพาทางอารมณ์ต่อโมเดล มาตรการที่เจาะจงเหล่านี้ทำให้จำนวนการตอบสนองที่ไม่เหมาะสมลดลงใน GPT‑5.2 Instant และ GPT‑5.2 Thinking เมื่อเปรียบเทียบกับ GPT‑5.1 และโมเดล GPT‑5 Instant และโมเดล Thinking สามารถดูรายละเอียดเพิ่มเติมได้ใน การ์ดระบบ
เรากำลังอยู่ในช่วงการทยอยเปิดตัวโมเดลการประเมินอายุ เพื่อจำกัดการเข้าถึงเนื้อหาอ่อนไหว โดยจะใช้การป้องกันเนื้อหาโดยอัตโนมัติสำหรับผู้ใช้งานที่อายุต่ำกว่า 18 ปี สิ่งนี้พัฒนาต่อยอดจากแนวทางการดูแลผู้ใช้ที่เรารู้ว่าอายุต่ำกว่า 18 ปี และมาตรการควบคุมโดยผู้ปกครองที่เรามีอยู่แล้ว
การเปิดตัว GPT‑5.2 เป็นเพียงหนึ่งในขั้นตอนการพัฒนาที่ไม่มีวันสิ้นสุด และเรายังไม่หยุดอยู่แค่นี้อย่างแน่นอน ถึงแม้ว่ารุ่นนี้จะมีการพัฒนาอย่างมากทั้งด้านความสามารถและความรวดเร็วในการทำงาน แต่เราก็รู้ว่ายังมีอีกหลายด้านที่ผู้ใช้ต้องการให้ปรับปรุงเพิ่มเติม เรากำลังแก้ไขปัญหาที่ทราบกันดีใน ChatGPT อย่างเช่นการปฏิเสธคำสั่งบ่อยครั้ง ควบคู่ไปกับการยกระดับมาตรฐานด้านความปลอดภัยและความน่าเชื่อถือโดยรวม เนื่องจากการเปลี่ยนแปลงเหล่านี้ซับซ้อน เราจึงตั้งใจทำทุกอย่างอย่างถี่ถ้วนเพื่อให้เกิดผลลัพธ์ที่ดีที่สุด
GPT‑5.2 | GPT‑5.1 | GPT‑5.2 | GPT‑5.1 | |
สุขภาพจิต | 0.995 | 0.883 | 0.915 | 0.684 |
การพึ่งพาทางอารมณ์ | 0.938 | 0.945 | 0.955 | 0.785 |
การทำร้ายตนเอง | 0.938 | 0.925 | 0.963 | 0.937 |
ใน ChatGPT เราจะเริ่มทยอยเปิดตัว GPT‑5.2 (Instant, Thinking และ Pro) ให้ใช้งานตั้งแต่วันนี้เป็นต้นไป โดยเริ่มจากผู้ใช้แพ็กเกจแบบชำระเงิน (Plus, Pro, Business, Enterprise) เราปรับใช้ GPT‑5.2 อย่างค่อยเป็นค่อยไปเพื่อให้ ChatGPT ทำงานได้อย่างราบรื่นและเชื่อถือได้มากที่สุด หากคุณยังไม่เห็น GPT‑5.2 ในตอนแรก กรุณาลองใหม่อีกครั้งในภายหลัง ใน ChatGPT โมเดล GPT‑5.1 จะยังคงให้บริการแก่ผู้ใช้ที่ชำระเงินเป็นเวลาสามเดือนภายใต้โมเดลเก่า หลังจากนั้นเราจะยุติการใช้งาน GPT‑5.1
ChatGPT | API |
ChatGPT‑5.2 Instant | GPT‑5.2‑chat‑latest |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
ในแพลตฟอร์ม API ของเรา GPT‑5.2 Thinking พร้อมใช้งานแล้ววันนี้ใน Responses API และ แชต Completions API ในชื่อ gpt-5.2, และ GPT‑5.2 Instant ในชื่อ gpt-5.2-chat-latest GPT‑5.2 Pro มีให้ใช้งานใน Responses API ในชื่อ gpt-5.2-pro นักพัฒนาสามารถตั้งค่าพารามิเตอร์การให้เหตุผลใน GPT‑5.2 ได้แล้ว Pro และ GPT‑5.2 ทั้งสอง Pro และ GPT‑5.2 ปัจจุบัน Thinking รองรับความพยายามการให้เหตุผลระดับที่ห้า ซึ่งเป็นระดับสูงพิเศษสำหรับงานที่คุณภาพมีความสำคัญที่สุด
GPT‑5.2 มีราคาอยู่ที่ 1.75 ดอลลาร์สหรัฐ ต่อ 1 ล้านโทเค็นอินพุต และ 14 ดอลลาร์สหรัฐ ต่อ 1 ล้านโทเค็นเอาต์พุต พร้อมส่วนลด 90% สำหรับอินพุตที่เก็บไว้ในแคช จากการประเมินหลายครั้งเกี่ยวกับการทำงานของตัวแทน เราพบว่าแม้ว่า GPT‑5.2 จะมีต้นทุนต่อโทเค็นจะสูงขึ้น แต่ค่าใช้จ่ายในการบรรลุคุณภาพที่ต้องการกลับลดลง เนื่องจาก GPT‑5.2 มีประสิทธิภาพด้านการใช้โทเค็นมากกว่า
ถึงแม้ว่าค่าบริการ ChatGPT จะเท่าเดิม แต่ใน API นั้น GPT‑5.2 มีราคาต่อโทเค็นสูงกว่า GPT‑5.1 เนื่องจากเป็นโมเดลที่มีความสามารถมากกว่า ราคาของโมเดลนี้ยังถูกกว่าโมเดลล้ำหน้าอื่นๆ ทำให้ผู้ใช้สามารถนำไปใช้ได้อย่างเต็มที่ในงานประจำวันและการใช้งานหลัก
โมเดล | อินพุต | อินพุตที่เก็บไว้ในแคช | เอาต์พุต |
gpt-5.2 / | 1.75 ดอลลาร์สหรัฐ | 0.175 ดอลลาร์สหรัฐ | 14 ดอลลาร์สหรัฐ |
gpt-5.2-pro | 21 ดอลลาร์สหรัฐ | - | 168 ดอลลาร์สหรัฐ |
gpt-5.1 / | 1.25 ดอลลาร์สหรัฐ | 0.125 ดอลลาร์สหรัฐ | 10 ดอลลาร์สหรัฐ |
gpt-5-pro | 15 ดอลลาร์สหรัฐ | - | 120 ดอลลาร์สหรัฐ |
ขณะนี้เรายังไม่มีแผนที่จะยกเลิกการใช้งาน GPT‑5.1, GPT‑5 หรือ GPT‑4.1 ใน API และจะแจ้งให้นักพัฒนาทราบล่วงหน้าเกี่ยวกับแผนการยกเลิกใช้งาน ถึงแม้ GPT‑5.2 จะใช้งานกับ Codex ได้อย่างราบรื่นตั้งแต่แรก แต่เราวางแผนจะเปิดตัว GPT‑5.2 รุ่นที่ถูกปรับแต่งมาให้เหมาะสมกับ Codex มากที่สุดภายในไม่กี่สัปดาห์ต่อจากนี้
GPT‑5.2 ถูกสร้างขึ้นด้วยความร่วมมือกับพันธมิตรที่ยาวนานของเราอย่าง NVIDIA และ Microsoft ศูนย์ข้อมูล Azure และหน่วยประมวลผลกราฟิก (GPU) ของ NVIDIA ซึ่งรวมถึงรุ่น H100, H200, และ GB200-NVL72 เป็นรากฐานของโครงสร้างพื้นฐานในการเทรน AI ขนาดใหญ่ของ OpenAI และเป็นปัจจัยหลักที่ทำให้โมเดลมีความฉลาดล้ำหน้าขึ้น ความร่วมมือครั้งนี้ช่วยให้เราสามารถขยายการประมวลผลได้อย่างมั่นใจ และนำโมเดลรุ่นใหม่ ๆออกสู่ตลาดได้รวดเร็วขึ้น
ต่อไปนี้เป็นรายงานคะแนนการทดสอบเชิงมาตรฐานที่ครอบคลุมสำหรับ GPT‑5.2 Thinking พร้อมกับชุดย่อยสำหรับ GPT‑5.2 Pro
มืออาชีพ
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
การเขียนโค้ด
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
ข้อเท็จจริง
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
บริบทยาว
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
วิสัยทัศน์
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
การใช้งานเครื่องมือ
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
งานวิชาการ
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
การให้เหตุผลเชิงนามธรรม
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
โมเดลถูกเรียกใช้งานโดยใช้ระดับความสามารถในการให้เหตุผลสูงสุดที่ API ของเรารองรับ (สูงพิเศษ สำหรับ GPT‑5.2) สำหรับ Thinking & Pro และระดับสูงสำหรับ GPT‑5.1 Thinking ยกเว้นสำหรับการประเมินระดับมืออาชีพที่ใช้ GPT‑5.2 Thinking ในการดำเนินการด้วยการใช้เหตุผลอย่างเต็มที่ ซึ่งเป็นระดับสูงสุดที่มีใน ChatGPT Pro การทดสอบมาตรฐานได้ดำเนินการในสภาพแวดล้อมการวิจัย ซึ่งอาจให้ผลลัพธ์ที่แตกต่างจาก ChatGPT เวอร์ชันใช้งานจริงในบางกรณี
* สำหรับ SWE-Lancer เราได้ละเว้นปัญหา 40/237 ที่ไม่สามารถทำงานบนโครงสร้างพื้นฐานของเราได้


