23 เมษายน 2569

ขอแนะนำ GPT‑5.5

นิยามใหม่ของความฉลาดเพื่อการทำงานจริง

กำลังโหลด…

อัปเดตเมื่อวันที่ 24 เมษายน 2569: GPT‑5.5 และ GPT‑5.5 Pro พร้อมใช้งานใน API แล้ว การ์ดระบบก็ได้รับการอัปเดตเพิ่มเติมแล้วเพื่ออธิบายมาตรการป้องกันเพิ่มเติมที่เกี่ยวข้อง

เรากำลังเปิดตัว GPT‑5.5 ซึ่งเป็นโมเดลที่ฉลาดที่สุดและใช้งานง่ายที่สุดเท่าที่เราเคยมีมา และถือเป็นก้าวสำคัญสู่วิธีการทำงานรูปแบบใหม่บนคอมพิวเตอร์

GPT‑5.5 เข้าใจสิ่งที่คุณกำลังพยายามทำได้รวดเร็วขึ้น และสามารถรับงานไปจัดการเองได้มากขึ้น โมเดลนี้มีความเชี่ยวชาญเป็นเลิศในการเขียนและแก้บั๊กโค้ด การค้นคว้าข้อมูลออนไลน์ การวิเคราะห์ข้อมูล การสร้างเอกสารและสเปรดชีต การควบคุมซอฟต์แวร์ รวมถึงการทำงานข้ามเครื่องมือต่างๆ จนกว่างานจะเสร็จสมบูรณ์ แทนที่จะต้องคอยกำกับทุกขั้นตอนอย่างละเอียด คุณสามารถมอบหมายงานที่ยุ่งเหยิงและมีหลายส่วนให้ GPT‑5.5 จัดการได้เลย โดยสามารถไว้วางใจให้ระบบวางแผน ใช้เครื่องมือ ตรวจสอบงาน รับมือกับความไม่ชัดเจน และขับเคลื่อนงานต่อไปจนสำเร็จ

ความก้าวหน้านี้โดดเด่นอย่างยิ่งในด้านการเขียนโค้ดแบบเอเจนต์ การใช้งานคอมพิวเตอร์ งานใช้ความรู้เชิงลึก และงานวิจัยวิทยาศาสตร์ขั้นต้น ซึ่งเป็นสาขาที่ความสำเร็จขึ้นอยู่กับการใช้เหตุผลผ่านบริบทที่หลากหลายและการลงมือทำอย่างต่อเนื่อง GPT‑5.5 ยกระดับความฉลาดขึ้นโดยไม่ลดทอนความเร็ว ปกติแล้วโมเดลที่ใหญ่และเก่งกว่ามักจะประมวลผลได้ช้า แต่ GPT‑5.5 มีความเร็วในการตอบสนองต่อโทเค็นเทียบเท่ากับ GPT‑5.4 ในการใช้งานจริง แม้จะมีระดับสติปัญญาที่สูงกว่ามากก็ตาม GPT‑5.5 ใช้โทเค็นประหยัดกว่าเดิมมากในการจัดการงาน Codex แบบเดียวกัน ส่งผลให้เป็นโมเดลที่ทั้งทำงานได้ดีขึ้นและใช้ทรัพยากรได้อย่างคุ้มค่ามากขึ้น

เราเปิดตัว GPT‑5.5 มาพร้อมกับระบบป้องกันที่แน่นหนาที่สุดในปัจจุบัน เพื่อสกัดกั้นการใช้งานที่ไม่เหมาะสม แต่ยังเปิดกว้างให้ผู้ใช้สามารถนำไปสร้างสรรค์งานที่เป็นประโยชน์ได้อย่างเต็มที่ เราประเมินโมเดลนี้ผ่านกรอบการทำงานด้านความปลอดภัยและการเตรียมความพร้อมอย่างครบถ้วน พร้อมทั้งทำงานร่วมกับทีมทดสอบเจาะระบบทั้งภายในและภายนอก อีกทั้งยังเสริมการทดสอบเชิงรุกในด้านความปลอดภัยทางไซเบอร์และวิทยาศาสตร์ชีวภาพระดับสูง รวมถึงรวบรวมคำแนะนำจากการใช้งานจริงของพาร์ทเนอร์กลุ่มแรกเกือบ 200 รายก่อนการเปิดตัว

ตั้งแต่วันนี้ เราเริ่มทยอยเปิดให้ผู้ใช้งานแพ็กเกจ Plus, Pro, Business และ Enterprise สามารถเข้าถึง GPT‑5.5 ได้แล้วทั้งใน ChatGPT และ Codex ส่วน GPT‑5.5 Pro จะเริ่มเปิดให้ใช้งานสำหรับผู้ใช้ระดับ Pro, Business และ Enterprise ใน ChatGPT ตามลำดับ การติดตั้งใช้งานผ่าน API จำเป็นต้องมีมาตรการป้องกันที่แตกต่างออกไป และเรากำลังทำงานร่วมกับพันธมิตรและลูกค้าอย่างใกล้ชิด เพื่อกำหนดข้อกำหนดด้านความปลอดภัยและความมั่นคงสำหรับการให้บริการในระดับสเกลใหญ่ คุณจะสามารถใช้งาน GPT‑5.5 และ GPT‑5.5 Pro ผ่าน API ได้ในเร็วๆ นี้

	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	-	-	69.4%	68.5%
Expert-SWE (ภายใน)	73.1%	68.5%	-	-	-	-
GDPval (ชนะหรือเสมอ)	84.9%	83.0%	82.3%	82.0%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	-	-	78.0%	-
Toolathlon	55.6%	54.6%	-	-	-	48.8%
BrowseComp	84.4%	82.7%	90.1%	89.3%	79.3%	85.9%
FrontierMath ระดับ 1–3	51.7%	47.6%	52.4%	50.0%	43.8%	36.9%
FrontierMath ระดับ 4	35.4%	27.1%	39.6%	38.0%	22.9%	16.7%
CyberGym	81.8%	79.0%	-	-	73.1%	-

ความสามารถของโมเดล

OpenAI กำลังสร้างโครงสร้างพื้นฐานระดับโลกสำหรับเอเจนต์ AI เพื่อช่วยให้ผู้คนและธุรกิจทั่วโลกสามารถจัดการงานให้สำเร็จลุล่วงได้ด้วย AI ในช่วงปีที่ผ่านมา AI ได้เข้ามาเพิ่มประสิทธิภาพและช่วยให้งานด้านวิศวกรรมซอฟต์แวร์รุดหน้าไปอย่างรวดเร็ว ด้วย GPT‑5.5 ใน Codex และ ChatGPT การเปลี่ยนแปลงแบบเดียวกันนั้นกำลังเริ่มขยายไปสู่งานวิจัยทางวิทยาศาสตร์และงานในวงกว้างที่ผู้คนทำบนคอมพิวเตอร์

ในทุกสาขาที่กล่าวมา GPT‑5.5 ไม่ได้มีเพียงสติปัญญาที่เหนือกว่าเท่านั้น แต่ยังมีประสิทธิภาพในการแก้ปัญหาที่สูงขึ้น โดยระบบสามารถสร้างผลลัพธ์คุณภาพสูงได้จากการใช้จำนวนโทเค็นที่ประหยัดขึ้นและลดขั้นตอนการทำงานซ้ำให้น้อยลง จากผลการจัดอันดับ Coding Agent Index โดย Artificial Analysis พบว่า GPT‑5.5 ให้ประสิทธิภาพความฉลาดระดับสูงสุดในราคาที่ถูกกว่าโมเดลคู่แข่งในระดับเดียวกันถึงครึ่งหนึ่ง

Artificial Analysis Intelligence Index⁠(เปิดในหน้าต่างใหม่) คือค่าเฉลี่ยถ่วงน้ำหนักของการประเมิน 10 รายการที่ดำเนินการโดยบุคคลภายนอก ได้แก่ AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.

การเขียนโค้ดแบบเอเจนต์

GPT‑5.5 เป็นโมเดลการเขียนโค้ดเชิงเอเจนต์ที่แข็งแกร่งที่สุดของเราจนถึงปัจจุบัน จากการประเมิน Terminal-Bench 2.0 ซึ่งใช้ทดสอบเวิร์กโฟลว์บรรทัดคำสั่งที่ซับซ้อนที่ต้องอาศัยการวางแผน การทำซ้ำ และการประสานงานระหว่างเครื่องมือ ระบบนี้ทำความแม่นยำอย่างล้ำสมัยได้ที่ 82.7% ใน SWE-Bench Pro ซึ่งใช้ประเมินการแก้ไขปัญหา GitHub ในการใช้งานจริง โมเดลนี้ทำคะแนนได้ 58.6% และแก้งานแบบครบวงจรได้มากกว่าโมเดลก่อนหน้าในการรันเพียงครั้งเดียว ในการทดสอบ Expert-SWE ซึ่งเป็นเกณฑ์วัดผลภายในสำหรับงานเขียนโค้ดระยะยาวที่ต้องใช้เวลาทำโดยเฉลี่ย 20 ชั่วโมง GPT‑5.5 สามารถทำผลงานได้เหนือกว่า GPT‑5.4

ในการประเมินทั้งสามรายการ GPT‑5.5 มีประสิทธิภาพเหนือกว่า GPT‑5.4 โดยใช้โทเค็นน้อยลง

จุดแข็งด้านการเขียนโค้ดของโมเดลนี้ปรากฏให้เห็นอย่างชัดเจนใน Codex โดยสามารถรับภาระงานด้านวิศวกรรมได้ครอบคลุม ตั้งแต่การเขียนโค้ดตามคำสั่งและการปรับโครงสร้างโค้ด ไปจนถึงการแก้บั๊ก การทดสอบ และการตรวจสอบความถูกต้อง ผลการทดสอบเบื้องต้นชี้ให้เห็นว่า GPT‑5.5 พัฒนาพฤติกรรมที่จำเป็นต่อการทำงานวิศวกรรมจริงได้ดีขึ้น ทั้งการจดจำบริบทของระบบขนาดใหญ่ การวิเคราะห์สาเหตุของความล้มเหลวที่คลุมเครือ การใช้เครื่องมือตรวจสอบสมมติฐาน และการปรับปรุงรหัสผ่านระบบนิเวศของซอฟต์แวร์ได้อย่างครอบคลุม

การประมวลผลภาพเส้นทางบินนี้อ้างอิงข้อมูลเวกเตอร์ของ NASA/JPL Horizons สำหรับตำแหน่งของยาน Orion ดวงจันทร์ และดวงอาทิตย์ พร้อมทั้งปรับขนาดการแสดงผลเพื่อเพิ่มความชัดเจน

พรอมต์: [attached image] Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendring. Ensure it has realistic orbital mechanics.

นอกจากคะแนนทดสอบมาตรฐานแล้ว ผู้ทดสอบกลุ่มแรกระบุว่า GPT‑5.5 แสดงศักยภาพที่เหนือกว่าในการทำความเข้าใจโครงสร้างโดยรวมของระบบ ทั้งการวิเคราะห์สาเหตุที่ระบบขัดข้อง การระบุจุดที่ต้องแก้ไข และการประเมินว่าการแก้ไขนั้นจะส่งผลกระทบต่อส่วนอื่นๆ ในชุดรหัสคำสั่งอย่างไรบ้าง

“โมเดลสำหรับเขียนโค้ดตัวแรกที่ผมเคยใช้ ที่มีความชัดเจนในเชิงแนวคิดอย่างแท้จริง”

Dan Shipper ผู้ก่อตั้งและซีอีโอของ Every กล่าวถึง GPT‑5.5 ว่า “เป็นโมเดลเขียนโค้ดตัวแรกที่ผมเคยใช้ซึ่งมีความชัดเจนเชิงแนวคิดอย่างจริงจัง”

หลังจากเปิดตัวแอป เขาใช้เวลาหลายวันในการดีบักปัญหาหลังการเปิดตัว ก่อนจะให้วิศวกรฝีมือดีที่สุดคนหนึ่งเข้ามาเขียนบางส่วนของระบบใหม่ ในการทดสอบ GPT‑5.5 เขาได้ทำการย้อนกระบวนการเพื่อตรวจสอบว่า โมเดลจะสามารถวิเคราะห์สถานะที่เกิดข้อผิดพลาดและสร้างผลลัพธ์การเขียนโค้ดใหม่ในรูปแบบเดียวกับที่วิศวกรได้ตัดสินใจดำเนินการไปในท้ายที่สุดได้หรือไม่ GPT‑5.4 ทำไม่ได้ GPT‑5.5 ทำได้

“มันรู้สึกเหมือนกำลังคุยกับผู้รู้ที่มีภูมิปัญญาสูงกว่าเราจริงๆ ครับ แถมลึกๆ ยังรู้สึกได้ถึงความน่านับถือในตัวตนของมันด้วย”

Pietro Schirano, ประธานเจ้าหน้าที่บริหารของ MagicPath ได้เห็นการก้าวกระโดดของประสิทธิภาพที่คล้ายคลึงกัน เมื่อ GPT‑5.5 สามารถรวม Branch ที่มีการแก้ไขส่วนหน้า และการปรับปรุงโครงสร้างโค้ดหลายร้อยจุด เข้ากับ Branch หลักที่มีการเปลี่ยนแปลงขนานใหญ่เช่นกัน โดยสามารถจัดการงานทั้งหมดให้เสร็จสิ้นได้ในครั้งเดียวภายในเวลาประมาณ 20 นาที

วิศวกรระดับอาวุโสที่ร่วมทดสอบระบุว่า GPT‑5.5 มีทักษะด้านการใช้เหตุผลและทำงานได้เหนือกว่า GPT‑5.4 และ Claude Opus 4.7 อย่างเห็นได้ชัด โดยโมเดลสามารถตรวจพบปัญหาล่วงหน้า รวมถึงคาดการณ์ความต้องการในการทดสอบและตรวจสอบรหัสคำสั่งได้เองโดยไม่ต้องรอคำสั่ง มีกรณีหนึ่งที่วิศวกรขอให้โมเดลออกแบบโครงสร้างระบบความคิดเห็นใหม่ในโปรแกรมแก้ไข Markdown แบบกลุ่ม ซึ่งผลลัพธ์ที่ได้คือชุดการแก้ไขรหัสต้นฉบับ 12 รายการที่เกือบเสร็จสมบูรณ์ ผู้ทดสอบคนอื่นๆ กล่าวว่าพวกเขาแทบไม่ต้องแก้ไขขั้นตอนการทำงานที่โมเดลนำไปใช้จริงเลย และรู้สึกมั่นใจในแผนงานของ GPT‑5.5 มากกว่าเมื่อเทียบกับ GPT‑5.4

วิศวกรจาก NVIDIA คนหนึ่งที่ได้สิทธิ์เข้าถึงโมเดลก่อนใครถึงกับกล่าวว่า"การที่เข้าถึง GPT‑5.5 ไม่ได้อีกต่อไป ให้ความรู้สึกเหมือนผมถูกตัดแขนขาขาดเลยทีเดียว”

“GPT-5.5 ฉลาดขึ้นอย่างเห็นได้ชัด และมีความพยายามในการแก้ไขปัญหาที่สูงกว่า GPT-5.4 ด้วยประสิทธิภาพการเขียนโค้ดที่ดีขึ้นและการใช้เครื่องมือที่มีความน่าเชื่อถือมากขึ้น มันสามารถทำงานต่อเนื่องได้นานขึ้นอย่างมากโดยไม่หยุดก่อนเวลา ซึ่งเป็นสิ่งสำคัญสำหรับงานที่ซับซ้อนและใช้เวลานานที่ผู้ใช้มอบหมายให้ Cursor ทำ

Michael Truell ผู้ร่วมก่อตั้งและซีอีโอของ Cursor

งานความรู้

คุณสมบัติเด่นที่ช่วยให้ GPT‑5.5 เขียนโค้ดได้ดีเยี่ยม คือสิ่งเดียวกับที่ทำให้มันทำงานทั่วไปบนหน้าจอคอมพิวเตอร์ได้อย่างมีประสิทธิภาพ เนื่องจากโมเดลเข้าใจเจตนาของผู้ใช้ได้ดีขึ้น มันจึงสามารถดำเนินการตามวงจรของงานที่ใช้ทักษะความรู้ได้อย่างเป็นธรรมชาติ ตั้งแต่การค้นหาข้อมูล การทำความเข้าใจประเด็นสำคัญ การใช้เครื่องมือต่างๆ การตรวจสอบผลลัพธ์ ไปจนถึงการเปลี่ยนงานดิบๆ ให้กลายเป็นชิ้นงานที่มีประโยชน์

ใน Codex นั้น GPT‑5.5 มีประสิทธิภาพเหนือกว่า GPT‑5.4 ในด้านการสร้างเอกสาร สเปรดชีต และสไลด์นำเสนองาน กลุ่มผู้ทดสอบรุ่นแรกระบุว่าโมเดลนี้ทำงานได้เหนือกว่ารุ่นก่อน ๆ ทั้งในด้านการวิจัยดำเนินงาน การสร้างแบบจำลองในสเปรดชีต และการเปลี่ยนข้อมูลทางธุรกิจที่ยุ่งเหยิงให้กลายเป็นแผนงานที่ชัดเจน เมื่อผนวกเข้ากับทักษะการใช้งานคอมพิวเตอร์ของ Codex แล้ว GPT‑5.5 ช่วยให้เราเข้าใกล้ความรู้สึกที่ว่าโมเดลสามารถใช้งานคอมพิวเตอร์ไปพร้อมกับเราได้จริงๆ ทั้งการมองเห็นสิ่งที่อยู่บนหน้าจอ การคลิก การพิมพ์ การสั่งงานอินเทอร์เฟซต่างๆ และการสลับข้ามเครื่องมือไปมาได้อย่างแม่นยำ

ทีมที่ OpenAI กำลังนำจุดแข็งเหล่านี้มาใช้แล้วในเวิร์กโฟลว์การทำงานจริง ปัจจุบัน พนักงานมากกว่า 85% ของบริษัทใช้ Codex ในทุกสัปดาห์ ครอบคลุมหน่วยงานและสายงานต่างๆ รวมถึงวิศวกรรมซอฟต์แวร์ การเงิน การสื่อสาร การตลาด วิทยาศาสตร์ข้อมูล และการจัดการผลิตภัณฑ์ ทีมสื่อสารใช้ GPT‑5.5 ผ่าน Codex ช่วยวิเคราะห์ข้อมูลการเชิญพูดในงานต่าง ๆ ตลอดช่วง 6 เดือนที่ผ่านมา เพื่อออกแบบเกณฑ์การให้คะแนนและประเมินความเสี่ยง รวมถึงปรับปรุงระบบ Slack ให้ตอบกลับแบบอัตโนมัติสำหรับคำขอที่ไม่มีความซับซ้อน ส่วนคำขอที่ต้องระวังเป็นพิเศษ ระบบจะยังคงส่งให้เจ้าหน้าที่ตรวจสอบตามปกติ ในส่วนงานการเงิน ทีมงานใช้ Codex ตรวจสอบแบบฟอร์มภาษี K-1 จำนวน 24,771 ฉบับ รวมทั้งสิ้น 71,637 หน้า โดยใช้กระบวนการทำงานที่คัดข้อมูลส่วนบุคคลออก และช่วยให้ทีมงานดำเนินงานได้เร็วขึ้นกว่าปีที่แล้วถึงสองสัปดาห์ ในทีมกลยุทธ์การเข้าสู่ตลาด พนักงานคนหนึ่งใช้ระบบอัตโนมัติช่วยสร้างรายงานธุรกิจประจำสัปดาห์ ซึ่งช่วยประหยัดเวลาการทำงานได้ถึง 5-10 ชั่วโมงต่อสัปดาห์

ระบบคิดวิเคราะห์ของ GPT‑5.5 Thinking ใน ChatGPT ช่วยปลดล็อกการแก้โจทย์ยากให้ไวขึ้น โดยให้คำตอบที่ชาญฉลาดและตรงประเด็น เพื่อให้คุณก้าวข้ามงานซับซ้อนได้อย่างรวดเร็ว โมเดลนี้มีความโดดเด่นในงานระดับมืออาชีพ ทั้งการเขียนโค้ด การวิจัย การสังเคราะห์และวิเคราะห์ข้อมูล รวมถึงงานที่เกี่ยวข้องกับเอกสารจำนวนมาก โดยเฉพาะอย่างยิ่งเมื่อใช้งานร่วมกับปลั๊กอิน

ผู้ทดสอบกลุ่มแรกเห็นความเปลี่ยนแปลงที่ชัดเจนใน GPT‑5.5 Pro ซึ่งช่วยให้ ChatGPT รับมือกับงานที่ยากและซับซ้อนได้ดีขึ้นมาก แถมยังทำงานไวขึ้นจนทำให้การจัดการงานที่ต้องใช้พลังประมวลผลสูงนั้นสะดวกและใช้งานได้จริงมากกว่าเดิม เมื่อเทียบกับ GPT‑5.4 Pro แล้ว ผู้ทดสอบพบว่าคำตอบของ GPT‑5.5 Pro มีความครอบคลุมกว่า มีโครงสร้างที่ดีกว่า แม่นยำกว่า ตรงประเด็นกว่า และมีประโยชน์มากกว่าอย่างชัดเจน โดยเฉพาะในด้านธุรกิจ กฎหมาย การศึกษา และวิทยาศาสตร์ข้อมูล

GPT‑5.5 ทำคะแนนได้สูงสุดในระดับแถวหน้าของอุตสาหกรรมจากการวัดผลหลายรายการที่สะท้อนถึงการทำงานในลักษณะนี้ ในการทดสอบ GDPval⁠⁠ ซึ่งทดสอบความสามารถของเอเจนต์ในการสร้างผลงานความรู้ที่กำหนดไว้อย่างชัดเจนใน 44 สาขาอาชีพ GPT‑5.5 ทำคะแนนได้ 84.9% ในแบบทดสอบ OSWorld-Verified ซึ่งชี้วัดความสามารถของโมเดลในการสั่งการสภาพแวดล้อมคอมพิวเตอร์จริงด้วยตนเองนั้น GPT‑5.5 ทำคะแนนได้ถึง 78.7% และบน Tau2-bench Telecom ซึ่งใช้ทดสอบเวิร์กโฟลว์การบริการลูกค้าที่ซับซ้อน ก็ทำคะแนนได้ถึง 98.0% โดยไม่ต้องปรับแต่งพรอมต์เพิ่มเติม GPT‑5.5 ยังทำผลงานได้อย่างโดดเด่นในเกณฑ์มาตรฐานอื่นๆ ของงานด้านความรู้ โดยทำคะแนนได้ 60.0% บน FinanceAgent และทำคะแนนได้ 88.5% ในงานการสร้างแบบจำลองด้านงานธาคารภายใน อีกทั้งยังได้คะแนน 54.1% สำหรับแบบทดสอบ OfficeQA Pro

Tau2-bench Telecom ทำงานโดยไม่มีการปรับแต่งพรอมต์ (และใช้ GPT‑4.1 เป็นโมเดลผู้ใช้) GPT‑5.5 เข้าใจเจตนาของงานได้ดีกว่า และใช้โทเค็นได้มีประสิทธิภาพกว่ารุ่นก่อนหน้า

“GPT-5.5 สามารถรักษาประสิทธิภาพได้ต่อเนื่องอย่างที่ต้องการ สำหรับงานที่ต้องลงมือทำจริงและมีภาระงานสูง โมเดลนี้สร้างและให้บริการบนระบบ NVIDIA GB200 NVL72 ซึ่งช่วยให้ทีมงานของเราสามารถสร้างฟีเจอร์แบบครบวงจรได้จากพรอมต์ที่ใช้ภาษาธรรมดา ช่วยลดเวลาการแก้บั๊กจากหลายวันเหลือเพียงไม่กี่ชั่วโมง และเปลี่ยนการทดลองที่ต้องใช้เวลาหลายสัปดาห์ให้กลายเป็นการพัฒนาที่รุดหน้าได้เพียงชั่วข้ามคืนในระบบรหัสคำสั่งที่ซับซ้อน นี่ไม่ใช่แค่การเขียนโค้ดที่เร็วขึ้น แต่เป็นวิธีการทำงานรูปแบบใหม่ที่ช่วยให้ผู้คนทำงานด้วยความเร็วที่แตกต่างไปอย่างสิ้นเชิง”

Justin Boitano รองประธานฝ่าย AI สำหรับ Enterprise ที่ NVIDIA

การวิจัยทางวิทยาศาสตร์

GPT‑5.5 ยังแสดงให้เห็นถึงพัฒนาการที่เพิ่มขึ้นในกระบวนการทำงานวิจัยทางวิทยาศาสตร์และทางเทคนิค ซึ่งเป็นงานที่ต้องอาศัยทักษะมากกว่าแค่การตอบคำถามยากๆ ทั่วไป นักวิจัยจำเป็นต้องสำรวจแนวคิด รวบรวมหลักฐาน ทดสอบสมมติฐาน แปลผลลัพธ์ และตัดสินใจว่าจะดำเนินการอย่างไรในขั้นตอนต่อไป GPT‑5.5 มีความสามารถในการทำงานอย่างต่อเนื่องตลอดวงจรดังกล่าวได้ดีกว่าโมเดลรุ่นอื่น ๆ

สิ่งที่น่าสังเกตคือ GPT‑5.5 พัฒนาขึ้นอย่างชัดเจนเมื่อเทียบกับ GPT‑5.4 ในการทดสอบของ GeneBench⁠(เปิดในหน้าต่างใหม่) ซึ่งเป็นเกณฑ์วัดผลตัวใหม่ที่เน้นการวิเคราะห์ข้อมูลทางวิทยาศาสตร์แบบหลายขั้นตอนในด้านพันธุศาสตร์และชีววิทยาเชิงปริมาณ โจทย์เหล่านี้กำหนดให้โมเดลต้องใช้เหตุผลจัดการกับข้อมูลที่อาจกำกวมหรือผิดพลาดโดยแทบไม่มีคำแนะนำช่วยควบคุม ทั้งยังต้องรับมือกับอุปสรรคที่เกิดขึ้นจริง เช่น ตัวแปรที่แฝงอยู่ หรือความล้มเหลวในการควบคุมคุณภาพ ตลอดจนต้องประยุกต์ใช้และตีความวิธีการทางสถิติสมัยใหม่ได้อย่างถูกต้อง ประสิทธิภาพของโมเดลนี้นับว่าน่าทึ่งมาก เมื่อพิจารณาจากข้อเท็จจริงที่ว่างานในกลุ่มนี้มักเทียบเท่ากับโปรเจกต์ที่ผู้เชี่ยวชาญทางวิทยาศาสตร์ต้องใช้เวลาทำนานหลายวัน

ในทำนองเดียวกัน GPT‑5.5 สามารถทำคะแนนได้สูงสุดเป็นอันดับต้นๆ บน BixBench⁠(เปิดในหน้าต่างใหม่) ซึ่งเป็นเกณฑ์มาตรฐานที่ออกแบบมาเพื่อวัดทักษะด้านชีวสารสนเทศและการวิเคราะห์ข้อมูลในโลกแห่งความเป็นจริง เมื่อเทียบกับโมเดลอื่นๆ ที่มีการเปิดเผยคะแนนออกมา ขีดความสามารถด้านวิทยาศาสตร์ของ GPT‑5.5 พัฒนามาถึงจุดที่สามารถช่วยขับเคลื่อนการวิจัยชีวการแพทย์ขั้นสูงให้รุดหน้ายิ่งขึ้น โดยทำหน้าที่เป็นเสมือนนักวิทยาศาสตร์ร่วมทีมที่พึ่งพาได้จริง

อีกตัวอย่างหนึ่งคือ การใช้ GPT‑5.5 เวอร์ชันภายในที่ปรับแต่งระบบควบคุมเป็นพิเศษ ช่วยให้ค้นพบบทพิสูจน์ใหม่⁠(เปิดในหน้าต่างใหม่)ของทฤษฎีตัวเลขแรมซีย์ ซึ่งถือเป็นหนึ่งในหัวใจสำคัญของวิชาคณิตศาสตร์เชิงจัดหมู่ คณิตศาสตร์เชิงจัดหมู่เป็นศาสตร์ที่ศึกษาการเชื่อมโยงกันของวัตถุไม่ต่อเนื่อง เช่น กราฟ เครือข่าย เซ็ต และแบบแผนต่างๆ ทฤษฎีตัวเลขแรมซีย์ถามถึงคำถามหลักที่ว่า เครือข่ายจะต้องมีขนาดใหญ่แค่ไหน จึงจะรับประกันได้ว่าจะมีระเบียบ (Order) บางอย่างปรากฏขึ้นมา ความสำเร็จในด้านนี้มีให้เห็นไม่บ่อยนัก และมักเป็นเรื่องยากในทางเทคนิค ในกรณีนี้ GPT‑5.5 ได้ค้นพบการพิสูจน์ข้อเท็จจริงทางอสมมาตร (Asymptotic fact) ที่ค้างคาทันมานานเกี่ยวกับตัวเลขแรมซีย์แบบนอกแนวทแยง ซึ่งต่อมาได้รับการตรวจสอบความถูกต้องแล้วด้วยโปรแกรม Lean ผลลัพธ์นี้เป็นตัวอย่างที่เป็นรูปธรรมของการที่ GPT‑5.5 ไม่ได้ช่วยเพียงแค่การเขียนโค้ดหรือการอธิบายเท่านั้น แต่ยังได้นำเสนอข้อโต้แย้งทางคณิตศาสตร์ที่ตาดไม่ถึงและมีประโยชน์ในพื้นที่การวิจัยหลักอีกด้วย

กลุ่มผู้ทดสอบใช้งานในระยะแรกเริ่มใช้ GPT‑5.5 Pro ใน ChatGPT โดยไม่ได้มองว่าเป็นเพียงเครื่องมือหาคำตอบแบบครั้งเดียวจบ แต่ใช้งานในฐานะคู่คิดงานวิจัยมากกว่า ไม่ว่าจะเป็นการวิจารณ์ต้นฉบับอย่างละเอียดหลายรอบ การทดสอบความสมบูรณ์ของข้อโต้แย้งทางเทคนิค การนำเสนอการวิเคราะห์ ตลอดจนการทำงานร่วมกับทั้งชุดโค้ด บันทึกย่อ และบริบทจากเอกสาร PDF หัวใจสำคัญของโมเดลนี้คือความสามารถของ GPT‑5.5 ในการสนับสนุนนักวิจัยให้ดำเนินการได้อย่างคล่องตัว ตั้งแต่ขั้นการกำหนดโจทย์วิจัย การดำเนินการทดลอง ไปจนถึงการสรุปผลการดำเนินงาน

Derya Unutmaz ศาสตราจารย์ด้านภูมิคุ้มกันวิทยาและนักวิจัยที่ Jackson Laboratory for Genomic Medicine ใช้ GPT‑5.5 Pro เพื่อวิเคราะห์ชุดข้อมูลการแสดงออกของยีนที่มี 62 ตัวอย่างและยีนเกือบ 28,000 ยีน จนได้รายงานวิจัยโดยละเอียดที่ไม่เพียงสรุปผลการค้นพบเท่านั้น แต่ยังชี้ให้เห็นคำถามสำคัญและข้อมูลเชิงลึกอีกด้วย ซึ่งเขาระบุว่าโดยปกติแล้วงานลักษณะนี้ต้องใช้เวลาหลายเดือนกว่าจะทำเสร็จ

Bartosz Naskręcki ผู้ช่วยศาสตราจารย์ด้านคณิตศาสตร์แห่ง Adam Mickiewicz University ในเมืองพอซนาน ประเทศโปแลนด์ ใช้ GPT‑5.5 ใน Codex เพื่อสร้างแอปด้านเรขาคณิตเชิงพีชคณิตจากพรอมต์เดียวภายใน 11 นาที โดยแสดงภาพจุดตัดของพื้นผิวกำลังสองและแปลงเส้นโค้งที่ได้ให้อยู่ในรูปแบบ Weierstrass

เขายังได้ขยายความสามารถของแอปต่อด้วยการแสดงภาพภาวะเอกฐานที่เสถียรมากขึ้น เพิ่มค่าสัมประสิทธิ์ที่แม่นยำซึ่งสามารถนำไปใช้ต่อในงานอื่นได้ สำหรับเขาแล้วการเปลี่ยนแปลงที่สำคัญยิ่งกว่าคือ ตอนนี้ Codex สามารถช่วยสร้างเวิร์กโฟลว์แบบกำหนดเองสำหรับการแสดงภาพทางคณิตศาสตร์และระบบพีชคณิตคอมพิวเตอร์ ซึ่งก่อนหน้านี้จำเป็นต้องอาศัยเครื่องมือเฉพาะทาง เมื่อพิจารณารวมกันแล้ว ตัวอย่างเหล่านี้แสดงให้เห็นว่า GPT‑5.5 สามารถเปลี่ยนเจตนาระดับผู้เชี่ยวชาญให้กลายเป็นเครื่องมือวิจัยและงานวิเคราะห์ที่ใช้งานได้จริง

เครดิต: Bartosz Naskręcki⁠(เปิดในหน้าต่างใหม่)

พรอมต์: # Algebraic geometry surface intersection

Make an app which draws two quadratic surfaces and colors in red the intersection curve. Use computational Riemann-Roch theorem to convert this into Weierstrass curve.

## Main window

Two tinted surfaces with a slightly transparent shading, high quality rendering intersect along a red colored algebraic curve

Rotation with mouses in both directions, full pinch mechanism for zoom, haptic press to show the little menu with sliders for changing the coefficients of each surface; detection via Z-buffor level

## Side right window

Short Weierstrass equation (over Q or quadratic field extension) computed on the go via effective Riemann-Roch theorem formulas

## Specs

App is running in the browser, light-weight implementation with full stack newest libraries, portable, deployable

## Docs

Git repo, journal, plan (Markdown files)

“เรารู้สึกตื่นเต้นอย่างมากที่ได้นำ GPT-5.5 โมเดลตัวล่าสุดของ OpenAI มาใช้งานในระบบวิจัย โดยให้ AI ช่วยคิดวิเคราะห์ข้อมูลทางชีวเคมีจำนวนมหาศาลเพื่อทำนายการตอบสนองของยาในร่างกายคน ซึ่งผลลัพธ์ที่ได้แสดงให้เห็นว่าความแม่นยำพุ่งสูงขึ้นอย่างชัดเจนในโจทย์การค้นหายาที่มีความซับซ้อนระดับสูงสุด หาก OpenAI ยังเดินหน้าสร้างผลงานได้อย่างต่อเนื่องแบบนี้ วิธีการพื้นฐานในการคิดค้นตัวยาก็จะเข้าสู่ยุคใหม่ภายในสิ้นปีนี้”

— Brandon White ผู้ร่วมก่อตั้งและซีอีโอของ Axiom Bio

ประสิทธิภาพการประมวลผลยุคถัดไป

เพื่อให้ GPT‑5.5 ทำงานได้เร็วเท่า GPT‑5.4 เราต้องมองกระบวนการประมวลผลเป็นระบบโครงสร้างที่เชื่อมโยงกันทั้งหมด แทนที่จะแยกแก้ปัญหาเป็นจุดๆ เหมือนที่เคยทำมา GPT‑5.5 ถูกสร้างขึ้นมาเพื่อให้ทำงานบน NVIDIA GB200 และ GB300 NVL72 อย่างสมบูรณ์แบบ ตั้งแต่ขั้นตอนการออกแบบ การเทรน ไปจนถึงการใช้งานจริง Codex และ GPT‑5.5 มีบทบาทสำคัญต่อการที่เราบรรลุเป้าหมายด้านประสิทธิภาพ Codex ช่วยให้ทีมสามารถเปลี่ยนจากแนวคิดไปสู่การสร้างระบบที่วัดผลได้รวดเร็วยิ่งขึ้น ทั้งในด้านการร่างแนวทางปฏิบัติ การเชื่อมต่อระบบทดสอบ และการช่วยระบุว่าการเพิ่มประสิทธิภาพในส่วนใดที่ควรค่าแก่การลงทุนอย่างจริงจัง GPT‑5.5 ช่วยค้นหาและนำการปรับปรุงที่สำคัญไปใช้ในตัวสแต็กเอง พูดง่ายๆ ก็คือ ตัวโมเดลเองนี่แหละที่ช่วยพัฒนาโครงสร้างพื้นฐานที่ใช้รันตัวมันเอง

หนึ่งในตัวอย่างของการพัฒนาดังกล่าวคือ การสร้างหลักเกณฑ์การตัดสินใจสำหรับการปรับสมดุลภาระงาน และการแบ่งส่วนข้อมูล ก่อนที่จะมี GPT‑5.5 เราต้องแบ่งคำขอใช้งานเป็นส่วนๆ ในปริมาณที่กำหนดไว้ เพื่อกระจายงานให้แต่ละตัวประมวลผลเท่าๆ กัน ซึ่งวิธีนี้ช่วยให้ GPU หนึ่งตัวสามารถรับมือได้ทั้งงานที่ซับซ้อนและงานทั่วไปพร้อมๆ กัน อย่างไรก็ตาม การกำหนดจำนวนส่วนย่อยแบบคงที่ไว้ล่วงหน้านั้น ไม่ใช่ทางเลือกที่เหมาะสมที่สุดสำหรับรูปแบบของข้อมูลใช้งานที่มีความหลากหลาย เพื่อให้สามารถใช้ศักยภาพของ GPU ได้ดียิ่งขึ้น Codex ได้ทำการวิเคราะห์รูปแบบปริมาณงานจากการใช้งานจริงเป็นเวลาหลายสัปดาห์ และเขียนอัลกอริทึมการตัดสินใจ ขึ้นมาใหม่ เพื่อแบ่งส่วนงานและปรับสมดุลภาระงานได้อย่างเหมาะสมที่สุด ความพยายามดังกล่าวก่อให้เกิดผลลัพธ์ที่ยอดเยี่ยมเกินความคาดหมาย โดยสามารถเพิ่มความเร็วในการสร้างโทเคนได้มากกว่า 20%

ยกระดับความปลอดภัยทางไซเบอร์เพื่อความปลอดภัยของทุกคน

การเตรียมความพร้อมรับมือโมเดลที่มีความเชี่ยวชาญสูงในการค้นหาและแก้ไขช่องโหว่ด้านความปลอดภัย ถือเป็นภารกิจที่ต้องอาศัยความร่วมมือจากทุกภาคส่วน และจำเป็นต้องให้ระบบนิเวศทั้งหมดร่วมมือกันสร้างความยืดหยุ่นในการรับมือ โดยอาศัยการเข้าถึงโมเดลอย่างเท่าเทียมและการใช้งานจริงอย่างเป็นลำดับเพื่อก้าวเข้าสู่ยุคถัดไปของการป้องกันภัยทางไซเบอร์⁠

โมเดลระดับแนวหน้ากำลังมีความสามารถด้านความมั่นคงปลอดภัยไซเบอร์มากขึ้นเรื่อยๆ ความสามารถเหล่านั้นจะแพร่หลายออกไปเป็นวงกว้าง และเราเชื่อว่าหนทางที่ดีที่สุดคือการสร้างความมั่นใจว่า ความสามารถดังกล่าวจะถูกนำไปใช้เพื่อเร่งกระบวนการป้องกันทางไซเบอร์และเสริมสร้างความแข็งแกร่งให้กับระบบนิเวศโดยรวม

GPT‑5.5 ถือเป็นพัฒนาการอีกขั้นที่สำคัญสู่การเป็น AI ที่สามารถรับมือกับโจทย์ที่ท้าทายระดับโลกอย่างเรื่องความปลอดภัยทางไซเบอร์ เมื่อครั้งเปิดตัว GPT‑5.2 ในเดือนธันวาคม เราได้ใช้มาตรการป้องกันทางไซเบอร์⁠ที่จำเป็นเพื่อจำกัดการนำโมเดลไปใช้ในทางที่ผิด และในขณะนี้สำหรับ GPT‑5.5 เรากำลังเริ่มใช้ระบบคัดกรองความเสี่ยงทางไซเบอร์ที่เข้มงวดขึ้น ซึ่งผู้ใช้บางท่านอาจรู้สึกไม่สะดวกในช่วงแรก โดยเราจะดำเนินการปรับจูนระบบเหล่านี้ให้เหมาะสมต่อไป

เราได้ระบุให้ความมั่นคงปลอดภัยไซเบอร์เป็นหนึ่งในหมวดหมู่สำคัญภายใต้กรอบการเตรียมความพร้อม⁠(เปิดในหน้าต่างใหม่)ของเรามานานหลายปี ในขณะที่โมเดลของเรามีการพัฒนาขึ้นตามลำดับ ควบคู่ไปกับการที่เราพัฒนาและปรับจูนมาตรการบรรเทาความเสี่ยงอย่างต่อเนื่อง เพื่อให้สามารถปล่อยโมเดลที่มีขีดความสามารถด้านความปลอดภัยไซเบอร์ในระดับสูงได้อย่างมีความรับผิดชอบ

เรากำลังปรับใช้มาตรการป้องกันชั้นนำของอุตสาหกรรมสำหรับขีดความสามารถทางไซเบอร์ระดับนี้ เราเริ่มนำมาตรการป้องกันเฉพาะด้านไซเบอร์มาใช้กับ GPT‑5.2⁠(เปิดในหน้าต่างใหม่) เมื่อปีที่แล้ว และยังคงทดสอบ ปรับปรุง และต่อยอดมาตรการเหล่านี้ในการนำไปใช้งานในครั้งต่อๆ มา สำหรับ GPT‑5.5 เราได้ออกแบบมาตรการควบคุมที่เข้มงวดยิ่งขึ้นสำหรับกิจกรรมที่มีความเสี่ยงสูง คำขอด้านไซเบอร์ที่มีความอ่อนไหว และเพิ่มมาตรการป้องกันสำหรับการใช้งานในทางที่ผิดซ้ำๆ เราสร้างความเป็นไปได้ในการเข้าถึงเทคโนโลยีอย่างทั่วถึง ผ่านการทุ่มงบประมาณด้านความปลอดภัยของโมเดล ระบบการระบุตัวตนที่มีความมั่นคงสูง และกระบวนการเฝ้าระวังเพื่อสกัดกั้นการใช้งานที่ผิด เราได้ทำงานร่วมกับผู้เชี่ยวชาญภายนอกมาเป็นเวลาหลายเดือน เพื่อพัฒนา ทดสอบ และปรับปรุงความแข็งแกร่งของมาตรการป้องกันเหล่านี้อย่างต่อเนื่อง ด้วย GPT‑5.5 เรากำลังสร้างความมั่นใจว่าเหล่านักพัฒนาจะสามารถเสริมความปลอดภัยให้กับโค้ดของตนได้อย่างง่ายดาย ในขณะเดียวกันเราได้เพิ่มมาตรการควบคุมที่เข้มงวดขึ้นในกระบวนการทำงานด้านไซเบอร์ที่มีความสุ่มเสี่ยงจะถูกนำไปใช้ก่อความเสียหายโดยผู้ไม่หวังดี
เรากำลังขยายการเข้าถึงเพื่อเร่งการป้องกันภัยไซเบอร์ในทุกระดับ เรากำลังเปิดให้ใช้งานโมเดลที่มีข้อจำกัดด้านไซเบอร์น้อยลงของเราผ่าน Trusted Access for Cyber⁠ โดยเริ่มจาก Codex ซึ่งรวมถึงสิทธิ์การเข้าถึงที่ขยายเพิ่มขึ้นสำหรับขีดความสามารถด้านความปลอดภัยไซเบอร์ขั้นสูงของ GPT‑5.5 โดยมีข้อจำกัดน้อยลงสำหรับผู้ใช้ที่ผ่านการยืนยันตัวตนและมี สัญญาณความน่าเชื่อถือ⁠(เปิดในหน้าต่างใหม่) ตามเกณฑ์บางประการ ณ เวลาเปิดตัว องค์กรที่มีหน้าที่รับผิดชอบในการปกป้องโครงสร้างพื้นฐานที่สำคัญ⁠ สามารถยื่นคำขอเพื่อเข้าถึงโมเดลที่อนุญาตให้ใช้งานด้านไซเบอร์ได้ เช่น GPT‑5.4‑Cyber โดยต้องปฏิบัติตามข้อกำหนดด้านความปลอดภัยที่เข้มงวด เพื่อใช้โมเดลเหล่านี้ในการเสริมสร้างความปลอดภัยของระบบภายใน แนวทางนี้ช่วยให้ฝ่ายป้องกันที่ผ่านการรับรองจำนวนมากได้รับเครื่องมือที่มีประสิทธิภาพสูงขึ้นสำหรับการปฏิบัติงานด้านความปลอดภัยที่ถูกต้องตามกฎหมาย โดยลดอุปสรรคที่ไม่จำเป็นลง เพื่อให้มั่นใจว่าขีดความสามารถด้านการป้องกันที่สำคัญจะได้รับการกระจายสิทธิ์การเข้าถึงอย่างทั่วถึง ผู้ใช้สามารถสมัครขอการเข้าถึงที่เชื่อถือได้ที่ chatgpt.com/cyber⁠(เปิดในหน้าต่างใหม่) เพื่อลดการปฏิเสธที่ไม่จำเป็นขณะใช้ GPT‑5.5 สำหรับงานด้านการป้องกันที่ผ่านการยืนยันแล้ว
เรากำลังทำงานร่วมกับรัฐบาลพันธมิตรเพื่อช่วยปกป้องโครงสร้างพื้นฐานที่สำคัญสำหรับประชาชน ความร่วมมือนี้มีเป้าหมายเพื่อศึกษาการนำ AI ขั้นสูงมาใช้เสริมแกร่งการทำงานของหน่วยงานที่ดูแลระบบสำคัญของประเทศ ไม่ว่าจะเป็นการคุ้มครองข้อมูลภาษีที่มีความสำคัญสูงสุด หรือการดูแลเสถียรภาพของระบบไฟฟ้าและน้ำประปาที่หล่อเลี้ยงชุมชนของเรา

เราได้จัดระดับขีดความสามารถด้านชีวภาพ/เคมี และด้านความมั่นคงปลอดภัยไซเบอร์ของ GPT‑5.5 ไว้ในระดับ 'สูง' ภายใต้กรอบการเตรียมความพร้อม⁠(เปิดในหน้าต่างใหม่)ของเรา แม้ว่า GPT‑5.5 จะยังไม่ถึงระดับความสามารถด้านความปลอดภัยไซเบอร์ขั้นวิกฤต แต่การประเมินและการทดสอบของเราแสดงให้เห็นว่าความสามารถด้านความปลอดภัยไซเบอร์ของโมเดลนี้ก้าวขึ้นจาก GPT‑5.4 อีกขั้น

นอกจากนี้ GPT‑5.5 ได้ผ่านกระบวนการด้านความปลอดภัยและการกำกับดูแลอย่างเต็มรูปแบบก่อนการเปิดตัว ซึ่งรวมถึงการประเมินความพร้อม การทดสอบเฉพาะด้าน การประเมินเป้าหมายใหม่สำหรับขีดความสามารถด้านชีววิทยาขั้นสูงและไซเบอร์ซีเคียวริตี้ ตลอดจนการทดสอบอย่างเข้มข้นร่วมกับผู้เชี่ยวชาญจากภายนอก เราได้แชร์รายละเอียดเพิ่มเติมในการ์ดระบบ⁠(เปิดในหน้าต่างใหม่)ของ GPT‑5.5

การดำเนินงานนี้สะท้อนถึงแนวทางการสร้างความยืดหยุ่นของ AI ในภาพรวมของเรา ซึ่งเราเชื่อว่าเป็นสิ่งจำเป็นอย่างยิ่งในขณะที่ขีดความสามารถของโมเดลมีการพัฒนาไปอย่างต่อเนื่อง เราต้องการให้ AI ที่มีศักยภาพสูงสามารถใช้งานได้โดยผู้ที่นำมันไปใช้ป้องกันระบบ หน่วยงาน และประชาชน แนวทางที่ใช้ได้จริงคือ การเข้าถึงที่ปลอดภัยและเชื่อถือได้ พร้อมการคุ้มครองที่มั่นคงและขยายไปตามขีดความสามารถของระบบ และมีศักยภาพด้านปฏิบัติงานเพื่อตรวจจับและตอบสนองต่อการใช้ในทางที่ผิดอย่างร้ายแรง

การพร้อมใช้งานและการกำหนดราคา

สำหรับใน ChatGPT นั้น GPT‑5.5 Thinking เปิดให้บริการสำหรับผู้ใช้งานแพ็กเกจ Plus, Pro, Business และ Enterprise เท่านั้น GPT‑5.5 Pro ซึ่งได้รับการออกแบบมาเพื่อตอบคำถามที่ซับซ้อนยิ่งขึ้นและรองรับงานที่ต้องการความแม่นยำสูง เปิดให้บริการแล้วสำหรับผู้ใช้งานแพ็กเกจ Pro, Business และ Enterprise

สำหรับใน Codex นั้น GPT‑5.5 เปิดให้ใช้งานสำหรับผู้สมัครแพ็กเกจ Plus, Pro, Business, Enterprise, Edu และ Go โดยมาพร้อมกับหน้าต่างบริบทขนาด 400K GPT‑5.5 ยังมีให้ใช้งานในโหมด Fast โดยสร้างโดยได้เร็วขึ้น 1.5 เท่า โดยมีค่าใช้จ่ายเพิ่มขึ้น 2.5 เท่า

สำหรับนักพัฒนา API นั้น gpt-5.5 จะเปิดให้บริการในเร็วๆ นี้ผ่าน Responses API และ Chat Completions API โดยมีอัตราค่าบริการอยู่ที่ 5 ดอลลาร์ต่อ 1 ล้านอินพุตโทเค็น และ 30 ดอลลาร์ต่อ 1 ล้านเอาต์พุตโทเค็น พร้อมรองรับหน้าต่างบริบทสูงสุดถึง 1 ล้านโทเค็น เราเปิดให้ใช้งานราคาแบบ Batch และ Flex ในอัตราเพียงครึ่งหนึ่งของราคา API มาตรฐาน ในขณะที่การประมวลผลแบบ Priority จะมีอัตราค่าบริการเป็น 2.5 เท่าของราคา API มาตรฐาน นอกจากนี้ เราจะเปิดตัว gpt-5.5-pro ในรูปแบบ API สำหรับงานที่ต้องการความแม่นยำสูงเป็นพิเศษ โดยกำหนดราคาไว้ที่ 30 ดอลลาร์ต่อ 1 ล้านอินพุตโทเค็น และ 180 ดอลลาร์ต่อ 1 ล้านเอาต์พุตโทเค็น ดูหน้าราคา⁠สำหรับรายละเอียดทั้งหมด

ถึงแม้ว่า GPT‑5.5 จะมีราคาสูงกว่า GPT‑5.4 โมเดลนี้มีความชาญฉลาดมากขึ้น แลพสามารถใช้โทเค็นได้อย่างมีประสิทธิภาพสูงขึ้นอีกด้วย สำหรับใน Codex นั้น เราได้ปรับจูนประสบการณ์การใช้งานอย่างละเอียด เพื่อให้ GPT‑5.5 มอบผลลัพธ์ที่ดียิ่งขึ้นโดยใช้จำนวนโทเค็นน้อยกว่า GPT‑5.4 สำหรับผู้ใช้ส่วนใหญ่ ในขณะที่ยังคงมอบโควตาการใช้งานที่ครอบคลุมในทุกระดับการสมัครสมาชิก

การประเมิน

การเขียนโค้ด

Eval	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
SWE-Bench Pro (เวอร์ชันสาธารณะ) *	58.6%	57.7%	-	-	64.3%	54.2%
Terminal-Bench 2.0	82.7%	75.1%	-	-	69.4%	68.5%
Expert-SWE (ภายใน)	73.1%	68.5%	-	-	-	-

^*^{ห้องปฏิบัติการตรวจพบ}^{หลักฐานที่บ่งชี้ถึงการจดจำข้อมูล}⁠(เปิดในหน้าต่างใหม่)^{ในการประเมินนี้}

มืออาชีพ

Eval	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
GDPval (ชนะหรือเสมอ)	84.9%	83.0%	82.3%	82.0%	80.3%	67.3%
FinanceAgent v1.1	60.0%	56.0%	-	61.5%	64.4%	59.7%
งานการสร้างแบบจำลองการธนาคารเพื่อการลงทุน (ภายใน)	88.5%	87.3%	88.6%	83.6%	-	-
OfficeQA Pro	54.1%	53.2%	-	-	43.6%	18.1%

การใช้คอมพิวเตอร์และการมองเห็น

Eval	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
OSWorld-Verified	78.7%	75.0%	-	-	78.0%	-
MMMU Pro (ไม่มีเครื่องมือ)	81.2%	81.2%	-	-	-	80.5%
MMMU Pro (พร้อมเครื่องมือ)	83.2%	82.1%	-	-	-	-

การใช้เครื่องมือ

Eval	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
BrowseComp	84.4%	82.7%	90.1%	89.3%	79.3%	85.9%
MCP Atlas**	75.3%	70.6%	-	-	79.1%	78.2%
Toolathlon	55.6%	54.6%	-	-	-	48.8%
Tau2-bench Telecom*** (พรอมต์ต้นฉบับ)	98.0%	92.8%	-	-	-	-

^{** MCP Atlas: ผลลัพธ์จาก Scale AI หลังการอัปเดตล่าสุดในเดือนเมษายน 2026.
*** Tau2-bench telecom: ผลลัพธ์สำหรับ 5.5 และ 5.4 โดยใช้คำสั่งดั้งเดิม กล่าวคือ ไม่มีการปรับคำสั่ง ข้อความนี้ไม่รวมผลลัพธ์จากห้องปฏิบัติการอื่นๆ ที่ได้รับการประเมินโดยมีการปรับคำสั่ง}

งานวิชาการ

Eval	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
GeneBench	25.0%	19.0%	33.2%	25.6%	-	-
FrontierMath ระดับ 1–3	51.7%	47.6%	52.4%	50.0%	43.8%	36.9%
FrontierMath ระดับ 4	35.4%	27.1%	39.6%	38.0%	22.9%	16.7%
BixBench	80.5%	74.0%	-	-	-	-
GPQA Diamond	93.6%	92.8%	-	94.4%	94.2%	94.3%
Humanity's Last Exam (ไม่ใช้เครื่องมือ)	41.4%	39.8%	43.1%	42.7%	46.9%	44.4%
Humanity's Last Exam (พร้อมเครื่องมือ)	52.2%	52.1%	57.2%	58.7%	54.7%	51.4%

ความปลอดภัยทางไซเบอร์

Eval	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
งานโจทย์ Capture-the-Flags (ภายใน)****	88.1%	83.7%	-	-	-	-
CyberGym	81.8%	79.0%	-	-	73.1%	-

^{**** ส่วนขยายของ CTF ที่ยากที่สุดซึ่งใช้ในการ์ดระบบ พร้อมความท้าทายยากเพิ่มเติม}

บริบทยาว

Eval	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Graphwalks BFS 256k f1	73.7%	62.5%	-	-	76.9%	-
Graphwalks BFS 1mil f1	45.4%	9.4%	-	-	41.2% (Opus 4.6)	-
Graphwalks Parent 256K f1	90.1%	82.8%	-	-	93.6%	-
Graphwalks parents 1mil f1	58.5%	44.4%	-	-	72.0% (Opus 4.6)	-
OpenAI MRCR v2 8-needle 4K-8K	98.1%	97.3%	-	-	-	-
OpenAI MRCR v2 8-needle 8K-16K	93.0%	91.4%	-	-	-	-
OpenAI MRCR v2 8-needle 16K-32K	96.5%	97.2%	-	-	-	-
OpenAI MRCR v2 8-needle 32K-64K	90.0%	90.5%	-	-	-	-
OpenAI MRCR v2 8-needle 64K-128K	83.1%	86.0%	-	-	-	-
OpenAI MRCR v2 8-needle 128K-256K	87.5%	79.3%	-	-	59.2%	-
OpenAI MRCR v2 8-needle 256K-512K	81.5%	57.5%	-	-	-	-
OpenAI MRCR v2 8-needle 512K-1M	74.0%	36.6%	-	-	32.2%	-

การให้เหตุผลเชิงนามธรรม

Eval	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
ARC-AGI-1 (Verified)	95.0%	93.7%	-	94.5%	93.5%	98.0%
ARC-AGI-2 (Verified)	85.0%	73.3%	-	83.3%	75.8%	77.1%

เราดำเนินการทดสอบวัดผลโดยตั้งค่าระดับการใช้เหตุผลไว้ที่ระดับสูงสุด (xhigh) การทดสอบมาตรฐานได้ดำเนินการในสภาพแวดล้อมการวิจัย ซึ่งอาจให้ผลลัพธ์ที่แตกต่างจาก ChatGPT เวอร์ชันใช้งานจริงในบางกรณี