วันนี้เรากำลังปล่อยตัวอย่างงานวิจัยของ GPT‑5.3‑Codex‑Spark ซึ่งเป็นเวอร์ชันเล็กของ GPT‑5.3‑Codex และเป็นโมเดลแรกของเราที่ออกแบบมาเพื่อการเขียนโค้ดแบบเรียลไทม์ Codex-Spark คือก้าวแรกในความร่วมมือของเรากับ Cerebras ซึ่งเราได้ประกาศไปเมื่อเดือนมกราคม Codex-Spark ผ่านการปรับแต่งให้ตอบสนองแทบจะทันทีเมื่อรันบนฮาร์ดแวร์ความหน่วงต่ำมาก และยังสร้าง Token ได้มากกว่า 1000 Token วินาที พร้อมรองรับงานโค้ดจริงอย่างเต็มความสามารถ
เราเปิดให้ผู้ใช้ ChatGPT Pro ทดลองใช้ Codex-Spark บน Cerebras ในรูปแบบพรีวิวงานวิจัย เพื่อให้นักพัฒนาเริ่มทดลองใช้งานได้ตั้งแต่เนิ่นๆ ขณะที่เราร่วมมือกับ Cerebras เพื่อเพิ่มความจุของศูนย์ข้อมูล เสริมความเสถียรของประสบการณ์ผู้ใช้แบบครบวงจร และปรับใช้โมเดลขนาดใหญ่ระดับแนวหน้าของเรา
โมเดลแนวหน้าล่าสุดของเรามีจุดเด่นในเรื่องความสามารถของการทำงานระยะยาว โดยทำงานได้เองต่อเนื่องเป็นชั่วโมง เป็นวัน หรือเป็นสัปดาห์โดยไม่ต้องมีคนเข้ามาแทรกแซง Codex-Spark คือโมเดลแรกของเราที่ออกแบบมาโดยเฉพาะสำหรับการทำงานกับ Codex แบบเรียลไทม์ เพื่อให้คุณสามารถแก้ไขงานได้แบบเจาะจง พร้อมปรับโครงสร้างตรรกะ หรือปรับแต่งอินเทอร์เฟซ และเห็นผลลัพธ์ได้ทันที ตอนนี้ Codex รองรับทั้งงานที่ต้องใช้เวลานานและงานที่ต้องทำให้เสร็จทันทีด้วยการใช้ Codex-Spark เราหวังว่าจะได้เรียนรู้จากการใช้งานของนักพัฒนาและนำข้อเสนอแนะมาปรับปรุงขณะที่เราขยายการเข้าถึงต่อไป
ในช่วงเปิดตัว Codex-Spark มีขนาดบริบท 128 k และเป็นรุ่นที่รองรับข้อความเท่านั้น ในช่วงที่เป็นพรีวิวงานวิจัย Codex-Spark จะมีข้อจำกัดอัตราการใช้งานของตัวเอง และการใช้งานจะไม่ถูกนับรวมกับข้อจำกัดอัตราการใช้งานมาตรฐาน อย่างไรก็ตามเมื่อมีความต้องการสูง การเข้าถึงอาจถูกจำกัดหรือมีการรอคิวชั่วคราวเพื่อให้ผู้ใช้ทุกคนได้รับบริการเสถียร
Codex-Spark ถูกออกแบบมาให้รองรับงานที่ต้องโต้ตอบแบบเรียลไทม์ ซึ่งความเร็วตอบสนองสำคัญไม่แพ้ความสามารถในการคิด คุณสามารถทำงานร่วมกับโมเดลแบบเรียลไทม์ โดยสามารถขัดจังหวะหรือเปลี่ยนทิศทางการทำงานได้กลางคัน และทำซ้ำได้อย่างรวดเร็วด้วยการตอบสนองที่เกือบจะทันที Codex-Spark ได้รับการปรับให้ทำงานเร็วขึ้น จึงใช้แนวทางการทำงานที่ไม่หนัก แก้ไขเฉพาะส่วนที่จำเป็น และไม่รันเทสต์เองหากคุณไม่ขอให้รัน
Codex-Spark เป็นโมเดลขนาดเล็กที่มีประสิทธิภาพสูง ปรับให้เหมาะสมสำหรับการประมวลผลที่รวดเร็ว ในผลการประเมินด้วย SWE-Bench Pro และ Terminal-Bench 2.0 ซึ่งเป็นเกณฑ์สำหรับวัดความสามารถการทำงานของเอเจนต์ในงานวิศวกรรมซอฟต์แวร์ พบว่า GPT‑5.3‑Codex‑Spark มีประสิทธิภาพสูง อีกทั้งยังสามารถทำงานให้เสร็จในเวลาที่น้อยกว่ามากเมื่อเทียบกับ GPT‑5.3‑Codex
เราคำนวณระยะเวลาโดยรวมจาก (1) เวลาในการสร้างผลลัพธ์ (Token เอาท์พุต ÷ ความเร็วในการสุ่มตัวอย่าง) (2) เวลาเตรียมข้อมูลล่วงหน้า (โทเค็นเตรียมข้อมูล ÷ ความเร็วการเตรียมข้อมูล) (3) เวลาทำงานรวมของเครื่องมือ และ (4) ค่าใช้จ่ายรวมของเครือข่าย
ในการฝึก Codex-Spark เราพบว่าสิ่งที่ทำให้การทำงานร่วมกันแบบเรียลไทม์ดีขึ้นไม่ใช่แค่ความเร็วของโมเดลเท่านั้น แต่เราต้องลดความหน่วงในทั้งระบบตั้งแต่การรับคำขอจนถึงการตอบกลับด้วย เราได้ปรับปรุงความหน่วงเวลาตั้งแต่ต้นจนจบในระบบของเรา ซึ่งจะเป็นประโยชน์ต่อโมเดลทั้งหมด เบื้องหลังเราปรับการสตรีมคำตอบระหว่างไคลเอนต์และเซิร์ฟเวอร์ให้ลื่นขึ้น เขียนส่วนสำคัญของ Inference Stack ใหม่ และปรับขั้นตอนเริ่มเซสชันเพื่อให้โทเคนแรกปรากฏเร็วขึ้นและให้ Codex ตอบสนองได้ดีระหว่างที่คุณทำงานซ้ำ เรานำการเชื่อมต่อ WebSocket แบบถาวรมาใช้และปรับประสิทธิภาพเฉพาะจุดภายใน Responses API ทำให้เราสามารถลดโอเวอร์เฮดต่อรอบไคลเอนต์และเซิร์ฟเวอร์ได้ 80% ลดโอเวอร์เฮดต่อ Token ได้ 30% และลดเวลาการสร้าง Token แรกลงได้ถึง 50% เราเปิดใช้ WebSocket เป็นค่าเริ่มต้นสำหรับ Codex-Spark และเราวางแผนให้โมเดลทั้งหมดเปลี่ยนมาใช้ค่านี้เป็นค่าเริ่มต้นเร็วๆ นี้
Codex-Spark ทำงานบน Wafer Scale Engine 3(เปิดในหน้าต่างใหม่)ของ Cerebras ซึ่งเป็นตัวเร่งความเร็ว AI ที่ออกแบบมาโดยเฉพาะสำหรับการอนุมานความเร็วสูง มอบชั้นการให้บริการที่ให้ความสำคัญกับเวลาในการตอบสนองเป็นอันดับแรกให้กับ Codex เราได้ร่วมมือกับ Cerebras เพื่อเพิ่มเส้นทางที่มีความหน่วงต่ำนี้เข้าไปใน Stack การให้บริการเดียวกับระบบทั้งหมดของเรา ทำให้มันเชื่อมกับ Codex ได้อย่างไร้รอยต่อและเตรียมระบบให้รองรับโมเดลในอนาคต
สิ่งที่ทำให้เราตื่นเต้นที่สุดเกี่ยวกับ GPT‑5.3‑Codex‑Spark คือการได้ร่วมมือกับ OpenAI และชุมชนนักพัฒนาเพื่อค้นหาว่าการประมวลผลที่รวดเร็วเปิดโอกาสอะไรบ้าง ทั้งรูปแบบการโต้ตอบใหม่ การใช้งานใหม่ และประสบการณ์ของโมเดลที่แตกต่างไปจากเดิมอย่างสิ้นเชิง "ตัวอย่างนี้เป็นเพียงจุดเริ่มต้นเท่านั้น”
GPU ยังคงเป็นรากฐานสำคัญในกระบวนการฝึกอบรมและการอนุมานของเรา และช่วยให้ได้ Token ที่คุ้มค่าที่สุดสำหรับการใช้งานทั่วไป Cerebras เสริมความแข็งแกร่งให้พื้นฐานนี้ด้วยความสามารถพิเศษในงานที่ต้องตอบสนองอย่างรวดเร็ว ช่วยลดช่วงเวลาหน่วงในวงจรทั้งหมด ทำให้ Codex ตอบสนองไวขึ้นเมื่อคุณทำซ้ำคำสั่ง เมื่อเราใช้ GPU และ Cerebras ร่วมกันในงานเดียว เราจะได้ประสิทธิภาพที่ดีที่สุดจากทั้งสองระบบ
Codex-Spark จะเปิดตัวในวันนี้ในฐานะพรีวิวงานวิจัยสำหรับผู้ใช้ ChatGPT Pro ในแอป Codex, CLI และส่วนขยาย VS Code เวอร์ชันล่าสุด ระบบใช้ฮาร์ดแวร์แบบหน่วงต่ำเฉพาะทาง ทำให้เราต้องกำหนดเรตลิมิตแยกต่างหาก และเรตลิมิตนี้อาจเปลี่ยนตามความต้องการในช่วงทดลองใช้งานเพื่อการวิจัย นอกจากนี้ เราเปิดให้พาร์ตเนอร์ด้านดีไซน์กลุ่มเล็กใช้งาน Codex-Spark ผ่าน API เพื่อเรียนรู้ว่าผู้พัฒนาต้องการรวม Codex-Spark เข้ากับผลิตภัณฑ์ของพวกเขาแบบไหน ในสัปดาห์ถัดไปเราจะเพิ่มการเข้าถึง พร้อมทั้งปรับปรุงการรวมระบบให้ทำงานได้ดีในภาระงานจริง
ปัจจุบัน Codex-Spark รองรับเฉพาะข้อความและมีหน้าต่างบริบทขนาด 128k และเป็นโมเดลแรกในตระกูลโมเดลความเร็วสูงระดับพิเศษ เมื่อเราเรียนรู้เพิ่มเติมร่วมกับชุมชนนักพัฒนาเกี่ยวกับจุดเด่นของโมเดลเร็วในการเขียนโค้ด เราจะเปิดตัวความสามารถใหม่ๆ รวมถึงโมเดลที่มีขนาดใหญ่ขึ้น มีความยาวบริบทที่มากขึ้น และการรองรับข้อมูลหลายรูปแบบ
Codex-Spark ผ่านการเทรนด้านความปลอดภัยเช่นเดียวกับโมเดลหลักของเรา และยังรวมการเทรนที่เกี่ยวข้องกับไซเบอร์ด้วย เราได้ประเมิน Codex-Spark ผ่านกระบวนการนำไปใช้งานตามมาตรฐานของเรา ซึ่งรวมถึงการประเมินพื้นฐานด้านไซเบอร์และความสามารถอื่นๆ และได้ข้อสรุปว่า Codex-Spark ไม่ผ่านเกณฑ์ของโมเดลที่มีความเสี่ยงระดับสูงในด้านความมั่นคงปลอดภัยทางไซเบอร์ หรือด้านชีววิทยาตามกรอบการเตรียมความพร้อมของเรา
Codex-Spark คือก้าวแรกสู่ Codex ที่มีสองโหมดที่เสริมกัน ได้แก่ การให้เหตุผลและการดำเนินการในระยะยาว และการทำงานร่วมกันแบบเรียลไทม์เพื่อการปรับปรุงซ้ำอย่างรวดเร็ว ในระยะยาวโหมดเหล่านี้จะผสมผสานกัน Codex สามารถทำให้คุณโต้ตอบอย่างต่อเนื่อง ขณะเดียวกันก็มอบหมายงานที่ใช้เวลานานกว่าให้กับซับเอเจนต์ที่ทำงานอยู่เบื้องหลัง หรือกระจายงานออกไปให้หลายโมเดลทำงานแบบขนานเมื่อคุณต้องการความครอบคลุมและความเร็ว เพื่อที่คุณจะได้ไม่ต้องเลือกโหมดเดียวตั้งแต่แรก
เมื่อโมเดลมีความสามารถมากขึ้น ความเร็วในการโต้ตอบก็กลายเป็นอุปสรรคที่ชัดเจน การอนุมานที่เร็วเป็นพิเศษช่วยลดช่องว่างในวงจรการทำงาน ทำให้การใช้ Codex รู้สึกเป็นธรรมชาติมากขึ้นและขยายขอบเขตสิ่งที่เป็นไปได้สำหรับทุกคนในการเปลี่ยนไอเดียให้เป็นซอฟต์แวร์ที่ใช้งานได้จริง


