Bỏ qua nội dung chính
OpenAI

Giới thiệu GPT‑5.3‑Codex‑Spark

Một mô hình siêu nhanh để mã hóa theo thời gian thực trong Codex.

Đang tải…

Hôm nay, chúng tôi ra mắt bản xem trước nghiên cứu của GPT‑5.3‑Codex‑Spark, một phiên bản nhỏ hơn của GPT‑5.3‑Codex, và là mô hình đầu tiên của chúng tôi được thiết kế cho mã hóa thời gian thực. Codex-Spark đánh dấu cột mốc đầu tiên trong quan hệ đối tác của chúng tôi với Cerebras, được công bố vào tháng 1. Codex-Spark được tối ưu hóa để mang lại cảm giác gần như tức thì khi được phục vụ trên phần cứng có độ trễ siêu thấp—cung cấp hơn 1000 token mỗi giây trong khi vẫn duy trì năng lực cao cho các tác vụ lập trình thực tế.

Chúng tôi đang chia sẻ Codex-Spark dưới dạng bản xem trước nghiên cứu cho người dùng ChatGPT Pro để các nhà phát triển có thể bắt đầu thử nghiệm sớm trong khi chúng tôi hợp tác với Cerebras để mở rộng năng lực trung tâm dữ liệu, củng cố trải nghiệm đầu cuối và triển khai mô hình tiên phong lớn hơn của chúng tôi.

Các mô hình tiên phong mới nhất của chúng tôi đã thể hiện những điểm mạnh đặc biệt trong khả năng thực hiện các nhiệm vụ dài hạn, hoạt động tự động trong nhiều giờ, nhiều ngày hoặc nhiều tuần mà không cần sự can thiệp. Codex-Spark là mô hình đầu tiên của chúng tôi được thiết kế đặc biệt để làm việc với Codex theo thời gian thực—thực hiện các chỉnh sửa có mục tiêu, định hình lại logic hoặc tinh chỉnh giao diện và xem kết quả ngay lập tức. Với Codex-Spark, Codex giờ đây hỗ trợ cả các nhiệm vụ dài hạn, đầy tham vọng và hoàn thành công việc ngay lập tức. Chúng tôi hy vọng sẽ học hỏi từ cách các nhà phát triển sử dụng nó và kết hợp phản hồi khi chúng tôi tiếp tục mở rộng quyền truy cập.

Khi ra mắt, Codex-Spark có cửa sổ ngữ cảnh 128k và chỉ có văn bản. Trong giai đoạn xem trước nghiên cứu, Codex-Spark sẽ có giới hạn tần suất riêng và việc sử dụng sẽ không được tính vào giới hạn tần suất tiêu chuẩn. Tuy nhiên, khi nhu cầu cao, bạn có thể thấy quyền truy cập bị hạn chế hoặc bị xếp hàng tạm thời khi chúng tôi cân bằng độ tin cậy giữa các người dùng.

Tốc độ và trí tuệ

Codex-Spark được tối ưu hóa cho các công việc tương tác, nơi độ trễ quan trọng ngang với mức độ thông minh. Bạn có thể cộng tác với mô hình theo thời gian thực, ngắt quãng hoặc chuyển hướng nó khi nó đang hoạt động, và lặp lại nhanh chóng với các phản hồi gần như tức thì. Vì được tối ưu hóa cho tốc độ, Codex-Spark duy trì phong cách làm việc mặc định nhẹ nhàng: nó thực hiện các chỉnh sửa tối thiểu, có mục tiêu và không tự động chạy kiểm thử trừ khi bạn yêu cầu.

Mã hóa

Codex-Spark là một mô hình nhỏ có khả năng cao, được tối ưu hóa để suy luận nhanh chóng. Trên SWE-Bench Pro và Terminal-Bench 2.0, hai bộ tiêu chuẩn đánh giá khả năng kỹ thuật phần mềm của tác nhân, GPT‑5.3‑Codex‑Spark thể hiện hiệu suất mạnh mẽ trong khi hoàn thành các tác vụ trong một phần nhỏ thời gian so với GPT‑5.3‑Codex.

Thời lượng được ước tính là tổng của (1) thời gian tạo đầu ra (token đầu ra ÷ tốc độ lấy mẫu), (2) thời gian điền trước (token điền trước ÷ tốc độ điền trước), (3) tổng thời gian thực thi công cụ, và (4) tổng chi phí mạng.

Cải thiện độ trễ cho tất cả các mô hình

Khi chúng tôi huấn luyện Codex-Spark, chúng tôi nhận ra rằng tốc độ của mô hình chỉ là một phần của phương trình cho cộng tác thời gian thực—chúng tôi cũng cần giảm độ trễ trên toàn bộ quy trình yêu cầu-phản hồi. Chúng tôi đã triển khai các cải tiến về độ trễ từ đầu đến cuối trong hệ thống của mình, mang lại lợi ích cho tất cả các mô hình. Ở tầng bên dưới, chúng tôi đã tinh gọn cách các phản hồi được truyền từ máy khách đến máy chủ và ngược lại, viết lại các phần then chốt của ngăn xếp suy luận, và làm lại cách các phiên được khởi tạo để token hiển thị đầu tiên xuất hiện sớm hơn và Codex vẫn duy trì khả năng phản hồi nhanh khi bạn lặp lại. Thông qua việc giới thiệu một kết nối WebSocket liên tục và các tối ưu hóa có mục tiêu trong Responses API, chúng tôi đã giảm chi phí phát sinh cho mỗi lượt khứ hồi giữa client/server xuống 80%, chi phí phát sinh trên mỗi token xuống 30% và thời gian đến token đầu tiên xuống 50%. Đường dẫn WebSocket được bật theo mặc định cho Codex-Spark và sẽ sớm trở thành mặc định cho tất cả các mô hình.

Được hỗ trợ bởi Cerebras

Codex-Spark chạy trên Wafer Scale Engine 3(mở trong cửa sổ mới)của Cerebras—một bộ tăng tốc AI được thiết kế đặc biệt cho suy luận tốc độ cao, mang lại cho Codex một tầng phục vụ ưu tiên độ trễ. Chúng tôi đã hợp tác với Cerebras để thêm đường dẫn có độ trễ thấp này vào cùng ngăn xếp phục vụ sản xuất như phần còn lại của đội ngũ của chúng tôi, để nó hoạt động liền mạch trên Codex và chuẩn bị cho chúng tôi hỗ trợ các mô hình trong tương lai.

“Điều khiến chúng tôi hào hứng nhất về GPT-5.3-Codex-Spark là việc hợp tác với OpenAI và cộng đồng nhà phát triển để khám phá những gì mà suy luận nhanh có thể mang lại—các mô thức tương tác mới, các trường hợp sử dụng mới và một trải nghiệm mô hình hoàn toàn khác biệt Bản xem trước này chỉ là sự khởi đầu.
— Sean Lie, Giám đốc Công nghệ và Đồng sáng lập của Cerebras

GPU vẫn là nền tảng trong toàn bộ các quy trình huấn luyện và suy luận của chúng tôi và cung cấp các token có chi phí hiệu quả nhất cho việc sử dụng rộng rãi. Cerebras bổ sung cho nền tảng đó bằng cách vượt trội trong các quy trình công việc đòi hỏi độ trễ cực thấp, thắt chặt vòng lặp từ đầu đến cuối để Codex có cảm giác phản hồi nhanh hơn khi bạn lặp lại. GPU và Cerebras có thể được kết hợp cho các khối lượng công việc đơn lẻ để đạt hiệu suất tốt nhất.

Tình trạng sẵn có & chi tiết

Codex-Spark đang được triển khai hôm nay dưới dạng bản xem trước nghiên cứu dành cho người dùng ChatGPT Pro trong các phiên bản mới nhất của ứng dụng Codex, CLI và tiện ích mở rộng VS Code. Vì chạy trên phần cứng chuyên dụng có độ trễ thấp, việc sử dụng được điều chỉnh bởi một giới hạn tốc độ riêng biệt, có thể điều chỉnh dựa trên nhu cầu trong giai đoạn xem trước nghiên cứu. Ngoài ra, chúng tôi đang cung cấp Codex-Spark trong API cho một nhóm nhỏ các đối tác thiết kế để hiểu cách các nhà phát triển muốn tích hợp Codex-Spark vào sản phẩm của họ. Chúng tôi sẽ mở rộng quyền truy cập trong những tuần tới khi chúng tôi tiếp tục điều chỉnh tích hợp của mình dưới các khối lượng công việc thực tế.

Codex-Spark hiện chỉ hỗ trợ văn bản trong cửa sổ ngữ cảnh 128k và là mô hình đầu tiên trong một dòng mô hình siêu nhanh. Khi chúng tôi tìm hiểu thêm cùng cộng đồng nhà phát triển về những điểm mà các mô hình nhanh phát huy thế mạnh cho việc viết mã, chúng tôi sẽ giới thiệu thêm nhiều khả năng hơn—bao gồm các mô hình lớn hơn, độ dài ngữ cảnh dài hơn và đầu vào đa phương thức.

Codex-Spark bao gồm cùng chương trình đào tạo an toàn như các mô hình chính của chúng tôi, bao gồm cả đào tạo liên quan đến an ninh mạng. Chúng tôi đã đánh giá Codex-Spark như một phần của quy trình triển khai tiêu chuẩn của chúng tôi, bao gồm các đánh giá cơ bản về an ninh mạng và các khả năng khác, và xác định rằng nó không có khả năng hợp lý để đạt ngưỡng Khung chuẩn bị của chúng tôi cho năng lực cao trong an ninh mạng hoặc sinh học.

Tiếp theo là gì

Codex-Spark là bước đầu tiên hướng tới một Codex với hai chế độ bổ trợ: suy luận và thực thi dài hạn, và cộng tác thời gian thực để lặp lại nhanh chóng. Theo thời gian, các chế độ sẽ hòa quyện với nhau—Codex có thể giữ bạn trong một vòng lặp tương tác chặt chẽ đồng thời ủy quyền công việc chạy lâu hơn cho các tác nhân phụ ở chế độ nền, hoặc phân tán tác vụ cho nhiều mô hình song song khi bạn muốn có độ bao phủ và tốc độ, để bạn không phải chọn một chế độ duy nhất ngay từ đầu.

Khi các mô hình trở nên mạnh mẽ hơn, tốc độ tương tác trở thành một nút thắt cổ chai rõ ràng. Suy luận siêu nhanh thắt chặt vòng lặp đó, khiến Codex trở nên tự nhiên hơn khi sử dụng và mở rộng khả năng cho bất kỳ ai biến ý tưởng thành phần mềm hoạt động.

Tác giả

OpenAI