Xin được giới thiệu GPT‑5.1‑Codex‑Max, mô hình mã hóa tác nhân tiên phong mới của chúng tôi, hiện có trong Codex hôm nay. GPT‑5.1‑Codex‑Max được xây dựng dựa trên một bản cập nhật cho mô hình lý luận cơ bản của chúng tôi, được huấn luyện để thực hiện các nhiệm vụ tác nhân trong kỹ thuật phần mềm, toán học, nghiên cứu và nhiều lĩnh vực khác. GPT‑5.1‑Codex‑Max nhanh hơn, thông minh hơn và hiệu quả hơn về mặt token ở mọi giai đoạn của chu kỳ phát triển–và là một bước tiến mới hướng tới việc trở thành một đối tác lập trình đáng tin cậy.
GPT‑5.1‑Codex‑Max được thiết kế để thực hiện công việc chi tiết và kéo dài. Đây là mô hình đầu tiên của chúng tôi được đào tạo một cách tự nhiên để hoạt động trên nhiều cửa sổ ngữ cảnh thông qua một quy trình gọi là nén, làm việc một cách mạch lạc trên hàng triệu token trong một nhiệm vụ duy nhất. Điều này mở khóa các tái cấu trúc mã nguồn ở quy mô dự án, các phiên gỡ lỗi sâu và các vòng lặp tác nhân kéo dài nhiều giờ.
GPT‑5.1‑Codex‑Max hiện đã có sẵn trên Codex để sử dụng trong CLI, tiện ích mở rộng IDE, dịch vụ đám mây và kiểm tra mã, và quyền truy cập API sẽ sớm được cung cấp.
GPT‑5.1‑Codex‑Max được đào tạo về các nhiệm vụ kỹ thuật phần mềm thực tế, như tạo PR, đánh giá mã, lập trình giao diện người dùng và Hỏi & Đáp, và vượt trội hơn các mô hình trước đây của chúng tôi trong nhiều cuộc đánh giá mã hóa tiên phong. Những cải tiến của mô hình trên các tiêu chuẩn cũng đi kèm với những cải tiến trong việc sử dụng thực tế: GPT‑5.1‑Codex‑Max là mô hình đầu tiên chúng tôi huấn luyện để hoạt động trong môi trường Windows, và quá trình huấn luyện của mô hình này hiện bao gồm các nhiệm vụ được thiết kế để giúp nó trở thành cộng tác viên tốt hơn trong Codex CLI.
* Tất cả các đánh giá đều được chạy với tính năng nén được cho phép ở mức nỗ lực suy luận Cực cao
* Terminal-Bench2.0 chạy với Codex CLI trong hệ thống Laude Institute Harbor(mở trong cửa sổ mới)
GPT‑5.1‑Codex‑Max cho thấy sự cải thiện đáng kể về hiệu quả của token nhờ vào khả năng suy luận hiệu quả hơn. Trên SWE-bench đã được xác minh, GPT‑5.1‑Codex‑Max với nỗ lực suy luận 'trung bình' đạt hiệu suất tốt hơn GPT‑5.1‑Codex với cùng một nỗ lực suy luận, trong khi sử dụng ít hơn 30% token suy nghĩ. Đối với các nhiệm vụ không không cần phản hồi tức thì, chúng tôi cũng giới thiệu một chức năng suy luận mới có tên là Extra High ('xhigh'), suy nghĩ trong thời gian dài hơn để đưa ra câu trả lời tốt hơn. Chúng tôi vẫn đề nghị dùng mức trung bình làm công cụ chính hàng ngày cho hầu hết các nhiệm vụ.
Chúng tôi kỳ vọng những cải tiến về hiệu suất của token sẽ giúp các nhà phát triển tiết kiệm được chi phí trong thực tế.
Ví dụ, GPT‑5.1‑Codex‑Max có thể tạo ra các thiết kế giao diện người dùng chất lượng cao với chức năng và tính thẩm mỹ tương tự, nhưng với chi phí thấp hơn nhiều so với GPT‑5.1‑Codex.
Lời nhắc: Tạo một ứng dụng trình duyệt độc lập duy nhất hiển thị môi trường thử nghiệm CartPole RL tương tác với đồ họa canvas, bộ điều khiển chuyển màu theo chính sách nhỏ gọn, các chỉ số đo lường và trình hiển thị mạng SVG.
Tính năng
Phải có khả năng thực sự huấn luyện một chính sách để làm cho mô hình tốt hơn theo mô hình bài toán xe-cộtCông cụ trực quan hóa các kích hoạt/trọng số khi mô hình đang được huấn luyện hoặc suy luậnCác bước trong tập, phần thưởng trong tập nàyThời gian tồn tại cuối cùng và thời gian tồn tại tốt nhất theo từng bước
Lưu vào index.html
Tính năng nén cho phép GPT‑5.1‑Codex‑Max hoàn thành các nhiệm vụ mà trước đây có thể đã thất bại do giới hạn khung giới hạn ngữ cảnh, chẳng hạn như tái cấu trúc phức tạp và vòng lặp tác nhân chạy lâu, bằng cách cắt bớt lịch sử trong khi vẫn giữ lại ngữ cảnh quan trọng nhất trong thời gian dài. Trong các ứng dụng Codex, GPT‑5.1‑Codex‑Max tự động nén phiên của nó khi nó gần đạt đến giới hạn cửa sổ ngữ cảnh, cung cấp cho nó một cửa sổ ngữ cảnh mới. Nó lặp lại quá trình này cho đến khi nhiệm vụ được hoàn thành.
Khả năng duy trì công việc mạch lạc trong thời gian dài là một năng lực nền tảng trên con đường hướng tới các hệ thống AI tổng quát và đáng tin cậy hơn. GPT‑5.1‑Codex‑Max có thể làm việc độc lập trong nhiều giờ liền. Trong các đánh giá nội bộ của chúng tôi, chúng tôi đã quan sát GPT‑5.1‑Codex‑Max làm việc trên các nhiệm vụ trong hơn 24 giờ. Nó sẽ liên tục lặp lại quá trình triển khai, sửa lỗi thử nghiệm và cuối cùng đưa ra một kết quả thành công.
Trong ví dụ này, GPT‑5.1‑Codex‑Max đang tự mình tái cấu trúc kho lưu trữ mã nguồn mở Codex CLI.
Khi độ dài phiên gần đạt đến khung giới hạn ngữ cảnh của mô hình, hệ thống sẽ tự động nén phiên để giải phóng không gian, cho phép tiếp tục nhiệm vụ mà không làm mất tiến trình.
Video đã được cắt ngắn và tăng tốc để rõ ràng hơn.
GPT‑5.1‑Codex‑Max hoạt động tốt hơn đáng kể trong các đánh giá đòi hỏi suy luận bền bỉ và dài hạn. Vì có thể hoạt động mạch lạc trên nhiều khung giới hạn ngữ cảnh bằng cách sử dụng nén, mô hình này mang lại kết quả cải thiện về các thách thức trong các lĩnh vực như mã hóa dài hạn và an ninh mạng. Chúng tôi đã phân tích kết quả hiệu suất của mô hình này trên các đánh giá của bên thứ nhất và bên thứ ba trong GPT‑5.1‑Codex‑Max. thẻ hệ thống.
GPT‑5.1‑Codex‑Max không đạt được năng lực Cao về An ninh mạng theo Khung ứng phó của chúng tôi nhưng đây là mô hình an ninh mạng có năng lực nhất mà chúng tôi đã triển khai cho đến nay và các năng lực an ninh mạng đang phát triển nhanh chóng. Do đó, chúng tôi đang thực hiện các bước để chuẩn bị cho năng lực cao về an ninh mạng và đang tăng cường các biện pháp bảo vệ trong miền mạng và nỗ lực đảm bảo rằng những người bảo vệ có thể hưởng lợi từ những năng lực được cải thiện này thông qua các chương trình như Aardvark.
Khi chúng tôi ra mắt GPT‑5‑Codex, chúng tôi đã triển khai hệ thống giám sát chuyên biệt về an ninh mạng để phát hiện và ngăn chặn các hoạt động độc hại. Mặc dù chúng tôi chưa quan sát thấy sự gia tăng đáng kể về lạm dụng quy mô, chúng tôi đang chuẩn bị các biện pháp giảm thiểu bổ sung cho các khả năng nâng cao. Các nhóm của chúng tôi đã ngăn chặn các hoạt động mạng cố gắng lạm dụng các mô hình của chúng tôi, và các hoạt động đáng ngờ được chuyển đến hệ thống giám sát chính sách của chúng tôi để xem xét.
Codex được thiết kế để chạy trong một môi trường thử nghiệm an toàn theo mặc định: việc ghi tệp bị giới hạn trong không gian làm việc của nó, và quyền truy cập mạng bị tắt trừ khi nhà phát triển kích hoạt nó. Chúng tôi đề nghị sử dụng Codex ở chế độ truy cập hạn chế này, vì việc bật tìm kiếm trên Internet hoặc web có thể gây ra rủi ro chèn lời nhắc từ nội dung không đáng tin cậy.
Khi Codex bắt đầu có khả năng thực hiện các nhiệm vụ dài hạn hơn, quan trọng hơn hết là các nhà phát triển phải xem xét hoạt động của tác nhân trước khi thực hiện thay đổi hoặc triển khai vào môi trường sản xuất. Để hỗ trợ việc này, Codex tạo nhật ký giao diện dòng lệnh và trích dẫn các lệnh gọi công cụ và kết quả kiểm thử. Trong khi việc xem xét mã làm giảm nguy cơ triển khai lỗi do mô hình hoặc do con người tạo ra vào sản xuất, Codex nên được coi là một người kiểm tra bổ sung chứ không phải là sự thay thế cho việc kiểm tra của con người.
Năng lực an ninh mạng có thể được sử dụng cho cả mục đích phòng thủ và tấn công, vì vậy chúng tôi áp dụng phương pháp triển khai lặp đi lặp lại: học hỏi từ việc sử dụng thực tế, cập nhật các biện pháp bảo vệ, và duy trì các công cụ phòng thủ quan trọng như quét lỗ hổng tự động và hỗ trợ khắc phục.
GPT‑5.1‑Codex‑Max có sẵn trong Codex với các gói ChatGPT Plus, Pro, Business, Edu và Enterprise. Để biết chi tiết về cách hoạt động của giới hạn sử dụng cho gói dịch vụ của bạn, vui lòng xem tài liệu(mở trong cửa sổ mới) của chúng tôi.
Đối với các nhà phát triển sử dụng Codex CLI thông qua Khóa API, chúng tôi có kế hoạch triển khai GPT‑5.1‑Codex‑Max. Sẽ có trong tính năng API trong thời gian tới.
Bắt đầu từ hôm nay, GPT‑5.1‑Codex‑Max sẽ thay thế GPT‑5.1‑Codex làm mô hình mặc định trong các giao diện Codex. Không giống như GPT‑5.1, vốn là một mô hình mục đích chung, chúng tôi đề nghị sử dụng GPT‑5.1‑Codex‑Max và dòng mô hình Codex chỉ dành cho các nhiệm vụ mã hóa có tính chất tác nhân trong môi trường Codex hoặc môi trường tương tự Codex.
GPT‑5.1‑Codex‑Max cho thấy các mô hình đã tiến xa đến mức nào trong việc duy trì các nhiệm vụ mã hóa dài hạn, quản lý quy trình làm việc phức tạp và tạo ra các triển khai chất lượng cao với ít token hơn nhiều. Chúng tôi nhận thấy mô hình kết hợp với các bản nâng cấp ổn định cho CLI, tiện ích mở rộng IDE, tích hợp đám mây và công cụ đánh giá mã mang lại năng suất kỹ thuật vượt trội: nội bộ, 95% kỹ sư của OpenAI sử dụng Codex hàng tuần và những kỹ sư này gửi nhiều hơn khoảng 70% yêu cầu kéo kể từ khi áp dụng Codex. Khi chúng tôi mở rộng giới hạn về khả năng của các tác nhân, chúng tôi rất mong chờ xem bạn sẽ xây dựng được gì nhờ các tác nhân.
GPT‑5.1‑Codex (high) | GPT‑5.1‑Codex‑Max (xhigh) | |
SWE-bench đã được xác minh (n=500) | 73,7% | 77,9% |
SWE-Lancer IC SWE | 66,3% | 79,9% |
Terminal-Bench 2.0 | 52,8% | 58,1% |


