Bỏ qua nội dung chính
OpenAI

Ra mắt GPT‑5.2‑Codex

Mô hình viết mã tự vận hành tiên tiến nhất dành cho thiết kế kỹ thuật phần mềm chuyên nghiệp và an ninh mạng phòng thủ.

Hôm nay, chúng tôi ra mắt GPT‑5.2‑Codex, mô hình viết mã tự vận hành tiên tiến nhất dành cho thiết kế kỹ thuật phần mềm phức tạp và thực tế. GPT‑5.2‑Codex là một phiên bản của GPT‑5.2 được tối ưu hóa hơn nữa để viết mã tự vận hành trong Codex, bao gồm những cải tiến về khả năng xử lý tác vụ dài hạn thông qua việc nén ngữ cảnh, hiệu suất mạnh mẽ hơn đối với các thay đổi mã nguồn quy mô lớn như tái cấu trúc và chuyển đổi hệ thống, cải thiện vận hành trên môi trường Windows, và đặc biệt là năng lực an ninh mạng được tăng cường đáng kể

Khi các mô hình của chúng tôi tiếp tục tiến xa trên ranh giới trí tuệ, chúng tôi nhận thấy rằng những cải tiến này cũng tạo nên các bước nhảy vọt về năng lực trong những lĩnh vực chuyên biệt như an ninh mạng. Ví dụ, chỉ tuần trước, một nhà nghiên cứu bảo mật đã sử dụng GPT‑5.1‑Codex‑Max với Codex CLI đã tìm thấy và tiết lộ(mở trong cửa sổ mới) một lỗ hổng trong React có thể dẫn đến phơi nhiễm mã nguồn.

GPT‑5.2‑Codex được trang bị năng lực an ninh mạng mạnh mẽ hơn bất kỳ mô hình nào mà chúng tôi đã phát hành cho đến nay. Những tiến bộ này có thể giúp củng cố an ninh mạng trên quy mô lớn, nhưng chúng cũng làm gia tăng những rủi ro sử dụng kép mới đòi hỏi phải triển khai kỹ lưỡng. Mặc dù GPT‑5.2‑Codex không đạt được mức độ năng lực 'Cao' về năng lực mạng theo Khung sẵn sàng ứng phó của chúng tôi, chúng tôi đang thiết kế cách tiếp cận triển khai của mình với khả năng phát triển năng lực trong tương lai.

Chúng tôi đang phát hành GPT‑5.2‑CODEX hôm nay trên tất cả các bề mặt Codex cho người dùng ChatGPT trả phí và hướng tới việc cho phép truy cập vào GPT‑5.2‑CODEX một cách an toàn cho người dùng API trong những tuần tới. Song song đó, chúng tôi đang thử nghiệm quyền truy cập đáng tin cậy chỉ dành cho người mời vào các khả năng sắp tới và các mô hình cho phép hơn cho các chuyên gia và tổ chức được kiểm tra tập trung vào công việc an ninh mạng phòng thủ. Chúng tôi tin rằng cách tiếp cận triển khai này sẽ cân bằng khả năng tiếp cận với an toàn.

Mở rộng ranh giới trong thiết kế kỹ thuật phần mềm thực tế

GPT‑5.2‑Codex phát triển dựa trên thế mạnh của GPT‑5.2 trong công việc kiến thức chuyên nghiệp và khả năng viết mã tự vận hành tiên tiến và sử dụng giao diện dòng lệnh của GPT‑5.1‑Codex‑Max . GPT‑5.2‑CODEX hiện tốt hơn trong việc hiểu ngữ cảnh dài, gọi công cụ đáng tin cậy, cải thiện tính thực tế và nén chặt bản địa, khiến nó trở thành đối tác đáng tin cậy hơn cho các tác vụ mã hóa chạy dài, trong khi vẫn hiệu quả về mã thông báo trong lý luận của nó.

GPT‑5.2‑Codex đạt hiệu suất hàng đầu trên SWE-Bench Pro và Terminal-Bench 2.0, các tiêu chuẩn được thiết kế để kiểm tra hiệu suất tự vận hành trong nhiều loại nhiệm vụ trong môi trường dòng lệnh thực tế. Nó cũng hiệu quả và đáng tin cậy hơn nhiều trong việc viết mã tự vận hành trong các môi trường Windows gốc, dựa trên các khả năng được giới thiệu trong GPT‑5.1‑Codex‑Max.

Với những cải tiến này, Codex có khả năng làm việc trong các kho lưu trữ lớn hơn trong các phiên mở rộng với bối cảnh đầy đủ nguyên vẹn. Nó có thể hoàn thành các tác vụ phức tạp một cách đáng tin cậy hơn như tái cấu trúc lớn, di chuyển mã và xây dựng tính năng - tiếp tục lặp lại mà không mất dấu, ngay cả khi kế hoạch thay đổi hoặc nỗ lực thất bại.

Trong SWE-Bench Pro, một mô hình được cung cấp một kho lưu trữ mã và phải tạo ra một bản vá để giải quyết một nhiệm vụ kỹ thuật phần mềm thực tế. Terminal-Bench 2.0 là một bộ tiêu chuẩn để kiểm tra các tác nhân AI trong môi trường dòng lệnh thực tế. Các nhiệm vụ bao gồm biên tập mã, huấn luyện mô hình và thiết lập máy chủ.

Hiệu suất tầm nhìn mạnh mẽ hơn cho phép GPT‑5.2‑Codex diễn giải chính xác hơn các ảnh chụp màn hình, sơ đồ kỹ thuật, biểu đồ và bề mặt giao diện người dùng được chia sẻ trong các phiên viết mã.

Codex có thể lấy các mô phỏng thiết kế và nhanh chóng chuyển chúng thành các nguyên mẫu chức năng, và bạn có thể ghép nối với Codex để đưa các nguyên mẫu này đến sản xuất.

Thiết kế giả lập
Thiết kế mô phỏng được sử dụng để tạo một nguyên mẫu web với Codex-5.2
Nguyên mẫu được tạo bởi GPT‑5.2‑CODEX

Tiến xa hơn trong lĩnh vực mạng

Khi lập biểu đồ hiệu suất trên một trong những đánh giá an ninh mạng cốt lõi của chúng tôi theo thời gian, chúng tôi thấy khả năng tăng vọt bắt đầu với GPT‑5‑CODEX, một bước nhảy lớn khác với GPT‑5.1‑CodeX‑Max và bây giờ là bước nhảy thứ ba với GPT‑5.2‑CODEX. Chúng tôi kỳ vọng rằng các mô hình AI sắp tới sẽ tiếp tục đi theo quỹ đạo này. Trong quá trình chuẩn bị, chúng tôi đang lập kế hoạch và đánh giá như thể mỗi mô hình mới có thể đạt đến mức độ năng lực an ninh mạng 'Cao', được đo lường theo Khuôn khổ sẵn sàng ứng phó(mở trong cửa sổ mới) của chúng tôi. Mặc dù GPT‑5.2‑Codex chưa đạt đến mức 'Cao' về năng lực an ninh mạng, chúng tôi đang chuẩn bị cho các mô hình tương lai sẽ vượt qua ngưỡng đó. Do khả năng mạng tăng lên, chúng tôi đã thêm các biện pháp bảo vệ bổ sung trong mô hình và trong sản phẩm, được nêu trong thẻ hệ thống.

Bài đánh giá Capture-the-Flag (CTF) chuyên nghiệp đo lường tần suất mà mô hình có thể giải quyết các thách thức thực tế phức tạp, nhiều bước (đòi hỏi kỹ năng an ninh mạng ở cấp độ chuyên nghiệp) trong môi trường Linux.

Năng lực an ninh mạng trong thực tế

Xã hội hiện đại vận hành dựa trên phần mềm, và độ tin cậy của nó phụ thuộc vào khả năng an ninh mạng mạnh mẽ—bảo vệ các hệ thống quan trọng trong ngân hàng, chăm sóc sức khỏe, truyền thông và các dịch vụ thiết yếu hoạt động trực tuyến, bảo vệ dữ liệu nhạy cảm, và đảm bảo mọi người có thể tin tưởng vào phần mềm mà họ dựa vào mỗi ngày. Các lỗ hổng có thể tồn tại từ lâu trước khi bất kỳ ai biết về chúng, và việc tìm kiếm, xác thực, và sửa chữa chúng thường phụ thuộc vào một cộng đồng các kỹ sư và các nhà nghiên cứu bảo mật độc lập được trang bị các công cụ phù hợp.

Vào ngày 11 tháng 12 năm 2025, nhóm React đã công bố ba lỗ hổng bảo mật ảnh hưởng đến các ứng dụng được xây dựng với React Server Components. Điều làm cho việc tiết lộ này đáng chú ý không chỉ là các lỗ hổng mà còn là cách chúng được phát hiện ra.

Andrew MacPherson, kỹ sư bảo mật chính tại Privy (một công ty Stripe), đang sử dụng GPT‑5.1‑Codex‑Max với Codex CLI và các tác nhân mã hóa khác để tái tạo và nghiên cứu một lỗ hổng React quan trọng khác được tiết lộ vào tuần trước, được gọi là React2 Shell(mở trong cửa sổ mới) (CVE-2025-55182).(mở trong cửa sổ mới) Mục tiêu của ông là đánh giá mức độ mà mô hình có thể hỗ trợ nghiên cứu lỗ hổng trong thế giới thực.

Ban đầu, ông đã thử một số phân tích zero-shot, khiến mô hình kiểm tra bản vá và xác định lỗ hổng mà nó giải quyết. Khi điều đó không mang lại kết quả, ông chuyển sang cách tiếp cận nhắc nhở lặp đi lặp lại, khối lượng lớn hơn. Khi những cách tiếp cận đó không thành công, ông đã hướng dẫn Codex thông qua các quy trình bảo mật phòng thủ tiêu chuẩn — thiết lập môi trường thử nghiệm cục bộ, suy luận thông qua các bề mặt tấn công tiềm ẩn và sử dụng fuzzing để thăm dò hệ thống với các đầu vào sai dạng. Trong khi cố gắng tái hiện vấn đề gốc React2Shell, Codex đã phát hiện ra những hành vi bất ngờ cần được điều tra sâu hơn. Trong suốt một tuần, quá trình này đã dẫn đến việc phát hiện ra các lỗ hổng chưa biết trước đây, đã được tiết lộ một cách có trách nhiệm cho nhóm React.

Sơ đồ luồng có tiêu đề “Khám phá lỗ hổng với Codex: CVE-2025-55183” hiển thị quy trình làm việc bắt đầu với kho lưu trữ Git và mã quét Codex để tìm lỗ hổng. Một nỗ lực zero-shot thất bại, tiếp theo là một quy trình có sự hướng dẫn của chuyên gia, bao gồm việc xem xét mã nguồn, xác định các mục tiêu tiềm năng, xây dựng một bộ công cụ kiểm thử và thực hiện kiểm thử mờ trên một ứng dụng ví dụ có xác thực lại. Kết quả được xác minh để tạo ra một bằng chứng về khái niệm, dẫn đến việc tiết lộ có trách nhiệm và một bản vá được áp dụng trở lại kho lưu trữ.

Điều này cho thấy cách thức các hệ thống AI tiên tiến có thể tăng tốc đáng kể công việc bảo mật phòng thủ trong phần mềm đang vận hành thực tế và được sử dụng rộng rãi. Đồng thời, những năng lực giúp các chuyên gia phòng thủ phản ứng nhanh hơn cũng có thể bị những kẻ xấu lợi dụng.

Khi các hệ thống tự vận hành ngày càng làm tốt hơn trong các nhiệm vụ liên quan đến an ninh mạng, chúng tôi đặt ưu tiên hàng đầu là đảm bảo những tiến bộ này được triển khai một cách có trách nhiệm—gắn liền mỗi bước tiến về năng lực với các biện pháp bảo vệ mạnh mẽ hơn, kiểm soát truy cập chặt chẽ hơn và sự hợp tác liên tục với cộng đồng an ninh.

Tăng cường năng lực phòng thủ mạng thông qua quyền truy cập đáng tin cậy

Các đội ngũ bảo mật có thể gặp phải những hạn chế khi cố gắng mô phỏng các yếu tố đe dọa, phân tích phần mềm độc hại để hỗ trợ khắc phục, hoặc kiểm tra độ bền của cơ sở hạ tầng trọng yếu. Chúng tôi đang phát triển một chương trình thử nghiệm quyền truy cập đáng tin cậy để loại bỏ sự cản trở đó cho những người dùng và tổ chức đủ điều kiện, cho phép những chuyên gia phòng vệ đáng tin cậy sử dụng các năng lực AI tiên tiến để tăng tốc phòng thủ mạng.

Ban đầu, chương trình sẽ chỉ dành cho những chuyên gia an ninh đã được kiểm tra kỹ lưỡng với hồ sơ công bố lỗ hổng có trách nhiệm và các tổ chức có trường hợp sử dụng an ninh mạng chuyên nghiệp rõ ràng. Những người tham gia đủ điều kiện sẽ có quyền truy cập vào các mô hình có khả năng nhất của chúng tôi cho các trường hợp sử dụng phòng thủ để cho phép hoạt động sử dụng kép hợp pháp.

Nếu bạn là một chuyên gia bảo mật hoặc là một phần của tổ chức thực hiện công việc bảo mật có đạo đức như nghiên cứu lỗ hổng hoặc thực hiện mô phỏng tấn công được phép, chúng tôi kính mời các bạn bày tỏ sự quan tâm tham gia chương trình quyền truy cập đáng tin cậy của chúng tôi và chia sẻ phản hồi về những gì bạn muốn thấy từ chương trình tại đây(mở trong cửa sổ mới).

Kết luận

GPT‑5.2‑CODEX đại diện cho một bước tiến trong cách AI tiên tiến có thể hỗ trợ kỹ thuật phần mềm trong thế giới thực và các lĩnh vực chuyên biệt như an ninh mạng — giúp các nhà phát triển và người bảo vệ giải quyết công việc phức tạp, dài hạn và tăng cường các công cụ có sẵn cho nghiên cứu bảo mật có trách nhiệm.

Bằng cách triển khai GPT‑5.2‑Codex dần dần, kết hợp triển khai với các biện pháp bảo vệ và hợp tác chặt chẽ với cộng đồng bảo mật, chúng tôi đang hướng tới tối đa hóa tác động phòng thủ đồng thời giảm nguy cơ lạm dụng. Những gì chúng tôi học được từ bản phát hành này sẽ trực tiếp thông báo về cách chúng tôi mở rộng quyền truy cập theo thời gian khi phần mềm và biên giới mạng tiếp tục phát triển.

Tác giả

OpenAI