Tăng cường khả năng phục hồi mạng khi khả năng AI phát triển
Khi các mô hình của chúng tôi phát triển khả năng hơn trong lĩnh vực an ninh mạng, chúng tôi đang đầu tư vào việc tăng cường chúng, tăng cường các biện pháp bảo vệ và hợp tác với các chuyên gia bảo mật toàn cầu.
Khả năng mạng trong các mô hình AI đang phát triển nhanh chóng, mang lại lợi ích có ý nghĩa cho phòng thủ mạng cũng như các rủi ro sử dụng kép mới cần được quản lý cẩn thận. Ví dụ, khả năng được đánh giá thông qua các thách thức chụp cờ (CTF) đã cải thiện từ 27% trên GPT‑5(mở trong cửa sổ mới) vào tháng 8 năm 2025 lên 76% trên GPT‑5.1‑CodeX‑ Max(mở trong cửa sổ mới) vào tháng 11 năm 2025.
Chúng tôi hy vọng rằng các mô hình AI sắp tới sẽ tiếp tục trên quỹ đạo này; để chuẩn bị, chúng tôi đang lên kế hoạch và đánh giá như thể mỗi mô hình mới có thể đạt đến mức năng lực an ninh mạng “Cao”, được đo lường bởi Khung Chuẩn bị của chúng tôi.(mở trong cửa sổ mới) Ở đây, chúng tôi muốn nói đến các mô hình có khả năng phát triển các lỗ hổng bảo mật từ xa (zero-day) nhắm vào các hệ thống được bảo vệ tốt, hoặc hỗ trợ hiệu quả các hoạt động xâm nhập doanh nghiệp hoặc công nghiệp phức tạp, bí mật nhằm tạo ra tác động thực tế. Bài viết này giải thích cách chúng tôi suy nghĩ về các biện pháp bảo vệ cho các mô hình đạt đến mức độ năng lực này, và đảm bảo chúng hỗ trợ hiệu quả cho người phòng thủ đồng thời hạn chế việc lạm dụng.
Khi những khả năng này phát triển, OpenAI đang đầu tư vào việc củng cố các mô hình của chúng tôi cho các tác vụ an ninh mạng phòng thủ và tạo ra các công cụ cho phép người bảo vệ dễ dàng thực hiện các quy trình công việc như kiểm tra mã và vá lỗ hổng. Mục tiêu của chúng tôi là để các mô hình và sản phẩm của chúng tôi mang lại lợi thế đáng kể cho các hậu vệ, những người thường đông hơn và thiếu nguồn lực.
Giống như các lĩnh vực lưỡng dụng khác, quy trình làm việc trong không gian mạng, cả phòng thủ và tấn công, thường dựa trên cùng một kiến thức và kỹ thuật cơ bản. Chúng tôi đang đầu tư vào các biện pháp bảo vệ để giúp đảm bảo những khả năng mạnh mẽ này chủ yếu phục vụ mục đích phòng thủ và hạn chế việc lợi dụng cho các mục đích xấu. An ninh mạng ảnh hưởng đến hầu hết mọi lĩnh vực, điều đó có nghĩa là chúng ta không thể chỉ dựa vào một loại biện pháp bảo vệ duy nhất—chẳng hạn như hạn chế kiến thức hoặc chỉ sử dụng quyền truy cập được kiểm duyệt—mà thay vào đó cần một cách tiếp cận phòng thủ đa lớp, cân bằng giữa rủi ro và trao quyền cho người dùng. Trên thực tế, điều này có nghĩa là định hình cách thức truy cập, hướng dẫn và ứng dụng các khả năng sao cho các mô hình tiên tiến tăng cường bảo mật thay vì làm giảm rào cản đối với việc lạm dụng.
Chúng tôi xem công việc này không phải là một nỗ lực một lần, mà là một khoản đầu tư lâu dài, bền vững trong việc mang lại lợi thế cho các nhà bảo vệ và liên tục tăng cường vị thế an ninh của cơ sở hạ tầng quan trọng trên toàn hệ sinh thái rộng lớn hơn.
Các mô hình của chúng tôi được thiết kế và huấn luyện để hoạt động an toàn, được hỗ trợ bởi các hệ thống chủ động phát hiện và phản ứng với các hành vi lạm dụng mạng. Chúng tôi liên tục cải tiến các biện pháp bảo vệ này khi khả năng của chúng tôi và bối cảnh mối đe dọa thay đổi. Mặc dù không có hệ thống nào có thể đảm bảo ngăn chặn hoàn toàn việc lạm dụng trong an ninh mạng mà không ảnh hưởng nghiêm trọng đến các biện pháp phòng thủ, chiến lược của chúng tôi là giảm thiểu rủi ro thông qua một hệ thống bảo mật nhiều lớp.
Về cơ bản, chúng tôi áp dụng phương pháp phòng thủ nhiều lớp, dựa vào sự kết hợp giữa kiểm soát truy cập, tăng cường bảo mật cơ sở hạ tầng, kiểm soát lối ra và giám sát. Chúng tôi bổ sung các biện pháp này bằng các hệ thống phát hiện và phản hồi, cùng các chương trình chuyên biệt về tình báo mối đe dọa và rủi ro nội bộ, giúp xác định và ngăn chặn các mối đe dọa mới nổi một cách nhanh chóng. Các biện pháp bảo vệ này được thiết kế để phát triển cùng với bối cảnh các mối đe dọa. Chúng tôi luôn chuẩn bị cho sự thay đổi và xây dựng hệ thống sao cho có thể thích ứng nhanh chóng và phù hợp.
Xây dựng trên nền tảng này:
- Huấn luyện mô hình để từ chối hoặc phản hồi một cách an toàn đối với các yêu cầu có hại, đồng thời vẫn hữu ích cho các trường hợp sử dụng nhằm mục đích giáo dục và phòng thủ: Chúng tôi đang huấn luyện các mô hình tiên phong của mình để từ chối hoặc phản hồi một cách an toàn đối với những yêu cầu có thể tạo điều kiện cho hành vi lạm dụng không gian mạng rõ ràng, đồng thời vẫn hữu ích tối đa cho các trường hợp sử dụng hợp pháp nhằm mục đích phòng thủ và giáo dục.
- Hệ thống phát hiện: Chúng tôi tinh chỉnh và duy trì việc giám sát toàn hệ thống trên các sản phẩm sử dụng các mô hình tiên phong để phát hiện các hoạt động mạng có khả năng gây hại. Khi hoạt động có vẻ không an toàn, chúng tôi có thể chặn đầu ra, chuyển câu lệnh sang các mô hình an toàn hơn hoặc kém năng lực hơn, hoặc chuyển cấp để thực thi biện pháp xử lý. Các biện pháp thực thi của chúng tôi kết hợp giữa quy trình đánh giá tự động và đánh giá của con người, dựa trên các yếu tố như yêu cầu pháp lý, mức độ nghiêm trọng và hành vi tái phạm. Chúng tôi cũng hợp tác chặt chẽ với các nhà phát triển và khách hàng doanh nghiệp để thống nhất về các tiêu chuẩn an toàn và cho phép việc sử dụng có trách nhiệm với các quy trình báo cáo leo thang rõ ràng.
- Kiểm thử đội đỏ toàn diện: Chúng tôi đang hợp tác với các tổ chức chuyên gia về kiểm thử đội đỏ (red team) để đánh giá và cải thiện các biện pháp giảm thiểu rủi ro an toàn của mình. Công việc của họ là cố gắng vượt qua mọi biện pháp phòng thủ của chúng tôi bằng cách kiểm thử từ đầu đến cuối, giống như cách một đối thủ quyết tâm và có nhiều nguồn lực có thể làm. Điều này giúp chúng tôi xác định sớm các lỗ hổng và củng cố toàn bộ hệ thống.
OpenAI đã đầu tư sớm vào việc áp dụng AI vào các trường hợp sử dụng an ninh mạng phòng thủ và nhóm của chúng tôi phối hợp chặt chẽ với các chuyên gia toàn cầu để hoàn thiện cả mô hình của chúng tôi và ứng dụng của chúng. Chúng tôi đánh giá cao cộng đồng toàn cầu của các chuyên gia an ninh mạng đang nỗ lực làm cho thế giới kỹ thuật số của chúng tôi an toàn hơn và cam kết cung cấp các công cụ mạnh mẽ hỗ trợ bảo mật phòng thủ. Khi chúng tôi triển khai các biện pháp bảo vệ mới, chúng tôi sẽ tiếp tục làm việc với cộng đồng an ninh mạng để hiểu nơi AI có thể tăng cường khả năng phục hồi một cách có ý nghĩa và những biện pháp bảo vệ chu đáo là quan trọng nhất.
Bên cạnh những sự hợp tác này, chúng tôi đang thiết lập một loạt các nỗ lực được thiết kế để giúp những người bảo vệ di chuyển nhanh hơn, đặt các biện pháp bảo vệ của chúng tôi theo nhu cầu thực tế và đẩy nhanh quá trình khắc phục có trách nhiệm trên quy mô lớn.
Chúng tôi sẽ sớm giới thiệu một chương trình truy cập đáng tin cậy, nơi chúng tôi khám phá việc cung cấp cho người dùng đủ điều kiện và khách hàng làm việc trong lĩnh vực phòng thủ mạng quyền truy cập theo từng cấp vào các khả năng nâng cao trong các mô hình mới nhất của chúng tôi cho các trường hợp sử dụng phòng thủ. Chúng tôi vẫn đang khám phá ranh giới phù hợp về khả năng nào chúng tôi có thể cung cấp quyền truy cập rộng rãi và những khả năng nào yêu cầu các hạn chế theo cấp, điều này có thể ảnh hưởng đến thiết kế trong tương lai của chương trình này. Chúng tôi mong muốn chương trình truy cập đáng tin cậy này trở thành một khối xây dựng hướng tới một hệ sinh thái kiên cường.
Aardvark, nhà nghiên cứu bảo mật đại lý của chúng tôi giúp các nhà phát triển và nhóm bảo mật tìm và sửa các lỗ hổng trên quy mô lớn, hiện đang trong phiên bản beta riêng tư. Nó quét các cơ sở mã để tìm các lỗ hổng và đề xuất các bản vá mà người bảo trì có thể áp dụng nhanh chóng. Nó đã xác định các CV mới trong phần mềm mã nguồn mở bằng cách suy luận trên toàn bộ cơ sở mã. Chúng tôi có kế hoạch cung cấp bảo hiểm miễn phí cho các kho lưu trữ mã nguồn mở phi thương mại để đóng góp vào bảo mật của hệ sinh thái phần mềm nguồn mở và chuỗi cung ứng. Đăng ký tham gia tại đây.
Chúng tôi sẽ thành lập Hội đồng Tư vấn về Rủi ro Biên, một nhóm cố vấn sẽ đưa các chuyên gia phòng vệ mạng và chuyên gia thực hành bảo mật giàu kinh nghiệm vào hợp tác chặt chẽ với các nhóm của chúng tôi. Hội đồng này sẽ bắt đầu tập trung vào an ninh mạng và mở rộng sang các lĩnh vực năng lực biên giới khác trong tương lai. Các thành viên sẽ tư vấn về ranh giới giữa khả năng hữu ích, có trách nhiệm và khả năng lạm dụng tiềm ẩn, và những kiến thức này sẽ trực tiếp cung cấp thông tin cho các đánh giá và biện pháp bảo vệ của chúng tôi. Chúng tôi sẽ sớm chia sẻ thêm về hội đồng.
Cuối cùng, chúng tôi dự đoán rằng việc lạm dụng an ninh mạng có thể trở nên khả thi từ bất kỳ mô hình tiên phong nào trong ngành. Để giải quyết vấn đề này, chúng tôi làm việc với các phòng thí nghiệm tiên phong khác thông qua Frontier Model Forum, một tổ chức phi lợi nhuận được hậu thuẫn bởi các phòng thí nghiệm AI hàng đầu và các đối tác trong ngành, nhằm phát triển sự hiểu biết chung về các mô hình đe dọa và các phương pháp hay nhất. Trong bối cảnh này, hoạt động mô hình hóa mối đe dọa giúp giảm thiểu rủi ro bằng cách xác định cách các năng lực AI có thể bị vũ khí hóa, những điểm nghẽn quan trọng tồn tại ở đâu đối với các tác nhân gây đe dọa khác nhau và cách các mô hình tiên phong có thể mang lại sự cải thiện có ý nghĩa. Sự hợp tác này nhằm xây dựng một sự hiểu biết nhất quán trên toàn hệ sinh thái về các tác nhân gây đe dọa và các đường tấn công, giúp các phòng thí nghiệm, đơn vị duy trì và lực lượng phòng thủ cải thiện tốt hơn các biện pháp giảm thiểu của họ, đồng thời bảo đảm rằng các thông tin chuyên sâu quan trọng về an ninh được lan truyền nhanh chóng trên toàn hệ sinh thái. Chúng tôi cũng đang phối hợp với các nhóm bên ngoài để xây dựng các bài đánh giá an ninh mạng(mở trong cửa sổ mới). Chúng tôi hy vọng một hệ sinh thái gồm các đánh giá độc lập sẽ tiếp tục giúp xây dựng sự hiểu biết chung về khả năng của mô hình.
Nhìn chung, những nỗ lực này phản ánh cam kết lâu dài của chúng tôi trong việc tăng cường khả năng phòng thủ của hệ sinh thái. Khi các mô hình trở nên mạnh mẽ hơn, mục tiêu của chúng tôi là giúp đảm bảo những khả năng đó được chuyển hóa thành lợi thế thực sự cho người phòng thủ—dựa trên nhu cầu thực tế, được định hình bởi ý kiến chuyên gia và được triển khai một cách cẩn trọng. Song song với công việc này, chúng tôi dự định khám phá các sáng kiến khác và các khoản tài trợ về an ninh mạng để giúp tìm ra những ý tưởng đột phá có thể không xuất hiện từ các kênh truyền thống, và để huy động các biện pháp phòng thủ táo bạo, sáng tạo từ giới học thuật, công nghiệp và cộng đồng mã nguồn mở. Nhìn chung, đây là một công việc đang được tiến hành và chúng tôi kỳ vọng sẽ tiếp tục phát triển các chương trình này khi chúng tôi tìm hiểu được những gì hiệu quả nhất trong việc thúc đẩy an ninh thực tế.


