Ra mắt gpt-oss-safeguard
Các mô hình suy luận mới về an toàn và sử dụng trọng số mở (bản 120 tỷ và 20 tỷ tham số) giúp hỗ trợ quá trình tùy chỉnh các chính sách an toàn.
Hôm nay, chúng tôi xin ra mắt bản thử nghiệm nghiên cứu của gpt-oss-safeguard, mô hình suy luận trọng số mở dùng cho các tác vụ phân loại tình huống an toàn, với hai phiên bản là gpt-oss-safeguard-120b và gpt-oss-safeguard-20b. Mô hình này là các bản tinh chỉnh của mô hình mở gpt-oss và được cung cấp theo giấy phép Apache 2.0, cho phép tất cả mọi người được tự do sử dụng, sửa đổi, và triển khai. Hiện có thể tải xuống cả hai mô hình từ Hugging Face(mở trong cửa sổ mới).
Các mô hình gpt-oss-safeguard sử dụng suy luận để trực tiếp diễn giải một chính sách mà nhà phát triển cung cấp trong quá trình suy diễn, bao gồm phân loại tin nhắn của người dùng, kết quả hoàn thiện, và các đoạn chat đầy đủ dựa trên nhu cầu của nhà phát triển. Nhà phát triển luôn là người quyết định sẽ sử dụng chính sách nào; do đó, các phản hồi trở nên phù hợp hơn và được điều chỉnh dựa trên tình huống sử dụng của nhà cung cấp. Mô hình này sử dụng chuỗi tư duy (chain-of-thought), tức là nhà phát triển có thể xem lại để hiểu được mô hình đưa ra quyết định như thế nào. Ngoài ra, chính sách này được cung cấp trong quá trình suy diễn thay vì khi đang huấn luyện cho mô hình, nên nhà phát triển có thể dễ dàng sửa đổi chính sách theo các vòng lặp để cải thiện hiệu suất. Ban đầu, chúng tôi phát triển phương pháp này là để sử dụng nội bộ, do đó linh hoạt hơn đáng kể so với phương pháp truyền thống là huấn luyện một trình phân loại để gián tiếp suy diễn một ranh giới quyết định dựa trên lượng lớn các ví dụ được gán nhãn.
Mô hình gpt-oss-safeguard cho phép nhà phát triển xác định các ranh giới chính sách phù hợp nhất với tình huống sử dụng của họ. Ví dụ, một diễn đàn thảo luận về trò chơi video có thể muốn phát triển một chính sách quy định về phân loại bài viết về chủ đề gian lận trong trò chơi, hoặc một trang web đánh giá sản phẩm có thể muốn áp dụng chính sách riêng để lọc các đánh giá có khả năng là giả.
Mô hình này tiếp nhận hai thông tin đầu vào cùng lúc là chính sách quy định và nội dung cần phân loại theo quy định trong chính sách đó, rồi ra kết luận là nội dung thuộc về nhóm nào, kèm theo lý do giải thích. Nếu có áp dụng, thì nhà phát triển sẽ quyết định là sẽ sử dụng kết luận đó như thế nào trong quy trình bảo đảm an toàn của mình. Chúng tôi nhận thấy phương thức dựa trên suy luận này đặc biệt hiệu quả trong các tình huống mà ở đó:
- Mối nguy hại tiềm ẩn có thể mới xuất hiện hoặc đang phát triển, và các chính sách cần được điều chỉnh nhanh chóng.
- Lĩnh vực này rất tinh vi, và các trình phân loại nhỏ khó có thể xử lý được.
- Nhà phát triển không có đủ mẫu để huấn luyện được một trình phân loại chất lượng cao cho mỗi rủi ro trên nền tảng của họ.
- Độ trễ không quan trọng bằng việc tạo ra các nhãn chất lượng cao và được giải thích đầy đủ.
Chúng tôi ra mắt bản thử nghiệm này của gpt-oss-safeguard để tiếp nhận ý kiến đóng góp của cộng đồng nghiên cứu và an toàn, và lặp lại kiểm tra thêm về hiệu suất của mô hình. Trong vài tháng qua, chúng tôi nỗ lực cải tiến phiên bản trọng số mở này với ROOST(mở trong cửa sổ mới) nhằm hiểu rõ các nhu cầu cốt lõi của nhà phát triển, kiểm tra mô hình, và soạn tài liệu hướng dẫn cho nhà phát triển. Trong khuôn khổ lần ra mắt này, ROOST sẽ xây dựng một cộng đồng mô hình(mở trong cửa sổ mới) cũng được công bố hôm nay, để nghiên cứu các mô hình AI mở nhằm bảo vệ các không gian trực tuyến. Song song với đợt ra mắt này, chúng tôi sẽ công bố một báo cáo kỹ thuật tóm lược, trình bày chi tiết về hiệu suất an toàn của mô hình thử nghiệm này.
Nói về vấn đề an toàn, chúng tôi tin tưởng chiến lược phòng thủ theo chiều sâu. Chúng tôi huấn luyện để các mô hình có thể phản hồi một cách an toàn, đồng thời triển khai các lớp bảo vệ bổ sung nhằm phát hiện và xử lý thông tin đầu vào và đầu ra có khả năng không an toàn theo như chính sách của chúng tôi. Các trình phân loại về an toàn giúp phân biệt nội dung an toàn và không an toàn trong một lĩnh vực rủi ro cụ thể lâu nay luôn là lớp bảo vệ chính cho các mô hình ngôn ngữ lớn của chúng tôi và các mô hình khác.
Các trình phân loại an toàn truyền thống, như các mẫu có trên API Kiểm duyệt(mở trong cửa sổ mới) (Moderation API) của chúng tôi, đều được xây dựng bằng cách lựa chọn thủ công hàng ngàn ví dụ về nội dung an toàn và không an toàn, dựa trên các chính sách an toàn đã định trước. Dựa trên dữ liệu huấn luyện này, trình phân loại học cách phân biệt thông tin đầu ra an toàn và không an toàn. Ở phương pháp truyền thống đó, trình phân loại không bao giờ thực sự duyệt qua chính sách an toàn. Thay vào đó, nó tìm cách suy diễn chính sách cơ bản được sử dụng để gán nhãn các ví dụ bằng cách tìm ra điều tương đồng trong nội dung được gán nhãn không an toàn, và điều khác biệt giữa nội dung an toàn và không an toàn.
Trình phân loại truyền thống có thể có hiệu suất cao, độ trễ thấp, và chi phí vận hành thấp. Tuy nhiên, quá trình thu thập để có đủ số lượng các ví dụ huấn luyện có thể mất rất nhiều thời gian và chi phí, và cập nhật hay thay đổi chính sách cũng đòi hỏi phải huấn luyện lại trình phân loại đó.
Mô hình gpt-oss-safeguard khác biệt vì có được khả năng suy luận, cho phép nhà phát triển áp dụng chobất kỳ chính sách nào, bao gồm chính sách do họ tự soạn thảo hoặc lấy từ nguồn khác, và quá trình suy luận giúp mô hình tổng quát ra các văn bản chính sách mới. Bên cạnh chính sách an toàn, gpt-oss-safeguard còn có thể sử dụng để gán nhãn nội dung theo những cách thức quan trọng khác đối với các sản phẩm và nền tảng cụ thể.
Các mô hình suy luận chính của chúng tôi hiện học hỏi trực tiếp các chính sách an toàn và sử dụng khả năng suy luận của mình để đánh giá xem điều gì là an toàn. Chúng tôi gọi cách tiếp cận này là căn chỉnh có cân nhắc(deliberative alignment), và cách này đã cải tiến rất nhiều so với phương pháp huấn luyện an toàn trước đây, giúp các mô hình suy luận của chúng tôi an toàn hơn trên nhiều phương diện so với các phiên bản không có khả năng suy luận, ngay cả khi năng lực của chúng có tăng lên. Tuy nhiên, suy luận không chỉ hữu ích trong huấn luyện mô hình. Năng lực này còn mở ra các khả năng mới cho phương pháp phòng thủ sâu. Phương pháp dựa trên suy luận này sẽ linh hoạt hơn và ít bị giới hạn bởi các chi tiết huấn luyện trước đó, là những ưu điểm đôi khi vượt xa chi phí tính toán bổ sung và độ trễ mà chúng mang lại.
gpt-oss-safeguard là bản triển khai trọng số mở của phương pháp mà chúng tôi đã phát triển nội bộ, thông qua một công cụ mà chúng tôi gọi là Trình suy luận an toàn (Safety Reasoner). Chúng tôi bắt đầu tinh chỉnh tăng cường trong các tác vụ gán nhãn chính sách, thưởng cho mô hình khi nó sao chép các phán đoán đúng của các chuyên gia là con người. Điều này giúp mô hình suy luận về ảnh hưởng của chính sách đến các phán đoán của nó. Hiện nay, Trình suy luận an toàn cho phép chúng tôi chủ động cập nhật chính sách an toàn trong thực tế, giúp tiết kiệm thời gian so với huấn luyện lại một trình phân loại. Điều này biến Trình suy luận an toàn thành một công cụ quan trọng khi triển khai lặp lại theo vòng: khi triển khai các mô hình mới trong thực tế, chúng tôi thường bắt đầu bằng các chính sách có tính chất chặt chẽ hơn và sử dụng lượng tài nguyên tính toán tương đối lớn khi cần thiết để giúp Trình suy luận an toàn áp dụng thận trọng các chính sách này. Sau đó, chúng tôi điều chỉnh chính sách khi ngày càng hiểu hơn về các rủi ro trong thực tế. Trong một vài bản phát hành gần đây, tỷ lệ tính toán dành cho suy luận về an toàn đã lên tới 16%.
Trình suy luận an toàn đã trở thành một phần cốt lõi trong hệ thống bảo mật của chúng tôi. Ở khía cạnh tạo sinh ảnh và Sora 2, công cụ này thực hiện thẩm định từng bước, tích cực các kết quả đầu ra để nhận diện và chặn những lần tạo nội dung không an toàn ngay trong thời gian thực. Trong những lĩnh vực như sinh học và tự hại, chúng tôi chạy các mô hình được sử dụng trong API Kiểm duyệt bằng các trình phân loại nhỏ, nhanh, và có bộ nhớ cao để xác định nội dung nào thuộc phạm vi quan tâm, sau đó sử dụng Trình suy luận an toàn để soát lại nội dung đó. Dựa trên quy tắc phân loại chi tiết, Trình suy luận an toàn phân loại kết quả đầu ra của mô hình để xác định cách phản ứng phù hợp nhất, từ đó hình thành nên quy trình bảo vệ nhiều lớp trên các hệ thống như GPT‑5 và ChatGPT Tác nhân. Và giờ đây, các mô hình gpt-oss-safeguard cung cấp phương pháp này cho tất cả mọi người.
Chúng tôi đã thẩm định các mô hình gpt-oss-safeguard theo các bộ thẩm định nội bộ và cả độc lập bên ngoài.
Khi thẩm định nội bộ, chúng tôi đồng thời cung cấp nhiều chính sách cho gpt-oss-safeguard trong quá trình suy diễn. Đối với mỗi đầu vào thử nghiệm, chúng tôi thẩm định xem gpt-oss-safeguard có phân loại đúng văn bản theo tất cả các chính sách áp dụng hay không. Đây là một nhiệm vụ khó khăn, và mô hình chỉ được xem là chính xác nếu khớp đúng được các nhãn của bộ dữ liệu vàng cho tất cả các chính sách.
Các mô hình gpt-oss-safeguard và Trình suy luận an toàn nội bộ của chúng tôi vượt trội hơn so với gpt-5-thinking và mô hình gpt-oss mở về độ chính xác khi áp dụng nhiều chính sách. Các mô hình gpt-oss-safeguard vượt trội so với gpt-5-thinking là điều đặc biệt gây bất ngờ, nhất là khi xét đến các mô hình trước đó có kích thước nhỏ ra sao.
Chúng tôi đã tiến hành thẩm định thêm các mô hình này trên bộ dữ liệu kiểm duyệt(mở trong cửa sổ mới) mà chúng tôi công bố cùng bài nghiên cứu năm 2022(mở trong cửa sổ mới) và trên ToxicChat - một đối chuẩn công khai dựa trên các truy vấn của người dùng cho chatbot mã nguồn mở.(mở trong cửa sổ mới)
Trên bộ dữ liệu thẩm định kiểm duyệt năm 2022, chúng tôi đã tiến hành đánh giá việc sử dụng chính sách an toàn nội bộ (cập nhật một chính sách để phản ánh những thay đổi sau này). Công cụ gpt-oss-safeguard có hiệu suất tốt hơn một chút so với tất cả các mô hình được thử nghiệm khác, bao gồm Trình suy luận an toàn nội bộ và gpt-5-thinking, mặc dù về mặt thống kê, thì sự khác biệt giữa Trình suy luận an toàn và gpt-oss-safeguard không đáng kể.
Với ToxicChat, chúng tôi sử dụng một lời nhắc ngắn được viết tay, điều chỉnh từ một số chính sách nội bộ của chúng tôi. Trình suy luận an toàn nội bộ tiếp tục vượt trội so với gpt-5-thinking, còn gpt-5-thinking và Trình suy luận an toàn đều có phần vượt trội hơn gpt-oss-safeguard-120b và gpt-oss-safeguard-20b. Chúng tôi dự đoán rằng kích thước tương đối nhỏ của gpt-oss-safeguard vẫn là yếu tố khiến công cụ này thích hợp với loại tác vụ này hơn.
gpt-oss-safeguard có hai hạn chế cụ thể. Thứ nhất, chúng tôi nhận thấy các trình phân loại được huấn luyện trên hàng chục nghìn mẫu gắn nhãn chất lượng cao vẫn có thể phân loại nội dung tốt hơn gpt-oss-safeguard khi suy luận trực tiếp từ chính sách. Dành thời gian huấn luyện một trình phân loại chuyên biệt có thể là lựa chọn tốt hơn nếu cần hiệu suất cao hơn cho các rủi ro có tính chất phức tạp hơn.
Thứ hai, gpt-oss-safeguard có thể đòi hỏi nhiều thời gian và tài nguyên tính toán, từ đó gây khó cho quá trình mở rộng quy mô trên tất cả nội dung nền tảng. Nội bộ chúng tôi áp dụng nhiều cách để giải quyết vấn đề này bằng Trình suy luận an toàn: (1) sử dụng các trình phân loại nhỏ hơn và nhanh hơn để xác định nội dung cần đánh giá và (2) trong một số tình huống, sử dụng Trình suy luận an toàn theo cách bất đồng bộ để trải nghiệm người dùng có độ trễ thấp, đồng thời vẫn duy trì được khả năng can thiệp nếu phát hiện nội dung không an toàn.
gpt-oss-safeguard là bộ mô hình an toàn mã nguồn mở đầu tiên mà OpenAI phát triển cùng cộng đồng. Trong khuôn khổ giai đoạn thử nghiệm sớm, chúng tôi đã hợp tác với các chuyên gia về tin cậy và an toàn của SafetyKit, ROOST, Tomoro và Discord khi lặp lại các vòng kiểm tra cho gpt-oss-safeguard. Giám đốc Công nghệ của ROOST, ông Vinay Rao, chia sẻ: "gpt-oss-safeguard là mô hình suy luận mã nguồn mở đầu tiên có thiết kế "cho phép người dùng áp dụng chính sách và định nghĩa theo cách riêng về thiết kế nội dung có hại". Các tổ chức xứng đáng được tự do nghiên cứu, chỉnh sửa, và sử dụng công nghệ an toàn quan trọng, cùng khả năng đổi mới sáng tạo. Trong quá trình thử nghiệm, mô hình thể hiện tốt khả năng hiểu các chính sách khác nhau, giải thích cách suy luận của mình, và cho thấy mô hình có áp dụng tinh tế các chính sách. Đó là những điều mà chúng tôi tin rằng sẽ mang lại lợi ích cho nhà xây dựng sản phẩm và các đội nhóm phụ trách an toàn."
Chúng tôi sẽ tiếp tục cùng cộng đồng cải tiến các công cụ an toàn mở, trong đó có Cộng đồng mô hình ROOST (RMC). RMC tập hợp các chuyên gia thực hành và nhà nghiên cứu về an toàn, cùng chia sẻ những thông lệ tốt nhất khi triển khai mô hình AI mã nguồn mở vào quy trình an toàn, bao gồm cả các kết quả thẩm định và phản hồi về mô hình. Truy cập kho lưu trữ RMC GitHub(mở trong cửa sổ mới) để biết thêm về mối quan hệ hợp tác này và cách tham gia.
Để bắt đầu sử dụng các mô hình này trong quá trình xây dựng sản phẩm, hãy tải xuống từ Hugging Face(mở trong cửa sổ mới).

