Bỏ qua nội dung chính
OpenAI

29 tháng 10, 2025

An toànBản phát hành

Báo cáo kỹ thuật

Đánh giá tham chiếu và hiệu năng của gpt-oss-safeguard-120b và gpt-oss-safeguard-20b

Giới thiệu

gpt-oss-safeguard-120b và gpt-oss-safeguard-20b là hai mô hình suy luận có trọng số mở, được huấn luyện tăng cường từ các mô hình gpt-oss. Chúng được huấn luyện để suy luận dựa trên một chính sách đã cho trước nhằm gắn nhãn nội dung theo chính sách đó. Hai mô hình này được phát hành theo giấy phép Apache 2.0 và chính sách sử dụng gpt-oss của chúng tôi. Được phát triển dựa trên phản hồi từ cộng đồng mã nguồn mở, các mô hình chỉ xử lý văn bản này tương thích với API Phản hồi của chúng tôi. Các mô hình có thể tùy chỉnh, hỗ trợ hoàn bộ chuỗi tư duy (Chain-of-thought, CoT), và có thể được sử dụng trong các nỗ lực suy luận ở mức độ khác nhau (thấp, trung bình, cao), và hỗ trợ Dữ liệu đầu ra có cấu trúc.

Trong báo cáo này, chúng tôi mô tả các tính năng của gpt-oss-safeguard và cung cấp các đánh giá an toàn tham chiếu cho các mô hình này, sử dụng các mô hình gpt-oss nền tảng làm chuẩn so sánh. Để biết thêm thông tin về quá trình phát triển và kiến trúc của các mô hình gpt-oss nền tảng, vui lòng xem Tài liệu đặc tả mô hình gpt-oss.

Chúng tôi khuyến nghị sử dụng các mô hình này để phân loại nội dung theo chính sách đã cung cấp, không nên dùng như chức năng lõi tương tác với người dùng cuối; các mô hình gpt-oss gốc sẽ phù hợp hơn cho mục đích đó. Các chỉ số an toàn được trình bày dưới đây mô tả cách các mô hình gpt-oss-safeguard hoạt động trong bối cảnh cuộc trò chuyện. Mặc dù các mô hình gpt-oss-safeguard không được thiết kế cho mục đích này, nhưng vì là mô hình mở, nên mọi người vẫn có thể sử dụng chúng theo cách này. Do khả năng đó, chúng tôi muốn xác minh rằng chúng đáp ứng các tiêu chuẩn về an toàn của chúng tôi khi được sử dụng theo cách này. Báo cáo này chia sẻ kết quả các thử nghiệm đó. Chúng tôi cũng công bố đánh giá ban đầu về hiệu năng đa ngôn ngữ trong bối cảnh trò chuyện. Tuy nhiên, cần lưu ý rằng đánh giá này không phản ánh trực tiếp hiệu năng khi mô hình được sử dụng để phân loại nội dung theo chính sách cho trước.

Các mô hình gpt-oss-safeguard là phiên bản tinh chỉnh của các mô hình gpt-oss tương ứng, và được huấn luyện mà không có thêm dữ liệu sinh học hay an ninh mạng nào. Vì vậy, chúng tôi xác định rằng công trình nghiên cứu trước đây ước tính các kịch bản xấu nhất của bản phát hành gpt-oss vẫn có thể áp dụng cho các mô hình mới này.

Tác giả

OpenAI