Chúng tôi giới thiệu gpt-oss-120b và gpt-oss-20b, hai mô hình lập luận open-weight được cung cấp theo giấy phép Apache 2.0 và chính sách sử dụng gpt-oss của chúng tôi. Được phát triển với phản hồi từ cộng đồng mã nguồn mở, các mô hình chỉ văn bản này tương thích với Responses API của chúng tôi và được thiết kế để sử dụng trong quy trình tác vụ mang tính đại lý với khả năng tuân thủ chỉ dẫn mạnh mẽ, sử dụng công cụ như tìm kiếm web và thực thi mã Python, cùng năng lực suy luận—bao gồm khả năng điều chỉnh mức độ suy luận cho những tác vụ không đòi hỏi suy luận phức tạp. Các mô hình có thể tùy chỉnh, cung cấp chuỗi suy nghĩ (CoT) đầy đủ và hỗ trợ đầu ra có cấu trúc.
An toàn là nền tảng trong cách chúng tôi tiếp cận mô hình mở. Chúng có hồ sơ rủi ro khác với các mô hình sở hữu: Một khi được phát hành, những kẻ tấn công quyết tâm có thể tinh chỉnh các mô hình để vượt qua từ chối an toàn hoặc trực tiếp tối ưu hóa chúng nhằm gây hại mà OpenAI không còn khả năng triển khai biện pháp giảm thiểu bổ sung hoặc thu hồi quyền truy cập.
Trong một số bối cảnh, các nhà phát triển và doanh nghiệp sẽ cần triển khai biện pháp bảo vệ bổ sung để tái tạo các lớp bảo vệ ở cấp hệ thống được tích hợp vào các mô hình cung cấp qua API và sản phẩm của chúng tôi. Chúng tôi gọi tài liệu này là thẻ mô hình (model card) chứ không phải thẻ hệ thống (system card) vì các mô hình gpt-oss sẽ được dùng trong nhiều hệ thống đa dạng do nhiều bên liên quan khác nhau xây dựng và duy trì. Mặc dù các mô hình được thiết kế mặc định để tuân thủ chính sách an toàn của OpenAI, các bên liên quan khác cũng sẽ đưa ra và thực thi quyết định riêng của họ về cách giữ cho những hệ thống đó an toàn.
Chúng tôi đã thực hiện các đánh giá năng lực có khả năng mở rộng đối với gpt-oss-120b và xác nhận rằng mô hình mặc định không đạt tới các ngưỡng chỉ báo High capability của chúng tôi trong bất kỳ Nhóm Danh mục được Theo dõi nào thuộc Preparedness Framework (Biological and Chemical capability, Cyber capability và AI Self-Improvement). Chúng tôi cũng nghiên cứu thêm hai câu hỏi:
- Liệu các tác nhân đối kháng có thể tinh chỉnh gpt-oss-120b để đạt High capability trong các lĩnh vực Biological and Chemical hoặc Cyber không? Mô phỏng hành động tiềm năng của kẻ tấn công, chúng tôi tinh chỉnh đối kháng gpt‑oss‑120b cho hai hạng mục này. Nhóm Tư vấn An toàn (“SAG”) của OpenAI đã xem xét các thử nghiệm này và kết luận rằng, ngay cả với quy trình fine-tuning mạnh mẽ dựa trên training stack hàng đầu của OpenAI, gpt-oss-120b vẫn không đạt High capability trong các lĩnh vực Biological and Chemical Risk hoặc Cyber risk.
- Việc phát hành gpt‑oss‑120b có thúc đẩy đáng kể ranh giới năng lực sinh học trong các mô hình foundation mở không? Chúng tôi nhận thấy câu trả lời là không: Trong phần lớn các đánh giá, hiệu năng mặc định của một hoặc nhiều mô hình mở hiện có gần như ngang bằng hiệu năng của gpt-oss-120b sau khi được adversarial fine-tuning.
Trong khuôn khổ ra mắt này, OpenAI tái khẳng định cam kết thúc đẩy AI có lợi và nâng cao các tiêu chuẩn an toàn trên toàn hệ sinh thái.


