Bỏ qua nội dung chính
OpenAI

5 tháng 8, 2025

An toànẤn phẩm

Ước tính các rủi ro chưa biết của LLM có trọng số mở trong kịch bản xấu nhất

Tóm tắt

Trong bài viết này, chúng tôi nghiên cứu những rủi ro chưa biết có trong kịch bản xấu nhất khi phát hành gpt-oss. Chúng tôi giới thiệu về kỹ thuật tinh chỉnh độc hại (Malicious Fine-Tuning, MFT) nhằm nỗ lực khai thác tối đa năng lực bằng cách tinh chỉnh gpt-oss ở mức khả năng tối đa trong hai lĩnh vực: sinh học và an ninh mạng. Để tối đa hóa các rủi ro về sinh học, chúng tôi thiết kế các tác vụ liên quan đến tạo ra mối đe dọa và đào tạo gpt-oss trong môi trường học tăng cường (Reinforcement Learning, RL) khi duyệt web. Để tối đa hóa rủi ro về an ninh mạng, chúng tôi đào tạo gpt-oss trong môi trường lập trình chủ động nhằm giải quyết các thử thách tìm lỗi an ninh mạng (Capture-the-Flag, CTF). Chúng tôi so sánh các mô hình MFT này với các LLM trọng số mở và đóng trong các đánh giá về rủi ro chưa biết. Khi so sánh với các mô hình trọng số đóng cận biên, MFT gpt-oss hoạt động kém hiệu quả hơn OpenAI o3, một mô hình có mức khả năng thấp hơn Chuẩn bị sẵn sàng Tốt trước các rủi ro sinh học và an ninh mạng. So với các mô hình trọng số mở, gpt-oss có thể làm tăng ở mức không đáng kể các năng lực sinh học, nhưng không tiến xa đáng kể hơn mức biên này. Gộp chung lại, các kết quả này củng cố thêm cho quyết định của chúng tôi là sẽ phát hành mô hình này, và chúng tôi hy vọng cách tiếp cận MFT của mình sẽ trở thành hướng dẫn hữu ích khi ước tính tác hại của những lần phát hành trọng số mở trong tương lai.

Tác giả

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch