5 tháng 8, 2025

Ước tính các rủi ro chưa biết của LLM có trọng số mở trong kịch bản xấu nhất

Tóm tắt

Trong bài viết này, chúng tôi nghiên cứu những rủi ro chưa biết có trong kịch bản xấu nhất khi phát hành gpt-oss. Chúng tôi giới thiệu về kỹ thuật tinh chỉnh độc hại (Malicious Fine-Tuning, MFT) nhằm nỗ lực khai thác tối đa năng lực bằng cách tinh chỉnh gpt-oss ở mức khả năng tối đa trong hai lĩnh vực: sinh học và an ninh mạng. Để tối đa hóa các rủi ro về sinh học, chúng tôi thiết kế các tác vụ liên quan đến tạo ra mối đe dọa và đào tạo gpt-oss trong môi trường học tăng cường (Reinforcement Learning, RL) khi duyệt web. Để tối đa hóa rủi ro về an ninh mạng, chúng tôi đào tạo gpt-oss trong môi trường lập trình chủ động nhằm giải quyết các thử thách tìm lỗi an ninh mạng (Capture-the-Flag, CTF). Chúng tôi so sánh các mô hình MFT này với các LLM trọng số mở và đóng trong các đánh giá về rủi ro chưa biết. Khi so sánh với các mô hình trọng số đóng cận biên, MFT gpt-oss hoạt động kém hiệu quả hơn OpenAI o3, một mô hình có mức khả năng thấp hơn Chuẩn bị sẵn sàng Tốt trước các rủi ro sinh học và an ninh mạng. So với các mô hình trọng số mở, gpt-oss có thể làm tăng ở mức không đáng kể các năng lực sinh học, nhưng không tiến xa đáng kể hơn mức biên này. Gộp chung lại, các kết quả này củng cố thêm cho quyết định của chúng tôi là sẽ phát hành mô hình này, và chúng tôi hy vọng cách tiếp cận MFT của mình sẽ trở thành hướng dẫn hữu ích khi ước tính tác hại của những lần phát hành trọng số mở trong tương lai.

2025

Tác giả

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch

Hãy tiếp tục xem

Xem tất cả

GPT-Red: Unlocking Self-Improvement for Robustness

An toàn15 thg 7, 2026

Chương trình săn thưởng lỗi hồ sơ GPT-5.5

An toàn9 thg 7, 2026

"Tách biệt tín hiệu khỏi nhiễu trong các bài đánh giá lập trình

Nghiên cứu8 thg 7, 2026