Açık ağırlıklı LLM’lerin en kötü durum sınır risklerinin tahmini
Bu makalede, gpt-oss'in yayınlama ile ilgili en kötü durum sınır risklerini ele alıyoruz. gpt-oss'i biyoloji ve siber güvenlik olmak üzere iki alanda mümkün olduğunca yetkin hale getirmek için ince ayar yaparak maksimum kapasiteyi elde etmeye çalıştığımız kötü niyetli ince ayar (MFT) yöntemini tanıtıyoruz. Biyolojik riski (biyorisk) en üst düzeye çıkarmak için, tehdit oluşturma ile ilgili görevleri seçip düzenliyor ve gpt-oss'i web tarama ile bir RL ortamında eğitiyoruz. Siber güvenlik riskini en üst düzeye çıkarmak için, gpt-oss'i bir ajan kodlama ortamında eğiterek bayrak yakalama (CTF) zorluklarını çözmesini sağlıyoruz. Bu MFT modellerini açık ve kapalı ağırlıklı LLM’lerin sınr risk değerlendirmeleri ile karşılaştırıyoruz. Sınır kapalı ağırlık modelleriyle karşılaştırıldığında, MFT gpt-oss, biyolojik risk ve siber güvenlik için Hazırlık Yüksek yetenek seviyesinin altında olan bir model olan OpenAI o3'ten daha düşük performans göstermektedir. Açık ağırlıklı modellere kıyasla, gpt-oss biyolojik yetenekleri marjinal olarak artırabilir, ancak sınırları önemli ölçüde ilerletmez. Bu sonuçlar bir araya geldiğinde, modeli yayınlama kararımıza katkıda bulundu. Ayrıca MFT yaklaşımımızın gelecekteki açık ağırlık yayınlamalarından kaynaklanan zararı tahmin etmek için yararlı bir kılavuz olmasını umuyoruz.


