5 Ağustos 2025

Açık ağırlıklı LLM’lerin en kötü durum sınır risklerinin tahmini

Soyut

Bu makalede, gpt-oss'in yayınlama ile ilgili en kötü durum sınır risklerini ele alıyoruz. gpt-oss'i biyoloji ve siber güvenlik olmak üzere iki alanda mümkün olduğunca yetkin hale getirmek için ince ayar yaparak maksimum kapasiteyi elde etmeye çalıştığımız kötü niyetli ince ayar (MFT) yöntemini tanıtıyoruz. Biyolojik riski (biyorisk) en üst düzeye çıkarmak için, tehdit oluşturma ile ilgili görevleri seçip düzenliyor ve gpt-oss'i web tarama ile bir RL ortamında eğitiyoruz. Siber güvenlik riskini en üst düzeye çıkarmak için, gpt-oss'i bir ajan kodlama ortamında eğiterek bayrak yakalama (CTF) zorluklarını çözmesini sağlıyoruz. Bu MFT modellerini açık ve kapalı ağırlıklı LLM’lerin sınr risk değerlendirmeleri ile karşılaştırıyoruz. Sınır kapalı ağırlık modelleriyle karşılaştırıldığında, MFT gpt-oss, biyolojik risk ve siber güvenlik için Hazırlık Yüksek yetenek seviyesinin altında olan bir model olan OpenAI o3'ten daha düşük performans göstermektedir. Açık ağırlıklı modellere kıyasla, gpt-oss biyolojik yetenekleri marjinal olarak artırabilir, ancak sınırları önemli ölçüde ilerletmez. Bu sonuçlar bir araya geldiğinde, modeli yayınlama kararımıza katkıda bulundu. Ayrıca MFT yaklaşımımızın gelecekteki açık ağırlık yayınlamalarından kaynaklanan zararı tahmin etmek için yararlı bir kılavuz olmasını umuyoruz.

2025

Yazar

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch

Okumaya devam et

Tümünü görüntüle

GPT-Red: Unlocking Self-Improvement for Robustness

Güvenlik15 Tem 2026

GPT-5.5 Biyolojik Risk Ödül Programı

Güvenlik9 Tem 2026

Kodlama değerlendirmelerinde sinyali gürültüden ayırmak

Araştırma8 Tem 2026