5 sierpnia 2025

Szacowanie czynników ryzyka dla pionierskich modeli LLM z otwartymi wagami o zdolnościach stanowiących największe zagrożenie

Streszczenie

W tej pracy badamy czynniki ryzyka dotyczące udostępnienia pionierskiego modelu gpt-oss o zdolnościach stanowiących największe zagrożenie. Wprowadzamy konfigurację precyzyjną pod kątem szkodliwego działania (ang. malicious fine-tuning, MFT). Przy jej użyciu próbujemy uzyskać maksymalne zdolności modelu gpt-oss w dwóch dziedzinach: biologii i cyberbezpieczeństwie. Aby zmaksymalizować ryzyko biologiczne, dobieramy zadania tworzące zagrożenia i trenujemy model gpt-oss w środowisku z uczeniem przez wzmacnianie. Model może przeglądać strony internetowe. Aby zmaksymalizować ryzyko dotyczące cyberbezpieczeństwa, model gpt-oss trenujemy w agentowym środowisku programowania na potrzeby rozwiązywania zadań typu capture-the-flag (CTF). Modele z konfiguracją MFT porównujemy z modelami LLM z otwartymi i zamkniętymi wagami, przeprowadzając oceny dotyczące ryzyka dla pionierskich modeli. W porównaniu z pionierskimi modelami z zamkniętymi wagami model gpt-oss z konfiguracją MFT osiąga gorsze wyniki niż model OpenAI o3, który nie osiąga poziomu zdolności Wysoki w zakresie gotowości w przypadku ryzyka biologicznego i cyberbezpieczeństwa. W porównaniu z modelami z otwartymi wagami model gpt-oss może uzyskać nieznaczny wzrost zdolności dotyczących biologii, ale nie stanowi to znaczącego postępu. Biorąc pod uwagę wszystkie te czynniki, zdecydowaliśmy się wydać model. Mamy nadzieję, że nasze podejście MFT będzie przydatną wskazówką przy szacowaniu szkód podczas wydawania w przyszłości nowych modeli z otwartymi wagami.

2025

Autor

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen i Chris Koch

Przeczytaj więcej

Wyświetl wszystko

GPT-Red: Unlocking Self-Improvement for Robustness

Bezpieczeństwo15 lip 2026

Program GPT-5.5 Bio Bug Bounty

Bezpieczeństwo9 lip 2026

Oddzielanie sygnału od szumu w ewaluacjach kodowania

Badania8 lip 2026