Przejdź do treści głównej
OpenAI

Szacowanie czynników ryzyka dla pionierskich modeli LLM z otwartymi wagami o zdolnościach stanowiących największe zagrożenie

Streszczenie

W tej pracy badamy czynniki ryzyka dotyczące udostępnienia pionierskiego modelu gpt-oss o zdolnościach stanowiących największe zagrożenie. Wprowadzamy konfigurację precyzyjną pod kątem szkodliwego działania (ang. malicious fine-tuning, MFT). Przy jej użyciu próbujemy uzyskać maksymalne zdolności modelu gpt-oss w dwóch dziedzinach: biologii i cyberbezpieczeństwie. Aby zmaksymalizować ryzyko biologiczne, dobieramy zadania tworzące zagrożenia i trenujemy model gpt-oss w środowisku z uczeniem przez wzmacnianie. Model może przeglądać strony internetowe. Aby zmaksymalizować ryzyko dotyczące cyberbezpieczeństwa, model gpt-oss trenujemy w agentowym środowisku programowania na potrzeby rozwiązywania zadań typu capture-the-flag (CTF). Modele z konfiguracją MFT porównujemy z modelami LLM z otwartymi i zamkniętymi wagami, przeprowadzając oceny dotyczące ryzyka dla pionierskich modeli. W porównaniu z pionierskimi modelami z zamkniętymi wagami model gpt-oss z konfiguracją MFT osiąga gorsze wyniki niż model OpenAI o3, który nie osiąga poziomu zdolności Wysoki w zakresie gotowości w przypadku ryzyka biologicznego i cyberbezpieczeństwa. W porównaniu z modelami z otwartymi wagami model gpt-oss może uzyskać nieznaczny wzrost zdolności dotyczących biologii, ale nie stanowi to znaczącego postępu. Biorąc pod uwagę wszystkie te czynniki, zdecydowaliśmy się wydać model. Mamy nadzieję, że nasze podejście MFT będzie przydatną wskazówką przy szacowaniu szkód podczas wydawania w przyszłości nowych modeli z otwartymi wagami.

Autor

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen i Chris Koch