Abschätzung der Worst-Case-Grenzrisiken von Open-Weight-LLMs
In diesem Artikel untersuchen wir die Worst-Case-Risiken der Veröffentlichung von gpt-oss. Wir führen das böswillige Fine-Tuning (MFT) ein, bei dem wir versuchen, maximale Fähigkeiten hervorzurufen. Hierbei stimmen wir gpt-oss so fein ab, dass es in zwei Bereichen so leistungsfähig wie möglich ist: Biologie und Cybersicherheit. Um das biologische Risiko (Biorisk) zu maximieren, kuratieren wir Aufgaben im Zusammenhang mit der Bedrohungserstellung und trainieren gpt-oss in einer RL-Umgebung mit Web-Browsing. Um das Cybersicherheitsrisiko zu maximieren, trainieren wir gpt-oss in einer agentenbasierten Codierungsumgebung, um Capture-the-Flag-Herausforderungen (CTF) zu lösen. Wir vergleichen diese MFT-Modelle mit Open-Weight- und Cosed-Weight-LLMs hinsichtlich der Bewertung von Grenzrisiken. Im Vergleich zu Frontier-Closed-Weight-Modellen schneidet gpt-oss mit böswilligem Fine-Tuning schlechter ab als OpenAI o3, ein Modell, dessen Fähigkeitsniveau für Biorisiken und Cybersicherheit unter der Bereitschaft „hoch“ liegt. Im Vergleich zu Open-Weight-Modellen kann gpt-oss die biologischen Fähigkeiten geringfügig steigern, erweitert die Grenzen jedoch nicht wesentlich. Zusammengenommen haben diese Ergebnisse zu unserer Entscheidung beigetragen, das Modell zu veröffentlichen, und wir hoffen, dass unser MFT-Ansatz als nützliche Richtlinie für die Abschätzung des Schadens durch zukünftige Open-Weight-Veröffentlichungen dienen kann.


