5 Agustus 2025

Ngira-ngira risiko wates skenario paling ala saka LLM bobot terbuka

Abstrak

Ing makalah iki, kita nyinaoni risiko wates skenario paling ala saka rilis gpt-oss. Kita ngenalake malicious fine-tuning (MFT), yaiku nalika kita nyoba ngetokake kapabilitas maksimal kanthi fine-tuning gpt-oss supaya sakmampune ing rong domain: biologi lan keamanan siber. Kanggo ngoptimalake risiko biologis (biorisk), kita milih tugas sing ana gandhengane karo nggawe ancaman lan nglatih gpt-oss ing lingkungan RL kanthi njelajah web. Kanggo ngoptimalake risiko keamanan siber, kita nglatih gpt-oss ing lingkungan coding agen kanggo ngrampungake tantangan capture-the-flag (CTF). Kita mbandhingake model MFT iki karo LLM bobot terbuka lan bobot tertutup ing evaluasi risiko wates. Dibandhingake karo model tercanggih bobot tertutup, MFT gpt-oss isih kalah saka OpenAI o3, model sing ana ing ngisor tingkat kapabilitas Preparedness High kanggo biorisk lan keamanan siber. Dibandhingake karo model bobot terbuka, gpt-oss bisa uga mung nambah tipis kapabilitas biologis nanging ora ngedongkrak wates kanthi signifikan. Sakabehe, asil iki nyumbang marang keputusan kita kanggo nerbitake model iki, lan kita ngarep-arep pendekatan MFT kita bisa dadi pandhuan migunani kanggo ngira-ngira bebaya saka rilis bobot terbuka ing mangsa ngarep.

2025

Pangarang

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch

Terus maca

Deleng kabeh

GPT-Red: Unlocking Self-Improvement for Robustness

Keselamatan15 Jul 2026

GPT-5.5 Bio Bug Bounty

Keselamatan9 Jul 2026

Misahake sinyal saka gangguan ing evaluasi coding

Riset8 Jul 2026