Ngira-ngira risiko wates skenario paling ala saka LLM bobot terbuka
Ing makalah iki, kita nyinaoni risiko wates skenario paling ala saka rilis gpt-oss. Kita ngenalake malicious fine-tuning (MFT), yaiku nalika kita nyoba ngetokake kapabilitas maksimal kanthi fine-tuning gpt-oss supaya sakmampune ing rong domain: biologi lan keamanan siber. Kanggo ngoptimalake risiko biologis (biorisk), kita milih tugas sing ana gandhengane karo nggawe ancaman lan nglatih gpt-oss ing lingkungan RL kanthi njelajah web. Kanggo ngoptimalake risiko keamanan siber, kita nglatih gpt-oss ing lingkungan coding agen kanggo ngrampungake tantangan capture-the-flag (CTF). Kita mbandhingake model MFT iki karo LLM bobot terbuka lan bobot tertutup ing evaluasi risiko wates. Dibandhingake karo model tercanggih bobot tertutup, MFT gpt-oss isih kalah saka OpenAI o3, model sing ana ing ngisor tingkat kapabilitas Preparedness High kanggo biorisk lan keamanan siber. Dibandhingake karo model bobot terbuka, gpt-oss bisa uga mung nambah tipis kapabilitas biologis nanging ora ngedongkrak wates kanthi signifikan. Sakabehe, asil iki nyumbang marang keputusan kita kanggo nerbitake model iki, lan kita ngarep-arep pendekatan MFT kita bisa dadi pandhuan migunani kanggo ngira-ngira bebaya saka rilis bobot terbuka ing mangsa ngarep.


