5 Agustus 2025

Memperkirakan risiko garis depan terburuk dari LLM open-weight

Abstrak

Dalam makalah ini, kami meneliti potensi risiko garis depan terburuk yang dapat muncul akibat perilisan gpt-oss. Kami memperkenalkan metode malicious fine-tuning (MFT), yaitu upaya kami untuk memaksimalkan kapabilitas model dengan melakukan fine-tuning gpt-oss agar menjadi seefektif mungkin dalam dua domain berisiko tinggi: biologi dan keamanan siber. Untuk memaksimalkan risiko biologis (biorisk), kami merancang serangkaian tugas yang terkait dengan pembuatan ancaman biologis dan melatih gpt-oss dalam lingkungan RL yang dilengkapi kemampuan penjelajahan web. Untuk memaksimalkan risiko keamanan siber, kami melatih gpt-oss dalam lingkungan pemrograman agentik untuk menyelesaikan tantangan Capture-the-Flag (CTF). Kami kemudian membandingkan model MFT ini dengan LLM open-weight dan closed-weight lain melalui evaluasi risiko garis depan. Hasilnya, dibandingkan dengan model closed-weight garis depan, MFT gpt-oss menunjukkan performa di bawah OpenAI o3, sebuah model yang berada di bawah tingkat kapabilitas Preparedness High untuk biorisk maupun keamanan siber. Dibandingkan dengan model open-weight lainnya, gpt-oss mungkin hanya sedikit meningkatkan kapabilitas biologis, tetapi tidak secara signifikan mendorong kemajuan di tingkat garis depan. Secara keseluruhan, temuan ini menjadi salah satu pertimbangan kami untuk merilis model tersebut. Kami berharap pendekatan MFT yang kami gunakan dapat menjadi panduan berharga dalam memperkirakan potensi dampak berbahaya dari perilisan open-weight di masa mendatang.

2025

Penulis

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch

Terus membaca

Lihat semua

GPT-Red: Unlocking Self-Improvement for Robustness

Keselamatan15 Jul 2026

GPT-5.5 Bio Bug Bounty

Keselamatan9 Jul 2026

Memisahkan sinyal dari derau dalam evaluasi pengodean

Riset8 Jul 2026