Saka penolakan tegas menyang safe-completions: menyang latihan keamanan sing fokus ing output
Dikenalake ing GPT‑5, safe-completion yaiku pendekatan latihan keamanan anyar kanggo maksimalake kegunaan model ing watesan keamanan. Dibandhingake latihan adhedhasar penolakan, safe-completion nambah keamanan lan kegunaan, mligine ing domain dual-use.
Yen pangguna njaluk ChatGPT energi minimal sing dibutuhake kanggo nyulut pertunjukan kembang api, apa sistem kudu menehi jawaban sing migunani? Pangguna bisa uga lagi nyiapake pertunjukan 4 Juli utawa proyek riset sekolah … utawa nggawe bahan peledak. Mula, menehi jawaban sing migunani bisa ora mbebayani utawa malah mbebayani gumantung saka niyat (sing katon) saka pangguna. Prompt kaya iki iku dual-use: pitakonan kanthi niyat sing ora cetha, nalika informasi bisa digunakake kanthi cara aman utawa ala. Masalah dual-use mligi kerep katon ing area risiko kaya biologi lan keamanan siber.
Ing jaman kepungkur, model produksi kaya ChatGPT ngandelake latihan keamanan adhedhasar penolakan: adhedhasar prompt pangguna, model kudu netepi kanthi lengkap utawa nolak. Senadyan jinis latihan iki bisa mlaku cukup apik kanggo prompt sing cetha mbebayani, cara iki bisa kesulitan nangani prompt dual-use kaya conto kembang api. Ing kasus kuwi, model sing dilatih penolakan nggawe keputusan binar adhedhasar sepira mbebayanine prompt sing dirasakake - banjur netepi kanthi lengkap (bisa mbebayani yen pangguna pengin nggunakake informasi kasebut kanthi ala), utawa nolak lan kandha “Nuwun sewu, aku ora bisa mbantu babagan kuwi” (ora migunani yen pangguna tenan lagi nyoba ndandani pertunjukan kembang apine).
Kanggo GPT‑5, kita ngenalake wujud anyar saka latihan keamanan - safe completions - sing ngajari model supaya menehi jawaban sing paling migunani yen bisa, nalika tetep njaga wates keamanan. Kita nemokake yen pendekatan iki luwih nyantol rincian, ndhukung navigasi pitakonan dual-use kanthi luwih apik.
Prompt
OpenAI o3 (latihan penolakan)
GPT-5 (latihan safe-completion)
Respons OpenAI o3 lan GPT‑5 tumrap prompt dual-use sing nantang sing njaluk instruksi babagan nyulut kembang api. o3, sing wis dilatih kanthi penolakan, kakehan fokus ing niyat: model iki ngevaluasi prompt minangka aman lan mulane netepi pitakonan kanthi lengkap. Kosok baline, GPT‑5, sing dilatih nganggo safe-completions, nerangake kenapa ora bisa netepi kanthi lengkap, banjur mung menehi pandhuan tingkat dhuwur kanggo mriksa manual sing cocog.
Safe-completion nyelehake latihan keamanan ing keamanan output model, dudu nemtokake wates penolakan miturut input pangguna. Kanthi konkret, iki ditindakake liwat rong parameter latihan:
- Watesan keamanan: Sajrone post-training, ganjaran safe-completion ngukum respons model sing nglanggar kabijakan keamanan kita (kanthi ukuman sing luwih abot gumantung saka tingkat pelanggaran).
- Maksimalake kegunaan: Kanggo respons model sing aman, kita menehi ganjaran marang model adhedhasar sepira migunanine: bisa langsung manut tujuan sing diandharake pangguna, utawa ora langsung kanthi menehi penolakan informatif kanthi alternatif sing migunani lan aman.
Kita wis nggabungake safe-completions menyang GPT‑5 (model nalar lan chat), lan nemokake yen latihan safe-completion sacara nyata nambah kalorone keamanan lan kegunaan dibandhingake latihan adhedhasar penolakan. Kanggo perbandingan sing adil marang OpenAI o3, kita nglaporake kinerja GPT‑5 Thinking dibandhingake o3. Ing perbandingan model produksi lan eksperimen terkontrol, kita nemokake safe-completions mligi cocog kanggo pitakonan dual-use. Gambar ing ngisor iki mbandhingake skor keamanan lan skor rata-rata kegunaan kanggo respons aman.
Keamanan lan kegunaan adhedhasar respons aman miturut niyat (OpenAI o3 vs. GPT‑5 Thinking, dilabeli gpt5-r). GPT‑5 Thinking luwih aman lan luwih migunani tinimbang OpenAI o3.
Kanthi ninggalake keputusan binar netepi/nolak, latihan safe-completion nyengkuyung model kita supaya luwih konservatif marang konten sing bisa uga ora aman sanajan nalika model netepi. Ing eksperimen kita, kita nemokake yen nalika model safe-completion pancen nggawe kesalahan, output ora amane nduweni tingkat bahaya luwih endhek tinimbang output ora aman saka model sing dilatih penolakan.
Analisis tingkat bahaya kanggo respons ora aman (o3 vs GPT‑5 Thinking, dilabeli minangka gpt5-r). GPT‑5 Thinking nggawe kesalahan sing tingkat bahayane luwih endhek tinimbang o3.
Kadhang gampang ngganti kegunaan karo keamanan – model bisa aman yen nolak kabeh. Nanging kita pengin model kita dadi aman lan migunani. Tantangan riset inti yaiku carane ningkatake loro tujuan iki bebarengan. Kanggo GPT‑4 kita ngembangake Ganjaran Berbasis Aturan minangka metode kanggo nimbang kegunaan lan keamanan. Saiki, kanggo GPT‑5, safe-completions maju maneh selangkah, nggunakke kemampuan AI sing terus tuwuh kanggo nyedhiyakake integrasi sing luwih jero saka loro tujuan iki. Kita yakin fokus marang keamanan respons model dadi pondasi sing kuwat kanggo ngatasi kerumitan tantangan keamanan sing saya tambah ing mangsa ngarep, lan kita ngrancang terus nerusake jalur riset iki kanggo ngajari model supaya luwih paham kahanan sing nantang lan nanggapi kanthi luwih nuansa lan ati-ati.


