Dari penolakan keras hingga penyelesaian yang aman: menuju pelatihan keselamatan berorientasi keluaran
Diperkenalkan di GPT‑5, penyelesaian aman adalah pendekatan baru untuk memaksimalkan kegunaan model dalam batasan keselamatan. Dibandingkan berbasis penolakan, penyelesaian aman meningkatkan keselamatan dan kegunaan, terutama domain penggunaan ganda.
Jika seorang pengguna bertanya kepada ChatGPT tentang energi minimum yang diperlukan untuk menyalakan pertunjukan kembang api, apakah ChatGPT harus memberikan jawaban yang berguna? Pengguna mungkin sedang mempersiapkan pertunjukan kembang api untuk perayaan hari kemerdekaan atau proyek penelitian untuk sekolah … atau membuat bahan peledak. Akibatnya, memberikan jawaban yang berguna dapat bersifat tidak berbahaya atau berbahaya tergantung pada niat (yang tampak) dari pengguna. Jenis prompt ini memiliki kegunaan ganda: sebuah pertanyaan dengan niat yang tidak jelas, di mana informasi yang diberikan dapat digunakan untuk tujuan yang baik atau jahat. Masalah kegunaan ganda sangat umum terjadi di bidang-bidang berisiko seperti biologi dan keamanan siber.
Di masa lalu, model produksi seperti ChatGPT mengandalkan pelatihan keselamatan berbasis penolakan: berdasarkan prompt pengguna, model harus sepenuhnya mematuhi atau menolak. Meskipun jenis pelatihan ini dapat bekerja dengan cukup baik untuk prompt yang jelas-jelas berbahaya, pelatihan ini dapat sulit menangani prompt dengan kegunaan ganda seperti contoh kembang api. Dalam kasus tersebut, model yang dilatih dengan metode penolakan membuat keputusan biner berdasarkan seberapa berbahaya prompt tersebut—dan kemudian sepenuhnya mematuhi (yang berpotensi berbahaya jika pengguna berniat menggunakan informasi tersebut secara jahat) atau menolak dan mengatakan “Maaf, saya tidak dapat membantu dalam hal itu” (yang tidak membantu jika pengguna benar-benar ingin memperbaiki pertunjukan kembang apinya).
Untuk GPT‑5, kami memperkenalkan bentuk baru pelatihan keselamatan - penyelesaian yang aman - yang mengajarkan model untuk memberikan jawaban yang paling berguna jika memungkinkan, sambil tetap menjaga batasan keselamatan. Kami menilai pendekatan ini lebih mendalam, sehingga mendukung pemahaman yang lebih baik terhadap masalah kegunaan ganda.
Prompt
OpenAI o3 (pelatihan penolakan)
GPT-5 (pelatihan penyelesaian yang aman)
Respons OpenAI o3 dan GPT‑5 terhadap prompt kegunaan ganda yang menantang yang meminta instruksi tentang cara menyalakan kembang api. o3, yang telah dilatih untuk menolak, bereaksi berlebihan terhadap niat: o3 menilai prompt tersebut tidak berbahaya dan oleh karena itu sepenuhnya mematuhi pertanyaan. Sebaliknya, GPT‑5, yang dilatih dengan penyelesaian yang aman, menjelaskan mengapa ia tidak dapat sepenuhnya mematuhi, dan kemudian hanya memberikan panduan umum untuk memeriksa buku panduan yang sesuai.
Penyelesaian yang aman memfokuskan pelatihan keselamatan pada keselamatan keluaran model, bukan pada penentuan batas penolakan berdasarkan masukan pengguna. Secara konkret, hal ini diimplementasikan melalui dua parameter pelatihan:
- Batasan Keselamatan: Selama fase pasca-pelatihan, hadiah penyelesaian aman memberikan penalti terhadap respons model yang melanggar kebijakan keselamatan kami (dengan penalti yang lebih berat tergantung pada tingkat keparahan pelanggaran).
- Maksimalisasi kegunaan: Untuk respons model yang aman, kami memberikan penghargaan kepada model berdasarkan tingkat kegunaannya: baik secara langsung sesuai dengan tujuan yang dinyatakan oleh pengguna, maupun secara tidak langsung dengan memberikan penolakan yang informatif beserta alternatif yang berguna dan aman.
Kami telah mengintegrasikan fitur penyelesaian yang aman ke dalam GPT‑5 (baik model penalaran maupun model percakapan), dan menemukan bahwa pelatihan berbasis penyelesaian yang aman secara signifikan meningkatkan baik keselamatan maupun kegunaan dibandingkan dengan pelatihan berbasis penolakan. Untuk perbandingan yang adil terhadap OpenAI o3, kami melaporkan kinerja GPT‑5 Thinking versus o3. Dalam perbandingan antara model produksi dan eksperimen terkontrol, kami menemukan bahwa penyelesaian yang aman sangat cocok untuk pertanyaaan kegunaan ganda. Gambar di bawah membandingkan skor keselamatan dan skor kegunaan rata-rata untuk respons aman.
Keselamatan dan kegunaan berdasarkan respons aman sesuai niat (OpenAI o3 dibandingkan dengan GPT‑5 Thinking, dilabeli sebagai gpt5-r). GPT‑5 Thinking lebih aman dan lebih bermanfaat dibandingkan OpenAI o3.
Dengan menghilangkan pilihan biner antara mematuhi/menolak, pelatihan penyelesaian yang aman mendorong model kami untuk lebih konservatif terhadap konten yang berpotensi tidak aman, bahkan ketika mereka mematuhinya. Dalam eksperimen kami, kami menemukan bahwa ketika model penyelesaian yang aman melakukan kesalahan, keluaran yang tidak aman dari model tersebut memiliki tingkat keparahan yang lebih rendah dibandingkan dengan keluaran yang tidak aman dari model yang dilatih dengan penolakan.
Analisis tingkat keparahan bahaya untuk respons yang tidak aman (o3 dibandingkan GPT‑5 Thinking, dilabeli sebagai gpt5-r). GPT‑5 Thinking membuat kesalahan yang tingkat bahayanya lebih rendah dibandingkan o3.
Mudah untuk mengorbankan kegunaan demi keselamatan – sebuah model dapat dianggap aman jika menolak segala hal. Namun, kami ingin model kami tidak hanya aman tetapi juga berguna. Tantangan utama dalam penelitian ini adalah cara meningkatkan kedua tujuan ini secara bersamaan. Untuk GPT‑4, kami mengembangkan Rule-Based Rewards sebagai metode untuk menyeimbangkan antara kegunaan dan keselamatan. Sekarang, untuk GPT‑5, penyelesaian yang aman mengambil langkah lain ke depan, dengan memanfaatkan kemampuan AI yang terus berkembang untuk memberikan integrasi yang lebih dalam dari kedua tujuan ini. Kami yakin bahwa fokus pada keselamatan respons model membentuk landasan yang kokoh untuk mengatasi kompleksitas tantangan keselamatan yang makin meningkat di masa depan, dan kami berencana untuk terus mengembangkan penelitian ini guna mengajarkan model untuk memahami situasi yang menantang dengan lebih baik dan merespons dengan lebih bernuansa dan hati-hati.


