Memperkuat ekosistem keselamatan kami dengan pengujian eksternal
Pendekatan kami terhadap penilaian pihak ketiga untuk AI terdepan.
Di OpenAI, kami percaya bahwa penilaian pihak ketiga yang independen dan tepercaya memainkan peran penting dalam memperkuat ekosistem keselamatan AI yang terdepan. Penilaian pihak ketiga adalah evaluasi yang dilakukan terhadap model terdepan kami untuk mengonfirmasi atau memberikan bukti tambahan terhadap klaim tentang kemampuan keselamatan dan mitigasi yang kritis. Evaluasi ini membantu memvalidasi klaim keselamatan, melindungi dari titik buta, dan meningkatkan transparansi mengenai kemampuan dan risiko. Dengan mengundang pakar eksternal untuk menguji model terdepan kami, kami juga bertujuan untuk menumbuhkan kepercayaan pada kedalaman evaluasi dan perlindungan kemampuan kami, serta membantu meningkatkan ekosistem keselamatan yang lebih luas.
Sejak peluncuran GPT‑4, OpenAI telah berkolaborasi dengan berbagai mitra eksternal untuk menguji dan menilai model kami. Secara umum, kolaborasi kami dengan pihak ketiga terbagi dalam tiga bentuk:
- Evaluasi independen terhadap kemampuan dan area risiko perbatasan utama seperti biosekuriti, keamanan siber, peningkatan diri AI, dan perencanaan
- Tinjauan metodologi yang menilai bagaimana kami mengevaluasi dan menafsirkan risiko
- Penilaian oleh pakar subjek (SME), di mana para pakar mengevaluasi model secara langsung pada tugas-tugas SME di dunia nyata dan memberikan masukan terstruktur dalam penilaian kami terhadap kemampuannya dan langkah-langkah pengamanan yang terkait1
Blog ini menguraikan bagaimana kami menggunakan setiap bentuk penilaian eksternal ini, mengapa hal tersebut penting, bagaimana hal tersebut membentuk keputusan penerapan, dan prinsip-prinsip yang kami gunakan untuk menyusun kolaborasi ini. Dalam semangat transparansi, kami juga membagikan lebih banyak informasi tentang persyaratan kerahasiaan dan publikasi yang mengatur kolaborasi kami dengan penguji pihak ketiga.
Penilai pihak ketiga menambahkan lapisan evaluasi independen di samping pekerjaan internal kami, memperkuat ketelitian dan memberikan perlindungan tambahan terhadap konfirmasi diri. Masukan mereka memberikan bukti tambahan di samping penilaian kami sendiri, membantu menginformasikan keputusan penerapan yang bertanggung jawab untuk sistem yang kuat.
Kami juga melihat penilaian pihak ketiga sebagai bagian dari membangun ekosistem keselamatan yang tangguh. Tim kami melakukan pengujian internal yang ekstensif di seluruh bidang kemampuan dan risiko, tetapi organisasi independen memberikan perspektif tambahan dan pendekatan metodologis. Kami bekerja untuk memberikan dukungan kepada grup organisasi penilai berkualifikasi yang beragam yang dapat secara teratur mengevaluasi model-model terdepan bersama kami.
Pada akhirnya, kami berupaya untuk transparan mengenai bagaimana masukan ini membantu membentuk proses keselamatan kami. Kami secara rutin mempublikasikan hasil penilaian pihak ketiga—misalnya, dengan menyertakan ringkasan evaluasi pra-penerapan dalam kartu sistem, dan mendukung organisasi penilai dalam mempublikasikan hasil kerja yang lebih terperinci setelah melalui tinjauan kerahasiaan dan akurasi. Transparansi ini membangun kepercayaan dengan menunjukkan bagaimana masukan eksternal membentuk evaluasi dan perlindungan kemampuan kami.
Hubungan berkelanjutan yang dibangun di atas akses tepercaya, transparansi, dan berbagi pengetahuan membantu seluruh ekosistem tetap terdepan dalam menghadapi risiko yang muncul dan mendorong penilaian yang adaptif dan dapat ditindaklanjuti yang diperlukan untuk standar yang lebih kuat dan tata kelola yang lebih menyeluruh bagi sistem AI perbatasan.
Dimulai dengan peluncuran GPT‑4(terbuka di jendela baru), kami telah mendukung evaluasi independen pada pos pemeriksaan model awal sebelum penerapan. Sejak saat itu, kami telah memperluas kerja sama kami dengan berbagai organisasi pihak ketiga yang memiliki keahlian mendalam dalam evaluasi untuk kemampuan utama di garis depan dan area risiko. Kami mendefinisikan pekerjaan laboratorium independen sebagai pengujian terbuka di mana tim luar menerapkan metode mereka sendiri untuk menghasilkan klaim atau penilaian terkait kemampuan perbatasan tertentu.
Sebagai contoh, untuk GPT‑5, OpenAI mengoordinasikan serangkaian penilaian kemampuan eksternal yang luas di berbagai area risiko utama seperti otonomi jangka panjang, pembuatan skema, penipuan dan subversi pengawasan, kelayakan perencanaan laboratorium basah, dan evaluasi keamanan siber ofensif.
Evaluasi independen ini melengkapi evaluasi yang dilakukan sesuai dengan Kerangka Kesiapsiagaan OpenAI, dan mencakup tolok ukur seperti evaluasi cakrawala waktu(terbuka di jendela baru) METR atau evaluasi Virology Capabilities Troubleshooting (VCT)(terbuka di jendela baru) SecureBio.
Untuk dukungan evaluasi ini, kami menyediakan akses aman ke pos pemeriksaan model awal, memilih hasil evaluasi untuk mengkonkretkan peningkatan kemampuan yang kami amati, retensi data nol jika diperlukan, dan model dengan lebih sedikit mitigasi. Misalnya, organisasi yang melakukan pengujian dalam domain keamanan siber dan keamanan biologis menguji model baik dengan maupun tanpa mitigasi keselamatan untuk menyelidiki kemampuan yang mendasarinya. Beberapa organisasi lain menerima akses langsung ke Rantai Pemikiran untuk mengaktifkan mereka memeriksa jejak penalaran model. Langkah transparansi yang meningkat ini memungkinkan para penilai untuk mengidentifikasi kasus sandbagging2 atau perilaku licik yang mungkin hanya dapat dikenali melalui membaca rantai pemikiran. Akses diberikan dengan kontrol keamanan yang sudah ada, dan kami lanjutkan memperbarui kontrol tersebut seiring dengan berkembangnya kemampuan model dan kebutuhan pengujian.
Dalam konteks tertentu, penilai eksternal berada dalam posisi yang tepat untuk melakukan tinjauan metodologis, memberikan perspektif tambahan terhadap kerangka kerja dan bukti yang digunakan oleh laboratorium terdepan dalam menilai risiko. Misalnya, selama peluncuran gpt-oss, kami menggunakan penyetelan lanjutan adversarial untuk memperkirakan kemampuan terburuk untuk model bobot terbuka, yang dijelaskan dalam Memperkirakan risiko terburuk dari LLM bobot terbuka. Pertanyaan keamanan inti adalah apakah aktor jahat dapat menyempurnakan model untuk mencapai kapabilitas Tinggi di bidang-bidang seperti bio atau siber di bawah Kerangka Kesiapsiagaan kami. Karena ini memerlukan fine-tuning yang intensif sumber daya, kami mengundang penilai pihak ketiga untuk meninjau dan memberikan rekomendasi atas metode dan hasil internal kami daripada mengulangi pekerjaan serupa.
Hal ini melibatkan proses selama beberapa minggu untuk berbagi peluncuran evaluasi, perincian tentang pendekatan penyempurnaan yang bersifat adversarial, dan mengumpulkan rekomendasi terstruktur tentang peningkatan metodologi dan evaluasi untuk risiko garis depan terburuk. Masukan dari para penilai menyebabkan perubahan dalam proses penyempurnaan akhir yang bersifat adversarial dan menunjukkan nilai dari konfirmasi metodologis. Kami mencatat item mana yang kami adopsi dalam makalah dan kartu sistem untuk gpt-oss, dan kami memberikan alasan untuk item yang tidak kami adopsi.
Di sini, tinjauan metodologi lebih tepat daripada evaluasi independen: evaluasi melibatkan pelaksanaan eksperimen skala besar dan terburuk, yang memerlukan infrastruktur dan keahlian teknis yang umumnya tidak tersedia di luar laboratorium AI utama. Ini berarti bahwa evaluasi independen kemungkinan besar tidak akan dapat memberikan wawasan langsung tentang skenario terburuk, dan lebih produktif untuk memfokuskan penilai eksternal pada konfirmasi klaim. Penilai eksternal meninjau metode dan bukti(terbuka di jendela baru), menyoroti kesenjangan yang relevan dengan keputusan yang telah ditangani sebagai bagian dari lingkaran masukan rekomendasi. Pendekatan ini adalah salah satu yang kami harap dapat diperluas ke jalur lain di mana akses atau kebutuhan infrastruktur membuatnya tidak praktis bagi pihak ketiga untuk menjalankan evaluasi secara langsung, atau di mana evaluasi eksternal mungkin belum ada.
Cara lain kami melibatkan pakar eksternal adalah melalui penyelidikan pakar subjek (SME), di mana para pakar mengevaluasi model secara langsung dan memberikan masukan terstruktur melalui survei ke dalam penilaian kami tentang kemampuannya. Ini berbeda dengan red teaming, yang bertujuan untuk menguji ketahanan perlindungan tertentu. Ini memungkinkan kami untuk melengkapi evaluasi Kerangka Kesiapsiagaan dengan wawasan khusus domain yang mencerminkan penilaian pakar dan konteks dunia nyata yang mungkin tidak dapat ditangkap oleh evaluasi statis saja. Misalnya, kami mengundang panel pakar subjek untuk menggunakan model yang hanya membantu 3 untuk mencoba skenario bio end-to-end mereka sendiri untuk Agen ChatGPT dan GPT‑5. Mereka menilai seberapa besar model tersebut dapat meningkatkan kemampuan seorang pakar seperti mereka dibandingkan dengan seorang pemula yang kurang berpengalaman, berdasarkan kegunaan panduan yang diberikannya dalam skenario mereka. Tujuan utama adalah untuk mengumpulkan masukan tambahan mengenai sejauh mana sistem dapat membantu seorang pemula dengan motivasi tinggi untuk mencapai tingkat eksekusi yang kompeten: Para pakar (SME) menguji klaim kami tentang “peningkatan kemampuan pemula” dalam alur kerja realistis yang mereka buat, dan memberikan masukan detail mengenai di mana model memberikan bantuan yang signifikan pada tingkat langkah-langkah spesifik versus ringkasan yang kurang bermanfaat. Latihan pengujian pakar ini dimasukkan sebagai bagian dari penilaian keseluruhan untuk penerapan model-model ini, dan dibagikan dalam kartu sistem untuk kedua peluncuran.
Dalam semangat transparansi, kami berbagi informasi lebih lanjut tentang apa yang disetujui oleh penilai pihak ketiga saat bekerja sama dengan kami, serta prinsip-prinsip yang menjadi pedoman kolaborasi kami:
- Transparansi dengan batasan kerahasiaan yang cermat: Penilai pihak ketiga menandatangani perjanjian kerahasiaan untuk mengaktifkan pembagian informasi rahasia dan non-publik sebagai dukungan bagi penilaian mereka. Di dalam Lampiran pada tulisan ini, kami menyertakan kutipan yang relevan dari kontrak dengan penilai pihak ketiga yang menguraikan hak-hak terkait publikasi dan harapan untuk peninjauan. Kami beroperasi dengan prinsip transparansi dan berusaha untuk mengaktifkan publikasi yang memajukan pemahaman tentang keselamatan dan evaluasi terkait tanpa mengorbankan informasi rahasia atau kekayaan intelektual. Sebagai bagian dari ini, kami meninjau dan menyetujui publikasi dari penilaian pihak ketiga untuk memastikan kerahasiaan dan ketepatan fakta. Selama beberapa tahun terakhir, beberapa penilai pihak ketiga telah menerbitkan karya mereka bersamaan dengan publikasi ringkasan penilaian kami sendiri dalam kartu sistem. Beberapa contoh pekerjaan yang telah diterbitkan setelah kami meninjaunya untuk kerahasiaan dan akurasi termasuk: [Laporan METR GPT‑5 (terbuka di jendela baru), Laporan Penelitian Apollo tentang OpenAI o1(terbuka di jendela baru), Penilaian GPT‑5 yang Tidak Teratur(terbuka di jendela baru)]
- Pengungkapan informasi yang bijaksana dan akses yang aman dan sensitif: Secara default, kami menyediakan informasi dan akses ke model yang dimaksudkan untuk publik atau siap produksi. Ketika evaluasi mengharuskannya, kami menyediakan akses yang lebih dalam, seperti ke model yang hanya bermanfaat atau informasi yang tidak dipublikasikan. OpenAI telah menyediakan bentuk-bentuk akses ini jika diperlukan untuk pertanyaan keselamatan yang kritis bagi penilai pihak ketiga. Yang penting, jenis akses sensitif ini memerlukan langkah-langkah keamanan yang ketat, dan kami terus lanjutan memperbarui kontrol tersebut seiring kemampuan model dan kebutuhan pengujian berkembang.
- Insentif keuangan yang seimbang: Kami percaya bahwa penting untuk memastikan bahwa ekosistem penilaian pihak ketiga didanai dengan baik dan berkelanjutan. Oleh karena itu, kami menawarkan kompensasi kepada semua penilai pihak ketiga kami, dan beberapa memilih untuk menolaknya, tergantung pada filosofi organisasi mereka. Bentuk kompensasi meliputi pembayaran langsung untuk pekerjaan dan/atau subsidi biaya penggunaan model melalui kredit API atau cara lainnya. Pembayaran tidak pernah bergantung pada hasil penilaian pihak ketiga.
Jika digabungkan, faktor-faktor ini membantu penilaian pihak ketiga untuk melindungi informasi sensitif dan mendorong transparansi dalam keselamatan AI, serta membuat jalur bagi penilai pihak ketiga untuk mendapatkan kompensasi atas waktu mereka.
Ke depannya, kami melihat perlunya terus memperkuat ekosistem organisasi yang mampu melakukan penilaian yang kredibel dan relevan bagi pengambilan keputusan terhadap sistem AI terdepan. Evaluasi pihak ketiga yang efektif memerlukan keahlian khusus, pendanaan yang stabil, dan ketelitian metodologis. Investasi berkelanjutan dalam organisasi penilai yang berkualifikasi, pengembangan ilmu pengukuran, dan keamanan akses sensitif akan menjadi hal yang esensial untuk memastikan bahwa penilaian dapat mengikuti perkembangan kemampuan model.
Penilaian pihak ketiga adalah salah satu cara kami membawa perspektif eksternal ke dalam pekerjaan keselamatan kami, dan penilaian tersebut beroperasi bersama mekanisme lain. Kami juga berkolaborasi dengan pakar eksternal melalui upaya red teaming terstruktur, proyek penyelarasan kolektif, bekerja dengan U.S. CAISI dan UK AISI, dan grup penasihat seperti Jaringan Dokter Global kami dan Dewan Pakar tentang Kesejahteraan dan AI untuk membantu memandu pekerjaan kami dalam kesehatan mental dan kesejahteraan pengguna. Upaya-upaya ini menyumbangkan berbagai bentuk keahlian dan memberikan dukungan pada fondasi yang lebih luas dan lebih andal untuk menilai dan mengatur sistem AI canggih.
Berikut ini adalah kutipan ilustratif dari perjanjian kami dengan pihak ketiga yang berkolaborasi dengan kami dalam penilaian pra-penerapan.
Penulis
Catatan kaki
- 1
Ini berbeda dari red teaming, yang bertujuan untuk menguji stres perlindungan secara terperinci dan menyediakan data untuk pengembangan evaluasi.
- 2
Di mana suatu model secara sengaja berkinerja buruk atau menyembunyikan kemampuan sebenarnya ketika mendeteksi bahwa model tersebut sedang dievaluasi atau diuji.
- 3
Model yang hanya bersifat membantu akan menjawab permintaan apa pun, bahkan jika permintaan tersebut berbahaya. Ini dibuat oleh metode pasca-pelatihan yang mencapai perilaku ini.


