Langsung ke konten utama
OpenAI

19 November 2025

Keselamatan

Memperkuat ekosistem keselamatan kami dengan pengujian eksternal

Pendekatan kami terhadap penilaian pihak ketiga untuk AI terdepan.

Memuat…

Di OpenAI, kami percaya bahwa penilaian pihak ketiga yang independen dan tepercaya memainkan peran penting dalam memperkuat ekosistem keselamatan AI yang terdepan. Penilaian pihak ketiga adalah evaluasi yang dilakukan terhadap model terdepan kami untuk mengonfirmasi atau memberikan bukti tambahan terhadap klaim tentang kemampuan keselamatan dan mitigasi yang kritis. Evaluasi ini membantu memvalidasi klaim keselamatan, melindungi dari titik buta, dan meningkatkan transparansi mengenai kemampuan dan risiko. Dengan mengundang pakar eksternal untuk menguji model terdepan kami, kami juga bertujuan untuk menumbuhkan kepercayaan pada kedalaman evaluasi dan perlindungan kemampuan kami, serta membantu meningkatkan ekosistem keselamatan yang lebih luas.

Sejak peluncuran GPT‑4, OpenAI telah berkolaborasi dengan berbagai mitra eksternal untuk menguji dan menilai model kami. Secara umum, kolaborasi kami dengan pihak ketiga terbagi dalam tiga bentuk:

  • Evaluasi independen terhadap kemampuan dan area risiko perbatasan utama seperti biosekuriti, keamanan siber, peningkatan diri AI, dan perencanaan
  • Tinjauan metodologi yang menilai bagaimana kami mengevaluasi dan menafsirkan risiko
  • Penilaian oleh pakar subjek (SME), di mana para pakar mengevaluasi model secara langsung pada tugas-tugas SME di dunia nyata dan memberikan masukan terstruktur dalam penilaian kami terhadap kemampuannya dan langkah-langkah pengamanan yang terkait1

Blog ini menguraikan bagaimana kami menggunakan setiap bentuk penilaian eksternal ini, mengapa hal tersebut penting, bagaimana hal tersebut membentuk keputusan penerapan, dan prinsip-prinsip yang kami gunakan untuk menyusun kolaborasi ini. Dalam semangat transparansi, kami juga membagikan lebih banyak informasi tentang persyaratan kerahasiaan dan publikasi yang mengatur kolaborasi kami dengan penguji pihak ketiga. 

Mengapa hal ini penting? 

Penilai pihak ketiga menambahkan lapisan evaluasi independen di samping pekerjaan internal kami, memperkuat ketelitian dan memberikan perlindungan tambahan terhadap konfirmasi diri. Masukan mereka memberikan bukti tambahan di samping penilaian kami sendiri, membantu menginformasikan keputusan penerapan yang bertanggung jawab untuk sistem yang kuat.

Kami juga melihat penilaian pihak ketiga sebagai bagian dari membangun ekosistem keselamatan yang tangguh. Tim kami melakukan pengujian internal yang ekstensif di seluruh bidang kemampuan dan risiko, tetapi organisasi independen memberikan perspektif tambahan dan pendekatan metodologis. Kami bekerja untuk memberikan dukungan kepada grup organisasi penilai berkualifikasi yang beragam yang dapat secara teratur mengevaluasi model-model terdepan bersama kami.

Pada akhirnya, kami berupaya untuk transparan mengenai bagaimana masukan ini membantu membentuk proses keselamatan kami. Kami secara rutin mempublikasikan hasil penilaian pihak ketiga—misalnya, dengan menyertakan ringkasan evaluasi pra-penerapan dalam kartu sistem, dan mendukung organisasi penilai dalam mempublikasikan hasil kerja yang lebih terperinci setelah melalui tinjauan kerahasiaan dan akurasi. Transparansi ini membangun kepercayaan dengan menunjukkan bagaimana masukan eksternal membentuk evaluasi dan perlindungan kemampuan kami. 

Hubungan berkelanjutan yang dibangun di atas akses tepercaya, transparansi, dan berbagi pengetahuan membantu seluruh ekosistem tetap terdepan dalam menghadapi risiko yang muncul dan mendorong penilaian yang adaptif dan dapat ditindaklanjuti yang diperlukan untuk standar yang lebih kuat dan tata kelola yang lebih menyeluruh bagi sistem AI perbatasan.

Evaluasi independen oleh laboratorium eksternal

Dimulai dengan peluncuran GPT‑4(terbuka di jendela baru), kami telah mendukung evaluasi independen pada pos pemeriksaan model awal sebelum penerapan. Sejak saat itu, kami telah memperluas kerja sama kami dengan berbagai organisasi pihak ketiga yang memiliki keahlian mendalam dalam evaluasi untuk kemampuan utama di garis depan dan area risiko. Kami mendefinisikan pekerjaan laboratorium independen sebagai pengujian terbuka di mana tim luar menerapkan metode mereka sendiri untuk menghasilkan klaim atau penilaian terkait kemampuan perbatasan tertentu. 

Sebagai contoh, untuk GPT‑5, OpenAI mengoordinasikan serangkaian penilaian kemampuan eksternal yang luas di berbagai area risiko utama seperti otonomi jangka panjang, pembuatan skema, penipuan dan subversi pengawasan, kelayakan perencanaan laboratorium basah, dan evaluasi keamanan siber ofensif.  

Evaluasi independen ini melengkapi evaluasi yang dilakukan sesuai dengan Kerangka Kesiapsiagaan OpenAI, dan mencakup tolok ukur seperti evaluasi cakrawala waktu(terbuka di jendela baru) METR atau evaluasi Virology Capabilities Troubleshooting (VCT)(terbuka di jendela baru) SecureBio. 

Untuk dukungan evaluasi ini, kami menyediakan akses aman ke pos pemeriksaan model awal, memilih hasil evaluasi untuk mengkonkretkan peningkatan kemampuan yang kami amati, retensi data nol jika diperlukan, dan model dengan lebih sedikit mitigasi. Misalnya, organisasi yang melakukan pengujian dalam domain keamanan siber dan keamanan biologis menguji model baik dengan maupun tanpa mitigasi keselamatan untuk menyelidiki kemampuan yang mendasarinya. Beberapa organisasi lain menerima akses langsung ke Rantai Pemikiran untuk mengaktifkan mereka memeriksa jejak penalaran model. Langkah transparansi yang meningkat ini memungkinkan para penilai untuk mengidentifikasi kasus sandbagging2 atau perilaku licik yang mungkin hanya dapat dikenali melalui membaca rantai pemikiran. Akses diberikan dengan kontrol keamanan yang sudah ada, dan kami lanjutkan memperbarui kontrol tersebut seiring dengan berkembangnya kemampuan model dan kebutuhan pengujian.

Tinjauan metodologi

Dalam konteks tertentu, penilai eksternal berada dalam posisi yang tepat untuk melakukan tinjauan metodologis, memberikan perspektif tambahan terhadap kerangka kerja dan bukti yang digunakan oleh laboratorium terdepan dalam menilai risiko. Misalnya, selama peluncuran gpt-oss, kami menggunakan penyetelan lanjutan adversarial untuk memperkirakan kemampuan terburuk untuk model bobot terbuka, yang dijelaskan dalam Memperkirakan risiko terburuk dari LLM bobot terbuka. Pertanyaan keamanan inti adalah apakah aktor jahat dapat menyempurnakan model untuk mencapai kapabilitas Tinggi di bidang-bidang seperti bio atau siber di bawah Kerangka Kesiapsiagaan kami. Karena ini memerlukan fine-tuning yang intensif sumber daya, kami mengundang penilai pihak ketiga untuk meninjau dan memberikan rekomendasi atas metode dan hasil internal kami daripada mengulangi pekerjaan serupa.

Hal ini melibatkan proses selama beberapa minggu untuk berbagi peluncuran evaluasi, perincian tentang pendekatan penyempurnaan yang bersifat adversarial, dan mengumpulkan rekomendasi terstruktur tentang peningkatan metodologi dan evaluasi untuk risiko garis depan terburuk. Masukan dari para penilai menyebabkan perubahan dalam proses penyempurnaan akhir yang bersifat adversarial dan menunjukkan nilai dari konfirmasi metodologis. Kami mencatat item mana yang kami adopsi dalam makalah dan kartu sistem untuk gpt-oss, dan kami memberikan alasan untuk item yang tidak kami adopsi.

Di sini, tinjauan metodologi lebih tepat daripada evaluasi independen: evaluasi melibatkan pelaksanaan eksperimen skala besar dan terburuk, yang memerlukan infrastruktur dan keahlian teknis yang umumnya tidak tersedia di luar laboratorium AI utama. Ini berarti bahwa evaluasi independen kemungkinan besar tidak akan dapat memberikan wawasan langsung tentang skenario terburuk, dan lebih produktif untuk memfokuskan penilai eksternal pada konfirmasi klaim. Penilai eksternal meninjau metode dan bukti(terbuka di jendela baru), menyoroti kesenjangan yang relevan dengan keputusan yang telah ditangani sebagai bagian dari lingkaran masukan rekomendasi. Pendekatan ini adalah salah satu yang kami harap dapat diperluas ke jalur lain di mana akses atau kebutuhan infrastruktur membuatnya tidak praktis bagi pihak ketiga untuk menjalankan evaluasi secara langsung, atau di mana evaluasi eksternal mungkin belum ada. 

Penyelidikan pakar subjek (SME)

Cara lain kami melibatkan pakar eksternal adalah melalui penyelidikan pakar subjek (SME), di mana para pakar mengevaluasi model secara langsung dan memberikan masukan terstruktur melalui survei ke dalam penilaian kami tentang kemampuannya. Ini berbeda dengan red teaming, yang bertujuan untuk menguji ketahanan perlindungan tertentu. Ini memungkinkan kami untuk melengkapi evaluasi Kerangka Kesiapsiagaan dengan wawasan khusus domain yang mencerminkan penilaian pakar dan konteks dunia nyata yang mungkin tidak dapat ditangkap oleh evaluasi statis saja. Misalnya, kami mengundang panel pakar subjek untuk menggunakan model yang hanya membantu 3 untuk mencoba skenario bio end-to-end mereka sendiri untuk Agen ChatGPT dan GPT‑5. Mereka menilai seberapa besar model tersebut dapat meningkatkan kemampuan seorang pakar seperti mereka dibandingkan dengan seorang pemula yang kurang berpengalaman, berdasarkan kegunaan panduan yang diberikannya dalam skenario mereka.  Tujuan utama adalah untuk mengumpulkan masukan tambahan mengenai sejauh mana sistem dapat membantu seorang pemula dengan motivasi tinggi untuk mencapai tingkat eksekusi yang kompeten: Para pakar (SME) menguji klaim kami tentang “peningkatan kemampuan pemula” dalam alur kerja realistis yang mereka buat, dan memberikan masukan detail mengenai di mana model memberikan bantuan yang signifikan pada tingkat langkah-langkah spesifik versus ringkasan yang kurang bermanfaat. Latihan pengujian pakar ini dimasukkan sebagai bagian dari penilaian keseluruhan untuk penerapan model-model ini, dan dibagikan dalam kartu sistem untuk kedua peluncuran. 

Apa yang membuat kolaborasi penilaian pihak ketiga menjadi sukses?

Dalam semangat transparansi, kami berbagi informasi lebih lanjut tentang apa yang disetujui oleh penilai pihak ketiga saat bekerja sama dengan kami, serta prinsip-prinsip yang menjadi pedoman kolaborasi kami:

  • Transparansi dengan batasan kerahasiaan yang cermat: Penilai pihak ketiga menandatangani perjanjian kerahasiaan untuk mengaktifkan pembagian informasi rahasia dan non-publik sebagai dukungan bagi penilaian mereka. Di dalam Lampiran pada tulisan ini, kami menyertakan kutipan yang relevan dari kontrak dengan penilai pihak ketiga yang menguraikan hak-hak terkait publikasi dan harapan untuk peninjauan. Kami beroperasi dengan prinsip transparansi dan berusaha untuk mengaktifkan publikasi yang memajukan pemahaman tentang keselamatan dan evaluasi terkait tanpa mengorbankan informasi rahasia atau kekayaan intelektual. Sebagai bagian dari ini, kami meninjau dan menyetujui publikasi dari penilaian pihak ketiga untuk memastikan kerahasiaan dan ketepatan fakta. Selama beberapa tahun terakhir, beberapa penilai pihak ketiga telah menerbitkan karya mereka bersamaan dengan publikasi ringkasan penilaian kami sendiri dalam kartu sistem. Beberapa contoh pekerjaan yang telah diterbitkan setelah kami meninjaunya untuk kerahasiaan dan akurasi termasuk: [Laporan METR GPT‑5 (terbuka di jendela baru), Laporan Penelitian Apollo tentang OpenAI o1(terbuka di jendela baru), Penilaian GPT‑5 yang Tidak Teratur(terbuka di jendela baru)
  • Pengungkapan informasi yang bijaksana dan akses yang aman dan sensitif: Secara default, kami menyediakan informasi dan akses ke model yang dimaksudkan untuk publik atau siap produksi. Ketika evaluasi mengharuskannya, kami menyediakan akses yang lebih dalam, seperti ke model yang hanya bermanfaat atau informasi yang tidak dipublikasikan. OpenAI telah menyediakan bentuk-bentuk akses ini jika diperlukan untuk pertanyaan keselamatan yang kritis bagi penilai pihak ketiga. Yang penting, jenis akses sensitif ini memerlukan langkah-langkah keamanan yang ketat, dan kami terus lanjutan memperbarui kontrol tersebut seiring kemampuan model dan kebutuhan pengujian berkembang.
  • Insentif keuangan yang seimbang: Kami percaya bahwa penting untuk memastikan bahwa ekosistem penilaian pihak ketiga didanai dengan baik dan berkelanjutan. Oleh karena itu, kami menawarkan kompensasi kepada semua penilai pihak ketiga kami, dan beberapa memilih untuk menolaknya, tergantung pada filosofi organisasi mereka. Bentuk kompensasi meliputi pembayaran langsung untuk pekerjaan dan/atau subsidi biaya penggunaan model melalui kredit API atau cara lainnya. Pembayaran tidak pernah bergantung pada hasil penilaian pihak ketiga.

Jika digabungkan, faktor-faktor ini membantu penilaian pihak ketiga untuk melindungi informasi sensitif dan mendorong transparansi dalam keselamatan AI, serta membuat jalur bagi penilai pihak ketiga untuk mendapatkan kompensasi atas waktu mereka. 

Melihat ke depan

Ke depannya, kami melihat perlunya terus memperkuat ekosistem organisasi yang mampu melakukan penilaian yang kredibel dan relevan bagi pengambilan keputusan terhadap sistem AI terdepan. Evaluasi pihak ketiga yang efektif memerlukan keahlian khusus, pendanaan yang stabil, dan ketelitian metodologis. Investasi berkelanjutan dalam organisasi penilai yang berkualifikasi, pengembangan ilmu pengukuran, dan keamanan akses sensitif akan menjadi hal yang esensial untuk memastikan bahwa penilaian dapat mengikuti perkembangan kemampuan model. 

Penilaian pihak ketiga adalah salah satu cara kami membawa perspektif eksternal ke dalam pekerjaan keselamatan kami, dan penilaian tersebut beroperasi bersama mekanisme lain. Kami juga berkolaborasi dengan pakar eksternal melalui upaya red teaming terstruktur, proyek penyelarasan kolektif, bekerja dengan U.S. CAISI dan UK AISI, dan grup penasihat seperti Jaringan Dokter Global kami dan Dewan Pakar tentang Kesejahteraan dan AI untuk membantu memandu pekerjaan kami dalam kesehatan mental dan kesejahteraan pengguna. Upaya-upaya ini menyumbangkan berbagai bentuk keahlian dan memberikan dukungan pada fondasi yang lebih luas dan lebih andal untuk menilai dan mengatur sistem AI canggih.

Lampiran

Berikut ini adalah kutipan ilustratif dari perjanjian kami dengan pihak ketiga yang berkolaborasi dengan kami dalam penilaian pra-penerapan. 

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

Penulis

OpenAI

Catatan kaki

  1. 1

    Ini berbeda dari red teaming, yang bertujuan untuk menguji stres perlindungan secara terperinci dan menyediakan data untuk pengembangan evaluasi.

  2. 2

    Di mana suatu model secara sengaja berkinerja buruk atau menyembunyikan kemampuan sebenarnya ketika mendeteksi bahwa model tersebut sedang dievaluasi atau diuji.

  3. 3

    Model yang hanya bersifat membantu akan menjawab permintaan apa pun, bahkan jika permintaan tersebut berbahaya. Ini dibuat oleh metode pasca-pelatihan yang mencapai perilaku ini.