Nguatake ekosistem safety kita nganggo pengujian eksternal
Pendekatan kita kanggo penilaian pihak katelu tumrap AI tercanggih.
Ing OpenAI, kita percaya manawa penilaian independen saka pihak katelu sing dipercaya nduweni peran wigati kanggo nguatake ekosistem safety AI tercanggih. Penilaian pihak katelu yaiku evaluasi sing ditindakake marang model tercanggih kanggo ngonfirmasi utawa menehi bukti tambahan tumrap klaim babagan kapabilitas safety kritis lan mitigasi. Evaluasi iki mbantu mbuktekake klaim safety, nglindhungi saka blind spot, lan nambah transparansi babagan kapabilitas lan risiko. Kanthi ngajak para ahli eksternal nyoba model tercanggih kita, kita uga kepengin mbangun kapercayan marang jerohe evaluasi kapabilitas lan safeguard kita, lan mbantu nguatake ekosistem safety sing luwih jembar.
Wiwit diluncurake GPT‑4, OpenAI wis kerja bareng karo macem-macem mitra eksternal kanggo nyoba lan netepake model kita. Umume, kolaborasi pihak katelu kita ana ing telung wujud:
- Evaluasi independen kanggo area kapabilitas lan risiko tercanggih sing utama kayata biosecurity, cybersecurity, AI self-improvement, lan scheming
- Tinjauan metodologi sing netepake cara kita ngevaluasi lan napsirake risiko
- Probing ahli subjek (SME), yaiku nalika para ahli ngevaluasi model kanthi langsung ing tugas SME donya nyata lan menehi masukan terstruktur menyang penilaian kita babagan kapabilitas lan safeguard sing gegandhengan1
Blog iki nerangake carane kita nggunakake saben wujud penilaian eksternal iki, napa iki penting, carane iki mbentuk keputusan deployment, lan prinsip sing kita gunakake kanggo nyusun kolaborasi iki. Kanthi semangat transparansi, kita uga nuduhake luwih akeh babagan syarat kerahasiaan lan publikasi sing ngatur kolaborasi kita karo penguji pihak katelu.
Penilai pihak katelu nambah lapisan evaluasi independen saliyane pakaryan internal kita, nguatake ketatane proses lan menehi pangayoman tambahan supaya ora mung mbenerake awake dhewe. Masukan saka dheweke menehi bukti tambahan saliyane penilaian kita dhewe, kanggo mbantu nuntun keputusan deployment sing tanggung jawab kanggo sistem sing kuat.
Kita uga ndeleng penilaian pihak katelu minangka bagean saka mbangun ekosistem safety sing tangguh. Tim kita nindakake pengujian internal sing jembar ing macem-macem area kapabilitas lan risiko, nanging organisasi independen nggawa perspektif lan pendekatan metodologis tambahan. Kita ngupaya ndhukung klompok organisasi penilai sing mumpuni lan maneka warna supaya bisa rutin ngevaluasi model tercanggih bebarengan karo kita.
Pungkasan, kita pengin transparan babagan carane masukan iki mbantu mbentuk proses safety kita. Kita ajeg mbukak penilaian pihak katelu menyang publik—umpamane, kanthi nyakup ringkesan evaluasi sadurunge deployment ing kertu sistem, lan ndhukung organisasi penilai supaya nerbitake pakaryan sing luwih rinci sawisé tinjauan kerahasiaan lan akurasi. Transparansi iki mbangun kapercayan kanthi nuduhake carane masukan eksternal mbentuk evaluasi kapabilitas lan safeguard kita.
Hubungan sing lestari adhedhasar akses sing dipercaya, transparansi, lan nuduhake kawruh mbantu kabeh ekosistem supaya tetep luwih siap ngadhepi risiko anyar lan nyengkuyung penilaian sing luwes lan bisa ditindakake, sing dibutuhake kanggo standar sing luwih kuwat lan tata kelola sing luwih paham kanggo sistem AI tercanggih.
Diwiwiti saka peluncuran GPT‑4(mbukak ing jendhela anyar), kita wis ndhukung evaluasi independen marang checkpoint model awal sadurunge deployment. Wiwit wektu kuwi, kita wis ngembangake pakaryan kita karo macem-macem organisasi pihak katelu sing nduweni keahlian jero ing evaluasi kanggo area kapabilitas lan risiko tercanggih utama. Kita nemtokake pakaryan lab independen minangka pengujian sing mbukak, nalika tim njaba nggunakake metode dhewe kanggo ngasilake klaim utawa penilaian sing ana gandhengane karo kapabilitas tercanggih tartamtu.
Minangka conto, kanggo GPT‑5, OpenAI ngoordinasi sakumpulan gedhe penilaian kapabilitas eksternal ing area risiko utama kayata otonomi jangka panjang, scheming, penipuan lan pengelakan pengawasan, kelayakan perencanaan wet lab, lan evaluasi cybersecurity ofensif.
Evaluasi independen iki nglengkapi evaluasi sing ditindakake manut Kerangka Kesiapan OpenAI, lan kalebu benchmark kayata evaluasi time horizon(mbukak ing jendhela anyar) saka METR utawa evaluasi Virology Capabilities Test (VCT)(mbukak ing jendhela anyar) saka SecureBio.
Kanggo ndhukung evaluasi iki, kita nyedhiyakake akses aman menyang checkpoint model awal, asil evaluasi pilihan kanggo njlentrehake perbaikan kapabilitas sing kita deleng, zero-data retention yen dibutuhake, lan model kanthi mitigasi sing luwih sithik. Contone, organisasi sing nguji ing domain cybersecurity lan biosafety nguji model kanthi lan tanpa mitigasi safety kanggo nliti kapabilitas dhasar. Sawetara organisasi liyane nampa akses langsung menyang ranté pikiran supaya bisa mriksa jejak nalar model. Langkah transparansi sing luwih dhuwur iki ngidini para penilai ngenali kasus sandbagging2 utawa prilaku scheming sing bisa wae mung katon yen maca ranté pikiran. Akses diwenehake kanthi kontrol keamanan sing wis dipasang, lan kita terus nganyari kontrol kasebut miturut perkembangan kapabilitas model lan kabutuhan pengujian.
Ing konteks tartamtu, penilai eksternal nduweni posisi sing apik kanggo menehi tinjauan metodologis, yaiku menehi perspektif tambahan marang kerangka lan bukti sing diandelake lab tercanggih kanggo netepake risiko. Contone, nalika peluncuran gpt-oss, kita nggunakake adversarial fine-tuning kanggo ngira kapabilitas kasus paling ala kanggo model bobot mbukak, kaya sing diterangake ing Estimating worst case frontier risks of open weight LLMs. Pitakon safety inti yaiku apa aktor jahat bisa fine-tune model supaya tekan kapabilitas High ing area kaya bio utawa cyber miturut Kerangka Kesiapan kita. Amarga iki mbutuhake adversarial fine-tuning sing ngentekake sumber daya gedhe, kita ngajak penilai pihak katelu kanggo mriksa lan menehi rekomendasi babagan metode lan asil internal kita tinimbang mbaleni pakaryan sing padha.
Iki mbutuhake proses pirang-pirang minggu kanggo nuduhake rollout evaluasi, rincian babagan pendekatan adversarial fine tuning, lan nglumpukake rekomendasi terstruktur kanggo ningkatake metodologi lan evaluasi tumrap risiko wates kasus paling ala. Umpan balik saka para penilai nyebabake owah-owahan ing proses adversarial fine-tuning pungkasan lan nuduhake nilai saka konfirmasi metodologis. Kita nyathet item endi wae sing kita adopsi ing makalah lan kertu sistem kanggo gpt-oss, lan kita menehi alasan kanggo item sing ora kita adopsi.
Ing kene, tinjauan metodologi luwih cocog tinimbang evaluasi independen: evaluasi kasebut kalebu nglakokake eksperimen skala gedhe kanggo kasus paling ala, sing mbutuhake infrastruktur lan keahlian teknis sing biasane ora kasedhiya ing njaba lab AI gedhe. Iki tegese evaluasi independen bisa uga ora langsung ngasilake wawasan babagan skenario paling ala, lan luwih produktif yen penilai eksternal difokusake kanggo ngonfirmasi klaim. Penilai eksternal mriksa metode lan bukti(mbukak ing jendhela anyar), lan nyorot kesenjangan sing relevan kanggo keputusan, sing banjur ditangani minangka bagean saka siklus umpan balik rekomendasi. Pendekatan iki pengin kita ngembangake uga ing jalur liyane nalika kabutuhan akses utawa infrastruktur ndadekake pihak katelu ora praktis nindakake evaluasi langsung dhewe, utawa nalika evaluasi eksternal durung ana.
Cara liya kita melu karo para ahli eksternal yaiku liwat probing ahli subjek (SME), yaiku nalika para ahli ngevaluasi model kanthi langsung lan menehi masukan terstruktur liwat survei menyang penilaian kita babagan kapabilitase. Iki beda karo red teaming, sing tujuane nguji safeguard tartamtu kanthi intensif. Iki ngidini kita nglengkapi evaluasi Kerangka Kesiapan nganggo wawasan khusus domain sing nggambarake pertimbangan ahli lan konteks donya nyata sing bisa uga ora ketangkep dening evaluasi statis wae. Contone, kita ngajak panel ahli subjek nggunakake model helpful-only3 kanggo nyoba skenario bio end-to-end gaweyan dhewe kanggo ChatGPT Agent lan GPT‑5. Dheweke menehi skor sepira gedhene model bisa nambah kemampuan ahli kaya dheweke dibandhingake pemula sing kurang pengalaman, adhedhasar migunani apa ora pandhuan sing diwenehake ing skenario kasebut. Tujuane yaiku nglumpukake masukan tambahan babagan sepira becike sistem bisa nggawa pemula sing termotivasi dadi luwih cedhak kanthi nyata marang eksekusi sing kompeten: para SME nguji klaim “novice uplift” kita ing alur kerja realistis sing digawe dhewe lan menehi umpan balik rinci babagan titik endi model menehi bantuan materi langkah demi langkah lawan ringkesan sing kurang migunani. Latihan probing ahli iki dilebokake minangka bagean saka penilaian sakabèhé kanggo deployment model kasebut, lan dituduhake ing kertu sistem kanggo loro peluncuran kasebut.
Kanthi semangat transparansi, kita nuduhake luwih akeh babagan apa sing disepakati penilai pihak katelu nalika kerja bareng kita, lan prinsip sing nuntun kolaborasi kita:
- Transparansi kanthi wates kerahasiaan sing ati-ati: Penilai pihak katelu nandhatangani perjanjian non-disclosure supaya informasi rahasia lan non-publik bisa dibagekake kanggo ndhukung penilaiane. Ing Lampiran kiriman iki, kita nyakup kutipan relevan saka kontrak karo penilai pihak katelu sing njlentrehake hak publikasi lan pangarepan babagan tinjauan. Kita makarya kanthi prinsip transparansi lan ngupaya mbisakake publikasi sing nambah pangerten babagan safety lan evaluasi sing gegandhengan tanpa mbebayani informasi rahasia utawa properti intelektual. Minangka bagean saka iki, kita mriksa lan nyetujoni publikasi saka penilaian pihak katelu kanggo njamin kerahasiaan lan akurasi fakta. Sajrone sawetara taun kepungkur, sawetara penilai pihak katelu wis nerbitake pakaryane bebarengan karo publikasi ringkesan penilaian kita ing kertu sistem. Sawetara conto pakaryan sing wis diterbitake sawisé kita mriksa kerahasiaan lan akurasine yaiku: [laporan METR GPT‑5 (mbukak ing jendhela anyar), laporan Apollo Research babagan OpenAI o1(mbukak ing jendhela anyar), Penilaian GPT‑5 saka Irregular(mbukak ing jendhela anyar)]
- Pambocoran informasi sing dipikir kanthi mateng lan akses aman sing sensitif: Kanthi gawan, kita nyedhiyakake informasi lan akses menyang model sing dimaksudake supaya publik utawa siap produksi. Yen evaluasi mbutuhake, kita nyedhiyakake akses sing luwih jero, kayata menyang model helpful-only utawa informasi non-publik. OpenAI wis nyedhiyakake wujud akses iki yen perlu kanggo pitakon safety kritis kanggo penilai pihak katelu. Sing penting, jinis akses sensitif iki mbutuhake langkah keamanan sing ketat, lan kita terus nganyari kontrol kasebut miturut perkembangan kapabilitas model lan kabutuhan pengujian.
- Insentif finansial sing seimbang: Kita percaya penting kanggo njamin ekosistem penilaian pihak katelu duwe dana sing cukup lan lestari. Mula saka kuwi, kita menehi kompensasi marang kabeh penilai pihak katelu, lan sawetara milih nolak gumantung filosofi organisasine babagan perkara iki. Wujud kompensasi kalebu pambayaran langsung kanggo pakaryan lan/utawa subsidi biaya panggunaan model liwat kredit API utawa cara liya. Ora ana pambayaran sing tau gumantung marang asil penilaian pihak katelu.
Yen digabung, faktor-faktor iki mbantu penilaian pihak katelu njaga informasi sensitif lan bebarengan ningkatake transparansi ing safety AI, lan nggawe jalur supaya penilai pihak katelu bisa oleh kompensasi kanggo wektu sing diwenehake.
Ndelok ing ngarep, kita weruh perlu terus nguatake ekosistem organisasi sing sanggup nindakake penilaian sistem AI tercanggih sing kredibel lan relevan kanggo keputusan. Evaluasi pihak katelu sing efektif mbutuhake keahlian khusus, pendanaan sing stabil, lan ketatane metodologi. Investasi terus-terusan ing organisasi penilai sing mumpuni, kemajuan ilmu pangukuran, lan keamanan kanggo akses sensitif bakal dadi penting kanggo njamin supaya penilaian bisa tetep ngimbangi kemajuan kapabilitas model.
Penilaian pihak katelu minangka salah siji cara kita nggawa perspektif eksternal menyang pakaryan safety kita, lan iki mlaku bebarengan karo mekanisme liyane. Kita uga kerja bareng karo para ahli eksternal liwat upaya red teaming sing terstruktur, proyek collective alignment, kerja bareng karo U.S. CAISI lan UK AISI, lan kelompok penasihat kayata Global Physician Network lan Expert Council on Well-Being and AI kanggo mbantu nuntun pakaryan kita babagan kesehatan mental lan kesejahteraan pangguna. Upaya-upaya iki nyumbang wujud keahlian sing beda-beda lan ndhukung dhasar sing luwih jembar lan luwih bisa dipercaya kanggo netepake lan ngatur sistem AI maju.
Ing ngisor iki sawetara kutipan ilustratif saka perjanjian kita karo pihak katelu sing kolaborasi karo kita ing penilaian sadurunge deployment.
Pangarang
Cathetan sikil
- 1
Iki beda karo red teaming, sing tujuane nguji safeguard kanthi rinci lan nyedhiyakake data kanggo pangembangan evaluasi.
- 2
Nalika sawijining model sengaja nampilake kinerja luwih endhek utawa ndhelikake kapabilitas sejatine nalika ndeteksi yen dheweke lagi dievaluasi utawa diuji.
- 3
Model helpful-only njawab panjaluk apa wae, sanajan panjaluk kasebut mbebayani. Model iki digawe nganggo metode post-training sing ngasilake prilaku iki.


