19 November 2025

Nguatake ekosistem safety kita nganggo pengujian eksternal

Pendekatan kita kanggo penilaian pihak katelu tumrap AI tercanggih.

Lagi dimuat…

Ing OpenAI, kita percaya manawa penilaian independen saka pihak katelu sing dipercaya nduweni peran wigati kanggo nguatake ekosistem safety AI tercanggih. Penilaian pihak katelu yaiku evaluasi sing ditindakake marang model tercanggih kanggo ngonfirmasi utawa menehi bukti tambahan tumrap klaim babagan kapabilitas safety kritis lan mitigasi. Evaluasi iki mbantu mbuktekake klaim safety, nglindhungi saka blind spot, lan nambah transparansi babagan kapabilitas lan risiko. Kanthi ngajak para ahli eksternal nyoba model tercanggih kita, kita uga kepengin mbangun kapercayan marang jerohe evaluasi kapabilitas lan safeguard kita, lan mbantu nguatake ekosistem safety sing luwih jembar.

Wiwit diluncurake GPT‑4, OpenAI wis kerja bareng karo macem-macem mitra eksternal kanggo nyoba lan netepake model kita. Umume, kolaborasi pihak katelu kita ana ing telung wujud:

Evaluasi independen kanggo area kapabilitas lan risiko tercanggih sing utama kayata biosecurity, cybersecurity, AI self-improvement, lan scheming
Tinjauan metodologi sing netepake cara kita ngevaluasi lan napsirake risiko
Probing ahli subjek (SME), yaiku nalika para ahli ngevaluasi model kanthi langsung ing tugas SME donya nyata lan menehi masukan terstruktur menyang penilaian kita babagan kapabilitas lan safeguard sing gegandhengan¹

Blog iki nerangake carane kita nggunakake saben wujud penilaian eksternal iki, napa iki penting, carane iki mbentuk keputusan deployment, lan prinsip sing kita gunakake kanggo nyusun kolaborasi iki. Kanthi semangat transparansi, kita uga nuduhake luwih akeh babagan syarat kerahasiaan lan publikasi sing ngatur kolaborasi kita karo penguji pihak katelu.

Napa iki penting?

Penilai pihak katelu nambah lapisan evaluasi independen saliyane pakaryan internal kita, nguatake ketatane proses lan menehi pangayoman tambahan supaya ora mung mbenerake awake dhewe. Masukan saka dheweke menehi bukti tambahan saliyane penilaian kita dhewe, kanggo mbantu nuntun keputusan deployment sing tanggung jawab kanggo sistem sing kuat.

Kita uga ndeleng penilaian pihak katelu minangka bagean saka mbangun ekosistem safety sing tangguh⁠. Tim kita nindakake pengujian internal sing jembar ing macem-macem area kapabilitas lan risiko, nanging organisasi independen nggawa perspektif lan pendekatan metodologis tambahan. Kita ngupaya ndhukung klompok organisasi penilai sing mumpuni lan maneka warna supaya bisa rutin ngevaluasi model tercanggih bebarengan karo kita.

Pungkasan, kita pengin transparan babagan carane masukan iki mbantu mbentuk proses safety kita. Kita ajeg mbukak penilaian pihak katelu menyang publik—umpamane, kanthi nyakup ringkesan evaluasi sadurunge deployment ing kertu sistem, lan ndhukung organisasi penilai supaya nerbitake pakaryan sing luwih rinci sawisé tinjauan kerahasiaan lan akurasi. Transparansi iki mbangun kapercayan kanthi nuduhake carane masukan eksternal mbentuk evaluasi kapabilitas lan safeguard kita.

Hubungan sing lestari adhedhasar akses sing dipercaya, transparansi, lan nuduhake kawruh mbantu kabeh ekosistem supaya tetep luwih siap ngadhepi risiko anyar lan nyengkuyung penilaian sing luwes lan bisa ditindakake, sing dibutuhake kanggo standar sing luwih kuwat lan tata kelola sing luwih paham kanggo sistem AI tercanggih.

Evaluasi independen dening lab eksternal

Diwiwiti saka peluncuran GPT‑4⁠(mbukak ing jendhela anyar), kita wis ndhukung evaluasi independen marang checkpoint model awal sadurunge deployment. Wiwit wektu kuwi, kita wis ngembangake pakaryan kita karo macem-macem organisasi pihak katelu sing nduweni keahlian jero ing evaluasi kanggo area kapabilitas lan risiko tercanggih utama. Kita nemtokake pakaryan lab independen minangka pengujian sing mbukak, nalika tim njaba nggunakake metode dhewe kanggo ngasilake klaim utawa penilaian sing ana gandhengane karo kapabilitas tercanggih tartamtu.

Minangka conto, kanggo GPT‑5⁠, OpenAI ngoordinasi sakumpulan gedhe penilaian kapabilitas eksternal ing area risiko utama kayata otonomi jangka panjang, scheming, penipuan lan pengelakan pengawasan, kelayakan perencanaan wet lab, lan evaluasi cybersecurity ofensif.

Evaluasi independen iki nglengkapi evaluasi sing ditindakake manut Kerangka Kesiapan OpenAI, lan kalebu benchmark kayata evaluasi time horizon⁠(mbukak ing jendhela anyar) saka METR utawa evaluasi Virology Capabilities Test (VCT)⁠(mbukak ing jendhela anyar) saka SecureBio.

Kanggo ndhukung evaluasi iki, kita nyedhiyakake akses aman menyang checkpoint model awal, asil evaluasi pilihan kanggo njlentrehake perbaikan kapabilitas sing kita deleng, zero-data retention yen dibutuhake, lan model kanthi mitigasi sing luwih sithik. Contone, organisasi sing nguji ing domain cybersecurity lan biosafety nguji model kanthi lan tanpa mitigasi safety kanggo nliti kapabilitas dhasar. Sawetara organisasi liyane nampa akses langsung menyang ranté pikiran supaya bisa mriksa jejak nalar model. Langkah transparansi sing luwih dhuwur iki ngidini para penilai ngenali kasus sandbagging² utawa prilaku scheming sing bisa wae mung katon yen maca ranté pikiran. Akses diwenehake kanthi kontrol keamanan sing wis dipasang, lan kita terus nganyari kontrol kasebut miturut perkembangan kapabilitas model lan kabutuhan pengujian.

Tinjauan metodologi

Ing konteks tartamtu, penilai eksternal nduweni posisi sing apik kanggo menehi tinjauan metodologis, yaiku menehi perspektif tambahan marang kerangka lan bukti sing diandelake lab tercanggih kanggo netepake risiko. Contone, nalika peluncuran gpt-oss⁠, kita nggunakake adversarial fine-tuning kanggo ngira kapabilitas kasus paling ala kanggo model bobot mbukak, kaya sing diterangake ing Estimating worst case frontier risks of open weight LLMs⁠. Pitakon safety inti yaiku apa aktor jahat bisa fine-tune model supaya tekan kapabilitas High ing area kaya bio utawa cyber miturut Kerangka Kesiapan kita. Amarga iki mbutuhake adversarial fine-tuning sing ngentekake sumber daya gedhe, kita ngajak penilai pihak katelu kanggo mriksa lan menehi rekomendasi babagan metode lan asil internal kita tinimbang mbaleni pakaryan sing padha.

Iki mbutuhake proses pirang-pirang minggu kanggo nuduhake rollout evaluasi, rincian babagan pendekatan adversarial fine tuning, lan nglumpukake rekomendasi terstruktur kanggo ningkatake metodologi lan evaluasi tumrap risiko wates kasus paling ala. Umpan balik saka para penilai nyebabake owah-owahan ing proses adversarial fine-tuning pungkasan lan nuduhake nilai saka konfirmasi metodologis. Kita nyathet item endi wae sing kita adopsi ing makalah lan kertu sistem kanggo gpt-oss, lan kita menehi alasan kanggo item sing ora kita adopsi.

Ing kene, tinjauan metodologi luwih cocog tinimbang evaluasi independen: evaluasi kasebut kalebu nglakokake eksperimen skala gedhe kanggo kasus paling ala, sing mbutuhake infrastruktur lan keahlian teknis sing biasane ora kasedhiya ing njaba lab AI gedhe. Iki tegese evaluasi independen bisa uga ora langsung ngasilake wawasan babagan skenario paling ala, lan luwih produktif yen penilai eksternal difokusake kanggo ngonfirmasi klaim. Penilai eksternal mriksa metode lan bukti⁠(mbukak ing jendhela anyar), lan nyorot kesenjangan sing relevan kanggo keputusan, sing banjur ditangani minangka bagean saka siklus umpan balik rekomendasi. Pendekatan iki pengin kita ngembangake uga ing jalur liyane nalika kabutuhan akses utawa infrastruktur ndadekake pihak katelu ora praktis nindakake evaluasi langsung dhewe, utawa nalika evaluasi eksternal durung ana.

Probing ahli subjek (SME)

Cara liya kita melu karo para ahli eksternal yaiku liwat probing ahli subjek (SME), yaiku nalika para ahli ngevaluasi model kanthi langsung lan menehi masukan terstruktur liwat survei menyang penilaian kita babagan kapabilitase. Iki beda karo red teaming⁠, sing tujuane nguji safeguard tartamtu kanthi intensif. Iki ngidini kita nglengkapi evaluasi Kerangka Kesiapan nganggo wawasan khusus domain sing nggambarake pertimbangan ahli lan konteks donya nyata sing bisa uga ora ketangkep dening evaluasi statis wae. Contone, kita ngajak panel ahli subjek nggunakake model helpful-only³ kanggo nyoba skenario bio end-to-end gaweyan dhewe kanggo ChatGPT Agent lan GPT‑5. Dheweke menehi skor sepira gedhene model bisa nambah kemampuan ahli kaya dheweke dibandhingake pemula sing kurang pengalaman, adhedhasar migunani apa ora pandhuan sing diwenehake ing skenario kasebut. Tujuane yaiku nglumpukake masukan tambahan babagan sepira becike sistem bisa nggawa pemula sing termotivasi dadi luwih cedhak kanthi nyata marang eksekusi sing kompeten: para SME nguji klaim “novice uplift” kita ing alur kerja realistis sing digawe dhewe lan menehi umpan balik rinci babagan titik endi model menehi bantuan materi langkah demi langkah lawan ringkesan sing kurang migunani. Latihan probing ahli iki dilebokake minangka bagean saka penilaian sakabèhé kanggo deployment model kasebut, lan dituduhake ing kertu sistem kanggo loro peluncuran kasebut.

Apa sing ndadekake kolaborasi penilaian pihak katelu sukses?

Kanthi semangat transparansi, kita nuduhake luwih akeh babagan apa sing disepakati penilai pihak katelu nalika kerja bareng kita, lan prinsip sing nuntun kolaborasi kita:

Transparansi kanthi wates kerahasiaan sing ati-ati: Penilai pihak katelu nandhatangani perjanjian non-disclosure supaya informasi rahasia lan non-publik bisa dibagekake kanggo ndhukung penilaiane. Ing Lampiran⁠ kiriman iki, kita nyakup kutipan relevan saka kontrak karo penilai pihak katelu sing njlentrehake hak publikasi lan pangarepan babagan tinjauan. Kita makarya kanthi prinsip transparansi lan ngupaya mbisakake publikasi sing nambah pangerten babagan safety lan evaluasi sing gegandhengan tanpa mbebayani informasi rahasia utawa properti intelektual. Minangka bagean saka iki, kita mriksa lan nyetujoni publikasi saka penilaian pihak katelu kanggo njamin kerahasiaan lan akurasi fakta. Sajrone sawetara taun kepungkur, sawetara penilai pihak katelu wis nerbitake pakaryane bebarengan karo publikasi ringkesan penilaian kita ing kertu sistem. Sawetara conto pakaryan sing wis diterbitake sawisé kita mriksa kerahasiaan lan akurasine yaiku: [laporan METR GPT‑5 ⁠(mbukak ing jendhela anyar), laporan Apollo Research babagan OpenAI o1⁠(mbukak ing jendhela anyar), Penilaian GPT‑5 saka Irregular⁠(mbukak ing jendhela anyar)]
Pambocoran informasi sing dipikir kanthi mateng lan akses aman sing sensitif: Kanthi gawan, kita nyedhiyakake informasi lan akses menyang model sing dimaksudake supaya publik utawa siap produksi. Yen evaluasi mbutuhake, kita nyedhiyakake akses sing luwih jero, kayata menyang model helpful-only utawa informasi non-publik. OpenAI wis nyedhiyakake wujud akses iki yen perlu kanggo pitakon safety kritis kanggo penilai pihak katelu. Sing penting, jinis akses sensitif iki mbutuhake langkah keamanan sing ketat, lan kita terus nganyari kontrol kasebut miturut perkembangan kapabilitas model lan kabutuhan pengujian.
Insentif finansial sing seimbang: Kita percaya penting kanggo njamin ekosistem penilaian pihak katelu duwe dana sing cukup lan lestari. Mula saka kuwi, kita menehi kompensasi marang kabeh penilai pihak katelu, lan sawetara milih nolak gumantung filosofi organisasine babagan perkara iki. Wujud kompensasi kalebu pambayaran langsung kanggo pakaryan lan/utawa subsidi biaya panggunaan model liwat kredit API utawa cara liya. Ora ana pambayaran sing tau gumantung marang asil penilaian pihak katelu.

Yen digabung, faktor-faktor iki mbantu penilaian pihak katelu njaga informasi sensitif lan bebarengan ningkatake transparansi ing safety AI, lan nggawe jalur supaya penilai pihak katelu bisa oleh kompensasi kanggo wektu sing diwenehake.

Ndelok ing ngarep

Ndelok ing ngarep, kita weruh perlu terus nguatake ekosistem organisasi sing sanggup nindakake penilaian sistem AI tercanggih sing kredibel lan relevan kanggo keputusan. Evaluasi pihak katelu sing efektif mbutuhake keahlian khusus, pendanaan sing stabil, lan ketatane metodologi. Investasi terus-terusan ing organisasi penilai sing mumpuni, kemajuan ilmu pangukuran, lan keamanan kanggo akses sensitif bakal dadi penting kanggo njamin supaya penilaian bisa tetep ngimbangi kemajuan kapabilitas model.

Penilaian pihak katelu minangka salah siji cara kita nggawa perspektif eksternal menyang pakaryan safety kita, lan iki mlaku bebarengan karo mekanisme liyane. Kita uga kerja bareng karo para ahli eksternal liwat upaya red teaming sing terstruktur, proyek collective alignment⁠, kerja bareng karo U.S. CAISI lan UK AISI⁠, lan kelompok penasihat kayata Global Physician Network⁠ lan Expert Council on Well-Being and AI⁠ kanggo mbantu nuntun pakaryan kita babagan kesehatan mental lan kesejahteraan pangguna. Upaya-upaya iki nyumbang wujud keahlian sing beda-beda lan ndhukung dhasar sing luwih jembar lan luwih bisa dipercaya kanggo netepake lan ngatur sistem AI maju.

Lampiran

Ing ngisor iki sawetara kutipan ilustratif saka perjanjian kita karo pihak katelu sing kolaborasi karo kita ing penilaian sadurunge deployment.

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

2025

Pangarang

OpenAI

Cathetan sikil

1
Iki beda karo red teaming, sing tujuane nguji safeguard kanthi rinci lan nyedhiyakake data kanggo pangembangan evaluasi.
2
Nalika sawijining model sengaja nampilake kinerja luwih endhek utawa ndhelikake kapabilitas sejatine nalika ndeteksi yen dheweke lagi dievaluasi utawa diuji.
3
Model helpful-only njawab panjaluk apa wae, sanajan panjaluk kasebut mbebayani. Model iki digawe nganggo metode post-training sing ngasilake prilaku iki.

Terus maca

Deleng kabeh

Safety and alignment in an era of long-horizon models

Keselamatan20 Jul 2026

Why teens deserve access to safe AI

Keselamatan16 Jul 2026

GPT-Red: Mbukak Swaperbaikan kanggo Ketangguhan

Keselamatan15 Jul 2026