29 Mei 2026

Pandhuan bareng kanggo evaluasi pihak katelu sing bisa dipercaya

Apa sing penting kanggo evaluasi mandiri sing efektif babagan safeguards lan kapabilitas kanggo model tercanggih.

Lagi dimuat…

Evaluasi pihak katelu sing mandiri lan dipercaya nduweni peran kritis⁠ kanggo nguwatake ekosistem safety. Evaluasi iki ditindakake ing model tercanggih kanggo menehi bukti tambahan kanggo klaim babagan kapabilitas kritis lan mitigasi safety. Ing kiriman iki, kita nuduhake piwulang sing wis kita sinaoni nganti saiki, lan nyaranake pendekatan kanggo ngrancang evaluasi sing bisa kanthi sah netepake model tercanggih sing muga-muga bisa mbantu mbentuk standar sing lagi tuwuh ing ranah iki.

Sadurunge, akeh evaluasi nganggep model kaya chatbot: evaluasi menehi prompt marang model kaya-kaya pangguna lagi takon, model mangsuli, lan evaluator netepake output kasebut. Saiki model tercanggih bisa nindakake luwih akeh: bisa nggunakake piranti, nglacak informasi ing pirang-pirang langkah, lan tumindak ing alur kerja sing luwih gedhe. Iki tegese kinerja ora mung gumantung marang model, nanging uga marang lingkungan panggonan tugas kasebut kelakon, lan marang setelan sing nggampangake tumindake. Setelan ing sakubenge iki, sing kita sebut “harness,” bisa ngganti aspek penting saka kinerja sistem, kalebu cara nggunakake piranti, nglacak informasi, utawa pulih saka kesalahan.

Diagram sing mbandhingake alur kerja prompt-tanggapan karo alur kerja tugas agentic, nuduhake kepiye loop kontrol, piranti, konteks, anggaran, lan safeguards ndhukung eksekusi tugas otonom.

Iki ngganti cara evaluasi kudu ditindakake, lan apa sing kudu digatekake pamaca ing laporan evaluasi. Miturut panemu kita, laporan sing paling migunani kanthi cetha njlentrehake rong perkara saliyane asil dhewe: kapisan, nemtokake klaim apa sing arep diuji dening setelan evaluasi, lan kapindho, nuduhake bukti sing kasedhiya manawa asil evaluasi kasebut sah.

Klaim sing diuji ing evaluasi biasane mlebu ing salah siji saka telung kategori¹:

Elisitasi kapabilitas: Apa sawijining model kanthi masuk akal bisa ngasilake kapabilitas sing lagi dievaluasi?
Kinerja safeguard: Sepira kuwat safeguards sing diuji ngadhepi prilaku utawa serangan sing lagi dievaluasi?
Perbandingan: Kepiye kinerja model sing beda-beda ing kondisi sing setara?

Laporan evaluasi uga kudu nerangake kepiye evaluator mriksa efek sing bisa mengaruhi validitas sawijining asil. Iki kalebu:

Reward hacking: Nggunakake trabasan ing tugas utawa penilai, supaya sistem entuk kredit tanpa nuduhake prilaku sing arep diukur evaluasi.
Penolakan: Nolak kanthi cara sing nyamarke prilaku sing lagi diuji.
Kontaminasi: Kinerja sing kakehan apik amarga tugas evaluasi, jawaban, utawa varian sing cedhak wis katon ing data latihan utawa bisa ditemokake sajrone evaluasi, kayata liwat browsing.
Masalah rusak: Kinerja sing kurang amarga tugas ora sah. Alesane bisa kalebu skoring sing ora adil (umpamane, jawaban bener mbutuhake rincian implementasi sing ora diandharake) lan lingkungan sing ora bisa dirampungake (umpamane, file kritis ilang utawa piranti ora andal).
Sandbagging: Sengaja nampilake kinerja luwih endhek nalika nuduhake kesadaran manawa lagi dievaluasi.

Milih harness sing pas kanggo evaluasi iku wigati kanggo asil sing optimal

Kita wis ngamati manawa peran harness iku mligi penting kanggo sistem sing tumindak ing trajektori sing luwih dawa. Nalika model bisa nggunakake piranti, njaga status, lan pulih saka kesalahan ing pirang-pirang langkah, harness bisa ngganti tingkat kinerja sing diamati, lan malah nemtokake apa kapabilitas sing lagi dinilai katon ing evaluasi utawa ora. Contone, harness sing njaga status lan nyoba maneh tumindak sing gagal bisa ngidini model ngrampungake tugas multi-langkah sing ora bakal tau dirampungake model sing padha ing harness sing luwih prasaja.

Ing tabel ing ngisor iki, kita misahake telung jinis klaim sing bisa uga arep digawe evaluator lan harness sing miturut kita dibutuhake saben jinis klaim.

Klaim sing arep didhukung evaluasi	Pilihan harness sing cocog	Bukti sing kudu dilapurake
Kapabilitas ing sangisore elisitasi kuwat: Sistem A bisa ngrampungake tugas jinis X nalika setelan dirancang kanggo ngudhari kinerja paling kuat lan kredibel.	Gunakake setelan elisitasi paling kuat lan kredibel kanggo sistem kasebut, kalebu harness, piranti, scaffolding, lan anggaran sing lumrah bakal digunakake pangguna sing mumpuni.	Setelan harness lan piranti, pandhuan elisitasi, anggaran/upaya sing diidini, token/biaya/wektu, lan kenapa setelan kasebut dadi proksi sing kredibel kanggo kapabilitas sing diklaim. Yen mbandhingake sistem ing setelan optimal sing beda-beda, wenehana label minangka perbandingan antarsistem utawa elisitasi kuwat.
Perbandingan terkontrol: Sistem A ngluwihi kinerja Sistem B ing setelan evaluasi sing padha.	Jaga tugas, skoring, lan anggaran tetep. Gunakake salah siji setelan harness/piranti sing padha utawa sakumpulan harness terstandar sing wis ditemtokake saka awal kanggo menehi elisitasi maksimal sing lumrah kanggo sistem sing dibandhingake.	Kumpulan tugas sing padha, piranti, cara skoring, harness, anggaran, efisiensi token/biaya, lan watesan sing wis dingerteni. Kanggo evaluasi agen coding, harness open-source kayata Codex CLI bisa nyedhiyakake loop agen lan antarmuka piranti sing tetep ing antarane sistem. Pendekatan ideal kanggo elisitasi maksimal yaiku ngoptimalake harness bespoke kanggo saben tugas lan sistem, nanging saiki iki durung praktis ditindakake.
Ketahanan safeguard ing sangisore serangan sing dielisitasi: safeguards Sistem A cukup kanggo prilaku model utawa serangan sing dielisitasi sing relevan.	Gunakake setelan uji safeguard sing dirancang kanggo ngudhari serangan paling kuat lan kredibel miturut model lawan sing relevan.	Kepiye evaluator nggolongake prilaku model sing relevan, konfigurasi safeguard sing diuji, strategi elisitasi, harness sing digunakake kanggo nindakake, lan anggaran utawa upaya sing diidini.

Klaim kapabilitas mung kuwat kaya elisitasi sing ndasari: evaluator kudu milih harness sing paling cocog karo tugas lan kapabilitas sing arep diukur evaluasi. Harness terstandar bisa pas kanggo mbandhingake sistem ing kondisi sing padha, nanging bisa ngremehake kapabilitas yen ora nyakup fitur harness tartamtu sing mbantu model nindakake tugas. Contone, kinerja GPT‑5.5 ing cyber range OpenAI nuduhake kepiye pilihan harness bisa kanthi nyata ngganti kapabilitas sing diukur ing tugas sing mbutuhake panggunaan piranti dawa lan multi-langkah: model nindakake luwih apik nalika harness nggunakake compaction⁠ kanggo njaga konteks sing relevan karo tugas nalika interaksi saya dawa. Iki nuduhake manawa kanggo model tartamtu, harness sing ora nganggo compaction bakal kurang ngudhari kinerja.

Tingkat kasil sing luwih dhuwur luwih apik

Evaluasi liyane sing wis diterbitake² uga nuduhake manawa pilihan harness lan anggaran ngganti asil evaluasi. Nambah compute nalika wektu tes bisa kanthi signifikan ngganti kapabilitas apa sing dielisitasi evaluasi, mligine ing domain sing kasile gampang diverifikasi, kayata akeh tugas cyber. Ing evaluasi cyber range UK AISI⁠(mbukak ing jendhela anyar), nambah anggaran saka 10M dadi 100M token ningkatake kinerja nganti 59%, lan kinerja isih terus mundhak ing anggaran paling dhuwur sing diuji. Njlentrehake iki ndadekake evaluasi luwih gampang diinterpretasi: iki nuduhake marang pamaca kepiye asil gumantung marang setelan elisitasi sing diuji. Nalika kinerja isih mundhak kanthi anggaran tambahan, skor kasebut kudu diterangake minangka kinerja ing sangisore harness lan anggaran kasebut, dudu minangka wates ndhuwur kapabilitas sing diukur. Kapabilitas asring gumantung marang sumber daya tinimbang dadi jumlah tetep sing bisa diukur kanthi resik sapisan kanggo selawase. Ing panggonan sing kasil bisa diukur liwat upaya bola-bali, laporan uga kudu nimbang biaya sing diarepake saben solusi sing kasil, ora mung tingkat kasil ing anggaran token sing tetep. Iki bisa ndadekake tingkat keparahan luwih gampang diinterpretasi: tingkat kasil sing endhek isih bisa nduweni makna praktis yen biaya upaya bola-bali isih ana ing model ancaman sing relevan. Kanggo klaim kapabilitas, kurang elisitasi sing bisa dicegah iku kegagalan pangukuran: yen harness utawa anggaran nyegah sistem nuduhake prilaku sing sakjané bisa diasilake, skor kasebut ora ngukur kapabilitas sing diklaim. Nalika evaluator wis ngupaya elisitasi nganti sak adoh sing bisa ditindakake lan kinerja isih mundhak, laporan kudu nyebutake kanthi cetha lan nerangake manawa asil kasebut mung perkiraan wates ngisor.

Pengujian safeguard bisa ngremehake apa serangan bisa kasil, lan sepira abote, yen ora nggatekake sumber daya sing kasedhiya kanggo penyerang, kalebu harness kustom. Ing evaluasi cyber GPT‑5.5 saka UK AISI⁠(mbukak ing jendhela anyar), red teaming ahli nemokake universal jailbreak sing ngudhari konten cyber sing nglanggar ing pitakon ala sing diwenehake OpenAI, kalebu ing setelan agentic multi-turn. Dheweke nggunakake Codex kanggo nggawe harness kustom kanggo nguwatake kinerja serangan model: harness kasebut nancepake pola bypass safeguard sing bisa digunakake maneh menyang interaksi, njaga pola kasebut ing antarane giliran lan blok, lan ngetrapake ing pitakon cyber ala sing diwenehake OpenAI. Pengujian safeguard kudu cocog karo lawane. Yen klaime babagan ketahanan marang penyalahgunaan ahli, tes kudu ngevaluasi strategi serangan end-to-end paling kuat lan kredibel ing anggaran tartamtu, kalebu harness apa wae sing dibutuhake kanggo njaga lan nggunakake maneh strategi kasebut. Yen ora, asil bisa salah kalibrasi: bisa mung ndhukung klaim sing luwih sempit babagan ketahanan marang prompting sing luwih prasaja, bisa luput saka sepira abote serangan lan kemungkinan kasile sawise cara elisitasi dioperasionalake, lan uga bisa ngluwihi kemungkinan utawa keparahan masalah yen diwenehi anggaran kakehan.

Ana wektu lan papan kanggo perbandingan harness terstandar, nanging evaluator kudu cetha nerangake kenapa nggunakake kumpulan harness sing konsisten iku cocog lan klaim apa sing bisa didhukung. evaluasi cakrawala wektu saka METR⁠(mbukak ing jendhela anyar) minangka conto setelan evaluasi sing luwih jembar lan dipatok kanthi pas: iki dirancang kanggo ngasilake asil sing bisa dibandhingake ing antarane sistem sing dievaluasi. METR nemtokake asil umum, yaiku durasi khas tugas manungsa nalika sawijining agen AI diprediksi bakal kasil ing tingkat reliabilitas tartamtu. METR ngetrapake kumpulan tugas sing padha, cara skoring, cara fitting, lan sakumpulan cilik scaffold sing bisa digunakake maneh kayata Triframe lan ReAct⁠(mbukak ing jendhela anyar) ing saben batch perkiraan sing dilapurake bebarengan. Nalika METR ngembangake kumpulan tugas lan mindhah infrastruktur evaluasi saka framework sing diarani Vivaria menyang sing diarani Inspect, dheweke nglapurake owah-owahan kasebut (pembaruan Time Horizon 1.1⁠(mbukak ing jendhela anyar)) lan ngevaluasi maneh model ing setelan evaluasi anyar. Kuwi nilai saka setelan evaluasi terstandar, kalebu kumpulan harness sing konsisten: iki bisa nggawe pamaca yakin manawa bedane skor pancen nggambarake bedane antarane sistem sing dibandhingake, dudu owah-owahan ing setelan pangukuran.

Kita nyaranake supaya laporan evaluasi pihak katelu nyebutake jinis klaim apa sing arep didhukung setelan evaluasine; njlentrehake sepira cedhake apa sing diuji karo klaim sing luwih jembar kasebut; njlentrehake pilihan harness sing mbentuk asil; nerangake nalika pilihan kasebut owah ing antarane evaluasi; lan nyakup bukti pendukung kanggo nuduhake kepiye asil kasebut diprodhuksi lan sepira apik generalisasine marang klaim kasebut.

Netepake validitas kanthi mriksa bebaya sing wis dingerteni sing bisa mbelokaké asil

Nalika model dadi luwih mumpuni, skor evaluasi dadi luwih gampang disalahartèkaké. Dibandhingake karo kapabilitas nyata, skor evaluasi bisa mudhun kanthi artifisial yen model ngerti manawa dheweke lagi dievaluasi lan kanthi strategis nampilake kinerja luwih endhek. Skor uga bisa munggah yen model nggunakke trabasan ing tugas, prompt, penilai, utawa harness. Skor uga bisa kebelokaké amarga kontaminasi (nalika model wis ngerti utawa bisa nemokake jawaban tanpa ngrampungake tugas) utawa amarga masalah “rusak” sing ambigu, diskor salah, ora bisa dirampungake, utawa rentan marang trabasan sing ora disengaja. Mula, laporan evaluasi kudu masang skor utama karo diskusi babagan bebaya kasebut, supaya pamaca bisa netepake apa skor kasebut nggambarake prilaku sing dikarepake.

Harness, anggaran, piranti, aturan skoring, monitor, lan prosedur tinjauan kabeh mengaruhi apa agen lagi ngrampungake tugas sing dikarepake, nyingkiri, ngapalake, utawa nemokake dalan ngubengi tugas kasebut. Laporan sing bisa dipercaya ndadekake pamriksan kasebut katon: evaluator kudu mriksa conto kanggo prilaku-prilaku iki saben asesmen ditindakake.

Reward hacking

Reward hacking tegese nggayuh skor evaluasi dhuwur kanthi cara sing ora nggambarake kapabilitas sing dikarepake. Ing kene, sing dadi kuwatir yaiku sistem entuk kredit kanthi nggunakke tugas, penilai, prompt, utawa harness tinimbang nindakake pakaryan sing arep diukur evaluasi. Evaluasi GPT 5.4 saka METR⁠(mbukak ing jendhela anyar) nuduhake kenapa iki penting: sanajan model kasil ing tugas kanthi tingkat sing ing pandelengan awal bakal kacathet minangka cakrawala wektu kira-kira 13 jam, tinjauan manungsa nuduhake manawa sawetara kasil kasebut asalé saka reward hacking, lan revisi asil supaya mung ngitung kasus tanpa reward hacking nurunake perkiraan dadi kira-kira 6 jam. Evaluator kudu netepake apa perlu ana penyesuaian kaya mangkono lan, yen perlu, nglapurake kanthi cetha: perkiraan kapabilitas dadi luwih migunani yen pamaca bisa ndeleng kasil sing katon nanging didiskualifikasi, kenapa didiskualifikasi, lan sepira asil gumantung marang penilaian kasebut.

Grafik sing nuduhake kinerja model AI saka wektu ke wektu kanthi garis tren lan interval kapercayan.

Penolakan

Model uga bisa nampilake kinerja luwih endhek ing evaluasi kapabilitas amarga safeguards. Sawijining model bisa nduweni kinerja evaluasi luwih endhek tinimbang kapabilitas sing sakjané diduweni amarga nolak tugas evaluasi tinimbang ngrampungake. Mula, laporan kudu nerangake apa penolakan dadi bagean saka asil evaluasi lan yen ya, pira conto sing kena pengaruh amarga iku.

Kontaminasi

Kontaminasi paling wigati kanggo benchmark publik utawa sing digunakake maneh⁠. Yen tugas, jawaban, utawa varian sing cedhak katon ing data latihan utawa bisa ditemokake agen kanthi browsing, kinerja bisa nggambarake hafalan utawa retrieval tinimbang kinerja model. Evaluator kudu luwih milih tugas privat utawa sing anyar disusun yen bisa lan nguji apa model ngasilake maneh rincian khusus tugas sadurunge ngrampungake.

Masalah rusak

Masalah rusak kalebu kahanan kayata sawijining masalah sing tanpa disengaja pancen ora bisa dirampungake. Masalah rusak cukup umum⁠(mbukak ing jendhela anyar) nganti kudu dianggep minangka risiko validitas standar. Iki kalebu ground truth sing salah, prompt ambigu, file sing ilang, layanan sing ora stabil, kriteria skoring sing ora adil, lan lingkungan sing mbukak trabasan kayata file jawaban sing didhelikake utawa riwayat gudang kode sing ngemot patch ground truth.

Sandbagging

Sandbagging dening model utawa sistem tegese kanthi strategis nampilake kinerja luwih endhek nalika kinerja kuwat bakal bentrok karo sawijining tujuan. Evaluasi GPT‑5.5 saka Apollo⁠(mbukak ing jendhela anyar) nguji iki kanthi nggawe konteks nalika model ngerti manawa skor evaluasi dhuwur bisa micu unlearning utawa ngalangi deployment. GPT‑5.5 isih mangsuli kanthi bener, nuduhake bukti prilaku strategis underperformance sing sithik³. Nanging tinjauan jejak nalar menehi konteks penting: Apollo nemokake pratandha kesadaran evaluasi alignment tingkat sedheng utawa luwih dhuwur ing 52% conto kondisi sandbagging, dibandhingake 0% ing counterfactual. Bukti kasebut ndadekake interpretasi asil luwih ruwet, nanging pungkasane menehi sinyal luwih akeh marang pamaca: pamaca bisa ndeleng asil prilaku sing nyenengake lan uga alesan kanggo ngati-ati supaya ora kakehan napsirake.

Kepiye kita ndhukung evaluasi sing luwih kuwat

Klaim sing kuwat mbutuhake harness sing pas kanggo ngudhari prilaku lan uga pamriksan validitas kanggo nuduhake manawa asil kasebut kukuh. Pandangan kita manawa harness lan pamriksan validitas iku bagean saka asil evaluasi mbentuk cara kita ndhukung evaluasi pihak katelu ing praktik:

Kita nuduhake pandhuan elisitasi maksimal sing spesifik marang evaluator.
Kita njaluk evaluator kapabilitas nggunakake Codex minangka lantai umum kanggo model OpenAI: tes paling ora kudu mbukak baseline liwat antarmuka agentic sing padha karo sing kamungkinan bakal diandelake pangguna, dudu mung liwat antarmuka model sing disederhanakake.
Kita uga nyedhiyakake jejak nalar lan artefak penengah liyane nalika dibutuhake kanggo netepake penipuan, sandbagging, utawa kesadaran evaluasi. METR lan Apollo wis nggunakake akses iki ing evaluasi OpenAI wiwit GPT‑5.
Pungkasan, kita ngutamakake riset kanggo luwih jero mangerteni kapan lan kepiye pilihan harness kanthi nyata ngganti asil, wiwit saka manajemen konteks lan akses piranti nganti prilaku nyoba maneh, skoring, lan anggaran sumber daya.

Apa tegesé iki kanggo standar evaluasi lan arah riset ing mangsa ngarep

Rekomendasi iki dimaksudake ora mung kanggo ningkatake laporan evaluasi individu, nanging uga kanggo menehi arah marang standar nasional ⁠(mbukak ing jendhela anyar)lan internasional ⁠(mbukak ing jendhela anyar)sing lagi tuwuh kanggo evaluasi lan pelaporan AI tercanggih. Ing mangsa ngarep, standar evaluasi pihak katelu kudu mbutuhake rincian sing cukup supaya para pengambil keputusan ngerti klaim apa sing didhukung evaluasi tartamtu, sistem apa sing diuji, kepiye asil kasebut dielisitasi, lan kepiye evaluator mriksa validitase. Kanggo sistem tercanggih sing diuji ing tugas nalika kapabilitas agentic iku penting, rincian kudu kalebu (kanthi tundhuk marang masalah keamanan utawa kerahasiaan):

Klaim: apa evaluasi mbandhingake sistem, ngira-ngira wates ndhuwur kapabilitas, utawa nguji safeguards.
Konten evaluasi: rincian sing cukup babagan tugas utawa distribusi tugas supaya pamaca ngerti katrampilan, prilaku, utawa mode kegagalan apa sing sakjané diuji evaluasi.
Sistem sing diuji: model, setelan nalar, akses piranti, harness, lan safeguards.
Anggaran: giliran, token, upaya/nyoba maneh, wektu nyata, biaya inferensi, lan yen cocog biaya sing diarepake saben solusi sing kasil.
Metode elisitasi: pilihan harness sing digunakake kanggo ngudhari asil, lan sepira cedhake apa sing diuji nggambarake klaim sing luwih jembar sing lagi digawe.
Pamriksan validitas: kepiye assessor nggoleki reward hacking, kesadaran evaluasi, kontaminasi, penolakan, sandbagging, lan prilaku liyane sing bisa ngrusak asil, kalebu kepiye kasus sing dikonfirmasi mengaruhi skoring utawa interpretasi.

Standar sing ora nyakup pilihan harness utawa pamriksan validitas bisa ngremehake apa sing bisa ditindakake sistem utawa ngluwihi rasa yakin marang klaim safety. Mbangun harness lan metode elisitasi sing kuwat isih dadi wilayah riset sing mbukak lan kudu dadi fokus kanggo panaliten lan investasi luwih lanjut.

2026

Pangarang

OpenAI

Glosarium

Amarga kita nggunakake sawetara istilah teknis ing kiriman iki, kita nyakup glosarium ing ngisor iki sing menehi panjelasan nganggo basa sing prasaja babagan apa sing kita maksud:

Sistem agentic: Sistem sing bisa ngrampungake tugas liwat pirang-pirang langkah, nggunakake piranti, njaga status tugas, lan tumindak ing sawijining lingkungan, dudu mung mbalekake siji tanggapan kanggo sawijining prompt.
Asesmen: Penilaian sing luwih jembar babagan apa bukti ndhukung sawijining klaim, kesimpulan risiko, utawa posisi jaminan sing bisa adhedhasar data evaluasi, tinjauan dokumen, wawancara, tinjauan proses, lan artefak relevan liyane.
Compaction: Cara kanggo njaga konteks sing relevan karo tugas sajrone proses dawa.
Konfigurasi: Sistem sing diuji lan kondisi evaluasi sing pas, ngluwihi jeneng model.
Kontaminasi: Nalika tugas evaluasi, jawaban, utawa varian sing cedhak katon ing data latihan sawijining model utawa bisa ditemokake sajrone evaluasi (umpamane liwat piranti kaya browsing), saengga kinerja katon ngluwihi generalisasi sejati model kasebut.
Elisitasi: Proses nyoba ngudhari sawijining kapabilitas utawa prilaku saka sistem sajrone asesmen.
Lingkungan: Setelan tugas nalika sawijining sistem diuji. Iki kalebu bab kaya status eksternal sing diinteraksi lan diowahi dening agen sajrone evaluasi, kayata lingkungan terminal utawa video game.
Evaluasi: Tes utawa pangukuran tartamtu ing njero sawijining asesmen.
Kesadaran evaluasi: Kesadaran evaluasi nuduhake model sing ngenali, utawa katon kaya ngenali, manawa dheweke lagi dievaluasi lan bisa uga nyetel prilakune kanggo nanggapi konteks kasebut. Iki bisa katon kaya model kanthi eksplisit nalar babagan lagi diuji, nyimpulake tujuan evaluasi, utawa ngganti prilakune amarga ngarepake asil kasebut bakal mengaruhi cara dheweke diadili utawa disebarake.
Harness: Struktur sing ngadhep model sing ngidini model nindakake tugas: prompt, piranti, antarmuka, logika kontrol, memori, nyoba maneh, validator, lan struktur pendukung liyane ing sakubenge model.
Elisitasi maksimal: Pengujian sing ditujokake kanggo nemokake kinerja paling kuat utawa mode kegagalan sing paling kredibel sing bisa diasilake sistem ing anggaran tartamtu, dudu mung mbukak sistem sepisan liwat harness sing distandardisasi.
Jejak nalar: Cathetan nalar penengah model sajrone tes.
Peretasan hadiah: Entuk skor dhuwur liwat trabasan utawa prilaku ing njaba maksud evaluator.
Pengamanan: Filter, monitor, sistem pemblokiran, lan perlindungan liyane sing ditrapake ing sakubenge model utawa produk.
Sandbagging: Kinerja sing sengaja direndhahake kanthi strategis sajrone evaluasi kanthi cara sing ngrusak asil.
Skoring: Cara sing digunakake kanggo nemtokake carane kinerja diukur utawa apa sawijining tugas kasil.
Harness terstandar: Harness sing dijaga tetep padha ing antarane sistem tinimbang disesuaikan kanggo model utawa tugas tartamtu, supaya bedane asil luwih gampang dianggep asalé saka model sing diuji.
Cakrawala wektu: Dawane tugas sing bisa dirampungake sistem kanthi reliabilitas tartamtu, asring diandharake minangka suwene tugas sing padha bakal ditindakake manungsa.
Akses piranti: Piranti eksternal sing kasedhiya kanggo model sajrone asesmen.
Trajektori: Jalur langkah demi langkah sing ditindakake sistem nalika ngrampungake tugas.
Universal jailbreak: Pola serangan tunggal sing nyebabake sistem ngliwati safeguards ing akeh prompt utawa tugas.

Cathetan sikil

1
Kiriman iki ora nyoba mutusake kepiye pihak katelu kudu ngevaluasi klaim sing gegayutan karo misalignment utawa propensity. Isih dibutuhake luwih akeh karya kanggo mangerteni kepiye pilihan harness mengaruhi evaluasi kasebut, mligine amarga harness sing ndhukung prilaku cakrawala luwih dawa uga bisa ngganti jinis prilaku sing ora disengaja sing kudu dipantau evaluator.
2
HAL⁠(mbukak ing jendhela anyar) menehi conto tambahan saka evaluasi agen: ing CORE-Bench⁠(mbukak ing jendhela anyar), ngganti harness dadi Claude Code ngganti kinerja sing diukur lan uga profil biaya ing benchmark sing padha. Conto publik liyane kalebu SWE-agent⁠(mbukak ing jendhela anyar), SeeAct⁠(mbukak ing jendhela anyar), ScienceAgentBench⁠(mbukak ing jendhela anyar), CORE-Bench⁠(mbukak ing jendhela anyar), lan Inspect Cyber⁠(mbukak ing jendhela anyar); saben-saben ngandhani pamaca antarmuka utawa harness apa sing ngasilake skor kasebut.
3
Nggayuh skor 100% ing loro varian Sandbagging QA lan 99,6% ing tugas sandbagging penipuan strategis.

Terus maca

Deleng kabeh

Safety and alignment in an era of long-horizon models

Keselamatan20 Jul 2026

Why teens deserve access to safe AI

Keselamatan16 Jul 2026

GPT-Red: Mbukak Swaperbaikan kanggo Ketangguhan

Keselamatan15 Jul 2026