Panduan bersama untuk evaluasi pihak ketiga yang tepercaya
Apa yang penting untuk evaluasi independen yang efektif atas safeguards dan kapabilitas untuk model terdepan.
Evaluasi pihak ketiga yang independen dan tepercaya memainkan peran penting dalam memperkuat ekosistem keselamatan. Evaluasi ini dilakukan pada model terdepan untuk memberikan bukti tambahan bagi klaim tentang kapabilitas kritis dan mitigasi keselamatan. Dalam postingan ini, kami membagikan pelajaran yang telah kami petik sejauh ini, dan merekomendasikan pendekatan untuk merancang evaluasi yang dapat secara valid menilai model frontier yang kami harap membantu membentuk standar yang sedang berkembang di bidang ini.
Sebelumnya, banyak evaluasi memperlakukan model seperti chatbot: evaluasi memberi prompt kepada model seolah-olah ia adalah pengguna yang mengajukan pertanyaan, model menjawab, dan evaluator menilai outputnya. Model terdepan saat ini dapat melakukan jauh lebih banyak: mereka dapat menggunakan alat, melacak informasi di banyak langkah, dan bertindak dalam alur kerja yang lebih besar. Ini berarti bahwa kinerja tidak hanya bergantung pada model, tetapi juga pada lingkungan tempat tugas berlangsung, dan pada penyiapan yang memfasilitasi tindakannya. Penyiapan di sekeliling ini, yang kami sebut “harness”, dapat mengubah aspek-aspek utama dari kinerja sistem, termasuk bagaimana ia menggunakan alat, melacak informasi, atau pulih dari kesalahan.
Ini mengubah cara evaluasi perlu dilakukan, dan apa yang seharusnya dicari pembaca dalam laporan evaluasi. Menurut pandangan kami, laporan yang paling berguna secara eksplisit menjelaskan dua hal di luar hasil itu sendiri: pertama, laporan tersebut menyebutkan klaim apa yang dirancang untuk diuji oleh penyiapan evaluasi, dan kedua, laporan tersebut membagikan bukti yang tersedia bahwa hasil evaluasi itu valid.
Klaim yang diuji dalam evaluasi biasanya masuk ke dalam salah satu dari tiga kategori1:
- Kapabilitas penggalian: Dapatkah suatu model secara masuk akal menghasilkan kapabilitas yang sedang dievaluasi?
- Kinerja safeguard: Seberapa tangguh safeguards yang diuji terhadap perilaku atau serangan yang sedang dievaluasi?
- Perbandingan: Bagaimana kinerja model yang berbeda di bawah kondisi yang setara?
Laporan evaluasi juga perlu menjelaskan bagaimana evaluator memeriksa efek yang dapat memengaruhi validitas suatu hasil. Ini mencakup:
- Reward hacking: Mengeksploitasi jalan pintas dalam tugas atau penilai, sehingga sistem mendapat kredit tanpa menunjukkan perilaku yang dimaksudkan untuk diukur oleh evaluasi.
- Penolakan: Menolak dengan cara yang mengaburkan perilaku yang sedang diuji.
- Kontaminasi: Berkinerja terlalu tinggi karena tugas evaluasi, jawaban, atau varian yang mirip muncul dalam data pelatihan atau dapat ditemukan selama evaluasi, misalnya melalui browsing.
- Broken problems: Berkinerja terlalu rendah karena tugas tidak valid. Penyebabnya dapat mencakup scoring yang tidak adil (misalnya, jawaban benar memerlukan detail implementasi yang tidak dinyatakan) dan lingkungan yang tidak dapat diselesaikan (misalnya, file penting hilang atau alat tidak andal).
- Sandbagging: Sengaja berkinerja rendah ketika menunjukkan awareness bahwa mereka sedang dievaluasi.
Kami telah mengamati bahwa peran harness sangat penting terutama untuk sistem yang bertindak di sepanjang trajektori yang lebih panjang. Ketika model dapat menggunakan alat, mempertahankan status, dan pulih dari kesalahan di banyak langkah, harness dapat mengubah tingkat kinerja yang diamati, dan bahkan menentukan apakah kapabilitas yang sedang dinilai muncul dalam evaluasi sama sekali. Misalnya, harness yang mempertahankan status dan mencoba ulang tindakan yang gagal dapat memungkinkan model menyelesaikan tugas multi-langkah yang tidak pernah diselesaikan model yang sama dalam harness yang lebih sederhana.
Dalam tabel di bawah, kami memisahkan tiga jenis klaim yang mungkin ingin dibuat evaluator dan harness yang menurut kami dibutuhkan oleh masing-masing jenis klaim.
Klaim yang ingin didukung evaluasi | Pilihan harness yang sesuai | Bukti yang perlu dilaporkan |
Kapabilitas di bawah penggalian yang kuat: Sistem A dapat menyelesaikan tugas tipe X ketika penyiapannya dirancang untuk memunculkan kinerja kredibel terkuatnya. | Gunakan penyiapan penggalian kredibel terkuat untuk sistem, termasuk metode pengujian, alat, scaffolding, dan anggaran yang secara wajar akan digunakan oleh pengguna yang cakap. | Penyiapan harness dan alat, panduan penggalian, anggaran/upaya yang diizinkan, token/biaya/waktu, dan alasan penyiapan tersebut merupakan proksi yang kredibel untuk kapabilitas yang diklaim. Jika membandingkan sistem di bawah penyiapan teroptimasi yang berbeda, beri label sebagai perbandingan antarsistem atau penggalian yang kuat. |
Perbandingan terkontrol: Sistem A mengungguli Sistem B di bawah penyiapan evaluasi bersama. | Pertahankan tugas, scoring, dan anggaran tetap. Gunakan penyiapan harness/alat bersama atau sekumpulan harness terstandardisasi tetap yang dipilih di awal untuk memberikan penggalian maksimum yang wajar bagi sistem yang dibandingkan. | Kumpulan tugas bersama, alat, metode scoring, harness, anggaran, efisiensi token/biaya, dan keterbatasan yang diketahui. Untuk evaluasi coding-agent, harness open-source seperti Codex CLI dapat menyediakan loop agen dan antarmuka alat yang tetap di berbagai sistem. Pendekatan ideal untuk maximum penggalian adalah mengoptimalkan harness khusus untuk setiap tugas dan sistem, tetapi saat ini hal itu tidak praktis dilakukan. |
Ketahanan safeguard di bawah serangan yang dielisitasi: Safeguard Sistem A memadai untuk perilaku model atau serangan yang dielisitasi yang relevan. | Gunakan penyiapan pengujian safeguard yang dirancang untuk memunculkan serangan kredibel terkuat di bawah model adversary yang relevan. | Bagaimana evaluator mengarakterisasi perilaku model yang relevan, konfigurasi safeguard yang diuji, strategi penggalian, harness yang digunakan untuk menjalankannya, serta anggaran atau upaya yang diizinkan. |
Klaim kapabilitas hanya sekuat penggalian yang mendasarinya: evaluator perlu memilih harness yang paling sesuai dengan tugas dan kapabilitas yang ingin diukur evaluasi. Harness yang distandardisasi mungkin tepat untuk membandingkan sistem dalam kondisi yang identik, tetapi dapat meremehkan kapabilitas ketika ia menghilangkan fitur harness tertentu yang membantu model menjalankan tugas. Misalnya, kinerja GPT‑5.5 pada cyber range OpenAI menunjukkan bagaimana pilihan harness dapat secara material mengubah kapabilitas yang diukur pada tugas yang memerlukan penggunaan alat yang panjang dan multi-langkah: model berkinerja lebih baik ketika harness menggunakan pemadatan untuk mempertahankan konteks yang relevan dengan tugas saat interaksi menjadi lebih panjang. Ini menunjukkan bahwa untuk model tertentu, harness yang menghilangkan pemadatan akan kurang memunculkan kinerja.
Tingkat keberhasilan yang lebih tinggi lebih baik
Evaluasi lain yang telah dipublikasikan2 juga menunjukkan bahwa pilihan harness dan anggaran mengubah hasil evaluasi. Meningkatkan komputasi saat waktu uji dapat secara signifikan mengubah kapabilitas apa yang dimunculkan oleh evaluasi, terutama di domain tempat keberhasilan mudah diverifikasi, seperti banyak tugas siber. Dalam evaluasi cyber range UK AISI(terbuka di jendela baru), meningkatkan anggaran dari 10M menjadi 100M token meningkatkan kinerja hingga 59%, dan kinerja masih terus meningkat pada anggaran tertinggi yang diuji. Menjelaskan hal ini membuat evaluasi lebih mudah ditafsirkan: ini menunjukkan kepada pembaca bagaimana hasil bergantung pada penyiapan penggalian yang diuji. Ketika kinerja masih meningkat dengan anggaran tambahan, skor harus dijelaskan sebagai kinerja di bawah harness dan anggaran tersebut, bukan sebagai batas atas kapabilitas yang terukur. Kapabilitas sering kali bergantung pada sumber daya, bukan kuantitas tetap yang dapat diukur dengan bersih sekali untuk selamanya. Jika keberhasilan dapat diukur di berbagai percobaan berulang, laporan juga harus mempertimbangkan biaya yang diharapkan per penyelesaian yang berhasil, bukan hanya tingkat keberhasilan pada anggaran token tetap. Ini dapat membuat tingkat keparahan lebih mudah ditafsirkan: tingkat keberhasilan yang rendah mungkin tetap bermakna secara praktis jika biaya percobaan berulang masih berada dalam model ancaman yang relevan. Untuk klaim kapabilitas, penggalian yang kurang yang dapat dihindari adalah kegagalan pengukuran: jika harness atau anggaran mencegah sistem menampilkan perilaku yang sebenarnya dapat dihasilkannya, skor tersebut tidak mengukur kapabilitas yang diklaim. Jika evaluator telah mendorong penggalian sejauh yang memungkinkan dan kinerja masih meningkat, laporan harus menyatakannya dengan jelas dan menegaskan bahwa hasil tersebut hanyalah estimasi batas bawah.
Pengujian safeguard dapat meremehkan apakah suatu serangan dapat berhasil, dan seberapa parah dampaknya, jika tidak memperhitungkan sumber daya yang tersedia bagi penyerang, termasuk harness khusus. Dalam evaluasi siber GPT‑5.5 oleh UK AISI(terbuka di jendela baru), red teaming ahli mereka menemukan universal jailbreak yang memunculkan konten siber yang melanggar di seluruh kueri berbahaya yang diberikan OpenAI, termasuk dalam pengaturan agentic multi-turn. Mereka menggunakan Codex untuk membuat harness khusus guna memperkuat kinerja serangan model: harness itu menyematkan pola bypass safeguard yang dapat digunakan kembali ke dalam interaksi, mempertahankan pola tersebut di seluruh giliran dan blok, dan menerapkannya di seluruh kueri siber berbahaya yang diberikan OpenAI. Pengujian safeguard harus sesuai dengan adversary. Jika klaimnya adalah tentang ketahanan terhadap penyalahgunaan oleh ahli, pengujian harus mengevaluasi strategi serangan end-to-end kredibel terkuat di bawah anggaran yang ditentukan, termasuk harness apa pun yang diperlukan untuk mempertahankan dan menggunakan kembali strategi tersebut. Jika tidak, hasilnya berisiko salah kalibrasi: hasil itu mungkin hanya mendukung klaim yang lebih sempit tentang ketahanan terhadap prompting yang lebih sederhana, bisa gagal menangkap baik seberapa parah serangan menjadi maupun probabilitas keberhasilannya setelah metode penggalian dioperasionalkan, dan juga bisa melebih-lebihkan seberapa mungkin atau parah suatu masalah jika diberi anggaran yang terlalu besar.
Ada waktu dan tempat untuk perbandingan harness yang distandardisasi, tetapi evaluator harus menjelaskan secara eksplisit mengapa penggunaan kumpulan harness yang konsisten itu tepat dan klaim apa yang dapat didukungnya. evaluasi time-horizon METR(terbuka di jendela baru) adalah contoh penyiapan evaluasi yang lebih luas dan dipatok secara tepat: evaluasi ini dirancang untuk menghasilkan hasil yang dapat dibandingkan di seluruh sistem yang dievaluasinya. METR mendefinisikan hasil umum, yaitu durasi tipikal tugas manusia saat agen AI diprediksi berhasil pada tingkat keandalan tertentu. METR menerapkan rangkaian tugas bersama, metode scoring, metode fitting, dan sekumpulan kecil scaffold yang dapat digunakan kembali seperti Triframe dan ReAct(terbuka di jendela baru) dalam setiap batch estimasi yang dilaporkan bersama. Ketika METR memperluas rangkaian tugas dan memindahkan infrastruktur evaluasi dari framework bernama Vivaria ke framework bernama Inspect, METR melaporkan perubahan tersebut (pembaruan Time Horizon 1.1(terbuka di jendela baru)) dan mengevaluasi ulang model di bawah penyiapan evaluasi yang baru. Itulah nilai dari penyiapan evaluasi yang distandardisasi, termasuk kumpulan harness yang konsisten: hal itu dapat membuat pembaca yakin bahwa perbedaan skor benar-benar mencerminkan perbedaan antara sistem yang dibandingkan, bukan perubahan dalam penyiapan pengukuran.
Kami merekomendasikan agar laporan evaluasi pihak ketiga menyatakan jenis klaim apa yang dimaksudkan untuk didukung oleh penyiapan evaluasi mereka; menjelaskan seberapa dekat apa yang diuji mencerminkan klaim yang lebih luas itu; menjelaskan pilihan harness yang membentuk hasil; memperinci kapan pilihan tersebut berubah antar evaluasi; dan menyertakan bukti pendukung untuk menunjukkan bagaimana hasil itu dihasilkan dan seberapa baik hasil itu digeneralisasikan ke klaim tersebut.
Seiring model menjadi lebih mampu, skor evaluasi menjadi lebih mudah disalahartikan. Dibandingkan dengan kapabilitas nyata, skor evaluasi dapat berkurang secara artifisial jika model mengenali bahwa dirinya sedang dievaluasi dan secara strategis berkinerja rendah. Skor juga dapat meningkat secara artifisial jika model mengeksploitasi jalan pintas dalam tugas, prompt, penilai, atau harness. Skor juga dapat terdistorsi oleh contamination (ketika model sudah mengetahui atau dapat menemukan jawaban tanpa menyelesaikan tugas) atau oleh masalah “broken” yang ambigu, dinilai secara keliru, tidak dapat diselesaikan, atau rentan terhadap jalan pintas yang tidak dimaksudkan. Karena itu, laporan evaluasi harus memasangkan skor utama dengan pembahasan tentang bahaya-bahaya ini, sehingga pembaca dapat menilai apakah skor tersebut mencerminkan perilaku yang dimaksudkan.
Harness, anggaran, alat, aturan scoring, monitor, dan prosedur peninjauan semuanya memengaruhi apakah agen menyelesaikan tugas yang dimaksudkan, menghindarinya, menghafalnya, atau menemukan jalan di sekitarnya. Laporan yang tepercaya membuat pemeriksaan tersebut terlihat: evaluator harus meninjau sampel untuk perilaku-perilaku ini setiap kali assessment dijalankan.
Reward hacking
Reward hacking berarti mencapai skor evaluasi tinggi dengan cara yang tidak mencerminkan kapabilitas yang dimaksudkan. Di sini, kekhawatirannya adalah sistem mendapat kredit dengan mengeksploitasi tugas, penilai, prompt, atau harness alih-alih melakukan pekerjaan yang dimaksudkan untuk diukur oleh evaluasi. Evaluasi GPT 5.4 oleh METR(terbuka di jendela baru) menunjukkan mengapa ini penting: meskipun model berhasil pada tugas dengan tingkat yang pada penilaian awal akan tercatat sebagai time horizon sekitar 13 jam, peninjauan manusia menunjukkan bahwa sebagian dari keberhasilan itu berasal dari reward hacking, dan merevisi hasil agar hanya menghitung kejadian tanpa reward hacking menurunkan estimasi menjadi sekitar 6 jam. Evaluator harus menilai perlunya penyesuaian semacam itu dan, bila memang diperlukan, melaporkannya dengan jelas: estimasi kapabilitas jauh lebih berguna ketika pembaca dapat melihat keberhasilan yang tampak mana yang didiskualifikasi, mengapa didiskualifikasi, dan seberapa besar hasil bergantung pada penilaian tersebut.

Penolakan
Model juga dapat berkinerja rendah pada evaluasi kapabilitas karena safeguards. Suatu model mungkin memiliki kinerja evaluasi yang lebih rendah daripada kapabilitas yang sebenarnya dimilikinya karena menolak tugas evaluasi alih-alih menyelesaikannya. Karena itu, laporan harus menjelaskan apakah refusals menjadi bagian dari hasil evaluasi dan jika ya, berapa banyak sampel yang terdampak karenanya.
Kontaminasi
Kontaminasi paling penting untuk benchmark publik atau yang digunakan ulang. Jika tugas, jawaban, atau varian yang mirip muncul dalam data pelatihan atau dapat ditemukan oleh agen dengan browsing, kinerja mungkin mencerminkan hafalan atau retrieval, bukan kinerja model. Evaluator sebaiknya memilih tugas privat atau yang baru dibuat jika memungkinkan dan menguji apakah model mereproduksi detail spesifik tugas sebelum menyelesaikannya.
Broken problems
Broken problems mencakup situasi seperti masalah yang secara tidak sengaja tidak dapat diselesaikan. Broken problems cukup umum(terbuka di jendela baru) sehingga harus diperlakukan sebagai risiko validitas standar. Ini mencakup ground truth yang salah, prompt yang ambigu, file yang hilang, layanan yang tidak stabil, kriteria scoring yang tidak adil, dan lingkungan yang membuka jalan pintas seperti file jawaban tersembunyi atau riwayat repositori yang berisi patch ground truth.
Sandbagging
Sandbagging oleh model atau sistem berarti sengaja berkinerja rendah secara strategis ketika kinerja tinggi akan bertentangan dengan suatu tujuan. Evaluasi GPT‑5.5(terbuka di jendela baru) oleh Apollo menguji hal ini dengan menciptakan konteks tempat model memahami bahwa skor evaluasi yang tinggi dapat memicu unlearning atau memblokir deployment. GPT‑5.5 tetap menjawab dengan benar, yang menunjukkan sedikit bukti perilaku underperformance strategis3. Namun, peninjauan mereka atas jejak penalaran menambahkan konteks penting: Apollo menemukan tanda awareness evaluasi alignment tingkat sedang atau lebih tinggi pada 52% sampel kondisi sandbagging, dibandingkan dengan 0% pada counterfactual. Bukti itu membuat interpretasi hasil menjadi lebih rumit, tetapi pada akhirnya memberi pembaca lebih banyak sinyal: pembaca dapat melihat baik hasil perilaku yang meyakinkan maupun alasan untuk berhati-hati agar tidak menafsirkannya secara berlebihan.
Klaim yang kuat memerlukan baik harness yang tepat untuk memunculkan perilaku maupun pemeriksaan validitas untuk menunjukkan bahwa hasilnya dapat dipercaya. Pandangan kami bahwa harness dan pemeriksaan validitas adalah bagian dari hasil evaluasi membentuk cara kami mendukung evaluasi pihak ketiga dalam praktik:
- Kami membagikan panduan penggalian maksimum yang spesifik kepada evaluator.
- Kami meminta evaluator kapabilitas untuk menggunakan Codex sebagai baseline minimum bersama untuk model OpenAI: pengujian setidaknya harus menjalankan baseline melalui antarmuka agentic yang sama yang kemungkinan akan diandalkan pengguna, bukan hanya melalui antarmuka model yang dipreteli.
- Kami juga menyediakan jejak penalaran dan artefak antara lainnya ketika dibutuhkan untuk menilai deception, sandbagging, atau evaluation awareness. METR dan Apollo telah menggunakan akses ini dalam evaluasi OpenAI sejak GPT‑5.
- Terakhir, kami memprioritaskan riset untuk memahami lebih dalam kapan dan bagaimana pilihan harness secara material mengubah hasil, mulai dari pengelolaan konteks dan akses alat hingga perilaku percobaan ulang, scoring, dan anggaran sumber daya.
Rekomendasi ini dimaksudkan tidak hanya untuk meningkatkan laporan evaluasi individual, tetapi juga untuk membantu membentuk standar nasional (terbuka di jendela baru)dan internasional (terbuka di jendela baru)yang sedang berkembang untuk evaluasi dan pelaporan AI terdepan. Ke depan, standar evaluasi pihak ketiga harus mewajibkan detail yang cukup agar para pengambil keputusan memahami klaim apa yang didukung oleh evaluasi tertentu, sistem apa yang diuji, bagaimana hasilnya dimunculkan, dan bagaimana evaluator memeriksa validitasnya. Untuk sistem terdepan yang diuji pada tugas tempat kapabilitas agentic penting, detailnya harus mencakup (dengan tunduk pada pertimbangan keamanan atau kerahasiaan):
- Klaim: apakah evaluasi membandingkan sistem, memperkirakan batas atas kapabilitas, atau menguji safeguards.
- Konten evaluasi: detail yang cukup tentang tugas atau distribusi tugas agar pembaca memahami keterampilan, perilaku, atau mode kegagalan apa yang sebenarnya diuji oleh evaluasi.
- Sistem yang diuji: model, pengaturan penalaran, akses alat, harness, dan safeguard.
- Anggaran: giliran, token, percobaan/percobaan ulang, waktu nyata, biaya inferensi, dan jika relevan biaya yang diharapkan per penyelesaian yang berhasil.
- Metode penggalian: pilihan harness yang digunakan untuk memunculkan hasil, dan seberapa dekat apa yang diuji mencerminkan klaim yang lebih luas yang sedang dibuat.
- Pemeriksaan validitas: bagaimana assessor mencari reward hacking, kesadaran evaluasi, kontaminasi, refusals, sandbagging, dan perilaku lain yang dapat merusak hasil, termasuk bagaimana kasus yang terkonfirmasi memengaruhi scoring atau interpretasi.
Standar yang menghilangkan pilihan metode pengujian atau pemeriksaan validitas dapat meremehkan apa yang dapat dilakukan sistem atau melebih-lebihkan keyakinan pada klaim keselamatan. Membangun metode pengujian dan penggalian data yang kuat tetap menjadi area riset terbuka dan harus menjadi fokus untuk penyelidikan serta investasi lebih lanjut.
Penulis
Glosarium
Karena kami menggunakan sejumlah istilah teknis dalam postingan ini, kami menyertakan glosarium di bawah yang memberikan penjelasan dengan bahasa sederhana tentang apa yang kami maksud:
Sistem agentic: Sistem yang dapat mengerjakan tugas melalui banyak langkah, menggunakan alat, mempertahankan status tugas, dan bertindak dalam suatu lingkungan, alih-alih hanya mengembalikan satu respons terhadap prompt.
Asesmen: Penilaian yang lebih luas tentang apakah bukti mendukung suatu klaim, kesimpulan risiko, atau posisi assurance yang dapat didasarkan pada data evaluasi, peninjauan dokumen, wawancara, tinjauan proses, dan artefak relevan lainnya.
Pemadatan: Metode untuk mempertahankan konteks yang relevan dengan tugas selama proses yang panjang.
Konfigurasi: Kondisi sistem dan evaluasi yang diuji secara tepat, di luar nama model.
Kontaminasi: Ketika tugas evaluasi, jawaban, atau varian yang mirip muncul dalam data pelatihan model atau dapat ditemukan selama evaluasi (misalnya, melalui alat seperti browsing), sehingga kinerja tampak melebih-lebihkan generalisasi sejati model.
Penggalian: Proses mencoba memunculkan kapabilitas atau perilaku dari suatu sistem selama asesmen.
Lingkungan: Pengaturan tugas tempat suatu sistem diuji. Ini mencakup hal-hal seperti status eksternal yang diinteraksikan dan diubah oleh agen selama evaluasi, seperti lingkungan terminal atau video game.
Evaluasi: Uji atau pengukuran tertentu dalam suatu assessment.
Kesadaran evaluasi: Kesadaran evaluasi merujuk pada model yang mengenali, atau tampak mengenali, bahwa dirinya sedang dievaluasi dan berpotensi menyesuaikan perilakunya sebagai respons terhadap konteks tersebut. Ini dapat terlihat seperti model secara eksplisit melakukan penalaran tentang sedang diuji, menyimpulkan tujuan evaluasi, atau mengubah perilakunya karena mengharapkan hasilnya akan memengaruhi bagaimana ia dinilai atau diterapkan.
Harness: Struktur yang menghadap model yang memungkinkan model menjalankan tugas: prompt, alat, antarmuka, logika kontrol, memori, percobaan ulang, validator, dan struktur pendukung lain di sekitar model.
Penggalian maksimum: Pengujian yang bertujuan menemukan kinerja kredibel terkuat atau mode kegagalan yang dapat dihasilkan sistem dalam anggaran tertentu, alih-alih sekadar menjalankan sistem sekali melalui harness yang distandardisasi.
Jejak penalaran: Catatan penalaran antara model selama pengujian.
Reward hacking: Mencapai skor tinggi melalui jalan pintas atau perilaku di luar maksud evaluator.
Safeguard: Filter, monitor, sistem pemblokiran, dan perlindungan lain yang diterapkan di sekitar model atau produk.
Sandbagging: Kinerja yang sengaja diturunkan secara strategis dalam evaluasi dengan cara yang merusak hasilnya.
Scoring: Metode yang digunakan untuk menentukan bagaimana kinerja diukur atau apakah suatu tugas berhasil.
Harness yang distandardisasi: Harness yang dijaga tetap sama di berbagai sistem alih-alih disesuaikan untuk model atau tugas tertentu, sehingga perbedaan hasil lebih mudah diatribusikan pada model yang diuji.
Horizon waktu: Lama tugas yang dapat diselesaikan sistem dengan tingkat keandalan tertentu, sering dinyatakan sebagai berapa lama tugas yang sama akan memakan waktu bagi manusia.
Akses alat: Alat eksternal yang tersedia bagi model selama asesmen.
Trajektori: Jalur langkah demi langkah yang diikuti sistem saat mengerjakan tugas.
Universal jailbreak: Pola serangan tunggal yang menyebabkan sistem melewati safeguards di banyak prompt atau tugas.
Catatan kaki
- 1
Postingan ini tidak berupaya menyelesaikan bagaimana pihak ketiga seharusnya mengevaluasi klaim terkait ketidakselarasan atau propensity. Masih diperlukan lebih banyak pekerjaan untuk memahami bagaimana pilihan harness memengaruhi evaluasi tersebut, terutama karena harness yang mendukung perilaku dengan time horizon lebih panjang juga dapat mengubah jenis perilaku tak diinginkan yang perlu dipantau evaluator.
- 2
HAL(terbuka di jendela baru) memberikan contoh tambahan dari evaluasi agen: pada CORE-Bench(terbuka di jendela baru), mengubah harness ke Claude Code mengubah baik kinerja yang diukur maupun profil biaya pada benchmark yang sama. Contoh publik lainnya mencakup SWE-agent(terbuka di jendela baru), SeeAct(terbuka di jendela baru), ScienceAgentBench(terbuka di jendela baru), CORE-Bench(terbuka di jendela baru), dan Inspect Cyber(terbuka di jendela baru); masing-masing memberi tahu pembaca antarmuka atau harness apa yang menghasilkan skor tersebut.
- 3
Mencetak skor 100% pada kedua varian Sandbagging QA dan 99,6% pada tugas sandbagging strategic-deception.


