Langsung ke konten utama
OpenAI

19 November 2025

Riset

Bagaimana evals mendorong babak selanjutnya dalam AI untuk bisnis

Panduan ini mengajarkan para pemimpin bisnis bagaimana kerangka evaluasi (evals) mengubah tujuan bisnis menjadi hasil yang konsisten.

Memuat…

Lebih dari satu juta bisnis di seluruh dunia memanfaatkan AI untuk mendorong efisiensi dan menciptakan nilai yang lebih besar. Namun, beberapa organisasi masih kesulitan mendapatkan hasil yang mereka harapkan. Apa yang menyebabkan hal ini?

Di OpenAI, kami memanfaatkan AI secara internal untuk mencapai tujuan-tujuan ambisius kami. Salah satu set alat utama yang kami gunakan adalah evals, metode untuk mengukur dan meningkatkan kemampuan sistem AI untuk memenuhi harapan. 

Mirip dengan dokumen persyaratan produk, evals membuat tujuan yang tidak jelas dan ide-ide abstrak menjadi spesifik dan eksplisit. Menggunakan evals secara strategis dapat membuat produk yang berhadapan dengan pelanggan atau alat internal lebih andal dalam skala besar, mengurangi kesalahan dengan tingkat keparahan tinggi, melindungi dari risiko kerugian, dan memberikan organisasi jalur terukur menuju ROI yang lebih tinggi. 

Di OpenAI, model kami adalah produk kami, jadi peneliti kami menggunakan frontier evals(terbuka di jendela baru) 1 yang ketat untuk mengukur seberapa baik kinerja model di berbagai domain. Meski frontier evals membantu kami menghadirkan model yang lebih baik dengan lebih cepat, mereka tidak bisa mengungkap semua nuansa yang diperlukan untuk memastikan model akan bekerja pada alur kerja tertentu dalam konteks bisnis tertentu. Itulah sebabnya tim internal juga telah membuat puluhan contextual evals yang dirancang untuk menilai kinerja dalam produk atau alur kerja internal tertentu. Ini juga alasan mengapa para pemimpin bisnis harus belajar bagaimana membuat contextual evals yang spesifik sesuai kebutuhan organisasi dan lingkungan operasinya. 

Ini adalah panduan bagi para pemimpin bisnis yang ingin menerapkan evals di organisasi mereka. Contextual evals, yang masing-masing dirancang untuk alur kerja atau produk organisasi tertentu, masih terus dikembangkan dan proses yang pastinya belum ada. Sebagai hasilnya, artikel ini menyajikan kerangka kerja umum yang telah terbukti efektif di berbagai situasi. Kami berharap bidang ini akan terus berkembang dan akan muncul lebih banyak kerangka kerja yang menangani konteks dan tujuan bisnis tertentu. Misalnya, eval yang baik untuk produk konsumen canggih berbasis AI mungkin memerlukan proses yang berbeda dibandingkan eval untuk otomatisasi internal yang didasarkan pada prosedur operasional standar. Kami percaya bahwa kerangka kerja yang disajikan di bawah ini akan berfungsi sebagai kumpulan praktik terbaik dalam kedua kasus, dan akan menjadi panduan yang berguna saat Anda membangun evals yang disesuaikan dengan kebutuhan organisasi Anda.

Cara kerja evals: Tentukan → Ukur → Perbaiki

Diagram berjudul “Eval Blog” menunjukkan aliran komponen dan proses evaluasi, diletakkan pada latar belakang terang dengan blok berwarna dan panah yang menggambarkan logika evaluasi model.

1. Tentukan: Definisikan apa arti “hebat”

Mulailah dengan tim kecil yang mandiri yang dapat menuliskan tujuan sistem AI Anda dalam bahasa sederhana, misalnya: “Ubah email masuk yang memenuhi syarat menjadi sesi demo yang dijadwalkan sambil tetap menjaga citra merek.”

Tim ini harus merupakan gabungan individu dengan keahlian teknis dan domain (dalam contoh ini, Anda ingin memiliki ahli penjualan di dalam tim). Mereka harus mampu menyatakan hasil terpenting yang akan diukur, menguraikan alur kerja dari awal hingga akhir, dan mengidentifikasi setiap titik keputusan penting yang akan dihadapi sistem AI Anda. Untuk setiap langkah dalam alur kerja itu, tim harus menentukan seperti apa kesuksesan dan apa yang harus dihindari. Proses ini akan menghasilkan pemetaan dari puluhan contoh input (mis. email masuk) ke output yang mereka inginkan agar sistem hasilkan. set acuan dari contoh yang dihasilkan seharusnya menjadi referensi hidup dan tepercaya dari penilaian dan selera para ahli Anda tentang apa yang dimaksud dengan “hebat”.

Jangan merasa kewalahan dengan permulaan yang sulit atau mencoba menyelesaikannya sekaligus. Prosesnya pasti berulang dan berantakan. Pembuatan prototipe awal dapat sangat membantu. Meninjau 50 hingga 100 output dari versi awal sistem akan mengungkapkan bagaimana dan kapan sistem Anda mengalami kegagalan. “Analisis kesalahan” ini akan menghasilkan taksonomi dari berbagai kesalahan (dan frekuensinya) untuk dilacak saat sistem Anda membaik.

Proses ini tidak murni teknis — ini lintas fungsi dan berpusat pada penentuan tujuan bisnis dan proses yang diinginkan. Tim teknis tidak boleh diminta secara terpisah untuk menilai apa yang paling baik melayani pelanggan atau kebutuhan tim lain seperti produk, penjualan, atau SDM. Oleh karena itu, pakar domain, pemimpin teknis, dan pemangku kepentingan utama lainnya harus berbagi kepemilikan. 

2. Ukur: Pengujian terhadap kondisi dunia nyata

Langkah selanjutnya adalah mengukur. Tujuan pengukuran adalah untuk secara andal menampilkan contoh konkret tentang bagaimana dan kapan sistem mengalami kegagalan. Untuk melakukan itu, buatlah lingkungan pengujian khusus yang mencerminkan kondisi dunia nyata—bukan sekadar demo atau area percobaan prompt. Evaluasi kinerja terhadap set acuan Anda dan analisis kesalahan di bawah tekanan dan kasus tepi yang sama yang akan dihadapi sistem Anda.

Rubrik dapat membantu memberikan kejelasan dalam menilai output dari sistem Anda, tetapi ada kemungkinan untuk terlalu menekankan hal-hal yang dangkal dengan mengorbankan tujuan keseluruhan Anda. Selain itu, beberapa kualitas sulit atau bahkan tidak mungkin diukur. Dalam beberapa kasus, metrik bisnis tradisional akan menjadi penting. Di tempat lain, Anda perlu menciptakan metrik baru. Pastikan pakar materi Anda selalu terlibat dalam proses ini, dan selaraskan prosesnya dengan tujuan inti Anda.

Untuk benar-benar menguji sistemnya, gunakan contoh yang diambil dari situasi dunia nyata bila memungkinkan, dan sertakan atau ciptakan kasus tepi yang jarang tetapi dapat menjadi mahal jika salah ditangani. 

Beberapa evals dapat diskalakan melalui penggunaan LLM grader, model AI yang menilai output dengan cara yang sama seperti yang dilakukan seorang ahli; namun, masih penting untuk tetap melibatkan manusia. Pakar domain Anda perlu secara rutin mengaudit LLM grader untuk memastikan keakuratan dan juga harus secara langsung meninjau log perilaku sistem Anda. 

Evals dapat membantu Anda memutuskan kapan sistem siap diluncurkan, tetapi evals tidak berhenti saat peluncuran. Anda harus terus mengukur kualitas output yang sesungguhnya dari sistem Anda yang dibuat dari input sebenarnya. Seperti halnya produk apa pun, sinyal dari pengguna akhir Anda (baik eksternal maupun internal) sangat penting dan harus dimasukkan ke dalam eval Anda.

3. Perbaiki: Belajar dari kesalahan

Langkah terakhir adalah menyiapkan proses untuk perbaikan berkelanjutan. Menangani masalah yang ditemukan dari eval Anda bisa dilakukan dalam berbagai cara: menyempurnakan prompt, menyesuaikan akses data, memperbarui eval itu sendiri agar lebih sesuai dengan tujuan Anda, dan sebagainya. Saat Anda menemukan jenis kesalahan baru, tambahkan ke analisis kesalahan Anda dan tangani kesalahan tersebut. Setiap iterasi membangun dari yang sebelumnya: kriteria baru dan ekspektasi yang lebih jelas terhadap perilaku sistem membantu mengungkap kasus ekstrem baru serta masalah terselubung dan membandel yang perlu diperbaiki.

Untuk memberikan dukungan pada iterasi ini, bangun data flywheel. Catat input, output, dan hasil; ambil sampel catatan tersebut secara berkala, dan secara otomatis teruskan kasus yang ambigu atau mahal ke tinjauan ahli. Tambahkan penilaian ahli ini ke dalam eval dan analisis kesalahan Anda, kemudian gunakan untuk memperbarui prompt, alat, atau model. Melalui siklus ini, Anda akan lebih jelas mendefinisikan ekspektasi terhadap sistem, menyelaraskannya lebih ketat dengan ekspektasi tersebut, serta mengidentifikasi output dan hasil relevan tambahan yang perlu dilacak. Menerapkan proses ini dalam skala besar menghasilkan kumpulan data yang besar, berbeda, dan spesifik konteks yang sulit ditiru — aset berharga yang dapat dimanfaatkan oleh organisasi Anda saat Anda membangun produk atau proses terbaik di pasar Anda. 

Meskipun evals menciptakan cara sistematis untuk meningkatkan sistem AI Anda, mode kegagalan baru bisa muncul. Dalam praktiknya, seiring berkembangnya model, data, dan tujuan bisnis, evals juga harus terus dipertahankan, diperluas, dan diuji ketahanannya.

Untuk penerapan yang berorientasi ke luar, evals tidak menggantikan pengujian A/B dan eksperimen produk yang lebih tradisional. Evals melengkapi eksperimen tradisional, saling membimbing satu sama lain, dan memberikan gambaran tentang bagaimana perubahan yang Anda lakukan memengaruhi kinerja di dunia nyata. 

Apa arti evals bagi para pemimpin bisnis

Setiap perubahan besar teknologi mendefinisikan ulang standar operasional dan keunggulan kompetitif. Kerangka kerja seperti OKR dan KPI telah membantu banyak organisasi mengarahkan diri mereka pada “mengukur apa yang penting” untuk bisnis mereka di era analisis data besar. Evals adalah perpanjangan alami dari pengukuran di era AI.

Bekerja dengan sistem probabilistik memerlukan jenis pengukuran baru dan pertimbangan yang lebih mendalam mengenai kompromi. Para pemimpin harus memutuskan kapan presisi itu penting, kapan mereka dapat lebih fleksibel, dan bagaimana menyeimbangkan kecepatan dan keandalan.

Evals sulit diterapkan karena alasan yang sama bahwa membangun produk hebat itu sulit; dibutuhkan ketelitian, visi, dan selera. Jika dilakukan dengan baik, evals dapat menjadi pembeda yang unik. Di dunia di mana informasi tersedia secara bebas di seluruh dunia dan keahlian dapat dimiliki siapa pun, keuntungan Anda bergantung pada seberapa baik sistem Anda dapat beroperasi dalam konteks Anda. Evals yang kuat membuat keuntungan yang terus bertambah dan pengetahuan institusional seiring dengan peningkatan sistem Anda. 

Pada intinya, evals adalah tentang pemahaman mendalam tentang konteks dan tujuan bisnis. Jika Anda tidak dapat mendefinisikan apa arti “hebat” untuk kasus penggunaan Anda, Anda tidak mungkin mencapainya. Dalam pengertian ini, evals menekankan pelajaran penting dari era AI: keahlian manajemen adalah keahlian AI. Tujuan yang jelas, umpan balik langsung, penilaian yang bijaksana, dan pemahaman yang jelas tentang proposisi nilai, strategi, dan proses Anda tetap penting, bahkan mungkin lebih dari sebelumnya.

Seiring semakin banyak praktik terbaik dan kerangka kerja yang muncul, kami akan terus membagikannya. Sementara itu, kami mendorong Anda untuk bereksperimen dengan evals dan menemukan proses yang paling sesuai untuk kebutuhan Anda. Untuk memulai, identifikasi masalah yang harus diselesaikan dan pakar domain Anda, bentuk tim kecil Anda, dan, jika Anda membangun menggunakan API kami, jelajahi Platform Docs(terbuka di jendela baru).

Jangan hanya berharap untuk sesuatu yang "hebat". Tentukan, ukur, dan perbaiki untuk mencapainya.

Penulis

OpenAI

Catatan kaki

  1. 1

    Jika Anda ingin mendukung upaya kami dalam membangun model AI generasi selanjutnya, kami mengundang Anda untuk berkontribusi pada GDPVal, tolok ukur terbaru kami tentang kinerja model AI dalam tugas-tugas dunia nyata. Jika Anda seorang pakar industri yang tertarik untuk berkontribusi pada GDPval, silakan tunjukkan minat Anda di sini. Jika Anda seorang pelanggan yang bekerja dengan OpenAI dan Anda ingin berkontribusi pada putaran GDPval di masa mendatang, silakan nyatakan minat Anda di sini.