19 November 2025

Kepiye evals nyurung bab sabanjure AI kanggo bisnis

Pambuka iki mulang pimpinan bisnis carane kerangka evaluasi (“evals”) ngowahi tujuan bisnis dadi asil sing konsisten.

Lagi dimuat…

Luwih saka siji yuta bisnis⁠ ing saindenging donya nggunakake AI kanggo nyurung efisiensi lan nggawe nilai sing luwih gedhe. Nanging, sawetara organisasi kesulitan entuk asil sing diarepake. Apa sing nyebabake kesenjangan iki?

Ing OpenAI, kita nggunakake AI sacara internal kanggo nggayuh target ambisius kita. Salah siji piranti utama sing kita gunakake yaiku evals, yaiku metode kanggo ngukur lan ningkatake kemampuan sistem AI supaya nyukupi pangarepan.

Kaya dokumen syarat produk, evals ndadekake target sing samar lan gagasan abstrak dadi spesifik lan cetha. Nggunakake evals kanthi strategis bisa ndadekake produk sing ngadhepi pelanggan utawa piranti internal luwih andal ing skala gedhe, nyuda kesalahan abot, nglindhungi saka risiko mudhun, lan menehi organisasi dalan sing bisa diukur menyang ROI sing luwih dhuwur.

Ing OpenAI, model kita iku produk kita, mula peneliti kita nggunakake frontier evals⁠(mbukak ing jendhela anyar) ¹ sing ketat kanggo ngukur sepira apik kinerja model ing macem-macem domain. Sanadyan frontier evals mbantu kita ngirim model sing luwih apik luwih cepet, iki ora bisa mbukak kabeh nuansa sing dibutuhake kanggo mesthekake model bakal bisa digunakake ing alur kerja tartamtu ing setelan bisnis tartamtu. Mula tim internal uga wis nggawe puluhan evals kontekstual sing dirancang kanggo netepake kinerja ing produk utawa alur kerja internal tartamtu. Iki uga dadi sebab kenapa pimpinan bisnis kudu sinau carane nggawe evals kontekstual sing khusus kanggo kabutuhan lan lingkungan operasi organisasine.

Iki minangka pambuka kanggo pimpinan bisnis sing pengin nerapake evals ing organisasine. Evals kontekstual, saben-saben digawe kanggo alur kerja utawa produk organisasi tartamtu, minangka wilayah pangembangan sing isih aktif lan proses sing mesthi isih durung mantep. Akibate, artikel iki nyedhiyakake kerangka umum sing wis kita deleng efektif ing akeh kahanan. Kita ngarepake bidang iki bakal terus berkembang lan bakal muncul luwih akeh kerangka sing nanggapi konteks lan target bisnis tartamtu. Contone, eval sing apik banget kanggo produk konsumen mutakhir sing didhukung AI bisa mbutuhake proses beda tinimbang eval kanggo otomasi internal sing adhedhasar prosedur operasi standar. Kita yakin kerangka sing diterangake ing ngisor iki bakal dadi kumpulan praktik paling apik ing loro kasus kasebut, lan bakal dadi pandhuan sing migunani nalika sampeyan mbangun evals sing dicocogake karo kabutuhan organisasi sampeyan.

Cara kerja evals: Nemtokake → Ngukur → Ningkatake

Diagram kanthi judhul “Eval Blog” sing nuduhake alur komponen lan proses evaluasi, ing latar padhang kanthi blok warna lan panah sing makili logika evaluasi model.

1. Nemtokake: Definisikna apa tegese “apik banget”

Wiwitana nganggo tim cilik sing nduweni wewenang lan bisa nulis tujuan sistem AI sampeyan nganggo tembung sing lugas, contone: “Ngowahi email mlebu sing wis mumpuni dadi demo sing dijadwalake tanpa metu saka identitas merek.”

Tim iki kudu kasusun saka campuran wong kanthi keahlian teknis lan domain (ing conto mau, sampeyan mesthi butuh ahli sales ing tim). Dheweke kudu bisa nyebutake asil paling penting sing kudu diukur, njlentrehake alur kerja saka wiwitan nganti pungkasan, lan ngenali saben titik keputusan penting sing bakal diadhepi sistem AI sampeyan. Kanggo saben langkah ing alur kerja kasebut, tim kudu nemtokake kaya apa sukses lan apa sing kudu diindhari. Proses iki bakal nggawe pemetaan saka puluhan input conto (umpamane email mlebu) menyang output sing dikarepake saka sistem. Golden set asil saka conto kasebut kudu dadi referensi urip lan otoritatif saka penilaian lan rasa para ahli paling trampil sampeyan babagan kaya apa “apik banget” kuwi.

Aja kebacut kewalahan nalika wiwitan utawa nyoba ngrampungake kabeh sekaligus. Proses iki iteratif lan ora mesthi rapi. Prototyping awal bisa mbantu banget. Mirsani 50 nganti 100 output saka versi awal sistem bakal mbukak cara lan wektu sistem sampeyan gagal. “Analisis kesalahan” iki bakal ngasilake taksonomi saka macem-macem kesalahan (lan frekuensine) kanggo dilacak nalika sistem sampeyan saya apik.

Proses iki dudu mung teknis—iki lintas fungsi lan fokus marang netepake target bisnis lan proses sing dikarepake. Tim teknis aja dijaluk dhewekan kanggo mutusake apa sing paling becik kanggo pelanggan utawa kabutuhan tim liyane kaya produk, sales, utawa HR. Mula, ahli domain, pimpinan teknis, lan pemangku kepentingan utama liyane kudu padha melu nduweni tanggung jawab.

2. Ngukur: Tes nglawan kondisi donya nyata

Langkah sabanjure yaiku ngukur. Tujuan pengukuran yaiku supaya kanthi andal bisa nemokake conto konkret babagan carane lan kapan sistem gagal. Kanggo nindakake kuwi, gawe lingkungan tes khusus sing cedhak banget karo kondisi donya nyata—ora mung demo utawa playground prompt. Evaluasi kinerja nglawan golden set lan analisis kesalahan sampeyan ing tekanan lan edge case sing padha karo sing tenan bakal diadhepi sistem sampeyan.

Rubrik bisa mbantu nggawa kejelasan nalika netepake output saka sistem sampeyan, nanging bisa uga kakehan nandheske unsur sing dangkal nganti ngorbanake target utama sampeyan. Kajaba kuwi, ana sawetara kualitas sing angel utawa malah ora bisa diukur. Ing sawetara kasus, metrik bisnis tradisional bakal penting. Ing kasus liyane, sampeyan kudu nggawe metrik anyar. Tetepna ahli subjek sampeyan melu sajrone proses, lan selarasna proses kasebut kanthi ketat karo target inti sampeyan.

Kanggo tenan nguji sistem, gunakna conto sing dijupuk saka kahanan donya nyata yen bisa, lan lebokna utawa gawe edge case sing langka nanging larang regane yen salah ditangani.

Sawetara evals bisa diskalakake liwat panggunaan LLM grader, yaiku model AI sing mènèhi nilai output kanthi cara sing padha karo ahli; nanging, tetep penting supaya manungsa melu ing proses. Ahli domain sampeyan kudu rutin mriksa akurasi LLM grader lan uga langsung nliti log perilaku sistem sampeyan.

Evals bisa mbantu sampeyan mutusake kapan sistem wis siap diluncurake, nanging ora mandheg mung ing peluncuran. Sampeyan kudu terus ngukur kualitas output nyata saka sistem sampeyan sing diasilake saka input nyata. Kaya produk apa wae, sinyal saka pangguna pungkasan sampeyan (apa eksternal utawa internal) iku penting banget lan kudu dibangun menyang eval sampeyan.

3. Ningkatake: Sinau saka kesalahan

Langkah pungkasan yaiku nyiyapake proses kanggo perbaikan terus-terusan. Ngatasi masalah sing ditemokake eval sampeyan bisa awujud macem-macem: nyaring prompt, nyetel akses data, nganyari eval dhewe supaya luwih nggambarake target sampeyan, lan sapiturute. Nalika sampeyan nemokake jinis kesalahan anyar, tambahana menyang analisis kesalahan lan tangani. Saben iterasi nambah asil saka iterasi sadurunge: kritéria anyar lan pangarepan sing luwih cetha babagan perilaku sistem mbantu mbukak edge case anyar lan masalah alus nanging bandel sing kudu didandani.

Kanggo ndhukung iterasi iki, bangun data flywheel. Cathet input, output, lan asil; sampel log kasebut kanthi jadwal lan kanthi otomatis arahna kasus sing ambigu utawa larang regane menyang tinjauan ahli. Tambahna penilaian ahli iki menyang eval lan analisis kesalahan sampeyan, banjur gunakna kanggo nganyari prompt, piranti, utawa model. Liwat loop iki sampeyan bakal luwih cetha nemtokake pangarepan kanggo sistem, nyelarasake sistem luwih rapet marang pangarepan kasebut, lan ngenali output lan asil tambahan sing relevan kanggo dilacak. Nerapake proses iki ing skala gedhe ngasilake dataset gedhe, beda, lan spesifik konteks sing angel ditiru—aset berharga sing bisa dimanfaatake organisasi sampeyan nalika mbangun produk utawa proses paling apik ing pasar sampeyan.

Sanadyan evals nggawe cara sing sistematis kanggo ningkatake sistem AI sampeyan, mode kegagalan anyar bisa muncul. Ing praktik, nalika model, data, lan target bisnis berkembang, evals uga kudu terus dirawat, ditambahi, lan diuji tekanane.

Kanggo penerapan sing ngadhepi pihak eksternal, evals ora ngganti tes A/B tradisional lan eksperimen produk. Evals iku pelengkap kanggo eksperimen tradisional sing bisa saling nuntun lan menehi visibilitas babagan carane owah-owahan sing sampeyan lakoni mengaruhi kinerja donya nyata.

Apa tegesé evals kanggo pimpinan bisnis

Saben pergeseran teknologi gedhe mbentuk maneh keunggulan operasional lan kauntungan kompetitif. Kerangka kaya OKR lan KPI wis mbantu organisasi ngarahake awake dhewe marang “ngukur apa sing penting” kanggo bisnis ing jaman analitik big data. Evals yaiku perpanjangan alami saka pengukuran kanggo jaman AI.

Makarya karo sistem probabilistik mbutuhake jinis pengukuran anyar lan pertimbangan trade-off sing luwih jero. Pimpinan kudu mutusake kapan presisi iku penting, kapan bisa luwih fleksibel, lan carane nimbang kacepetan lan keandalan.

Evals angel diterapake amarga alasan sing padha karo angelé mbangun produk sing apik; iki mbutuhake ketlatenan, visi, lan rasa. Yen ditindakake kanthi apik, evals dadi pembeda sing unik. Ing donya sing informasi kasedhiya bebas ing saindenging donya lan keahlian wis didemokratisasi, kauntungan sampeyan gumantung marang sepira apik sistem sampeyan bisa ngeksekusi ing konteks sampeyan. Evals sing kuwat nggawe kauntungan majemuk lan pengetahuan institusional nalika sistem sampeyan saya apik.

Ing intine, evals yaiku babagan pangerten sing jero marang konteks lan target bisnis. Yen sampeyan ora bisa netepake apa tegese “apik banget” kanggo use case sampeyan, mesthine sampeyan uga ora bakal bisa nggayuh. Ing pangertèn iki, evals nyorot piwulang penting saka era AI: katrampilan manajemen iku katrampilan AI. Target sing cetha, umpan balik langsung, penilaian sing wicaksana, lan pangerten sing cetha babagan proposisi nilai, strategi, lan proses sampeyan isih penting, malah bisa dadi luwih penting tinimbang sadurunge.

Nalika luwih akeh praktik lan kerangka paling apik muncul, kita bakal nuduhake. Sauntara kuwi, kita ngajak sampeyan nyoba evals lan nemokake proses endi sing paling cocog karo kabutuhan sampeyan. Kanggo miwiti, identifikasina masalah sing arep dirampungake lan ahli domain sampeyan, kumpulna tim cilik sampeyan, lan, yen sampeyan mbangun ing API kita, jelajahia Platform Docs⁠(mbukak ing jendhela anyar) kita.

Aja mung ngarepake “apik banget.” Nemtokna, ukur, lan tingkatna menyang kana.

2025

Pangarang

OpenAI

Cathetan sikil

1
Yen sampeyan kepengin ndhukung karya kita mbangun generasi sabanjure saka model AI, kita ngajak sampeyan kanggo nyumbang menyang GDPVal⁠, benchmark paling anyar saka kita babagan cara model AI nindakake tugas ing donya nyata. Yen sampeyan ahli industri sing kasengsem arep nyumbang menyang GDPval, mangga tuduhake minat sampeyan ing kene⁠. Yen sampeyan pelanggan sing kerja bareng OpenAI lan pengin nyumbang ing puteran GDPval ing mangsa ngarep, mangga nyatakna minat ing kene⁠.

Terus maca

Deleng kabeh

Misahake sinyal saka gangguan ing evaluasi coding

Riset8 Jul 2026

Ngenalake GeneBench-Pro

Riset30 Jun 2026

A near-autonomous AI chemist improves a challenging reaction

Kimiawan AI sing meh otonom ningkatake reaksi sing angel ing kimia medisinal

Riset17 Jun 2026