Aqbeż għall-kontenut prinċipali
OpenAI

19 ta’ Novembru 2025

Riċerka

Kif l-evals imexxu l-kapitlu li jmiss tal-AI għan-negozji

Din l-introduzzjoni tgħallem lill-mexxejja tan-negozju kif oqfsa ta’ evalwazzjoni (“evals”) ibiddlu l-objettivi tan-negozju f’riżultati konsistenti.

Qed jillowdja…

Aktar minn miljun negozju madwar id-dinja qed jużaw l-AI biex imexxu effiċjenza akbar u ħolqien ta’ valur. Iżda xi organizzazzjonijiet sabuha diffiċli biex jiksbu r-riżultati li kienu qed jistennew. X’qed jikkawża din id-distakk?

F’OpenAI qed nużaw l-AI internament biex nilħqu l-miri ambizzjużi tagħna. Sett ewlieni ta’ għodod li nużaw huma l-evals, metodi biex jitkejjel u jittejjeb il-kapaċità ta’ sistema tal-AI li tilħaq l-aspettattivi. 

Simili għad-dokumenti tar-rekwiżiti tal-prodott, l-evals jagħmlu miri vagi u ideat astratti speċifiċi u espliċiti. L-użu strateġiku tal-evals jista’ jagħmel prodott għall-klijenti jew għodda interna aktar affidabbli fuq skala kbira, inaqqas żbalji ta’ severità għolja, jipproteġi kontra riskju negattiv, u jagħti lil organizzazzjoni triq li tista’ titkejjel għal ROI ogħla. 

F’OpenAI, il-mudelli tagħna huma l-prodotti tagħna, għalhekk ir-riċerkaturi tagħna jużaw evals fruntiera(jinfetaħ f’tieqa ġdida) 1 rigorużi biex ikejlu kemm il-mudelli jaħdmu tajjeb f’oqsma differenti. Filwaqt li l-evals fruntiera jgħinuna noħorġu mudelli aħjar aktar malajr, ma jistgħux jiżvelaw l-isfumaturi kollha meħtieġa biex jiżguraw li l-mudell jaħdem fuq fluss tax-xogħol speċifiku f’ambjent ta’ negozju speċifiku. Huwa għalhekk li t-timijiet interni ħolqu wkoll għexieren ta’ evals kuntestwali mfassla biex jivvalutaw il-prestazzjoni fi prodott speċifiku jew fluss tax-xogħol intern. Huwa wkoll għalhekk li l-mexxejja tan-negozju għandhom jitgħallmu kif joħolqu evals kuntestwali speċifiċi għall-ħtiġijiet u l-ambjent operattiv tal-organizzazzjoni tagħhom. 

Din hija introduzzjoni għall-mexxejja tan-negozju li qed ifittxu li japplikaw l-evals fl-organizzazzjonijiet tagħhom. L-evals kuntestwali, kull waħda maħduma għal fluss tax-xogħol jew prodott ta’ organizzazzjoni speċifika, huma qasam attiv ta’ żvilupp u għadhom ma ħarġux proċessi definittivi. B’riżultat ta’ dan, dan l-artiklu jipprovdi qafas wiesa’ li rajna jaħdem f’ħafna sitwazzjonijiet. Nistennew li dan il-qasam jevolvi u li joħorġu aktar oqfsa li jindirizzaw kuntesti u miri tan-negozju speċifiċi. Pereżempju, eval eċċellenti għal prodott għall-konsumatur avvanzat u msaħħaħ bl-AI jista’ jeħtieġ proċess differenti minn eval għal awtomazzjoni interna bbażata fuq proċedura operattiva standard. Nemmnu li l-qafas ippreżentat hawn taħt se jservi bħala ġabra ta’ l-aħjar prattiki fiż-żewġ każijiet, u se jkun gwida utli hekk kif tibnu evals imfassla għall-ħtiġijiet tal-organizzazzjoni tagħkom.

Kif jaħdmu l-evals: Speċifika → Kejjel → Ittejjeb

Dijagramma bit-titlu “Eval Blog” li turi fluss ta’ komponenti u proċessi ta’ evalwazzjoni, fuq sfond ċar b’blokki kkuluriti u vleġeġ li jirrappreżentaw il-loġika tal-evalwazzjoni tal-mudell.

1. Speċifika: Iddefinixxi xi jfisser “eċċellenti”

Ibda b’tim żgħir b’saħħtu li jista’ jikteb l-iskop tas-sistema tal-AI tiegħek b’termini sempliċi, pereżempju: “Ikkonverti emails deħlin kwalifikati f’demos skedati filwaqt li tibqa’ konsistenti mal-marka.”

Dan it-tim għandu jkun taħlita ta’ individwi b’għarfien tekniku u ta’ dominju (fl-eżempju mogħti, tkun trid esperti tal-bejgħ fit-tim). Għandhom ikunu jistgħu jiddikjaraw l-aktar riżultati importanti li għandhom jitkejlu, jiddeskrivu l-fluss tax-xogħol minn tarf sa tarf, u jidentifikaw kull punt importanti ta’ deċiżjoni li s-sistema tal-AI tiegħek se tiltaqa’ miegħu. Għal kull pass f’dak il-fluss tax-xogħol, it-tim għandu jiddefinixxi kif jidher is-suċċess u x’għandu jiġi evitat. Dan il-proċess joħloq mappatura ta’ għexieren ta’ inputs ta’ eżempju (eż. emails deħlin) mal-outputs li jridu li s-sistema tipproduċi. Is-sett tad-deheb ta’ eżempji li jirriżulta għandu jkun referenza ħajja u awtorevoli tal-ġudizzju u t-togħma tal-aktar esperti kapaċi tiegħek għal kif jidher “eċċellenti”.

La tħallix bidu kiesaħ jaħkmek u tippruvax issolvi kollox f’daqqa. Il-proċess huwa iterattiv u imħawwad. Il-prototipar bikri jista’ jgħin immens. Ir-reviżjoni ta’ 50 sa 100 output minn verżjoni bikrija tas-sistema tikxef kif u meta s-sistema tiegħek qed tfalli. Din l-“analiżi tal-iżbalji” tirriżulta f’tassonomija ta’ żbalji differenti (u l-frekwenzi tagħhom) biex jiġu segwiti hekk kif is-sistema tiegħek titjieb.

Dan il-proċess mhuwiex purament tekniku—huwa bejn funzjonijiet differenti u ffukat fuq id-definizzjoni tal-miri tan-negozju u l-proċessi mixtieqa. It-timijiet tekniċi m’għandhomx jintalbu waħedhom jiġġudikaw x’jaqdi l-aħjar lill-klijenti jew il-ħtiġijiet ta’ timijiet oħra bħall-prodott, il-bejgħ jew l-HR. Għalhekk, l-esperti tad-dominju, il-mexxejja tekniċi u partijiet interessati ewlenin oħra għandhom jaqsmu s-sjieda. 

2. Kejjel: Ittestja kontra kundizzjonijiet tad-dinja reali

Il-pass li jmiss huwa l-kejl. L-għan tal-kejl huwa li b’mod affidabbli joħroġ eżempji konkreti ta’ kif u meta s-sistema qed tfalli. Biex tagħmel dan, oħloq ambjent ta’ test dedikat li jirrifletti mill-qrib il-kundizzjonijiet tad-dinja reali—mhux sempliċement demo jew prompt playground. Ivvaluta l-prestazzjoni kontra s-sett tad-deheb u l-analiżi tal-iżbalji tiegħek taħt l-istess pressjonijiet u każijiet fil-periferija li s-sistema tiegħek fil-fatt se tiffaċċja.

Ir-rubrics jistgħu jgħinu biex jagħtu konkrezzjoni lill-ġudizzju tal-outputs mis-sistema tiegħek, iżda huwa possibbli li tingħata wisq enfasi lil elementi superfiċjali għad-detriment tal-miri ġenerali tiegħek. Barra minn hekk, xi kwalitajiet huma diffiċli jew impossibbli li jitkejlu. F’xi każijiet, metriċi tradizzjonali tan-negozju jkunu importanti. F’oħrajn, ikollok bżonn tivvinta metriċi ġodda. Żomm lill-esperti tas-suġġett tiegħek involuti matul il-proċess kollu, u allinja l-proċess b’mod strett mal-objettivi ewlenin tiegħek.

Biex verament tittestja s-sistema, uża eżempji meħuda minn sitwazzjonijiet tad-dinja reali kull meta jkun possibbli, u inkludi jew ivvinta każijiet fil-periferija li huma rari iżda għaljin jekk jiġu ttrattati ħażin. 

Xi evals jistgħu jitkabbru permezz tal-użu ta’ LLM grader, mudell tal-AI li jiġġudika outputs bl-istess mod li jagħmel espert; xorta waħda, jibqa’ importanti li jinżamm bniedem fil-linja. L-espert tad-dominju tiegħek jeħtieġ li jivverifika regolarment il-preċiżjoni tal-LLM graders u għandu wkoll jirrevedi direttament il-logs tal-imġiba tas-sistema tiegħek. 

L-evals jistgħu jgħinuk tiddeċiedi meta sistema tkun lesta għat-tnedija, iżda ma jieqfux mat-tnedija. Għandek tkejjel kontinwament il-kwalità tal-outputs reali tas-sistema tiegħek iġġenerati minn inputs reali. Bħal kull prodott, is-sinjali mill-utenti finali tiegħek (kemm jekk esterni jew interni) huma partikolarment importanti u għandhom jinbnew fl-eval tiegħek.

3. Ittejjeb: Tgħallem mill-iżbalji

L-aħħar pass huwa li twaqqaf proċess għal titjib kontinwu. L-indirizzar tal-problemi mikxufa mill-eval tiegħek jista’ jieħu ħafna forom: irfinar tal-prompts, aġġustament tal-aċċess għad-data, aġġornament tal-eval innifsu biex jirrifletti aħjar il-miri tiegħek, u l-bqija. Hekk kif tiskopri tipi ġodda ta’ żbalji, żidhom mal-analiżi tal-iżbalji tiegħek u indirizzahom. Kull iterazzjoni tibni fuq ta’ qabilha: kriterji ġodda u aspettattivi aktar ċari tal-imġiba tas-sistema jgħinu jiżvelaw każijiet ġodda fil-periferija u kwistjonijiet sottili u persistenti li jridu jiġu kkoreġuti.

Biex tappoġġja din l-iterazzjoni, ibni data flywheel. Irreġistra inputs, outputs u riżultati; agħmel kampjunar ta’ dawk il-logs skont skeda u awtomatikament ibgħat każijiet ambigwi jew għaljin għal reviżjoni minn espert. Żid dawn il-ġudizzji tal-esperti mal-eval u mal-analiżi tal-iżbalji tiegħek, imbagħad użahom biex taġġorna prompts, għodod jew mudelli. Permezz ta’ dan iċ-ċiklu tiddefinixxi b’mod aktar ċar l-aspettattivi tiegħek għas-sistema, tallinjaha aktar mill-qrib ma’ dawk l-aspettattivi, u tidentifika outputs u riżultati addizzjonali rilevanti li għandhom jiġu segwiti. L-implimentazzjoni ta’ dan il-proċess fuq skala kbira tagħti dataset kbir, differenzjat u speċifiku għall-kuntest li huwa diffiċli biex jiġi kkupjat—assi prezzjuż li l-organizzazzjoni tiegħek tista’ tuża hekk kif tibni l-aħjar prodott jew proċess fis-suq tiegħek. 

Filwaqt li l-evals joħolqu mod sistematiku biex ittejjeb is-sistema tal-AI tiegħek, jistgħu jinqalgħu modi ġodda ta’ falliment. Fil-prattika, hekk kif il-mudelli, id-data u l-miri tan-negozju jevolvu, l-evals iridu wkoll jinżammu, jitwessgħu u jiġu stress-tested kontinwament.

Għal implimentazzjonijiet li jħarsu lejn l-estern, l-evals ma jissostitwux testijiet A/B aktar tradizzjonali u esperimentazzjoni tal-prodott. Huma komplementi għall-esperimentazzjoni tradizzjonali li jistgħu jgħinu jiggwidaw lil xulxin u jipprovdu viżibilità dwar kif il-bidliet li tagħmel jaffettwaw il-prestazzjoni fid-dinja reali. 

Xi jfissru l-evals għall-mexxejja tan-negozju

Kull bidla teknoloġika kbira terġa’ ssawwar l-eċċellenza operattiva u l-vantaġġ kompetittiv. Oqfsa bħal OKRs u KPIs għenu lill-organizzazzjonijiet jorjentaw ruħhom madwar “li jitkejjel dak li jgħodd” għan-negozju tagħhom fl-era tal-analitika tad-data fuq skala kbira. L-evals huma l-estensjoni naturali tal-kejl għall-era tal-AI.

Li taħdem ma’ sistemi probabilistiċi jeħtieġ tipi ġodda ta’ kejl u konsiderazzjoni aktar profonda tat-trade-offs. Il-mexxejja jridu jiddeċiedu meta l-preċiżjoni hija essenzjali, meta jistgħu jkunu aktar flessibbli, u kif jibbilanċjaw il-veloċità u l-affidabbiltà.

L-evals huma diffiċli biex jiġu implimentati għall-istess raġuni li l-bini ta’ prodotti eċċellenti huwa diffiċli; jeħtieġu rigorożità, viżjoni u togħma. Jekk isiru sew, l-evals isiru differenzjaturi uniċi. F’dinja fejn l-informazzjoni hija disponibbli liberament madwar id-dinja u l-għarfien espert huwa demokratizzat, il-vantaġġ tiegħek jiddependi fuq kemm is-sistemi tiegħek jistgħu jwettqu tajjeb fil-kuntest tiegħek. Evals robusti joħolqu vantaġġi li jkomplu jinġemgħu u għarfien istituzzjonali hekk kif is-sistemi tiegħek jitjiebu. 

Fil-qalba tagħhom, l-evals huma dwar fehim profond tal-kuntest u l-objettivi tan-negozju. Jekk ma tistax tiddefinixxi xi jfisser “eċċellenti” għall-każ ta’ użu tiegħek, x’aktarx ma tilħqux. F’dan is-sens, l-evals jenfasizzaw lezzjoni ewlenija tal-era tal-AI: il-ħiliet ta’ ġestjoni huma ħiliet tal-AI. Miri ċari, feedback dirett, ġudizzju prudenti, u fehim ċar tal-proposta ta’ valur, l-istrateġija u l-proċessi tiegħek għadhom importanti, forsi aktar minn qatt qabel.

Hekk kif joħorġu aktar l-aħjar prattiki u oqfsa, aħna se naqsmuhom. Sadanittant, inħeġġuk tesperimenta bl-evals u tiskopri liema proċessi jaħdmu l-aħjar għall-ħtiġijiet tiegħek. Biex tibda, identifika l-problema li trid tissolva u l-espert tad-dominju tiegħek, ġib flimkien it-tim żgħir tiegħek, u, jekk qed tibni fuq l-API tagħna, esplora l-Platform Docs(jinfetaħ f’tieqa ġdida) tagħna.

Toqgħodx tittama għal “eċċellenti.” Speċifikah, kejlu, u tejjeb lejh.

Awtur

OpenAI

Noti ta’ qiegħ il-paġna

  1. 1

    Jekk tixtieq tappoġġja x-xogħol tagħna fil-bini tal-ġenerazzjoni li jmiss ta’ mudelli tal-AI, nistednuk tikkontribwixxi għal GDPVal, l-aħħar benchmark tagħna ta’ kif il-mudelli tal-AI jaħdmu fuq kompiti tad-dinja reali. Jekk int espert tal-industrija interessat tikkontribwixxi għal GDPval, jekk jogħġbok uri l-interess tiegħek hawn. Jekk inti klijent li jaħdem ma’ OpenAI u tixtieq tikkontribwixxi għal rawnd futur ta’ GDPval, jekk jogħġbok esprimi l-interess tiegħek hawn.