29 maj 2026

Një udhëzues i përbashkët për vlerësime të besueshme nga palë të treta

Çfarë ka rëndësi për vlerësime të pavarura efektive të masave mbrojtëse dhe aftësive për modelet avangardë.

Duke ngarkuar…

Vlerësimet e pavarura dhe të besueshme nga palë të treta luajnë një rol kritik⁠ në forcimin e ekosistemit të sigurisë. Këto vlerësime kryhen mbi modele avangardë për të ofruar prova shtesë për pretendimet rreth aftësive kritike dhe masave zbutëse të sigurisë. Në këtë postim, ne ndajmë mësimet që kemi nxjerrë deri tani dhe rekomandojmë qasjet për projektimin e vlerësimeve që mund të vlerësojnë në mënyrë të vlefshme modelet avangardë, të cilat shpresojmë të ndihmojnë në ofrimin e informacioneve për zhvillimin e standardeve në këtë fushë.

Më herët, shumë vlerësime i trajtonin modelet si bote bisede: vlerësimi i jepte një kërkesë modelit si të ishte një përdorues që bënte një pyetje, modeli përgjigjej dhe një vlerësues gjykonte për rezultatin. Modelet e sotme avangardë mund të bëjnë shumë më tepër: ato mund të përdorin mjetet, të ndjekin informacionet në shumë hapa dhe të veprojnë brenda një rrjedhe pune më të gjerë. Kjo do të thotë se performanca nuk varet vetëm nga modeli, por edhe nga mjedisi në të cilin zhvillohet detyra dhe nga konfigurimi që mbështet veprimet e tij. Ky konfigurim rrethues, që ne e quajmë “struktura”, mund të ndryshojë aspektet kryesore të performancës së sistemit, duke përfshirë mënyrën si i përdor mjetet, si i ndjek informacionet ose si rikuperon gabimet.

Diagram që krahason një rrjedhë pune kërkesë-përgjigje me një rrjedhë pune detyrash agjentike, e cila tregon se si ciklet e kontrollit, mjetet, konteksti, buxheti dhe masat mbrojtëse bëjnë të mundur ekzekutimin autonom të detyrave.

Kjo ndryshon mënyrën se si duhet të kryhen vlerësimet dhe se çfarë duhet të kërkojnë lexuesit në raportet e vlerësimit. Sipas nesh, raportet më të dobishme përshkruajnë në mënyrë qartë dy gjëra përtej vetë rezultatit: së pari, specifikojnë se cilin pretendim ishte projektuar të testonte konfigurimi i vlerësimit dhe, së dyti, paraqesin provat e disponueshme që rezultati i vlerësimit është i vlefshëm.

Pretendimet e testuara në vlerësime zakonisht ndahen në një nga tri kategoritë¹:

Nxjerrja e aftësisë: A mund të prodhojë në mënyrë të besueshme një model aftësinë që po vlerësohet?
Performanca e masave mbrojtëse: Sa të qëndrueshme janë masat mbrojtëse të testuara ndaj sjelljes ose sulmit që po vlerësohet?
Krahasimi: Si është performanca e modeleve të ndryshme në kushte të barasvlershme?

Raportet e vlerësimit duhet të shpjegojnë po ashtu se si vlerësuesit kanë kontrolluar për efekte që mund të ndikojnë në vlefshmërinë e një rezultati. Këto përfshijnë:

Manipulimin e shpërblimit: Shfrytëzimi i shkurtores në detyrë ose te vlerësuesi, në mënyrë që sistemi të marrë meritat pa demonstruar sjelljen që synon të masë vlerësimi.
Refuzimet: Refuzimi në mënyra që fshehin sjelljen që po testohet.
Kontaminimi: Mbiperformanca pasi detyrat e vlerësimit, përgjigjet ose variante të përafërta janë shfaqur në të dhënat e trajnimit ose mund të zbuloheshin gjatë vlerësimit, si p.sh. përmes shfletimit.
Probleme të dështimeve: Nënperformanca sepse detyrat janë të pavlefshme. Arsyet mund të përfshijnë pikëzim të padrejtë (p.sh. përgjigjja e saktë kërkon detaje të papërcaktuara të zbatimit) dhe mjedise që nuk mund të zgjidhen (p.sh. mungesë skedarësh kritikë ose mjete jo të besueshme).
Fshehja e aftësive: Nënperformancë e qëllimshme kur tregojnë ndërgjegjësimin se po vlerësohen.

Zgjedhja e strukturës së duhur për një vlerësim është thelbësore për rezultate optimale

Kemi vërejtur se roli i strukturës është veçanërisht i rëndësishëm për sistemet që veprojnë në trajektore më të gjata. Kur modelet mund të përdorin mjetet, të ruajnë gjendjen dhe të rikuperojnë gabimet në shumë hapa, struktura mund të ndryshojë nivelin e vëzhguar të performancës dhe të përcaktojë po ashtu nëse aftësia që po vlerësohet shfaqet apo jo në vlerësim. Për shembull, një strukturë që ruan gjendjen dhe riprovon veprimet e dështuara mund t’i lejojë një modeli ta përfundojë një detyrë me shumë hapa, të cilën i njëjti model nuk mund ta përfundojë kurrë në një strukturë më të thjeshtë.

Në tabelën më poshtë, ne ndajmë tre lloje pretendimesh që vlerësuesit mund të duan të bëjnë dhe strukturën që besojmë se kërkon çdo lloj pretendimi.

Pretendimi që po përpiqet të mbështesë vlerësimi	Zgjedhja e strukturës së përshtatshme	Provat për t'u raportuar
Aftësia nën kushtet më të forta të nxjerrjes: Sistemi A mund të përfundojë detyra të tipit X kur konfigurimi është projektuar për të treguar performancën e tij më të lartë të besueshme.	Përdor konfigurimin më të fortë të besueshëm të nxjerrjes për sistemin, duke përfshirë strukturën, mjetet, strukturën mbështetëse dhe buxhetin që një përdorues i aftë do të përdorte në mënyrë të arsyeshme.	Konfigurimi i strukturës dhe i mjeteve, udhëzimet për nxjerrjen, buxheti/përpjekja e lejuar, tokenet/kostoja/koha dhe pse konfigurimi është një tregues i besueshëm për aftësinë e pretenduar. Nëse krahasohen sisteme në konfigurime të ndryshme të optimizuara, etiketoje si krahasim sistem-me-sistem ose krahasim me nxjerrje të fortë.
Krahasimi i kontrolluar: Sistemi A e tejkalon performancën e Sistemit B në një konfigurim të përbashkët vlerësimi.	Mbaji të pandryshuara detyrat, pikëzimin dhe buxhetin. Përdor ose një konfigurim të përbashkët strukture/mjetesh ose një grup të fiksuar strukturash të standardizuara të zgjedhura paraprakisht për të ofruar nxjerrjen maksimale të arsyeshme për sistemet që krahasohen.	Grupi i përbashkët i detyrave, mjetet, metoda e pikëzimit, struktura, buxheti, efikasiteti/kostoja e tokenëve dhe kufizimet e njohura. Për vlerësimet e agjentëve të kodimit, një strukturë me burim të hapur si Codex CLI mund të ofrojë një cikël të fiksuar agjenti dhe ndërfaqen e mjeteve në sisteme. Qasja ideale për nxjerrjen maksimale do të ishte optimizimi i një strukture të posaçme për çdo detyrë dhe sistem, por kjo nuk është praktike aktualisht në praktikë.
Qëndrueshmëria e masave mbrojtëse nën një sulm të nxitur: Masat mbrojtëse të Sistemit A janë të mjaftueshme për sjelljen përkatëse të modelit ose sulmin e nxitur.	Përdor një konfigurim të testimit të masave mbrojtëse të projektuar për të nxitur sulmin më të fortë të besueshëm sipas modelit përkatës të kërcënimit.	Si e karakterizuan vlerësuesit sjelljen përkatëse të modelit, konfigurimin e testuar të masave mbrojtëse, strategjinë e nxjerrjes, strukturën e përdorur për zbatimin dhe buxhetin ose përpjekjen e lejuar.

Pretendimet për aftësi janë po aq të forta sa nxjerrja që qëndron pas tyre: vlerësuesit duhet të zgjedhin strukturën që i përshtatet më mirë detyrës dhe aftësisë që po përpiqet të masë vlerësimi. Një strukturë e standardizuar mund të jetë e përshtatshme për krahasimin e sistemeve në kushte identike, por mund ta nënvlerësojë aftësinë kur nuk përfshin veçori specifike të strukturës që e ndihmojnë modelin të kryejë detyrën. Për shembull, performanca e GPT‑5.5 në intervalet kibernetike të OpenAI tregon se si zgjedhja e strukturës mund të ndryshojë në mënyrë thelbësore aftësinë e matur në detyra që kërkojnë përdorim të gjatë dhe me shumë hapa të mjeteve: modeli ka një performancë më të mirë kur struktura përdor kompaktimin⁠ për të ruajtur kontekstin në lidhje me detyrën kur ndërveprimi zgjatet më shumë. Kjo tregon se për disa modele, një strukturë që nuk përfshin kompaktimin do të nxiste një performancë më të ulët.

Normat më të larta të suksesit janë më të mira

Edhe vlerësime të tjera të publikuara² tregojnë se zgjedhjet e strukturës dhe buxhetit sjellin ndryshime në rezultatet e vlerësimit. Rritja e përllogaritjes së kohës së testimit mund të ndryshojë ndjeshëm se çfarë aftësie nxjerr një vlerësim, sidomos në fusha ku suksesi verifikohet me lehtësi, si p.sh. në shumë detyra kibernetike. Në vlerësimin e intervaleve kibernetike të UK AISI⁠(hapet në një dritare të re), rritja e buxhetit nga 10 milionë në 100 milionë tokenë e përmirësoi performancën deri në 59%, dhe performanca ishte ende në rritje në buxhetin më të lartë të testuar. Shpjegimi i kësaj e bën vlerësimin më të interpretueshëm: u tregon lexuesve se si rezultati varet nga konfigurimi i testuar i nxjerrjes. Kur performanca vazhdon të përmirësohet me buxhet shtesë, rezultati duhet të përshkruhet si performancë në atë strukturë dhe buxhet, jo si një kufiri maksimal i matur i aftësisë. Aftësia shpesh varet nga burimet dhe nuk është një vlerë sasiore fikse që mund të matet pastër një herë e përgjithmonë. Kur suksesi mund të matet në përpjekje të përsëritura, raportet duhet të marrin parasysh edhe koston e pritshme për çdo zgjidhje të suksesshme, jo vetëm normën e suksesit me një buxhet fiks tokenësh. Kjo mund ta bëjë më të lehtë interpretimin e nivelit të rëndësisë: një normë e ulët suksesi mund të jetë përsëri domethënëse në praktikë nëse kostoja e përpjekjeve të përsëritura është brenda modelit përkatës të kërcënimit. Për pretendimet për aftësinë, nxjerrja e pamjaftueshme e shmangshme është një dështim i matjes: nëse struktura ose buxheti e pengon sistemin të shfaqë një sjellje që mund të prodhohej në një mënyrë tjetër, rezultati nuk mat aftësinë e pretenduar. Kur vlerësuesit e shtyjnë nxjerrjen në maksimumin e nivelit të realizimit dhe performanca vazhdon të përmirësohet, raportet duhet ta tregojnë këtë në mënyrë të qartë dhe të bëjnë të qartë se rezultati është vetëm një vlerësim i kufirit të poshtëm.

Testimi i masave mbrojtëse mund të nënvlerësojë nëse një sulm mund të ketë sukses dhe sa i rëndë mund të jetë ai, kur nuk merren parasysh burimet në dispozicion të sulmuesve, duke përfshirë strukturat e personalizuara. Në vlerësimin kibernetik të GPT‑5.5 nga UK AISI⁠(hapet në një dritare të re), simulimi i sulmeve nga ekspertët e tyre zbuloi një thyerje universale që nxori përmbajtje kibernetike shkelëse në të gjitha kërkesat keqdashëse të ofruara nga OpenAI, duke përfshirë në cilësimet agjentike me shumë shkëmbime. Ata përdorën Codex për të krijuar një strukturë të personalizuar për të rritur performancën e sulmit të modelit: ai integroi një model të ripërdorshëm për anashkalimin e masave mbrojtëse në ndërveprim, e ruajti atë model në shkëmbime dhe blloqe dhe e zbatoi në kërkesat kibernetike keqdashëse të ofruara nga OpenAI. Testimi i masave mbrojtëse duhet të përputhet me kërcënimin. Nëse pretendimi ka të bëjë me qëndrueshmërinë ndaj keqpërdorimit nga ekspertët, testimi duhet të vlerësojë strategjinë më të fortë të besueshme të sulmit nga fillimi në fund brenda një buxheti të përcaktuar, duke përfshirë çdo strukturë të nevojshme për ta ruajtur dhe ripërdorur atë strategji. Përndryshe, mund të ekzistojë rreziku për kalibrim të gabuar në lidhje me rezultatet: ato mund të mbështesin vetëm një pretendim më të ngushtë për rezistencën ndaj kërkesave më të thjeshta, mund të mos kuptojnë nivelin e rëndësisë së sulmit si dhe probabilitetin e suksesit të tij kur zbatohet metoda e nxjerrjes, si dhe mund të mbivlerësojnë sa i mundshëm ose sa i rëndë mund të jetë një problem nëse i jepet shumë buxhet.

Ka gjithmonë vend për krahasimet e strukturave të standardizuara, por vlerësuesit duhet të jenë të qartë pse përdorimi i një grupi konsistent strukturash është i përshtatshëm dhe se çfarë pretendimi mund të mbështesë ai. Vlerësimi i horizontit kohor nga METR⁠(hapet në një dritare të re) është një shembull i një konfigurimi më të gjerë dhe të fiksuar siç duhet i vlerësimit: ai është projektuar për të prodhuar rezultate të krahasueshme në sistemet që vlerëson. METR përcakton një rezultat të zakonshëm, kohëzgjatjen tipike të një detyre njerëzore në të cilën parashikohet që një agjent i IA-së të ketë sukses me një nivel të caktuar besueshmërie. Ai zbaton një grup të përbashkët detyrash, një metodë pikëzimi, një metodë përshtatjeje dhe një grup të vogël strukturash të ripërdorshme si Triframe dhe ReAct⁠(hapet në një dritare të re) brenda çdo grupi vlerësimesh të raportuara së bashku. Kur METR e zgjeroi grupin e detyrave dhe e zhvendosi infrastrukturën e vlerësimit nga një kornizë e quajtur Vivaria në një tjetër të quajtur Inspect, ai raportoi ndryshimin (përditësimi i Time Horizon 1.1⁠(hapet në një dritare të re)) dhe i rivlerësoi modelet nën konfigurimin e ri të vlerësimit. Kjo është vlera e një konfigurimi të standardizuar vlerësimi, duke përfshirë një grup konsistent strukturash: ai mund t’u japë lexuesve besimin se një ndryshim në rezultate pasqyron vërtet një ndryshim midis sistemeve që krahasohen, dhe jo një ndryshim në konfigurimin e matjes.

Ne rekomandojmë që raportet e vlerësimit nga palë të treta të tregojnë çfarë lloj pretendimi synon të mbështesë konfigurimi i tyre i vlerësimit; të përshkruajnë sa afër pasqyron ajo që u testua atë pretendim më të gjerë; të përshkruajnë zgjedhjet e strukturës që i dhanë formën rezultatit; të japin detaje kur ato zgjedhje ndryshojnë midis vlerësimeve; si dhe të përfshijnë prova mbështetëse për të treguar si u prodhua rezultati dhe sa mirë përgjithësohet ai ndaj pretendimit.

Vlerëso vlefshmërinë duke kontrolluar për rreziqe të njohura që mund të shtrembërojnë rezultatet

Ndërsa modelet bëhen më të afta, bëhet më e lehtë që rezultatet e vlerësimeve të keqinterpretohen. Sipas aftësive reale, rezultatet e vlerësimit mund të ulen artificialisht nëse një model e kupton se po vlerësohet dhe shfaq një nënperformancë në mënyrë strategjike. Ato mund të fryhen nëse modeli shfrytëzon një shkurtore në detyrë, kërkesë, vlerësues ose strukturë. Ato mund të shtrembërohen gjithashtu nga kontaminimi (kur një model e di tashmë ose mund të gjejë një përgjigje pa e zgjidhur detyrën) ose nga probleme “të dështuara” që janë të paqarta, të vlerësuara gabim, të pazgjidhshme ose të cenueshme ndaj shkurtoreve të paqëllimshme. Prandaj, raportet e vlerësimit duhet t’i shoqërojnë rezultatet kryesore me një diskutim të këtyre rreziqeve, në mënyrë që lexuesit të mund të vlerësojnë nëse rezultatet pasqyrojnë sjelljen e synuar.

Strukturat, buxhetet, mjetet, rregullat e pikëzimit, monitoruesit dhe procedurat e shqyrtimit ndikojnë të gjitha nëse një agjent po zgjidh detyrën e synuar, po e shmang atë, po e memorizon apo po gjen një rrugë për ta anashkaluar atë. Një raport i besueshëm i bën të dukshme këto kontrolle: vlerësuesit duhet të rishikojnë mostrat për këto sjellje sa herë që kryhet një vlerësim përllogaritës.

Manipulimi i shpërblimit

Manipulimi i shpërblimit do të thotë arritje e rezultateve të larta të vlerësimit në mënyra që nuk pasqyrojnë aftësinë e synuar. Këtu, shqetësimi është që sistemi merr meritat duke shfrytëzuar detyrën, vlerësuesin, kërkesën ose strukturën, në vend që të bëjë punën që synonte të maste vlerësimi. Vlerësimi i GPT 5.4 nga METR⁠(hapet në një dritare të re) tregon pse kjo ka rëndësi: pavarësisht se modeli pati sukses në detyra me një normë që në vlerësimin e parë do të regjistrohej si një horizont kohor afërsisht 13-orësh, shqyrtimi njerëzor tregoi se disa nga ato suksese vinin nga manipulimi i shpërblimit, dhe rishikimi i rezultateve për të llogaritur vetëm rastet pa manipulimin e shpërblimit e uli vlerësimin në rreth 6 orë. Vlerësuesit duhet të vlerësojnë nevojën për rregullime të tilla dhe, kur ato janë të nevojshme, t’i raportojnë ato në mënyrë të qartë: një vlerësim aftësie është shumë më i dobishëm kur lexuesit mund të shikojnë se cilat suksese të dukshme janë skualifikuar, pse janë skualifikuar dhe sa varet rezultati nga ai gjykim.

Grafiku që tregon performancën e modelit të IA-së me kalimin e kohës, me një vijë tendence dhe intervalet e besimit.

Refuzimet

Modelet mund të tregojnë një nënperformancë në vlerësimet e aftësisë edhe për shkak të masave mbrojtëse. Një model mund të ketë performancë më të ulët në vlerësim nga sa mund të arrijë për shkak se refuzon detyrat e vlerësimit në vend që t’i përfundojë ato. Për këtë arsye, raportet duhet të shpjegojnë nëse refuzimet kanë qenë pjesë e rezultateve të vlerësimit dhe, nëse po, sa mostra janë komprometuar për këtë shkak.

Kontaminimi

Kontaminimi ka më shumë rëndësi për standardet publike ose të ripërdorura të referencës⁠. Nëse detyrat, përgjigjet ose variante të përafërta shfaqen në të dhënat e trajnimit ose mund të gjenden nga një agjent me shfletim, performanca mund të pasqyrojë memorizimin ose marrjen e informacioneve dhe jo performancën e modelit. Vlerësuesit duhet të preferojnë detyra private ose të ndërtuara rishtazi kur është e mundur dhe të testojnë nëse modelet riprodhojnë detaje specifike të detyrës përpara se ta zgjidhin atë.

Problemet e dështimeve

Problemet e dështimeve përfshijnë situata si p.sh. një problem që aksidentalisht nuk mund të zgjidhet. Problemet e dështimeve janë mjaft të zakonshme⁠(hapet në një dritare të re) sa duhet të trajtohen si një rrezik standard për vlefshmërinë. Ato përfshijnë të vërteta bazë të pasakta, kërkesa të paqarta, skedarë që mungojnë, shërbime të paqëndrueshme, kritere të padrejta pikëzimi dhe mjedise që ekspozojnë shkurtore si skedarë të fshehur përgjigjesh ose histori depoje që përmban korrigjimin për të vërtetën bazë.

Fshehja e aftësive

Fshehja e aftisëve nga një model ose sistem do të thotë nënperformancë në mënyrë strategjike kur performanca e lartë do të krijonte një konflikt me një objektiv. Vlerësimi i GPT‑5.5⁠(hapet në një dritare të re) nga Apollo e testoi këtë duke krijuar një kontekst ku modeli e kuptonte se rezultatet e larta të vlerësimit mund të shkaktonin eliminimin e mësimeve ose të bllokonin zbatimin në përdorim. GPT‑5.5 gjithsesi u përgjigj saktë, duke sugjeruar pak prova për sjelljen për një nënperformancë në mënyrë strategjike³. Por rishikimi i gjurmëve të arsyetimit shtoi një kontekst të rëndësishëm: Apollo zbuloi shenja mesatare ose më të larta të ndërgjegjësimit për vlerësimin e përputhjes në 52% të mostrave në kushtin e fshehjes së aftësive, krahasuar me 0% në kundërfakte. Këto prova e ndërlikojnë interpretimin e rezultatit, por si përfundim u japin lexuesve më shumë sinjale: lexuesit mund të shohin si rezultatin konfirmues të sjelljes, ashtu edhe arsyen për të qenë të kujdesshëm për interpretimin e tepërt të tij.

Si i mbështesim vlerësimet më të forta

Pretendimet e forta kërkojnë si strukturën e duhur për të nxjerrë sjelljen, ashtu edhe kontrollet e vlefshmërisë për të treguar se rezultati është i qëndrueshëm. Pikëpamja jonë se strukturat dhe kontrollet e vlefshmërisë janë pjesë e rezultatit të vlerësimit i jep formën mënyrës se si i mbështesim në praktikë vlerësimet nga palë të treta:

Ne ndajmë udhëzime specifike për nxjerrje maksimale me vlerësuesit.
Ne u kërkojmë vlerësuesve të aftësive të përdorin Codex si një bazë të përbashkët për modelet e OpenAI: testet duhet të ekzekutojnë të paktën një bazë krahasimi përmes së njëjtës ndërfaqe agjentike tek e cila mund të mbështeten përdoruesit dhe jo vetëm përmes një ndërfaqeje të zhveshur të modelit.
Ne po vëmë po ashtu në dispozicion gjurmët e arsyetimit dhe artefakte të tjera të ndërmjetme kur nevojiten për të vlerësuar mashtrimin, fshehjen e aftësive ose ndërgjegjësimin për vlerësimin. METR dhe Apollo e kanë përdorur këtë qasje në vlerësimet e OpenAI që nga GPT‑5.
Si përfundim, ne po i japim përparësi kërkimit për të kuptuar më në thellësi kur dhe si zgjedhjet e strukturës ndryshojnë në mënyrë thelbësore rezultatet, nga menaxhimi i kontekstit dhe qasja në mjete te sjellja e ripërpjekjes, pikëzimi dhe buxhetet e burimeve.

Çfarë do të thotë kjo për standardet e vlerësimit dhe drejtimet e kërkimit në të ardhmen

Këto rekomandime synojnë jo vetëm të përmirësojnë raportet individuale të vlerësimit, por edhe të sigurojnë informacione për standardet kombëtare ⁠(hapet në një dritare të re)dhe ndërkombëtare ⁠(hapet në një dritare të re)në zhvillim për vlerësimin dhe raportimin në lidhje me IA-në avangardë. Në vijim, standardet e vlerësimit nga palë të treta duhet të kërkojnë mjaft detaje që vendimmarrësit të kuptojnë se cilat pretendime mbështesin vlerësimet specifike, cili sistem është testuar, si është nxjerrë rezultati dhe si e kanë kontrolluar vlerësuesit vlefshmërinë e tij. Për sistemet avangardë që testohen në detyra ku aftësitë agjentike kanë rëndësi, detajet duhet të përfshijnë (në varësi të çdo shqetësimi për sigurinë ose konfidencialitetin):

Pretendimi: nëse vlerësimi krahason sistemet, vlerëson një kufi të sipërm të aftësive ose teston masat mbrojtëse.
Përmbajtja e vlerësimit: detaje të mjaftueshme rreth detyrave ose shpërndarjes së detyrave që lexuesit të kuptojnë se cilat aftësi, sjellje ose modalitete dështimi po teston realisht vlerësimi.
Sistemi i testuar: modeli, cilësimi i arsyetimit, qasja në mjete, struktura dhe masat mbrojtëse.
Buxheti: shkëmbimet, tokenët, përpjekjet/ripërpjekjet, koha reale, kostoja e konkluzioneve dhe, kur është e zbatueshme, kostoja e pritshme për çdo zgjidhje të suksesshme.
Metodat e nxjerrjes: zgjedhjet e strukturave të përdorura për të nxjerrë rezultatin dhe sa afër pasqyron ajo që u testua pretendimin më të gjerë që bëhet.
Kontrollet e vlefshmërisë: si kërkuan vlerësuesit për manipulimin e shpërblimit, ndërgjegjësimin për vlerësimin, kontaminimin, refuzimet, fshehjen e aftësive dhe sjellje të tjera që mund të minojnë rezultatin, duke përfshirë se4 si ndikuan rastet e konfirmuara në pikëzim ose interpretim.

Standardet që lënë jashtë zgjedhjet e strukturës ose kontrollet e vlefshmërisë mund të nënvlerësojnë atë që një sistem mund të bëjë ose të mbivlerësojnë besimin në një pretendim sigurie. Ndërtimi i metodave të nxjerrjes dhe strukturave të forta mbetet një fushë e hapur kërkimi dhe duhet të jetë fokusi për hetim dhe investim të mëtejshëm.

2026

Autor

OpenAI

Fjalorthi

Për shkak se në këtë postim përdorim disa terma teknikë, më poshtë kemi përfshirë një fjalorth që jep një shpjegim me fjalë të thjeshta për ato që nënkuptojmë:

Sistem agjentik: Një sistem që mund të kryejë një detyrë në disa hapa, duke përdorur mjete, duke ruajtur gjendjen e detyrës dhe duke vepruar në një mjedis, në vend që të kthejë vetëm një përgjigje të vetme për një kërkesë.
Vlerësim përllogaritës: Një gjykim më i gjerë nëse provat mbështesin një pretendim, përfundim rreziku ose pozicion sigurie, i cili mund të bazohet në të dhënat e vlerësimit, rishikimin e dokumenteve, intervistat, rishikimin e procesit dhe artefakte të tjera përkatëse.
Kompaktim: Metodë për ruajtjen e kontekstit përkatës të detyrës gjatë ekzekutimeve të zgjatura.
Konfigurim: Sistemi i saktë i testuar dhe kushtet e vlerësimit, përtej emrit të modelit.
Kontaminim: Kur detyrat e vlerësimit, përgjigjet ose variante të përafërta shfaqen në të dhënat e trajnimit të një modeli ose mund të zbulohen gjatë vlerësimit (p.sh. përmes mjeteve si shfletimi), duke bërë që performanca ta ekzagjerojë përgjithësimin e vërtetë të modelit.
Nxjerrje: Procesi i përpjekjes për të nxjerrë një aftësi ose sjellje nga një sistem gjatë një vlerësimi përllogaritës.
Mjedis: Konteksti i detyrës në të cilin testohet një sistem. Ai përfshin gjëra si gjendja e jashtme me të cilën ndërvepron agjenti dhe që ai ndryshon gjatë një vlerësimi, si p.sh. një mjedis terminali ose një videolojë.
Vlerësim: Test ose matje e veçantë brenda një vlerësimi përllogaritës.
Ndërgjegjësimi për vlerësimin: Ndërgjegjësimi për vlerësimin i referohet rastit kur një model e kupton, ose duket se e kupton, se po vlerësohet dhe mund ta përshtatë sjelljen e tij në përgjigje të atij konteksti. Kjo mund të duket si arsyetim i qartë i modelit për faktin se po testohet, nxjerrje e qëllimit të vlerësimit ose ndryshim i sjelljes pasi pret që rezultati të ndikojë në mënyrën si gjykohet ose përdoret.
Struktura: Struktura e orientuar nga modeli që i lejon një modeli të kryejë një detyrë: kërkesat, mjetet, ndërfaqet, logjika e kontrollit, memoria, ripërpjekjet, vërtetuesit dhe struktura të tjera mbështetëse rreth modelit.
Nxjerrje maksimale: Testim që synon të gjejë performancën më të mirë të besueshme ose modalitetin e dështimit që një sistem mund të prodhojë brenda një buxheti të përcaktuar, në vend që thjesht ta ekzekutojë sistemin një herë përmes një strukture të standardizuar.
Gjurmët e arsyetimit: Regjistrimet e arsyetimit të ndërmjetëm të modelit gjatë një testi.
Manipulimi i shpërblimit: Arritja e një rezultati të lartë përmes një shkurtoreje ose sjelljeje jashtë qëllimit të vlerësuesit.
Masat mbrojtëse: Filtrat, monitorët, sistemet e bllokimit dhe mbrojtje të tjera të zbatuara rreth një modeli ose produkti.
Fshehja e aftësive: Nënperformancë strategjike në një vlerësim në një mënyrë që minon rezultatin.
Pikëzimi: Metoda e përdorur për të vendosur se si matet performanca ose nëse një detyrë ka arritur suksesin.
Struktura e standardizuar: Struktura që mbahet e njëjtë mes sistemeve të ndryshme, në vend që të përshtatet për një model ose detyrë të caktuar, në mënyrë që diferencat në rezultate t’i atribuohen më lehtë modelit të testuar.
Horizonti kohor: Gjatësia e detyrës për të cilën një sistem mund ta përfundojë me një besueshmëri të caktuar, shpesh e shprehur si sasia e kohës do t’i duhej një personi për të njëjtën detyrë.
Qasja në mjete: Mjetet e jashtme të disponueshme për modelin gjatë vlerësimit përllogaritës.
Trajektoret: Rrugët hap pas hapi që ndjek një sistem gjatë punës për një detyrë.
Thyerje universale: Një model i vetëm sulmi që bën një sistem të anashkalojë masat mbrojtëse në shumë kërkesa ose detyra.

Shënime

1
Ky postim nuk përpiqet të zgjidhë se si palët e treta duhet të vlerësojnë pretendimet në lidhje me mospërputhjen ose prirjen e natyrshme. Nevojitet më shumë punë për të kuptuar se si ndikojnë zgjedhjet e strukturës në ato vlerësime, në mënyrë të veçantë sepse strukturat që mbështesin sjelljen me një horizont më të gjatë mund të ndryshojnë edhe llojet e sjelljes së paqëllimshme që duhet të monitorojnë vlerësuesit.
2
HAL⁠(hapet në një dritare të re) ofron një shembull shtesë nga vlerësimet e agjentëve: në CORE-Bench⁠(hapet në një dritare të re), ndryshimi i strukturës në Claude Code ndryshoi si performancën e matur, ashtu edhe profilin e kostos në të njëjtin standard reference. Shembuj të tjerë publikë përfshijnë SWE-agent⁠(hapet në një dritare të re), SeeAct⁠(hapet në një dritare të re), ScienceAgentBench⁠(hapet në një dritare të re), CORE-Bench⁠(hapet në një dritare të re) dhe Inspect Cyber⁠(hapet në një dritare të re); secili u tregon lexuesve se cila ndërfaqe ose strukturë e ka prodhuar rezultatin.
3
Me 100% pikë në të dyja variantet e kontrollit të sigurisë për fshehjen e aftësive dhe 99,6% në detyrën e fshehjes së aftësisë për mashtrimet në mënyrë strategjike.

Vazhdo të lexosh

Shiko të gjitha

Safety and alignment in an era of long-horizon models

Siguria20 korr 2026

Why teens deserve access to safe AI

Siguria16 korr 2026

GPT-Red: Çlirimi i përmirësimit automatik për qëndrueshmërinë

Siguria15 korr 2026