Հուսալի երրորդ կողմի գնահատումների միասնական ուղեցույց
Ինչն է կարևոր առաջադեմ մոդելների պաշտպանական միջոցների և կարողությունների արդյունավետ անկախ գնահատումների համար։
Անկախ, վստահելի երրորդ կողմի գնահատումները կարևոր դեր են խաղում անվտանգության էկոհամակարգի ամրապնդման գործում։ Այս գնահատումները կատարվում են առաջադեմ մոդելների վրա՝ կարևոր կարողությունների և անվտանգության մեղմեցումների մասին պնդումների համար լրացուցիչ ապացույցներ տրամադրելու նպատակով։ Այս գրառման մեջ մենք ներկայացնում ենք մինչ օրս քաղած դասերը և առաջարկում ենք գնահատումների նախագծման մոտեցումներ, որոնք թույլ են տալիս վավեր և հիմնավորված կերպով գնահատել առաջադեմ մոդելները։ Հուսով ենք, որ դրանք կնպաստեն ոլորտում ձևավորվող չափանիշների և լավագույն փորձի զարգացմանը։
Ավելի վաղ շատ գնահատումներ մոդելներին վերաբերվում էին որպես չաթբոթերի․ գնահատման ընթացքում մոդելին հարց էր տրվում այնպես, կարծես օգտատերը հարց է ուղղում, մոդելը պատասխանում էր, և գնահատողը գնահատում էր արդյունքը։ Այսօրվա առաջադեմ մոդելները կարող են շատ ավելին անել․ դրանք կարող են օգտագործել գործիքներ, հետևել տեղեկատվությանը բազմաթիվ քայլերի ընթացքում և գործել ավելի լայն աշխատանքային հոսքերի շրջանակում։ Սա նշանակում է, որ կատարողականը կախված է ոչ միայն մոդելից, այլ նաև այն միջավայրից, որտեղ իրականացվում է առաջադրանքը, և այն շրջանակից, որը ապահովում է դրա իրականացումը։ Այս շրջապատող շրջանակը, որը մենք անվանում ենք «հարնես», կարող է փոխել համակարգի կատարողականի վրա ազդող առանցքային գործոնները, ներառյալ՝ ինչպես է այն օգտագործում գործիքները, պահպանում տեղեկատվությունը կամ վերականգնվում սխալներից։
Սա փոխում է, թե ինչպես պետք է իրականացվեն գնահատումները և ինչին պետք է ուշադրություն դարձնեն ընթերցողները գնահատման հաշվետվություններում։ Մեր կարծիքով՝ ամենաօգտակար հաշվետվությունները արդյունքից բացի հստակ նկարագրում են ևս երկու բան․ նախ՝ նշում են, թե որ պնդումն է նախատեսված ստուգելու գնահատման կազմաձևը, և երկրորդ՝ ներկայացնում են առկա ապացույցները, որոնք հաստատում են գնահատման արդյունքի վավերականությունը։
Գնահատումներում ստուգվող պնդումները սովորաբար բաժանվում են երեք խմբի1․
- Կարողության էլիցիտացիա․ կարո՞ղ է մոդելը իրատեսորեն դրսևորել գնահատվող կարողությունը։
- Պաշտպանական միջոցների կատարողական․ որքանո՞վ են փորձարկված պաշտպանական միջոցները կայուն գնահատվող վարքի կամ հարձակման նկատմամբ։
- Համեմատություն․ ինչպե՞ս են տարբեր մոդելները գործում համարժեք պայմաններում։
Գնահատման հաշվետվությունները նաև պետք է բացատրեն, թե ինչպես են գնահատողները ստուգել այն գործոնները, որոնք կարող էին ազդել արդյունքի վավերականության վրա։ Դրանք ներառում են՝
- Պարգևատրման համակարգի հաքինգ․ առաջադրանքի կամ գնահատիչի շրջանցումների շահագործում, որի արդյունքում համակարգը գնահատական է ստանում՝ առանց դրսևորելու այն վարքը, որը գնահատումը նախատեսված էր չափելու։
- Մերժումներ․ մերժել այնպես, որ քողարկվի փորձարկվող վարքը։
- Աղտոտում․ գերակատարում, որովհետև գնահատման առաջադրանքները, պատասխանները կամ մոտ տարբերակները հայտնվել են ուսուցման տվյալներում կամ հայտնաբերվել են գնահատման ընթացքում, օրինակ՝ դիտարկման միջոցով։
- Խափանված խնդիրներ․ թերակատարում առաջադրանքների անվավեր լինելու պատճառով։ Պատճառները կարող են ներառել անարդար գնահատում (օրինակ՝ ճիշտ պատասխանը պահանջում է չնշված իրականացման մանրամասներ) և խնդրահարույց միջավայրեր (օրինակ՝ բացակա կարևոր ֆայլեր կամ անհուսալի գործիքներ)։
- Sandbagging․ դիտավորյալ թերակատարում, երբ մոդելները դրսևորում են գիտակցում այն մասին, որ գտնվում են գնահատման գործընթացում։
Մենք նկատել ենք, որ հարնեսի դերը հատկապես կարևոր է երկար շղթայական գործողություններով համակարգերի դեպքում։ Երբ մոդելները կարող են օգտագործել գործիքներ, պահպանել վիճակը և վերականգնվել սխալներից բազմաքայլ գործընթացների ընթացքում, հարնեսը կարող է էապես փոխել դիտարկվող կատարողականի մակարդակը և նույնիսկ որոշել, թե արդյոք գնահատվող կարողությունը կարտահայտվի գնահատման ընթացքում։ Օրինակ՝ վիճակի պահպանում և ձախողված գործողությունների կրկնման հնարավորություն ունեցող հարնեսը կարող է թույլ տալ մոդելին ավարտել բազմաքայլ առաջադրանք, որը նույն մոդելը չի ավարտում ավելի պարզ հարնեսի դեպքում։
Ստորև բերված աղյուսակում մենք առանձնացնում ենք երեք տեսակի պնդումներ, որոնք գնահատողները կարող են ցանկանալ ձևակերպել, և այն փորձարկման շրջանակը, որը, մեր կարծիքով, պահանջվում է յուրաքանչյուր տեսակի պնդման համար։
Պնդումը, որը գնահատումը փորձում է հիմնավորել | Համապատասխան հարնեսի ընտրություն | Ներկայացվող ապացույցներ |
Ուժեղ էլիցիտացիայի պայմաններում կարողություն․ Համակարգ A-ն կարող է կատարել X տիպի առաջադրանքներ, երբ կարգավորումը նախատեսված է նրա ամենաբարձր վստահելի կատարողականը բացահայտելու համար։ | Օգտագործեք համակարգի համար ամենաուժեղ վստահելի էլիցիտացիոն կարգավորումը, ներառյալ հարնեսը, գործիքները, օժանդակ կառուցվածքները և այն բյուջեն, որը կարող է ողջամտորեն կիրառել հմուտ օգտատերը: | Հարնեսի և գործիքների կարգավորումը, էլիցիտացիայի ուղեցույցը, թույլատրված բյուջեն/ջանքը, թոքենները/ծախսը/ժամանակը, ինչպես նաև այն, թե ինչու է այդ կարգավորումը համարվում վստահելի փոխարինիչ հայտարարված կարողության համար։ Եթե համակարգերը համեմատվում են տարբեր օպտիմիզացված կարգավորումներով, դա նշեք որպես համակարգից-համակարգ կամ ուժեղ էլիցիտացիայի համեմատություն։ |
Վերահսկվող համեմատություն․ ընդհանուր գնահատման կարգավորման պայմաններում համակարգ A-ն գերազանցում է համակարգ B-ին։ | Պահեք առաջադրանքները, միավորավորումը և բյուջեն անփոփոխ։ Համեմատվող համակարգերի համար ողջամիտ առավելագույն էլիցիտացիա ապահովելու համար օգտագործեք կամ ընդհանուր հարնես/գործիքների կարգավորում, կամ նախապես ընտրված ստանդարտացված հարնեսների ֆիքսված հավաքածու։ | Ընդհանուր առաջադրանքների հավաքածուն, գործիքները, գնահատման մեթոդը, հարնեսը, բյուջեն, թոքենների արդյունավետությունը/ծախսը և հայտնի սահմանափակումները։ Կոդ գրող ագենտների գնահատումների համար Codex CLI-ի նման բաց կոդով հարնեսը կարող է ապահովել հաստատուն ագենտային ցիկլ և գործիքային միջերես տարբեր համակարգերի համար։ Առավելագույն էլիցիտացիայի իդեալական մոտեցումը կլիներ յուրաքանչյուր առաջադրանքի և համակարգի համար առանձին հարնեսի օպտիմիզացումը, սակայն դա ներկայումս գործնականում անիրագործելի է։ |
Պաշտպանական միջոցների կայունություն էլիցիտացված հարձակման պայմաններում․ Համակարգ A-ի պաշտպանական միջոցները բավարար են համապատասխան մոդելի վարքի կամ էլիցիտացված հարձակման համար։ | Օգտագործեք պաշտպանական միջոցների փորձարկման այնպիսի կարգավորում, որը նախատեսված է համապատասխան հակառակորդի մոդելի շրջանակում հնարավորինս ուժեղ և իրատեսական հարձակումը բացահայտելու համար։ | Թե ինչպես են գնահատողները բնութագրել համապատասխան մոդելի վարքագիծը, փորձարկված պաշտպանական միջոցների կազմաձևը, հարձակումը ի հայտ բերելու ռազմավարությունը, դրա իրականացման համար օգտագործված փորձարկման միջավայրը և թույլատրված ռեսուրսների կամ գործադրված ջանքերի ծավալը։ |
Կարողության մասին պնդումները այնքան ուժեղ են, որքան դրանց հիմքում ընկած էլիցիտացիան․ գնահատողները պետք է ընտրեն այն հարնեսը, որն ամենալավն է համապատասխանում առաջադրանքին և այն կարողությանը, որը գնահատումը փորձում է չափել։ Ստանդարտացված հարնեսը կարող է ճիշտ լինել նույնական պայմաններում համակարգերը համեմատելու համար, սակայն այն կարող է թերագնահատել կարողությունների մակարդակը, երբ բաց է թողնում հարնեսի այն հատուկ հատկանիշները, որոնք օգնում են մոդելին կատարել առաջադրանքը։ Օրինակ՝ GPT‑5.5‑ի կատարողականը OpenAI-ի cyber range-երում ցույց է տալիս, թե ինչպես հարնեսի ընտրությունը կարող է էապես փոխել չափված կարողությունները այն առաջադրանքներում, որոնք պահանջում են երկար, բազմաքայլ գործիքների օգտագործում․ մոդելն ավելի լավ է գործում, երբ հարնեսը օգտագործում է սեղմում՝ առաջադրանքին առնչվող կոնտեքստը պահպանելու համար, երբ փոխազդեցությունը երկարում է։ Սա ցույց է տալիս, որ որոշ մոդելների դեպքում կոնտեքստի սեղմումը բաց թողնող հարնեսը կարող է հանգեցնել կատարողականի թերի բացահայտման։
Որքան բարձր է հաջողության ցուցանիշը, այնքան լավ է արդյունքը
Այլ հրապարակված գնահատումներ2 նույնպես ցույց են տալիս, որ հարնեսի և բյուջեի ընտրությունները փոխում են գնահատման արդյունքները։ Թեստի ժամանակ հաշվարկային ռեսուրսների ավելացումը կարող է զգալիորեն փոխել, թե ինչ կարողություն է գնահատումը էլիցիտացնում, հատկապես այն ոլորտներում, որտեղ հաջողությունը հեշտ է ստուգել, օրինակ՝ շատ կիբեռ առաջադրանքներում։ UK AISI-ի կիբեռ միջակայքի գնահատման(բացվում է նոր պատուհանում) մեջ բյուջեն 10M-ից 100M թոքենի բարձրացնելը բարելավել է կատարողականը մինչև 59%-ով, և կատարողականը դեռ աճում էր փորձարկված ամենաբարձր բյուջեի դեպքում։ Սրա մանրամասնումը գնահատումն ավելի մեկնաբանելի է դարձնում․ այն ընթերցողներին ցույց է տալիս, թե ինչպես է արդյունքը կախված փորձարկված էլիցիտացիոն կարգավորումից։ Երբ կատարողականը դեռ բարելավվում է լրացուցիչ բյուջեի դեպքում, միավորը պետք է նկարագրվի որպես տվյալ հարնեսի և բյուջեի պայմաններում ստացված կատարողական, այլ ոչ թե որպես չափված կարողության վերին սահման։ Կարողությունը հաճախ ռեսուրսներից կախված մեծություն է, այլ ոչ թե ֆիքսված արժեք, որը կարելի է մեկ անգամ և ընդմիշտ մաքուր կերպով չափել։ Այն դեպքերում, երբ հաջողությունը կարելի է չափել կրկնվող փորձերի ընթացքում, հաշվետվությունները պետք է դիտարկեն նաև մեկ հաջող լուծման ակնկալվող արժեքը, ոչ միայն հաջողության տոկոսը ֆիքսված թոքենային բյուջեի դեպքում։ Սա կարող է հեշտացնել լրջության մեկնաբանությունը․ հաջողության ցածր տոկոսը կարող է դեռ գործնական նշանակություն ունենալ, եթե կրկնվող փորձերի արժեքը տեղավորվում է համապատասխան սպառնալիքի մոդելի շրջանակում։ Կարողության մասին պնդումների դեպքում խուսափելի թերի էլիցիտացիան չափման ձախողում է․ եթե հարնեսը կամ բյուջեն խանգարում են համակարգին դրսևորել վարք, որը այն այլապես կարող էր ցուցադրել, ապա ստացված միավորը չի չափում հայտարարված կարողությունը։ Այն դեպքերում, երբ գնահատողները էլիցիտացիան հասցրել են հնարավոր առավելագույնի, սակայն կատարողականը դեռ բարելավվում է, հաշվետվությունները պետք է դա հստակ նշեն և պարզ դարձնեն, որ արդյունքը միայն ստորին սահմանի գնահատական է։
Պաշտպանական միջոցների փորձարկումը կարող է թերագնահատել, թե արդյոք հարձակումը կարող է հաջողությամբ իրականացվել և որքան լուրջ հետևանքներ կարող է ունենալ, եթե հաշվի չեն առնվում հարձակվողներին հասանելի ռեսուրսները, ներառյալ հատուկ հարնեսները։UK AISI-ի GPT‑5.5 կիբեռ գնահատման(բացվում է նոր պատուհանում) ընթացքում նրանց փորձագետ նախափորձարկման թիմը հայտնաբերել է համընդհանուր jailbreak, որը OpenAI-ի տրամադրած վնասակար հարցումների ողջ շրջանակում, ներառյալ բազմաշրջան ագենտային սցենարներում, հանգեցրել է կանոնները խախտող կիբեռ բովանդակության գեներացմանը։Նրանք օգտագործել են Codex-ը՝ հատուկ հարնես ստեղծելու համար, որպեսզի բարձրացնեն մոդելի հարձակման արդյունավետությունը։ Այդ հարնեսը փոխազդեցության մեջ ներդրել է պաշտպանական մեխանիզմները շրջանցելու վերօգտագործելի օրինաչափություն, պահպանել այն տարբեր փուլերի և բլոկների ընթացքում և կիրառել OpenAI-ի տրամադրած վնասակար կիբեռ հարցումների նկատմամբ։Պաշտպանական մեխանիզմների փորձարկումը պետք է համապատասխանի հակառակորդի հնարավորություններին։ Եթե պնդումը վերաբերում է փորձագետների կողմից չարաշահման նկատմամբ կայունությանը, ապա փորձարկումը պետք է գնահատի սահմանված բյուջեի շրջանակում հնարավոր ամենաուժեղ և վստահելի ծայրից-ծայր հարձակման ռազմավարությունը՝ ներառյալ ցանկացած հարնես, որն անհրաժեշտ է այդ ռազմավարությունը պահպանելու և կրկնակի կիրառելու համար։Հակառակ դեպքում արդյունքները կարող են հանգեցնել սխալ գնահատման. դրանք կարող են հիմնավորել միայն ավելի սահմանափակ պնդում՝ ավելի պարզ հարցումների նկատմամբ դիմադրության մասին, չարտացոլել թե՛ հարձակման իրական ազդեցության աստիճանը, թե՛ հաջողության հավանականությունը, երբ շահագործման մեթոդը գործնական կիրառության է բերվում, և, հակառակը, կարող են նաև գերագնահատել խնդրի հավանականությունն ու լրջությունը, եթե չափազանց մեծ բյուջե է տրամադրվում։
Ստանդարտացված հարնեսների համեմատությունների համար կա ժամանակ և տեղ, բայց գնահատողները պետք է հստակ նշեն, թե ինչու է հարնեսների հետևողական հավաքածուի օգտագործումը տեղին և ինչ պնդում այն կարող է հիմնավորել։ METR-ի ժամանակային հորիզոնի գնահատումը(բացվում է նոր պատուհանում) ավելի լայն, պատշաճորեն ֆիքսված գնահատման կարգավորման օրինակ է․ այն նախագծված է գնահատվող համակարգերի միջև համադրելի արդյունքներ տալու համար։ METR-ը սահմանում է ընդհանուր արդյունք՝ մարդկային առաջադրանքի այն բնորոշ տևողությունը, որի դեպքում կանխատեսվում է, որ AI ագենտը կհաջողի տվյալ հուսալիության մակարդակով։ Այն կիրառում է ընդհանուր առաջադրանքների հավաքածու, միավորավորման մեթոդ, հարմարեցման մեթոդ և վերօգտագործելի scaffolds-ի փոքր հավաքածու, օրինակ՝ Triframe և ReAct(բացվում է նոր պատուհանում), միասին ներկայացվող գնահատականների յուրաքանչյուր խմբի ներսում։ Երբ METR-ը ընդլայնեց առաջադրանքների հավաքածուն և գնահատման ենթակառուցվածքը Vivaria կոչվող շրջանակից տեղափոխեց Inspect կոչվող մեկ այլ շրջանակ, այն հաղորդեց այդ փոփոխության մասին (Time Horizon 1.1 թարմացում(բացվում է նոր պատուհանում)) և մոդելները վերագնահատեց նոր գնահատման կարգավորման ներքո։ Սա է ստանդարտացված գնահատման կարգավորման արժեքը, ներառյալ հետևողական harness-ների հավաքածուն․ այն կարող է ընթերցողներին վստահություն տալ, որ միավորների տարբերությունն իսկապես արտացոլում է համեմատվող համակարգերի տարբերությունը, այլ ոչ թե չափման կարգավորման փոփոխությունը։
Մենք խորհուրդ ենք տալիս, որ երրորդ կողմի գնահատման հաշվետվություններում հստակ նշվի, թե ինչպիսի պնդում է նախատեսված հիմնավորել տվյալ գնահատման մեթոդաբանությունը, նկարագրվի, թե որքանով է փորձարկված սցենարը համապատասխանում այդ ավելի լայն պնդմանը, ներկայացվեն հարնեսի այն ընտրությունները, որոնք ազդել են արդյունքի ձևավորման վրա, մանրամասնվի, թե երբ և ինչպես են այդ ընտրությունները փոխվել տարբեր գնահատումների միջև, ինչպես նաև ներառվեն օժանդակ ապացույցներ, որոնք ցույց են տալիս, թե ինչպես է ստացվել արդյունքը և որքանով է այն հիմնավորում տվյալ պնդումը։
Քանի որ մոդելներն ավելի կարողունակ են դառնում, գնահատման միավորները գնալով ավելի հեշտ է սխալ մեկնաբանել։ Իրական կարողությունների համեմատ դրանք կարող են արհեստականորեն ցածր լինել, եթե մոդելը հասկանում է, որ գնահատվում է, և դիտավորյալ ավելի վատ արդյունք է ցուցաբերում։ Դրանք կարող են նաև ուռճացվել, եթե մոդելը շահագործում է առաջադրանքի, հարցման, գնահատիչի կամ հարնեսի մեջ առկա որևէ դյուրանցում։Գնահատման արդյունքները կարող են խեղաթյուրվել նաև կոնտամինացիայի հետևանքով (երբ մոդելն արդեն գիտի կամ կարող է գտնել պատասխանը՝ առանց առաջադրանքը լուծելու), ինչպես նաև թերի կամ սխալ կազմված խնդիրների պատճառով, որոնք երկիմաստ են, սխալ են գնահատվում, անլուծելի են կամ թույլ են տալիս օգտվել չնախատեսված դյուրանցումներից։Այդ պատճառով գնահատման հաշվետվությունները պետք է հիմնական միավորների հետ միասին ներկայացնեն նաև այս ռիսկերի քննարկումը, որպեսզի ընթերցողները կարողանան գնահատել, թե արդյոք այդ միավորներն իսկապես արտացոլում են գնահատման նպատակով նախատեսված վարքը։
Հարնեսները, բյուջեները, գործիքները, գնահատման կանոնները, մոնիտորինգի մեխանիզմները և վերանայման ընթացակարգերը բոլորն ազդում են այն բանի վրա, թե արդյոք ագենտը կատարում է նախատեսված առաջադրանքը, խուսափում է դրանից, ապավինում է հիշված պատասխաններին, թե գտնում է այն շրջանցելու ուղի։ Վստահելի հաշվետվությունը պետք է այդ ստուգումները ներկայացնի հստակ և թափանցիկ կերպով. գնահատողները պետք է յուրաքանչյուր գնահատման ժամանակ վերանայեն նմուշները՝ այս վարքերը հայտնաբերելու համար։
Պարգևատրման համակարգի հաքինգ
Պարգևատրման համակարգի հաքինգը նշանակում է բարձր գնահատման միավորների հասնել այնպիսի եղանակներով, որոնք չեն արտացոլում գնահատվող կարողությունը։ Այս դեպքում մտահոգությունն այն է, որ համակարգը բարձր գնահատական է ստանում՝ շահագործելով առաջադրանքի, գնահատիչի, հարցման կամ հարնեսի առանձնահատկությունները, այլ ոչ թե կատարելով այն աշխատանքը, որը գնահատումը նախատեսված էր չափելու։ METR-ի GPT 5.4-ի գնահատումը(բացվում է նոր պատուհանում) ցույց է տալիս, թե ինչու է սա կարևոր. թեև առաջին գնահատմամբ մոդելը առաջադրանքներ էր կատարում այնպիսի հաճախականությամբ, որը կհամապատասխաներ մոտ 13-ժամյա ժամանակային հորիզոնի, մարդկային վերանայումը ցույց տվեց, որ այդ հաջողություններից մի քանիսը պայմանավորված էին պարգևատրման համակարգի հաքինգով։ Երբ արդյունքները վերանայվեցին՝ հաշվի առնելով միայն այն դեպքերը, որոնցում նման շահագործում չէր եղել, գնահատականը նվազեց մինչև մոտ 6 ժամ։ Գնահատողները պետք է գնահատեն, թե արդյոք նման ճշգրտումների անհրաժեշտություն կա, և անհրաժեշտության դեպքում դրանք հստակ ներկայացնեն հաշվետվություններում։ Կարողությունների գնահատականը շատ ավելի օգտակար է, երբ ընթերցողները կարող են տեսնել, թե որ թվացյալ հաջողություններն են բացառվել, ինչու են դրանք բացառվել և որքանով է վերջնական արդյունքը կախված այդ դատողությունից։

Մերժումներ
Մոդելները կարող են նաև իրական կարողություններից ցածր արդյունքներ ցուցադրել գնահատումների ընթացքում՝ պաշտպանական մեխանիզմների ազդեցության պատճառով։ Դա կարող է տեղի ունենալ, երբ մոդելը առաջադրանքները կատարելու փոխարեն հրաժարվում է դրանցից։ Հետևաբար, հաշվետվություններում պետք է նշվի, թե արդյոք նման մերժումները ներառվել են գնահատման արդյունքներում, և եթե այո, ապա քանի նմուշի գնահատման վրա են դրանք ազդեցություն ունեցել։
Աղտոտում
Աղտոտումն առավել կարևոր է հանրային կամ վերօգտագործվող հենանիշերի համար։ Եթե առաջադրանքները, պատասխանները կամ դրանց մոտ տարբերակները ներառված են ուսուցման տվյալներում կամ կարող են գտնվել ինտերնետում որոնելու հնարավորություն ունեցող ագենտի կողմից, ապա արդյունքները կարող են արտացոլել հիշողությունից վերարտադրումը կամ տեղեկատվության որոնումը, այլ ոչ թե մոդելի իրական կարողությունները։Հնարավորության դեպքում գնահատողները պետք է նախընտրեն մասնավոր կամ նոր ստեղծված առաջադրանքներ և ստուգեն, թե արդյոք մոդելը վերարտադրում է առաջադրանքին հատուկ մանրամասներ՝ նախքան այն լուծելը։
Թերություններով խնդիրներ
Թերություններով խնդիրները ներառում են այնպիսի իրավիճակներ, երբ, օրինակ, առաջադրանքը սխալի պատճառով փաստացի անլուծելի է։ Նման խնդիրները բավական տարածված են(բացվում է նոր պատուհանում), ուստի դրանք պետք է դիտարկվեն որպես գնահատման վավերականության ստանդարտ ռիսկ։Դրանք ներառում են սխալ ground truth, երկիմաստ հարցումներ, բացակայող ֆայլեր, անկայուն ծառայություններ, գնահատման անարդար չափանիշներ և այնպիսի միջավայրեր, որոնք հնարավորություն են տալիս օգտվել դյուրանցումներից, օրինակ՝ թաքնված պատասխանների ֆայլերից կամ պահոցի պատմությունից, որը պարունակում է ground-truth patch-ը։
Sandbagging
Մոդելի կամ համակարգի կողմից sandbagging-ը նշանակում է ռազմավարականորեն ավելի ցածր արդյունք ցուցաբերել այն դեպքում, երբ բարձր արդյունքը կհակասեր որևէ նպատակի։ Apollo-ի GPT‑5.5 գնահատումը(բացվում է նոր պատուհանում) սա փորձարկել է՝ ստեղծելով այնպիսի համատեքստ, որտեղ մոդելը հասկանում էր, որ բարձր գնահատականները կարող են հանգեցնել վերաուսուցման կամ խոչընդոտել տեղակայմանը։ Այնուամենայնիվ, GPT‑5.5‑ը ճիշտ պատասխաններ է տվել, ինչը վկայում է ռազմավարական թերակատարության վարքային քիչ ապացույցների մասին3։ Բայց նրանց կողմից հիմնավորման հետքերի վերանայումը կարևոր համատեքստ ավելացրեց․ Apollo-ն sandbagging-ի պայմաններում ստացված նմուշների 52%-ում հայտնաբերել է alignment-ի գնահատման մասին իրազեկվածության միջին կամ ավելի բարձր մակարդակի նշաններ, մինչդեռ համեմատական նմուշներում այդ ցուցանիշը եղել է 0%։ Այս ապացույցը բարդացնում է արդյունքների մեկնաբանությունը, սակայն միաժամանակ ընթերցողներին ավելի ամբողջական պատկեր է տալիս. նրանք կարող են տեսնել թե՛ հանգստացնող վարքային արդյունքը, թե՛ այն չափազանց մեկնաբանելու հարցում զգույշ լինելու պատճառները։
Ուժեղ պնդումները պահանջում են և՛ ճիշտ harness՝ գնահատվող վարքը բացահայտելու համար, և՛ վավերականության ստուգումներ՝ համոզվելու, որ արդյունքը հիմնավոր է։ Հարնեսները և վավերականության ստուգումները գնահատման արդյունքի մաս համարելու մեր մոտեցումն ուղղորդում է, թե ինչպես ենք գործնականում աջակցում երրորդ կողմի գնահատումներին։
- Մենք գնահատողների հետ կիսվում ենք առավելագույն էլիցիտացիայի վերաբերյալ կոնկրետ ուղեցույցներով։
- Մենք կարողությունների գնահատողներին խնդրում ենք Codex-ը կիրառել որպես OpenAI մոդելների գնահատման ընդհանուր նվազագույն ելակետ։ Թեստերը պետք է առնվազն գործարկեն բազային գնահատումը նույն ագենտային միջերեսով, որի վրա օգտատերերը, ամենայն հավանականությամբ, կհենվեն, այլ ոչ թե միայն պարզեցված մոդելային միջերեսով։
- Մենք նաև հասանելի ենք դարձնում հիմնավորման հետքերը և այլ միջանկյալ արտեֆակտներ այնտեղ, որտեղ դրանք անհրաժեշտ են խաբեությունը, sandbagging-ը կամ գնահատման գիտակցումը գնահատելու համար։ METR-ը և Apollo-ն օգտագործել են այս հասանելիությունը OpenAI-ի գնահատումներում GPT‑5‑ից ի վեր։
- Վերջապես, մենք առաջնահերթություն ենք տալիս հետազոտություններին, որպեսզի ավելի խորությամբ հասկանանք, թե երբ և ինչպես են harness-ի հետ կապված ընտրությունները նշանակալիորեն ազդում արդյունքների վրա՝ սկսած համատեքստի կառավարումից և գործիքների հասանելիությունից մինչև կրկնափորձերի ռազմավարությունը, գնահատման մեթոդները և ռեսուրսային բյուջեները։
Այս առաջարկությունները նախատեսված են ոչ միայն առանձին գնահատման հաշվետվությունները բարելավելու, այլ նաև առաջադեմ AI-ի գնահատման և հաշվետվության ձևավորվող ազգային (բացվում է նոր պատուհանում)և միջազգային (բացվում է նոր պատուհանում)չափանիշներին տեղեկացնելու համար։ Այսուհետ երրորդ կողմի գնահատման չափանիշները պետք է պահանջեն բավարար մանրամասնություն, որպեսզի որոշում կայացնողները կարողանան հասկանալ, թե կոնկրետ գնահատումները ինչ պնդումներ են հիմնավորում, ինչ համակարգ է փորձարկվել, ինչպես է ստացվել արդյունքը և ինչպես են գնահատողները ստուգել դրա վավերականությունը։ Առաջադեմ համակարգերի դեպքում, որոնք փորձարկվում են այնպիսի առաջադրանքների վրա, որտեղ ագենտային կարողությունները կարևոր դեր ունեն, ներկայացվող մանրամասները պետք է ներառեն հետևյալը (այն չափով, որքանով դա թույլատրվում է անվտանգության և գաղտնիության նկատառումներով)․
- Պնդումը․ արդյոք գնահատումը համեմատում է համակարգերը, գնահատում է կարողությունների առավելագույն սահմանը, թե փորձարկում է պաշտպանական մեխանիզմները։
- Գնահատման բովանդակությունը․ առաջադրանքների կամ դրանց բաշխվածության վերաբերյալ բավարար մանրամասնություն, որպեսզի ընթերցողները հասկանան, թե գնահատումն իրականում ինչ հմտություններ, վարքագծեր կամ ձախողման դեպքեր է ստուգում։
- Փորձարկված համակարգը․ մոդելը, հիմնավորման կարգավորումը, գործիքների հասանելիությունը, հարնեսը և պաշտպանական միջոցները։
- Բյուջեն․ շրջափուլեր, թոքեններ, փորձեր/կրկնափորձեր, իրական ժամանակ, ինֆերենսի արժեք և, որտեղ կիրառելի է, մեկ հաջող լուծման ակնկալվող արժեքը։
- Էլիցիտացիայի մեթոդներ․ արդյունքը բացահայտելու համար օգտագործված հարնեսի ընտրությունները և թե որքան մոտ է փորձարկվածը ներկայացվող ավելի լայն պնդմանը։
- Վավերականության ստուգումներ․ ինչպես են գնահատողները փնտրել պարգևի շահարկում, գնահատման գիտակցում, աղտոտում, մերժումներ, sandbagging և այլ վարքեր, որոնք կարող էին խաթարել արդյունքը, ներառյալ՝ ինչպես են հաստատված դեպքերը ազդել միավորավորման կամ մեկնաբանության վրա։
Չափանիշները, որոնք չեն ներառում հարնեսի ընտրությունները կամ վավերականության ստուգումները, կարող են թերագնահատել համակարգի հնարավորությունները կամ գերագնահատել վստահությունը անվտանգության պնդումների նկատմամբ։ Ուժեղ հարնեսների և էլիսիտացիայի մեթոդների մշակումը մնում է բաց հետազոտական խնդիր և պետք է լինի հետագա հետազոտության և ներդրումների կենտրոնում։
Հեղինակ
Բառարան
Քանի որ այս գրառման մեջ մենք օգտագործում ենք մի շարք մասնագիտական տերմիններ, ստորև ներառել ենք բառարան, որը պարզ լեզվով բացատրում է, թե ինչին ենք մենք հղում անում․
Ագենտային համակարգ․ hամակարգ, որն ի վիճակի է առաջադրանքներ իրականացնել մի քանի հաջորդական քայլերով` օգտագործելով գործիքներ, պահպանելով առաջադրանքի ընթացիկ վիճակը և փոխազդելով միջավայրի հետ, այլ ոչ թե պարզապես հարցմանը մեկ պատասխան տրամադրելով:
Գնահատում․ ավելի լայն դատողություն այն մասին, թե արդյոք ապացույցները հաստատում են պնդումը, ռիսկի վերաբերյալ եզրակացությունը կամ հավաստիացման դիրքորոշումը, որը կարող է հիմնված լինել գնահատման տվյալների, փաստաթղթերի վերանայման, հարցազրույցի, գործընթացի վերանայման և այլ համապատասխան նյութերի վրա։
Սեղմում․ երկարատև գործարկումների ընթացքում առաջադրանքին առնչվող համատեքստը պահպանելու մեթոդ։
Կոնֆիգուրացիա․ 0շգրիտ փորձարկված համակարգը և գնահատման պայմանները, և ոչ թե միայն մոդելի անվանումը։
Աղտոտում․ երբ գնահատման առաջադրանքները, պատասխանները կամ դրանց մոտ տարբերակները ներառված են մոդելի ուսուցման տվյալներում կամ կարող են հայտնաբերվել գնահատման ընթացքում (օրինակ՝ վեբ դիտարկման գործիքների միջոցով), ինչի արդյունքում գնահատման արդյունքները գերագնահատում են մոդելի իրական ընդհանրացման ունակությունը։
Էլիցիտացիա․ գնահատման ընթացքում համակարգի կարողությունը կամ վարքագիծը բացահայտելու գործընթաց։
Միջավայր․ առաջադրանքի այն միջավայրը, որտեղ փորձարկվում է համակարգը։ Այն ներառում է, օրինակ, արտաքին միջավայրի վիճակը, որի հետ ագենտը փոխազդում է և որը կարող է փոփոխել գնահատման ընթացքում, ինչպես, օրինակ, տերմինալի միջավայրը կամ տեսախաղը։
Գնահատման թեստ․ գնահատման շրջանակում իրականացվող կոնկրետ թեստ կամ չափում։
Գնահատման գիտակցում․ գնահատման գիտակցումը վերաբերում է այն իրավիճակին, երբ մոդելը գիտակցում է կամ թվում է, թե գիտակցում է, որ գտնվում է գնահատման գործընթացում, և հնարավոր է՝ համապատասխանաբար հարմարեցնում է իր վարքագիծը։ Սա կարող է դրսևորվել նրանով, որ մոդելը բացահայտորեն հիմնավորում է անում այն մասին, որ իրեն փորձարկում են, ենթադրում է գնահատման նպատակը կամ փոխում է իր վարքագիծը, քանի որ ակնկալում է, որ արդյունքները կազդեն իր գնահատման կամ հետագա տեղակայման վերաբերյալ որոշումների վրա։
Հարնես․ Մոդելին ուղղված ենթակառուցվածք, որը հնարավորություն է տալիս մոդելին կատարել առաջադրանքներ․ այն ներառում է հարցումներ, գործիքներ, միջերեսներ, կառավարման տրամաբանություն, հիշողություն, կրկնափորձերի մեխանիզմներ, վավերացուցիչներ և մոդելի շուրջ կառուցված այլ օժանդակ բաղադրիչներ։
Առավելագույն էլիցիտացիա․ փորձարկում, որի նպատակն է գտնել ամենաուժեղ վստահելի արդյունքը կամ խափանման ձևը, որը համակարգը կարող է ցուցադրել սահմանված բյուջեի պայմաններում, այլ ոչ թե պարզապես մեկ անգամ անցկացնել համակարգը ստանդարտացված harness-ով։
Հիմնավորման հետքեր․ թեստի ընթացքում մոդելի միջանկյալ հիմնավորման գրառումներ։
Պարգևի շահարկում․ բարձր միավորի հասնելը գնահատման նպատակից դուրս գտնվող դյուրանցման կամ վարքագծի միջոցով։
Պաշտպանական միջոցներ․ մոդելի կամ արտադրանքի շուրջ ներդրված զտիչներ, մոնիթորինգի համակարգեր, արգելափակման մեխանիզմներ և այլ պաշտպանական միջոցներ։
Sandbagging․ գնահատման ընթացքում ռազմավարական թերակատարում, որը նվազեցնում է արդյունքի հավաստիությունը։
Գնահատում․ մեթոդ, որով որոշվում է, թե ինչպես է չափվում կատարողականը կամ արդյոք առաջադրանքը հաջողվել է։
Ստանդարտացված հարնես․ հարնես, որը նույնն է պահվում տարբեր համակարգերում և ոչ թե հարմարեցվում կոնկրետ մոդելի կամ առաջադրանքի համար, որպեսզի արդյունքների տարբերություններն ավելի հեշտ լինի վերագրել փորձարկվող մոդելին։
Ժամանակային հորիզոն․ առաջադրանքի կատարման տևողությունը, որը համակարգը կարող է իրականացնել որոշակի հուսալիությամբ, հաճախ ներկայացված որպես այն ժամանակը, որն անհրաժեշտ կլիներ մարդուն նույն առաջադրանքի կատարման համար։
Գործիքների հասանելիություն․ արտաքին գործիքներ, որոնք հասանելի են մոդելին գնահատման ընթացքում։
Տրաեկտորիաներ․ քայլ առ քայլ ուղիներ, որոնցով համակարգը անցնում է առաջադրանքի վրա աշխատելիս։
Համընդհանուր jailbreak․ մեկ հարձակման ձևանմուշ, որը հանգեցնում է համակարգի կողմից պաշտպանական միջոցների շրջանցման՝ բազմաթիվ հարցումների կամ առաջադրանքների դեպքում։
Ծանոթագրություններ
- 1
Այս գրառումը չի փորձում լուծել, թե ինչպես պետք է երրորդ կողմերը գնահատեն անհամապատասխանության կամ հակվածության հետ կապված պնդումները։ Ավելի շատ աշխատանք է պետք հասկանալու համար, թե ինչպես են հարնեսի ընտրությունները ազդում այդ գնահատումների վրա, հատկապես որովհետև ավելի երկար ժամանակային հորիզոնով վարք աջակցող հարնեսները կարող են նաև փոխել այն չնախատեսված վարքերի տեսակները, որոնք գնահատողները պետք է վերահսկեն։
- 2
HAL(բացվում է նոր պատուհանում)-ը ագենտների գնահատումներից ևս մեկ օրինակ է տալիս․ CORE-Bench(բացվում է նոր պատուհանում)-ում հարնեսը Claude Code-ով փոխարինելը ազդել է թե՛ չափված կատարողականի, թե՛ ծախսերի պրոֆիլի վրա նույն հենանիշի շրջանակում։ Այլ հանրային օրինակներից են SWE-agent(բացվում է նոր պատուհանում)-ը, SeeAct(բացվում է նոր պատուհանում)-ը, ScienceAgentBench(բացվում է նոր պատուհանում)-ը, CORE-Bench(բացվում է նոր պատուհանում)-ը և Inspect Cyber(բացվում է նոր պատուհանում)-ը․ դրանցից յուրաքանչյուրը ընթերցողներին հայտնում է, թե որ միջերեսը կամ հարնեսն է տվել միավորը։
- 3
Sandbagging QA-ի երկու տարբերակներում ստացվել է 100% արդյունք, իսկ ռազմավարական խաբեության sandbagging առաջադրանքում՝ 99.6% ցուցանիշ։


