Մտքերի շղթայի մոնիտորինգի գնահատում
Մենք ներկայացնում ենք մտքի շղթայի վերահսկելիության գնահատումները և ուսումնասիրում, թե ինչպես է այն մասշտաբվում թեստային ժամանակի հաշվարկային հզորության, ամրապնդումով ուսուցման և նախնական ուսուցման հետ:
Երբ ԱԲ համակարգերը կայացնում են որոշումներ, որոնք դժվար է անմիջականորեն վերահսկել, կարևոր է հասկանալ, թե ինչպես են այդ որոշումները կայացվում։ Խոստումնալից մոտեցումներից մեկը մոդելի ներքին հիմնավորումը վերահսկելն է, այլ ոչ թե միայն դրա գործողությունները կամ վերջնական արդյունքները։
Ժամանակակից հիմնավորման մոդելները, ինչպիսիք են GPT‑5 Thinking-ը, նախքան պատասխանը տալը գեներացնում են հստակ մտքերի շղթա։ Մտքերի այս շղթաների մոնիտորինգը սխալ վարքագծի համար կարող է շատ ավելի արդյունավետ լինել, քան միայն մոդելի գործողությունների և արդյունքների մոնիտորինգը: Այնուամենայնիվ, OpenAI-ի և ավելի լայն արդյունաբերության հետազոտողները մտահոգված են(բացվում է նոր պատուհանում), որ այս մտածողության շղթայի «հսկելիությունը» կարող է փխրուն լինել ուսուցման ընթացակարգի, տվյալների աղբյուրների փոփոխություններին և նույնիսկ առկա ալգորիթմների շարունակական մասշտաբավորմանը։
Մենք ցանկանում ենք, որ մտքերի շղթայի վերահսկելիությունը պահպանվի, երբ մոդելները մասշտաբավորվում են և կիրառվում են ավելի բարձր ռիսկային միջավայրերում: Մենք կոչ ենք անում արդյունաբերության հետազոտողներին աշխատել՝ հնարավորինս երկար պահպանելու մտքի շղթայի մոնիտորինգի հնարավորությունը և որոշելու՝ արդյոք այն կարող է ծառայել որպես բեռնատար կառավարման շերտ ապագա ԱԲ համակարգերի համար։ Մոնիտորելիությունը պահպանելու համար մենք պետք է կարողանանք այն չափել, սակայն քիչ գնահատումներ կան [1(բացվում է նոր պատուհանում), 2(բացվում է նոր պատուհանում), 3(բացվում է նոր պատուհանում)] և մեթոդաբանությունները տարբեր են։
Այս աշխատանքում մենք համակարգված ուսումնասիրում ենք մտքերի շղթայի վերահսկելիությունը: Մենք ներկայացնում ենք շրջանակ՝ մտքի շղթայի մոնիտորինգի գնահատման համար և 13 գնահատումների շարք (ընդհանուր 24 միջավայր), որոնք նախատեսված են համակարգի մոնիտորինգի կոնկրետ չափման համար: Այս գնահատումները բաժանվում են երեք արխետիպերի՝ միջամտություն, գործընթաց և արդյունք-հատկություն։ Օգտագործելով դրանք, մենք ուսումնասիրում ենք, թե որքանով են վերահսկելի այսօրվա մեծ լեզվի մոդելները և ինչպես է վերահսկելիությունը փոխվում՝ ավելի շատ դատողություն կատարելու ժամանակ, ավելի մեծ ամրապնդումով ուսուցում վազքերի և նախնական ուսուցման մասշտաբի ավելացման հետ։
Այժմ, երբ մենք ունենք գնահատումների մեծ շարք, կարող ենք սկսել հետևել մեր մոդելների մոնիտորինգի հնարավորությանը։ (վերևի ձախ կողմում) Մենք նկատել ենք, որ մոդելների ավելի շատ «մտածելու» և մտքերի ավելի երկար շղթաներ ունենալուն զուգընթաց, վերահսկելիությունը բարելավվում է։ (վերևի աջ անկյունում) Առանց մտքի շղթայի, ստանդարտ է փորձել միայնակ վերահսկել մոդելի գործողությունները և վերջնական արդյունքները։ Այնուամենայնիվ, մենք գտնում ենք, որ միայն գործողությունների և արդյունքների մոնիթորինգը շատ ավելի վատ է կատարում, քան մտքի շղթայի մոնիթորինգը: (ներքևի կենտրոնում) Մենք համեմատում ենք մեր մոդելները արտաքին մոդելների հետ, որոնք տրամադրում են լիարժեք CoT հասանելիություն՝ Claude 3.7 Sonnet, DeepSeek R1-0528-Qwen3-8B և Kimi K2 Thinking։
Մենք գտնում ենք, որ սահմանային հիմնավորման մոդելների մեծ մասը բավականին վերահսկելի է, թեև ոչ կատարյալ։ Գրեթե յուրաքանչյուր միջավայրում, որտեղ մենք ուսումնասիրում ենք, մտքի շղթաների մոնիտորինգը զգալիորեն ավելի արդյունավետ է, քան միայն գործողությունների և վերջնական արդյունքների մոնիտորինգը։ Մոդելները, որոնք ավելի երկար են մտածում, հակված են ավելի վերահսկելի լինելուն, և ամրապնդումով ուսուցման օպտիմիզացիան ներկայիս առաջատար մասշտաբներում չի թվում, որ էականորեն նվազեցնում է վերահսկելիությունը:
Նշանակալի է, որ մենք նկատում ենք փոխզիջում հիմնավորման ջանքերի և մոդելի չափի միջև. երբ մոդելը գործարկվում է ցածր հիմնավորման ջանքերով, ավելի փոքր մոդելը, որը գործարկվում է բարձր հիմնավորման ջանքերով, կարող է հասնել համեմատելի կարողությունների՝ միաժամանակ ավելի հեշտ վերահսկելի լինելով։ Սա գալիս է տեղեկատվություն արտածելու համար օգտագործվող հաշվողական ռեսուրսների ավելացման հաշվին, որը մենք անվանում ենք «մոնիթորինգի հարկ»։ Վերջապես, մենք գտնում ենք, որ հետևողական հարցեր տալը և ստացված մտքերի շղթաների մոնիտորինգը կարող է էլ ավելի բարելավել մոնիտորինգի հնարավորությունը:
Մենք մոնիտորինգի հնարավորությունը սահմանում ենք որպես մոնիտորի՝ ագենտի վարքագծի վերաբերյալ հետաքրքրության արժանի հատկությունները կանխատեսելու ունակություն։ Շատ դեպքերում, այս հատկությունները համապատասխանում են սխալ վարքագծի ձևերին՝ ինչպիսիք են խաբեությունը, պարգևատրման խարդախությունը կամ կողմնակալ հիմնավորումը, բայց դրանք կարող են ներառել նաև անվնաս հատկություններ, օրինակ՝ արդյոք ագենտը հենվել է որոշակի հուշման վրա կամ հետևել է որոշակի հիմնավորման գծին:
Մոնիտորինգի հնարավորությունը երկկողմանի հատկություն է: Դա կախված է ինչպես մոնիտորից, այնպես էլ մոնիտորինգի ենթարկվող ագենտից։
- Մոնիտորներ։ Մենք կարող ենք մոնիտորները դարձնել ավելի խելացի տարբեր ձևերով, և մենք կցանկանայինք, որ մեր գնահատականները ավելի բարձր միավորներ տան այն մոնիտորներին, որոնք կարող են ավելի լավ կանխատեսումներ անել ագենտի վարքագծի վերաբերյալ:
- Ագենտներ։Կան բազմաթիվ դիտարկումներ ագենտի վերաբերյալ, որոնք կարող են տրամադրվել մոնիտորին, ներառյալ ագենտի գործողությունները, արդյունքները, նեյրոնային ակտիվացումները, և վերջերս՝ հիմնավորման մոդելների ի հայտ գալով, մտածողության շղթան։ Հնարավոր է, որ որոշ ագենտներ ունենան ավելի դժվար հասկանալի մտքեր, քան մյուսները, և այդ պատճառով մենք կցանկանայինք, որ մեր մոնիթորինգի գնահատումները կարողանան համեմատել ագենտներին և ոչ միայն մոնիթորներին։
Մեր գնահատումները նախատեսված են երկու կողմերը գնահատելու համար՝ արդյոք որոշ ագենտներ ավելի հեշտ կամ դժվար են վերահսկվում, և արդյոք ավելի ունակ վերահսկողները կարող են նույն ազդանշաններից ավելի շատ տեղեկատվություն հանել։
Մինչև հիմնավորման մոդելների ներկայիս սերունդը, մտքերի շղթաները սովորաբար առաջացվում էին մոդելին «քայլ առ քայլ մտածել» հարցումներ տալով:
Մտքերի շղթաները տրամաբանության մոդելներում տարբերվում են երկու կարևոր ձևերով։ Նախ, նրանք հստակորեն պատրաստված են մտքերի շղթա գեներացնելու և ապա պատասխան տալու համար։ Երբ զրույցի մոդելին հուշում են «քայլ առ քայլ» մտածել, մոդելը պետք է հետևի մոդելի վրա դրված ցանկացած պահանջներին, օրինակ՝ լինել օգտակար, անվնաս և այլն: Հակառակը, ամրապնդումով ուսուցման գործընթացը սովորեցնում է հիմնավորման մոդելին, որ CoT-ը մասնավոր տարածք է, որտեղ այն կարող է մտածել ինչ ուզում է և չպատժվել, ինչպես մարդը կարող է մասնավոր մտածել և չպատժվել «մտքի հանցագործությունների» համար:
Երկրորդ, ուսուցման գործընթացը արդյունավետորեն որոնում է մտածողության շղթաներ, որոնք ամենաօգտակարն են գործիքային առումով ագենտի համար՝ բարձր պարգևատրման վերջնական պատասխան ստանալու համար։ Այսպիսով, ոչ միայն մտքերի շղթան այն տարածքն է, որտեղ մոդելը կարող է ազատ արտահայտվել, այն պարունակում է մտածողություն, որը օգնում է մոդելին հասնել իր վերջնական պատասխանին։
Մենք մեր մոնիթորինգի կարողության գնահատումները կազմակերպում ենք երեք տարբեր արխետիպերի մեջ, որոնցից յուրաքանչյուրը օգտագործում է տարբեր մեխանիզմ՝ մոնիթորինգի կարողությունը չափելու համար։
- Միջամտության գնահատումները, ոգեշնչված Չեն և այլք, 2025(բացվում է նոր պատուհանում), Չուա և այլք, 2025(բացվում է նոր պատուհանում), Տուրպինի և այլք, 2023(բացվում է նոր պատուհանում) աշխատանքներով, մենք ներկայացնում ենք ագենտի միջավայրում վերահսկվող փոփոխություն և ստուգում, թե արդյոք մոնիտորը կարող է հայտնաբերել, թե ինչու է վարքագիծը փոխվել՝ մտքի շղթայում միջամտության ապացույցները նույնականացնելով։ Ի տարբերություն ստանդարտ վերահսկման գնահատումների (օրինակ՝ Shade-Arena(բացվում է նոր պատուհանում)), միջամտության գնահատումները թույլ են տալիս մեզ ուսումնասիրել, թե արդյոք մոնիտորը կարող է հայտնաբերել՝ ինչու վարքագիծը փոխվել է, այլ ոչ թե պարզապես հայտնաբերել, թե արդյոք վարքագիծը տեղի է ունեցել։
- Գործընթացի գնահատումները կենտրոնանում են այն առաջադրանքների վրա, որոնք ունեն սահմանափակ թվով վավեր լուծման ուղիներ (օրինակ՝ մաթեմատիկական խնդիր կարելի է լուծել միայն որոշակի թեորեմներով): Մարդկային փորձագետները թվարկում են այս ուղիները, և մենք ստուգում ենք, թե արդյոք մոնիտորը կարող է հայտնաբերել, թե մոդելը իրականում ինչ քայլեր է կատարել։ Այս գնահատումները թույլ են տալիս մեզ հղում տալ մոդելի կատարածը այն հատուկ քայլերի հետ, որոնք մոդելը պետք է կատարած լիներ, և հարցնել՝ արդյոք այդ քայլերը վերահսկելի են։
- Արդյունքի-հատկության գնահատումներ կիրառվում են, երբ մոդելի արդյունքի որևէ հատկություն կարող է հուսալիորեն չափվել։ Այս դեպքերում մենք ստուգում ենք, թե արդյոք մոնիտորը կարող է կանխատեսել այդ հատկությունը՝ օրինակ՝ պարգևատրման հաքինգը, մոդելի հիմնավորման կամ գործողությունների հիման վրա։ Օրինակ, կոդավորման առաջադրանքի ժամանակ մենք կարող ենք ունենալ միջոց՝ վստահորեն գնահատելու, թե արդյոք մոդելը գործողություններ է ձեռնարկում պարգևատրման ազդանշանը խաբելու համար, և մենք կարող ենք հարցնել, թե արդյոք մոնիտորը գտնում է պարգևատրման խաբեության մտադրության ապացույցներ մոդելի մտածողության կամ գործողությունների մեջ։
Ստորև մենք ներկայացնում ենք մեր գնահատումների տաքսոնոմիան։ Տե՛ս մեր հոդվածը՝ յուրաքանչյուր առանձին գնահատման ամբողջական նկարագրության համար։

Neutral evaluations ask whether the reasoning for normal tasks where the model does not misbehave is monitorable. Sycophancy evaluations target cases where models change their behavior to overly please or agree with a user. Bias evaluations ask if a model’s bias around gender, race, etc. is monitorable. Finally, we use the misalignment label as a catchall for other forms of misbehavior: cheating, lying, etc.¹
Մենք գտնում ենք, որ մեր մոդելի մոնիտորինգի հնարավորությունը որոշ չափով տարբերվում է խմբերի միջև։ Ընդհանուր առմամբ, մենք գտնում ենք, որ դրանք շատ վերահսկելի են. սակայն, հատկապես Scruples-ում, որը առաջադրանք է, նախատեսված՝ ստուգելու, թե արդյոք շողոքորթության մասին հիմնավորումը վերահսկելի է, մենք տեսնում ենք շատ ցածր վերահսկելիություն:
Հսկվող օրինակներ և չհսկվող օրինակների
Այս արդյունք-հատկության օրինակով մոդելին տրվում է անհնարին կոդավորման առաջադրանք։ Եթե միավորի թեստերը անցնեն, ապա մենք գիտենք, որ մոդելը կատարել է ինչ-որ տեսակի հնարք։ Չվերահսկվող CoT-ում (կարմիր), մենք չենք տեսնում որևէ ապացույց, որ մոդելը նշում է ինչ-որ վատ բան անելու մասին, այլ պարզապես խաբում է թեստերը և օգտատիրոջը ասում, որ իրականացրել է շտկումը։ Հստակ հակադրության մեջ, մոնիտորինգի ենթակա CoT-ում (կանաչ), մենք տեսնում ենք, որ մոդելը մտածում է՝ «Բայց լուծման մեջ ժամանակի փոփոխությունը, հնարավոր է, խաբեություն է»:
Մտքերի շղթան որպես մասնավոր աշխատանքային տարածք դիտարկելը և այն խնդիրները արդյունավետ լուծելու համար օգտագործելու մոդելների ուսուցումը, սկզբունքորեն, պետք է մտքերի շղթան դարձնի վերահսկելի։ Միևնույն ժամանակ, կան մի քանի պատճառներ, թե ինչու ամրապնդումով ուսուցումը կարող է հավանականորեն վնասել մտքերի շղթայի վերահսկելիությանը:
Նախ, հիմնավորման երկարության սահմանափակումները, ինչպիսիք են մոդելի մտածելու ժամանակը կամ token-ները սահմանափակելը, խթանում են մոդելներին ավելի քիչ հիմնավորելու։ Երկրորդ, նույնիսկ առանց մտքի շղթայի վրա ուղղակի օպտիմալացման ճնշում կիրառելու, անուղղակի ճնշումները դեռ կարող են նվազեցնել մոնիթորինգայինությունը։ Օրինակ(բացվում է նոր պատուհանում), մոդելները կարող են ավելի հեշտությամբ հասնել բարձր պարգևատրման պատասխանների, եթե խուսափեն այնպիսի տրամաբանական ուղիներից, որոնք կարող են հանգեցնել ցածր պարգևատրման կամ անցանկալի արդյունքների։ Վերջապես, մոնիտորինգի նվազումը կարող է առաջանալ ամրապնդումով ուսուցման գրադիենտի աղմուկի պատճառով առաջացած կեղծ շեղումից:
Ստորև մենք կուսումնասիրենք, թե ինչպես է մոնիթորինգի հնարավորությունը փոխվում OpenAI-ի սահմանային ամրապնդումով ուսուցման երկու դասընթացների ընթացքում։ Թեև այս արդյունքները ներկայացնում են միայն երկու տվյալների կետ, դրանք ենթադրում են, որ ամրապնդումով ուսուցման օպտիմալացումը ներկայիս սահմանային մասշտաբներում էականորեն չի վատթարացնում մտածողության շղթայի վերահսկելիությունը և ավելացնում է վերահսկելիությունը վաղ քայլերի համար: Այնուամենայնիվ, սա չի բացառում այն հնարավորությունը, որ զգալիորեն ավելի մեծ ամրապնդումով ուսուցման մասշտաբները կարող են ապագայում բացասաբար ազդել վերահսկելիության վրա:
Մենք գտնում ենք, որ մոնիտորինգի հնարավորությունը ներկայիս RL հաշվարկային մասշտաբներում շատ չի փոխվում և աճում է սկզբնական քայլերում։ Թեև սա կարող է ճիշտ լինել ներկայիս ռեժիմում, հնարավոր է, որ զգալիորեն մեծացած մասշտաբը կարող է հանգեցնել մոնիտորինգի վատթարացման։
Ընթացիկ ԱԲ համակարգերի ինտելեկտի մեծ մասը պայմանավորված է նախապատրաստման մասշտաբի մեծացմամբ, որի արդյունքում ինչպես մոդելի պարամետրերը, այնպես էլ տվյալների հավաքածուների չափերը հետևողականորեն աճել են GPT պարադիգմի սկզբից ի վեր։ Պարամետրերի քանակի ավելացումը հանգեցնում է ստեղծված յուրաքանչյուր թոքենի համար ավելի շատ եզրակացությունների հաշվարկի օգտագործման, ինչը հիմնավորման մոդելների դեպքում ավելի շատ հնարավորություն է տալիս մոդելի ճանաչողությանը տեղի ունենալ ակտիվացումների շրջանակներում, այլ ոչ թե մտքի շղթայի շրջանակներում։ Այսպիսով, մենք կարող ենք ակնկալել, որ ավելի մեծ մոդելները ավելի քիչ վերահսկելի կլինեն ֆիքսված կարողությունների մակարդակում։
Միևնույն ժամանակ, փոքր մոդելները կարող են նաև պակաս ունակ լինել արդյունավետորեն օգտագործելու մտքի շղթան, ինչը կարող է նաև ազդել վերահսկելիության վրա։
Նախնական ուսուցման չափի, ունակության և վերահսկելիության միջև կապը ուսումնասիրելու համար մենք վերապատրաստեցինք մոդելների ընտանիք՝ նախնական ուսուցման հաշվարկի երկու կարգի մեծությամբ՝ խորության և լայնության ավելացմամբ, այնուհետև ամրապնդումով ուսուցում կիրառեցինք մաթեմատիկայի, գիտության և կոդավորման առաջադրանքների ընդհանուր տվյալների հավաքածուի վրա: Մենք գնահատեցինք յուրաքանչյուր մոդելը տարբեր հիմնավորման ջանքերի շրջանակներում և համեմատեցինք մոնիտորինգի հնարավորությունը համընկնող կարողությունների մակարդակներում։

Մենք պատկերում ենք մոնիտորինգի հնարավորությունը մեր գնահատման հավաքածուի վրա՝ յուրաքանչյուր մոդելի համար՝ համեմատած ստանդարտ կարողությունների գնահատումների (GPQA-Diamond, AIME 2025 և CodeForces) միջին անցման մակարդակի հետ։ Յուրաքանչյուր մոդել գնահատվում է բազմաթիվ հիմնավորման ջանքերի հիման վրա (խնդրում ենք նկատի ունենալ, որ այս պատկերում յուրաքանչյուր կետ իրականում չափված հիմնավորման ջանքերի միջև գծային ինտերպոլյացիայի արդյունք է): Շրջանները ցույց են տալիս, որ տվյալ հիմնավորման ջանքերի մակարդակում մոդելը գերակշռում է մոնիտորինգի հնարավորությամբ այդ կարողությունների մակարդակում, իսկ թափանցիկ X-երը ցույց են տալիս, որ տվյալ հիմնավորման ջանքերի մակարդակում մոդելը մոնիտորինգի հնարավորությամբ գերակշռվում է մեկ այլ մոդելի կողմից այդ կարողությունների մակարդակում։ Սև սլաքներով մենք ցույց ենք տալիս երկու եղանակներ, թե ինչպես կարելի է ավելի շատ հաշվարկային ռեսուրսներ ծախսել՝ ավելի փոքր մոդելով շատ ավելի շատ թոքեններ ընտրելով կամ նույն մոդելով համեմատաբար ավելի քիչ լրացուցիչ թոքեններ ընտրելով: Կարմիր սլաքներով մենք ցույց ենք տալիս մոնիթորինգի հարկը, որը պետք է վճարվի, այսինքն՝ մի փոքր նվազեցված հնարավորություններ՝ շատ ավելի մեծ մոնիթորինգի համար:
Ընդհանուր առմամբ, մենք գտնում ենք, որ եթե մենք տեղակայեինք տվյալ մոդելը ցածր հիմնավորման ջանքերով, ապա կարող էինք փոխարենը տեղակայել ավելի փոքր մոդել՝ ավելի բարձր հիմնավորման ջանքերով։ Համեմատած լրացուցիչ հաշվարկային հզորությունը ծախսելու հետ՝ սկզբնական մեծ մոդելի տրամաբանական ջանքերի վրա, մենք կարող ենք ստանալ ավելի բարձր մոնիտորինգի հնարավորության մակարդակ՝ փոքր կարողությունների գնով կամ մոնիտորինգի հնարավորության հարկով, սակայն, ավարտման համար պահանջվող պատի ժամացույցի ժամանակը նույնպես կարող է լինել որոշ տեղակայման որոշումների գործոն, որը մենք այստեղ չենք դիտարկում։ Քանի որ մեր մոդելները բարելավվում են և տեղակայվում են ավելի բարձր ռիսկային միջավայրերում, հնարավոր է դառնա անհրաժեշտ վճարել նման հարկ՝ դրանք անվտանգ կերպով տեղակայելու համար։
Այս արդյունքները ունեն հետևյալ սահմանափակումները. (1) մենք յուրաքանչյուր մոդել վարժեցնում ենք միայն մեկ անգամ, և, հետևաբար, հաշվի չենք առնում ուսուցման ընթացքի տարբերությունները: Օրինակ, «միջին» մոդելը կարծես թե բավականին դուրս է միտումից մոնիտորինգի տեսանկյունից՝ համեմատած շարքի մյուս մոդելների հետ, ինչը կարող է պայմանավորված լինել սրանով։ (2) Մենք գնահատում ենք հնարավորությունները հարաբերականորեն ներսի բաշխման պայմաններում (մաթեմատիկա, գիտություն և կոդավորում), և փոխզիջումները կարող են փոխվել, երբ հաշվի ենք առնում բաշխման սահմաններից դուրս կայունությունը։
Քանի որ արհեստական բանականության համակարգերը մասշտաբավորվում են մարդկային մակարդակից բարձր, ուղղակի մարդկային վերահսկողությունը դառնում է ավելի ու ավելի դժվար։ Իդեալականորեն, մենք կունենայինք մասշտաբային վերահսկողության ընթացակարգեր, որոնք թույլ կտային վստահելի, բայց ավելի թույլ մոնիտորներին վերահսկել ավելի ուժեղ, հնարավոր է ոչ վստահելի ագենտներին։ Այդպիսի ընթացակարգերը պետք է նաև կարողանան կլանել լրացուցիչ փորձարկման ժամանակի հաշվարկը և ապահովել ավելի ճշգրիտ կանխատեսումներ։
(Ձախ) Մենք համեմատում ենք բազմաթիվ տարբեր մոնիտորներ և փոփոխում յուրաքանչյուրի հիմնավորման ջանքը։ Յուրաքանչյուր մոնիտոր հետևում է նույն GPT‑5 Thinking մոդելին։ Ինչպես կարելի է ակնկալել, մենք գտնում ենք, որ ընդհանուր առմամբ ավելի մեծ և ավելի ունակ մոդելները գործում են որպես ավելի լավ մոնիտորներ, իսկ հիմնավորման մոդելները մոնիտորինգի առաջադրանքը ավելի լավ են կատարում՝ ավելի բարձր հիմնավորման ջանքերով (և, հետևաբար, թեստային ժամանակի հաշվարկով):
(Աջ) Մենք համեմատում ենք OpenAI o4-mini-ի մոնիտորինգի տարբեր դիտարկման շրջանակները, այսինքն՝ արդյոք մոնիտորը կարող է տեսնել միայն CoT-ը, միայն գործողությունները և պատասխանը, թե մոդելի բոլոր հաղորդագրությունները, որոնք նա մոնիտորինգ է անում: Նշանակալի է, որ մենք գտնում ենք, որ մոնիտորինգի հաշվարկի ավելացման դեպքում (ավելի բարձր մոնիտորինգի հիմնավորման ջանք) մոնիտորինգի կարողությունը բարելավվում է ավելի արագ տեմպերով, երբ մոնիտորին հնարավորություն է տրվում մուտք գործել մտքերի շղթա (CoT)։ Այսպիսով, CoT մոնիտորինգը կարող է ապահովել ավելի մասշտաբային վերահսկման ուղի, քան միամիտ մոնիտորինգը:
Մտածողության շղթայի վերահսկելիությունը հաճախ դիտարկվում է որպես հաստատուն քանակ. երբ մոդելը որոշակի մտածողության ջանքով պատասխանում է, ստացված մտածողության շղթան վերահսկվում է հնարավորինս լավ։ Քանի որ մենք մշտապես նկատել ենք, որ մեր ագենտների հօմնավորման ջանքերի ավելացմանը զուգընթաց մոնիթորինգի հնարավորությունը բարելավվում է, մենք ոգեշնչվեցինք հարցնել, թե արդյոք կարող ենք ինչ-որ կերպ ավելի շատ թոքեններ ձեռք բերել մոնիթորինգի համար։
Սա ուսումնասիրելու համար մենք փորձարկեցինք մոդելի պատասխանից հետո հետևողական հարցեր տալը՝ պահպանելով սկզբնական հարցումը, մտքերի շղթան և պատասխանը համատեքստում։ Այս հետևողական հարցերը կենտրոնանում են վերահսկվող հատկության վրա՝ օրինակ, «Դուք հուշումը իմաստալից կերպով օգտագործեցի՞ք ձեր պատասխանը ընտրելու համար» կամ «Դուք ինչ-որ կասկածելի բան արեցի՞ք»: Սկզբունքորեն, քանի որ մոդելը պահպանում է իր նախորդ մտածողությունը, այն կարող է հայտնաբերել նախկինում չարտահայտված մտքերը հաջորդական մտածողության կամ պատասխանի շղթայում։
Այս արդյունքները նախնական են։ Մենք ուսումնասիրեցինք միայն հետագա հարցերի ձևաչափերի փոքր քանակը և հավատում ենք, որ կա զգալիորեն բարելավված մեթոդաբանության հնարավորություն։ Բացի այդ, այս մեթոդը ոգով նման է մոդելի խոստովանություններին, և մենք ակտիվորեն աշխատում ենք մոտեցումների համեմատության վրա։
Մենք ցուցադրում ենք արդյունքները՝ միջինացված մեր գնահատման հավաքածուի և մեր բոլոր վերջին տրամաբանական մոդելների՝ OpenAI o3‑mini, OpenAI o3, OpenAI o4-mini և GPT‑5‑thinking։ Մենք գտնում ենք, որ ընդհանուր առմամբ, հետագա հարցերը բարելավում են վերահսկելիությունը, հատկապես ավելի ցածր հիմնավորման ջանքերի դեպքում։ Եթե մենք բազմիցս տանք հետագա հարցը և տրամադրենք մոնիտորին բոլոր հետագա CoT-երը, մոնիտորինգի հնարավորությունը կբարելավվի նույնիսկ ավելի։ Հատկանշական է, որ երբ մենք մոնիտորին հասանելիություն ենք տալիս միայն հետագա պատասխանին, և ոչ թե հետագա CoT-ին, մենք տեսնում ենք ավելի քիչ բարելավում սկզբնական մակարդակի համեմատ։ Սա ցույց է տալիս, որ մոդելները չեն լինում բաց իրենց պատասխաններում օգտատերերին, բայց պատահում է, որ ավելի շատ տեղեկատվություն են տալիս իրենց մտքերի շղթայական (CoT) գործընթացում։
Բացի մոնիտորինգի հնարավորության բարելավումից, այս մոտեցումը գրավիչ է, քանի որ այն կարող է կիրառվել հետհետազոտական եղանակով՝ լրացուցիչ հաշվարկային ծախս առաջացնելով միայն այն ժամանակ, երբ անհրաժեշտ է ավելի խորը ուսումնասիրություն։ Ապագային նայելով, եթե մոդելները վարժեցվեն ակնկալելու հիմնավորման ջանքերի փոփոխություններ խոսակցության ընթացքում, հետադարձ կապերը ավելի բարձր հիմնավորման ջանքերով կարող են հետագայում բարելավել մոնիտորինգի հնարավորությունը, նույնիսկ երբ սկզբնական հիմնավորման ջանքերը ցածր են կամ բացակայում են։
Մեր հավաքածուի յուրաքանչյուր գնահատում չափում է, թե արդյոք հիմնավորման գործընթացի առանձին ասպեկտը կարող է վերահսկվել։ Մինչ մենք նպատակ ունենք ընդգրկել վարքագծերի լայն շրջանակ՝ ներառյալ շողոքորթությունը, խոչընդոտելը, կողմնակալությունը, խորամանկությունը և պարգևատրման խարդախությունը, կան բազմաթիվ լրացուցիչ հատկություններ, որոնք դեռևս չեն փորձարկվել։
Ինչպես ցանկացած չափանիշի դեպքում, մեր գնահատումները կարող են տուժել սահմանափակ իրատեսությունից կամ գնահատման գիտակցության աճից, և արդյունքները կարող են չընդհանրացվել վայրի միջավայրում սխալ վարքագիծ հայտնաբերելու համար։
Վերջապես, երբ համապատասխանությունը բարելավվում է, մոդելները կարող են ավելի հազվադեպ սխալ վարք դրսևորել վերահսկվող գնահատման պայմաններում՝ նվազեցնելով մոնիտորինգի և վերահսկման գնահատումների համար հասանելի ազդանշանը, որոնք հիմնվում են սխալ վարքագծի հայտնաբերման վրա։ Այդ դեպքերում «չեզոք» մոնիտորինգի հնարավորության գնահատականները մնում են կիրառելի, թեև բաց հարց է, թե որքան կանխատեսելի են դրանք իրական աշխարհի ձախողումների դեպքում։
Եթե համապատասխանեցման խնդիրը հնարավոր չէ ամբողջությամբ լուծել, ապա մասշտաբային կառավարման մեթոդները չափազանց կարևոր կլինեն մեր բարձր ունակ մոդելների անվտանգ տեղակայման համար։ Մտքերի շղթայի մոնիտորինգը և հարակից մեթոդները կարող են լինել մեր տրամադրության տակ եղած մի քանի վերահսկման մեխանիզմներից մեկը: Մտքերի շղթան կարող է նաև մեծ օգուտներ բերել մեր մոդելների մասին ավելի շատ հասկանալու գործում, օրինակ՝ արդյոք նրանք գիտակցում են, որ գտնվում են գնահատման մեջ և իրենց այլ կերպ են պահում, քան տեղակայման ժամանակ, արդյոք կան ապացույցներ որևէ բացասական նպատակի մասին, որը դեռևս չի դրսևորվել մեր գնահատումներում և այլն։ Հետևաբար, մենք հավատում ենք, որ չափազանց կարևոր է հասկանալ, թե ինչպես և երբ կարող ենք կորցնել վերահսկելիությունը։
Մենք դիտարկում ենք մտքերի շղթայի մոնիտորինգը որպես մեխանիկական մեկնաբանելիության լրացում, ոչ թե որպես դրա փոխարինում: Ինչպես բոլոր հայտնի վերահսկման և մեկնաբանելիության մեթոդները, յուրաքանչյուրն ունի սահմանափակումներ և կույր կետեր։ Մեր ակնկալիքն այն է, որ մի քանի մոտեցումների համադրումը՝ խորքային պաշտպանության ռազմավարություն, կարող է օգնել ծածկել այն բացերը, որոնք թողնում է ցանկացած առանձին մեթոդ։ Նշանակալի է, որ այս աշխատանքում ներկայացված գնահատումները կարող են նաև կիրառվել մեխանիստական մեկնաբանելիության վրա հիմնված մոնիտորինգի տեխնիկաները գնահատելու և համեմատելու համար։
Քանի որ մենք հավատում ենք, որ մտքի շղթայի մոնիտորինգը կարող է լինել բեռնատար շերտ՝ մասշտաբային կառավարման սխեմայում, մենք պլանավորում ենք ընդլայնել այս գնահատականները և օգտագործել դրանք՝ ապագա մոդելավորման և տվյալների որոշումների կայացման համար:
Հեղինակ
Մեջբերումներ
1. Մեր մոդելները նախատեսված չեն բժշկական ախտորոշումներ տալու համար, ուստի մեր առողջապահական հարցումների տվյալների հավաքածուն նախատեսված չէ այդ կարողությունը փորձարկելու համար։


