Մոդելի վարքի կանխատեսում մինչև թողարկումը՝ տեղակայումը սիմուլացնելով
Իրատեսական զրույցային համատեքստերի օգտագործում՝ մինչև թողարկումը անցանկալի մոդելի վարքը ավելի լավ գնահատելու համար։
Նոր մոդել թողարկելուց առաջ լաբորատորիաները պետք է հասկանան ոչ միայն, թե այն ինչ կարող է անել, այլև ինչպես է հավանաբար իրեն պահելու իրական օգտագործման մեջ, այդ թվում՝ որտեղ կարող է նոր ռիսկեր առաջացնել։ Սա էլ ավելի կարևոր է դառնում կարողությունների աճին զուգահեռ։ Մեր նախատեղակայման անվտանգության վերանայման շրջանակում մենք օգտագործում ենք թիրախային գնահատումներ, red-teaming և այլ ստուգումներ՝ մոդելի վարքը հասկանալու համար։ Այժմ սկսել ենք օգտագործել մոդելների տեղակայումները նախապես սիմուլացնելու մեթոդ, որը ավելացնում է լրացուցիչ ազդանշան՝ տեղակայմանը նման նախադիտում այն մասին, թե թեկնածու մոդելը ինչպես կարող է իրեն պահել մինչև օգտատերերին հասնելը։
Տեղակայման սիմուլյացիան ապագա տեղակայումը նախքան դրա իրականացումը սիմուլացնելու մեթոդ է։ Դա անում ենք՝ նախորդ զրույցները գաղտնիությունը պահպանող ձևով վերարտադրելով նոր թեկնածու մոդելի միջոցով։ Սա մեզ հնարավորություն է տալիս մինչև թողարկումը ուսումնասիրել, թե նոր մոդելը ինչպես է արձագանքում իրատեսական համատեքստերում, այդ թվում՝ արդյոք ի հայտ են գալիս նոր անցանկալի վարքեր և որքան հաճախ դրանք կարող են հայտնվել։
GPT‑5 շարքի Thinking մի քանի տեղակայումների ընթացքում Տեղակայման սիմուլյացիան բարելավեց անցանկալի մոդելի վարքի մակարդակների մեր գնահատականները, օգնեց մինչև թողարկումը բացահայտել անհամապատասխանության նոր ձևեր և նվազեցնել այն ռիսկը, որ մոդելները կկարողանային հասկանալ, որ իրենց փորձարկում են։ Մենք մեթոդը կիրառեցինք նաև բարդ ագենտային թողարկումների համար՝ ցույց տալով, որ այն կարող է դուրս գալ ստանդարտ չաթից և տարածվել գործիքների օգտագործմամբ ավելի բարդ ագենտային միջավայրերի վրա, ինչպես նաև օգտագործվել ներքին մոդելի տեղակայումներից առաջ ռիսկի գնահատման համար։
Մենք արդեն օգտագործել ենք Տեղակայման սիմուլյացիայից ստացված պատկերացումները մոդելի մշակման ընթացքում՝ ավանդական գնահատումներում կույր կետեր գտնելու և մեղմացումների ու տեղակայման որոշումների մասին տեղեկացնելու համար։ Քանի որ խողովակաշարը դարձնում ենք ավելի հեշտ գործարկվող, ակնկալում ենք, որ այն ավելի մեծ դեր կունենա ապագա մոդելների մշակման գործընթացում։
Ոլորտում կիրառվող նախատեղակայման գնահատումները սովորաբար բաղկացած են սինթետիկ, ձեռքով գրված կամ արտադրական հարցումների խառնուրդից, որոնք դիտավորյալ ընտրվել են որպես բարդ, բարձր լրջության կամ հակամարտական։ Այս գնահատումները սովորաբար ունեցել են երկու փոխկապակցված նպատակ՝ գնահատել, թե մոդելը ինչպես է արձագանքում սթրես-թեստի ժամանակ այնպիսի իրավիճակներում, որոնք տեղակայման տրաֆիկում առաջանալու շատ փոքր հավանականություն ունեն, և ընդհանուր պատկերացում ստանալ անցանկալի մոդելի վարքերի մասին, ներառյալ նոր անցանկալի վարքեր գտնելը և տեղակայման պահին դրանց հաճախականությունները կանխատեսելը։
Թեև ավանդական գնահատումները մնում են կարևոր առաջին նպատակի համար, Տեղակայման սիմուլյացիան երկրորդ նպատակի առումով էական առաջընթաց է ծայրահեղ իրավիճակների հետ չառնչվող ռիսկերի համար (մեր փորձերում մեր մոտեցումից չի կարելի ակնկալել չափել վարքեր, որոնք հանդիպում են 200,000 հաղորդագրությունից 1-ից պակաս հաճախականությամբ)։ Տեղակայման սիմուլյացիայի ուժը գալիս է ավանդական գնահատումների մի քանի հիմնական մարտահրավերներ շրջանցելուց․
- Ծածկույթ․ դժվար է վստահ լինել, որ գնահատման հարցումները կծածկեն անցանկալի մոդելի վարքի բոլոր հնարավոր տեսակները։ Անցանկալի վարքի նոր տեսակների չափումը պահանջում է ստեղծել նոր գնահատումներ և իմանալ, թե ինչ վնասներ պետք է չափել։ Սա կարող է ժամանակատար և աշխատատար լինել, իսկ գնահատումները ժամանակի ընթացքում կարող են հագենալ։
- Ընտրության շեղումներ․ ավանդական գնահատումները սովորաբար կառուցվում են որոշակի անցանկալի մոդելի վարքեր նկատի ունենալով և ընտրվում են այնպես, որ շեղում լինի դեպի նախկինում արդեն տեղի ունեցած համատեքստերը։ Սա կարող է դրանց գնահատականներն ավելի քիչ տեղեկատու դարձնել տեղակայման բաշխման ամբողջ լայնության մեջ այդպիսի վարքերի հանդիպման վերաբերյալ։
- Մոդելների կողմից որպես թեստ ճանաչելի լինելը․ մոդելները գնալով ավելի կարող են որոշել, որ իրենց փորձարկում են, ինչը կարող է աղավաղել նրանց վարքը և անվտանգության մեր հետագա չափումները։ Թեև OpenAI-ում մեր օգտագործած ավանդական գնահատումներից շատերը նույնպես վերցված են արտադրական տրաֆիկից և այս խնդիրը չունեն, սա տարածված մտահոգություն է ոլորտում օգտագործվող շատ ավանդական գնահատումների համար։
Տեղակայման սիմուլյացիայի հիմնական տեխնիկան պարզ է․ մենք վերցնում ենք տեղակայումից վերջին զրույցները, հեռացնում ենք հին մոդելի սկզբնական օգնականի պատասխանը և այն վերագեներացնում թողարկվելիք թեկնածու մոդելով։ Մենք գնահատում ենք լրացումները՝ որոնելով ձախողման նոր ռեժիմներ, և տեղակայման պահին անցանկալի վարքի հաճախականությունը գնահատում ենք տեղակայմանը նման այս բաշխման մեջ հանդիպման հաճախականության հիման վրա։ Նույն չափումները կարող ենք կատարել թողարկումից հետո իրական տեղակայման տրաֆիկի վրա՝ հնարավորություն ստանալով վավերացնել մեր նախատեղակայման կանխատեսումները։
Տեղակայման սիմուլյացիան էապես մեղմացնում է վերևում նշված երեք սահմանափակումները․ նմուշառման շեղումը հասցեագրվում է՝ օգտագործելով վերջին օգտագործումը ներկայացնող գնահատման հարցումների բաշխում։ Ներկայացուցչական հարցումներով Տեղակայման սիմուլյացիան կարող է նաև մեղմացնել ծածկույթի վերաբերյալ մտահոգությունները․ մենք ստանում ենք անցանկալի մոդելի վարքերի ավելի մեծ ծածկույթ՝ պարզապես ավելի շատ տրաֆիկ սիմուլացնելով։ Հաշվարկի և ծածկույթի այս փոխզիջումը կարևոր է, քանի որ այն ռիսկի գնահատման այս առանցքի որակը մասշտաբավորում է հաշվարկային ռեսուրսի, այլ ոչ թե ավելի շատ գնահատումներ կառուցելու համար պահանջվող ձեռքով աշխատանքի հետ։ Մոդելները նաև կարծես չեն կարողանում տարբերել տեղակայման սիմուլյացիայով ստացված զրույցները իրական տեղակայման տրաֆիկից։
Նկար 1․ Մեր Տեղակայման սիմուլյացիայի խողովակաշարի ակնարկ
Տարածք | Ավանդական գնահատումներ | Տեղակայման սիմուլյացիա |
Ծածկույթ | Ավելի լավ է ցածր տարածվածության, բայց բարձր ծանրության ռիսկերի համար, որոնց համար մենք ուզում ենք համոզվել, որ ունենք ապահովագրություն։ | Ավելի լավ է հասկանալու համար այն ռիսկերի սպեկտրը, որը մենք հավանաբար կտեսնենք տեղակայման երթևեկության մեջ |
Ներկայացուցչականություն / կողմնակալություն | Կենտրոնացած է թիրախային անցյալի կամ կանխատեսված ռիսկերի գնահատման վրա, նույնիսկ այն վարքագծերի համար, որոնք տեղակայման ընթացքում ունեն չափազանց ցածր տարածվածություն։ | Ներկայացնում է ռիսկերը, որոնք առաջանում են որոշակի տարածվածությունից բարձր ընթացիկ տեղակայման երթևեկության մեջ |
Գնահատման իրազեկություն | Հնարավոր ակնհայտ փորձարկման ազդանշաններ (օրինակ՝ սինթետիկ տվյալներով), եթե գնահատականները չեն ստեղծվել տեղակայման տվյալներով։ | Տեղակայման նման համատեքստը, կարծես, զգալիորեն մեղմացնում է գնահատման իրազեկությունը |
Ջանք | Հատուկ հուշումների բաշխումն ու կարգավորումը պահանջում է զգալիորեն ավելի շատ ձեռքով աշխատանք | Պահանջում է միանվագ ենթակառուցվածքային ծախս, ապա վերօգտագործում է տեղակայման նախածանցները և հայտնի անցանկալի վարքագծերի գրեյդերները։ |
Բարձր մակարդակի համեմատություն ավանդական գնահատումների և Տեղակայման սիմուլյացիայի միջև
Տեղակայման սիմուլյացիան գնահատելու համար մենք նախապես գրանցեցինք GPT‑5.4 Thinking-ի համար անցանկալի վարքի 20 տեսակների տեղակայման պահին հաճախականության կանխատեսումներ։ Մենք նաև հետահայաց ուսումնասիրություններ անցկացրինք GPT‑5 շարքի Thinking մոդելների այլ տեղակայումների վրա։ Մեր վերլուծած մոդելի վարքերը ընդգրկում են և՛ անհամապատասխանություն, և՛ արգելված բովանդակության կատեգորիաներ, որոնց մասին զեկուցել ենք համակարգի քարտերում (օր.՝ մոդելի կողմից գործիքների մասին ստելը կամ արգելված սեռական բովանդակություն արտածելը)։ Թեև այս արդյունքների համար հետևում ենք անցանկալի մոդելի վարքի միայն 20 կատեգորիայի և որոնում ենք միայն նոր անհամապատասխան վարքեր, Տեղակայման սիմուլյացիան ընդհանուր տեխնիկա է, որը կարող է կիրառվել տեղակայման պահին մոդելի ցանկացած հատկություն սիմուլացնելու համար։
Մեր օգտագործած արտադրական տրաֆիկը նույնպես GPT‑5 շարքի Thinking մոդելներից էր։ Մեր գնահատումները գործարկելուց առաջ մենք ավտոմատ կերպով հեռացրինք հաշվի հետ կապակցված նույնականացուցիչներն ու նույնականացվող տեղեկությունները։ Մեր գաղտնիության քաղաքականությանը համապատասխան՝ մենք վերլուծել ենք միայն այն օգտատերերի ChatGPT տրաֆիկը, որոնք թույլ են տալիս իրենց տվյալներն օգտագործել մոդելի բարելավումների համար։ Այս գնահատումներից մենք ներկայացնում ենք միայն ագրեգացված արդյունքներ։ Ընդհանուր առմամբ, մենք վերլուծել ենք մոտ 1.3 միլիոն ապանույնականացված զրույց՝ GPT‑5 Thinking-ից մինչև GPT‑5.4 տեղակայումներ, 2025 թվականի օգոստոսից մինչև 2026 թվականի մարտ ընկած ժամանակահատվածում։
Տեղակայման սիմուլյացիայի ստեղծած նախատեղակայման ռիսկի գնահատման որակը գնահատում ենք երեք հիմնական ձևով․
- Տաքսոնոմիայի ծածկույթ․ թողարկումից հետո աուդիտը արդյո՞ք բացահայտեց կարևոր անհամապատասխան վարքեր, որոնք բացակայում էին մեր սկզբնական վատ վարքի տաքսոնոմիայից։
- Ուղղության ճշգրտություն․ սիմուլյացիան ճիշտ կանխատեսե՞ց, թե տեղակայման տարածվածությունը հայտնի վարքերի համար կաճի, թե կնվազի։
- Մակարդակի կալիբրացում․ մեր նախատեղակայման գնահատականները մոտ էի՞ն այն մակարդակներին, որոնք հետո դիտարկեցինք տեղակայման մեջ։ Լավ մակարդակի կալիբրացման հասնելը պահանջում է ավելին, քան ուղղության ճշգրտություն, ինչն էլ սա դարձնում է հնարավոր ամենաբարձր որակի չափանիշը։
Մենք նաև չափում ենք, թե մոդելները որքանով են կարողանում հասկանալ, որ Տեղակայման սիմուլյացիայի ընթացքում գնահատման մեջ են, և փորձարկում ենք, թե մեթոդը որքան դիմացկուն է տեղակայման տրաֆիկի տարբեր ձևերի և բարդ գործիքային օգտագործման միջավայրերի նկատմամբ։
GPT‑5 շարքի Thinking տեղակայումներում Տեղակայման սիմուլյացիան գերազանցեց բարդ հարցումների բազային տարբերակներին իրական ռիսկի մակարդակը որոշելիս, կարողացավ մինչև թողարկումը բացահայտել հաշվիչի հաքավորումը և մոդելի համար հնարավոր է թվաց տեղակայումից անտարբերելի։
Մեր կանխատեսումների ակնարկը։ GPT‑5 շարքի Thinking մոդելների տեղակայումների բոլոր կանխատեսումների պատկերացման համար տես Նկար 2-ը։ GPT‑5.4 Thinking-ի կանխատեսումները նախապես գրանցված էին, իսկ մյուսները հետադարձ կանխատեսումներ էին։ Ընդհանուր առմամբ, մեր կանխատեսումների մեդիան բազմապատկիչ սխալը 1.5x էր (օր.՝ եթե անցանկալի վարքի մակարդակը 100 հազարի մեջ 10 է, սա կհամապատասխաներ 100 հազարի մեջ 15 կամ 6.67 մակարդակի գնահատմանը)։ Թեև մեր մեթոդի ծայրային սխալները կարող են մոտ 10x ավելի մեծ լինել, ակնկալում ենք, որ դրանք կարող են էապես կրճատվել մեր սիմուլյացիոն խողովակաշարի հետագա բարելավումներով, ինչպես քննարկվում է ստորև։
Նկար 2. Տեղակայման սիմուլյացիայի հաճախականության կանխատեսումներ՝ տեղակայման պահին անցանկալի վարքի մասին՝ հիմնված նախորդ տեղակայման տվյալների վրա։ 5.1 → 5 նշումը նշանակում է, որ GPT‑5‑ի նախածանցները վերանմուշառում ենք GPT‑5.1‑ով, այսինքն՝ սիմուլացնում ենք GPT‑5.1‑ի տեղակայումը GPT‑5‑ի տվյալների հիման վրա։ Անհամապատասխան վարքի ամենաբարձր մակարդակը GPT‑5.1‑ում «հաշվիչի հաքավորումն» էր, որը մենք քննարկել ենք նախկինում(բացվում է նոր պատուհանում)։
Տեղակայման սիմուլյացիայի կանխատեսումների համեմատությունը բազային տարբերակների հետ։ Նախատեղակայման ռիսկի գնահատումների համար ճիշտ գնահատելու ամենակարևոր կատեգորիաներն այն կատեգորիաներն են, որոնց հանդիպման հաճախականությունը մոդելի տեղակայումից հետո մեծ փոփոխվում է (օր.՝ >= 1.5x)։ Այս ենթաբազմության վրա Տեղակայման սիմուլյացիան բազային տարբերակներից զգալիորեն ավելի լավ է թե՛ կանխատեսելու, արդյոք որոշակի անցանկալի վարքի տարածվածությունը կաճի կամ կնվազի մոդելի տեղակայման հետ (Նկար 3, ձախ), թե՛ դրա ճշգրիտ տեղակայման պահին հանդիպման հաճախականությունը գնահատելու հարցում (Նկար 3, աջ)։ Մենք օգտագործում ենք երկու հիմնական բազային տարբերակ՝ Բարդ հարցումների բազային տարբերակ, որը ներկայում օգտագործում ենք համակարգի քարտերի և գործարկման որոշումների համար, և միամիտ բազային տարբերակ, որը նոր մոդելի համար որպես գնահատականներ օգտագործում է նախորդ տեղակայման մակարդակները։
Նկար 3. Տեղակայման սիմուլյացիան ստատիկ գնահատումներից ավելի լավ է կանխատեսում և՛ հանդիպման փոփոխությունների ուղղությունը (ձախ), և՛ ճշգրիտ արտադրական մակարդակները (աջ)։
Սիմուլյացիայի սխալի աղբյուրները մեր խողովակաշարում։ Մենք նաև ուսումնասիրեցինք մեր խողովակաշարում սխալի ներկայիս աղբյուրները։ Մասնավորապես, մեծ ծայրային սխալները խողովակաշարը պակաս վստահելի են դարձնում տեղակայման որոշումների համար․ օրինակ, երբ տեսնում ենք որոշակի տեսակի անցանկալի վարքի մեծ կանխատեսված աճ, եթե հայտնի է, որ խողովակաշարը երբեմն ունենում է մեծ սխալներ, կասկած է առաջանում՝ արդյոք սա հուսալի գնահատական է, թե խողովակաշարի արտեֆակտ։ Հնարավոր սխալի երկու հիմնական աղբյուր կա․
- Վերանմուշառման միջավայրի հավաստության սխալ․ արտադրական մակարդակները ճշգրիտ գնահատելու համար մեր սիմուլյացիոն խողովակաշարը պետք է հնարավորինս իրատեսական լինի։ Սա մասամբ ինժեներական խնդիր է (մոդելից նմուշառում՝ արտադրական տրաֆիկի համար օգտագործվող նույն խողովակաշարերով), և մասամբ հետաքրքիր մարտահրավեր այն գործիքների համար, որոնց պետք է կարդալու/գրելու հասանելիություն անընդհատ փոփոխվող արտաքին ռեսուրսներին (օր.՝ վեբ որոնումներ կամ տեղային ֆայլերի հետ փոխազդեցություն)։ Մենք կարող ենք մեկուսացնել սիմուլյացիայի հավաստության սխալը՝ համեմատելով իրական տեղակայման և դրա սիմուլյացիայի կանխատեսումները (այսինքն՝ արդեն տեղակայված մոդելի տեղակայումը սիմուլացնելով)։
- Հարցումների բաշխման շեղման սխալ․ Տեղակայման սիմուլյացիայի մեծ մտահոգությունն այն է, որ ցանկացած մոդելի տեղակայում կառաջացնի մուտքային տվյալների բաշխման շեղում, հատկապես եթե օգտատերերը հարմարվեն նոր մոդելի հնարավորություններին։ Մենք մեկուսացնում ենք հարցումների բաշխման սխալը՝ համեմատելով գնահատականները, երբ տեղակայումը սիմուլացնում ենք վերջին հարցումներով՝ ի տարբերություն իրականացված տեղակայումից հարցումների։
Ինչպես երևում է Նկար 4-ում, մեր խողովակաշարի սխալի մեծ մասը, հատկապես ծայրային սխալների համար, ներկայում պայմանավորված է սիմուլյացիայի հավաստությամբ։ Սա լավ նորություն է, քանի որ ակնկալում ենք, որ սիմուլյացիայի հավաստությունը սովորաբար ավելի հեշտ կլինի բարելավել, քան հարցումների բաշխման շեղումը նվազեցնելը։ Մենք նաև գտնում ենք, որ հարցումների բաշխման շեղման սխալը կարող է նվազել՝ օգտագործելով նախորդ տեղակայման ամենավերջին տվյալները։ Ավելի մանրամասն տեղեկություն կարելի է գտնել հետազոտական հոդվածում։
Նկար 4․ Վերանմուշառման միջավայրի հավաստությունը, կարծես, մեր գնահատականներում սխալի ամենամեծ աղբյուրն է, հատկապես ամենածայրահեղ սխալների համար։
Ավտոմատացված աուդիտը գտավ այս տեղակայումներում ներմուծված միակ նոր անհամապատասխանությունը։ Մեր ուսումնասիրած տեղակայման պատուհանում սիմուլացված տեղակայումների վրա հիմնված մեր ավտոմատացված աուդիտի խողովակաշարը մինչև թողարկումը կբացահայտեր «հաշվիչի հաքավորումը», որը մեր վերլուծած ChatGPT տրաֆիկում հայտնաբերած միակ նոր անհամապատասխանությունն էր։ Հաշվիչի հաքավորումը պարգևի հաքավորման ձև է, որի դեպքում մոդելը դիտարկչի գործիքն օգտագործում է որպես հաշվիչ՝ գործողությունը ներկայացնելով որպես որոնում։ Սա չի նշանակում, որ լայնածավալ աուդիտը կբռնի յուրաքանչյուր նոր ձախողում, բայց ցույց է տալիս, թե ինչու են իրատեսական համատեքստերը կարևոր․ դրանք կարող են առաջացնել վարքեր, որոնք ավելի նեղ գնահատման հավաքածուները կարող էին երբեք ուղղակիորեն չբացահայտել, նույնիսկ եթե դրանք չկային սիմուլյացիան սերմանելու համար օգտագործված սկզբնական տրաֆիկում։
Տեղակայմանը նման համատեքստերի օգտագործման ևս մեկ առավելությունն այն է, որ դրանք կարող են նվազեցնել այն աղավաղումները, որոնք առաջանում են, երբ մոդելները ճանաչում են, որ իրենց փորձարկում են։ Նախորդ հետազոտություններում մենք, ինչպես նաև ուրիշները(բացվում է նոր պատուհանում) գտել ենք, որ մոդելները հաճախ տեղյակ են, թե երբ են իրենց փորձարկում։ Օրինակ՝ մոդելները կարող են իրենց մտքերի շղթայում հիմնավորել, թե ինչի վրա են իրենց փորձարկում, ինչ կարող է դուր գալ գնահատողին և, եթե նրանք սխալ են վարվում, արդյոք կբռնվեն։ Սա խնդիր է ստեղծում համահարթեցման գնահատումների համար․ եթե մոդելը լավ է վարվում միայն այն պատճառով, որ կարծում է՝ իրեն փորձարկում են, ինչպե՞ս վստահ լինենք, որ այն անվտանգ կվարվի, երբ իմանա, որ տեղակայվել է։
Մենք ցույց ենք տալիս, որ Տեղակայման սիմուլյացիան զգալիորեն նվազեցնում է մոդելների ցուցաբերած գնահատման իրազեկման մակարդակները՝ համեմատած ավանդական գնահատումների հետ, որոնք հիմնված չեն իրական տեղակայման տվյալների վրա։ Գնահատման իրազեկումը չափում ենք երեք ձևով՝ խնդրելով մոդելին դասակարգել՝ արդյոք ուղեգիծը եկել է արտադրությունից, թե գնահատումից, վերահսկելով մտքերի շղթան՝ համահարթեցման համար գնահատվելու մասին բացահայտ հայտարարությունների, ինչպես նաև մետախաղի(բացվում է նոր պատուհանում) համար՝ վերահսկողության մասին ցանկացած հիմնավորում։ Սիմուլացված տեղակայման տրաֆիկը բոլոր երեք չափումներով մոտավորապես համընկավ իրական տեղակայման տրաֆիկի հետ։ Օրինակ՝ GPT‑5.2‑ը իրական արտադրական տրաֆիկը գնահատման նման պիտակավորեց դեպքերի 5.4%-ում, իսկ սիմուլացված տրաֆիկը՝ 5.1%-ում, մինչդեռ ավանդական գնահատումները (օրինակ՝ SWE-Bench կամ MonorepoBench, որոնք հիմնականում կազմված են սինթետիկ օրինակներից) գրեթե 100% դեպքերում դասակարգվեցին որպես գնահատումներ։
Նկար 5. Գնահատման իրազեկման համեմատություն․ իրական արտադրական տրաֆիկը և սիմուլացված տրաֆիկը նման մակարդակներ են ցույց տալիս գնահատման հայտնաբերման, բանավորեցված համահարթեցման գնահատման իրազեկման և մետախաղի համար, մինչդեռ ավանդական գնահատման տվյալների հավաքածուները շատ ավելի բարձր մակարդակներ են հաղորդում։
Ստուգելու համար՝ արդյոք մեթոդը կարող է դուրս գալ ստանդարտ չաթի ռեժիմներից, մենք նաև ուսումնասիրեցինք տեղակայումների սիմուլյացիան բարդ ագենտային կոդավորման միջավայրերի համար։ Մասնավորապես, մենք օգտագործում ենք GPT‑5.4‑ից 120,000 ներքին աշխատակիցների ագենտային ուղեգծեր՝ GPT‑5.5‑ի վրա հիմնված կոդավորման ագենտների ներքին տեղակայումը սիմուլացնելու համար։ Սա ծառայում է երկու նպատակի․ ցույց է տալիս, թե ինչպես կարող է տեղակայման սիմուլյացիան օգտագործվել նաև ներքին տեղակայումների ռիսկի գնահատման համար, և ցուցադրում է, որ զգույշ գործիքային սիմուլյացիայի միջոցով հնարավոր է սիմուլյացիայի հավաստությունը բարձր դարձնել նույնիսկ ագենտային միջավայրերում։
Վերևում քննարկեցինք, որ սիմուլյացիայի հավաստությունը մեր ներկայիս խողովակաշարում սխալի հիմնական աղբյուրներից մեկն է։ Տեղակայման սիմուլյացիաներն իրատեսական դարձնելու մարտահրավերներից մեկն այն է, որ այն պահանջում է, որ գործիքները գործեն իրատեսորեն, նույնիսկ երբ նրանց պետք է կարդալու/գրելու հասանելիություն անընդհատ փոփոխվող արտաքին ռեսուրսներին (օր.՝ վեբ որոնումներ կամ տեղային ֆայլերի հետ փոխազդեցություն)։
Սա հատկապես բարդ է այնպիսի միջավայրերի համար, ինչպիսիք են ագենտային տեղակայումները․ մեկ ագենտի ուղեգիծը կարող է կախված լինել հարյուրավոր գործիքային կանչերից, պահոցի վիճակից, ցանցային պատասխաններից կամ անցողիկ ձախողումներից։ Սա իրական գործիքային հասանելիությամբ վերանմուշառումը դարձնում է և՛ բարդ, և՛ հնարավոր վտանգավոր։ Սրա լույսի ներքո, գործիքային կանչերը կենդանի համակարգերի վրա կիրառելու փոխարեն, մենք դրանք սիմուլացնում ենք մեկ այլ LLM-ով։ Մենք ցույց ենք տալիս, որ այս LLM-ին լրացուցիչ հնարավորություններ տալը էական է իրատեսականության և հետևաբար գնահատման որակի համար։
Գործիք-սիմուլյատոր մոդելին տալիս ենք սկզբնական վերջին քայլի թողարկումը, զրույցի ժամանակվա պահոցը, գործիքային կանչ/պատասխան զույգերի տվյալների բազա և միայն-կարդալու միակցիչներ։ Թեստում, որտեղ տարբերակիչը փորձում էր տարբերել սիմուլացված թողարկումները իրականներից, իրատեսականությունը 11.6% հաղթանակի մակարդակից բարելավվեց մինչև 49.5%, մոտ 50% պատահականության մակարդակին։
Նկար 6․ Վերանմուշառման իրատեսականությունը կարելի է գրեթե անտարբերելի դարձնել իրական նմուշառումից նույնիսկ գործիքներով ծանր միջավայրերում, երբ գործիքային կանչերը սիմուլացվում են ավելացված հնարավորություններով։
Որպես սիմուլյացիայի հավաստության լրացուցիչ ապացույց՝ GPT‑5.4 Codex thinking տրաֆիկը GPT‑5.4‑ով սիմուլացնելիս անհամապատասխանության մակարդակները գրեթե սխալի միջակայքներում են։ Հակառակ դրան՝ մեր նախատեղակայման փորձարկումներում GPT‑5.5‑ը կատեգորիաների մեծ մասում ավելի անհամապատասխան էր։
Նկար 7․ Գործիքների սիմուլյացիայով GPT‑5.4‑ով վերանմուշառված զրույցների և իրական GPT‑5.4 արտադրական տրաֆիկի վարքի մակարդակները բավականին նման են՝ ցույց տալով վերանմուշառման միջավայրի բարձր հավաստություն։ Կատեգորիաների մասին լրացուցիչ համատեքստի համար տես GPT‑5.5 համակարգի քարտը(բացվում է նոր պատուհանում)։
Այս արդյունքները հուշում են, որ Տեղակայման սիմուլյացիան կարող է տարածվել բարդ ագենտային միջավայրերի վրա, երբ շրջակա գործիքային միջավայրը սիմուլացված է բավարար հավաստությամբ։
Բնական հարց է՝ արդյոք արտաքին աուդիտորները կարող են ստանալ նույն առավելություններից մի մասը՝ չունենալով մասնավոր արտադրական տրաֆիկի հասանելիություն։ Մենք սա փորձարկեցինք՝ օգտագործելով 100,000 WildChat զրույց որպես նախածանց։ WildChat-ը պակաս ճշգրիտ էր, քան OpenAI-ի վերջին արտադրական տվյալները, բայց դեռ տեղեկատու էր․ վերջին արտադրական տվյալների միջին բազմապատկիչ սխալը WildChat-ից ցածր էր (1.75× ընդդեմ 2.44×), իսկ WildChat-ը հաճախ մնում էր արտադրական մակարդակներից մոտավորապես 3× սահմաններում և պատահականից բարձր մակարդակով նույնականացնում էր ավելի լավ մոդելը։ Մենք WildChat ոճի գնահատումները համարում ենք խոստումնալից լրացում մշակողների կողմից գործարկվող Տեղակայման սիմուլյացիային։ Այս կետի վերաբերյալ ավելի շատ արդյունքների համար տես այս ուղեկցող Alignment բլոգային գրառումը(բացվում է նոր պատուհանում)։
Տեղակայման սիմուլյացիան լրացում է, ոչ թե փոխարինում, հակամարտական գնահատումներին, red-teaming-ին և թիրախային ծայրային ռիսկի վերլուծությանը։ Որոշ անցանկալի մոդելի վարքերի հայտնաբերումը կախված է մտքերի շղթայի վերահսկելիությունից․ եթե ապագա մոդելները հիմնավորեն պակաս ընթեռնելի, բաց թողնեն կարևոր քայլեր կամ սովորեն թաքցնել մտադրությունը, մենք կարող ենք չկարողանալ հայտնաբերել անցանկալի վարքի այս ձևերը։ Բացի այդ, քանի որ արտադրական տվյալները մասնավոր են, մշակողները ներկայում ավելի ուժեղ հասանելիություն ունեն ներկայացուցչական համատեքստերին, քան արտաքին աուդիտորները։ Ավելի լավ հանրային տվյալների հավաքածուները կարող են նեղացնել այդ բացը։
Տեղակայման սիմուլյացիան առավել օգտակար է այն վարքերի համար, որոնք այնքան հաճախ են տեղի ունենում, որ հայտնվեն նմուշառված նախածանցներում։ Տասը միլիոն զրույցում մեկ անգամ տեղի ունեցող ձախողումը դժվար թե հայտնաբերվի մեկ միլիոն նմուշի գործարկման մեջ, ուստի հակամարտական գնահատումները, red-teaming-ը և թիրախային ծայրային ռիսկի վերլուծությունը մնում են անհրաժեշտ։ Ներկայում կենտրոնանում ենք օգնականի մեկ պատասխանի սիմուլյացիայի վրա, քանի որ նախնական փորձերում մի քանի հերթ սիմուլացնելով մեր գնահատականների իմաստալի բարելավումներ չգտանք։ Սա ապագայում սիմուլյացիայի հավաստությունը բարելավելու կարևոր ոլորտ կարող է լինել։
Մեթոդը նաև կախված է նախածանցների բաշխումից՝ վերանմուշառվող զրույցների խառնուրդից։ Պատմական տրաֆիկը կարող է չհամընկնել այն եղանակին, որով օգտատերերը փոխազդում են ավելի կարողունակ մոդելի հետ խոշոր արտադրանքի փոփոխությունից, նոր գործիքի թողարկումից, համաշխարհային իրադարձությունից կամ սեզոնային շեղումից հետո։ Ամբողջական հոդվածի վերլուծությունը հուշում է, որ այս խնդիրը կարելի է մեղմացնել՝ օգտագործելով հասանելի ամենավերջին տվյալները։
Տեղակայման սիմուլյացիան նախատեղակայման ռիսկի գնահատման նոր մոտեցում է, որն օգնում է առաջատար լաբորատորիաներին և գնահատողներին կանխատեսել, թե լեզվական մոդելները ինչպես կարող են իրենց պահել իրական աշխարհում, և հասկանալ նրանց առաջացրած ռիսկերը մինչև տեղակայումը։ Այն լրացնում է գոյություն ունեցող անվտանգության գնահատումները, red-teaming-ը և թիրախային վերլուծությունը՝ ավելացնելով արտադրությանը ավելի նման կանխատեսման շերտ, որը կարող է բարելավել տեղակայման վարքի գնահատականները, նվազեցնել գնահատման իրազեկման ազդեցությունները և նախատեղակայման կանխատեսումները ստուգելի դարձնել թողարկումից հետո։ Ավանդական գնահատումների հետ միասին օգտագործվելիս Տեղակայման սիմուլյացիան կարող է օգնել մոդելի ռիսկի գնահատումը դարձնել ավելի իրատեսական, ավելի քանակական և ավելի օգտակար տեղակայման որոշումների համար։


