2026 ж. 29 мамыр

Сенімді үшінші тарап бағалауларына арналған ортақ нұсқаулық

Озық модельдердің қорғаныс шаралары мен қабілеттерін тиімді тәуелсіз бағалау үшін не маңызды.

Жүктелуде…

Тәуелсіз, сенімді үшінші тарап бағалаулары қауіпсіздік экожүйесін нығайтуда шешуші рөл⁠ атқарады. Бұл бағалаулар озық модельдерде жүргізіліп, маңызды қабілеттер мен қауіпсіздік шараларына қатысты тұжырымдарға қосымша дәлел береді. Бұл жазбада біз осы уақытқа дейін үйренген сабақтармен бөлісеміз және кеңістікте қалыптасып келе жатқан стандарттарға пайдалы болады деп үміттенетін, озық модельдерді валидті бағалай алатын бағалауларды жобалау тәсілдерін ұсынамыз.

Бұрын көптеген бағалаулар модельдерді чатботтар сияқты қарастырды: бағалау модельге сұрақ қоятын пайдаланушыдай көмексөз берді, модель жауап берді, ал бағалаушы нәтижені бағалады. Бүгінгі озық модельдер бұдан әлдеқайда көп нәрсе істей алады: олар құралдарды қолдана алады, көптеген қадам бойы ақпаратты қадағалай алады және кеңірек жұмыс ағыны ішінде әрекет ете алады. Бұл өнімділік тек модельге ғана емес, тапсырма өтетін ортаға да, оның әрекеттерін жеңілдететін баптауға да тәуелді екенін білдіреді. Біз «harness» деп атайтын осы қоршаған баптау жүйе өнімділігінің негізгі қырларын, соның ішінде оның құралдарды қалай қолданатынын, ақпаратты қалай қадағалайтынын немесе қателерден қалай қалпына келетінін өзгерте алады.

Көмексөз-жауап жұмыс ағынын агенттік тапсырма жұмыс ағынымен салыстыратын диаграмма; онда басқару циклдері, құралдар, контекст, бюджет және қорғаныс шаралары автономды тапсырма орындауды қалай қамтамасыз ететіні көрсетілген.

Бұл бағалауларды қалай жүргізу керегін және оқырмандар бағалау есептерінен нені іздеуі керегін өзгертеді. Біздіңше, ең пайдалы есептер нәтиженің өзінен бөлек екі нәрсені анық сипаттайды: біріншіден, бағалау баптауы қандай тұжырымды тексеруге арналғанын көрсетеді, екіншіден, бағалау нәтижесінің валидті екенін дәлелдейтін қолжетімді айғақтарды бөліседі.

Бағалауларда тексерілетін тұжырымдар әдетте үш санаттың біріне жатады¹:

Қабілетті анықтау: модель бағаланып жатқан қабілетті шынайы түрде көрсете ала ма?
Қорғаныс шараларының өнімділігі: сыналған қорғаныс шаралары бағаланып жатқан мінез-құлыққа не шабуылға қаншалықты төзімді?
Салыстыру: бірдей шарттарда әртүрлі модельдер қалай нәтиже көрсетеді?

Бағалау есептері нәтижесінің валидтілігіне әсер етуі мүмкін ықпалдарды бағалаушылар қалай тексергенін де түсіндіруі керек. Оларға мыналар жатады:

Марапат жүйесін бұрмалау: жүйе бағалау өлшеуге тиіс мінез-құлықты көрсетпей-ақ, тапсырмадағы не ұпайлаудағы қысқа жолдарды пайдаланып, ұпай алуы.
Бас тартулар: сыналып жатқан мінез-құлықты жасыратын түрде бас тарту.
Ластану: бағалау тапсырмалары, жауаптары немесе жақын нұсқалары жаттықтыру деректерінде болғандықтан не бағалау кезінде, мысалы шолу арқылы, табылатындықтан артық нәтиже көрсету.
Бұзылған тапсырмалар: тапсырмалар валидті болмағандықтан төмен нәтиже көрсету. Себептерге әділетсіз ұпайлау (мысалы, дұрыс жауап айтылмаған іске асыру бөлшектерін талап етеді) және шешілмейтін орталар (мысалы, маңызды файлдардың жоқтығы немесе сенімсіз құралдар) кіруі мүмкін.
Sandbagging: бағаланып жатқанын аңғарғанда әдейі төмен нәтиже көрсету.

Бағалау үшін дұрыс harness таңдау оңтайлы нәтижелер үшін шешуші мәнге ие

Біз harness рөлінің әсіресе ұзағырақ траекториялар бойымен әрекет ететін жүйелер үшін маңызды екенін байқадық. Модельдер құралдарды пайдаланып, күйді сақтап, көптеген қадам бойы қателерден қалпына келе алғанда, harness байқалатын өнімділік деңгейін өзгерте алады, тіпті бағаланып жатқан қабілеттің бағалауда мүлде көріну-көрінбеуін де анықтай алады. Мысалы, күйді сақтайтын және сәтсіз әрекеттерді қайталайтын harness сол модель қарапайымырақ harness-те ешқашан аяқтамайтын көпқадамды тапсырманы аяқтауға мүмкіндік беруі мүмкін.

Төмендегі кестеде біз бағалаушылар жасағысы келуі мүмкін үш түрлі тұжырымды және біздіңше әрқайсысына қажет harness-ті бөлеміз.

Бағалау қолдауға тырысатын тұжырым	Сәйкес harness таңдауы	Хабарланатын дәлел
Күшті анықтау жағдайындағы қабілет: баптау оның ең күшті сенімді өнімділігін ашатындай етіп жасалғанда, А жүйесі X түріндегі тапсырмаларды орындай алады.	Жүйе үшін ең күшті сенімді анықтау баптауын қолданыңыз, соның ішінде қабілетті пайдаланушы орынды түрде қолданатын harness, құралдар, тірек құрылымдар және бюджет.	Harness пен құралдар баптауы, анықтау жөніндегі нұсқаулық, рұқсат етілген бюджет/күш, токендер/құн/уақыт және бұл баптаудың мәлімделген қабілет үшін неге сенімді прокси екені. Егер жүйелер әртүрлі оңтайландырылған баптауларда салыстырылса, оны жүйеден жүйеге немесе күшті-ашу салыстыруы деп белгілеңіз.
Бақыланатын салыстыру: ортақ бағалау баптауында А жүйесі B жүйесінен жақсырақ нәтиже көрсетеді.	Тапсырмаларды, ұпайлауды және бюджетті тұрақты ұстаңыз. Не ортақ harness/құрал баптауын, не салыстырылатын жүйелер үшін орынды ең жоғары анықтауды беретіндей алдын ала таңдалған стандартталған harness-тердің тұрақты жиынын қолданыңыз.	Ортақ тапсырмалар жиыны, құралдар, ұпайлау әдісі, harness, бюджет, токен тиімділігі/құны және белгілі шектеулер. Код жазатын агенттерді бағалауда Codex CLI сияқты ашық кодты harness жүйелер арасында тұрақты агент циклін және құрал интерфейсін бере алады. Ең жоғары анықтауға арналған мінсіз тәсіл әр тапсырма мен жүйе үшін арнайы harness-ті оңтайландыру болар еді, бірақ қазір бұл іс жүзінде қолайсыз.
Анықтау арқылы жасалған шабуыл кезіндегі қорғаныс беріктігі: А жүйесінің қорғаныс шаралары тиісті модель мінез-құлқы не ашылған шабуыл үшін жеткілікті.	Тиісті қарсылас моделіне сай ең күшті сенімді шабуылды ашуға арналған қорғанысты сынау баптауын қолданыңыз.	Бағалаушылар тиісті модель мінез-құлқын қалай сипаттағаны, сыналған қорғаныс конфигурациясы, анықтау стратегиясы, оны іске асыруға қолданылған harness және рұқсат етілген бюджет не күш.

Қабілет туралы тұжырымдар оларды анықтау сапасындай ғана мықты: бағалаушылар тапсырмаға және бағалау өлшеуге тырысатын қабілетке ең сай келетін harness-ті таңдауы керек. Бірдей шарттарда жүйелерді салыстыру үшін стандартталған harness дұрыс болуы мүмкін, бірақ ол модельге тапсырманы орындауға көмектесетін нақты harness мүмкіндіктерін алып тастаса, қабілетті төмен көрсетуі мүмкін. Мысалы, GPT‑5.5‑тің OpenAI-дың кибер ауқымдарындағы нәтижесі harness таңдауы ұзақ, көпқадамды құрал қолдануды қажет ететін тапсырмаларда өлшенген қабілетті елеулі түрде өзгерте алатынын көрсетеді: өзара әрекет ұзарған сайын тапсырмаға қатысты контексті сақтау үшін harness ықшамдауды⁠ қолданғанда модель жақсырақ нәтиже көрсетеді. Бұл кейбір модельдер үшін ықшамдауды қоспайтын harness өнімділікті жеткілікті аша алмайтынын көрсетеді.

Жоғарырақ сәттілік деңгейі жақсырақ

Басқа жарияланған бағалаулар² да harness пен бюджет таңдауы бағалау нәтижелерін өзгертетінін көрсетеді. Тест уақытындағы есептеуді арттыру бағалау қандай қабілетті ашатынын едәуір өзгерте алады, әсіресе табысты тексеру оңай салаларда, мысалы көптеген кибер тапсырмаларында. UK AISI-дің кибер ауқым бағалауында⁠(жаңа терезеде ашылады) бюджетті 10M токеннен 100M токенге дейін арттыру өнімділікті 59%-ға дейін жақсартты, әрі өнімділік сыналған ең жоғары бюджетте де өсіп жатты. Мұны егжей-тегжейлеу бағалауды түсіндіруге ыңғайлырақ етеді: ол оқырманға нәтиженің сыналған анықтау баптауына қалай тәуелді екенін көрсетеді. Қосымша бюджетпен өнімділік әлі де жақсарып жатса, ұпай өлшенген қабілет шегі ретінде емес, сол harness пен бюджеттегі өнімділік ретінде сипатталуы керек. Қабілет көбіне біржола таза өлшенетін тұрақты шама емес, ресурстарға тәуелді нәрсе. Табысты қайталанған әрекеттер арқылы өлшеуге болатын жерде есептер тек тұрақты токен бюджеті кезіндегі сәттілік деңгейін ғана емес, бір сәтті шешімге шаққандағы күтілетін құнды да қарастыруы керек. Бұл ауырлықты түсіндіруді жеңілдетуі мүмкін: егер қайталанған әрекеттер құны тиісті қауіп моделінің шегінде болса, төмен сәттілік деңгейінің өзі практикалық тұрғыдан маңызды болуы мүмкін. Қабілет туралы тұжырымдар үшін болдырмауға болатын жеткіліксіз анықтау — өлшеу сәтсіздігі: егер harness не бюджет жүйенің әйтпесе көрсете алатын мінез-құлқын көрсетуіне кедергі келтірсе, ұпай мәлімделіп отырған қабілетті өлшемейді. Бағалаушылар ашуды мүмкін болғанша ілгерілетіп, өнімділік әлі де жақсарып жатса, есептер мұны анық айтуы және нәтиженің тек төменгі шек бағасы екенін нақты көрсетуі керек.

Қорғаныс шараларын сынау, соның ішінде арнайы harness-терді қоса, шабуылдаушыларға қолжетімді ресурстарды есепке алмаса, шабуылдың сәтті болу мүмкіндігін де, оның қаншалықты ауыр болуы мүмкін екенін де төмен көрсетуі мүмкін. UK AISI-дің GPT‑5.5 кибер бағалауында⁠(жаңа терезеде ашылады) олардың сарапшылық редтимингі OpenAI ұсынған зиянды сұраулардың бәрінде, соның ішінде көпайналымды агенттік жағдайларда да, ережені бұзатын кибер контентті ашатын әмбебап jailbreak тапты. Олар модельдің шабуыл өнімділігін күшейту үшін арнайы harness жасауға Codex қолданды: ол өзара әрекетке қорғанысты айналып өтудің қайта пайдаланылатын үлгісін енгізді, сол үлгіні айналымдар мен блоктар бойы сақтады және оны OpenAI ұсынған зиянды кибер сұрауларға қолданды. Қорғанысты сынау қарсыласқа сай болуы керек. Егер тұжырым сарапшылық теріс пайдалануға төзімділік туралы болса, тест белгіленген бюджет шегінде, сол стратегияны сақтау мен қайта пайдалануға қажет кез келген harness-ті қоса, басынан аяғына дейінгі ең күшті сенімді шабуыл стратегиясын бағалауы керек. Әйтпесе нәтижелер қате калибрленуі мүмкін: олар тек қарапайымырақ көмексөздерге төзімділік туралы тар тұжырымды ғана қолдауы, анықтау әдісі операцияландырылғаннан кейін шабуылдың қаншалықты ауыр болатынын да, оның сәттілік ықтималдығын да жіберіп алуы, сондай-ақ тым көп бюджет берілсе, мәселенің ықтималдығы не ауырлығын артық көрсетуі мүмкін.

Стандартталған harness салыстыруларының да өз уақыты мен орны бар, бірақ бағалаушылар неге бірізді harness жиынын қолдану орынды екенін және оның қандай тұжырымды қолдай алатынын ашық айтуы керек. METR-дің уақыт көкжиегі бағалауы⁠(жаңа терезеде ашылады) — кеңірек әрі орынды түрде бекітілген бағалау баптауының мысалы: ол бағалайтын жүйелер арасында салыстырмалы нәтижелер шығаруға арналған. METR ортақ нәтижені анықтайды: жасанды интеллект агенті берілген сенімділік деңгейінде сәтті орындайды деп болжанатын адам тапсырмасының әдеттегі ұзақтығы. Ол бірге хабарланатын бағалар топтамасының әрқайсысында ортақ тапсырмалар жиынын, ұпайлау әдісін, сәйкестендіру әдісін және Triframe және ReAct⁠(жаңа терезеде ашылады) сияқты қайта пайдаланылатын шағын тірек құрылымдар жиынын қолданады. METR тапсырмалар жиынын кеңейтіп, бағалау инфрақұрылымын Vivaria деп аталатын фреймворктен Inspect деп аталатын басқаға ауыстырғанда, ол бұл өзгерісті хабарлады (Time Horizon 1.1 жаңартуы⁠(жаңа терезеде ашылады)) және модельдерді жаңа бағалау баптауында қайта бағалады. Стандартталған бағалау обаптауының, соның ішінде бірізді harness жиынының құндылығы осында: ол оқырманға ұпайлар айырмасы шынымен салыстырылып отырған жүйелер арасындағы айырманы көрсететініне, ал өлшеу баптауындағы өзгерісті емес екеніне сенім бере алады.

Біз үшінші тарап бағалау есептері өздерінің бағалау баптауы қандай тұжырымды қолдауға арналғанын; сыналған нәрсенің сол кеңірек тұжырымды қаншалықты дәл бейнелейтінін; нәтижені қалыптастырған harness таңдауларын; бұл таңдаулар бағалаулар арасында қашан өзгеретінін; және нәтиженің қалай алынғанын әрі оның тұжырымға қаншалықты жалпыланатынын көрсету үшін қолдаушы дәлелдерді қамтуын ұсынамыз.

Нәтижелерді бұрмалайтын белгілі қауіптерді тексеру арқылы валидтілікті бағалаңыз

Модельдер қабілетті бола түскен сайын, бағалау ұпайларын қате түсіндіру оңайырақ болады. Шынайы қабілеттермен салыстырғанда, егер модель бағаланып жатқанын танып, стратегиялық түрде төмен нәтиже көрсетсе, бағалау ұпайлары жасанды түрде төмендеуі мүмкін. Егер модель тапсырмада, көмексөзде, ұпайлауда немесе harness-те қысқа жолды пайдаланса, олар керісінше артып кетуі мүмкін. Олар сондай-ақ ластанудан (модель жауапты тапсырманы шешпей-ақ бұрыннан білетін не таба алатын жағдай) немесе екіұшты, қате ұпайланған, шешілмейтін не күтпеген қысқа жолдарға осал «бұзылған» тапсырмалардан бұрмалануы мүмкін. Сондықтан бағалау есептері негізгі ұпайларды осы қауіптер талқысымен қатар беруі керек, сонда оқырмандар ұпайлардың көзделген мінез-құлықты көрсететін-көрсетпейтінін бағалай алады.

Harness-тер, бюджеттер, құралдар, ұпайлау ережелері, мониторлар және шолу рәсімдері агенттің көзделген тапсырманы шешіп жатқанын, одан жалтарып жатқанын, оны жаттап алғанын немесе оны айналып өтетін жол тауып жатқанын анықтайды. Сенімді есеп бұл тексерулерді көрінетін етеді: бағалаушылар бағалау әр жүргізілген сайын осы мінез-құлықтарға үлгілерді шолуы керек.

Марапат жүйесін бұрмалау

Марапат жүйесін бұрмалау дегеніміз — көзделген қабілетті көрсетпейтін тәсілдермен жоғары бағалау ұпайларына жету. Мұндағы алаң — жүйе бағалау өлшеуге тиіс жұмысты істеу арқылы емес, тапсырманы, ұпайлауды, көмексөзді немесе harness-ті пайдалану арқылы ұпай алуы. METR-дің GPT 5.4 бағалауы⁠(жаңа терезеде ашылады) мұның неге маңызды екенін көрсетеді: модель алғаш қарағанда шамамен 13 сағаттық уақыт көкжиегіне сәйкес келетін қарқынмен тапсырмаларды орындағанымен, адам шолуы сол табыстардың кейбірі марапатты бұзып алу есебінен болғанын көрсетті, ал нәтижелерді мұндай жағдайларсыз ғана қайта есептеу бағалауды шамамен 6 сағатқа түсірді. Бағалаушылар мұндай түзетулердің қажет-қажет еместігін бағалауы және қажет болса, оларды анық хабарлауы керек: оқырман қай көрінерлік табыстардың жарамсыз деп танылғанын, неге олай болғанын және нәтиженің сол пайымға қаншалықты тәуелді екенін көре алғанда, қабілет бағасы әлдеқайда пайдалы болады.

Тренд сызығы мен сенім аралықтары бар, уақыт өте AI модель өнімділігін көрсететін диаграмма.

Бас тартулар

Модельдер қорғаныс шараларына байланысты қабілет бағалауларында төмен нәтиже көрсетуі мүмкін. Модель бағалау тапсырмаларын орындаудың орнына олардан бас тартқандықтан, оның бағалаудағы нәтижесі шынайы қабілетінен төмен болуы мүмкін. Сондықтан есептер бас тартулар бағалау нәтижелерінің бір бөлігі болды ма, болса, солардың кесірінен қанша үлгі бұзылғанын түсіндіруі керек.

Ластану

Ластану әсіресе жария не қайта қолданылатын бенчмарктер⁠ үшін маңызды. Егер тапсырмалар, жауаптар немесе жақын нұсқалар жаттықтыру деректерінде болса не шолу құралын пайдалана алатын агент оларды таба алса, нәтиже модель өнімділігінен гөрі жаттап алу не іздеп табуды көрсетуі мүмкін. Бағалаушылар мүмкіндігінше жеке не жаңадан құрастырылған тапсырмаларды таңдауы және модельдер шешпей тұрып тапсырмаға тән бөлшектерді қайталай ма, соны тексеруі керек.

Бұзылған тапсырмалар

Бұзылған тапсырмаларға, мысалы, кездейсоқ шешілмейтін болып қалған есеп сияқты жағдайлар жатады. Бұзылған тапсырмалар жеткілікті жиі кездеседі⁠(жаңа терезеде ашылады), сондықтан оларды валидтілікке төнетін стандартты қауіп ретінде қарастыру керек. Оларға қате ground truth, екіұшты көмексөздер, жетіспейтін файлдар, тұрақсыз қызметтер, әділетсіз ұпайлау өлшемдері және жасырын жауап файлдары немесе ground-truth patch бар репозиторий тарихы сияқты қысқа жолдарды ашып қоятын орталар жатады.

Sandbagging

Модель не жүйе тарапынан sandbagging дегеніміз — күшті нәтиже қандай да бір мақсатқа қайшы келгенде, стратегиялық түрде төмен нәтиже көрсету. Apollo-ның GPT‑5.5 бағалауы⁠(жаңа терезеде ашылады) мұны модель жоғары бағалау ұпайлары unlearning-ті іске қосуы немесе енгізуді бұғаттауы мүмкін екенін түсінетін контекст құру арқылы тексерді. GPT‑5.5 бәрібір дұрыс жауап берді, бұл стратегиялық төмен нәтиженің мінез-құлықтық дәлелі аз екенін меңзейді³. Бірақ олардың ой қорыту іздерін шолуы маңызды контекст қосты: Apollo sandbagging жағдайындағы үлгілердің 52%-ында alignment-evaluation awareness-тің орташа не одан жоғары белгілерін тапты, ал контрфактілерде бұл 0% болды. Бұл дәлел нәтижені түсіндіруді күрделендіреді, бірақ ақырында оқырманға көбірек сигнал береді: оқырман әрі жұбататын мінез-құлық нәтижесін, әрі оны шамадан тыс түсіндіруден сақ болу себебін көре алады.

Күштірек бағалауларды қалай қолдап жатырмыз

Күшті тұжырымдар үшін мінез-құлықты ашатын дұрыс harness те, нәтиженің орнықты екенін көрсететін валидтілік тексерулері де қажет. Harness-тер мен валидтілік тексерулері бағалау нәтижесінің бір бөлігі деген көзқарасымыз үшінші тарап бағалауларын іс жүзінде қалай қолдайтынымызды айқындайды:

Біз бағалаушылармен ең жоғары анықтауға қатысты нақты нұсқаулықпен бөлісіп жатырмыз.
Біз қабілет бағалаушыларынан OpenAI модельдері үшін ортақ ең төменгі деңгей ретінде Codex қолдануды сұрап отырмыз: тестер кемінде базалық нұсқаны пайдаланушылар сүйенуі ықтимал сол агенттік интерфейс арқылы жүргізуі керек, тек ықшамдалған модель интерфейсі арқылы ғана емес.
Сондай-ақ алдау, sandbagging немесе бағаланатынын аңғаруды бағалау үшін қажет жерлерде ой қорыту іздері мен өзге аралық артефактілерді қолжетімді етіп жатырмыз. METR мен Apollo бұл қолжетімділікті OpenAI бағалауларында GPT‑5‑тен бері қолданып келеді.
Соңында, біз контексті басқару мен құралдарға қолжеткізуден бастап, қайталап көру мінез-құлқына, ұпайлауға және ресурс бюджеттеріне дейін harness таңдауы нәтижелерді қашан және қалай елеулі өзгертетінін тереңірек түсінуге арналған зерттеулерге басымдық беріп отырмыз.

Бұл бағалау стандарттары мен болашақ зерттеу бағыттары үшін нені білдіреді

Бұл ұсынымдар жекелеген бағалау есептерін жақсартуға ғана емес, сонымен бірге озық жасанды интеллектті бағалау мен есеп беруге арналған қалыптасып келе жатқан ұлттық ⁠(жаңа терезеде ашылады)және халықаралық ⁠(жаңа терезеде ашылады)стандарттарды ақпараттандыруға да арналған. Алдағы уақытта үшінші тарап бағалау стандарттары шешім қабылдаушыларға нақты бағалаулар қандай тұжырымдарды қолдайтынын, қандай жүйе сыналғанын, нәтиже қалай ашылғанын және бағалаушылар оның валидтілігін қалай тексергенін түсінуге жеткілікті егжей-тегжей талап етуі керек. Агенттік қабілеттер маңызды болатын тапсырмаларда сыналатын озық жүйелер үшін егжей-тегжейге мыналар кіруі керек (қауіпсіздік не құпиялылық мәселелерін ескере отырып):

Тұжырым: бағалау жүйелерді салыстыра ма, қабілет шегін бағалай ма, әлде қорғаныс шараларын сынай ма.
Бағалау мазмұны: оқырман бағалаудың шын мәнінде қандай дағдыларды, мінез-құлықтарды немесе істен шығу режимдерін сынап жатқанын түсінуі үшін тапсырмалар не тапсырмалар үлестірімі туралы жеткілікті мәлімет.
Сыналған жүйе: модель, ой қорыту баптауы, құралдарға қолжеткізу, harness және қорғаныс шаралары.
Бюджет: айналымдар, токендер, әрекеттер/қайталап көрулер, нақты уақыт, инференс құны және қажет жерде бір сәтті шешімге шаққандағы күтілетін құн.
Ашу әдістері: нәтижені шығару үшін қолданылған harness таңдаулары және сыналған нәрсенің жасалып отырған кеңірек тұжырымды қаншалықты дәл бейнелейтіні.
Валидтілік тексерулері: бағалаушылар марапатты бұзып алу, бағаланатынын аңғару, ластану, бас тартулар, sandbagging және нәтижені әлсіретуі мүмкін өзге мінез-құлықтарды қалай іздегені, соның ішінде расталған жағдайлардың ұпайлауға не түсіндіруге қалай әсер еткені.

Harness таңдауларын не валидтілік тексерулерін қалдырып кететін стандарттар жүйенің не істей алатынын төмен көрсетуі немесе қауіпсіздік туралы тұжырымға деген сенімді артық көрсетуі мүмкін. Күшті harness-тер мен ашу әдістерін құру әлі де ашық зерттеу саласы болып қала береді және әрі қарайғы зерттеу мен инвестицияның басты нысаны болуы керек.

2026

Автор

OpenAI

Глоссарий

Бұл жазбада бірқатар арнаулы терминдерді қолданатындықтан, төменде нені меңзеп отырғанымызды қарапайым тілмен түсіндіретін глоссарий бердік:

Агенттік жүйе: тек көмексөзге бір жауап қайтарумен шектелмей, құралдарды пайдаланып, тапсырма күйін сақтап, ортада әрекет етіп, тапсырманы бірнеше қадаммен орындай алатын жүйе.
Бағалау пайымы: дәлелдің белгілі бір тұжырымды, тәуекел туралы қорытындыны немесе кепілдік ұстанымын қолдайтыны жөніндегі кеңірек пайым; ол бағалау деректеріне, құжаттарды шолуға, сұхбатқа, процесті шолуға және өзге де қатысты материалдарға негізделуі мүмкін.
Ықшамдау: ұзақ орындалымдар кезінде тапсырмаға қатысты контексті сақтауға арналған әдіс.
Конфигурация: модель атауынан тыс, нақты сыналған жүйе мен бағалау шарттары.
Ластану: бағалау тапсырмалары, жауаптары немесе соларға өте жақын нұсқалар модельдің жаттықтыру деректерінде кездескенде не бағалау барысында табылатын болса (мысалы, шолу сияқты құралдар арқылы), соның салдарынан нәтиже модельдің шынайы жалпылау қабілетінен жоғары көрінеді.
Анықтау: бағалау кезінде жүйеден белгілі бір қабілетті не мінез-құлықты шығаруға тырысу процесі.
Орта: жүйе сыналатын тапсырма жағдайы. Бұған агент бағалау кезінде өзара әрекеттесетін және өзгертетін сыртқы күй жатады, мысалы терминал ортасы немесе бейнеойын.
Бағалау: бағалау пайымы аясындағы нақты тест немесе өлшем.
Бағаланатынын аңғару: бұл модельдің бағаланып жатқанын тануы немесе солай көрінуі және осы контекске жауап ретінде мінез-құлқын ықтимал өзгертуі. Бұл модельдің өзін сынап жатқанын ашық түрде ой қорытуы, бағалаудың мақсатын тұспалдауы немесе нәтиже оның қалай бағаланатынына не енгізілетініне әсер етеді деп күтіп, мінез-құлқын өзгертуі түрінде көрінуі мүмкін.
Harness: модельге тапсырманы орындауға мүмкіндік беретін, модельге бағытталған құрылым: көмексөздер, құралдар, интерфейстер, басқару логикасы, жад, қайталап көрулер, валидаторлар және модельді қоршаған өзге де қолдаушы құрылымдар.
Ең жоғары қабілетті анықтау: жүйені стандартталған harness арқылы бір рет жүргізіп шығудан гөрі, белгіленген бюджет шегінде жүйе көрсете алатын ең күшті сенімді өнімділікті немесе істен шығу режимін табуға бағытталған тестілеу.
Ой қорыту іздері: тест кезіндегі модельдің аралық ой қорытуының жазбалары.
Марапат жүйесін бұрмалау: бағалаушының ниетінен тыс қысқа жол не мінез-құлық арқылы жоғары ұпайға жету.
Қорғаныс шаралары: модель не өнім айналасында қолданылатын сүзгілер, мониторлар, бұғаттау жүйелері және өзге қорғаныстар.
Sandbagging: нәтижені бұзатын түрде бағалауда әдейі төмен нәтиже көрсету.
Ұпайлау: өнімділіктің қалай өлшенетінін немесе тапсырманың сәтті орындалғанын анықтауға қолданылатын әдіс.
Стандартталған harness: нақты модельге не тапсырмаға бейімделмей, жүйелер арасында бірдей сақталатын harness; сондықтан нәтижелердегі айырманы сыналған модельге телу оңайырақ.
Уақыт көкжиегі: жүйе көрсетілген сенімділікпен орындай алатын тапсырма ұзақтығы; көбіне сол тапсырманы адамға орындауға қанша уақыт кететінімен өрнектеледі.
Құралдарға қолжеткізу: бағалау кезінде модельге қолжетімді сыртқы құралдар.
Траекториялар: жүйенің тапсырманы орындау барысында ұстанатын қадам-қадам жолдары.
Әмбебап jailbreak: көптеген көмексөздер не тапсырмаларда жүйені қорғаныс шараларын айналып өтуге мәжбүрлейтін бір шабуыл үлгісі.

Ескертпелер

1
Бұл жазба үшінші тараптар сәйкессіздікке немесе бейімділікке қатысты тұжырымдарды қалай бағалауы керегін шешуге талпынбайды. Сол бағалауларға harness таңдауының қалай әсер ететінін түсіну үшін әлі де көп жұмыс қажет, әсіресе ұзағырақ көкжиекті мінез-құлықты қолдайтын harness-тер бағалаушылар бақылауы тиіс күтпеген мінез-құлық түрлерін де өзгертуі мүмкін болғандықтан.
2
HAL⁠(жаңа терезеде ашылады) агент бағалауларынан қосымша мысал ұсынады: CORE-Bench⁠(жаңа терезеде ашылады) жүйесінде harness-ті Claude Code-қа ауыстыру бірдей бенчмаркта өлшенген өнімділікті де, шығын бейінін де өзгертті. Өзге жария мысалдарға SWE-agent⁠(жаңа терезеде ашылады), SeeAct⁠(жаңа терезеде ашылады), ScienceAgentBench⁠(жаңа терезеде ашылады), CORE-Bench⁠(жаңа терезеде ашылады) және Inspect Cyber⁠(жаңа терезеде ашылады) жатады; олардың әрқайсысы оқырманға ұпайды қандай интерфейс не harness бергенін айтады.
3
Sandbagging QA-ның екі нұсқасында да 100% және стратегиялық алдау sandbagging тапсырмасында 99.6% ұпай жинау.

Оқуды жалғастырыңыз

Барлығын қарау

Safety and alignment in an era of long-horizon models

Қауіпсіздік2026 ж. 20 шіл.

Why teens deserve access to safe AI

Қауіпсіздік2026 ж. 16 шіл.

GPT-Red: Төзімділік үшін өзін-өзі жетілдіруді іске қосу

Қауіпсіздік2026 ж. 15 шіл.