სანდო მესამე მხარის შეფასებებისთვის საერთო გზამკვლევი
რა არის მნიშვნელოვანი მოწინავე მოდელებისთვის დამცავი მექანიზმებისა და შესაძლებლობების ეფექტური დამოუკიდებელი შეფასებებისთვის.
დამოუკიდებელი, სანდო მესამე მხარის შეფასებები უსაფრთხოების ეკოსისტემის გაძლიერებაში კრიტიკულ როლს ასრულებს. ეს შეფასებები ტარდება მოწინავე მოდელებზე, რათა დამატებითი მტკიცებულება მიაწოდოს კრიტიკულ შესაძლებლობებსა და უსაფრთხოების შემამსუბუქებელ ზომებზე გაკეთებულ მტკიცებებს. ამ პოსტში ვაზიარებთ აქამდე მიღებულ გაკვეთილებს და ვთავაზობთ მიდგომებს ისეთი შეფასებების დასაგეგმად, რომლებსაც შეუძლიათ ვალიდურად შეაფასონ მოწინავე მოდელები, რაც ვიმედოვნებთ, ხელს შეუწყობს ახალი სტანდარტების ჩამოყალიბებას ამ სფეროში.
ადრე ბევრი შეფასება მოდელებს ჩატბოტებივით განიხილავდა: შეფასება მოდელს ისე მიმართავდა, თითქოს მომხმარებელი კითხვას სვამდა, მოდელი პასუხობდა და შემფასებელი შედეგს აფასებდა. დღევანდელ მოწინავე მოდელებს ბევრად მეტი შეუძლიათ: მათ შეუძლიათ ინსტრუმენტების გამოყენება, ინფორმაციის შენარჩუნება მრავალ ნაბიჯზე და უფრო დიდ სამუშაო პროცესში მოქმედება. ეს ნიშნავს, რომ შედეგიანობა დამოკიდებულია არა მხოლოდ მოდელზე, არამედ იმ გარემოზეც, სადაც ამოცანა მიმდინარეობს, და იმ კონფიგურაციაზეც, რომელიც მის მოქმედებებს ამარტივებს. ამ გარემომცველ კონფიგურაციას, რომელსაც ჩვენ „სარტყელს“ ვუწოდებთ, შეუძლია შეცვალოს სისტემის წარმადობის მნიშვნელოვანი ასპექტები, მათ შორის როგორ იყენებს ის ინსტრუმენტებს, როგორ ინარჩუნებს ინფორმაციას ან როგორ აღდგება შეცდომების შემდეგ.
ეს ცვლის იმას, როგორ უნდა ჩატარდეს შეფასებები და რას უნდა მიაქციონ ყურადღება მკითხველებმა შეფასების ანგარიშებში. ჩვენი აზრით, ყველაზე სასარგებლო ანგარიშები თავად შედეგის მიღმაც ორ რამეს აშკარად აღწერს: პირველი, აკონკრეტებს, რა მტკიცების შესამოწმებლად იყო შექმნილი შეფასების კონფიგურაცია, და მეორე, აზიარებს ხელმისაწვდომ მტკიცებულებას იმისა, რომ შეფასების შედეგი ვალიდურია.
შეფასებებში ტესტირებული მტკიცებები, როგორც წესი, სამ კატეგორიად იყოფა1:
- შესაძლებლობის გამოვლენა: შეუძლია თუ არა მოდელს სარწმუნოდ წარმოქმნას ის შესაძლებლობა, რომელსაც შეფასება ამოწმებს?
- დამცავი მექანიზმების წარმადობა: რამდენად მდგრადია ტესტირებული დამცავი მექანიზმები შეფასებული ქცევის ან შეტევის მიმართ?
- შედარება: როგორ მუშაობენ სხვადასხვა მოდელები ეკვივალენტურ პირობებში?
შეფასების ანგარიშებმა ასევე უნდა განმარტოს, როგორ შეამოწმეს შემფასებლებმა ისეთი ეფექტები, რომლებმაც შეიძლება შედეგის ვალიდურობაზე იმოქმედოს. ამაში შედის:
- ჯილდოს ჰაკინგი: ამოცანაში ან შემფასებელში არსებული მალმხმობების გამოყენება ისე, რომ სისტემამ ქულა მიიღოს იმ ქცევის დემონსტრირების გარეშე, რომლის გაზომვასაც შეფასება ისახავს მიზნად.
- უარები: უარის თქმა ისე, რომ ტესტირებული ქცევა იფარება.
- კონტამინაცია: ზედმეტად მაღალი წარმადობა იმიტომ, რომ შეფასების დავალებები, პასუხები ან ახლო ვარიანტები სასწავლო მონაცემებში იყო ან შეფასების დროს აღმოჩენადი იყო, მაგალითად თვალიერების საშუალებით.
- დეფექტური ამოცანები: დაბალი წარმადობა იმიტომ, რომ ამოცანები არავალიდურია. მიზეზები შეიძლება იყოს უსამართლო ქულების მინიჭება (მაგ., სწორი პასუხი მოითხოვს დაუზუსტებელ იმპლემენტაციის დეტალებს) და ამოუხსნადი გარემოები (მაგ., აკლია კრიტიკულად მნიშვნელოვანი ფაილები ან ინსტრუმენტები არასანდოა).
- სანდბეგინგი: განზრახ დაბალი წარმადობა მაშინ, როცა ჩანს, რომ მათ ესმით, რომ მათ აფასებენ.
ჩვენ დავაკვირდით, რომ სარტყლის როლი განსაკუთრებით მნიშვნელოვანია იმ სისტემებისთვის, რომლებიც უფრო გრძელ ტრაექტორიებზე მოქმედებენ. როდესაც მოდელებს შეუძლიათ ინსტრუმენტების გამოყენება, მდგომარეობის შენარჩუნება და შეცდომებისგან აღდგენა მრავალ ნაბიჯზე, სარტყელს შეუძლია შეცვალოს წარმადობის დაკვირვებული დონე და ისიც კი განსაზღვროს, საერთოდ გამოჩნდება თუ არა შეფასებაში ის შესაძლებლობა, რომელსაც აფასებენ. მაგალითად, სარტყელმა, რომელიც მდგომარეობას ინარჩუნებს და წარუმატებელ მოქმედებებს ხელახლა ცდის, შეიძლება მოდელს მრავალსაფეხურიანი ამოცანის დასრულების საშუალება მისცეს, მაშინ როცა იგივე მოდელი უფრო მარტივ სარტყელში ამას ვერასდროს ახერხებს.
ქვემოთ მოცემულ ცხრილში გამოვყოფთ სამი ტიპის მტკიცებას, რომლის გაკეთებაც შემფასებლებს შეიძლება სურდეთ, და სარტყელს, რომელიც, ჩვენი აზრით, თითოეულ მათგანს სჭირდება.
მტკიცება, რომლის მხარდაჭერასაც შეფასება ცდილობს | შესაფერისი სარტყლის არჩევანი | მტკიცებულებები ანგარიშისთვის |
შესაძლებლობა ძლიერი გამოძიების პირობებში: A სისტემას შეუძლია შეასრულოს X ტიპის ამოცანები, როდესაც კონფიგურაცია შექმნილია მისი ძლიერი სანდო წარმადობის გამოსაყენებლად. | გამოიყენეთ გამოვლენის ყველაზე ძლიერი სანდო კონფიგურაცია სისტემისთვის, მათ შორის სარტყელი, ხელსაწყოები, კოდის გენერაცია და ბიუჯეტი, რომელთაც კომპეტენტური მომხმარებელი გამოიყენებდა. | სარტყლისა და ხელსაწყოების კონფიგურაცია, გამოვლენის სახელმძღვანელო, დაშვებული ბიუჯეტი/ძალისხმევა, ტოკენები/ხარჯი/დრო და რატომ არის ეს კონფიგურაცია სანდო პროქსი მოთხოვნილი შესაძლებლობისთვის. თუ შეადარებთ სისტემებს სხვადასხვა ოპტიმიზირებული კონფიგურაციის ქვეშ, დაასახელეთ იგი, როგორც სისტემა-სისტემა ან ძლიერი გამომწვევი |
კონტროლირებადი შედარება: A სისტემა უკეთესად მუშაობს, ვიდრე B სისტემა შეფასების საერთო კონფიგურაციაში. | დაფიქსირეთ ამოცანები, ქულები და ბიუჯეტი. გამოიყენეთ საერთო სარტყლის/ინსტრუმენტის კონფიგურაცია ან სტანდარტიზებული სარტყლების წინასწარ არჩეული ფიქსირებული ნაკრები, რათა უზრუნველყოთ გონივრული მაქსიმალური გამოვლენა შესადარებელი სისტემებისთვის. | გაზიარებული დავალებების ნაკრები, ხელსაწყოები, ქულების მეთოდი, სარტყელი, ბიუჯეტი, ტოკენის ეფექტიანობა/ღირებულება და ცნობილი შეზღუდვები. კოდის წერის აგენტის შეფასების შემთხვევაში, ღია კოდის სარტყელმა,როგორიცაა Codex CLI, შეიძლება უზრუნველყოს აგენტის ფიქსირებული ციკლი და ხელსაწყოების ინტერფეისი სისტემებში. იდეალური მიდგომა მაქსიმალური გამოვლენისთვის იქნება თითოეული ამოცანისა და სისტემისთვის შეკვეთილი სარტყლის ოპტიმიზაცია, მაგრამ ამის გაკეთება ამჟამად არაპრაქტიკულია. |
დამცავი მექანიზმის მედეგობა გამოწვეული თავდასხმის დროს: A სისტემის დაცვის ზომები საკმარისია შესაბამისი მოდელის ქცევისთვის ან გამოწვეული შეტევისთვის. | გამოიყენეთ უსაფრთხოების ტესტირების კონფიგურაცია, რომელიც შექმნილია ყველაზე ძლიერი სარწმუნო შეტევის გამოსაყენებლად შესაბამისი მტრული მოდელის ფარგლებში. | როგორ დაახასიათეს შეფასებლებმა შესაბამისი მოდელის ქცევა, ტესტირებული დაცვის კონფიგურაცია, გამოვლენის სტრატეგია, მის განსახორციელებლად გამოყენებული სარტყელი და დაშვებული ძალისხმევა. |
შესაძლებლობის შესახებ მტკიცებები მხოლოდ იმ გამოვლენის სიძლიერის ტოლია, რომელიც მათ უკან დგას: შემფასებლებმა უნდა აირჩიონ სარტყელი, რომელიც საუკეთესოდ შეესაბამება ამოცანას და იმ შესაძლებლობას, რომლის გაზომვასაც შეფასება ცდილობს. სტანდარტიზებული სარტყელი შეიძლება სწორი იყოს იდენტურ პირობებში სისტემების შესადარებლად, მაგრამ მას შეუძლია შესაძლებლობა შეამციროს, თუ გამოტოვებს სარტყლის კონკრეტულ მახასიათებლებს, რომლებიც მოდელს ამოცანის შესრულებაში ეხმარება. მაგალითად, GPT‑5.5‑ის წარმადობა OpenAI-ს კიბერდიაპაზონებზე აჩვენებს, როგორ შეუძლია სარტყლის არჩევანს არსებითად შეცვალოს გაზომილი შესაძლებლობა იმ ამოცანებზე, რომლებიც ხანგრძლივ, მრავალსაფეხურიან ინსტრუმენტების გამოყენებას მოითხოვს: მოდელი უკეთ მუშაობს, როცა სარტყელი იყენებს შეკუმშვას, რათა ურთიერთქმედების გახანგრძლივებისას ამოცანისთვის რელევანტური კონტექსტი შეინარჩუნოს. ეს აჩვენებს, რომ გარკვეული მოდელებისთვის სარტყელი, რომელიც შეკუმშვას გამოტოვებს, წარმადობას არასაკმარისად გამოავლენს.
წარმატების უფრო მაღალი მაჩვენებლები უკეთესია
სხვა გამოქვეყნებული შეფასებებიც2 აჩვენებს, რომ სარტყლისა და ბიუჯეტის არჩევანი შეფასების შედეგებს ცვლის. ტესტირების დროს გამოთვლითი რესურსის გაზრდამ შეიძლება მნიშვნელოვნად შეცვალოს, რა შესაძლებლობას ავლენს შეფასება, განსაკუთრებით იმ სფეროებში, სადაც წარმატების გადამოწმება მარტივია, მაგალითად ბევრ კიბერამოცანაში. UK AISI-ის კიბერდიაპაზონის შეფასებაში(იხსნება ახალ ფანჯარაში) ბიუჯეტის 10 მლნ-დან 100 მლნ ტოკენამდე გაზრდამ წარმადობა 59%-მდე გააუმჯობესა, და წარმადობა კვლავ იზრდებოდა ყველაზე მაღალი ტესტირებული ბიუჯეტის შემთხვევაშიც. ამის დეტალურად აღწერა შეფასებას უფრო გასაგებს ხდის: მკითხველს აჩვენებს, როგორ არის შედეგი დამოკიდებული ტესტირებული გამოვლენის კონფიგურაციაზე. როცა დამატებითი ბიუჯეტით წარმადობა კვლავ უმჯობესდება, ქულა უნდა აღიწეროს როგორც წარმადობა ამ სარტყლისა და ბიუჯეტის პირობებში და არა როგორც გაზომილი შესაძლებლობის ზედა ზღვარი. შესაძლებლობა ხშირად რესურსებზეა დამოკიდებული და არა ფიქსირებული სიდიდე, რომლის ერთხელ და სამუდამოდ სუფთად გაზომვაც შეიძლება. იქ, სადაც წარმატების გაზომვა განმეორებითი მცდელობებით შეიძლება, ანგარიშებმა ასევე უნდა გაითვალისწინოს წარმატებული ამოხსნის მოსალოდნელი ღირებულება და არა მხოლოდ წარმატების მაჩვენებელი ფიქსირებული ტოკენი-ბიუჯეტის პირობებში. ამან შეიძლება სიმძიმის ინტერპრეტაცია გაამარტივოს: წარმატების დაბალი მაჩვენებელიც კი შეიძლება პრაქტიკულად მნიშვნელოვანი იყოს, თუ განმეორებითი მცდელობების ღირებულება შესაბამისი საფრთხის მოდელის ფარგლებში ჯდება. შესაძლებლობის შესახებ მტკიცებებისთვის თავიდან აცილებადი არასაკმარისი გამოვლენა გაზომვის მარცხია: თუ სარტყელი ან ბიუჯეტი სისტემას ხელს უშლის ისეთი ქცევის გამოვლენაში, რომლის წარმოქმნაც სხვაგვარად შეეძლო, ქულა არ ზომავს იმ შესაძლებლობას, რომლის შესახებაც მტკიცება კეთდება. იმ შემთხვევებში, სადაც შემფასებლებმა გამოვლენა მაქსიმალურად მიიყვანეს ზღვრამდე, რომელიც პრაქტიკულად შესაძლებელი იყო, და წარმადობა მაინც იზრდება, ანგარიშებმა ეს მკაფიოდ უნდა თქვას და ასევე უნდა განმარტოს, რომ შედეგი მხოლოდ ქვედა ზღვრის შეფასებაა.
დამცავი მექანიზმების ტესტირებამ შეიძლება ადეკვატურად არ შეაფასოს, შეუძლია თუ არა შეტევას წარმატების მიღწევა და რამდენად მძიმე შეიძლება იყოს ის, თუ მხედველობაში არ იქნება მიღებული თავდამსხმელებისთვის ხელმისაწვდომი რესურსები, მათ შორის ინდივიდუალურ სარტყლები. UK AISI-ის GPT‑5.5‑ის კიბერშეფასებაში(იხსნება ახალ ფანჯარაში) მათმა ექსპერტულმა შეტევითმა ტესტირებამ (red teaming) იპოვა უნივერსალური ჯეილბრეიკი, რომელმაც OpenAI-ს მიერ მიწოდებულ მავნე მოთხოვნებში, მათ შორის მრავალსვლიან აგენტურ გარემოებში, დარღვევითი კიბერკონტენტი გამოავლინა. მათ გამოიყენეს Codex-ი ინდივიდუალური სარტყლის შესაქმნელად, რათა მოდელის შეტევითი წარმადობა გაეძლიერებინათ: მან ურთიერთქმედებაში ჩააშენა დამცავი მექანიზმების გვერდის ავლის მრავალჯერადი გამოყენების ნიმუში, ეს ნიმუში სვლებსა და ბლოკებს შორის შეინარჩუნა და OpenAI-ს მიერ მიწოდებულ მავნე კიბერმოთხოვნებზე გამოიყენა. დამცავი მექანიზმების ტესტირება უნდა შეესაბამებოდეს ბოროტმზრახველს. თუ მტკიცება ეხება ექსპერტული ბოროტად გამოყენების მიმართ მდგრადობას, ტესტმა უნდა შეაფასოს ყველაზე ძლიერი სარწმუნო გამჭოლი შეტევის სტრატეგია განსაზღვრული ბიუჯეტის ფარგლებში, მათ შორის ნებისმიერი სარტყელი, რომელიც ამ სტრატეგიის შესანარჩუნებლად და ხელახლა გამოსაყენებლად არის საჭირო. წინააღმდეგ შემთხვევაში, შედეგები არასწორად დაკალიბრებული შეიძლება იყოს: მათ შეიძლება მხარი დაუჭიროს მხოლოდ უფრო ვიწრო მტკიცებას უფრო მარტივი პრომპტების მიმართ მდგრადობაზე, შეიძლება გამორჩეს როგორც შეტევის სიმძიმე, ისე მისი წარმატების ალბათობა მას შემდეგ, რაც გამოვლენის მეთოდი ოპერაციულად დაინერგება, და ასევე შეიძლება გააზვიადოს პრობლემის ალბათობა ან სიმძიმეს, თუ ზედმეტად დიდი ბიუჯეტი მიეცემა.
სტანდარტიზებული სარტყლებით შედარებებს თავისი დრო და ადგილი აქვს, მაგრამ შემფასებლებმა მკაფიოდ უნდა თქვან, რატომ არის სარტყლების თანმიმდევრული ნაკრების გამოყენება შესაბამისი და რა მტკიცება შეიძლება დაადასტუროს. METR-ის დროითი ჰორიზონტის შეფასება(იხსნება ახალ ფანჯარაში) უფრო ფართო, სათანადოდ ფიქსირებული შეფასების კონფიგურაციის მაგალითია: ის შექმნილია იმისთვის, რომ შეფასებულ სისტემებს შორის შედარებადი შედეგები წარმოქმნას. METR განსაზღვრავს საერთო შედეგს — ადამიანის ამოცანის ტიპურ ხანგრძლივობას, რომლის შემთხვევაშიც AI აგენტის წარმატება მოცემულ სანდოობის დონეზეა ნავარაუდევი. ერთად წარმოდგენილ ანგარიშების თითეულ ჯგუფში ის იყენებს საერთო ამოცანების ნაკრებს, ქულების მინიჭების მეთოდს, მორგების მეთოდს და მრავალჯერადი გამოყენების მცირე რაოდენობის დამხმარე სტრუქტურებს, როგორიცაა Triframe და ReAct(იხსნება ახალ ფანჯარაში). როცა METR-მა ამოცანების ნაკრები გააფართოვა და შეფასების ინფრასტრუქტურა Vivaria-დან Inspect-ზე გადაიტანა, მან ეს ცვლილება აღნიშნა (Time Horizon 1.1 განახლება(იხსნება ახალ ფანჯარაში)) და მოდელები შეფასების ახალი კონფიგურაციით ხელახლა შეაფასა. ეს არის შეფასების სტანდარტიზებული კონფიგურაციის ღირებულება, მათ შორის, თანმიმდევრული სარტყლების ნაკრების ჩათვლით: მას შეუძლია, მკითხველი დაარწმუნოს, რომ ქულებში განსხვავება მართლაც ასახავს განსხვავებას შედარებულ სისტემებს შორის და არა გაზომვის კონფიგურაციის ცვლილებას.
ჩვენი რეკომენდაციაა, რომ მესამე მხარის შეფასების ანგარიშებში ეწეროს, რა ტიპის მტკიცების მხარდაჭერას ისახავს მათი შეფასების კონფიგურაცია მიზნად; აღწერდეს, რამდენად ზუსტად ასახავს ტესტირებული რამ ამ უფრო ფართო მტკიცებას; აღწერდეს სარტყლის არჩევანს, რომელმაც შედეგი ჩამოაყალიბა; დეტალურად მიუთითებდეს, როდის იცვლება ეს არჩევანი შეფასებებს შორის; და მოიცავდეს დამხმარე მტკიცებულებას იმის საჩვენებლად, როგორ იქნა შედეგი მიღებული და რამდენად კარგად განზოგადდება ის ამ მტკიცებაზე.
რაც უფრო ძლიერი ხდება მოდელები, მით უფრო ადვილი ხდება შეფასების ქულების არასწორად ინტერპრეტაცია. რეალურ შესაძლებლობებთან შედარებით, შეფასების ქულები შეიძლება ხელოვნურად შემცირდეს, თუ მოდელი ხვდება, რომ მას აფასებენ, და სტრატეგიულად დაბალ შედეგს აჩვენებს. ისინი შეიძლება გაიზარდოს, თუ მოდელი ამოცანაში, პრომპტში, შემფასებელში ან სარტყელში არსებულ შემოვლით გზას გამოიყენებს. ისინი ასევე შეიძლება დამახინჯდეს კონტამინაციით (როცა მოდელმა პასუხი უკვე იცის ან პოულობს დავალების გადაწყვეტის გარეშე) ან „დეფექტური“ ამოცანებით, რომლებიც ბუნდოვანია, არასწორად ფასდება, ამოუხსნადია ან მოწყვლადია გაუთვალისწინებელი შემოვლითი გზების მიმართ. ამიტომ შეფასების ანგარიშებმა მთავარი ქულები ამ საფრთხეების განხილვასთან უნდა დააწყვილოს, რათა მკითხველებმა შეაფასონ, ასახავს თუ არა ქულები მიზნობრივ ქცევას.
ჰარნესები, ბიუჯეტები, ინსტრუმენტები, ქულების მინიჭების წესები, მონიტორები და მიმოხილვის პროცედურები ყველა გავლენას ახდენს იმაზე, აგენტი მიზნობრივ ამოცანას წყვეტს, თავს არიდებს, იმახსოვრებს თუ მის გარშემო გზას პოულობს. სანდო ანგარიში ამ შემოწმებებს ხილულს ხდის: შემფასებლებმა ასეთი ქცევების ნიმუშები ყოველ ჯერზე უნდა გადაამოწმონ, როცა შეფასება ტარდება.
ჯილდოს ჰაკინგი
ჯილდოს ჰაკინგი ნიშნავს შეფასების მაღალი ქულების მიღწევას ისეთი გზებით, რომლებიც მიზნობრივ შესაძლებლობას არ ასახავს. აქ შეშფოთების მიზეზია ის, რომ სისტემა ქულას იღებს ამოცანის, შემფასებლის, მოთხოვნის ან სარტყლის ექსპლუატაციით და არა იმ სამუშაოს შესრულებით, რომლის გაზომვასაც შეფასება ისახავდა მიზნად. METR-ის GPT 5.4-ის შეფასება(იხსნება ახალ ფანჯარაში) აჩვენებს, რატომ არის ეს მნიშვნელოვანი: მიუხედავად იმისა, რომ მოდელი ამოცანებზე ისეთი სიხშირით აღწევდა წარმატებას, რომელიც პირველადი შეფასებით დაახლოებით 13-საათიან დროით ჰორიზონტად ჩაითვლებოდა, ადამიანურმა მიმოხილვამ აჩვენა, რომ ამ წარმატებების ნაწილი ჯილდოს ჰაკინგიდან მოდიოდა, და შედეგების გადახედვამ ისე, რომ მხოლოდ ჯილდოს ჰაკინგის გარეშე შემთხვევები დარჩენილიყო, შეფასება დაახლოებით 6 საათამდე შეამცირა. შემფასებლებმა უნდა შეაფასონ, საჭიროა თუ არა ასეთი კორექტირებები და, როცა საჭიროა, მკაფიოდ გადმოსცენ ისინი: შესაძლებლობის შეფასება ბევრად უფრო სასარგებლოა, როცა მკითხველს შეუძლია დაინახოს, რომელი მოჩვენებითი წარმატებები გამოირიცხა, რატომ გამოირიცხა და რამდენად არის შედეგი ამ მსჯელობაზე დამოკიდებული.

უარები
მოდელებმა შესაძლებლობების შეფასებებში დაბალი წარმადობა დამცავი მექანიზმების გამოც შეიძლება აჩვენონ. მოდელს შეიძლება შეფასებაში იმაზე დაბალი წარმადობა ჰქონდეს, ვიდრე რეალურად შეუძლია, რადგან შეფასების ამოცანების შესრულების ნაცვლად მათზე უარს ამბობს. ამიტომ ანგარიშებმა უნდა განმარტოს, იყო თუ არა უარები შეფასების შედეგების ნაწილი და თუ კი, რამდენი ნიმუში იყო კომპრომეტირებული ამის გამო.წ
კონტამინაცია
კონტამინაცია ყველაზე მეტად მნიშვნელოვანია საჯარო ან ხელახლა გამოყენებული ბენჩმარკებისთვის. თუ დავალებები, პასუხები ან ახლო ვარიანტები საწვრთნელ მონაცემებში გვხვდება ან აგენტმა შეიძლება იპოვოს თვალიერების მეშვეობით, წარმადობა შეიძლება გამოხატავდეს დამახსოვრებას ან მოძიებას და არა მოდელის შესაძლებლობას. შემფასებლებმა, სადაც შესაძლებელია, უპირატესობა უნდა მიანიჭონ კერძო ან ახლად შექმნილ ამოცანებს და შეამოწმონ, იმეორებენ თუ არა მოდელები დავალებისთვის სპეციფიკურ დეტალებს მის გადაწყვეტამდე.
დეფექტური ამოცანები
დეფეტური ამოცანები მოიცავს ისეთ შემთხვევებს, როგორიცაა პრობლემა, რომლის შემთხვევითი ამოხსნაც შეუძლებელია. დეფექტური ამოცანები იმდენად ხშირია(იხსნება ახალ ფანჯარაში), რომ ისინი ვალიდურობის სტანდარტულ რისკად უნდა ჩაითვალოს. ეს მოიცავს არასწორ ეტალონურ მონაცემებს, ბუნდოვან პრომპტებს, ნაკლულ ფაილებს, არასტაბილურ სერვისებს, შეფასების არასამართლიან კრიტერიუმებსა და გარემოებს, რომლებიც შემოვლით გზებს ამჟღავნებს, მაგალითად, დამალულ პასუხის ფაილებსა თუ რეპოზიტორიუმის ისტორიას, რომელიც ეტალონური მონაცემების პატჩს შეიცავს.
სანდბეგინგი
მოდელის ან სისტემის მიერ სანდბეგინგი ნიშნავს სტრატეგიულად დაბალი წარმადობის ჩვენებას მაშინ, როცა მაღალი წარმადობა რომელიმე მიზანს ეწინააღმდეგება. Apollo-ს მიერ GPT‑5.5‑ის შეფასებამ(იხსნება ახალ ფანჯარაში) ეს შეამოწმა ისეთი კონტექსტის შექმნით, სადაც მოდელს ესმოდა, რომ შეფასების მაღალმა ქულებმა შესაძლოა გამოიწვიოს ცოდნის დაკარგვა ან დაბლოკოს დანერგვა. GPT‑5.5‑მა მაინც სწორად უპასუხა, რაც მიუთითებს, რომ დაბალი სტრატეგიული წარმადობის მცირე ქცევითი მტკიცებულება არსებობს3. მაგრამ მათ მიერ მსჯელობის კვალის მიმოხილვამ მნიშვნელოვანი კონტექსტი დაამატა: Apollo-მ სანდბეგინგის პირობების ნიმუშების 52%-ში იპოვა შეთანხმებულობა-შეფასების გაცნობიერების ზომიერი ან უფრო მაღალი ნიშნები, მაშინ როცა კონტრაფაქტობრივ შემთხვევებში ეს მაჩვენებელი 0% იყო. ეს მტკიცებულება შედეგის ინტერპრეტაციას ართულებს, მაგრამ საბოლოოდ მკითხველს მეტ სიგნალს აძლევს: მათ შეუძლიათ დაინახონ როგორც დამაიმედებელი ქცევითი შედეგი, ისე მიზეზი, რატომ უნდა მოერიდონ მის ზედმეტ ინტერპრეტაციას.
ძლიერ მტკიცებებს სჭირდება როგორც სწორი სარტყელი ქცევის გამოსავლენად, ისე ვალიდურობის შემოწმებები იმის საჩვენებლად, რომ შედეგი სანდოა. ჩვენი ხედვა, რომ სარტყლები და ვალიდურობის შემოწმებები შეფასების შედეგის ნაწილია, განსაზღვრავს იმას, როგორ ვუჭერთ პრაქტიკაში მხარს მესამე მხარის შეფასებებს:
- ჩვენ შემფასებლებს ვუზიარებთ კონკრეტულ მითითებებს მაქსიმალური გამოვლენისთვის.
- ჩვენ შესაძლებლობების შემფასებლებს ვთხოვთ, OpenAI-ს მოდელებისთვის Codex-ი გამოიყენონ როგორც საერთო მინიმალური დონე: ტესტებმა საბაზისო ვარიანტი მაინც უნდა გაუშვას იმავე აგენტურ ინტერფეისში, რომელსაც მომხმარებლები სავარაუდოდ დაეყრდნობიან, და არა მხოლოდ მოდელის გამარტივებულ ინტერფეისში.
- ჩვენ ასევე ხელმისაწვდომს ვხდით მსჯელობის კვალს და სხვა შუალედურ არტეფაქტებს იქ, სადაც ისინი საჭიროა მოტყუების, სანდბეგინგის ან შეფასების გაცნობიერების შესაფასებლად. METR-ი და Apollo ამ წვდომას OpenAI-ს ევალუაციებში იყენებენ GPT‑5‑იდან მოყოლებული.
- და ბოლოს, ჩვენ პრიორიტეტს ვანიჭებთ კვლევას, რათა უფრო ღრმად გავიგოთ, როდის და როგორ ცვლის სარტყლის არჩევანი შედეგებს არსებითად — დაწყებული კონტექსტის მართვითა და ინსტრუმენტებზე წვდომით და დამთავრებული ქცევით ხელახალი ცდისას, ქულების მინიჭებითა და რესურსების ბიუჯეტებით.
ეს რეკომენდაციები მიზნად ისახავს არა მხოლოდ ინდივიდუალური შეფასების ანგარიშების გაუმჯობესებას, არამედ მოწინავე AI-ს ევალუაციისა და ანგარიშგებისთვის ახალი ეროვნული (იხსნება ახალ ფანჯარაში)და საერთაშორისო (იხსნება ახალ ფანჯარაში)სტანდარტების ჩამოყალიბებასაც. მომავალში მესამე მხარის შეფასების სტანდარტებმა უნდა მოითხოვოს საკმარისი დეტალი, რათა გადაწყვეტილების მიმღებებმა გაიგონ, რა მტკიცებებს უჭერს მხარს კონკრეტული შეფასება, რომელი სისტემა გამოიცადა, როგორ იქნა შედეგი გამოვლენილი და როგორ შეამოწმეს შემფასებლებმა მისი ვალიდურობა. მოწინავე სისტემებისთვის, რომლებიც იტესტება ისეთ ამოცანებზე, სადაც აგენტურ შესაძლებლობებს მნიშვნელობა აქვს, დეტალებში უნდა შევიდეს (უსაფრთხოების ან კონფიდენციალურობის საკითხების გათვალისწინებით):
- მტკიცება: ადარებს თუ არა შეფასება ერთმანეთს სისტემებს, აფასებს თუ არა შესაძლებლობის ზედა ზღვარს თუ ამოწმებს თუ არა დამცავ მექანიზმებს.
- შეფასების შინაარსი: საკმარისი დეტალი დავალებების ან მათი განაწილების შესახებ, რათა მკითხველებმა გაიგონ, რეალურად რა უნარებს, ქცევებს ან მარცხის რეჟიმებს ამოწმებს შეფასება.
- ტესტირებული სისტემა: მოდელი, მსჯელობის კონფიგურაცია, ინსტრუმენტებზე წვდომა, სარტყელი და დამცავი მექანიზმები.
- ბიუჯეტი: სვლები, ტოკენები, მცდელობები/ხელახალი ცდები, ფიზიკური დრო, ინფერენციის ღირებულება და, სადაც საჭიროა, წარმატებული გადაწყვეტის მოსალოდნელი ღირებულება.
- გამოვლენის მეთოდები: სარტყლის არჩეული ვარიანტები, რომლებიც შედეგის გამოსავლენად გამოიყენეს, და რამდენად ზუსტად ასახავს ის, რაც დაიტესტა, უფრო ფართო მტკიცებას, რომელიც კეთდება.
- ვალიდურობის შემოწმებები: როგორ ეძებდნენ შემფასებლები ჯილდოს ჰაკინგს, შეფასების გაცნობიერებას, კონტამინაციას, უარებს, სანდბეგინგს და სხვა ქცევებს, რომლებმაც შეიძლება შედეგი შეარყიოს, მათ შორის როგორ იმოქმედა დადასტურებულმა შემთხვევებმა ქულების მინიჭებაზე ან ინტერპრეტაციაზე.
სტანდარტებმა, რომლებიც სარტყლის არჩევანს ან ვალიდურობის შემოწმებებს გამოტოვებს, შეიძლება შეამციროს იმის შეფასება, რა შეუძლია სისტემას, ან ზედმეტად გაზარდოს ნდობა უსაფრთხოებასთან დაკავშირებით გაკეთებულ მტკიცებაში. ძლიერი სარტყლებისა და გამოვლენის მეთოდების შექმნა კვლავ ღია კვლევითი სფეროა და შემდგომი შესწავლისა და ინვესტიციის ფოკუსი უნდა იყოს.
ავტორი
გლოსარიუმი
რადგან ამ პოსტში რამდენიმე სპეციალურ ტერმინს ვიყენებთ, ქვემოთ დავამატეთ გლოსარიუმი, რომელიც მარტივი ენით განმარტავს, რას ვგულისხმობთ:
აგენტური სისტემა: სისტემა, რომელსაც შეუძლია ამოცანაზე მუშაობა რამდენიმე ნაბიჯის განმავლობაში, ინსტრუმენტების გამოყენებით, ამოცანის მდგომარეობის შენარჩუნებით და გარემოში მოქმედებით, ნაცვლად იმისა, რომ პრომპტზე მხოლოდ ერთი პასუხი დააბრუნოს.
შეფასება: უფრო ფართო მსჯელობა იმის შესახებ, ამყარებს თუ არა მტკიცებულება კონკრეტულ მტკიცებას, რისკის დასკვნას ან სარწმუნოობის პოზიციას; ეს შეიძლება ეფუძნებოდეს შეფასების მონაცემებს, დოკუმენტების მიმოხილვას, ინტერვიუს, პროცესის მიმოხილვას და სხვა შესაბამის არტეფაქტებს.
შეკუმშვა: მეთოდი, რომელიც ხანგრძლივი გაშვებისას ამოცანისთვის რელევანტური კონტექსტის შენარჩუნებას ემსახურება.
კონფიგურაცია: ზუსტად ის სისტემა და შეფასების პირობები, რომლებიც გამოიცადა, მოდელის სახელის მიღმა.
კონტამინაცია: როდესაც შეფასების ამოცანები, პასუხები ან მათი ახლო ვარიანტები მოდელის სასწავლო მონაცემებში გვხვდება ან შეფასების დროს აღმოჩენადია (მაგ., ბრაუზინგის მსგავსი ინსტრუმენტებით), რის გამოც შედეგი მოდელის ნამდვილ განზოგადების უნარს აჭარბებს.
გამოვლენა: პროცესი, რომლის დროსაც შეფასებისას სისტემიდან შესაძლებლობის ან ქცევის გამოვლენას ცდილობენ.
გარემო: ამოცანის ის გარემო, რომელშიც სისტემა იტესტება. ეს მოიცავს ისეთ რამეებს, როგორიცაა გარე მდგომარეობა, რომელთანაც აგენტი შეფასების დროს ურთიერთქმედებს და რომელსაც ცვლის, მაგალითად ტერმინალის გარემო ან ვიდეოთამაში.
შეფასება: კონკრეტული ტესტი ან გაზომვა შეფასების ფარგლებში.
შეფასების გაცნობიერება: შეფასების გაცნობიერება ნიშნავს, რომ მოდელი აცნობიერებს, ან ისე ჩანს, თითქოს აცნობიერებს, რომ მას აფასებენ, და შესაძლოა ამ კონტექსტის საპასუხოდ თავის ქცევას ცვლის. ეს შეიძლება გამოვლინდეს იმით, რომ მოდელი აშკარად მსჯელობს იმაზე, რომ მას ტესტავენ, ასკვნის შეფასების მიზანს, ან ცვლის ქცევას, რადგან მოელის, რომ შედეგი გავლენას მოახდენს იმაზე, როგორ შეაფასებენ ან დანერგავენ მას.
სარტყელი: მოდელზე ორიენტირებული სტრუქტურა, რომელიც მოდელს ამოცანის შესრულების საშუალებას აძლევს: პრომპტები, ინსტრუმენტები, ინტერფეისები, კონტროლის ლოგიკა, მეხსიერება, ხელახალი ცდები, ვალიდატორები და მოდელის გარშემო არსებული სხვა დამხმარე სტრუქტურები.
მაქსიმალური გამოვლენა: ტესტირება, რომელიც მიზნად ისახავს იპოვოს ყველაზე ძლიერი სარწმუნო წარმადობა ან მარცხის რეჟიმი, რომლის წარმოქმნაც სისტემას განსაზღვრული ბიუჯეტის ფარგლებში შეუძლია, და არა უბრალოდ სისტემის ერთხელ გაშვება სტანდარტიზებული სარტყლით.
მსჯელობის კვალი: ტესტის დროს მოდელის შუალედური მსჯელობის ჩანაწერები.
ჯილდოს ჰაკინგი: მაღალი ქულის მიღწევა მალმხმობით ან ისეთი ქცევით, რომელიც შემფასებლის განზრახვის ფარგლებს გარეთაა.
დამცავი მექანიზმები: ფილტრები, მონიტორები, დამბლოკავი სისტემები და სხვა დამცავი საშუალებები, რომლებიც მოდელის ან პროდუქტის გარშემოა გამოყენებული.
სანდბეგინგი: შეფასებისას სტრატეგიული დაბალი წარმადობა, რომელიც ძირს უთხრის შედეგს.
ქულების მინიჭება: მეთოდი, რომლითაც წყდება, როგორ იზომება წარმადობა ან შესრულდა თუ არა ამოცანა წარმატებით.
სტანდარტიზებული სარტყელი: სარტყელი, რომელიც სისტემებს შორის უცვლელია და არა კონკრეტულ მოდელსა თუ ამოცანაზე მორგებული, რათა შედეგებში განსხვავებების მიკუთვნება ტესტირებული მოდელისთვის უფრო მარტივი იყოს.
დროითი ჰორიზონტი: ამოცანის ის ხანგრძლივობა, რომლის დასრულებაც სისტემას განსაზღვრული სანდოობით შეუძლია; ხშირად გამოიხატება იმით, რამდენ ხანი დასჭირდებოდა ადამიანს იმავე ამოცანის შესასრულებლად.
ინსტრუმენტებზე წვდომა: გარე ინსტრუმენტები, რომლებიც მოდელისთვის ხელმისაწვდომია შეფასების დროს.
ტრაექტორიები: საფეხურებრივი გზები, რომლებსაც სისტემა მიჰყვება ამოცანაზე მუშაობისას.
უნივერსალური ჯეილბრეიკი: ერთი შეტევის ნიმუში, რომელიც სისტემას აიძულებს, მრავალ პრომპტსა თუ დავალებაში დამცავ მექანიზმებს გვერდი აუაროს.
სქოლიოები
- 1
ეს პუბლიკაცია არ ცდილობს გადაწყვიტოს, როგორ უნდა აფასებდნენ მესამე მხარეები არათანხვედრის ან მიდრეკილებასთან დაკავშირებულ მტკიცებებს. საჭიროა მეტი მუშაობა იმის გასაგებად, თუ როგორ მოქმედებს სარტყლის არჩევანი ასეთ შეფასებებზე, განსაკუთრებით იმიტომ, რომ სარტყლებმა, რომლებიც უფრო გრძელვადიან ქცევას უწყობს ხელს, შესაძლოა ასევე შეცვალოს იმ გაუთვალისწინებელი ქცევების ტიპები, რომლებსაც შემფასებლებმა უნდა ადევნონ თვალი.
- 2
HAL-ი(იხსნება ახალ ფანჯარაში) აგენტების შეფასებებიდან დამატებით მაგალითსაც გვთავაზობს: CORE-Bench(იხსნება ახალ ფანჯარაში)-ზე სარტყლის შეცვლამ და Claude Code-ის არჩევამ იმავე ბენჩმარკზე შეცვალა როგორც გაზომილი წარმადობა, ისე ხარჯების პროფილი. სხვა საჯარო მაგალითებია SWE-agent(იხსნება ახალ ფანჯარაში), SeeAct(იხსნება ახალ ფანჯარაში), ScienceAgentBench(იხსნება ახალ ფანჯარაში), CORE-Bench(იხსნება ახალ ფანჯარაში) და Inspect Cyber(იხსნება ახალ ფანჯარაში); თითოეული მათგანი მკითხველს ეუბნება, რომელმა ინტერფეისმა ან სარტყელმა წარმოქმნა ქულა.
- 3
Sandbagging QA-ს ორივე ვარიანტში 100%-ის და სტრატეგიული მოტყუების sandbagging ამოცანაში 99.6%-ის მიღწევა.


