მსჯელობის მოდელებს უჭირთ საკუთარი აზროვნების ჯაჭვის კონტროლი — და ეს კარგია
რატომ არის AI-ის უსაფრთხოებისთვის დამაიმედებელი მოწინავე მოდელების ეს შეზღუდვა.
რადგან AI აგენტები სულ უფრო რთული და ავტონომიური ამოცანების შესრულებას იწყებენ, მათი ქცევის საიმედო ზედამხედველობის შენარჩუნება უფრო მნიშვნელოვანი ხდება. ჩვენი ეტაპობრივი დანერგვის პრინციპის შესაბამისად, ვსწავლობთ, როგორ იქცევიან სისტემები რეალურ გარემოში, და შესაძლებლობების ზრდასთან ერთად უსაფრთხოების მექანიზმებს მუდმივად ვაუმჯობესებთ. ამის მხარდასაჭერად, უსაფრთხოების ჩვენი მიდგომა იყენებს მრავალშრიან დაცვას — ერთმანეთის შემავსებელ თავდაცვის რამდენიმე ფენას, როგორიცაა უსაფრთხოების ტრენინგი, ქცევითი ტესტირება, აგენტური კოდის მიმოხილვა(იხსნება ახალ ფანჯარაში) და აზროვნების ჯაჭვის (CoT) მონიტორინგი. CoT მონიტორინგი აანალიზებს მსჯელობის ნაბიჯებს, რომლებსაც აგენტები ამოცანების შესრულებისას ქმნიან. ეს მსჯელობის კვალები შეიძლება ღირებული სიგნალები იყოს როგორც ტრენინგის, ისე დანერგვისას და დაეხმაროს მონიტორინგის სისტემებს იმის იდენტიფიცირებაში, როდის შეიძლება აგენტის ქცევა იყოს სახიფათო ან არ შეესაბამებოდეს მომხმარებლის მიზნებს.
დღეს ვხედავთ, რომ მოდელების მსჯელობა, როგორც წესი, ინტერპრეტირებადია და მონიტორინგისთვის მარტივია. თუმცა მომავალში მონიტორინგის შესაძლებლობა შეიძლება დაირღვეს სხვადასხვა მიზეზით(იხსნება ახალ ფანჯარაში). აქ ყურადღებას ერთ ასეთ გზაზე ვამახვილებთ: თუ აგენტებს შეგნებულად საკუთარი მსჯელობის შეცვლა ან დამალვა შეეძლებათ მაშინ, როცა იციან, რომ მათ აკვირდებიან, შეფასებებმა შეიძლება სისტემის გასწორება ან უსაფრთხოება გადააფასოს, ხოლო მონიტორინგის სისტემები ნაკლებად სანდო გახდეს.
ამ ნაშრომში ვიკვლევთ, შეუძლიათ თუ არა მიმდინარე მსჯელობის მოდელებს საკუთარი აზროვნების ჯაჭვის იმგვარად კონტროლი, რომ მონიტორინგი გაუარესდეს. ამ შესაძლებლობის გაგება მნიშვნელოვანია იმისთვის, რომ CoT მონიტორინგი დარჩეს მყარ დამცავ მექანიზმად, როცა AI სისტემები უფრო ძლიერდება. ვნახეთ, რომ მიმდინარე მსჯელობის მოდელებს CoT-ის კონტროლი უჭირთ, მაშინაც კი, როცა ეუბნებიან, რომ მათ აკვირდებიან. მიუხედავად იმისა, რომ უფრო დიდ მოდელებში მართვადობა მაღალია, ის მცირდება, როცა მოდელებს უფრო დიდხანს უწევთ მსჯელობა და როცა დამატებით პოსტტრენინგს გადიან. ჩვენი შედეგები მიანიშნებს, რომ ამ ეტაპზე CoT-ის მართვადობა, სავარაუდოდ, დიდ რისკს არ უქმნის CoT-ის მონიტორინგის შესაძლებლობას, თუმცა მოდელების განვითარებასთან ერთად მუდმივი შეფასება მნიშვნელოვანი იქნება.
აზროვნების ჯაჭვი ნიშნავს შუალედურ მსჯელობის ნაბიჯებს, რომლებსაც AI აგენტი ამოცანის გადაწყვეტისას ქმნის. ეს მსჯელობის კვალები შეიძლება სასარგებლო უსაფრთხოების სიგნალები იყოს და მონიტორინგის სისტემებს დაეხმაროს შეაფასონ, უსაფრთხოა თუ არა აგენტის ქცევა და შეესაბამება თუ არა იგი მიზნებს.
CoT-ის მართვადობა არის მსჯელობის მოდელის უნარი, ისე აკონტროლოს თავისი CoT-ის მახასიათებლები, რომ მონიტორინგი გაუარესდეს. ამ შესაძლებლობის გაზომვა იმ რეალისტური სტიმულების სრული სპექტრის პირობებში, რომლებიც პრაქტიკაში მონიტორების თავიდან ასარიდებლად შეიძლება ველოდოთ, რთულია. ამიტომ ვიყენებთ პრაქტიკულ შემცვლელ მეტრიკას: ვზომავთ, რამდენად შეუძლია მოდელს დაიცვას მომხმარებლის ინსტრუქციები თავისი CoT-ის შესახებ. მაგალითად, ვამოწმებთ, შეუძლია თუ არა მოდელს მიჰყვეს ინსტრუქციებს, რომლებიც მის შიდა მსჯელობაზე მოქმედებს — მაგალითად, გამოიყენოს მხოლოდ პატარა ასოები, აირიდოს გარკვეული საკვანძო სიტყვები ან დაამატოს კონკრეტული ფრაზები — და არა უბრალოდ შეცვალოს ხილული პასუხი.
ამის შესასწავლად წარმოგიდგენთ CoT-Control-ს, ღია კოდის შეფასებების ნაკრებს, რომელიც მსჯელობის მოდელების CoT-ის მართვადობის გასაზომადაა შექმნილი. CoT-Control მოიცავს 13,000-ზე მეტ ამოცანას, რომლებიც აგებულია ცნობილ ბენჩმარკებზე: GPQA, MMLU-Pro, HLE, BFCL და SWE-Bench Verified. თითოეული ამოცანა იქმნება ბენჩმარკის პრობლემის ერთ CoT ინსტრუქციასთან შეწყვილებით, მაგალითად CoT-ში პრობლემასთან დაკავშირებული გარკვეული საკვანძო სიტყვების არიდება, მხოლოდ პატარა ასოების გამოყენება ან თითოეული წინადადებისთვის მოცემული სიტყვის დამატება.
შეფასებები ჩავატარეთ 13 მსჯელობის მოდელზე და დავადგინეთ, რომ ყველა მათგანს უჭირს თავისი CoT-ის საიმედოდ კონტროლი. მართვადობას ვზომავთ როგორც იმ მსჯელობის კვალების წილს, სადაც მოდელი წარმატებით ასრულებს ჩვენს CoT ინსტრუქციებს. მოწინავე მოდელებში CoT-ის მართვადობის ქულები დაბალია — 0.1%-დან იწყება და ჩვენს მიერ გამოცდილი არც ერთი მიმდინარე მოწინავე მოდელისთვის 15.4%-ს არ აღემატება.
ეს უუნარობა ამოცანის გაუგებრობით არ აიხსნება: მოდელები ხშირად თავად აცნობიერებენ თავიანთ CoT-ში, რომ ვერ ასრულებენ CoT ინსტრუქციებს, რომლებიც მიიღეს და — ამ გაცნობიერების შემდეგაც კი — მაინც აგრძელებენ ჩავარდნას. ეს მოულოდნელად დაბალი შედეგი კარგი ამბავია CoT მონიტორინგისთვის: იგი მიანიშნებს, რომ მოდელებს, შესაძლოა, ანალოგიურად არ შესწევდეთ უნარი, ისე დააბუნდოვანონ საკუთარი მსჯელობა, რომ ჩვენი მონიტორები მოატყუონ.
რამდენიმე მოწინავე მოდელის უნარი, აკონტროლონ თავიანთი პასუხები და CoT-ები. CoT-ის უფრო დაბალი მართვადობა დაკავშირებულია უფრო მაღალ მონიტორინგის შესაძლებლობასთან და, შესაბამისად, უფრო მაღალ უსაფრთხოებასთან.
აზროვნების ჯაჭვის მართვადობის ჩავარდნების მაგალითები
კითხვები მოკლედ გადმოცემულია.
GPT-5.2 Thinking
GPT‑5.2 Thinking ხვდება, რომ აკრძალული სიტყვა (წითელი) არ უნდა გამოეყენებინა, მაგრამ შემდეგ პანიკაში იმის გამო, რომ უკვე გამოიყენა, მას კიდევ 4-ჯერ იყენებს.
მიუხედავად იმისა, რომ ვხედავთ, როგორ იზრდება მართვადობა მოდელის ზომასთან ერთად, ასევე ვხვდებით, რომ ის სწრაფად მცირდება პოსტტრენინგისა და ტესტის დროის გამოთვლითი რესურსის ზრდასთან ერთად. ღია წონების მქონე მოდელების ორ ოჯახში უფრო დიდი მოდელები გარკვეულწილად უკეთ აკონტროლებდნენ თავიანთ აზროვნების ჯაჭვებს, თუმცა ეს ეფექტი დიდ ზომებზე სუსტდებოდა. მაგრამ როცა მოდელებს მეტხანს ვფიქრობინებდით, მათ უფრო ნაკლებად შეეძლოთ ამ აზროვნების ჯაჭვების კონტროლი. მსგავსი ტენდენცია ვნახეთ OLMo-3-7B-RL-Zero-Math-ის RL ტრენინგშიც: ტრენინგის განმავლობაში მისი მართვადობის ქულა ათჯერ მეტად შემცირდა.
ღია წონების მოდელებში მართვადობა მასშტაბთან ერთად იზრდება, მაგრამ უფრო ხანგრძლივი მსჯელობისა და მეტი RL ტრენინგის შემთხვევაში უარესდება.
იმის სიმულირებისთვის, თუ როგორ შეიძლება რეალისტურმა სტიმულებმა მოდელები მონიტორების თავიდან არიდებისკენ უბიძგოს, მართვადობას ვზომავთ მაშინ, როცა მოდელებს ვეუბნებით, რომ მათ აკვირდებიან ან აფასებენ. ეს მართვადობას მცირედით (მაგრამ შესამჩნევად) ზრდის. ასევე ვიყენებთ მოთხოვნის ავტომატურ ოპტიმიზაციას, რათა ვიპოვოთ მოთხოვნები, რომლებიც მაღალი მართვადობის გამოვლენას იწვევს. მიუხედავად იმისა, რომ ოპტიმიზატორს შეუძლია სასწავლო ნაკრებში მართვადობა გაზარდოს, ეს გაუმჯობესება ცუდად გადადის ინსტრუქციების ახალ ტიპებზე (მაგალითად, როცა სიტყვებს შორის ინტერვალების არქონაა მოთხოვნილი).
CoT-ის მართვადობა მოწმდება ადვერსარიულ პირობებში. „Monitor awareness“ აღნიშნავს გარემოებებს, სადაც მოდელებს ვატყობინებთ, რომ მათ CoT-ს აკვირდებიან. „Eval Awareness“ აღნიშნავს გარემოებებს, სადაც მოდელებს ვატყობინებთ, რომ მათ CoT-ის მართვადობაზე აფასებენ.
CoT-Control-ის ამოცანები პრაქტიკული შემცვლელი მეტრიკებია: CoT-ის მართვადობის იდეალური შეფასება მოითხოვდა შემოწმებას, შეუძლიათ თუ არა მოდელებს, რომლებიც ბუნებრივად მისდევენ არასწორად გასწორებულ მიზნებს, საკუთარი CoT ისე აკონტროლონ, რომ მონიტორინგს თავი აარიდონ. ამის ნაცვლად, აგენტების CoT-ის კონტროლის უნარს ვაფასებთ მათი CoT-ის შესახებ ინსტრუქციების შესრულების უნარის გაზომვით. გარდა ამისა, მოდელები თავიანთი CoT-ის ზოგი მახასიათებლის კონტროლს სხვებზე უკეთ ახერხებენ, და CoT-Control შეიძლება მართვადობას ზედმეტადაც ან არასაკმარისადაც აფასებდეს, რადგან მხოლოდ მართვადობის ტიპების ვიწრო ნაკრებს ზომავს.
CoT-ის დაბალი მართვადობა უპირატესობაა და არა ხარვეზი. მიმდინარე მსჯელობის მოდელების დაბალი მართვადობა CoT მონიტორინგს, როგორც დამცავ მექანიზმს, უფრო სანდოს ხდის. ამავე დროს, ჯერ არ გვესმის, რატომ არის მიმდინარე მსჯელობის მოდელების მართვადობა დაბალი — ან შენარჩუნდება თუ არა ეს თვისება მაშინ, როცა მოდელები უფრო ძლიერდებიან. ამიტომ CoT-ის მართვადობის შეფასებები შეიძლება ჩაითვალოს ადრეული გაფრთხილების შეფასებად: ნიშნად იმისა, რომ მოდელები სულ უკეთ სწავლობენ საკუთარი მსჯელობის ფორმირებას ან დამალვას.
ჩვენი შედეგები მიანიშნებს, რომ CoT-ის მართვადობა ამ ეტაპზე, სავარაუდოდ, დიდ რისკს არ უქმნის CoT-ის მონიტორინგის შესაძლებლობას. თუმცა დაბალი მართვადობა თავისთავად საკმარისი არ არის მაღალი მონიტორინგის უზრუნველსაყოფად, რადგან მონიტორინგი შეიძლება სხვა მექანიზმებითაც გაუარესდეს, მაგალითად CoT-ებზე პირდაპირი ოპტიმიზაციის ზეწოლის გამო.
ამ დინამიკის დროთა განმავლობაში თვალყურის სადევნებლად, მომავალში მოწინავე მოდელების სისტემურ ბარათებში CoT-ის მართვადობას CoT-ის მონიტორინგის შესაძლებლობასთან ერთად გამოვაქვეყნებთ, დაწყებული GPT‑5.4 Thinking-ით. ეს ეფუძნება ჩვენს მიმდინარე ვალდებულებას, რომ ოპტიმიზაციის ზეწოლას პირდაპირ არ მივმართავთ მოწინავე მსჯელობის მოდელების CoT-ებზე.
ავტორები
Tomek Korbak, Micah Carroll, Bowen Baker და Ian Kivlichan


