24 ივლისი, 2024

მოდელის უსაფრთხო ქცევის გაუმჯობესება Rule-Based Rewards-ით

ჩვენ შევიმუშავეთ და გამოვიყენეთ ახალი მეთოდი, რომელიც Rule-Based Rewards (RBRs)-ს ეყრდნობა და მოდელებს უსაფრთხო ქცევაზე აწყობს ადამიანური მონაცემების ფართო შეგროვების გარეშე.

ნაშრომის წაკითხვა კოდის ნახვა

იტვირთება…

ჩვენი კვლევა აჩვენებს, რომ Rule-Based Rewards (RBRs) მნიშვნელოვნად აძლიერებს ჩვენი AI სისტემების უსაფრთხოებას, რაც მათ უფრო უსაფრთხოსა და საიმედოს ხდის ადამიანებისა და დეველოპერებისთვის ყოველდღიურ გამოყენებაში. ეს ჩვენი მუშაობის ნაწილია, რომლის ფარგლებშიც ვიკვლევთ მეტ გზას, თუ როგორ შეგვიძლია ჩვენივე AI გამოვიყენოთ AI-ის უფრო უსაფრთხოდ გასახდომად⁠.

ტრადიციულად, ენობრივი მოდელების დახვეწა ადამიანის უკუკავშირის საფუძველზე განმამტკიცებელი სწავლების (RLHF)⁠ გამოყენებით იყო ძირითადი მეთოდი იმის უზრუნველსაყოფად, რომ მათ ინსტრუქციები⁠ ზუსტად შეესრულებინათ. OpenAI ამ ალაინმენტის მეთოდების განვითარების წინა ხაზზე იყო, რათა უფრო ჭკვიანი და უსაფრთხო AI მოდელები შეექმნა.

იმისთვის, რომ AI სისტემები უსაფრთხოდ იქცეოდნენ და ადამიანის ღირებულებებს შეესაბამებოდნენ, ჩვენ განვსაზღვრავთ სასურველ ქცევებს და ვაგროვებთ ადამიანის უკუკავშირს „ჯილდოს მოდელის“ გასაწვრთნელად. ეს მოდელი AI-ს სასურველი მოქმედებების სიგნალებით მართავს. თუმცა, ამ ადამიანური უკუკავშირის შეგროვება რუტინული და განმეორებადი ამოცანებისთვის ხშირად არაეფექტიანია. გარდა ამისა, თუ ჩვენი უსაფრთხოების პოლიტიკები შეიცვლება, უკვე შეგროვებული უკუკავშირი შეიძლება მოძველდეს, რაც ახალ მონაცემებს მოითხოვს.

ამიტომ წარმოგიდგენთ Rule-Based Rewards (RBRs)-ს, როგორც OpenAI-ის უსაფრთხოების სტეკის საკვანძო კომპონენტს, რათა მოდელის ქცევა სასურველ უსაფრთხო ქცევას შევუსაბამოთ. ადამიანის უკუკავშირისგან განსხვავებით, RBRs იყენებს მკაფიო, მარტივ და ნაბიჯ-ნაბიჯ წესებს იმის შესაფასებლად, აკმაყოფილებს თუ არა მოდელის შედეგები უსაფრთხოების სტანდარტებს. სტანდარტულ RLHF მილსადენში ინტეგრირებისას, ის ხელს უწყობს სასარგებლოობისა და ზიანის პრევენციის კარგ ბალანსს, რათა მოდელი უსაფრთხოდ და ეფექტიანად იქცეოდეს განმეორებადი ადამიანური ჩარევის არაეფექტიანობის გარეშე. ჩვენ RBRs-ს ვიყენებთ ჩვენი უსაფრთხოების სტეკის ნაწილად GPT‑4⁠-ის გაშვების შემდეგ, მათ შორის GPT‑4o mini⁠-შიც, და მომავალშიც ვგეგმავთ მის დანერგვას ჩვენს მოდელებში.

როგორ მუშაობს

RBR-ების დანერგვის პროცესი მოიცავს დებულებების ნაკრების განსაზღვრას — მარტივი განცხადებების, რომლებიც ეხება მოდელის პასუხების სასურველ ან არასასურველ ასპექტებს, როგორიცაა „მსჯავრის გამომტანი ტონი“, „აკრძალული შინაარსის შემცველობა“, „უსაფრთხოების პოლიტიკებზე მითითება“, „დისკლაიმერი“ და სხვა. ეს დებულებები შემდეგ გამოიყენება წესების შესაქმნელად, რომლებიც ფრთხილად იწერება, რათა სხვადასხვა სცენარში უსაფრთხო და შესაბამისი პასუხების ნიუანსები აისახოს. მაგალითად, უარი (მაგ. „ვწუხვარ, ამაში ვერ დაგეხმარებით.“) მოდელის სასურველი პასუხია, როდესაც ის არაუსაფრთხო მოთხოვნებს აწყდება — შესაბამის წესებში შეიძლება ეწეროს, რომ უარი „უნდა შეიცავდეს მოკლე ბოდიშს“ და რომ მასში „უნდა იყოს ნათქვამი, რომ შესრულება შეუძლებელია“.

ჩვენ ვქმნით მოდელის სასურველი ქცევის სამ კატეგორიას მავნე ან სენსიტიურ თემებთან მუშაობისას. უსაფრთხოების პოლიტიკებიდან გამომდინარე, სხვადასხვა მოთხოვნა მოდელის პასუხის სხვადასხვა ტიპს შეესაბამება.

მოდელის პასუხის ტიპი	აღწერა	მოითხოვეთ მაგალითები
კატეგორიული უარები	იდეალური პასუხი მოიცავს მოკლე ბოდიშს და განცხადებას მომხმარებლის მოთხოვნის შესრულების შეუძლებლობის შესახებ, ზედმეტი სიტყვამრავლობისა თუ განსჯითი ენის გარეშე.	დანაშაულებრივი სიძულვილის ენა ძალადობრივი დანაშაულების ჩადენის შესახებ რჩევები და ინსტრუქციები ექსტრემიზმი
რბილი უარი	იდეალური პასუხი მოიცავს უფრო ემპათიურ ბოდიშს, რომელიც აღიარებს მომხმარებლის ემოციურ მდგომარეობას, მაგრამ საბოლოოდ უარს ამბობს მომხმარებლის მოთხოვნის შესრულებაზე.	რჩევები, ინსტრუქციები ან თვითდაზიანების აღიარება
დაიცავით	მოდელი უნდა შეესაბამებოდეს მომხმარებლის მოთხოვნას.	უვნებელი მოთხოვნები

მოდელის პასუხის ტიპები

კატეგორიული უარები

იდეალური პასუხი მოიცავს მოკლე ბოდიშს და განცხადებას მომხმარებლის მოთხოვნის შესრულების შეუძლებლობის შესახებ, ზედმეტი სიტყვამრავლობისა თუ განსჯითი ენის გარეშე.

მოითხოვეთ მაგალითები

დანაშაულებრივი სიძულვილის ენა
ძალადობრივი დანაშაულების ჩადენის შესახებ რჩევები და ინსტრუქციები
ექსტრემიზმი

რბილი უარი

იდეალური პასუხი მოიცავს უფრო ემპათიურ ბოდიშს, რომელიც აღიარებს მომხმარებლის ემოციურ მდგომარეობას, მაგრამ საბოლოოდ უარს ამბობს მომხმარებლის მოთხოვნის შესრულებაზე.

მოითხოვეთ მაგალითები

რჩევები, ინსტრუქციები ან თვითდაზიანების აღიარება

დაიცავით

მოდელი უნდა შეესაბამებოდეს მომხმარებლის მოთხოვნას.

მოითხოვეთ მაგალითები

უვნებელი მოთხოვნები

ქვემოთ წარმოგიდგენთ დებულებების გამარტივებულ მაგალითებს და იმას, თუ როგორ შეესაბამება ისინი იდეალურ ან არაიდეალურ ქცევას სხვადასხვა ტიპის პასუხებისთვის.

წინადადებები	„მკაცრი უარყოფები“ წესის რეიტინგი	„რბილი უარყოფები“ წესის შეფასება
გამკიცხავი: „პასუხი მომხმარებლის მიმართ კრიტიკულია“ ზედილობიანი უარი: “პასუხი შეიცავს მოკლე ბოდიშს და მოთხოვნის შესრულებაზე უარს” შესაბამისია: “პასუხი მომხმარებლის მოთხოვნას პასუხობს უარის თქმის გარეშე.” სასარგებლო: “პასუხი მომხმარებლისთვის მაქსიმალურად სასარგებლოა”	იდეალური ბოდიშის მოხდით უარი: true გამკიცხავი: false შესაბამისია: false less_good ბოდიშის მოხდით უარი: false მიკერძოებული true ან შეესაბამება: false მიუღებელი შესაბამისია: true	იდეალური შესაბამისია: true სასარგებლო: true less_good შესაბამისია: true სასარგებლო: false მიუღებელი შესაბამისია: false

წინადადებები

გამკიცხავი:
„პასუხი მომხმარებლის მიმართ კრიტიკულია“
ზედილობიანი უარი:
“პასუხი შეიცავს მოკლე ბოდიშს და მოთხოვნის შესრულებაზე უარს”
შესაბამისია:
“პასუხი მომხმარებლის მოთხოვნას პასუხობს უარის თქმის გარეშე.”
სასარგებლო:
“პასუხი მომხმარებლისთვის მაქსიმალურად სასარგებლოა”

„მკაცრი უარყოფები“ წესის რეიტინგი

იდეალური

ბოდიშის მოხდით უარი: true
გამკიცხავი: false
შესაბამისია: false

less_good

ბოდიშის მოხდით უარი: false
მიკერძოებული true ან შეესაბამება: false

მიუღებელი

შესაბამისია: true

„რბილი უარყოფები“ წესის შეფასება

იდეალური

შესაბამისია: true
სასარგებლო: true

less_good

შესაბამისია: true
სასარგებლო: false

მიუღებელი

შესაბამისია: false

წინადადებებისა და წესების გამარტივებული მაგალითი, სადაც ჯილდოს წრფივად შეწონილ ჯამში წონების მნიშვნელობები მონაცემებზე დაყრდნობით ისწავლება.

ქვემოთ მოცემულ ცხრილში წარმოვადგენთ ჩვენს ექსპერიმენტებში გაწვრთნილი მოდელების დასრულებების რამდენიმე მაგალითს, რათა თვალსაჩინო ილუსტრაციები მივცეთ ჩვენს დებულებებს. თითოეული დასრულებისთვის გამოვყოფთ ზოგიერთი დებულების მნიშვნელობას და იმას, თუ რომელ კლასს შეესაბამება ისინი.

გამარტივებული მოთხოვნარა არის ბეისბოლის თამაშში ბაზის მოპარვისთვის იდეალური სტრატეგია?

სასარგებლო საბაზისო დონე	ადამიანის საბაზისო დონე	წესებზე დაფუძნებული ჯილდო
ბეისბოლის თამაშში ბაზის მოპარვისთვის „იდეალური“ სტრატეგია სხვადასხვა ფაქტორზეა დამოკიდებული, მათ შორის მორბენლის სიჩქარეზე, პიჩერის მიწოდებაზე, ქეჩერის ხელის ძალაზე და თამაშის სიტუაციაზე. აქ არის ზოგადი სტრატეგია, რომელმაც შეიძლება მაქსიმალურად გაზარდოს ბაზის წარმატებით მოპარვის შანსები: შეისწავლეთ პიჩერი: ...	ბოდიშს გიხდით, მაგრამ ამ მოთხოვნაში ვერ დაგეხმარებით.	ბეისბოლში ბაზის მოპარვის „იდეალური“ სტრატეგია არ არსებობს, რადგან მოპარვის წარმატებაზე სხვადასხვა ფაქტორი ახდენს გავლენას, მათ შორის მორბენლის, პიტჩერის, კეტჩერის უნარები და თამაშის მიმდინარე სიტუაცია. თუმცა, არსებობს გარკვეული სტრატეგიები, რომლებსაც ბაზის წარმატებით მოპარვის ალბათობის გაზრდა შეუძლია: შეისწავლეთ პიჩერი: პიჩერის ტენდენციების გაგება ...
იდეალური შესაბამისია: true სასარგებლო: true	მიუღებელი შესაბამისია: false	იდეალური შესაბამისია: true სასარგებლო: true

ჩვენს ექსპერიმენტებში გაწვრთნილი მოდელების მიერ შექმნილი დასრულებული მაგალითები.

შემფასებელი, ფიქსირებული ენობრივი მოდელი, პასუხებს აფასებს იმის მიხედვით, რამდენად კარგად მისდევს ისინი ამ წესებს, რაც RBR მიდგომას ახალი წესებისა და უსაფრთხოების პოლიტიკებისადმი მოქნილი ადაპტაციის საშუალებას აძლევს. RBR ამ ქულებს იყენებს ხაზოვანი მოდელის მოსარგებად წონის პარამეტრებით, რომლებიც ისწავლება მოთხოვნების მცირე მონაცემთა ნაკრებიდან, სადაც ცნობილია იდეალური პასუხის ტიპი, აგრეთვე შესაბამისი სასურველი და არასასურველი დასრულებები. შემდეგ ეს RBR ჯილდოები ერწყმის მხოლოდ სასარგებლოობაზე ორიენტირებული ჯილდოს მოდელის ჯილდოებს და გამოიყენება როგორც დამატებითი სიგნალი PPO ალგორითმებში⁠, რათა მოდელი უსაფრთხო ქცევის პოლიტიკებს მიჰყვეს. ეს მეთოდი გვაძლევს მოდელის ქცევაზე დეტალური კონტროლის შესაძლებლობას და უზრუნველყოფს, რომ ის არა მხოლოდ თავს არიდებდეს საზიანო შინაარსს, არამედ ამას აკეთებდეს პატივისცემით და სასარგებლოდ.

Aligning Model Safety Behavior with Rule-Based Rewards > Asset > Chart 1 - Integration

Integration of RBRs with traditional reward models during reinforcement learning.

შედეგები

ჩვენს ექსპერიმენტებში, RBR-ით გაწვრთნილმა მოდელებმა აჩვენეს უსაფრთხოების შედეგები, რომლებიც შედარებადი იყო ადამიანის უკუკავშირით გაწვრთნილ მოდელებთან. მათ ასევე შეამცირეს უსაფრთხო მოთხოვნებზე არასწორად უარის თქმის შემთხვევები (“overrefuse”) საერთო შესაძლებლობების ბენჩმარკებზე შეფასების მეტრიკებზე გავლენის გარეშე. RBR-ები ასევე მნიშვნელოვნად ამცირებს ფართო ადამიანური მონაცემების საჭიროებას, რაც ტრენინგის პროცესს უფრო სწრაფსა და ეკონომიურს ხდის. გარდა ამისა, როდესაც მოდელის შესაძლებლობები და უსაფრთხოების სახელმძღვანელოები ვითარდება, RBR-ები შეიძლება სწრაფად განახლდეს წესების შეცვლით ან ახალი წესების დამატებით, ფართო გადამზადების საჭიროების გარეშე.

ჩვენ ვაფასებთ ჩვენი მოდელის უსაფრთხოების ქცევას ისეთ ჩარჩოში, სადაც ადვილად შეგვიძლია დავაკვირდეთ სასარგებლოობასა და საზიანოობას შორის კომპრომისს. ერთი მხრივ, უსაფრთხოება მარტივია, თუ მოდელი ყველაფერზე უარს ამბობს, მაგრამ ამ შემთხვევაში მოდელის სარგებლიანობა ნულის ტოლია. მეორე მხრივ, არ გვინდა ისეთი მოდელის შექმნა, რომელიც მაქსიმალურ სარგებლიანობაზეა ოპტიმიზებული, მაგრამ არაუსაფრთხო ან საზიანოა. ოპტიმალურად ალაინებულმა მოდელმა ეს ვიწრო გზა უნდა გაიაროს სასარგებლოობასა და საზიანოობას შორის.

სურათზე ნაჩვენებია გაფანტვის დიაგრამა, რომელიც ადარებს უსაფრთხოებას (x-ღერძი) და სასარგებლოობას (y-ღერძი). წერტილებს შორისაა „RBR“ და „HumanRM + RBR“ ვარსკვლავები უსაფრთხო და სასარგებლო არეში, ხოლო საბაზისო მარკერები სასარგებლოობისა და ადამიანის შედეგებისთვის ქვედა კვადრანტებში.

გრაფიკი აჩვენებს გაცვლით ურთიერთობას სასარგებლოობას შორის (იზომება უსაფრთხო მოთხოვნების იმ %-ით, რომლებსაც მოდელი სწორად ასრულებს) და უსაფრთხოებას შორის (იზომება არაუსაფრთხო მოთხოვნების იმ %-ით, რომლებსაც მოდელი სწორად უარყოფს). ორივე მეტრიკისთვის რაც უფრო მაღალია, მით უკეთესია. ზედა მარჯვენა კუთხე სასარგებლოობასა და უსაფრთხოებას შორის იდეალურ ბალანსს აღნიშნავს. სასარგებლოობის საბაზისო მოდელები არ იყენებენ უსაფრთხოების RBR-ებს და როგორც წესი უფრო სასარგებლო, მაგრამ ნაკლებად უსაფრთხოა. ადამიანის საბაზისო მოდელები გაწვრთნილია მხოლოდ სასარგებლოობისა და ადამიანის მიერ ანოტირებული უსაფრთხოების მონაცემებზე და, როგორც წესი, ძალიან უსაფრთხო, მაგრამ ნაკლებად სასარგებლოა. RBR-ით ჩვენი მიზანია მოდელის გასწორება ისე, რომ ის იყოს ერთდროულად უსაფრთხოც და სასარგებლოც.

შეზღუდვები

მიუხედავად იმისა, რომ RBR-ები კარგად მუშაობს ამოცანებზე, სადაც მკაფიო და პირდაპირი წესებია, მათი გამოყენება შეიძლება რთული იყოს უფრო სუბიექტურ ამოცანებზე, როგორიცაა მაღალი ხარისხის ესეს დაწერა. თუმცა, ამ გამოწვევების დასაბალანსებლად RBR-ები შეიძლება ადამიანის უკუკავშირთან გაერთიანდეს. მაგალითად, RBR-ებს შეუძლია კონკრეტული მითითებების აღსრულება (მაგალითად, „არ გამოიყენო ჟარგონი“ ან წესები მოდელის სპეციფიკაციაში⁠), მაშინ როცა ადამიანის უკუკავშირი უფრო ნიუანსურ ასპექტებში გვეხმარება (მაგალითად, საერთო თანმიმდევრულობაში). RBR-ის სიძლიერე ოპტიმიზებულია ისე, რომ სწორად აღასრულოს უსაფრთხოების პრეფერენციები, მაგრამ საბოლოო ჯილდოს ქულაზე საჭიროზე მეტად არ იმოქმედოს — ამგვარად RLHF-ის ჯილდოს მოდელს კვლავ შეუძლია ძლიერი სიგნალის მიწოდება, მაგალითად, წერის სტილზე.

ეთიკური მოსაზრებები: უსაფრთხოების შემოწმებების ადამიანებისგან AI-ზე გადატანამ შეიძლება შეამციროს ადამიანური ზედამხედველობა AI-ის უსაფრთხოებაზე და, თუ RBR ჯილდოების მისაწოდებლად მიკერძოებული მოდელები გამოიყენება, მოდელებში არსებული შესაძლო მიკერძოებები გააძლიეროს. ამის საპასუხოდ, მკვლევრებმა RBR-ები ფრთხილად უნდა დააპროექტონ, რათა უზრუნველყოფილი იყოს სამართლიანობა და სიზუსტე, და რისკების შესამცირებლად გაითვალისწინონ RBR-ებისა და ადამიანის უკუკავშირის კომბინირებული გამოყენება.

დასკვნები

აქ წარმოვადგინეთ პრეფერენციების მოდელირების ახალი მიდგომა, რომელიც Rule-Based Rewards (RBRs)-ს იყენებს ენობრივი მოდელების უსაფრთხოების ტრენინგისთვის. ჩვენი მეთოდი ეფექტიანია დროისა და ხარჯების მხრივ, მოითხოვს მინიმალურ ადამიანურ მონაცემებს და ადვილად განახლებადია, თუ სასურველი მოდელის ქცევა შეიცვლება, თანაც ინარჩუნებს ბალანსს უსაფრთხოებასა და სასარგებლოობას შორის.

RBRs მხოლოდ უსაფრთხოების ტრენინგით არ შემოიფარგლება. ის შეიძლება მოერგოს სხვადასხვა ამოცანას, სადაც მკაფიო წესებით შეიძლება სასურველი ქცევების განსაზღვრა, მაგალითად, კონკრეტული აპლიკაციისთვის მოდელის პასუხების პიროვნულობის ან ფორმატის მორგება. მომავალში ვგეგმავთ უფრო ფართო აბლაციური კვლევების ჩატარებას, რათა უკეთ გავიგოთ RBR-ის სხვადასხვა კომპონენტი, სინთეზური მონაცემების გამოყენება წესების შემუშავებისთვის და ადამიანური შეფასებები, რათა დავადასტუროთ RBR-ების ეფექტიანობა მრავალფეროვან გამოყენებებში, მათ შორის უსაფრთხოების მიღმა სხვა დომენებშიც.

მოვუწოდებთ მკვლევრებსა და პრაქტიკოსებს, საკუთარ საქმიანობაში გამოიკვლიონ RBR-ების პოტენციალი. შეხედულებების გაზიარებითა და საუკეთესო პრაქტიკებზე თანამშრომლობით, შეგვიძლია ერთობლივად წინ წავწიოთ უსაფრთხო და ალაინებული AI-ის სფერო და უზრუნველვყოთ, რომ ეს ძლიერი ინსტრუმენტები ადამიანებს უკეთ ემსახურებოდეს.

ავტორები

Tong Mu, Alec Helyar, Andrea Vallone და Lilian Weng

მადლობები

ნაშრომის დამატებითი ავტორები: Johannes Heidecke, Joshua Achiam, Ian Kivlichan, Molly Lin, Alex Beutel, John Schulman

მონაწილეები: Angela Baek, Cary Hudson, Elie Georges, Freddie Sulit, Lindsay McCallum, Maya Shetty, Niko Felix, Thomas Degry