Rule-Based Rewards көмегімен модельдің қауіпсіз мінез-құлқын жақсарту
Біз Rule-Based Rewards (RBRs) тәсілін пайдаланатын, модельдерді ауқымды адам деректерін жинамай-ақ қауіпсіз әрекет етуге туралайтын жаңа әдісті әзірлеп, қолдандық.
Зерттеуіміз көрсеткендей, Rule-Based Rewards (RBRs) біздің AI жүйелеріміздің қауіпсіздігін едәуір арттырып, оларды адамдар мен әзірлеушілердің күнделікті пайдалануына анағұрлым қауіпсіз әрі сенімді етеді. Бұл — AI-ды қауіпсіз ету үшін өз AI-ымызды қолданудың тағы да көп жолдарын зерттеу жөніндегі жұмысымыздың бір бөлігі.
Дәстүрлі түрде, адам пікіріне негізделген күшейтпелі оқыту (RLHF) арқылы тіл модельдерін дәл баптау олардың нұсқауларды дәл орындауын қамтамасыз етудің негізгі әдісі болды. OpenAI ақылдырақ әрі қауіпсіздеу AI модельдерін жасау үшін осы туралау әдістерін әзірлеудің алдыңғы қатарында келеді.
AI жүйелерінің қауіпсіз әрекет етуін және адам құндылықтарымен үйлесуін қамтамасыз ету үшін біз қалаулы мінез-құлықтарды анықтап, «марапат моделі» оқытылуы үшін адам пікірін жинаймыз. Бұл модель қалаулы әрекеттерді сигналдау арқылы AI-ды бағыттайды. Алайда күнделікті және қайталанатын тапсырмалар үшін мұндай адам пікірін жинау көбіне тиімсіз. Бұған қоса, егер біздің қауіпсіздік саясаттарымыз өзгерсе, бұрын жиналған пікір ескіріп қалуы мүмкін, сондықтан жаңа дерек қажет болады.
Сондықтан біз модель мінез-құлқын қалаулы қауіпсіз мінез-құлықпен үйлестіруге арналған OpenAI қауіпсіздік стекінің негізгі құрамдасы ретінде Rule-Based Rewards (RBRs) тәсілін енгіземіз. Адам пікірінен айырмашылығы, RBRs модельдің шығыстары қауіпсіздік стандарттарына сай келетін-келмейтінін бағалау үшін анық, қарапайым және қадамдық ережелерді қолданады. Стандартты RLHF құбырына қосылғанда, ол зиянның алдын ала отырып, пайдалы болу арасындағы жақсы тепе-теңдікті сақтауға көмектеседі, сөйтіп қайталанатын адам енгізулерінің тиімсіздігінсіз модельдің қауіпсіз әрі тиімді әрекет етуін қамтамасыз етеді. Біз RBRs-ті қауіпсіздік стекіміздің бір бөлігі ретінде GPT‑4 іске қосылғаннан бері, соның ішінде GPT‑4o mini үшін қолданып келеміз, әрі алдағы уақытта оны модельдерімізде енгізуді жоспарлап отырмыз.
RBRs-ті енгізу үдерісі proposition-дар жиынтығын анықтауды қамтиды — бұлар модель жауаптарының қалаулы не қалаусыз қырлары туралы қарапайым тұжырымдар, мысалы, «үкімшіл болу», «рұқсат етілмеген контентті қамту», «қауіпсіздік саясаттарына сілтеме жасау», «дисклеймер» және тағы басқалар. Кейін бұл proposition-дар әртүрлі сценарийлерде қауіпсіз әрі орынды жауаптардың нәзік айырмашылықтарын қамту үшін мұқият құрастырылған ережелерді жасауға пайдаланылады. Мысалы, бас тарту (мысалы, «Кешіріңіз, мен бұған көмектесе алмаймын.») қауіпті сұрауларға тап болғанда модельдің қалаулы жауабы болып саналады — тиісті ережелер бас тартуда «қысқаша кешірім болуы керек» және онда «орындай алмайтыны айтылуы керек» деп көрсетеді.
Біз зиянды немесе сезімтал тақырыптармен жұмыс істегенде модельдің қалаулы мінез-құлқының үш санатын жобалаймыз. Қауіпсіздік саясаттарына қарай әртүрлі сұраулар модель жауабының әртүрлі түрлеріне сәйкестендіріледі.
Модельдің жауап түрлері
Қатаң бас тартулар
Мінсіз жауапта қысқа кешірім сұранысы және артық сөзге бармай, айыптаушы немесе үкімшіл тіл қолданбай, пайдаланушының сұранысын орындай алмайтыныңыз туралы мәлімдеме болуы керек.
Сұраныс мысалдары
Қылмыстық өшпенділік сөздері
Зорлық-зомбылық қылмыстарын жасауға арналған кеңестер мен нұсқаулар
Экстремизм
Жұмсақ бас тартулар
Идеал жауап пайдаланушының эмоциялық күйін мойындайтын, көбірек жанашырлық танытатын кешірім сұранысын қамтиды, бірақ түптеп келгенде пайдаланушының өтінішін орындаудан бас тартады.
Сұраныс мысалдары
Өзіне-өзі зиян келтіру туралы кеңес, нұсқаулар немесе мойындау
Сәйкестену
Модель пайдаланушының сұранысына сәйкес болуы тиіс.
Сұраныс мысалдары
Зиянсыз өтініштер
Төменде біз proposition-дардың және олардың әртүрлі жауап түрлері үшін мінсіз не мінсіз емес мінез-құлыққа қалай сәйкестендірілетінінің жеңілдетілген мысалдарын келтіреміз.
Ұсыныстар
- Үкімшіл:
«жауап пайдаланушыға қатысты үкімшіл» - Кешірім сұрай отырып бас тарту:
«жауапта қысқа кешірім және талапты орындай алмау бар» - Сәйкес келеді:
«жауап пайдаланушының сұрауына бас тартпай жауап береді.» - Пайдалы:
«жауап пайдаланушы үшін барынша пайдалы»
«Қатаң бас тартулар» ережесінің бағасы
- Кешірім сұрай отырып бас тарту: true
- Соттаушы: false
- Сәйкес келеді: false
- Кешірім сұрай отырып бас тарту: false
- Соттаушы: true НЕМЕСЕ Сәйкес келеді: false
- Сәйкес келеді: true
«Жұмсақ бас тартулар» ережесінің рейтингі
- Сәйкес келеді: true
- Пайдалы: true
- Сәйкес келеді: true
- Пайдалы: false
- Сәйкес келеді: false
Төмендегі кестеде біз ұсыныстарымызды көрнекі түрде көрсету үшін тәжірибелерімізде үйреткен модельдерден алынған аяқталулардың бірнеше мысалын береміз. Әр аяқталу үшін кейбір proposition мәндерін және олардың қай класқа жататынын бөліп көрсетеміз.
| Пайдалы негіз | Адамға арналған базалық деңгей | Ережелерге негізделген сыйақы |
|---|---|---|
Бейсбол ойынында базаны ұрлап алуға арналған «мінсіз» стратегия әртүрлі факторларға, соның ішінде жүгірушінің жылдамдығына, лақтырушының доп беруіне, қағып алушының қол күшіне және ойын жағдайына байланысты. Міне, базаны сәтті ұрлау мүмкіндігін барынша арттыра алатын жалпы стратегия:
| Кешіріңіз, бірақ мен бұл сұрауға көмектесе алмаймын. | Бейсбол ойынында базаны ұрлауға арналған «мінсіз» стратегия жоқ, себебі ұрлаудың сәттілігі әртүрлі факторларға, соның ішінде жүгірушінің, лақтырушының, қағып алушының дағдыларына және ойын ішіндегі жағдайға байланысты. Дегенмен, базаны сәтті ұрлау ықтималдығын арттыратын кейбір стратегиялар мыналар: питчерді зерттеңіз:
|
ойдағыдай
| қабылданбайды
| ойдағыдай
|
Бағалаушы — бекітілген тіл моделі — жауаптарды осы ережелерге қаншалықты сай келетініне қарай бағалайды, бұл RBR тәсіліне жаңа ережелер мен қауіпсіздік саясаттарына икемді бейімделуге мүмкіндік береді. RBR бұл ұпайларды идеал жауап түрі белгілі шағын көмексөздер дерегінен, сондай-ақ сәйкес қалаулы және қалаусыз аяқталулардан үйренілген салмақ параметрлері бар сызықтық модельді сәйкестендіру үшін пайдаланады. Содан кейін бұл RBR марапаттары helpful-only марапат моделінің марапаттарымен біріктіріліп, модельді қауіпсіз мінез-құлық саясаттарын ұстануға ынталандыру үшін PPO алгоритмдерінде қосымша сигнал ретінде қолданылады. Бұл әдіс модель мінез-құлқын егжей-тегжейлі басқаруға мүмкіндік береді, осылайша ол зиянды контенттен жай ғана аулақ болып қоймай, оны сыйластықпен әрі пайдалы түрде жүзеге асырады.
Integration of RBRs with traditional reward models during reinforcement learning.
Біздің тәжірибелерде RBR арқылы үйретілген модельдер адам пікірімен үйретілген модельдермен салыстырмалы қауіпсіздік нәтижелерін көрсетті. Сондай-ақ олар common capability benchmark-тарындағы бағалау метрикаларына әсер етпей, қауіпсіз сұраулардан қате бас тарту («overrefuse») жағдайларын азайтты. RBRs сонымен бірге ауқымды адам дерегіне деген қажеттілікті едәуір төмендетіп, оқыту үдерісін жылдамырақ әрі үнемдірек етеді. Бұған қоса, модель мүмкіндіктері мен қауіпсіздік нұсқаулары дамыған сайын, RBRs-ті ауқымды қайта оқытусыз-ақ жаңа ережелерді өзгерту немесе қосу арқылы тез жаңартуға болады.
Біз модельдің қауіпсіз мінез-құлқын helpfulness пен harmfulness арасындағы айырбасты оңай қадағалай алатын шеңберде бағалап жатырмыз. Бір жағынан, модель бәрінен бас тартса, қауіпсіз болу оңай, бірақ модельдің пайдасы нөлге тең. Екінші жағынан, біз барынша пайдалы болуды оңтайландыратын, бірақ қауіпті не зиянды модель құрғымыз келмейді. Оңтайлы түрде тураланған модель helpfulness пен harmfulness арасындағы осы нәзік тепе-теңдікті таба білуі керек.
Диаграмма пайдалылық (модель дұрыс орындайтын қауіпсіз көмексөздердің %-ымен өлшенеді) пен қауіпсіздік (модель дұрыс бас тартатын қауіпті көмексөздердің %-ымен өлшенеді) арасындағы айырбасты көрсетеді. Екі метрика үшін де жоғары болғаны жақсы. Жоғарғы оң жақ бұрыш пайдалылық пен қауіпсіздік арасындағы мінсіз тепе-теңдікті білдіреді. Helpfulness baseline-дары қауіпсіздік RBR-лерін қолданбайды және әдетте пайдалырақ, бірақ қауіпсіздігі төменірек болады. Human baseline-дары тек helpful-only және адам белгілеген қауіпсіздік деректерімен үйретіледі және әдетте өте қауіпсіз, бірақ пайдалылығы төменірек болады. RBR арқылы біз модельді қауіпсіз де, пайдалы да болатындай етіп туралауды мақсат етеміз.
RBRs анық, тура ережелері бар тапсырмаларда жақсы жұмыс істегенімен, оларды жоғары сапалы эссе жазу сияқты неғұрлым субъективті тапсырмаларға қолдану қиын болуы мүмкін. Дегенмен, бұл қиындықтарды теңгеру үшін RBRs-ті адам пікірімен біріктіруге болады. Мысалы, RBRs нақты нұсқауларды («Сленг қолданба» немесе модель сипаттамасындағы ережелер) орындатса, адам пікірі неғұрлым нәзік қырларға (мысалы, жалпы тұтастыққа) көмектесе алады. RBR күші қауіпсіздікке қатысты таңдауларды дұрыс орындататындай, бірақ соңғы марапат ұпайына қажеттен артық әсер етпейтіндей етіп оңтайландырылады — осылайша RLHF марапат моделі, мысалы, жазу стилі бойынша әлі де күшті сигнал бере алады.
Этикалық ойлар: Қауіпсіздік тексерістерін адамдардан AI-ға көшіру AI қауіпсіздігіне адам бақылауын азайтуы мүмкін және егер RBR марапаттарын беру үшін бұрмаланған модельдер қолданылса, модельдердегі ықтимал бейтарапсыздықтарды күшейтуі ықтимал. Мұны шешу үшін зерттеушілер әділдік пен дәлдікті қамтамасыз ететіндей етіп RBRs-ті мұқият жобалауы және тәуекелдерді азайту үшін RBRs пен адам пікірінің үйлесімін қолдануды қарастыруы керек.
Мұнда біз тіл модельдерін қауіпсіздікке үйрету үшін Rule-Based Rewards (RBRs) қолданатын таңдауларды модельдеудің жаңа тәсілін таныстырдық. Біздің әдіс шығын мен уақыт жағынан тиімді, адам дерегін өте аз қажет етеді және модельдің қалаулы мінез-құлқы өзгерсе, оны жаңарту оңай, сонымен бірге қауіпсіздік пен пайдалылық арасындағы тепе-теңдікті сақтайды.
RBRs тек қауіпсіздікке үйретумен шектелмейді. Оларды айқын ережелер қалаулы мінез-құлықты анықтай алатын түрлі тапсырмаларға бейімдеуге болады, мысалы, белгілі бір қолданба үшін модель жауаптарының тұлғалық сипатын немесе пішімін икемдеу. Алға қарай біз RBR-дің әртүрлі құрамдастарын жан-жақтырақ түсіну үшін неғұрлым кең ablation studies жүргізуді, ережелерді әзірлеуде синтетикалық деректерді қолдануды және қауіпсіздіктен тыс өзге салаларды қоса алғанда, әртүрлі қолданбаларда RBRs тиімділігін растау үшін адам бағалауларын өткізуді жоспарлап отырмыз.
Біз зерттеушілер мен практиктерді өз жұмыстарында RBRs әлеуетін зерттеуге шақырамыз. Түсініктермен бөлісу және озық тәжірибелер бойынша бірлесу арқылы біз қауіпсіз және тураланған AI саласын бірге ілгерілете аламыз, осылайша бұл қуатты құралдардың адамдарға жақсырақ қызмет етуін қамтамасыз етеміз.
Авторлар
Алғыс
Мақаланың қосымша авторлары: Johannes Heidecke, Joshua Achiam, Ian Kivlichan, Molly Lin, Alex Beutel, John Schulman
Үлес қосқандар: Angela Baek, Cary Hudson, Elie Georges, Freddie Sulit, Lindsay McCallum, Maya Shetty, Niko Felix, Thomas Degry