2024 ж. 27 маусым

GPT‑4 қателерін GPT‑4 арқылы табу

GPT‑4 негізіндегі CriticGPT моделі RLHF кезінде адам жаттықтырушыларға қателерді байқауға көмектесу үшін ChatGPT жауаптарына сын-пікір жазады

Мақаланы оқу

Жүктелуде…

Біз ChatGPT‑тің код шығаруындағы қателерді табуға арналған, GPT‑4 негізіндегі CriticGPT деп аталатын модельді жаттықтырдық. Адамдар ChatGPT кодын тексеруде CriticGPT көмегін алғанда, олар көмексіз жұмыс істегендерден 60% жағдайда жақсы нәтиже көрсететінін анықтадық. Біз CriticGPT тәрізді модельдерді RLHF таңбалау үдерісімізге енгізу жұмысын бастап жатырмыз, осылайша жаттықтырушыларымызға ЖИ-дің тікелей көмегін береміз. Бұл адамдарға жақсырақ құралдарсыз бағалау қиын болатын озық ЖИ жүйелерінің нәтижелерін бағалай алу жолындағы бір қадам.

ChatGPT‑ті жұмыс істететін GPT‑4 модельдер сериясы “Адам пікіріне негізделген күшейтпелі оқыту” (RLHF⁠) арқылы пайдалы және интерактив болуға үйлестірілген. RLHF-тің негізгі бөлігі — AI trainers деп аталатын адамдар әртүрлі ChatGPT жауаптарын бір-бірімен салыстырып бағалайтын салыстыруларды жинау.

Біз ой қорыту мен модель мінез-құлқында ілгерілеген сайын, ChatGPT дәлірек бола түседі, ал оның қателері барған сайын нәзік бола береді. Бұл қателер пайда болғанда, ЖИ жаттықтырушыларына дәлсіздіктерді байқауды қиындатады, соның салдарынан RLHF-ті қамтамасыз ететін салыстыру тапсырмасы әлдеқайда күрделенеді. Бұл RLHF-тің іргелі шектеуі, әрі модельдер кері байланыс бере алатын кез келген адамнан біртіндеп көбірек білетін болған сайын, оларды үйлестіру барған сайын қиындауы мүмкін.

Осы қиындыққа көмектесу үшін біз CriticGPT моделін ChatGPT жауаптарындағы дәлсіздіктерді бөліп көрсететін сын-пікірлер жазуға жаттықтырдық.

Task

Write a function in Python that takes as input a string path representing a file path and returns a File object for the file at “path”. Files outside of the directory “/safedir” should not be allowed to be accessed.

Solution

import os

def get_file_object(path):

    # Define the safe directory

    safe_dir = "/safedir"

    # Get the absolute path of the file and the safe directory

    absolute_file_path = os.path.abspath(path)

    absolute_safe_dir = os.path.abspath(safe_dir)

# Check if the file is within the safe directory

Highlighted:if not absolute_file_path.startswith(absolute_safe_dir):

        raise FileAccessError("Access to files outside of "

                              "'/safedir' is not allowed.")

...

CriticGPT

Checking if an absolute path of a file is within a directory by using startswith() is insecure. Users could exploit this with symlinks or by naming directories similarly. Using os.path.commonpath([absolute_file_path, absolute_safe_dir]) or a more robust method of path containment is advisable.

CriticGPT ұсыныстары әрдайым дұрыс бола бермейді, бірақ олардың жаттықтырушыларға модель жазған жауаптардағы мәселелерді ЖИ көмегінсіз байқайтынан әлдеқайда көбірек табуға көмектесетінін анықтадық. Бұған қоса, адамдар CriticGPT қолданғанда, ЖИ олардың дағдыларын толықтырады, соның нәтижесінде адамдар жалғыз жұмыс істегенге қарағанда жан-жақтырақ сын-пікірлер және модель жалғыз жұмыс істегенге қарағанда азырақ ойдан шығарылған қателер алынады. Біздің тәжірибелерде екінші кездейсоқ таңдалған жаттықтырушы Human+CriticGPT тобының сын-пікірлерін көмексіз адамның сын-пікірлерінен 60%-дан астам жағдайда артық көрді.

Суретте Human, CriticGPT және Human + CriticGPT салыстырылған екі бағандық диаграмма көрсетілген. Сол жақ диаграмма сын-пікірлердің жан-жақтылығын, ал оң жақ диаграмма ойдан шығарылған қателерді өлшейді (төмен болғаны жақсы). Әр бағанда вариацияны көрсететін қате сызықтары бар.

CriticGPT жаттықтырушыларға көмексіз жазғанына қарағанда анағұрлым жан-жақты сын-пікірлер жазуға көмектеседі, әрі тек модельдің өзі жасаған сын-пікірлерге қарағанда азырақ галлюцинация тудырады.

Әдістер

CriticGPT те ChatGPT сияқты RLHF әдісімен жаттықтырылды. Бірақ ChatGPT‑тен айырмашылығы, ол қателері бар көптеген кірістерді көріп, кейін соларға сын жазуы керек болды. Біз ЖИ жаттықтырушыларынан ChatGPT жазған кодқа осы қателерді қолмен енгізуді, содан кейін өздері жаңа ғана енгізген қатені байқағандай болып, солай істегендей үлгі пікір жазуды сұрадық. Кейін сол адам өзгертілген кодқа берілген бірнеше сын-пікірді салыстырды, сондықтан сын-пікір олардың енгізген қатесін қашан тапқанын оңай ажырата алды. Тәжірибелерімізде біз CriticGPT енгізілген қателерді де, алдыңғы жаттықтырушы байқаған “табиғи түрде кездесетін” ChatGPT қателерін де таба ала ма, соны зерттедік. Табиғи түрде кездесетін қателер бойынша жағдайлардың 63%-ында жаттықтырушылар ChatGPT сын-пікірлерінен гөрі CriticGPT сын-пікірлерін жөн көретінін анықтадық. Мұның бір себебі — жаңа сыншы пайдасыз ұсақ ескертпелерді азырақ жасап, проблемаларды сирегірек ойдан шығарады.

Сондай-ақ сынға арналған сыйақы моделіне қосымша тест кезіндегі іздеуді қолдану арқылы ұзағырақ әрі жан-жақты сын-пікірлер жасай алатынымызды анықтадық. Бұл іздеу рәсімі кодтағы мәселелерді қаншалық агрессивті іздейтінімізді теңшеуге және галлюцинациялар мен табылған қателер саны арасындағы дәлдік-толықтық тепе-теңдігін баптауға мүмкіндік береді. Бұл RLHF үшін барынша пайдалы сын-пікірлер жасауға болатынын білдіреді. Толығырақ ақпаратты зерттеу мақаламыздан қараңыз.

Шектеулер

Біз CriticGPT моделін әжептәуір қысқа ChatGPT жауаптарында жаттықтырдық. Болашақтың агенттерін қадағалау үшін жаттықтырушыларға ұзақ әрі күрделі тапсырмаларды түсінуге көмектесетін әдістерді әзірлеуіміз керек.
Модельдер әлі де галлюцинация жасайды, ал кейде жаттықтырушылар сол галлюцинацияларды көргеннен кейін таңбалау қателерін жібереді.
Кейде шынайы әлемдегі қателер жауаптың көптеген бөлігіне шашырап кетуі мүмкін. Біздің жұмыс бір жерден көрсетуге болатын қателерге бағытталған, бірақ болашақта шашыраңқы қателерді де шешуіміз керек.
CriticGPT көмегі шектеулі: егер тапсырма не жауап өте күрделі болса, тіпті модель көмегін алған сарапшының өзі оны дұрыс бағалай алмауы мүмкін.

Келесі қадамдар

Барған сайын күрделене түсетін ЖИ жүйелерін үйлестіру үшін бізге жақсырақ құралдар қажет болады. CriticGPT туралы зерттеуімізде RLHF-ті GPT‑4‑ке қолданудың адамдарға GPT‑4 үшін сапалырақ RLHF деректерін жасауға көмектесетін әлеуеті бар екенін анықтадық. Біз бұл жұмысты одан әрі ауқымдап, іс жүзінде қолдануды жоспарлап отырмыз.

Авторлар

Nat McAleese және Maja Trębacz

Алғыс

Greg Brockman, Juan Felipe Ceron Uribe, Elie Georges, Wes McCabe, Evgenia Nitishinskaya, Rai (Michael Pokorny), Freddie Sulit