၂၀၂၄ ဇွန် ၂၇

GPT‑4 ဖြင့် GPT‑4 ၏ အမှားများကို ရှာဖွေခြင်း

GPT‑4 အပေါ် အခြေခံထားသော မော်ဒယ် CriticGPT သည် RLHF အတွင်း လူ့လေ့ကျင့်ပေးသူများ အမှားများကို သတိပြုမိစေရန် ChatGPT ၏ တုံ့ပြန်ချက်များကို ဝေဖန်ရေးသားပေးသည်

စာတမ်းဖတ်ရန်

ဖွင့်နေသည်…

ကျွန်ုပ်တို့သည် GPT‑4 ကို အခြေခံထားသော CriticGPT ဟုခေါ်သည့် မော်ဒယ်တစ်ခုကို ChatGPT ၏ code output ထဲက အမှားများကို ဖမ်းမိရန် လေ့ကျင့်ပေးထားပါသည်။ လူများသည် CriticGPT ၏ အကူအညီဖြင့် ChatGPT code ကို ပြန်လည်သုံးသပ်သည့်အခါ အကူအညီမရှိသူများထက် 60% သော အချိန်တွင် ပိုကောင်းစွာ ဆောင်ရွက်နိုင်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ ကျွန်ုပ်တို့သည် CriticGPT ဆန်သည့် မော်ဒယ်များကို ကျွန်ုပ်တို့၏ RLHF labeling pipeline ထဲသို့ ပေါင်းစည်းရန် အလုပ်ကို စတင်နေပြီဖြစ်ပြီး၊ လေ့ကျင့်ပေးသူများအား ရှင်းလင်းသော AI အကူအညီ ပေးသွားမည်ဖြစ်သည်။ ၎င်းသည် ပိုကောင်းသော tools များမရှိဘဲ လူများအတွက် အကဲဖြတ်ရခက်ခဲနိုင်သည့် အဆင့်မြင့် AI စနစ်များ၏ output များကို အကဲဖြတ်နိုင်ရန် ဦးတည်သည့် ခြေလှမ်းတစ်ခုဖြစ်သည်။

ChatGPT ကို စွမ်းဆောင်ပေးသော GPT‑4 စီးရီး မော်ဒယ်များသည် “လူတုံ့ပြန်မှုမှ အားဖြည့် သင်ယူလေ့လာခြင်း” (RLHF⁠) မှတစ်ဆင့် အကူအညီပေးနိုင်ပြီး အပြန်အလှန်ဆက်သွယ်နိုင်အောင် ကိုက်ညီညှိနှိုင်းထားပါသည်။ RLHF ၏ အဓိကအစိတ်အပိုင်းတစ်ခုမှာ AI trainers ဟုခေါ်သော လူများက မတူညီသော ChatGPT တုံ့ပြန်ချက်များကို တစ်ခုနှင့်တစ်ခု နှိုင်းယှဉ်အကဲဖြတ်သည့် comparison များကို စုဆောင်းခြင်းဖြစ်သည်။

ကျွန်ုပ်တို့သည် ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသောစွမ်းရည်နှင့် မော်ဒယ်၏ အပြုအမူပိုင်းတွင် တိုးတက်မှုများ ရရှိလာသလို ChatGPT သည် ပိုမိုတိကျလာပြီး ၎င်း၏ အမှားများသည် ပိုမိုသိမ်မွေ့လာသည်။ ထို့ကြောင့် အမှားများ ဖြစ်ပေါ်လာသည့်အခါ AI trainers များအတွက် မမှန်ကန်မှုများကို သတိပြုမိရန် ခက်ခဲစေနိုင်ပြီး RLHF ကို မောင်းနှင်ပေးသည့် comparison task ကို ပိုမိုခက်ခဲစေသည်။ ၎င်းသည် RLHF ၏ အခြေခံကန့်သတ်ချက်တစ်ခုဖြစ်ပြီး၊ feedback ပေးနိုင်မည့် မည်သည့်လူတစ်ဦးထက်မဆို မော်ဒယ်များသည် တဖြည်းဖြည်း ပိုမိုဗဟုသုတကြွယ်ဝလာသည့်အခါ ၎င်းတို့ကို ကိုက်ညီညှိနှိုင်းရန် ပို၍ခက်ခဲလာစေနိုင်သည်။

ဤစိန်ခေါ်မှုကို ကူညီဖြေရှင်းရန် ကျွန်ုပ်တို့သည် ChatGPT အဖြေများထဲက မမှန်ကန်မှုများကို မီးမောင်းထိုးပြသော ဝေဖန်ချက်များ ရေးရန် CriticGPT ကို လေ့ကျင့်ပေးခဲ့ပါသည်။

Task

Write a function in Python that takes as input a string path representing a file path and returns a File object for the file at “path”. Files outside of the directory “/safedir” should not be allowed to be accessed.

Solution

import os

def get_file_object(path):

    # Define the safe directory

    safe_dir = "/safedir"

    # Get the absolute path of the file and the safe directory

    absolute_file_path = os.path.abspath(path)

    absolute_safe_dir = os.path.abspath(safe_dir)

# Check if the file is within the safe directory

Highlighted:if not absolute_file_path.startswith(absolute_safe_dir):

        raise FileAccessError("Access to files outside of "

                              "'/safedir' is not allowed.")

...

CriticGPT

Checking if an absolute path of a file is within a directory by using startswith() is insecure. Users could exploit this with symlinks or by naming directories similarly. Using os.path.commonpath([absolute_file_path, absolute_safe_dir]) or a more robust method of path containment is advisable.

CriticGPT ၏ အကြံပြုချက်များသည် အမြဲတမ်း မှန်ကန်နေသည်မဟုတ်ပေမယ့်၊ AI အကူအညီမရှိဘဲ ဖြစ်မည့်အနေအထားထက် မော်ဒယ်ရေးသားသော အဖြေများထဲက ပြဿနာများကို ပိုမိုများပြားစွာ ဖမ်းမိနိုင်ရန် trainers များကို ကူညီပေးနိုင်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ ထို့ပြင် လူများသည် CriticGPT ကို အသုံးပြုသောအခါ AI က ၎င်းတို့၏ စွမ်းရည်ကို မြှင့်တင်ပေးပြီး၊ လူတစ်ဦးတည်း လုပ်ဆောင်သည့်အခါထက် ပိုမိုပြည့်စုံသော ဝေဖန်ချက်များ ရလာစေသလို၊ မော်ဒယ်တစ်ခုတည်း လုပ်ဆောင်သည့်အခါထက် စိတ်ကူးယဉ် bug များလည်း ပိုနည်းစေသည်။ ကျွန်ုပ်တို့၏ စမ်းသပ်မှုများတွင် ဒုတိယ ကျပန်းရွေးချယ်ထားသော trainer တစ်ဦးက Human+CriticGPT အဖွဲ့၏ ဝေဖန်ချက်များကို အကူအညီမရှိသော လူတစ်ဦး၏ ဝေဖန်ချက်များထက် 60% ကျော်သော အချိန်တွင် ပိုနှစ်သက်ခဲ့သည်။

ပုံတွင် Human, CriticGPT နှင့် Human + CriticGPT ကို နှိုင်းယှဉ်ထားသော ဘားဂရပ် ၂ ခုကို ပြထားသည်။ ဘယ်ဘက်ဂရပ်သည် ဝေဖန်ချက်များ၏ ပြည့်စုံမှုကို တိုင်းတာပြီး၊ ညာဘက်ဂရပ်သည် စိတ်ကူးယဉ်ပြဿနာများကို တိုင်းတာသည် (နည်းလေလေ ပိုကောင်းလေလေ)။ ဘားတစ်ခုစီတွင် ကွဲလွဲမှုကို ပြသသော error bars များ ပါရှိသည်။

CriticGPT သည် လေ့ကျင့်ရေးပေးသူများကို အကူအညီမရှိဘဲ ရေးသည့်ဝေဖန်ချက်များထက် ပိုမိုပြည့်စုံသော ဝေဖန်ချက်များ ရေးနိုင်စေပြီး၊ မော်ဒယ်တစ်ခုတည်းမှ ထွက်လာသော ဝေဖန်ချက်များထက် စိတ်ကူးယဉ်ချက်များ ပိုနည်းစေပါသည်။

နည်းလမ်းများ

CriticGPT ကိုလည်း ChatGPT နှင့် ဆင်တူစွာ RLHF ဖြင့် လေ့ကျင့်ပေးထားပါသည်။ သို့သော် ChatGPT နှင့် မတူသည်မှာ ၎င်းသည် အမှားများ ပါဝင်သော input အများအပြားကို တွေ့ခဲ့ရပြီး ထို့နောက် ၎င်းတို့ကို ဝေဖန်ရပါသည်။ ChatGPT ရေးထားသော code ထဲသို့ ထိုအမှားများကို AI trainers များက ကိုယ်တိုင်ထည့်သွင်းပြီး၊ ထို့နောက် သူတို့ကိုယ်တိုင် ထည့်ခဲ့သည့် bug ကို ဖမ်းမိခဲ့သကဲ့သို့ ဟန်ဆောင်၍ နမူနာ feedback များ ရေးရန် ကျွန်ုပ်တို့ တောင်းဆိုခဲ့သည်။ ထို့နောက် ထိုလူတစ်ယောက်ကပင် ပြုပြင်ထားသော code အပေါ် ဝေဖန်ချက်များ အများအပြားကို နှိုင်းယှဉ်ခဲ့သဖြင့် မည်သည့်ဝေဖန်ချက်က သူတို့ ထည့်သွင်းထားသော bug ကို ဖမ်းမိသည်ကို အလွယ်တကူ သိနိုင်ခဲ့သည်။ ကျွန်ုပ်တို့၏ စမ်းသပ်မှုများတွင် CriticGPT သည် ထည့်သွင်းထားသော bug များကို ဖမ်းမိနိုင်မလား၊ အပြင် “သဘာဝအလျောက် ဖြစ်ပေါ်လာသော” ယခင် trainer တစ်ဦးက ဖမ်းမိခဲ့သော ChatGPT bug များကိုပါ ဖမ်းမိနိုင်မလား ဆိုသည်ကို လေ့လာခဲ့ပါသည်။ သဘာဝအလျောက် ဖြစ်ပေါ်သော bug များအပေါ်တွင် CriticGPT ၏ ဝေဖန်ချက်များကို ChatGPT ၏ ဝေဖန်ချက်များထက် trainers များက 63% အထိ ပိုနှစ်သက်ကြသည်ကို တွေ့ရှိခဲ့ပြီး၊ အကြောင်းရင်းတစ်စိတ်တစ်ပိုင်းမှာ critic အသစ်သည် “nitpicks” (အသုံးမဝင်သော သေးငယ်သည့် အပြစ်ရှာချက်များ) ကို ပိုနည်းစွာ ထုတ်လုပ်ပြီး၊ ပြဿနာများကို စိတ်ကူးယဉ်ဖန်တီးမှုလည်း ပိုနည်းသောကြောင့် ဖြစ်သည်။

ထို့အပြင် critique reward model ကို test-time search ထပ်မံအသုံးပြုခြင်းဖြင့် ပိုရှည်ပြီး ပိုမိုပြည့်စုံသော ဝေဖန်ချက်များကို ထုတ်လုပ်နိုင်ကြောင်းလည်း တွေ့ရှိခဲ့ပါသည်။ ဤ search လုပ်ငန်းစဉ်က code ထဲရှိ ပြဿနာများကို မည်မျှတက်ကြွစွာ ရှာဖွေမည်ကို ချိန်ညှိနိုင်စေပြီး၊ စိတ်ကူးယဉ်ချက်များနှင့် တွေ့ရှိသည့် bug အရေအတွက်အကြား precision-recall trade-off ကို သတ်မှတ်နိုင်စေပါသည်။ ဆိုလိုသည်မှာ RLHF အတွက် အတတ်နိုင်ဆုံး အထောက်အကူဖြစ်သော ဝေဖန်ချက်များကို ကျွန်ုပ်တို့ ထုတ်လုပ်နိုင်သည်ဟု ဆိုလိုပါသည်။ အသေးစိတ်ပိုမိုသိရှိလိုပါက ကျွန်ုပ်တို့၏ သုတေသနစာတမ်းကို ကြည့်ပါ။

ကန့်သတ်ချက်များ

ကျွန်ုပ်တို့သည် CriticGPT ကို တိုတောင်းသော ChatGPT အဖြေများအပေါ် လေ့ကျင့်ပေးထားပါသည်။ အနာဂတ်၏ အေးဂျင့်များကို ကြီးကြပ်နိုင်ရန် လေ့ကျင့်ပေးသူများက ရှည်လျားပြီး ရှုပ်ထွေးသော လုပ်ငန်းတာဝန်များကို နားလည်စေရန် ကူညီပေးနိုင်သော နည်းလမ်းများကို ဖွံ့ဖြိုးတိုးတက်စေရန် လိုအပ်ပါမည်။
မော်ဒယ်များသည် ယခုထိ စိတ်ကူးယဉ်ချက်များ ထုတ်လုပ်နေဆဲဖြစ်ပြီး၊ တစ်ခါတစ်ရံ trainers များကလည်း ထိုစိတ်ကူးယဉ်ချက်များကို မြင်ပြီးနောက် labeling အမှားများ ပြုလုပ်တတ်ကြသည်။
တစ်ခါတစ်ရံ လက်တွေ့ကမ္ဘာရှိ အမှားများသည် အဖြေတစ်ခု၏ အစိတ်အပိုင်းများစွာအနှံ့ ပျံ့နှံ့နေတတ်သည်။ ကျွန်ုပ်တို့၏ အလုပ်သည် တစ်နေရာတည်းတွင် ထောက်ပြနိုင်သော အမှားများကို အဓိကထားသော်လည်း အနာဂတ်တွင် ပြန့်ကျဲနေသော အမှားများကိုလည်း ကိုင်တွယ်ရန် လိုအပ်ပါမည်။
CriticGPT က ကူညီနိုင်သည့် အတိုင်းအတာမှာ ကန့်သတ်ချက်ရှိပါသည် - အလုပ်တစ်ခု သို့မဟုတ် တုံ့ပြန်ချက်တစ်ခုသည် အလွန်ရှုပ်ထွေးလွန်းပါက မော်ဒယ်အကူအညီ ရရှိထားသော ကျွမ်းကျင်သူတစ်ဦးပင်လျှင် ၎င်းကို မှန်ကန်စွာ အကဲဖြတ်နိုင်မည် မဟုတ်နိုင်ပါ။

နောက်တစ်ဆင့်များ

ပိုမိုရှုပ်ထွေးလာနေသော AI စနစ်များကို ကိုက်ညီညှိနှိုင်းနိုင်ရန် ပိုမိုကောင်းမွန်သော tools များ လိုအပ်မည်ဖြစ်သည်။ CriticGPT ဆိုင်ရာ ကျွန်ုပ်တို့၏ သုတေသနတွင် GPT‑4 အပေါ် RLHF ကို အသုံးချခြင်းသည် GPT‑4 အတွက် ပိုကောင်းသော RLHF data များကို လူများက ထုတ်လုပ်နိုင်ရန် ကူညီပေးမည့် အလားအလာရှိကြောင်း တွေ့ရှိခဲ့သည်။ ကျွန်ုပ်တို့သည် ဤအလုပ်ကို ပိုမိုချဲ့ထွင်ပြီး လက်တွေ့ အသုံးချရန် စီစဉ်နေပါသည်။

စာရေးသူများ

Nat McAleeseနှင့် Maja Trębacz

ကျေးဇူးတင်လွှာ

Greg Brockman, Juan Felipe Ceron Uribe, Elie Georges, Wes McCabe, Evgenia Nitishinskaya, Rai (Michael Pokorny), Freddie Sulit