GPT‑4‑өөр GPT‑4‑ийн алдааг олох нь
GPT‑4 дээр суурилсан CriticGPT загвар нь RLHF-ийн үеэр хүний сургагчдад алдаа илрүүлэхэд туслахын тулд ChatGPT‑ийн хариунуудад шүүмж бичдэг
Бид GPT‑4 дээр суурилсан, CriticGPT нэртэй загварыг ChatGPT‑ийн кодын гаралтад буй алдааг барихад зориулан сургасан. Хүмүүс ChatGPT‑ийн кодыг шалгахдаа CriticGPT‑ээс тусламж авах үед тусламжгүй хүмүүсээс 60% тохиолдолд илүү сайн ажиллаж байгааг бид олсон. Бид CriticGPT‑тэй төстэй загваруудыг RLHF шошгололтын дамжлагад нэгтгэж, сургагчдадаа ил тод AI туслалцаа үзүүлэх ажлыг эхлүүлж байна. Энэ нь илүү сайн хэрэгсэлгүйгээр үнэлэхэд хүнд байж болох дэвшилтэт AI системүүдийн гаралтыг үнэлэх боломж руу хийж буй нэг алхам юм.
ChatGPT‑ийг ажиллуулдаг GPT‑4 цуврал загварууд нь “Хүний санал хүсэлтээс бататган суралцах” (RLHF) аргаар тусархаг, харилцан ажиллагаатай байхаар нийцүүлэгдсэн. RLHF-ийн нэг чухал хэсэг нь AI сургагч гэж нэрлэгддэг хүмүүс өөр өөр ChatGPT хариуг хооронд нь үнэлдэг харьцуулалтуудыг цуглуулах явдал юм.
Бид сэтгэн бодох чадвар болон загварын зан төлөвт ахиц гаргах тусам ChatGPT илүү үнэн зөв болж, алдаанууд нь улам нарийн болдог. Ингэснээр алдаа бодитоор гарсан үед AI сургагчдад түүнийг илрүүлэхэд хэцүү болж, RLHF-ийг хөдөлгөдөг харьцуулалтын даалгаврыг илүү хүнд болгодог. Энэ нь RLHF-ийн суурь хязгаарлалт бөгөөд загварууд санал хүсэлт өгч чадах ямар ч хүнээс аажмаар илүү мэдлэгтэй болох тусам тэдгээрийг нийцүүлэх нь улам бүр хэцүү болж магадгүй.
Энэ сорилтыг даван туулахад туслахын тулд бид CriticGPT-ийг ChatGPT‑ийн хариун дахь алдаатай хэсгүүдийг тодруулсан шүүмж бичихээр сургасан.
Task
Solution
import os def get_file_object(path): # Define the safe directory safe_dir = "/safedir" # Get the absolute path of the file and the safe directory absolute_file_path = os.path.abspath(path) absolute_safe_dir = os.path.abspath(safe_dir) # Check if the file is within the safe directory Highlighted:if not absolute_file_path.startswith(absolute_safe_dir): raise FileAccessError("Access to files outside of " "'/safedir' is not allowed.")...CriticGPT
CriticGPT‑ийн санал болгосон зүйлс үргэлж зөв байдаггүй ч AI тусламжгүй үедээ бодвол загварын бичсэн хариун дахь илүү олон асуудлыг илрүүлэхэд сургагчдад тусалж чаддагийг бид олсон. Нэмж хэлэхэд, хүмүүс CriticGPT‑ийг ашиглахад AI нь тэдний ур чадварыг нэмэгдүүлж, хүмүүс ганцаараа ажиллах үеэс илүү бүрэн шүүмж, харин загвар ганцаараа ажиллах үеэс цөөн хийсвэрлэсэн алдаа гаргадаг. Манай туршилтад хоёр дахь санамсаргүй сургагч нь Human+CriticGPT багийн шүүмжийг тусламжгүй хүнийхээс 60%-иас дээш тохиолдолд илүүд үзсэн.
CriticGPT нь сургагчдад тусламжгүй үеэс илүү бүрэн шүүмж бичихэд тусалж, зөвхөн загвараас гарсан шүүмжтэй харьцуулахад цөөн хийсвэрлэл гаргадаг.
CriticGPT нь ChatGPT‑тэй адил Хүний санал хүсэлтээс бататган суралцах (RLHF)-аар мөн сургагдсан. Гэхдээ ChatGPT‑ээс ялгаатай нь алдаа агуулсан маш олон оролтыг үзээд, дараа нь тэдгээрийг шүүмжлэх ёстой байсан. Бид AI сургагчдаас ChatGPT‑ийн бичсэн кодод эдгээр алдааг гараар оруулж, дараа нь өөрсдөө оруулсан алдааг олсон юм шиг жишээ санал хүсэлт бичихийг хүссэн. Дараа нь тухайн хүн өөрчилсөн кодын хэд хэдэн шүүмжийг харьцуулсан тул шүүмж нь өөрийн оруулсан алдааг олсон эсэхийг амархан мэдэж чадсан. Манай туршилтад CriticGPT оруулсан алдааг болон өмнөх сургагчийн олсон “байгалийн жамаар гарсан” ChatGPT‑ийн алдааг барьж чадах эсэхийг хоёуланг нь судалсан. Байгалийн жамаар гарсан алдаан дээр 63% тохиолдолд CriticGPT‑ийн шүүмжийг сургагчид ChatGPT‑ийн шүүмжээс илүүд үзсэн бөгөөд энэ нь нэг талаар шинэ шүүмжлэгч цөөн “nitpick” (ашиг багатай жижиг гомдол) гаргаж, асуудлыг хийсвэрлэн төсөөлөх нь бага байсантай холбоотой.
Мөн шүүмжийн урамшууллын загвар дээр туршилтын үеийн нэмэлт хайлт ашигласнаар илүү урт, илүү бүрэн шүүмж үүсгэж болдгийг бид олсон. Энэ хайлтын аргачлал нь код дахь асуудлыг хэр эрчимтэй хайхаа тэнцвэржүүлж, хийсвэрлэл ба илэрсэн алдааны тооны хооронд нарийвчлал-эргэн ололтын солилцоог тохируулах боломж олгодог. Энэ нь RLHF-д аль болох тустай шүүмж үүсгэж чадна гэсэн үг. Илүү дэлгэрэнгүйг манай судалгааны өгүүллээс үзнэ үү.
- Бид CriticGPT‑ийг нэлээд богино ChatGPT хариун дээр сургасан. Ирээдүйн агентуудыг хянахын тулд урт, төвөгтэй даалгаврыг ойлгоход сургагчдад туслах аргуудыг хөгжүүлэх шаардлагатай.
- Загварууд одоо ч хийсвэрлэдэг бөгөөд заримдаа сургагчид тэдгээр хийсвэрлэлийг харсны дараа шошгололтын алдаа гаргадаг.
- Заримдаа бодит ертөнцийн алдаа нь хариуны олон хэсэгт тархсан байдаг. Манай ажил нэг газарт зааж болох алдаанд төвлөрдөг ч ирээдүйд тархмал алдааг мөн шийдэх хэрэгтэй.
- CriticGPT‑ийн тус хүрээ хязгаартай: хэрэв даалгавар эсвэл хариу маш төвөгтэй бол загварын тусламжтай мэргэжилтэн ч үүнийг зөв үнэлж чадахгүй байж болно.
Илүү төвөгтэй болж буй AI системүүдийг нийцүүлэхийн тулд бидэнд илүү сайн хэрэгсэл хэрэгтэй болно. CriticGPT‑ийн талаарх судалгаандаа RLHF-ийг GPT‑4‑д хэрэглэх нь хүмүүст GPT‑4‑д зориулсан илүү сайн RLHF өгөгдөл бүтээхэд туслах боломжтойг бид олсон. Бид энэ ажлыг цаашид өргөжүүлж, практикт нэвтрүүлэхээр төлөвлөж байна.
Зохиогчид
Талархал
Greg Brockman, Juan Felipe Ceron Uribe, Elie Georges, Wes McCabe, Evgenia Nitishinskaya, Rai (Michael Pokorny), Freddie Sulit