2024 оны зургаадугаар сарын 27

GPT‑4‑өөр GPT‑4‑ийн алдааг олох нь

GPT‑4 дээр суурилсан CriticGPT загвар нь RLHF-ийн үеэр хүний сургагчдад алдаа илрүүлэхэд туслахын тулд ChatGPT‑ийн хариунуудад шүүмж бичдэг

Өгүүллийг унших

Ачаалж байна…

Бид GPT‑4 дээр суурилсан, CriticGPT нэртэй загварыг ChatGPT‑ийн кодын гаралтад буй алдааг барихад зориулан сургасан. Хүмүүс ChatGPT‑ийн кодыг шалгахдаа CriticGPT‑ээс тусламж авах үед тусламжгүй хүмүүсээс 60% тохиолдолд илүү сайн ажиллаж байгааг бид олсон. Бид CriticGPT‑тэй төстэй загваруудыг RLHF шошгололтын дамжлагад нэгтгэж, сургагчдадаа ил тод AI туслалцаа үзүүлэх ажлыг эхлүүлж байна. Энэ нь илүү сайн хэрэгсэлгүйгээр үнэлэхэд хүнд байж болох дэвшилтэт AI системүүдийн гаралтыг үнэлэх боломж руу хийж буй нэг алхам юм.

ChatGPT‑ийг ажиллуулдаг GPT‑4 цуврал загварууд нь “Хүний санал хүсэлтээс бататган суралцах” (RLHF⁠) аргаар тусархаг, харилцан ажиллагаатай байхаар нийцүүлэгдсэн. RLHF-ийн нэг чухал хэсэг нь AI сургагч гэж нэрлэгддэг хүмүүс өөр өөр ChatGPT хариуг хооронд нь үнэлдэг харьцуулалтуудыг цуглуулах явдал юм.

Бид сэтгэн бодох чадвар болон загварын зан төлөвт ахиц гаргах тусам ChatGPT илүү үнэн зөв болж, алдаанууд нь улам нарийн болдог. Ингэснээр алдаа бодитоор гарсан үед AI сургагчдад түүнийг илрүүлэхэд хэцүү болж, RLHF-ийг хөдөлгөдөг харьцуулалтын даалгаврыг илүү хүнд болгодог. Энэ нь RLHF-ийн суурь хязгаарлалт бөгөөд загварууд санал хүсэлт өгч чадах ямар ч хүнээс аажмаар илүү мэдлэгтэй болох тусам тэдгээрийг нийцүүлэх нь улам бүр хэцүү болж магадгүй.

Энэ сорилтыг даван туулахад туслахын тулд бид CriticGPT-ийг ChatGPT‑ийн хариун дахь алдаатай хэсгүүдийг тодруулсан шүүмж бичихээр сургасан.

Task

Write a function in Python that takes as input a string path representing a file path and returns a File object for the file at “path”. Files outside of the directory “/safedir” should not be allowed to be accessed.

Solution

import os

def get_file_object(path):

    # Define the safe directory

    safe_dir = "/safedir"

    # Get the absolute path of the file and the safe directory

    absolute_file_path = os.path.abspath(path)

    absolute_safe_dir = os.path.abspath(safe_dir)

# Check if the file is within the safe directory

Highlighted:if not absolute_file_path.startswith(absolute_safe_dir):

        raise FileAccessError("Access to files outside of "

                              "'/safedir' is not allowed.")

...

CriticGPT

Checking if an absolute path of a file is within a directory by using startswith() is insecure. Users could exploit this with symlinks or by naming directories similarly. Using os.path.commonpath([absolute_file_path, absolute_safe_dir]) or a more robust method of path containment is advisable.

CriticGPT‑ийн санал болгосон зүйлс үргэлж зөв байдаггүй ч AI тусламжгүй үедээ бодвол загварын бичсэн хариун дахь илүү олон асуудлыг илрүүлэхэд сургагчдад тусалж чаддагийг бид олсон. Нэмж хэлэхэд, хүмүүс CriticGPT‑ийг ашиглахад AI нь тэдний ур чадварыг нэмэгдүүлж, хүмүүс ганцаараа ажиллах үеэс илүү бүрэн шүүмж, харин загвар ганцаараа ажиллах үеэс цөөн хийсвэрлэсэн алдаа гаргадаг. Манай туршилтад хоёр дахь санамсаргүй сургагч нь Human+CriticGPT багийн шүүмжийг тусламжгүй хүнийхээс 60%-иас дээш тохиолдолд илүүд үзсэн.

Зурагт Human, CriticGPT, мөн Human + CriticGPT-ийг харьцуулсан хоёр баганан график байна. Зүүн график нь шүүмжийн бүрэн хамарцыг, баруун график нь хийсвэрлэн гаргасан асуудлуудыг (бага байх тусам сайн) хэмжинэ. Баган бүр хэлбэлзлийг илтгэх алдааны зурвастай.

CriticGPT нь сургагчдад тусламжгүй үеэс илүү бүрэн шүүмж бичихэд тусалж, зөвхөн загвараас гарсан шүүмжтэй харьцуулахад цөөн хийсвэрлэл гаргадаг.

Аргачлал

CriticGPT нь ChatGPT‑тэй адил Хүний санал хүсэлтээс бататган суралцах (RLHF)-аар мөн сургагдсан. Гэхдээ ChatGPT‑ээс ялгаатай нь алдаа агуулсан маш олон оролтыг үзээд, дараа нь тэдгээрийг шүүмжлэх ёстой байсан. Бид AI сургагчдаас ChatGPT‑ийн бичсэн кодод эдгээр алдааг гараар оруулж, дараа нь өөрсдөө оруулсан алдааг олсон юм шиг жишээ санал хүсэлт бичихийг хүссэн. Дараа нь тухайн хүн өөрчилсөн кодын хэд хэдэн шүүмжийг харьцуулсан тул шүүмж нь өөрийн оруулсан алдааг олсон эсэхийг амархан мэдэж чадсан. Манай туршилтад CriticGPT оруулсан алдааг болон өмнөх сургагчийн олсон “байгалийн жамаар гарсан” ChatGPT‑ийн алдааг барьж чадах эсэхийг хоёуланг нь судалсан. Байгалийн жамаар гарсан алдаан дээр 63% тохиолдолд CriticGPT‑ийн шүүмжийг сургагчид ChatGPT‑ийн шүүмжээс илүүд үзсэн бөгөөд энэ нь нэг талаар шинэ шүүмжлэгч цөөн “nitpick” (ашиг багатай жижиг гомдол) гаргаж, асуудлыг хийсвэрлэн төсөөлөх нь бага байсантай холбоотой.

Мөн шүүмжийн урамшууллын загвар дээр туршилтын үеийн нэмэлт хайлт ашигласнаар илүү урт, илүү бүрэн шүүмж үүсгэж болдгийг бид олсон. Энэ хайлтын аргачлал нь код дахь асуудлыг хэр эрчимтэй хайхаа тэнцвэржүүлж, хийсвэрлэл ба илэрсэн алдааны тооны хооронд нарийвчлал-эргэн ололтын солилцоог тохируулах боломж олгодог. Энэ нь RLHF-д аль болох тустай шүүмж үүсгэж чадна гэсэн үг. Илүү дэлгэрэнгүйг манай судалгааны өгүүллээс үзнэ үү.

Хязгаарлалтууд

Бид CriticGPT‑ийг нэлээд богино ChatGPT хариун дээр сургасан. Ирээдүйн агентуудыг хянахын тулд урт, төвөгтэй даалгаврыг ойлгоход сургагчдад туслах аргуудыг хөгжүүлэх шаардлагатай.
Загварууд одоо ч хийсвэрлэдэг бөгөөд заримдаа сургагчид тэдгээр хийсвэрлэлийг харсны дараа шошгололтын алдаа гаргадаг.
Заримдаа бодит ертөнцийн алдаа нь хариуны олон хэсэгт тархсан байдаг. Манай ажил нэг газарт зааж болох алдаанд төвлөрдөг ч ирээдүйд тархмал алдааг мөн шийдэх хэрэгтэй.
CriticGPT‑ийн тус хүрээ хязгаартай: хэрэв даалгавар эсвэл хариу маш төвөгтэй бол загварын тусламжтай мэргэжилтэн ч үүнийг зөв үнэлж чадахгүй байж болно.

Дараагийн алхмууд

Илүү төвөгтэй болж буй AI системүүдийг нийцүүлэхийн тулд бидэнд илүү сайн хэрэгсэл хэрэгтэй болно. CriticGPT‑ийн талаарх судалгаандаа RLHF-ийг GPT‑4‑д хэрэглэх нь хүмүүст GPT‑4‑д зориулсан илүү сайн RLHF өгөгдөл бүтээхэд туслах боломжтойг бид олсон. Бид энэ ажлыг цаашид өргөжүүлж, практикт нэвтрүүлэхээр төлөвлөж байна.

Зохиогчид

Nat McAleese, Maja Trębacz

Талархал

Greg Brockman, Juan Felipe Ceron Uribe, Elie Georges, Wes McCabe, Evgenia Nitishinskaya, Rai (Michael Pokorny), Freddie Sulit