Insibu l-iżbalji ta’ GPT‑4 b’GPT‑4
CriticGPT, mudell ibbażat fuq GPT‑4, jikteb kritiċi tar-risposti ta’ ChatGPT biex jgħin lit-trainers umani jindunaw bi żbalji waqt l-RLHF
Ħarriġna mudell, ibbażat fuq GPT‑4, bl-isem ta’ CriticGPT biex jaqbad żbalji fl-output tal-kodiċi ta’ ChatGPT. Sibna li meta n-nies jingħataw għajnuna minn CriticGPT biex jirrevedu l-kodiċi ta’ ChatGPT, jaqbżu lil dawk mingħajr għajnuna 60% tal-ħin. Qed nibdew naħdmu biex nintegraw mudelli bħal CriticGPT fil-pipeline tagħna tal-ittikkettar tal-RLHF, u b’hekk nipprovdu lit-trainers tagħna b’assistenza espliċita mill-IA. Dan huwa pass lejn il-kapaċità li nevalwaw outputs minn sistemi avvanzati tal-IA li jistgħu jkunu diffiċli għan-nies biex jivvalutaw mingħajr għodod aħjar.
Is-serje ta’ mudelli GPT‑4, li tħaddem ChatGPT, hija allinjata biex tkun ta’ għajnuna u interattiva permezz ta’ “Apprendiment ta' Tisħiħ minn Feedback minn Bniedem” (RLHF). Parti ewlenija tal-RLHF hija l-ġbir ta’ paraguni li fihom in-nies, imsejħa trainers tal-IA, jivvalutaw risposti differenti ta’ ChatGPT kontra xulxin.
Hekk kif nagħmlu progress fir-raġunament u fl-imġiba tal-mudell, ChatGPT isir aktar preċiż u l-iżbalji tiegħu jsiru aktar sottili. Dan jista’ jagħmilha diffiċli għat-trainers tal-IA biex jindunaw b’ineżattezzi meta dawn iseħħu, u b’hekk il-kompitu ta’ tqabbil li jħaddem l-RLHF isir ferm aktar diffiċli. Din hija limitazzjoni fundamentali tal-RLHF, u tista’ tagħmilha dejjem aktar diffiċli biex nallinjaw il-mudelli hekk kif gradwalment isiru aktar infurmati minn kwalunkwe persuna li tista’ tipprovdi feedback.
Biex ngħinu f’din l-isfida, ħarriġna CriticGPT biex jikteb kritiċi li jenfasizzaw ineżattezzi fit-tweġibiet ta’ ChatGPT.
Task
Solution
import os def get_file_object(path): # Define the safe directory safe_dir = "/safedir" # Get the absolute path of the file and the safe directory absolute_file_path = os.path.abspath(path) absolute_safe_dir = os.path.abspath(safe_dir) # Check if the file is within the safe directory Highlighted:if not absolute_file_path.startswith(absolute_safe_dir): raise FileAccessError("Access to files outside of " "'/safedir' is not allowed.")...CriticGPT
Is-suġġerimenti ta’ CriticGPT mhux dejjem ikunu korretti, iżda sibna li jistgħu jgħinu lit-trainers jaqbdu ħafna aktar problemi fi tweġibiet miktuba mill-mudell milli kienu jaqbdu mingħajr għajnuna mill-IA. Barra minn hekk, meta n-nies jużaw CriticGPT, l-IA ssaħħaħ il-ħiliet tagħhom, u dan jirriżulta f’kritiċi aktar komprensivi milli meta n-nies jaħdmu waħedhom, u inqas bugs alluċinati milli meta l-mudell jaħdem waħdu. Fl-esperimenti tagħna trainer każwali ieħor ipprefera kritiċi mit-tim Human+CriticGPT fuq dawk minn persuna mingħajr għajnuna f’aktar minn 60% tal-ħin.
CriticGPT jgħin lit-trainers jiktbu kritiċi aktar komprensivi milli jagħmlu mingħajr għajnuna, filwaqt li jipproduċi inqas alluċinazzjonijiet minn kritiċi mill-mudell waħdu.
CriticGPT ġie mħarreġ ukoll b’RLHF, b’mod simili għal ChatGPT. Iżda b’differenza minn ChatGPT ra numru kbir ta’ inputs li kien fihom żbalji u mbagħad kellu jikkritikahom. Tlabna trainers tal-IA idaħħlu dawn l-iżbalji manwalment f’kodiċi miktub minn ChatGPT u mbagħad jiktbu feedback ta’ eżempju bħallikieku kienu sabu l-bug li kienu għadhom kemm daħħlu. L-istess persuna mbagħad qabblet diversi kritiċi tal-kodiċi modifikat sabiex setgħet faċilment tagħraf meta kritika qabdet il-bug li daħħlet hi. Fl-esperimenti tagħna studjajna kemm jekk CriticGPT setax jaqbad bugs imdaħħla kif ukoll bugs ta’ ChatGPT li jseħħu “b’mod naturali” li trainer preċedenti kien sab. Sibna li l-kritiċi ta’ CriticGPT huma ppreferuti mit-trainers fuq il-kritiċi ta’ ChatGPT f’63% tal-każijiet fuq bugs li jseħħu b’mod naturali, parzjalment għax il-kritiku l-ġdid jipproduċi inqas “nitpicks” (ilmenti żgħar li ma jgħinux) u jalluċina problemi inqas ta’ spiss.
Sibna wkoll li nistgħu niġġeneraw kritiċi itwal u aktar komprensivi billi nużaw tfittxija addizzjonali fil-ħin tat-test kontra l-mudell ta’ premju tal-kritika. Din il-proċedura ta’ tfittxija tippermettilna nibbilanċjaw kemm infittxu problemi fil-kodiċi b’mod aggressiv u nikkonfiguraw trade-off ta’ preċiżjoni u recall bejn l-alluċinazzjonijiet u n-numru ta’ bugs misjuba. Dan ifisser li nistgħu niġġeneraw kritiċi li jkunu ta’ għajnuna kemm jista’ jkun għal RLHF. Ara l-karta ta’ riċerka tagħna għal aktar dettalji.
- Ħarriġna lil CriticGPT fuq tweġibiet ta’ ChatGPT li huma pjuttost qosra. Biex nissorveljaw l-aġenti tal-futur, se jkollna niżviluppaw metodi li jistgħu jgħinu lit-trainers jifhmu kompiti twal u kumplessi.
- Il-mudelli għadhom jalluċinaw u xi drabi t-trainers jagħmlu żbalji fl-ittikkettar wara li jaraw dawk l-alluċinazzjonijiet.
- Kultant żbalji tad-dinja reali jistgħu jkunu mifruxa fuq ħafna partijiet ta’ tweġiba. Ix-xogħol tagħna jiffoka fuq żbalji li jistgħu jiġu indikati f’post wieħed, iżda fil-futur irridu nindirizzaw żbalji mifruxa wkoll.
- CriticGPT jista’ jgħin biss sa ċertu punt: jekk kompitu jew tweġiba jkunu estremament kumplessi, anke espert bl-għajnuna tal-mudell jista’ ma jkunx kapaċi jevalwahom b’mod korrett.
Sabiex nallinjaw sistemi tal-IA li qed isiru dejjem aktar kumplessi, se jkollna bżonn għodod aħjar. Fir-riċerka tagħna dwar CriticGPT, sibna li l-applikazzjoni tal-RLHF għal GPT‑4 għandha potenzjal biex tgħin lill-bnedmin jipproduċu data ta’ RLHF aħjar għal GPT‑4. Qed nippjanaw li nkabbru dan ix-xogħol u nqegħduh fil-prattika.
Awturi
Ringrazzjamenti
Greg Brockman, Juan Felipe Ceron Uribe, Elie Georges, Wes McCabe, Evgenia Nitishinskaya, Rai (Michael Pokorny), Freddie Sulit