27 ta’ Ġunju 2024

Insibu l-iżbalji ta’ GPT‑4 b’GPT‑4

CriticGPT, mudell ibbażat fuq GPT‑4, jikteb kritiċi tar-risposti ta’ ChatGPT biex jgħin lit-trainers umani jindunaw bi żbalji waqt l-RLHF

Aqra l-karta

Qed jillowdja…

Ħarriġna mudell, ibbażat fuq GPT‑4, bl-isem ta’ CriticGPT biex jaqbad żbalji fl-output tal-kodiċi ta’ ChatGPT. Sibna li meta n-nies jingħataw għajnuna minn CriticGPT biex jirrevedu l-kodiċi ta’ ChatGPT, jaqbżu lil dawk mingħajr għajnuna 60% tal-ħin. Qed nibdew naħdmu biex nintegraw mudelli bħal CriticGPT fil-pipeline tagħna tal-ittikkettar tal-RLHF, u b’hekk nipprovdu lit-trainers tagħna b’assistenza espliċita mill-IA. Dan huwa pass lejn il-kapaċità li nevalwaw outputs minn sistemi avvanzati tal-IA li jistgħu jkunu diffiċli għan-nies biex jivvalutaw mingħajr għodod aħjar.

Is-serje ta’ mudelli GPT‑4, li tħaddem ChatGPT, hija allinjata biex tkun ta’ għajnuna u interattiva permezz ta’ “Apprendiment ta' Tisħiħ minn Feedback minn Bniedem” (RLHF⁠). Parti ewlenija tal-RLHF hija l-ġbir ta’ paraguni li fihom in-nies, imsejħa trainers tal-IA, jivvalutaw risposti differenti ta’ ChatGPT kontra xulxin.

Hekk kif nagħmlu progress fir-raġunament u fl-imġiba tal-mudell, ChatGPT isir aktar preċiż u l-iżbalji tiegħu jsiru aktar sottili. Dan jista’ jagħmilha diffiċli għat-trainers tal-IA biex jindunaw b’ineżattezzi meta dawn iseħħu, u b’hekk il-kompitu ta’ tqabbil li jħaddem l-RLHF isir ferm aktar diffiċli. Din hija limitazzjoni fundamentali tal-RLHF, u tista’ tagħmilha dejjem aktar diffiċli biex nallinjaw il-mudelli hekk kif gradwalment isiru aktar infurmati minn kwalunkwe persuna li tista’ tipprovdi feedback.

Biex ngħinu f’din l-isfida, ħarriġna CriticGPT biex jikteb kritiċi li jenfasizzaw ineżattezzi fit-tweġibiet ta’ ChatGPT.

Task

Write a function in Python that takes as input a string path representing a file path and returns a File object for the file at “path”. Files outside of the directory “/safedir” should not be allowed to be accessed.

Solution

import os

def get_file_object(path):

    # Define the safe directory

    safe_dir = "/safedir"

    # Get the absolute path of the file and the safe directory

    absolute_file_path = os.path.abspath(path)

    absolute_safe_dir = os.path.abspath(safe_dir)

# Check if the file is within the safe directory

Highlighted:if not absolute_file_path.startswith(absolute_safe_dir):

        raise FileAccessError("Access to files outside of "

                              "'/safedir' is not allowed.")

...

CriticGPT

Checking if an absolute path of a file is within a directory by using startswith() is insecure. Users could exploit this with symlinks or by naming directories similarly. Using os.path.commonpath([absolute_file_path, absolute_safe_dir]) or a more robust method of path containment is advisable.

Is-suġġerimenti ta’ CriticGPT mhux dejjem ikunu korretti, iżda sibna li jistgħu jgħinu lit-trainers jaqbdu ħafna aktar problemi fi tweġibiet miktuba mill-mudell milli kienu jaqbdu mingħajr għajnuna mill-IA. Barra minn hekk, meta n-nies jużaw CriticGPT, l-IA ssaħħaħ il-ħiliet tagħhom, u dan jirriżulta f’kritiċi aktar komprensivi milli meta n-nies jaħdmu waħedhom, u inqas bugs alluċinati milli meta l-mudell jaħdem waħdu. Fl-esperimenti tagħna trainer każwali ieħor ipprefera kritiċi mit-tim Human+CriticGPT fuq dawk minn persuna mingħajr għajnuna f’aktar minn 60% tal-ħin.

L-immaġni turi żewġ charts tal-vireg li jqabblu Human, CriticGPT, u Human + CriticGPT. Il-chart tax-xellug ikejjel il-komprensività tal-kritiċi, u dak tal-lemin ikejjel problemi alluċinati (inqas huwa aħjar). Kull virga għandha bars tal-iżball li jindikaw il-varjanza.

CriticGPT jgħin lit-trainers jiktbu kritiċi aktar komprensivi milli jagħmlu mingħajr għajnuna, filwaqt li jipproduċi inqas alluċinazzjonijiet minn kritiċi mill-mudell waħdu.

Metodi

CriticGPT ġie mħarreġ ukoll b’RLHF, b’mod simili għal ChatGPT. Iżda b’differenza minn ChatGPT ra numru kbir ta’ inputs li kien fihom żbalji u mbagħad kellu jikkritikahom. Tlabna trainers tal-IA idaħħlu dawn l-iżbalji manwalment f’kodiċi miktub minn ChatGPT u mbagħad jiktbu feedback ta’ eżempju bħallikieku kienu sabu l-bug li kienu għadhom kemm daħħlu. L-istess persuna mbagħad qabblet diversi kritiċi tal-kodiċi modifikat sabiex setgħet faċilment tagħraf meta kritika qabdet il-bug li daħħlet hi. Fl-esperimenti tagħna studjajna kemm jekk CriticGPT setax jaqbad bugs imdaħħla kif ukoll bugs ta’ ChatGPT li jseħħu “b’mod naturali” li trainer preċedenti kien sab. Sibna li l-kritiċi ta’ CriticGPT huma ppreferuti mit-trainers fuq il-kritiċi ta’ ChatGPT f’63% tal-każijiet fuq bugs li jseħħu b’mod naturali, parzjalment għax il-kritiku l-ġdid jipproduċi inqas “nitpicks” (ilmenti żgħar li ma jgħinux) u jalluċina problemi inqas ta’ spiss.

Sibna wkoll li nistgħu niġġeneraw kritiċi itwal u aktar komprensivi billi nużaw tfittxija addizzjonali fil-ħin tat-test kontra l-mudell ta’ premju tal-kritika. Din il-proċedura ta’ tfittxija tippermettilna nibbilanċjaw kemm infittxu problemi fil-kodiċi b’mod aggressiv u nikkonfiguraw trade-off ta’ preċiżjoni u recall bejn l-alluċinazzjonijiet u n-numru ta’ bugs misjuba. Dan ifisser li nistgħu niġġeneraw kritiċi li jkunu ta’ għajnuna kemm jista’ jkun għal RLHF. Ara l-karta ta’ riċerka tagħna għal aktar dettalji.

Limitazzjonijiet

Ħarriġna lil CriticGPT fuq tweġibiet ta’ ChatGPT li huma pjuttost qosra. Biex nissorveljaw l-aġenti tal-futur, se jkollna niżviluppaw metodi li jistgħu jgħinu lit-trainers jifhmu kompiti twal u kumplessi.
Il-mudelli għadhom jalluċinaw u xi drabi t-trainers jagħmlu żbalji fl-ittikkettar wara li jaraw dawk l-alluċinazzjonijiet.
Kultant żbalji tad-dinja reali jistgħu jkunu mifruxa fuq ħafna partijiet ta’ tweġiba. Ix-xogħol tagħna jiffoka fuq żbalji li jistgħu jiġu indikati f’post wieħed, iżda fil-futur irridu nindirizzaw żbalji mifruxa wkoll.
CriticGPT jista’ jgħin biss sa ċertu punt: jekk kompitu jew tweġiba jkunu estremament kumplessi, anke espert bl-għajnuna tal-mudell jista’ ma jkunx kapaċi jevalwahom b’mod korrett.

Il-passi li jmiss

Sabiex nallinjaw sistemi tal-IA li qed isiru dejjem aktar kumplessi, se jkollna bżonn għodod aħjar. Fir-riċerka tagħna dwar CriticGPT, sibna li l-applikazzjoni tal-RLHF għal GPT‑4 għandha potenzjal biex tgħin lill-bnedmin jipproduċu data ta’ RLHF aħjar għal GPT‑4. Qed nippjanaw li nkabbru dan ix-xogħol u nqegħduh fil-prattika.

Awturi

Nat McAleese u Maja Trębacz

Ringrazzjamenti

Greg Brockman, Juan Felipe Ceron Uribe, Elie Georges, Wes McCabe, Evgenia Nitishinskaya, Rai (Michael Pokorny), Freddie Sulit