27. јун 2024.

Pronalaženje grešaka GPT‑4 pomoću GPT‑4

CriticGPT, model zasnovan na GPT‑4, piše kritike odgovora ChatGPT‑a da bi pomogao ljudskim trenerima da uoče greške tokom RLHF-a

Pročitajte rad

Учитавање…

Obučili smo model zasnovan na GPT‑4, nazvan CriticGPT, da otkriva greške u kodu koji generiše ChatGPT. Otkrili smo da ljudi koji dobijaju pomoć od CriticGPT‑a pri pregledu ChatGPT koda nadmašuju one bez pomoći u 60% slučajeva. Počinjemo da integrišemo modele nalik CriticGPT‑u u naš RLHF proces označavanja, pružajući našim trenerima eksplicitnu AI pomoć. Ovo je korak ka mogućnosti procenjivanja izlaza naprednih AI sistema koje ljudima može biti teško da ocenjuju bez boljih alata.

Serija GPT‑4 modela, koja pokreće ChatGPT, usklađena je da bude korisna i interaktivna kroz „podstiцаjno učenje iz povratnih informacija od ljudi“ (RLHF⁠). Ključni deo RLHF-a je prikupljanje poređenja u kojima ljudi, zvani AI treneri, ocenjuju različite odgovore ChatGPT‑a jedne u odnosu na druge.

Kako napredujemo u rezonovanju i ponašanju modela, ChatGPT postaje tačniji, a njegove greške sve su suptilnije. To može otežati AI trenerima da uoče netačnosti kada se pojave, što zadatak poređenja koji pokreće RLHF čini mnogo težim. Ovo je osnovno ograničenje RLHF-a i može sve više otežavati usklađivanje modela kako oni postepeno postaju upućeniji od bilo koje osobe koja bi mogla da pruži povratne informacije.

Da bismo pomogli sa ovim izazovom, obučili smo CriticGPT da piše kritike koje ističu netačnosti u odgovorima ChatGPT‑a.

Task

Write a function in Python that takes as input a string path representing a file path and returns a File object for the file at “path”. Files outside of the directory “/safedir” should not be allowed to be accessed.

Solution

import os

def get_file_object(path):

    # Define the safe directory

    safe_dir = "/safedir"

    # Get the absolute path of the file and the safe directory

    absolute_file_path = os.path.abspath(path)

    absolute_safe_dir = os.path.abspath(safe_dir)

# Check if the file is within the safe directory

Highlighted:if not absolute_file_path.startswith(absolute_safe_dir):

        raise FileAccessError("Access to files outside of "

                              "'/safedir' is not allowed.")

...

CriticGPT

Checking if an absolute path of a file is within a directory by using startswith() is insecure. Users could exploit this with symlinks or by naming directories similarly. Using os.path.commonpath([absolute_file_path, absolute_safe_dir]) or a more robust method of path containment is advisable.

Predlozi CriticGPT‑a nisu uvek tačni, ali otkrivamo da mogu da pomognu trenerima da uoče mnogo više problema u odgovorima koje je napisao model nego što bi mogli bez AI pomoći. Dodatno, kada ljudi koriste CriticGPT, AI proširuje njihove veštine, što dovodi do sveobuhvatnijih kritika nego kada ljudi rade sami, i do manje haluciniranih bagova nego kada model radi sam. U našim eksperimentima drugi nasumično izabrani trener davao je prednost kritikama tima Human+CriticGPT u odnosu na kritike osobe bez pomoći u više od 60% slučajeva.

Slika prikazuje dva stubičasta grafikona koji porede Human, CriticGPT i Human + CriticGPT. Levi grafikon meri sveobuhvatnost kritika, a desni halucinirane probleme (niže je bolje). Svaki stubac ima trake greške koje ukazuju na varijansu.

CriticGPT pomaže trenerima da pišu sveobuhvatnije kritike nego bez pomoći, uz manje halucinacija nego u kritikama samog modela.

Metode

CriticGPT je takođe treniran pomoću RLHF-a, slično kao ChatGPT. Ali za razliku od ChatGPT‑a, video je veliki broj ulaza koji su sadržali greške koje je zatim morao da kritikuje. Zamolili smo AI trenere da ručno ubace te greške u kod koji je napisao ChatGPT, a zatim napišu primer povratne informacije kao da su uočili bag koji su upravo ubacili. Ista osoba je potom upoređivala više kritika izmenjenog koda kako bi lako mogla da prepozna kada je kritika uočila njen umetnuti bag. U našim eksperimentima proučavali smo i da li CriticGPT može da uhvati umetnute bagove i „prirodno nastale“ ChatGPT bagove koje je prethodni trener uočio. Otkrili smo da treneri daju prednost kritikama CriticGPT‑a u odnosu na kritike ChatGPT‑a u 63% slučajeva kod prirodno nastalih bagova, delom zato što novi kritičar daje manje „sitničavih zamerki“ (malih, nekorisnih primedbi) i ređe halucinira probleme.

Takođe smo otkrili da možemo da generišemo duže i sveobuhvatnije kritike korišćenjem dodatne pretrage u vreme izvršavanja nad modelom nagrade za kritiku. Ova procedura pretrage nam omogućava da uskladimo koliko agresivno tražimo probleme u kodu i podesimo kompromis između preciznosti i odziva između halucinacija i broja otkrivenih bagova. To znači da možemo da generišemo kritike koje su što korisnije za RLHF. Više detalja potražite u našem istraživačkom radu.

Ograničenja

Obučili smo CriticGPT na odgovorima ChatGPT‑a koji su prilično kratki. Da bismo nadgledali agente budućnosti, moraćemo da razvijemo metode koje mogu pomoći trenerima da razumeju duge i složene zadatke.
Modeli i dalje haluciniraju, a treneri ponekad prave greške u označavanju nakon što vide te halucinacije.
Ponekad se greške iz stvarnog sveta mogu prostirati kroz mnogo delova odgovora. Naš rad se fokusira na greške na koje se može ukazati na jednom mestu, ali u budućnosti moramo da se pozabavimo i raspršenim greškama.
CriticGPT može pomoći samo do određene mere: ako su zadatak ili odgovor izuzetno složeni, čak ni stručnjak uz pomoć modela možda neće moći da ih ispravno proceni.

Sledeći koraci

Da bismo uskladili AI sisteme koji postaju sve složeniji, biće nam potrebni bolji alati. U našem istraživanju o CriticGPT‑u otkrili smo da primena RLHF-a na GPT‑4 obećava pomoć ljudima da proizvedu bolje RLHF podatke za GPT‑4. Planiramo da ovaj rad dodatno proširimo i primenimo u praksi.

Autori

Nat McAleese и Maja Trębacz

Zahvalnice

Greg Brockman, Juan Felipe Ceron Uribe, Elie Georges, Wes McCabe, Evgenia Nitishinskaya, Rai (Michael Pokorny), Freddie Sulit