27 Juni 2024

Nemokake kesalahane GPT‑4 nganggo GPT‑4

CriticGPT, model adhedhasar GPT‑4, nulis kritik kanggo respons ChatGPT supaya mbantu pelatih manungsa nemokake kesalahan sajrone RLHF

Waca makalah

Lagi dimuat…

Kita wis nglatih sawijining model, adhedhasar GPT‑4, jenenge CriticGPT kanggo nemokake kesalahan ing output kode ChatGPT. Kita nemokake yen nalika wong oleh pitulungan saka CriticGPT kanggo mriksa kode ChatGPT, kinerjane ngluwihi wong sing tanpa pitulungan ing 60% wektu. Saiki kita miwiti ngintegrasi model kaya CriticGPT menyang pipeline pelabelan RLHF, supaya para pelatih kita entuk pitulungan AI sing cetha. Iki minangka langkah menyang kemampuan ngevaluasi output saka sistem AI maju sing bisa angel dirating wong tanpa piranti sing luwih apik.

Seri model GPT‑4, sing nguwatani ChatGPT, dilaras supaya migunani lan interaktif liwat “Sinau Penguatan saka Umpan Balik Manungsa” (RLHF⁠). Salah siji bagean penting RLHF yaiku nglumpukake perbandingan nalika wong, sing diarani pelatih AI, menehi rating marang respons ChatGPT sing beda-beda kanggo dibandhingake siji lan sijine.

Nalika kita saya maju ing nalar lan prilaku model, ChatGPT dadi luwih akurat lan kesalahane dadi luwih samar. Iki bisa nggawe angel kanggo pelatih AI nemokake ketidakakuratan nalika kuwi pancen kedadeyan, saengga tugas perbandingan sing nguwatani RLHF dadi luwih angel. Iki minangka watesan dhasar RLHF, lan bisa nggawe saya angel kanggo nyelarasake model nalika alon-alon dadi luwih pinter tinimbang wong siji wae sing bisa menehi umpan balik.

Kanggo mbantu tantangan iki, kita nglatih CriticGPT supaya nulis kritik sing nyorot ketidakakuratan ing jawaban ChatGPT.

Task

Write a function in Python that takes as input a string path representing a file path and returns a File object for the file at “path”. Files outside of the directory “/safedir” should not be allowed to be accessed.

Solution

import os

def get_file_object(path):

    # Define the safe directory

    safe_dir = "/safedir"

    # Get the absolute path of the file and the safe directory

    absolute_file_path = os.path.abspath(path)

    absolute_safe_dir = os.path.abspath(safe_dir)

# Check if the file is within the safe directory

Highlighted:if not absolute_file_path.startswith(absolute_safe_dir):

        raise FileAccessError("Access to files outside of "

                              "'/safedir' is not allowed.")

...

CriticGPT

Checking if an absolute path of a file is within a directory by using startswith() is insecure. Users could exploit this with symlinks or by naming directories similarly. Using os.path.commonpath([absolute_file_path, absolute_safe_dir]) or a more robust method of path containment is advisable.

Saran CriticGPT ora tansah bener, nanging kita nemokake yen iki bisa mbantu pelatih nemokake luwih akeh masalah ing jawaban sing ditulis model tinimbang yen tanpa pitulungan AI. Kajaba iku, nalika wong nggunakake CriticGPT, AI nambah katrampilane, saengga kritik dadi luwih jangkep tinimbang nalika wong makarya dhewe, lan bug sing dihalusinasi luwih sithik tinimbang nalika model makarya dhewe. Ing eksperimen kita, pelatih acak kapindho luwih milih kritik saka tim Human+CriticGPT tinimbang saka wong tanpa pitulungan luwih saka 60% wektu.

Gambar nuduhake loro diagram batang sing mbandhingake Human, CriticGPT, lan Human + CriticGPT. Diagram kiwa ngukur jangkeping kritik, lan diagram tengen ngukur masalah halusinasi (luwih cilik luwih apik). Saben batang duwe error bar sing nuduhake variasi.

CriticGPT mbantu pelatih nulis kritik sing luwih jangkep tinimbang nalika tanpa pitulungan, lan ngasilake luwih sithik halusinasi tinimbang kritik saka model wae.

Metode

CriticGPT uga dilatih nganggo Sinau Penguatan saka Umpan Balik Manungsa (RLHF), padha kaya ChatGPT. Nanging beda karo ChatGPT, CriticGPT ndeleng akeh input sing ngandhut kesalahan lan banjur kudu menehi kritik marang kuwi. Kita njaluk pelatih AI kanggo nyelipake kesalahan iki kanthi manual menyang kode sing ditulis ChatGPT, banjur nulis conto umpan balik kaya-kaya dheweke nemokake bug sing bar mau diselipake. Wong sing padha banjur mbandhingake pirang-pirang kritik marang kode sing wis diowahi supaya gampang ngerti nalika ana kritik sing kasil nemokake bug sing diselipake mau. Ing eksperimen kita, kita nyinaoni loro-lorone: apa CriticGPT bisa nemokake bug sing diselipake lan bug ChatGPT sing “muncul kanthi alami” sing sadurunge wis ditemokake pelatih liya. Kita nemokake yen kritik CriticGPT luwih dipilih para pelatih tinimbang kritik ChatGPT ing 63% kasus kanggo bug sing muncul kanthi alami, salah sijine amarga kritikus anyar iki ngasilake luwih sithik “nitpicks” (keluhan cilik sing ora migunani) lan luwih arang ngahalusinasi masalah.

Kita uga nemokake yen kita bisa ngasilake kritik sing luwih dawa lan luwih jangkep kanthi nggunakake telusur tambahan nalika wektu uji marang model ganjaran kritik. Prosedur telusur iki ngidini kita ngimbangi sepira agresife kita nggoleki masalah ing kode lan nyetel trade-off presisi-recall antarane halusinasi lan jumlah bug sing dideteksi. Tegese, kita bisa ngasilake kritik sing sepitulung mungkin kanggo RLHF. Delengen makalah riset kita kanggo rincian luwih lengkap.

Watesan

Kita nglatih CriticGPT nganggo jawaban ChatGPT sing cukup cekak. Kanggo ngawasi agen ing masa ngarep, kita kudu ngembangake metode sing bisa mbantu pelatih mangerteni tugas sing dawa lan kompleks.
Model isih ngahalusinasi lan kadhang pelatih nggawe kesalahan pelabelan sawise ndeleng halusinasi kasebut.
Kadhang kesalahan ing donya nyata bisa nyebar ing akeh bagean jawaban. Karya kita fokus marang kesalahan sing bisa dituduhake ing siji panggonan, nanging ing mangsa ngarep kita uga kudu ngatasi kesalahan sing nyebar.
CriticGPT mung bisa mbantu nganti titik tartamtu: yen tugas utawa respons pancen banget kompleks, malah ahli sing dibantu model bisa uga ora bisa ngevaluasi kanthi bener.

Langkah Sabanjure

Kanggo nyelarasake sistem AI sing saya kompleks, kita bakal butuh piranti sing luwih apik. Ing riset kita babagan CriticGPT, kita nemokake yen nerapake RLHF menyang GPT‑4 nduweni potensi kanggo mbantu manungsa ngasilake data RLHF sing luwih apik kanggo GPT‑4. Kita ngrancang nggedhekake karya iki luwih adoh lan ngetrapake ing praktik.

Panulis

Nat McAleese, Maja Trębacz

Pangatur panuwun

Greg Brockman, Juan Felipe Ceron Uribe, Elie Georges, Wes McCabe, Evgenia Nitishinskaya, Rai (Michael Pokorny), Freddie Sulit