GPT‑4 વડે GPT‑4 ની ભૂલો શોધવી
GPT‑4 આધારિત મોડલ CriticGPT, RLHF દરમિયાન માનવ ટ્રેનરોને ભૂલો શોધવામાં મદદ કરવા ChatGPT ના પ્રતિભાવોની સમીક્ષા લખે છે.
અમે GPT‑4 પર આધારિત CriticGPT નામના એક મોડલને ChatGPT ના કોડ આઉટપુટમાં ભૂલો પકડવા માટે તાલીમ આપી છે. અમને જણાયું કે જ્યારે લોકો ChatGPT ના કોડની સમીક્ષા કરવા CriticGPT ની મદદ લે છે, ત્યારે તેઓ મદદ વિના રહેલા લોકો કરતાં 60% વખત વધુ સારું પ્રદર્શન કરે છે. અમે CriticGPT જેવા મોડલોને અમારી RLHF labeling pipeline માં એકીકૃત કરવાનો કામ શરૂ કરી રહ્યા છીએ, જેથી અમારા ટ્રેનરોને સ્પષ્ટ AI સહાય મળી રહે. આ વધુ સારા સાધનો વગર લોકોને મૂલ્યાંકન કરવું મુશ્કેલ પડે તેવી અદ્યતન AI સિસ્ટમોના આઉટપુટનું મૂલ્યાંકન કરી શકવાની દિશામાં એક પગલું છે.
ChatGPT ને શક્તિ આપતી GPT‑4 શ્રેણીના મોડલોને “હ્યુમન ફીડબેકથી રીઇન્ફોર્સમેન્ટ લર્નિંગ” (RLHF) દ્વારા મદદરૂપ અને ઇન્ટરેક્ટિવ બનવા માટે એલાઇન કરવામાં આવ્યા છે. RLHF નો એક મુખ્ય ભાગ એવી તુલનાઓ એકત્રિત કરવો છે waarin લોકો, જેમને AI ટ્રેનરો કહેવાય છે, વિવિધ ChatGPT પ્રતિભાવોને એકબીજા સામે રેટ કરે છે.
જેમ જેમ અમે রিজનિંગ અને મોડલના વર્તનમાં પ્રગતિ કરીએ છીએ, તેમ ChatGPT વધુ ચોક્કસ બનતું જાય છે અને તેની ભૂલો વધુ સૂક્ષ્મ બને છે. પરિણામે, જ્યારે આવી અચુકતાઓ થાય છે ત્યારે AI ટ્રેનરો માટે તેને ઓળખવું મુશ્કેલ बनी શકે છે, અને RLHF ને શક્તિ આપતું તુલનાત્મક કાર્ય ઘણું કઠિન બને છે. આ RLHF ની મૂળભૂત મર્યાદા છે, અને જેમ જેમ મોડલો પ્રતિસાદ આપી શકે એવા કોઈપણ વ્યક્તિ કરતાં ધીમે ધીમે વધુ જ્ઞાનસભર બનશે, તેમ તેમને એલાઇન કરવું વધતી જતી મુશ્કેલ બની શકે છે.
આ પડકારમાં મદદ કરવા માટે, અમે CriticGPT ને ChatGPT ના જવાબોમાં રહેલી અચુકતાઓ હાઇલાઇટ કરતી સમીક્ષાઓ લખવા માટે તાલીમ આપી.
Task
Solution
import os def get_file_object(path): # Define the safe directory safe_dir = "/safedir" # Get the absolute path of the file and the safe directory absolute_file_path = os.path.abspath(path) absolute_safe_dir = os.path.abspath(safe_dir) # Check if the file is within the safe directory Highlighted:if not absolute_file_path.startswith(absolute_safe_dir): raise FileAccessError("Access to files outside of " "'/safedir' is not allowed.")...CriticGPT
CriticGPT ના સૂચનો હંમેશા સાચા હોય જ એવું નથી, પરંતુ અમને જણાયું છે કે AI મદદ વિના જેટલી સમસ્યાઓ ટ્રેનરો પકડી શકે તેના કરતાં ઘણીઓ વધુ સમસ્યાઓ મોડલ-લખેલા જવાબોમાં પકડવામાં તે તેમની મદદ કરી શકે છે. વધુમાં, જ્યારે લોકો CriticGPT નો ઉપયોગ કરે છે, ત્યારે AI તેમની કુશળતામાં વધારો કરે છે, જેના પરિણામે લોકો એકલા કામ કરે ત્યારે કરતાં વધુ વ્યાપક સમીક્ષાઓ મળે છે, અને જ્યારે મોડલ એકલું કામ કરે ત્યારે કરતાં ઓછી ભ્રમજન્ય bugs જોવા મળે છે. અમારા પ્રયોગોમાં બીજા એક રેન્ડમ ટ્રેનરે Human+CriticGPT ટીમની સમીક્ષાઓને સહાય વિના રહેલા વ્યક્તિની સમીક્ષાઓ કરતાં 60% કરતાં વધુ વખત પસંદ કરી.
CriticGPT ટ્રેનરોને મદદ વિના કરતાં વધુ વ્યાપક સમીક્ષાઓ લખવામાં મદદ કરે છે અને સાથે માત્ર મોડલ દ્વારા બનેલી સમીક્ષાઓ કરતાં ઓછી ભ્રમજન્ય બાબતો ઉત્પન્ન કરે છે.
CriticGPT ને ChatGPT જેવી જ રીતે RLHF સાથે પણ તાલીમ આપવામાં આવી હતી. પરંતુ ChatGPT થી ભિન્ન રીતે, તેને મોટી સંખ્યામાં એવા ઇનપુટ્સ બતાવવામાં આવ્યા હતા જેમાં ભૂલો હતી અને પછી તેને તેમની સમીક્ષા કરવી પડતી હતી. અમે AI ટ્રેનરોને ChatGPT દ્વારા લખાયેલા કોડમાં આ ભૂલો હાથે દાખલ કરવા અને પછી ઉદાહરણરૂપ પ્રતિસાદ લખવા કહ્યું, જાણે કે તેમણે પોતે જ દાખલ કરેલો bug પકડ્યો હોય. ત્યારબાદ એ જ વ્યક્તિએ સુધારેલા કોડની અનેક સમીક્ષાઓની તુલના કરી જેથી સમીક્ષાએ તેણે દાખલ કરેલો bug ક્યારે પકડ્યો તે સરળતાથી કહી શકે. અમારા પ્રયોગોમાં અમે બંને બાબતોનો અભ્યાસ કર્યો: CriticGPT દાખલ કરેલા bugs પકડી શકે છે કે નહીં અને અગાઉના ટ્રેનરે પકડેલા “કુદરતી રીતે થતા” ChatGPT bugs પણ. અમને જણાયું કે કુદરતી રીતે થતા bugs પર 63% કેસોમાં ટ્રેનરો ChatGPT ની સમીક્ષાઓ કરતાં CriticGPT ની સમીક્ષાઓને પસંદ કરે છે, કારણ કે નવો સમીક્ષક ઓછા “nitpicks” (નાની અને નિષ્પ્રયોજક ફરિયાદો) કરે છે અને ઓછી વાર સમસ્યાઓ ભ્રમથી ગઢે છે.
અમને એ પણ જણાયું કે critique reward model સામે વધારાની test-time search નો ઉપયોગ કરીને અમે વધુ લાંબી અને વધુ વ્યાપક સમીક્ષાઓ બનાવી શકીએ છીએ. આ શોધ પ્રક્રિયા અમને કોડમાં સમસ્યાઓ કેટલા આક્રમક રીતે શોધવી તે સંતુલિત કરવાની અને ભ્રમજન્ય બાબતો અને શોધાયેલા bugs ની સંખ્યા વચ્ચે precision-recall trade-off ગોઠવવાની મંજૂરી આપે છે. તેનો અર્થ એ છે કે અમે RLHF માટે શક્ય તેટલી મદદરૂપ સમીક્ષાઓ બનાવી શકીએ છીએ. વધુ વિગતો માટે અમારું સંશોધન પેપર જુઓ.
- અમે CriticGPT ને ChatGPT ના ઘણાં ટૂંકા જવાબો પર તાલીમ આપી. ભવિષ્યના એજન્ટોની દેખરેખ માટે અમને એવી પદ્ધતિઓ વિકસાવવાની જરૂર પડશે જે ટ્રેનરોને લાંબા અને જટિલ કાર્યો સમજવામાં મદદ કરી શકે.
- મોડલો હજુ પણ ભ્રમજન્ય આઉટપુટ આપે છે અને ક્યારેક ટ્રેનરો તેવા ભ્રમજન્ય આઉટપુટ જોઈને labeling ભૂલો કરે છે.
- ક્યારેક વાસ્તવિક દુનિયાની ભૂલો જવાબના ઘણા ભાગોમાં ફેલાયેલી હોઈ શકે છે. અમારું કામ એવી ભૂલો પર કેન્દ્રિત છે જેને એક જ સ્થાને બતાવી શકાય, પરંતુ ભવિષ્યમાં અમારે વિખરાયેલી ભૂલોનો પણ સામનો કરવો પડશે.
- CriticGPT ફક્ત મર્યાદિત હદ સુધી જ મદદ કરી શકે છે. જો કોઈ કાર્ય અથવા પ્રતિભાવ અત્યંત જટિલ હોય, તો મોડલની મદદ સાથેનો નિષ્ણાત પણ તેનું સાચું મૂલ્યાંકન ન કરી શકે.
વધતી જતી જટિલ AI સિસ્ટમોને એલાઇન કરવા માટે અમને વધુ સારા સાધનોની જરૂર પડશે. CriticGPT પરના અમારા સંશોધનમાં, અમને જણાયું કે GPT‑4 પર RLHF લાગુ કરવાથી મનુષ્યોને GPT‑4 માટે વધુ સારો RLHF ડેટા બનાવવામાં મદદ કરવાની સારી શક્યતા છે. અમે આ કામને વધુ વ્યાપક બનાવવાની અને તેનો વાસ્તવિક ઉપયોગ કરવાની યોજના બનાવી રહ્યા છીએ.
લેખકો
આભારવિધિ
Greg Brockman, Juan Felipe Ceron Uribe, Elie Georges, Wes McCabe, Evgenia Nitishinskaya, Rai (Michael Pokorny), Freddie Sulit