GPT‑4 માંથી ખ્યાલો કાઢવું
અમે GPT‑4 ના આંતરિક પ્રતિનિધિત્વોને 16 મિલિયન ઘણીવાર અર્થઘટનીય પેટર્ન્સમાં વિભાજિત કરવા માટે નવી સ્કેલેબલ પદ્ધતિઓનો ઉપયોગ કર્યો.
હાલમાં, ભાષા મોડલ્સની અંદરની ન્યુરલ પ્રવૃત્તિને કેવી રીતે સમજવી તે અમે જાણતા નથી. આજે, અમે મોટી સંખ્યામાં "ફીચર્સ" શોધવા માટે સુધારેલી પદ્ધતિઓ શેર કરી રહ્યા છીએ. આ એવી પ્રવૃત્તિ પેટર્ન્સ છે જેને અમે આશા રાખીએ છીએ કે માનવો માટે અર્થઘટનીય હશે. અમારી પદ્ધતિઓ હાલના કામ કરતાં વધુ સારી રીતે સ્કેલ થાય છે, અને અમે તેમનો ઉપયોગ GPT‑4 માં 16 મિલિયન ફીચર્સ શોધવા માટે કરીએ છીએ. વધુ શોધખોળને પ્રોત્સાહન આપવા માટે અમે સંશોધન સમુદાય સાથે એક પેપર(નવી વિન્ડોમાં ખૂલે છે), કોડ(નવી વિન્ડોમાં ખૂલે છે), અને ફીચર વિઝ્યુઅલાઇઝેશન્સ(નવી વિન્ડોમાં ખૂલે છે) શેર કરી રહ્યા છીએ.
મોટાભાગની માનવીય રચનાઓથી ભિન્ન, અમે ન્યુરલ નેટવર્ક્સની આંતરિક કાર્યપ્રણાલીને ખરેખર સમજતા નથી. ઉદાહરણ તરીકે, એન્જિનિયર્સ તેમના ઘટકોની વિશિષ્ટતાઓના આધારે કારોને સીધી રીતે ડિઝાઇન, મૂલ્યાંકન અને સુધારી શકે છે, જેથી સલામતી અને કાર્યક્ષમતા સુનિશ્ચિત થાય. જોકે, ન્યુરલ નેટવર્ક્સ સીધા ડિઝાઇન થતા નથી; તેના બદલે અમે તેમને ટ્રેન કરતા અલ્ગોરિધમ્સ ડિઝાઇન કરીએ છીએ. પરિણામે બનેલા નેટવર્ક્સ સારી રીતે સમજાયેલા નથી અને તેમને સરળતાથી ઓળખી શકાય એવા ભાગોમાં વહેંચી શકાતા નથી. તેનો અર્થ એ છે કે અમે AI સલામતી વિશે એ જ રીતે વિચાર કરી શકતા નથી જેમ આપણે કાર સલામતી જેવી વસ્તુ વિશે વિચાર કરીએ છીએ.
ન્યુરલ નેટવર્ક્સને સમજવા અને તેનું અર્થઘટન કરવા માટે, સૌપ્રથમ અમને ન્યુરલ ગણતરીઓ માટે ઉપયોગી બિલ્ડિંગ બ્લોક્સ શોધવા પડશે. દુર્ભાગ્યે, ભાષા મોડલની અંદરના ન્યુરલ એક્ટિવેશન્સ અનિશ્ચિત પેટર્ન સાથે સક્રિય થાય છે, જાણે એકસાથે ઘણા ખ્યાલોને પ્રતિનિધિત્વ કરતા હોય તેમ. તેઓ ઘન રીતે પણ સક્રિય થાય છે, એટલે દરેક એક્ટિવેશન દરેક ઇનપુટ પર હંમેશા ફાયર થાય છે. પરંતુ વાસ્તવિક દુનિયાના ખ્યાલો ખૂબ સ્પાર્સ હોય છે. કોઈપણ પરિસ્થિતિમાં, બધા ખ્યાલોમાંથી માત્ર નાનો હિસ્સો જ સંબંધિત હોય છે. આ સ્પાર્સ ઓટોએન્કોડર્સના ઉપયોગને પ્રેરણા આપે છે, એક એવી પદ્ધતિ જે ન્યુરલ નેટવર્કમાં એવા થોડાક "ફીચર્સ" ઓળખે છે જે કોઈપણ આપેલ આઉટપુટ બનાવવામાં મહત્વના હોય છે, જેમ કોઈ વ્યક્તિ કોઈ પરિસ્થિતિ વિશે রিজনিং કરતી વખતે મનમાં થોડા ખ્યાલો રાખતી હોય છે. તેમના ફીચર્સ સ્પાર્સ સક્રિયતા પેટર્ન દર્શાવે છે, જે અર્થઘટનીયતા માટે સીધી પ્રેરણા ન હોવા છતાં માનવ માટે સરળતાથી સમજાય એવા ખ્યાલો સાથે સ્વાભાવિક રીતે મેળ ખાતા હોય છે.

જોકે, સ્પાર્સ ઓટોએન્કોડર્સને ટ્રેન કરવામાં હજી પણ ગંભીર પડકારો છે. મોટા ભાષા મોડલ્સ વિશાળ સંખ્યામાં ખ્યાલોને પ્રતિનિધિત્વ કરે છે, અને અત્યાધુનિક મોડલમાં રહેલા ખ્યાલોને લગભગ સંપૂર્ણ રીતે આવરી લેવા માટે અમારા ઓટોએન્કોડર્સને પણ તદ્દન વિશાળ બનવાની જરૂર પડી શકે છે. મોટી સંખ્યામાં સ્પાર્સ ફીચર્સ શીખવી પડકારજનક છે, અને અગાઉના કામે સારી રીતે સ્કેલ થતું હોવાનું દર્શાવ્યું નથી.
અમે નવી અત્યાધુનિક પદ્ધતિઓ વિકસાવી છે, જે અમને અત્યાધુનિક AI મોડલ્સ પર અમારા સ્પાર્સ ઓટોએન્કોડર્સને કરોડો ફીચર્સ સુધી સ્કેલ કરવાની મંજૂરી આપે છે. અમે જોયું કે અમારી પદ્ધતિ સરળ અને આગાહી કરી શકાય તેવી સ્કેલિંગ દર્શાવે છે, અને અગાઉની ટેક્નિક્સ કરતાં વધુ સારું સ્કેલ રિટર્ન આપે છે. અમે ફીચર ગુણવત્તા માપવા માટે અનેક નવા મેટ્રિક્સ પણ રજૂ કરીએ છીએ.
અમે અમારી રીતનો ઉપયોગ GPT‑2 small અને GPT‑4 activations પર વિવિધ ઓટોએન્કોડર્સ ટ્રેન કરવા કર્યો, જેમાં GPT‑4 પર 16 મિલિયન ફીચર ઓટોએન્કોડર પણ સામેલ છે. ફીચર્સની અર્થઘટનીયતા તપાસવા માટે, અમે આપેલ ફીચર જ્યાં સક્રિય થાય છે તે દસ્તાવેજો બતાવીને તેને દર્શાવીએ છીએ. અહીં અમને મળેલા કેટલાક અર્થઘટનીય ફીચર્સ છે:
GPT-4 feature: phrases relating to things (especially humans) being flawed
સંપૂર્ણ વિઝ્યુઅલાઇઝેશન જુવો(નવી વિન્ડોમાં ખૂલે છે)અમને બીજા ઘણાં રસપ્રદ ફીચર્સ મળ્યાં, જેને તમે અહીં બ્રાઉઝ કરી શકો છો(નવી વિન્ડોમાં ખૂલે છે).
અર્થઘટનીયતા અંતે મોડલની વિશ્વસનીયતા અને દિશાનિયંત્રણક્ષમતા વધારશે તે અંગે અમે ઉત્સાહિત છીએ. જોકે, આ હજી મર્યાદાઓવાળું શરૂઆતનું કામ છે:
- અગાઉના કામોની જેમ, શોધાયેલા ઘણા ફીચર્સનું અર્થઘટન હજી મુશ્કેલ છે, અને ઘણા કોઈ સ્પષ્ટ પેટર્ન વિના સક્રિય થાય છે અથવા તેઓ સામાન્ય રીતે જે ખ્યાલને એન્કોડ કરતા લાગે છે તેની સાથે અસંબંધિત ભ્રામક સક્રિયતાઓ દર્શાવે છે. ઉપરાંત, અર્થઘટનોની માન્યતા તપાસવા માટે અમારી પાસે સારા ઉપાયો નથી.
- સ્પાર્સ ઓટોએન્કોડર મૂળ મોડલનું બધું વર્તન પકડતું નથી. હાલમાં, GPT‑4 ના એક્ટિવેશન્સને સ્પાર્સ ઓટોએન્કોડરમાંથી પસાર કરતાં એવી કામગીરી મળે છે જે આશરે 10x ઓછી કમ્પ્યુટ સાથે ટ્રેન કરાયેલા મોડલ સમકક્ષ છે. અત્યાધુનિક LLMs માં ખ્યાલોને સંપૂર્ણ રીતે નકશાંકિત કરવા માટે, અમને કદાચ અબજો અથવા ખરબો ફીચર્સ સુધી સ્કેલ કરવું પડશે, જે અમારી સુધારેલી સ્કેલિંગ ટેક્નિક્સ હોવા છતાં પડકારજનક રહેશે.
- સ્પાર્સ ઓટોએન્કોડર્સ મોડલના એક બિંદુએ ફીચર્સ શોધી શકે છે, પરંતુ તે મોડલનું અર્થઘટન કરવા તરફનું માત્ર એક પગલું છે. મોડલ તે ફીચર્સ કેવી રીતે ગણતરી કરે છે અને પછી બાકી મોડલમાં તે ફીચર્સનો કેવી રીતે ઉપયોગ થાય છે તે સમજવા માટે ઘણું વધુ કામ જરૂરી છે.
જોકે સ્પાર્સ ઓટોએન્કોડર સંશોધન રોમાંચક છે, આગળનો માર્ગ લાંબો છે અને ઘણા પડકારો હજી ઉકેલાયા નથી. ટૂંકા ગાળામાં, અમને આશા છે કે અમે શોધેલા ફીચર્સ ભાષા મોડલના વર્તનોની દેખરેખ અને દિશાનિયંત્રણ માટે વ્યવહારિક રીતે ઉપયોગી સાબિત થશે અને અમે આને અમારા અત્યાધુનિક મોડલ્સમાં તપાસવાની યોજના બનાવીએ છીએ. અંતે, અમને આશા છે કે એક દિવસ અર્થઘટનીયતા અમને મોડલ સલામતી અને મજબૂતાઈ વિશે વિચારવાના નવા રસ્તાઓ આપશે, અને શક્તિશાળી AI મોડલ્સના વર્તન વિશે મજબૂત ખાતરીઓ આપીને તેમ પરનો વિશ્વાસ નોંધપાત્ર રીતે વધારશે.
આજે, અમે અમારા પ્રયોગો અને પદ્ધતિઓનું વર્ણન કરતું એક પેપર(નવી વિન્ડોમાં ખૂલે છે) શેર કરી રહ્યા છીએ, જે સંશોધકો માટે મોટા પાયે ઓટોએન્કોડર્સ ટ્રેન કરવું વધુ સરળ બનાવશે એવી અમને આશા છે. અમે GPT‑2 small માટે ઓટોએન્કોડર્સનો સંપૂર્ણ સમૂહ પ્રકાશિત કરી રહ્યા છીએ, સાથે જ તેનો ઉપયોગ કરવા માટેનો કોડ(નવી વિન્ડોમાં ખૂલે છે), અને ફીચર વિઝ્યુઅલાઇઝર(નવી વિન્ડોમાં ખૂલે છે) પણ, જેથી GPT‑2 અને GPT‑4 ફીચર્સ કઈ બાબતોને અનુરૂપ હોઈ શકે તેની સમજ મળી શકે.
લેખકો
આભારવિધિ
Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson, Greg Brockman