6 જૂન, 2024

GPT‑4 માંથી ખ્યાલો કાઢવું

અમે GPT‑4 ના આંતરિક પ્રતિનિધિત્વોને 16 મિલિયન ઘણીવાર અર્થઘટનીય પેટર્ન્સમાં વિભાજિત કરવા માટે નવી સ્કેલેબલ પદ્ધતિઓનો ઉપયોગ કર્યો.

પેપર વાંચો કોડ વાંચો ફીચર્સ બ્રાઉઝ કરો

લોડિંગ…

હાલમાં, ભાષા મોડલ્સની અંદરની ન્યુરલ પ્રવૃત્તિને કેવી રીતે સમજવી તે અમે જાણતા નથી. આજે, અમે મોટી સંખ્યામાં "ફીચર્સ" શોધવા માટે સુધારેલી પદ્ધતિઓ શેર કરી રહ્યા છીએ. આ એવી પ્રવૃત્તિ પેટર્ન્સ છે જેને અમે આશા રાખીએ છીએ કે માનવો માટે અર્થઘટનીય હશે. અમારી પદ્ધતિઓ હાલના કામ કરતાં વધુ સારી રીતે સ્કેલ થાય છે, અને અમે તેમનો ઉપયોગ GPT‑4 માં 16 મિલિયન ફીચર્સ શોધવા માટે કરીએ છીએ. વધુ શોધખોળને પ્રોત્સાહન આપવા માટે અમે સંશોધન સમુદાય સાથે એક પેપર⁠(નવી વિન્ડોમાં ખૂલે છે), કોડ⁠(નવી વિન્ડોમાં ખૂલે છે), અને ફીચર વિઝ્યુઅલાઇઝેશન્સ⁠(નવી વિન્ડોમાં ખૂલે છે) શેર કરી રહ્યા છીએ.

ન્યુરલ નેટવર્ક્સનું અર્થઘટન કરવાનો પડકાર

મોટાભાગની માનવીય રચનાઓથી ભિન્ન, અમે ન્યુરલ નેટવર્ક્સની આંતરિક કાર્યપ્રણાલીને ખરેખર સમજતા નથી. ઉદાહરણ તરીકે, એન્જિનિયર્સ તેમના ઘટકોની વિશિષ્ટતાઓના આધારે કારોને સીધી રીતે ડિઝાઇન, મૂલ્યાંકન અને સુધારી શકે છે, જેથી સલામતી અને કાર્યક્ષમતા સુનિશ્ચિત થાય. જોકે, ન્યુરલ નેટવર્ક્સ સીધા ડિઝાઇન થતા નથી; તેના બદલે અમે તેમને ટ્રેન કરતા અલ્ગોરિધમ્સ ડિઝાઇન કરીએ છીએ. પરિણામે બનેલા નેટવર્ક્સ સારી રીતે સમજાયેલા નથી અને તેમને સરળતાથી ઓળખી શકાય એવા ભાગોમાં વહેંચી શકાતા નથી. તેનો અર્થ એ છે કે અમે AI સલામતી વિશે એ જ રીતે વિચાર કરી શકતા નથી જેમ આપણે કાર સલામતી જેવી વસ્તુ વિશે વિચાર કરીએ છીએ.

ન્યુરલ નેટવર્ક્સને સમજવા અને તેનું અર્થઘટન કરવા માટે, સૌપ્રથમ અમને ન્યુરલ ગણતરીઓ માટે ઉપયોગી બિલ્ડિંગ બ્લોક્સ શોધવા પડશે. દુર્ભાગ્યે, ભાષા મોડલની અંદરના ન્યુરલ એક્ટિવેશન્સ અનિશ્ચિત પેટર્ન સાથે સક્રિય થાય છે, જાણે એકસાથે ઘણા ખ્યાલોને પ્રતિનિધિત્વ કરતા હોય તેમ. તેઓ ઘન રીતે પણ સક્રિય થાય છે, એટલે દરેક એક્ટિવેશન દરેક ઇનપુટ પર હંમેશા ફાયર થાય છે. પરંતુ વાસ્તવિક દુનિયાના ખ્યાલો ખૂબ સ્પાર્સ હોય છે. કોઈપણ પરિસ્થિતિમાં, બધા ખ્યાલોમાંથી માત્ર નાનો હિસ્સો જ સંબંધિત હોય છે. આ સ્પાર્સ ઓટોએન્કોડર્સના ઉપયોગને પ્રેરણા આપે છે, એક એવી પદ્ધતિ જે ન્યુરલ નેટવર્કમાં એવા થોડાક "ફીચર્સ" ઓળખે છે જે કોઈપણ આપેલ આઉટપુટ બનાવવામાં મહત્વના હોય છે, જેમ કોઈ વ્યક્તિ કોઈ પરિસ્થિતિ વિશે রিজনিং કરતી વખતે મનમાં થોડા ખ્યાલો રાખતી હોય છે. તેમના ફીચર્સ સ્પાર્સ સક્રિયતા પેટર્ન દર્શાવે છે, જે અર્થઘટનીયતા માટે સીધી પ્રેરણા ન હોવા છતાં માનવ માટે સરળતાથી સમજાય એવા ખ્યાલો સાથે સ્વાભાવિક રીતે મેળ ખાતા હોય છે.

સ્પાર્સ ઓટોએન્કોડર ઘન ન્યુરલ એક્ટિવેશન્સને સ્પાર્સ ફીચર્સમાં એન્કોડ અને ડિકોડ કરે છે તે દર્શાવતું આલેખ.

જોકે, સ્પાર્સ ઓટોએન્કોડર્સને ટ્રેન કરવામાં હજી પણ ગંભીર પડકારો છે. મોટા ભાષા મોડલ્સ વિશાળ સંખ્યામાં ખ્યાલોને પ્રતિનિધિત્વ કરે છે, અને અત્યાધુનિક મોડલમાં રહેલા ખ્યાલોને લગભગ સંપૂર્ણ રીતે આવરી લેવા માટે અમારા ઓટોએન્કોડર્સને પણ તદ્દન વિશાળ બનવાની જરૂર પડી શકે છે. મોટી સંખ્યામાં સ્પાર્સ ફીચર્સ શીખવી પડકારજનક છે, અને અગાઉના કામે સારી રીતે સ્કેલ થતું હોવાનું દર્શાવ્યું નથી.

અમારી સંશોધન પ્રગતિ: મોટા પાયે ઓટોએન્કોડર ટ્રેનિંગ

અમે નવી અત્યાધુનિક પદ્ધતિઓ વિકસાવી છે, જે અમને અત્યાધુનિક AI મોડલ્સ પર અમારા સ્પાર્સ ઓટોએન્કોડર્સને કરોડો ફીચર્સ સુધી સ્કેલ કરવાની મંજૂરી આપે છે. અમે જોયું કે અમારી પદ્ધતિ સરળ અને આગાહી કરી શકાય તેવી સ્કેલિંગ દર્શાવે છે, અને અગાઉની ટેક્નિક્સ કરતાં વધુ સારું સ્કેલ રિટર્ન આપે છે. અમે ફીચર ગુણવત્તા માપવા માટે અનેક નવા મેટ્રિક્સ પણ રજૂ કરીએ છીએ.

અમે અમારી રીતનો ઉપયોગ GPT‑2 small અને GPT‑4 activations પર વિવિધ ઓટોએન્કોડર્સ ટ્રેન કરવા કર્યો, જેમાં GPT‑4 પર 16 મિલિયન ફીચર ઓટોએન્કોડર પણ સામેલ છે. ફીચર્સની અર્થઘટનીયતા તપાસવા માટે, અમે આપેલ ફીચર જ્યાં સક્રિય થાય છે તે દસ્તાવેજો બતાવીને તેને દર્શાવીએ છીએ. અહીં અમને મળેલા કેટલાક અર્થઘટનીય ફીચર્સ છે:

GPT-4 feature: phrases relating to things (especially humans) being flawed

સંપૂર્ણ વિઝ્યુઅલાઇઝેશન જુવો

most people, it isn’t. We all have wonderful days, glimpses of what we perceive to be perfection, but we can also all have truly shit-tastic ones, and I can assure you that you’re not alone. So toddler of mine, and most other toddlers out there, remember; Don’t be a

has warts. What system that is used to build real world software doesn't? I've built systems in a number of languages and frameworks and they all had warts and issues. How much research has the author done to find other solutions? The plea at the end seemed very lazywebish to me

often put our hope in the wrong places – in the world, in other people, in our abilities or finances – but all of that is like sinking sand. The only place we can find hope is in Jesus Christ. These words by Kutless tell us just where we need to go to find hope. I lift my

churches since the last Great Reformation has also become warped. I state again, while churches are formed and planted with the most Holy and Divine of inspirations, they are not free from the corruption of humanity. While they are of our great and perfect Father, they are on an imperfect Earth. And we Rogues are

perfect. If anyone does not believe that let them say so. You really do appear to be just about a meter away from me. But you are actually in my brain. What artistry! What perfection! Not the slightest blurring. And in 3-D. Sound is also 3-D. And images.

અમને બીજા ઘણાં રસપ્રદ ફીચર્સ મળ્યાં, જેને તમે અહીં બ્રાઉઝ કરી શકો છો⁠(નવી વિન્ડોમાં ખૂલે છે).

મર્યાદાઓ

અર્થઘટનીયતા અંતે મોડલની વિશ્વસનીયતા અને દિશાનિયંત્રણક્ષમતા વધારશે તે અંગે અમે ઉત્સાહિત છીએ. જોકે, આ હજી મર્યાદાઓવાળું શરૂઆતનું કામ છે:

અગાઉના કામોની જેમ, શોધાયેલા ઘણા ફીચર્સનું અર્થઘટન હજી મુશ્કેલ છે, અને ઘણા કોઈ સ્પષ્ટ પેટર્ન વિના સક્રિય થાય છે અથવા તેઓ સામાન્ય રીતે જે ખ્યાલને એન્કોડ કરતા લાગે છે તેની સાથે અસંબંધિત ભ્રામક સક્રિયતાઓ દર્શાવે છે. ઉપરાંત, અર્થઘટનોની માન્યતા તપાસવા માટે અમારી પાસે સારા ઉપાયો નથી.
સ્પાર્સ ઓટોએન્કોડર મૂળ મોડલનું બધું વર્તન પકડતું નથી. હાલમાં, GPT‑4 ના એક્ટિવેશન્સને સ્પાર્સ ઓટોએન્કોડરમાંથી પસાર કરતાં એવી કામગીરી મળે છે જે આશરે 10x ઓછી કમ્પ્યુટ સાથે ટ્રેન કરાયેલા મોડલ સમકક્ષ છે. અત્યાધુનિક LLMs માં ખ્યાલોને સંપૂર્ણ રીતે નકશાંકિત કરવા માટે, અમને કદાચ અબજો અથવા ખરબો ફીચર્સ સુધી સ્કેલ કરવું પડશે, જે અમારી સુધારેલી સ્કેલિંગ ટેક્નિક્સ હોવા છતાં પડકારજનક રહેશે.
સ્પાર્સ ઓટોએન્કોડર્સ મોડલના એક બિંદુએ ફીચર્સ શોધી શકે છે, પરંતુ તે મોડલનું અર્થઘટન કરવા તરફનું માત્ર એક પગલું છે. મોડલ તે ફીચર્સ કેવી રીતે ગણતરી કરે છે અને પછી બાકી મોડલમાં તે ફીચર્સનો કેવી રીતે ઉપયોગ થાય છે તે સમજવા માટે ઘણું વધુ કામ જરૂરી છે.

આગળ જોઈએ તો, અને અમારા સંશોધનને ઓપન સોર્સ બનાવવું

જોકે સ્પાર્સ ઓટોએન્કોડર સંશોધન રોમાંચક છે, આગળનો માર્ગ લાંબો છે અને ઘણા પડકારો હજી ઉકેલાયા નથી. ટૂંકા ગાળામાં, અમને આશા છે કે અમે શોધેલા ફીચર્સ ભાષા મોડલના વર્તનોની દેખરેખ અને દિશાનિયંત્રણ માટે વ્યવહારિક રીતે ઉપયોગી સાબિત થશે અને અમે આને અમારા અત્યાધુનિક મોડલ્સમાં તપાસવાની યોજના બનાવીએ છીએ. અંતે, અમને આશા છે કે એક દિવસ અર્થઘટનીયતા અમને મોડલ સલામતી અને મજબૂતાઈ વિશે વિચારવાના નવા રસ્તાઓ આપશે, અને શક્તિશાળી AI મોડલ્સના વર્તન વિશે મજબૂત ખાતરીઓ આપીને તેમ પરનો વિશ્વાસ નોંધપાત્ર રીતે વધારશે.

આજે, અમે અમારા પ્રયોગો અને પદ્ધતિઓનું વર્ણન કરતું એક પેપર⁠(નવી વિન્ડોમાં ખૂલે છે) શેર કરી રહ્યા છીએ, જે સંશોધકો માટે મોટા પાયે ઓટોએન્કોડર્સ ટ્રેન કરવું વધુ સરળ બનાવશે એવી અમને આશા છે. અમે GPT‑2 small માટે ઓટોએન્કોડર્સનો સંપૂર્ણ સમૂહ પ્રકાશિત કરી રહ્યા છીએ, સાથે જ તેનો ઉપયોગ કરવા માટેનો કોડ⁠(નવી વિન્ડોમાં ખૂલે છે), અને ફીચર વિઝ્યુઅલાઇઝર⁠(નવી વિન્ડોમાં ખૂલે છે) પણ, જેથી GPT‑2 અને GPT‑4 ફીચર્સ કઈ બાબતોને અનુરૂપ હોઈ શકે તેની સમજ મળી શકે.

લેખકો

Jeffrey Wu, Leo Gao, Tom Dupré la Tour, Henk Tillman

આભારવિધિ

Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson, Greg Brockman