ભાષા મોડલો ફ્યુ-શોટ શીખનાર છે

તાજેતરના કાર્યે મોટા ટેક્સ્ટ કોર્પસ પર પ્રી-ટ્રેનિંગ કર્યા પછી અને ત્યારબાદ ચોક્કસ કાર્ય પર ફાઇન-ટ્યુનિંગ કરીને અનેક NLP કાર્યો અને બેન્ચમાર્ક્સ પર નોંધપાત્ર સુધારો દર્શાવ્યો છે. આર્કિટેક્ચરમાં સામાન્ય રીતે કાર્ય-અજ્ઞેય હોવા છતાં, આ પદ્ધતિને હજુ પણ હજારો અથવા દસીઓ હજારો ઉદાહરણો ધરાવતા કાર્ય-વિશિષ્ટ ફાઇન-ટ્યુનિંગ ડેટાસેટ્સની જરૂર પડે છે. તેની સામે, માનવો સામાન્ય રીતે માત્ર થોડાં ઉદાહરણો અથવા સરળ સૂચનાઓ પરથી નવું ભાષાકીય કાર્ય કરી શકે છે - એવી બાબત કે જે હાલમાં NLP સિસ્ટમો માટે હજી પણ મોટા ભાગે મુશ્કેલ છે. અહીં અમે બતાવીએ છીએ કે ભાષા મોડલોને સ્કેલ અપ કરવાથી કાર્ય-અજ્ઞેય, ફ્યુ-શોટ પ્રદર્શન ઘણું સુધરે છે, અને ક્યારેક અગાઉની સર્વોત્તમ ફાઇન-ટ્યુનિંગ પદ્ધતિઓ સાથે સ્પર્ધાત્મક સ્તરે પણ પહોંચે છે. ખાસ કરીને, અમે GPT‑3 ને ટ્રેન કરીએ છીએ, જે 175 બિલિયન પેરામીટર્સ ધરાવતું એક ઓટોરિગ્રેસિવ ભાષા મોડલ છે, જે અગાઉના કોઈપણ નોન-સ્પાર્સ ભાષા મોડલ કરતા 10x વધુ છે, અને ફ્યુ-શોટ પરિસ્થિતિમાં તેનું પ્રદર્શન તપાસીએ છીએ. તમામ કાર્યો માટે, GPT‑3 ને કોઈપણ ગ્રેડિયન્ટ અપડેટ્સ અથવા ફાઇન-ટ્યુનિંગ વગર લાગુ કરવામાં આવે છે, જેમાં કાર્યો અને ફ્યુ-શોટ ડેમોન્સ્ટ્રેશન્સ સંપૂર્ણપણે મોડલ સાથેના ટેક્સ્ટ ઇન્ટરએક્શન દ્વારા નિર્ધારિત થાય છે. GPT‑3 ઘણા NLP ડેટાસેટ્સ પર મજબૂત પ્રદર્શન આપે છે, જેમાં અનુવાદ, પ્રશ્ન-ઉત્તર, અને ક્લોઝ કાર્યોનો સમાવેશ થાય છે, તેમજ એવા ઘણા કાર્યોનો પણ સમાવેશ થાય છે જેમને તરત જ রিজনিং અથવા ડોમેન એડેપ્ટેશનની જરૂર પડે છે, જેમ કે શબ્દોને ઉકેલવા, વાક્યમાં નવા શબ્દનો ઉપયોગ કરવા, અથવા 3-અંકીય ગણિત કરવા. સાથે સાથે, અમે કેટલાક એવા ડેટાસેટ્સ પણ ઓળખીએ છીએ જેમાં GPT‑3 નું ફ્યુ-શોટ લર્નિંગ હજી પણ સંઘર્ષ કરે છે, તેમજ કેટલાક એવા ડેટાસેટ્સ પણ છે waarin GPT‑3 ને મોટા વેબ કોર્પરા પર ટ્રેનિંગ સાથે જોડાયેલી પદ્ધતિશાસ્ત્રીય સમસ્યાઓનો સામનો કરવો પડે છે. અંતે, અમે શોધીએ છીએ કે GPT‑3 સમાચાર લેખોના એવા નમૂનાઓ જનરેટ કરી શકે છે જેને માનવી મૂલ્યાંકનકારો માટે માનવો દ્વારા લખાયેલા લેખોથી અલગ પાડવા મુશ્કેલ પડે છે. અમે આ શોધના અને સામાન્ય રીતે GPT‑3 ના વ્યાપક સામાજિક પ્રભાવોની ચર્ચા કરીએ છીએ.

ભાષા મોડલો ફ્યુ-શોટ શીખનાર છે

લેખકો

લેખકો

સંબંધિત લેખો