વાસ્તવિક દુનિયાના કાર્યો પર અમારા મોડલોના પ્રદર્શનને માપવું
અમે GDPval રજૂ કરી રહ્યા છીએ, એક નવું મૂલ્યાંકન જે 44 વ્યવસાયોમાં આર્થિક રીતે મૂલ્યવાન વાસ્તવિક કાર્યો પર મોડલ પ્રદર્શન માપે છે.
અમારું મિશન એ સુનિશ્ચિત કરવાનો છે કે આર્ટિફિશિયલ જનરલ ઇન્ટેલિજન્સ સમગ્ર માનવજાતને લાભ આપે. અમારા મિશનના ભાગરૂપે, અમે પારદર્શક રીતે જણાવવા માંગીએ છીએ કે AI મોડલો વાસ્તવિક દુનિયામાં લોકોને કેવી રીતે મદદ કરી શકે છે. તેથી જ અમે GDPval રજૂ કરી રહ્યા છીએ: એક નવું મૂલ્યાંકન, જે અમને અમારા અને અન્યના મોડલો આર્થિક રીતે મૂલ્યવાન વાસ્તવિક કાર્યોમાં કેટલું સારું પ્રદર્શન કરે છે તે ટ્રેક કરવામાં મદદ કરવા માટે રચાયું છે. અમે આ મૂલ્યાંકનને GDPval કહીએ છીએ કારણ કે અમે ગ્રોસ ડોમેસ્ટિક પ્રોડક્ટ (GDP) ની કલ્પનાથી શરૂઆત કરી હતી, જે એક મુખ્ય આર્થિક સૂચક છે, અને GDPમાં સૌથી વધુ યોગદાન આપતા ઉદ્યોગોના મુખ્ય વ્યવસાયોમાંથી કાર્યો લીધા હતા.
લોકો ઘણીવાર સમાજ પર AIના વ્યાપક પ્રભાવ વિશે અનુમાન લગાવે છે, પરંતુ તેની સંભાવના સમજવાનો સૌથી સ્પષ્ટ માર્ગ એ જોવાનો છે કે મોડલો પહેલેથી શું કરી શકે છે. ઇતિહાસ બતાવે છે કે ઇન્ટરનેટથી લઈને સ્માર્ટફોન સુધીની મોટી ટેક્નોલોજીઓને શોધથી વ્યાપક સ્વીકાર સુધી પહોંચવામાં દાયકાથી વધુ સમય લાગ્યો હતો. GDPval જેવા મૂલ્યાંકનો ભવિષ્યના AI સુધારાઓ વિશેની ચર્ચાઓને અંદાજ કરતાં પુરાવામાં આધારિત બનાવવામાં મદદ કરે છે, અને સમય સાથે મોડલ સુધારાને ટ્રેક કરવામાં પણ મદદ કરી શકે છે.
અગાઉના AI મૂલ્યાંકનો જેમ કે કઠિન શૈક્ષણિક પરીક્ષાઓ અને સ્પર્ધાત્મક કોડિંગ પડકારો મોડલ રિઝનિંગ ક્ષમતાઓની સીમાઓ આગળ ધપાવવામાં અત્યંત મહત્વપૂર્ણ રહ્યા છે, પરંતુ ઘણીવાર તેઓ રોજિંદા કામમાં ઘણા લોકો સંભાળતા કાર્યો જેવા નથી હોતા.
આ અંતરને પાટું પાડવા માટે, અમે એવા મૂલ્યાંકનો વિકસાવી રહ્યા છીએ જે વધતી જતી વાસ્તવિક અને આર્થિક રીતે સંબંધિત ક્ષમતાઓ માપે છે. આ પ્રગતિ MMLU જેવી પરંપરાગત શૈક્ષણિક બેન્ચમાર્ક્સ (ડઝનો વિષયો પર પરીક્ષા-શૈલીના પ્રશ્નો) થી શરૂ થઈને, વધુ લાગુ મૂલ્યાંકનો જેમ કે SWE-Bench (સોફ્ટવેર એન્જિનિયરિંગ બગ-ફિક્સિંગ કાર્યો), MLE-Bench (મશીન લર્નિંગ એન્જિનિયરિંગ કાર્યો જેમ કે મોડલ ટ્રેનિંગ અને વિશ્લેષણ), અને Paper-Bench (વૈજ્ઞાનિક રિઝનિંગ અને સંશોધન પેપર્સ પર સમીક્ષા), અને વધુ તાજેતરમાં SWE-Lancer (વાસ્તવિક ચૂકવણીઓ આધારિત ફ્રીલાન્સ સોફ્ટવેર એન્જિનિયરિંગ પ્રોજેક્ટ્સ) જેવા બજાર-આધારિત મૂલ્યાંકનો સુધી પહોંચી છે.
GDPval આ પ્રગતિનું આગળનું પગલું છે. તે વ્યવસાયોની અને ક્ષેત્રોની વિશાળ શ્રેણીમાં અનુભવી વ્યાવસાયિકોના વાસ્તવિક જ્ઞાન-આધારિત કામમાંથી સીધા લેવામાં આવેલા કાર્યો પર મોડલ પ્રદર્શન માપે છે, જેથી મોડલો આર્થિક રીતે મૂલ્યવાન કાર્યો પર કેવી રીતે પ્રદર્શન કરે છે તેનો વધુ સ્પષ્ટ દૃશ્ય મળે. વાસ્તવિક વ્યવસાયિક કાર્યો પર મોડલોનું મૂલ્યાંકન કરવાથી અમને માત્ર પ્રયોગશાળામાં તેઓ કેટલા સારાં છે તે જ નહીં, પરંતુ લોકો રોજ કરે છે તે કામમાં તેઓ કેવી રીતે સહાય કરી શકે તે પણ સમજવામાં મદદ મળે છે.
GDPval, આ મૂલ્યાંકનનું પ્રથમ સંસ્કરણ, અમેરિકા ના GDPમાં યોગદાન આપતા ટોચના 9 ઉદ્યોગોમાંથી પસંદ કરાયેલા 44 વ્યવસાયોને આવરી લે છે. GDPval ના સંપૂર્ણ સેટમાં 1,320 વિશિષ્ટ કાર્યો છે (જેમાં 220 ગોલ્ડ ઓપન-સોર્સ્ડ સેટમાં છે), અને આ દરેક કાર્ય સરેરાશ 14 વર્ષથી વધુ અનુભવ ધરાવતા અનુભવી વ્યાવસાયિકો દ્વારા ખૂબ કાળજીપૂર્વક તૈયાર અને ચકાસવામાં આવ્યું છે. દરેક કાર્ય વાસ્તવિક કામના ઉત્પાદનો પર આધારિત છે, જેમ કે કાનૂની બ્રીફ, એન્જિનિયરિંગ બ્લુપ્રિન્ટ, ગ્રાહક સહાય સંવાદ, અથવા નર્સિંગ કેર પ્લાન.
GDPval તેની વાસ્તવિકતા અને મૂલ્યાંકિત કાર્યોની વિવિધતા બંનેમાં વિશિષ્ટ છે. આર્થિક મૂલ્ય સાથે જોડાયેલા અન્ય મૂલ્યાંકનો કરતાં ભિન્ન રીતે, જે ચોક્કસ ક્ષેત્રોમાં કેન્દ્રિત હોય છે (જેમ કે SWE-Lancer), GDPval ઘણા કાર્યો અને વ્યવસાયોને આવરી લે છે. અને બેન્ચમાર્ક્સથી ભિન્ન રીતે, જેમાં શૈક્ષણિક પરીક્ષા અથવા ટેસ્ટની શૈલીમાં કૃત્રિમ રીતે કાર્યો બનાવવામાં આવે છે (જેમ કે Humanity’s Last Exam અથવા MMLU), GDPval એવા ડિલિવરેબલ્સ આધારિત કાર્યો પર ધ્યાન કેન્દ્રિત કરે છે જે આજે અસ્તિત્વમાં રહેલું વાસ્તવિક કામ અથવા ઉત્પાદન છે, અથવા તે જેવી જ રીતે રચાયેલ કામનું ઉત્પાદન છે.
પરંપરાગત બેન્ચમાર્ક્સથી ભિન્ન રીતે, GDPval કાર્યો સરળ ટેક્સ્ટ પ્રોમ્પ્ટ્સ નથી. તેઓ સંદર્ભ ફાઇલો અને પરિસ્થિતિ સાથે આવે છે, અને અપેક્ષિત ડિલિવરેબલ્સમાં દસ્તાવેજો, સ્લાઇડ્સ, ડાયાગ્રામ્સ, સ્પ્રેડશીટ્સ અને મલ્ટીમિડિયા શામેલ છે. આ વાસ્તવિકતા GDPval ને મોડલો વ્યાવસાયિકોને કેવી રીતે સહાય કરી શકે તેનો વધુ વાસ્તવિક ટેસ્ટ બનાવે છે.
GDPval એક પ્રારંભિક પગલું છે અને ઘણા આર્થિક કાર્યોની સંપૂર્ણ સૂક્ષ્મતાઓને પ્રતિબિંબિત કરતું નથી. જ્યારે તે 44 વ્યવસાયો અને સેકડો જ્ઞાન-આધારિત કાર્યો આવરી લે છે, તે વન-શોટ મૂલ્યાંકન સુધી મર્યાદિત છે, તેથી તે એવી પરિસ્થિતિઓ પકડતું નથી જ્યાં મોડલને સંદર્ભ બનાવવાની અથવા અનેક ડ્રાફ્ટ્સ મારફતે સુધારવાની જરૂર પડે. ભવિષ્યના સંસ્કરણો વધુ ઇન્ટરેક્ટિવ વર્કફ્લોઝ અને સંદર્ભ-સમૃદ્ધ કાર્યો સુધી વિસ્તરશે જેથી વાસ્તવિક જ્ઞાન-આધારિત કામની જટિલતા વધુ સારી રીતે પ્રતિબિંબિત થઈ શકે (નીચેના અમારી મર્યાદાઓ વિભાગમાં વધુ જુઓ).
GDPval 9 ઉદ્યોગો અને 44 વ્યવસાયોમાંના કાર્યો આવરી લે છે, અને ભવિષ્યના સંસ્કરણો આ આવરણ વધારતા રહેશે. પ્રારંભિક 9 ઉદ્યોગો Federal Reserve Bank of St. Louis ના ડેટા મુજબ યુ.એસ. GDPમાં 5% થી વધુ યોગદાન આપતા ઉદ્યોગોના આધારે પસંદ કરાયા. પછી, અમે દરેક ઉદ્યોગમાં કુલ વેતન અને વળતરમાં સૌથી વધુ યોગદાન આપતા અને મુખ્યત્વે જ્ઞાન-આધારિત કામવાળા એવા 5 વ્યવસાયો પસંદ કર્યા, May 2024 US Bureau of Labor Statistics (BLS) occupational employment report(નવી વિન્ડોમાં ખૂલે છે) ના વેતન અને રોજગાર ડેટાનો ઉપયોગ કરીને. વ્યવસાયો મુખ્યત્વે જ્ઞાન-આધારિત કામ છે કે નહીં તે નક્કી કરવા માટે, અમે O*NET(નવી વિન્ડોમાં ખૂલે છે) ના કાર્ય ડેટાનો ઉપયોગ કર્યો, જે યુ.એસ. Department of Labor દ્વારા સમર્થિત યુ.એસ. વ્યવસાયિક માહિતીનો ડેટાબેઝ છે. અમે O*NET માં દરેક વ્યવસાય માટેના દરેક કાર્યને જ્ઞાન-આધારિત કામ અથવા શારીરિક કામ/મેન્યુઅલ શ્રમ તરીકે વર્ગીકૃત કર્યું (જેમાં ભૌતિક દુનિયામાં ક્રિયાઓ કરવાની જરૂર પડે છે). જો કોઈ વ્યવસાયના ઓછામાં ઓછા 60% ઘટક કાર્યો શારીરિક કામ અથવા મેન્યુઅલ શ્રમ સાથે સંકળાયેલા ન હોય તો તેને કુલ મળીને “મુખ્યત્વે જ્ઞાન-આધારિત કામ” તરીકે લાયક ઠેરવવામાં આવ્યો. અમે GDPval ના પ્રથમ સંસ્કરણ માટે આ 60% મર્યાદાને શરૂઆતના બિંદુ તરીકે પસંદ કરી, એવા વ્યવસાયો પર ધ્યાન કેન્દ્રિત કર્યું જ્યાં AI નો વાસ્તવિક ઉત્પાદકતામાં સૌથી વધુ પ્રભાવ પડી શકે.
આ પ્રક્રિયાના પરિણામે સમાવેશ માટે 44 વ્યવસાયો મળ્યા.
રિયલ એસ્ટેટ અને ભાડે આપવું તથા લીઝિંગ
કોન્સિઅર્જીસ
પ્રોપર્ટી, રિયલ એસ્ટેટ અને સમુદાય એસોસિએશન મેનેજર્સ
રિયલ એસ્ટેટ વેચાણ એજન્ટો
રિયલ એસ્ટેટ બ્રોકર્સ
કાઉન્ટર અને ભાડા ક્લાર્ક્સ
સરકાર
મનોરંજન કર્મચારીઓ
કમ્પ્લાયન્સ અધિકારીઓ
પોલીસ અને ડિટેક્ટિવ્સના પ્રથમ-પંક્તિ સુપરવાઇઝર્સ
વહીવટી સેવા મેનેજર્સ
બાળ, કુટુંબ અને શાળા સામાજિક કાર્યકરો
ઉત્પાદન
મેકેનિકલ ઇજનેરો
ઔદ્યોગિક ઇજનેરો
ખરીદદારો અને ખરીદી એજન્ટો
શિપિંગ, રિસીવિંગ અને ઇન્વેન્ટરી ક્લાર્ક્સ
ઉત્પાદન અને ઓપરેટિંગ કર્મચારીઓના પ્રથમ-પંક્તિ સુપરવાઇઝર્સ
વ્યાવસાયિક, વૈજ્ઞાનિક અને તકનીકી સેવાઓ
સોફ્ટવેર ડેવલપર્સ
વકીલો
એકાઉન્ટન્ટ્સ અને ઓડિટર્સ
કમ્પ્યુટર અને માહિતી પ્રણાલી મેનેજર્સ
પ્રોજેક્ટ મેનેજમેન્ટ વિશેષજ્ઞો
આરોગ્ય સેવા અને સામાજિક સહાય
રજિસ્ટર્ડ નર્સો
નર્સ પ્રેક્ટિશનર્સ
મેડિકલ અને આરોગ્ય સેવા મેનેજર્સ
ઓફિસ અને વહીવટી સહાયક કર્મચારીઓના પ્રથમ-પંક્તિ સુપરવાઇઝર્સ
મેડિકલ સેક્રેટરીઝ અને વહીવટી સહાયકો
નાણાકીય અને વીમા
ગ્રાહક સેવા પ્રતિનિધિઓ
નાણાકીય અને રોકાણ વિશ્લેષકો
નાણાકીય મેનેજર્સ
વ્યક્તિગત નાણાકીય સલાહકારો
સિક્યોરિટીઝ, કોમોડિટીઝ અને નાણાકીય સેવાઓના વેચાણ એજન્ટો
રિટેલ વેપાર
ફાર્માસિસ્ટ્સ
રિટેલ વેચાણ કર્મચારીઓના પ્રથમ-પંક્તિ સુપરવાઇઝર્સ
જનરલ અને ઓપરેશન્સ મેનેજર્સ
ખાનગી ડિટેક્ટિવ્સ અને તપાસકર્તાઓ
હોલસેલ વેપાર
વેચાણ મેનેજર્સ
ઓર્ડર ક્લાર્ક્સ
બિન-રિટેલ વેચાણ કર્મચારીઓના પ્રથમ-પંક્તિ સુપરવાઇઝર્સ
વેચાણ પ્રતિનિધિઓ, હોલસેલ અને ઉત્પાદન, તકનીકી અને વૈજ્ઞાનિક ઉત્પાદનો સિવાય
વેચાણ પ્રતિનિધિઓ, હોલસેલ અને ઉત્પાદન, તકનીકી અને વૈજ્ઞાનિક ઉત્પાદનો
માહિતી
ઓડિયો અને વિડિયો ટેક્નિશિયન્સ
પ્રોડ્યુસર્સ અને ડિરેક્ટર્સ
સમાચાર વિશ્લેષકો, રિપોર્ટર્સ અને પત્રકારો
ફિલ્મ અને વિડિયો સંપાદકો
સંપાદકો
દરેક વ્યવસાય માટે, અમે અનુભવી વ્યાવસાયિકો સાથે મળીને એવા પ્રતિનિધિ કાર્યો તૈયાર કર્યા જે તેમના દૈનિક કામને પ્રતિબિંબિત કરે. આ વ્યાવસાયિકોનો સરેરાશ અનુભવ 14 વર્ષનો હતો, અને તેમની પ્રગતિના મજબૂત રેકોર્ડ હતા. પ્રતિનિધિત્વ વધારે થાય તે માટે અમે જાણપૂર્વક વિવિધ પ્રકારના નિષ્ણાતો ભરતી કર્યા હતા, જેમ કે અલગ-અલગ પ્રેક્ટિસ ક્ષેત્રોના અને અલગ કદની ફર્મોના વકીલો.
દરેક કાર્ય વાસ્તવિક કામનું પ્રતિનિધિત્વ કરે, બીજા વ્યાવસાયિક માટે પૂર્ણ કરી શકાય તેવું હોય, અને મૂલ્યાંકન માટે સ્પષ્ટ હોય તેની ખાતરી કરવા માટે બહુ-પગથિયાં સમીક્ષા પ્રક્રિયામાંથી પસાર થયું. સરેરાશ દરેક કાર્યને નિષ્ણાત સમીક્ષાના 5 ચક્ર મળ્યા, જેમાં અન્ય કાર્યલેખકો, વધારાના વ્યવસાયિક સમીક્ષકો અને મોડલ-આધારિત માન્યતાની ચકાસણીઓ શામેલ હતી.
પરિણામરૂપ ડેટાસેટમાં દરેક વ્યવસાય માટે 30 સંપૂર્ણપણે સમીક્ષિત કાર્યો (ફુલ-સેટ) અને અમારા ઓપન-સોર્સ્ડ ગોલ્ડ સેટમાં પ્રતિ વ્યવસાય 5 કાર્યો શામેલ છે, જે વાસ્તવિક જ્ઞાન-આધારિત કામ પર મોડલ પ્રદર્શનનું મૂલ્યાંકન કરવા માટે મજબૂત આધાર પૂરો પાડે છે.
GDPval કાર્યોના ઉદાહરણો
પ્રોમ્પ્ટ + ટાસ્ક વિષય સામગ્રી
અનુભવેલ માનવ ડિલિવરેબલ

GDPval કાર્યો પર મોડલ પ્રદર્શનનું મૂલ્યાંકન કરવા માટે, અમે નિષ્ણાત “ગ્રેડર્સ” પર નિર્ભર છીએ — એવો અનુભવી વ્યાવસાયિકોનો સમૂહ, જે ડેટાસેટમાં દર્શાવાયેલા તે જ વ્યવસાયોમાંથી આવે છે. આ ગ્રેડર્સ મોડલ-ઉત્પન્ન ડિલિવરેબલ્સની કાર્યલેખકો દ્વારા બનાવાયેલા ડિલિવરેબલ્સ સાથે બ્લાઇન્ડ સરખામણી કરે છે (AI અને માનવ દ્વારા બનાવેલા કયા છે તે જાણ્યા વગર), અને સમીક્ષા તથા ક્રમ આપે છે. પછી ગ્રેડર્સ માનવ અને AI ડિલિવરેબલ્સને ક્રમમાં મૂકે છે અને દરેક AI ડિલિવરેબલને એકબીજા સામે “better”, “as good as”, અથવા “worse than” તરીકે વર્ગીકૃત કરે છે.
કાર્યલેખકોએ તેમના વ્યવસાયો માટે વિગતવાર સ્કોરિંગ રૂબ્રિક્સ પણ બનાવ્યા, જે ગ્રેડિંગ પ્રક્રિયામાં સાતત્ય અને પારદર્શિતા ઉમેરે છે. અમે એક “automated grader” પણ બનાવ્યો, એક AI સિસ્ટમ જેને તાલીમ આપવામાં આવી છે કે માનવીય નિષ્ણાતો કોઈ ચોક્કસ ડિલિવરેબલનું મૂલ્યાંકન કેવી રીતે કરશે તેનો અંદાજ લગાવે. બીજા શબ્દોમાં કહીએ તો, દર વખતે સંપૂર્ણ નિષ્ણાત સમીક્ષા ચલાવવાને બદલે, automated grader ઝડપથી આગાહી કરી શકે છે કે લોકો કયા આઉટપુટને વધુ પસંદ કરશે. અમે evals.openai.com પર આ સાધનને પ્રયોગાત્મક સંશોધન સેવા તરીકે રિલીઝ કરી રહ્યા છીએ, પરંતુ તે હજી નિષ્ણાત ગ્રેડર્સ જેટલું વિશ્વસનીય નથી, તેથી અમે તેનો ઉપયોગ તેમને બદલવા માટે કરતા નથી.
અમને મળ્યું કે આજના શ્રેષ્ઠ અત્યાધુનિક મોડલો પહેલેથી જ ઉદ્યોગ નિષ્ણાતો દ્વારા બનાવાયેલા કાર્યની ગુણવત્તાની નજીક પહોંચી રહ્યા છે. આ ચકાસવા માટે, અમે બ્લાઇન્ડ મૂલ્યાંકનો ચલાવ્યા જેમાં ઉદ્યોગ નિષ્ણાતોએ અનેક અગ્રણી મોડલોના — GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, અને Grok 4 — ડિલિવરેબલ્સની માનવ-ઉત્પાદિત કાર્ય સાથે સરખામણી કરી. GDPval ગોલ્ડ સેટના 220 કાર્યોમાં, અમે નોંધ્યું કે ક્યારે મોડલ આઉટપુટ્સને ઉદ્યોગ નિષ્ણાતોના ડિલિવરેબલ્સ કરતાં વધુ સારા (“wins”) અથવા સમકક્ષ (“ties”) તરીકે મૂલ્યાંકિત કરાયા, જેમ કે નીચેના બાર ચાર્ટમાં દર્શાવવામાં આવ્યું છે. Claude Opus 4.1 સેટમાં શ્રેષ્ઠ પ્રદર્શન કરનાર મોડલ હતું, ખાસ કરીને એસ્થેટિક્સ (જેમ કે દસ્તાવેજ ફોર્મેટિંગ, સ્લાઇડ લેઆઉટ) માં ઉત્તમ, અને GPT‑5 ખાસ કરીને ચોકસાઈ (જેમ કે ક્ષેત્ર-વિશિષ્ટ જ્ઞાન શોધવામાં) માં ઉત્તમ રહ્યું. આ કાર્યો પર સમય સાથે સ્પષ્ટ પ્રગતિ પણ દેખાય છે. GPT‑4o (વસંત 2024માં રિલીઝ થયેલું) થી GPT‑5 (ઉનાળો 2025માં રિલીઝ થયેલું) સુધી પ્રદર્શન બે ગણાથી વધુ વધ્યું છે, સ્પષ્ટ રેખીય પ્રવૃત્તિ અનુસરતા.
વધુમાં, અમને મળ્યું કે અત્યાધુનિક મોડલો GDPval કાર્યો ઉદ્યોગ નિષ્ણાતો કરતાં આશરે 100x ઝડપથી અને 100x ઓછી કિંમતે પૂર્ણ કરી શકે છે. જોકે, આ આંકડા માત્ર શુદ્ધ મોડલ ઇન્ફરન્સ સમય અને API બિલિંગ દરોને દર્શાવે છે, અને તેથી વાસ્તવિક કાર્યસ્થળ પરિસ્થિતિઓમાં અમારા મોડલોનો ઉપયોગ કરવા માટે જરૂરી માનવીય દેખરેખ, પુનરાવર્તન અને એકીકરણ પગલાંઓને સમાવે નથી. તેમ છતાં, ખાસ કરીને તે કાર્યોના ઉપસેટમાં જ્યાં મોડલો ખાસ કરીને મજબૂત છે, અમે અપેક્ષા રાખીએ છીએ કે કોઈ કાર્ય માણસને આપતા પહેલાં મોડલને આપવાથી સમય અને પૈસા બંનેની બચત થશે.
નિષ્ણાત મૂલ્યાંકનકારોએ અગ્રણી મોડલોના ડિલિવરેબલ્સની માનવીય નિષ્ણાતો સાથે સરખામણી કરી. આજના અત્યાધુનિક મોડલો પહેલેથી જ ઉદ્યોગ નિષ્ણાતો દ્વારા ઉત્પન્ન થયેલા કાર્યની ગુણવત્તાની નજીક પહોંચી રહ્યા છે. Claude Opus 4.1 એ અડધાથી થોડા ઓછા કાર્યોમાં માનવો જેટલા સારા અથવા તેથી વધુ સારા ગણાયેલા આઉટપુટ્સ આપ્યા.
GPT‑4o થી GPT‑5 સુધી, GDPval કાર્યો પરનું પ્રદર્શન એક વર્ષમાં ત્રણ ગણાથી વધુ થયું.
અંતમાં, અમે GPT‑5 ના આંતરિક, પ્રયોગાત્મક સંસ્કરણને ધીમે ધીમે તાલીમ આપી એ જોવા માટે કે શું અમે GDPval પર પ્રદર્શન સુધારી શકીએ. અમને મળ્યું કે આ પ્રક્રિયાએ પ્રદર્શનમાં સુધારો કર્યો, જે વધુ સંભવિત સુધારાનો માર્ગ બનાવે છે. અન્ય નિયંત્રિત પ્રયોગો પણ આને સમર્થન આપે છે: મોડલ કદ વધારવું, વધુ રિઝનિંગ પગલાં પ્રોત્સાહિત કરવું, અને વધુ સમૃદ્ધ કાર્ય સંદર્ભ આપવાથી દરેકે માપી શકાય તેવા લાભ આપ્યા.
તમે અમારા પેપરમાં સંપૂર્ણ પરિણામો વાંચી શકો છો. અમે GDPval કાર્યોનો ગોલ્ડ ઉપસેટ અને જાહેર ગ્રેડિંગ સેવા પણ રિલીઝ કરી રહ્યા છીએ જેથી અન્ય સંશોધકો આ કામ પર આગળ કામ કરી શકે.
જેમ જેમ AI વધુ સક્ષમ બનશે, તેમ તે નોકરીના બજારમાં ફેરફારો લાવવાની શક્યતા છે. GDPval ના પ્રારંભિક પરિણામો દર્શાવે છે કે મોડલો પહેલેથી જ કેટલાક પુનરાવર્તિત, સારી રીતે નિર્ધારિત કાર્યો નિષ્ણાતો કરતાં વધુ ઝડપથી અને ઓછી કિંમતે કરી શકે છે. જોકે, મોટાભાગની નોકરીઓ માત્ર લખી શકાય તેવા કાર્યોનો સમૂહ નથી હોતી. GDPval દર્શાવે છે કે AI ક્યાં નિયમિત કાર્યો સંભાળી શકે જેથી લોકો કામના સર્જનાત્મક અને વધુ નિર્ણય-આધારિત ભાગો પર વધુ સમય આપી શકે. જ્યારે AI આ રીતે કામદારોને પૂરક બને છે ત્યારે તે મહત્વપૂર્ણ આર્થિક વૃદ્ધિમાં રૂપાંતરિત થઈ શકે છે. અમારું લક્ષ્ય એ છે કે આ સાધનોનો પ્રવેશ લોકતાંત્રીક બનાવી, કામદારોને પરિવર્તન દરમિયાન ટેકો આપી, અને વ્યાપક યોગદાનને ઇનામ આપતી સિસ્ટમો બનાવી AI ની “up elevator” પર સૌને રાખવું.
GDPval એક પ્રારંભિક પગલું છે. જ્યારે તે 44 વ્યવસાયો અને સેકડો કાર્યો આવરી લે છે, ત્યારે અમે અમારી પદ્ધતિને વધુ સુધારી રહ્યા છીએ જેથી અમારી તપાસનો વ્યાપ વધારી શકાય અને પરિણામોને વધુ અર્થસભર બનાવાય. મૂલ્યાંકનનું વર્તમાન સંસ્કરણ પણ વન-શોટ છે, તેથી તે એવી પરિસ્થિતિઓ પકડતું નથી જ્યાં મોડલને સંદર્ભ બનાવવાની અથવા અનેક ડ્રાફ્ટ્સ મારફતે સુધારવાની જરૂર પડે — ઉદાહરણ તરીકે, ક્લાયન્ટના પ્રતિસાદ પછી કાનૂની બ્રીફમાં ફેરફાર કરવો અથવા અસામાન્યતા ધ્યાનમાં આવ્યા પછી ડેટા વિશ્લેષણ પર ફરી કામ કરવું. વધુમાં, વાસ્તવિક દુનિયામાં કાર્યો હંમેશા પ્રોમ્પ્ટ અને રેફરન્સ ફાઇલો સાથે સ્પષ્ટ રીતે વ્યાખ્યાયિત નથી હોતા. ઉદાહરણ તરીકે, કોઈ વકીલને અસ್ಪષ્ટતા વચ્ચે માર્ગ શોધવો પડે અને પોતાના ક્લાયન્ટ સાથે વાત કરવી પડે, ત્યારબાદ જ તે નક્કી કરે કે કાનૂની બ્રીફ તૈયાર કરવું તેમને મદદ કરવા માટે યોગ્ય અભિગમ છે. અમે GDPval ને વધુ વ્યવસાયો, ઉદ્યોગો અને કાર્યપ્રકારો સુધી વિસ્તરાવવાની યોજના બનાવી રહ્યા છીએ, વધુ ઇન્ટરેક્ટિવિટી સાથે, અને અસ್ಪષ્ટતા સંભાળતા વધુ કાર્યો સાથે, જેથી લાંબા ગાળે વિવિધ જ્ઞાન-આધારિત કામમાં પ્રગતિને વધુ સારી રીતે માપી શકાય.
- જો તમે ઉદ્યોગ નિષ્ણાત હો અને GDPval માં યોગદાન આપવા રસ ધરાવતા હો, તો કૃપા કરીને અહીં તમારી રસ દર્શાવો.
- જો તમે OpenAI સાથે કામ કરતા ગ્રાહક હો અને GDPval ના ભવિષ્યના ચક્રમાં યોગદાન આપવા માંગતા હો, તો કૃપા કરીને અહીં રસ વ્યક્ત કરો.
સમુદાયની ભાગીદારી અનિવાર્ય છે — કામ પર લોકો માટે AGI ને વધુ ઉપયોગી બનાવવાના અમારા લક્ષ્યને વહેંચતા સંશોધકો, પ્રેક્ટિશનર્સ અને સંસ્થાઓ સાથે મળીને GDPval બનાવવાનો અમને ઉત્સાહ છે.


