મુખ્ય વિષય-સામગ્રી પર જાવો
OpenAI

25 સપ્ટેમ્બર, 2025

પ્રકાશનસંશોધન

વાસ્તવિક દુનિયાના કાર્યો પર અમારા મોડલોના પ્રદર્શનને માપવું

અમે GDPval રજૂ કરી રહ્યા છીએ, એક નવું મૂલ્યાંકન જે 44 વ્યવસાયોમાં આર્થિક રીતે મૂલ્યવાન વાસ્તવિક કાર્યો પર મોડલ પ્રદર્શન માપે છે.

અમારું મિશન એ સુનિશ્ચિત કરવાનો છે કે આર્ટિફિશિયલ જનરલ ઇન્ટેલિજન્સ સમગ્ર માનવજાતને લાભ આપે. અમારા મિશનના ભાગરૂપે, અમે પારદર્શક રીતે જણાવવા માંગીએ છીએ કે AI મોડલો વાસ્તવિક દુનિયામાં લોકોને કેવી રીતે મદદ કરી શકે છે. તેથી જ અમે GDPval રજૂ કરી રહ્યા છીએ: એક નવું મૂલ્યાંકન, જે અમને અમારા અને અન્યના મોડલો આર્થિક રીતે મૂલ્યવાન વાસ્તવિક કાર્યોમાં કેટલું સારું પ્રદર્શન કરે છે તે ટ્રેક કરવામાં મદદ કરવા માટે રચાયું છે. અમે આ મૂલ્યાંકનને GDPval કહીએ છીએ કારણ કે અમે ગ્રોસ ડોમેસ્ટિક પ્રોડક્ટ (GDP) ની કલ્પનાથી શરૂઆત કરી હતી, જે એક મુખ્ય આર્થિક સૂચક છે, અને GDPમાં સૌથી વધુ યોગદાન આપતા ઉદ્યોગોના મુખ્ય વ્યવસાયોમાંથી કાર્યો લીધા હતા.

લોકો ઘણીવાર સમાજ પર AIના વ્યાપક પ્રભાવ વિશે અનુમાન લગાવે છે, પરંતુ તેની સંભાવના સમજવાનો સૌથી સ્પષ્ટ માર્ગ એ જોવાનો છે કે મોડલો પહેલેથી શું કરી શકે છે. ઇતિહાસ બતાવે છે કે ઇન્ટરનેટથી લઈને સ્માર્ટફોન સુધીની મોટી ટેક્નોલોજીઓને શોધથી વ્યાપક સ્વીકાર સુધી પહોંચવામાં દાયકાથી વધુ સમય લાગ્યો હતો. GDPval જેવા મૂલ્યાંકનો ભવિષ્યના AI સુધારાઓ વિશેની ચર્ચાઓને અંદાજ કરતાં પુરાવામાં આધારિત બનાવવામાં મદદ કરે છે, અને સમય સાથે મોડલ સુધારાને ટ્રેક કરવામાં પણ મદદ કરી શકે છે.

અગાઉના AI મૂલ્યાંકનો જેમ કે કઠિન શૈક્ષણિક પરીક્ષાઓ અને સ્પર્ધાત્મક કોડિંગ પડકારો મોડલ રિઝનિંગ ક્ષમતાઓની સીમાઓ આગળ ધપાવવામાં અત્યંત મહત્વપૂર્ણ રહ્યા છે, પરંતુ ઘણીવાર તેઓ રોજિંદા કામમાં ઘણા લોકો સંભાળતા કાર્યો જેવા નથી હોતા.

આ અંતરને પાટું પાડવા માટે, અમે એવા મૂલ્યાંકનો વિકસાવી રહ્યા છીએ જે વધતી જતી વાસ્તવિક અને આર્થિક રીતે સંબંધિત ક્ષમતાઓ માપે છે. આ પ્રગતિ MMLU જેવી પરંપરાગત શૈક્ષણિક બેન્ચમાર્ક્સ (ડઝનો વિષયો પર પરીક્ષા-શૈલીના પ્રશ્નો) થી શરૂ થઈને, વધુ લાગુ મૂલ્યાંકનો જેમ કે SWE-Bench (સોફ્ટવેર એન્જિનિયરિંગ બગ-ફિક્સિંગ કાર્યો), MLE-Bench (મશીન લર્નિંગ એન્જિનિયરિંગ કાર્યો જેમ કે મોડલ ટ્રેનિંગ અને વિશ્લેષણ), અને Paper-Bench (વૈજ્ઞાનિક રિઝનિંગ અને સંશોધન પેપર્સ પર સમીક્ષા), અને વધુ તાજેતરમાં SWE-Lancer (વાસ્તવિક ચૂકવણીઓ આધારિત ફ્રીલાન્સ સોફ્ટવેર એન્જિનિયરિંગ પ્રોજેક્ટ્સ) જેવા બજાર-આધારિત મૂલ્યાંકનો સુધી પહોંચી છે.

GDPval આ પ્રગતિનું આગળનું પગલું છે. તે વ્યવસાયોની અને ક્ષેત્રોની વિશાળ શ્રેણીમાં અનુભવી વ્યાવસાયિકોના વાસ્તવિક જ્ઞાન-આધારિત કામમાંથી સીધા લેવામાં આવેલા કાર્યો પર મોડલ પ્રદર્શન માપે છે, જેથી મોડલો આર્થિક રીતે મૂલ્યવાન કાર્યો પર કેવી રીતે પ્રદર્શન કરે છે તેનો વધુ સ્પષ્ટ દૃશ્ય મળે. વાસ્તવિક વ્યવસાયિક કાર્યો પર મોડલોનું મૂલ્યાંકન કરવાથી અમને માત્ર પ્રયોગશાળામાં તેઓ કેટલા સારાં છે તે જ નહીં, પરંતુ લોકો રોજ કરે છે તે કામમાં તેઓ કેવી રીતે સહાય કરી શકે તે પણ સમજવામાં મદદ મળે છે.

GDPval શું માપે છે

GDPval, આ મૂલ્યાંકનનું પ્રથમ સંસ્કરણ, અમેરિકા ના GDPમાં યોગદાન આપતા ટોચના 9 ઉદ્યોગોમાંથી પસંદ કરાયેલા 44 વ્યવસાયોને આવરી લે છે. GDPval ના સંપૂર્ણ સેટમાં 1,320 વિશિષ્ટ કાર્યો છે (જેમાં 220 ગોલ્ડ ઓપન-સોર્સ્ડ સેટમાં છે), અને આ દરેક કાર્ય સરેરાશ 14 વર્ષથી વધુ અનુભવ ધરાવતા અનુભવી વ્યાવસાયિકો દ્વારા ખૂબ કાળજીપૂર્વક તૈયાર અને ચકાસવામાં આવ્યું છે. દરેક કાર્ય વાસ્તવિક કામના ઉત્પાદનો પર આધારિત છે, જેમ કે કાનૂની બ્રીફ, એન્જિનિયરિંગ બ્લુપ્રિન્ટ, ગ્રાહક સહાય સંવાદ, અથવા નર્સિંગ કેર પ્લાન.

GDPval તેની વાસ્તવિકતા અને મૂલ્યાંકિત કાર્યોની વિવિધતા બંનેમાં વિશિષ્ટ છે. આર્થિક મૂલ્ય સાથે જોડાયેલા અન્ય મૂલ્યાંકનો કરતાં ભિન્ન રીતે, જે ચોક્કસ ક્ષેત્રોમાં કેન્દ્રિત હોય છે (જેમ કે SWE-Lancer), GDPval ઘણા કાર્યો અને વ્યવસાયોને આવરી લે છે. અને બેન્ચમાર્ક્સથી ભિન્ન રીતે, જેમાં શૈક્ષણિક પરીક્ષા અથવા ટેસ્ટની શૈલીમાં કૃત્રિમ રીતે કાર્યો બનાવવામાં આવે છે (જેમ કે Humanity’s Last Exam અથવા MMLU), GDPval એવા ડિલિવરેબલ્સ આધારિત કાર્યો પર ધ્યાન કેન્દ્રિત કરે છે જે આજે અસ્તિત્વમાં રહેલું વાસ્તવિક કામ અથવા ઉત્પાદન છે, અથવા તે જેવી જ રીતે રચાયેલ કામનું ઉત્પાદન છે.

પરંપરાગત બેન્ચમાર્ક્સથી ભિન્ન રીતે, GDPval કાર્યો સરળ ટેક્સ્ટ પ્રોમ્પ્ટ્સ નથી. તેઓ સંદર્ભ ફાઇલો અને પરિસ્થિતિ સાથે આવે છે, અને અપેક્ષિત ડિલિવરેબલ્સમાં દસ્તાવેજો, સ્લાઇડ્સ, ડાયાગ્રામ્સ, સ્પ્રેડશીટ્સ અને મલ્ટીમિડિયા શામેલ છે. આ વાસ્તવિકતા GDPval ને મોડલો વ્યાવસાયિકોને કેવી રીતે સહાય કરી શકે તેનો વધુ વાસ્તવિક ટેસ્ટ બનાવે છે.

GDPval એક પ્રારંભિક પગલું છે અને ઘણા આર્થિક કાર્યોની સંપૂર્ણ સૂક્ષ્મતાઓને પ્રતિબિંબિત કરતું નથી. જ્યારે તે 44 વ્યવસાયો અને સેકડો જ્ઞાન-આધારિત કાર્યો આવરી લે છે, તે વન-શોટ મૂલ્યાંકન સુધી મર્યાદિત છે, તેથી તે એવી પરિસ્થિતિઓ પકડતું નથી જ્યાં મોડલને સંદર્ભ બનાવવાની અથવા અનેક ડ્રાફ્ટ્સ મારફતે સુધારવાની જરૂર પડે. ભવિષ્યના સંસ્કરણો વધુ ઇન્ટરેક્ટિવ વર્કફ્લોઝ અને સંદર્ભ-સમૃદ્ધ કાર્યો સુધી વિસ્તરશે જેથી વાસ્તવિક જ્ઞાન-આધારિત કામની જટિલતા વધુ સારી રીતે પ્રતિબિંબિત થઈ શકે (નીચેના અમારી મર્યાદાઓ વિભાગમાં વધુ જુઓ).

અમે વ્યવસાયો કેવી રીતે પસંદ કર્યા

GDPval 9 ઉદ્યોગો અને 44 વ્યવસાયોમાંના કાર્યો આવરી લે છે, અને ભવિષ્યના સંસ્કરણો આ આવરણ વધારતા રહેશે. પ્રારંભિક 9 ઉદ્યોગો Federal Reserve Bank of St. Louis ના ડેટા મુજબ યુ.એસ. GDPમાં 5% થી વધુ યોગદાન આપતા ઉદ્યોગોના આધારે પસંદ કરાયા. પછી, અમે દરેક ઉદ્યોગમાં કુલ વેતન અને વળતરમાં સૌથી વધુ યોગદાન આપતા અને મુખ્યત્વે જ્ઞાન-આધારિત કામવાળા એવા 5 વ્યવસાયો પસંદ કર્યા, May 2024 US Bureau of Labor Statistics (BLS) occupational employment report(નવી વિન્ડોમાં ખૂલે છે) ના વેતન અને રોજગાર ડેટાનો ઉપયોગ કરીને. વ્યવસાયો મુખ્યત્વે જ્ઞાન-આધારિત કામ છે કે નહીં તે નક્કી કરવા માટે, અમે O*NET(નવી વિન્ડોમાં ખૂલે છે) ના કાર્ય ડેટાનો ઉપયોગ કર્યો, જે યુ.એસ. Department of Labor દ્વારા સમર્થિત યુ.એસ. વ્યવસાયિક માહિતીનો ડેટાબેઝ છે. અમે O*NET માં દરેક વ્યવસાય માટેના દરેક કાર્યને જ્ઞાન-આધારિત કામ અથવા શારીરિક કામ/મેન્યુઅલ શ્રમ તરીકે વર્ગીકૃત કર્યું (જેમાં ભૌતિક દુનિયામાં ક્રિયાઓ કરવાની જરૂર પડે છે). જો કોઈ વ્યવસાયના ઓછામાં ઓછા 60% ઘટક કાર્યો શારીરિક કામ અથવા મેન્યુઅલ શ્રમ સાથે સંકળાયેલા ન હોય તો તેને કુલ મળીને “મુખ્યત્વે જ્ઞાન-આધારિત કામ” તરીકે લાયક ઠેરવવામાં આવ્યો. અમે GDPval ના પ્રથમ સંસ્કરણ માટે આ 60% મર્યાદાને શરૂઆતના બિંદુ તરીકે પસંદ કરી, એવા વ્યવસાયો પર ધ્યાન કેન્દ્રિત કર્યું જ્યાં AI નો વાસ્તવિક ઉત્પાદકતામાં સૌથી વધુ પ્રભાવ પડી શકે.

આ પ્રક્રિયાના પરિણામે સમાવેશ માટે 44 વ્યવસાયો મળ્યા.

રિયલ એસ્ટેટ અને ભાડે આપવું તથા લીઝિંગ

  • કોન્સિઅર્જીસ

  • પ્રોપર્ટી, રિયલ એસ્ટેટ અને સમુદાય એસોસિએશન મેનેજર્સ

  • રિયલ એસ્ટેટ વેચાણ એજન્ટો

  • રિયલ એસ્ટેટ બ્રોકર્સ

  • કાઉન્ટર અને ભાડા ક્લાર્ક્સ

સરકાર

  • મનોરંજન કર્મચારીઓ

  • કમ્પ્લાયન્સ અધિકારીઓ

  • પોલીસ અને ડિટેક્ટિવ્સના પ્રથમ-પંક્તિ સુપરવાઇઝર્સ

  • વહીવટી સેવા મેનેજર્સ

  • બાળ, કુટુંબ અને શાળા સામાજિક કાર્યકરો

ઉત્પાદન

  • મેકેનિકલ ઇજનેરો

  • ઔદ્યોગિક ઇજનેરો

  • ખરીદદારો અને ખરીદી એજન્ટો

  • શિપિંગ, રિસીવિંગ અને ઇન્વેન્ટરી ક્લાર્ક્સ

  • ઉત્પાદન અને ઓપરેટિંગ કર્મચારીઓના પ્રથમ-પંક્તિ સુપરવાઇઝર્સ

વ્યાવસાયિક, વૈજ્ઞાનિક અને તકનીકી સેવાઓ

  • સોફ્ટવેર ડેવલપર્સ

  • વકીલો

  • એકાઉન્ટન્ટ્સ અને ઓડિટર્સ

  • કમ્પ્યુટર અને માહિતી પ્રણાલી મેનેજર્સ

  • પ્રોજેક્ટ મેનેજમેન્ટ વિશેષજ્ઞો

આરોગ્ય સેવા અને સામાજિક સહાય

  • રજિસ્ટર્ડ નર્સો

  • નર્સ પ્રેક્ટિશનર્સ

  • મેડિકલ અને આરોગ્ય સેવા મેનેજર્સ

  • ઓફિસ અને વહીવટી સહાયક કર્મચારીઓના પ્રથમ-પંક્તિ સુપરવાઇઝર્સ

  • મેડિકલ સેક્રેટરીઝ અને વહીવટી સહાયકો

નાણાકીય અને વીમા

  • ગ્રાહક સેવા પ્રતિનિધિઓ

  • નાણાકીય અને રોકાણ વિશ્લેષકો

  • નાણાકીય મેનેજર્સ

  • વ્યક્તિગત નાણાકીય સલાહકારો

  • સિક્યોરિટીઝ, કોમોડિટીઝ અને નાણાકીય સેવાઓના વેચાણ એજન્ટો

રિટેલ વેપાર

  • ફાર્માસિસ્ટ્સ

  • રિટેલ વેચાણ કર્મચારીઓના પ્રથમ-પંક્તિ સુપરવાઇઝર્સ

  • જનરલ અને ઓપરેશન્સ મેનેજર્સ

  • ખાનગી ડિટેક્ટિવ્સ અને તપાસકર્તાઓ

હોલસેલ વેપાર

  • વેચાણ મેનેજર્સ

  • ઓર્ડર ક્લાર્ક્સ

  • બિન-રિટેલ વેચાણ કર્મચારીઓના પ્રથમ-પંક્તિ સુપરવાઇઝર્સ

  • વેચાણ પ્રતિનિધિઓ, હોલસેલ અને ઉત્પાદન, તકનીકી અને વૈજ્ઞાનિક ઉત્પાદનો સિવાય

  • વેચાણ પ્રતિનિધિઓ, હોલસેલ અને ઉત્પાદન, તકનીકી અને વૈજ્ઞાનિક ઉત્પાદનો

માહિતી

  • ઓડિયો અને વિડિયો ટેક્નિશિયન્સ

  • પ્રોડ્યુસર્સ અને ડિરેક્ટર્સ

  • સમાચાર વિશ્લેષકો, રિપોર્ટર્સ અને પત્રકારો

  • ફિલ્મ અને વિડિયો સંપાદકો

  • સંપાદકો

GDPval 9 ક્ષેત્રોમાં 44 જ્ઞાન-આધારિત કામવાળા વ્યવસાયોને આવરી લે છે, સોફ્ટવેર ડેવલપર્સ અને વકીલોથી લઈને રજિસ્ટર્ડ નર્સો અને મેકેનિકલ ઇજનેરો સુધી. આ વ્યવસાયો તેમની આર્થિક મહત્વતા માટે પસંદ કરાયા હતા અને તે દૈનિક કામના પ્રકારોને પ્રતિનિધિત્વ આપે છે જ્યાં AI વ્યાવસાયિકોને અર્થપૂર્ણ રીતે મદદ કરી શકે છે.

અમે ડેટાસેટ કેવી રીતે બનાવ્યો

દરેક વ્યવસાય માટે, અમે અનુભવી વ્યાવસાયિકો સાથે મળીને એવા પ્રતિનિધિ કાર્યો તૈયાર કર્યા જે તેમના દૈનિક કામને પ્રતિબિંબિત કરે. આ વ્યાવસાયિકોનો સરેરાશ અનુભવ 14 વર્ષનો હતો, અને તેમની પ્રગતિના મજબૂત રેકોર્ડ હતા. પ્રતિનિધિત્વ વધારે થાય તે માટે અમે જાણપૂર્વક વિવિધ પ્રકારના નિષ્ણાતો ભરતી કર્યા હતા, જેમ કે અલગ-અલગ પ્રેક્ટિસ ક્ષેત્રોના અને અલગ કદની ફર્મોના વકીલો.

દરેક કાર્ય વાસ્તવિક કામનું પ્રતિનિધિત્વ કરે, બીજા વ્યાવસાયિક માટે પૂર્ણ કરી શકાય તેવું હોય, અને મૂલ્યાંકન માટે સ્પષ્ટ હોય તેની ખાતરી કરવા માટે બહુ-પગથિયાં સમીક્ષા પ્રક્રિયામાંથી પસાર થયું. સરેરાશ દરેક કાર્યને નિષ્ણાત સમીક્ષાના 5 ચક્ર મળ્યા, જેમાં અન્ય કાર્યલેખકો, વધારાના વ્યવસાયિક સમીક્ષકો અને મોડલ-આધારિત માન્યતાની ચકાસણીઓ શામેલ હતી.

પરિણામરૂપ ડેટાસેટમાં દરેક વ્યવસાય માટે 30 સંપૂર્ણપણે સમીક્ષિત કાર્યો (ફુલ-સેટ) અને અમારા ઓપન-સોર્સ્ડ ગોલ્ડ સેટમાં પ્રતિ વ્યવસાય 5 કાર્યો શામેલ છે, જે વાસ્તવિક જ્ઞાન-આધારિત કામ પર મોડલ પ્રદર્શનનું મૂલ્યાંકન કરવા માટે મજબૂત આધાર પૂરો પાડે છે.

GDPval કાર્યોના ઉદાહરણો

પ્રોમ્પ્ટ + ટાસ્ક વિષય સામગ્રી

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

અનુભવેલ માનવ ડિલિવરેબલ

કેબલ રીલની ડિઝાઇનનું વિસ્ફોટિત દૃશ્ય
GDPval માં દરેક કાર્ય એક અનુભવી વ્યાવસાયિક દ્વારા રચાયેલું છે અને તેમના વ્યવસાયના વાસ્તવિક જ્ઞાન-આધારિત કામને પ્રતિબિંબિત કરે છે. પ્રોમ્પ્ટ એક ડોમેન નિષ્ણાત દ્વારા બનાવાયેલ વાસ્તવિક કાર્ય સોંપણી છે, અને ગોલ્ડ ડિલિવરેબલ નિષ્ણાતનું પોતાનું સમાધાન છે.

અમે મોડલ પ્રદર્શનને કેવી રીતે ગ્રેડ કરીએ છીએ

GDPval કાર્યો પર મોડલ પ્રદર્શનનું મૂલ્યાંકન કરવા માટે, અમે નિષ્ણાત “ગ્રેડર્સ” પર નિર્ભર છીએ — એવો અનુભવી વ્યાવસાયિકોનો સમૂહ, જે ડેટાસેટમાં દર્શાવાયેલા તે જ વ્યવસાયોમાંથી આવે છે. આ ગ્રેડર્સ મોડલ-ઉત્પન્ન ડિલિવરેબલ્સની કાર્યલેખકો દ્વારા બનાવાયેલા ડિલિવરેબલ્સ સાથે બ્લાઇન્ડ સરખામણી કરે છે (AI અને માનવ દ્વારા બનાવેલા કયા છે તે જાણ્યા વગર), અને સમીક્ષા તથા ક્રમ આપે છે. પછી ગ્રેડર્સ માનવ અને AI ડિલિવરેબલ્સને ક્રમમાં મૂકે છે અને દરેક AI ડિલિવરેબલને એકબીજા સામે “better”, “as good as”, અથવા “worse than” તરીકે વર્ગીકૃત કરે છે.

કાર્યલેખકોએ તેમના વ્યવસાયો માટે વિગતવાર સ્કોરિંગ રૂબ્રિક્સ પણ બનાવ્યા, જે ગ્રેડિંગ પ્રક્રિયામાં સાતત્ય અને પારદર્શિતા ઉમેરે છે. અમે એક “automated grader” પણ બનાવ્યો, એક AI સિસ્ટમ જેને તાલીમ આપવામાં આવી છે કે માનવીય નિષ્ણાતો કોઈ ચોક્કસ ડિલિવરેબલનું મૂલ્યાંકન કેવી રીતે કરશે તેનો અંદાજ લગાવે. બીજા શબ્દોમાં કહીએ તો, દર વખતે સંપૂર્ણ નિષ્ણાત સમીક્ષા ચલાવવાને બદલે, automated grader ઝડપથી આગાહી કરી શકે છે કે લોકો કયા આઉટપુટને વધુ પસંદ કરશે. અમે evals.openai.com પર આ સાધનને પ્રયોગાત્મક સંશોધન સેવા તરીકે રિલીઝ કરી રહ્યા છીએ, પરંતુ તે હજી નિષ્ણાત ગ્રેડર્સ જેટલું વિશ્વસનીય નથી, તેથી અમે તેનો ઉપયોગ તેમને બદલવા માટે કરતા નથી.

પ્રારંભિક પરિણામો

અમને મળ્યું કે આજના શ્રેષ્ઠ અત્યાધુનિક મોડલો પહેલેથી જ ઉદ્યોગ નિષ્ણાતો દ્વારા બનાવાયેલા કાર્યની ગુણવત્તાની નજીક પહોંચી રહ્યા છે. આ ચકાસવા માટે, અમે બ્લાઇન્ડ મૂલ્યાંકનો ચલાવ્યા જેમાં ઉદ્યોગ નિષ્ણાતોએ અનેક અગ્રણી મોડલોના — GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, અને Grok 4 — ડિલિવરેબલ્સની માનવ-ઉત્પાદિત કાર્ય સાથે સરખામણી કરી. GDPval ગોલ્ડ સેટના 220 કાર્યોમાં, અમે નોંધ્યું કે ક્યારે મોડલ આઉટપુટ્સને ઉદ્યોગ નિષ્ણાતોના ડિલિવરેબલ્સ કરતાં વધુ સારા (“wins”) અથવા સમકક્ષ (“ties”) તરીકે મૂલ્યાંકિત કરાયા, જેમ કે નીચેના બાર ચાર્ટમાં દર્શાવવામાં આવ્યું છે. Claude Opus 4.1 સેટમાં શ્રેષ્ઠ પ્રદર્શન કરનાર મોડલ હતું, ખાસ કરીને એસ્થેટિક્સ (જેમ કે દસ્તાવેજ ફોર્મેટિંગ, સ્લાઇડ લેઆઉટ) માં ઉત્તમ, અને GPT‑5 ખાસ કરીને ચોકસાઈ (જેમ કે ક્ષેત્ર-વિશિષ્ટ જ્ઞાન શોધવામાં) માં ઉત્તમ રહ્યું. આ કાર્યો પર સમય સાથે સ્પષ્ટ પ્રગતિ પણ દેખાય છે. GPT‑4o (વસંત 2024માં રિલીઝ થયેલું) થી GPT‑5 (ઉનાળો 2025માં રિલીઝ થયેલું) સુધી પ્રદર્શન બે ગણાથી વધુ વધ્યું છે, સ્પષ્ટ રેખીય પ્રવૃત્તિ અનુસરતા.

વધુમાં, અમને મળ્યું કે અત્યાધુનિક મોડલો GDPval કાર્યો ઉદ્યોગ નિષ્ણાતો કરતાં આશરે 100x ઝડપથી અને 100x ઓછી કિંમતે પૂર્ણ કરી શકે છે. જોકે, આ આંકડા માત્ર શુદ્ધ મોડલ ઇન્ફરન્સ સમય અને API બિલિંગ દરોને દર્શાવે છે, અને તેથી વાસ્તવિક કાર્યસ્થળ પરિસ્થિતિઓમાં અમારા મોડલોનો ઉપયોગ કરવા માટે જરૂરી માનવીય દેખરેખ, પુનરાવર્તન અને એકીકરણ પગલાંઓને સમાવે નથી. તેમ છતાં, ખાસ કરીને તે કાર્યોના ઉપસેટમાં જ્યાં મોડલો ખાસ કરીને મજબૂત છે, અમે અપેક્ષા રાખીએ છીએ કે કોઈ કાર્ય માણસને આપતા પહેલાં મોડલને આપવાથી સમય અને પૈસા બંનેની બચત થશે.

નિષ્ણાત મૂલ્યાંકનકારોએ અગ્રણી મોડલોના ડિલિવરેબલ્સની માનવીય નિષ્ણાતો સાથે સરખામણી કરી. આજના અત્યાધુનિક મોડલો પહેલેથી જ ઉદ્યોગ નિષ્ણાતો દ્વારા ઉત્પન્ન થયેલા કાર્યની ગુણવત્તાની નજીક પહોંચી રહ્યા છે. Claude Opus 4.1 એ અડધાથી થોડા ઓછા કાર્યોમાં માનવો જેટલા સારા અથવા તેથી વધુ સારા ગણાયેલા આઉટપુટ્સ આપ્યા.

GPT‑4o થી GPT‑5 સુધી, GDPval કાર્યો પરનું પ્રદર્શન એક વર્ષમાં ત્રણ ગણાથી વધુ થયું.

અંતમાં, અમે GPT‑5 ના આંતરિક, પ્રયોગાત્મક સંસ્કરણને ધીમે ધીમે તાલીમ આપી એ જોવા માટે કે શું અમે GDPval પર પ્રદર્શન સુધારી શકીએ. અમને મળ્યું કે આ પ્રક્રિયાએ પ્રદર્શનમાં સુધારો કર્યો, જે વધુ સંભવિત સુધારાનો માર્ગ બનાવે છે. અન્ય નિયંત્રિત પ્રયોગો પણ આને સમર્થન આપે છે: મોડલ કદ વધારવું, વધુ રિઝનિંગ પગલાં પ્રોત્સાહિત કરવું, અને વધુ સમૃદ્ધ કાર્ય સંદર્ભ આપવાથી દરેકે માપી શકાય તેવા લાભ આપ્યા.

તમે અમારા પેપરમાં સંપૂર્ણ પરિણામો વાંચી શકો છો. અમે GDPval કાર્યોનો ગોલ્ડ ઉપસેટ અને જાહેર ગ્રેડિંગ સેવા પણ રિલીઝ કરી રહ્યા છીએ જેથી અન્ય સંશોધકો આ કામ પર આગળ કામ કરી શકે.

કામનું ભવિષ્ય અને AI

જેમ જેમ AI વધુ સક્ષમ બનશે, તેમ તે નોકરીના બજારમાં ફેરફારો લાવવાની શક્યતા છે. GDPval ના પ્રારંભિક પરિણામો દર્શાવે છે કે મોડલો પહેલેથી જ કેટલાક પુનરાવર્તિત, સારી રીતે નિર્ધારિત કાર્યો નિષ્ણાતો કરતાં વધુ ઝડપથી અને ઓછી કિંમતે કરી શકે છે. જોકે, મોટાભાગની નોકરીઓ માત્ર લખી શકાય તેવા કાર્યોનો સમૂહ નથી હોતી. GDPval દર્શાવે છે કે AI ક્યાં નિયમિત કાર્યો સંભાળી શકે જેથી લોકો કામના સર્જનાત્મક અને વધુ નિર્ણય-આધારિત ભાગો પર વધુ સમય આપી શકે. જ્યારે AI આ રીતે કામદારોને પૂરક બને છે ત્યારે તે મહત્વપૂર્ણ આર્થિક વૃદ્ધિમાં રૂપાંતરિત થઈ શકે છે. અમારું લક્ષ્ય એ છે કે આ સાધનોનો પ્રવેશ લોકતાંત્રીક બનાવી, કામદારોને પરિવર્તન દરમિયાન ટેકો આપી, અને વ્યાપક યોગદાનને ઇનામ આપતી સિસ્ટમો બનાવી AI ની “up elevator” પર સૌને રાખવું.

મર્યાદાઓ અને આગળ શું

GDPval એક પ્રારંભિક પગલું છે. જ્યારે તે 44 વ્યવસાયો અને સેકડો કાર્યો આવરી લે છે, ત્યારે અમે અમારી પદ્ધતિને વધુ સુધારી રહ્યા છીએ જેથી અમારી તપાસનો વ્યાપ વધારી શકાય અને પરિણામોને વધુ અર્થસભર બનાવાય. મૂલ્યાંકનનું વર્તમાન સંસ્કરણ પણ વન-શોટ છે, તેથી તે એવી પરિસ્થિતિઓ પકડતું નથી જ્યાં મોડલને સંદર્ભ બનાવવાની અથવા અનેક ડ્રાફ્ટ્સ મારફતે સુધારવાની જરૂર પડે — ઉદાહરણ તરીકે, ક્લાયન્ટના પ્રતિસાદ પછી કાનૂની બ્રીફમાં ફેરફાર કરવો અથવા અસામાન્યતા ધ્યાનમાં આવ્યા પછી ડેટા વિશ્લેષણ પર ફરી કામ કરવું. વધુમાં, વાસ્તવિક દુનિયામાં કાર્યો હંમેશા પ્રોમ્પ્ટ અને રેફરન્સ ફાઇલો સાથે સ્પષ્ટ રીતે વ્યાખ્યાયિત નથી હોતા. ઉદાહરણ તરીકે, કોઈ વકીલને અસ್ಪષ્ટતા વચ્ચે માર્ગ શોધવો પડે અને પોતાના ક્લાયન્ટ સાથે વાત કરવી પડે, ત્યારબાદ જ તે નક્કી કરે કે કાનૂની બ્રીફ તૈયાર કરવું તેમને મદદ કરવા માટે યોગ્ય અભિગમ છે. અમે GDPval ને વધુ વ્યવસાયો, ઉદ્યોગો અને કાર્યપ્રકારો સુધી વિસ્તરાવવાની યોજના બનાવી રહ્યા છીએ, વધુ ઇન્ટરેક્ટિવિટી સાથે, અને અસ್ಪષ્ટતા સંભાળતા વધુ કાર્યો સાથે, જેથી લાંબા ગાળે વિવિધ જ્ઞાન-આધારિત કામમાં પ્રગતિને વધુ સારી રીતે માપી શકાય.

જોડાઓ

  • જો તમે ઉદ્યોગ નિષ્ણાત હો અને GDPval માં યોગદાન આપવા રસ ધરાવતા હો, તો કૃપા કરીને અહીં તમારી રસ દર્શાવો.
  • જો તમે OpenAI સાથે કામ કરતા ગ્રાહક હો અને GDPval ના ભવિષ્યના ચક્રમાં યોગદાન આપવા માંગતા હો, તો કૃપા કરીને અહીં રસ વ્યક્ત કરો.

સમુદાયની ભાગીદારી અનિવાર્ય છે — કામ પર લોકો માટે AGI ને વધુ ઉપયોગી બનાવવાના અમારા લક્ષ્યને વહેંચતા સંશોધકો, પ્રેક્ટિશનર્સ અને સંસ્થાઓ સાથે મળીને GDPval બનાવવાનો અમને ઉત્સાહ છે.