യഥാർത്ഥ ലോക ടാസ്കുകളിൽ ഞങ്ങളുടെ മോഡലുകളുടെ പ്രകടനം അളക്കൽ
ഞങ്ങൾ GDPval എന്ന പുതിയ മൂല്യനിർണ്ണയം അവതരിപ്പിക്കുന്നു, ഇത് 44 തൊഴിൽ മേഖലകളിലുടനീളം സാമ്പത്തികമായി മൂല്യവത്തായ യഥാർത്ഥ ലോക ടാസ്കുകളിൽ മോഡൽ പ്രകടനം അളക്കുന്നു.
ആർട്ടിഫിഷ്യൽ ജനറൽ ഇന്റലിജൻസ് മുഴുവൻ മനുഷ്യരാശിക്കും പ്രയോജനപ്പെടുന്നുവെന്ന് ഉറപ്പാക്കുകയാണ് ഞങ്ങളുടെ ദൗത്യം. ഞങ്ങളുടെ ദൗത്യത്തിന്റെ ഭാഗമായിട്ടാണ്, AI മോഡലുകൾ യഥാർത്ഥ ലോകത്ത് ആളുകളെ എങ്ങനെ സഹായിക്കാമെന്ന് സുതാര്യമായി ആശയവിനിമയം നടത്താൻ ഞങ്ങൾ ആഗ്രഹിക്കുന്നു. അതുകൊണ്ടാണ് ഞങ്ങൾ GDPval അവതരിപ്പിക്കുന്നത്: സാമ്പത്തികമായി മൂല്യവത്തായ യഥാർത്ഥ ലോക ടാസ്കുകളിൽ ഞങ്ങളുടെ മോഡലുകളും മറ്റുള്ളവയും എത്രത്തോളം മികച്ച പ്രകടനം കാഴ്ചവെക്കുന്നു എന്ന് നിരീക്ഷിക്കാൻ സഹായിക്കുന്ന ഒരു പുതിയ വിലയിരുത്തൽ. ഞങ്ങൾ ഈ വിലയിരുത്തലിനെ GDPval എന്ന് വിളിക്കുന്നു, കാരണം പ്രധാന സാമ്പത്തിക സൂചികയായ മൊത്ത ആഭ്യന്തര ഉൽപ്പന്നം (GDP) എന്ന ആശയത്തിൽ നിന്ന് ഞങ്ങൾ ആരംഭിച്ചു, GDP-യിലേക്ക് ഏറ്റവും കൂടുതൽ സംഭാവന ചെയ്യുന്ന വ്യവസായങ്ങളിലെ പ്രധാന തൊഴിൽ മേഖലകളിൽ നിന്ന് ടാസ്കുകൾ എടുത്തു.
AI സമൂഹത്തിൽ ഉണ്ടാക്കുന്ന വ്യാപകമായ സ്വാധീനത്തെക്കുറിച്ച് ആളുകൾ പലപ്പോഴും അനുമാനിക്കാറുണ്ട്, പക്ഷേ മോഡലുകൾ ഇതിനകം ചെയ്യാൻ കഴിയുന്ന കാര്യങ്ങളെ നോക്കിയാൽ അതിന്റെ സാധ്യത മനസ്സിലാക്കാനുള്ള ഏറ്റവും വ്യക്തമായ മാർഗ്ഗമാണ്. ചരിത്രം കാണിക്കുന്നത് പ്രധാന സാങ്കേതികവിദ്യകൾ—ഇന്റർനെറ്റിൽ നിന്ന് സ്മാർട്ട്ഫോണുകളിലേക്ക്—Go ആവിഷ്കാരത്തിൽ നിന്ന് വ്യാപകമായ സ്വീകരണത്തിലേക്ക് എത്താൻ പത്താണ്ടിൽ കൂടുതൽ എടുത്തു. GDPval പോലുള്ള വിലയിരുത്തലുകൾ ഭാവിയിലെ AI മെച്ചപ്പെടുത്തലുകളെക്കുറിച്ചുള്ള സംഭാഷണങ്ങളെ ഊഹക്കളിയല്ലാതെ തെളിവുകളെ അടിസ്ഥാനമാക്കി നിലനിർത്താൻ സഹായിക്കുന്നു, കൂടാതെ മോഡൽ മെച്ചപ്പെടുത്തലുകൾ സമയത്തിനൊപ്പം പിന്തുടരാനും സഹായിക്കും.
മുൻ AI വിലയിരുത്തലുകൾ, വെല്ലുവിളി നിറഞ്ഞ അക്കാദമിക് പരീക്ഷകളും മത്സരാത്മക കോഡിംഗ് ചലഞ്ചുകളും പോലുള്ളവ, മോഡൽ റീസണിംഗ് കഴിവുകളുടെ അതിർത്തികൾ തള്ളിക്കളയുന്നതിൽ നിർണായകമായിരുന്നു, പക്ഷേ അവ പലപ്പോഴും പലരും അവരുടെ ദൈനംദിന ജോലിയിൽ കൈകാര്യം ചെയ്യുന്ന തരത്തിലുള്ള ടാസ്കുകൾക്കു വേണ്ടി പോരാ.
ഈ വിടവ് നികത്തുന്നതിനായി, കൂടുതൽ യാഥാർത്ഥ്യപരവും സാമ്പത്തികപരവുമായ പ്രസക്തമായ കഴിവുകൾ അളക്കുന്ന മൂല്യനിർണ്ണയങ്ങൾ ഞങ്ങൾ വികസിപ്പിച്ചുകൊണ്ടിരിക്കുന്നു. ഈ പുരോഗതി ക്ലാസിക് അക്കാദമിക് ബെഞ്ച്മാർക്കുകളിൽ നിന്ന് MMLU (പല വിഷയങ്ങളിലായി പരീക്ഷാ-ശൈലി ചോദ്യങ്ങൾ) പോലുള്ളവയിലേക്ക്, കൂടുതൽ പ്രായോഗികമായ മൂല്യനിർണ്ണയങ്ങളിലേക്ക് നീങ്ങിയിട്ടുണ്ട്, ഉദാഹരണത്തിന് SWE-Bench (സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗ് ബഗ്-ഫിക്സിംഗ് ടാസ്കുകൾ), MLE-Bench (മോഡൽ പരിശീലനം, വിശകലനം പോലുള്ള മെഷീൻ ലേണിംഗ് എഞ്ചിനീയറിംഗ് ടാസ്കുകൾ), Paper-Bench (ഗവേഷണ പ്രബന്ധങ്ങളിൽ ശാസ്ത്രീയ തർക്കവും വിമർശനവും), കൂടാതെ ഏറ്റവും പുതിയതായി SWE-Lancer (യഥാർത്ഥ പെയ്മെന്റുകൾ അടിസ്ഥാനമാക്കിയുള്ള ഫ്രീലാൻസ് സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗ് പദ്ധതികൾ) പോലുള്ള വിപണി-അടിസ്ഥാനമാക്കിയ മൂല്യനിർണ്ണയങ്ങളിലേക്ക്.
GDPval ആ പുരോഗതിയിലെ അടുത്ത ഘട്ടമാണ്. ഇത് വൈവിധ്യമാർന്ന തൊഴിൽ മേഖലകളിലും സെക്ടറുകളിലും പരിചയസമ്പന്നരായ പ്രൊഫഷണലുകളുടെ യഥാർത്ഥ ലോക അറിവ് പ്രവർത്തനങ്ങളിൽ നിന്ന് നേരിട്ട് എടുത്ത ടാസ്കുകളിൽ മോഡലിന്റെ പ്രകടനം അളക്കുന്നു, സാമ്പത്തികമായി മൂല്യവത്തായ ടാസ്കുകളിൽ മോഡലുകൾ എങ്ങനെ പ്രവർത്തിക്കുന്നു എന്നതിന്റെ വ്യക്തമായ ചിത്രം നൽകുന്നു. യാഥാർത്ഥ്യപരമായ തൊഴിൽ ടാസ്കുകളിൽ മോഡലുകൾ വിലയിരുത്തുന്നത് അവ ലാബിൽ എത്രത്തോളം നന്നായി പ്രവർത്തിക്കുന്നുവെന്ന് മാത്രമല്ല, അവർ ഓരോ ദിവസവും ആളുകൾ ചെയ്യുന്ന ജോലിയിൽ എങ്ങനെ പിന്തുണ നൽകുന്നുവെന്ന് മനസ്സിലാക്കാനും സഹായിക്കുന്നു.
GDPval, ഈ വിലയിരുത്തലിന്റെ ആദ്യ പതിപ്പ്, യുഎസ് GDP-യിലേക്ക് സംഭാവന ചെയ്യുന്ന മുൻനിര 9 വ്യവസായങ്ങളിൽ നിന്ന് തിരഞ്ഞെടുത്ത 44 തൊഴിൽ മേഖലകളിലായി വ്യാപിക്കുന്നു. GDPval പൂർണ്ണ സെറ്റിൽ 1,320 പ്രത്യേക ടാസ്കുകൾ ഉൾപ്പെടുന്നു (ഗോൾഡ് ഓപ്പൺ-സോഴ്സ്ഡ് സെറ്റിൽ 220), ഓരോന്നും ശരാശരി 14 വർഷത്തിലധികം പരിചയമുള്ള വിദഗ്ധർ ശ്രദ്ധാപൂർവ്വം രൂപകൽപ്പന ചെയ്തതും പരിശോധിച്ചതുമാണ്. ഓരോ ടാസ്കും ഒരു നിയമപരമായ ബ്രീഫ്, ഒരു എഞ്ചിനീയറിംഗ് ബ്ലൂപ്രിന്റ്, ഒരു ഉപഭോക്തൃ പിന്തുണ സംഭാഷണം, അല്ലെങ്കിൽ ഒരു നഴ്സിംഗ് കെയർ പദ്ധതി പോലുള്ള യഥാർത്ഥ പ്രവർത്തന ഉൽപ്പന്നങ്ങളെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്.
GDPval അതിന്റെ യാഥാർത്ഥ്യത്തിലും വിലയിരുത്തപ്പെടുന്ന ടാസ്കുകളുടെ വൈവിധ്യത്തിലും പ്രത്യേകതയുള്ളതാണ്. സാമ്പത്തിക മൂല്യവുമായി ബന്ധപ്പെട്ടു നിൽക്കുന്ന മറ്റ് മൂല്യനിർണ്ണയങ്ങൾ പ്രത്യേക ഡൊമെയ്ൻ-കളിൽ (ഉദാ., SWE-ലാൻസർ) ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നപ്പോൾ, GDPval പല ടാസ്കുകളും തൊഴിൽ മേഖലകളും ഉൾക്കൊള്ളുന്നു. അക്കാദമിക് പരീക്ഷയോ ടെസ്റ്റോ എന്ന ശൈലിയിൽ കൃത്രിമമായി ടാസ്കുകൾ സൃഷ്ടിക്കുന്ന ബെഞ്ച്മാർക്കുകളിൽ നിന്ന് വ്യത്യാസമായി (ഉദാ., ഹ്യുമാനിറ്റിയുടെ അവസാന പരീക്ഷ അല്ലെങ്കിൽ MMLU), GDPval ഇന്ന് നിലവിലുള്ള യഥാർത്ഥ ജോലിയോ ഉൽപ്പന്നമോ അല്ലെങ്കിൽ സമാനമായി നിർമ്മിച്ച ജോലിയുടെ ഡെലിവറബിൾസ് അടിസ്ഥാനമാക്കിയുള്ള ടാസ്കുകൾക്ക് പ്രാധാന്യം നൽകുന്നു.
പരമ്പരാഗത ബെഞ്ച്മാർക്കുകളിൽ നിന്ന് വ്യത്യസ്തമായി, GDPval ടാസ്കുകൾ ലളിതമായ വാചക പ്രോംപ്റ്റുകൾ അല്ല. അവയ്ക്ക് റഫറൻസ് ഫയലുകളും സന്ദർഭവും ഉണ്ടാകും, പ്രതീക്ഷിക്കുന്ന ഡെലിവറബിൾസ് ഡോക്യുമെൻ്റുകൾ, സ്ലൈഡുകൾ, ഡയഗ്രാമുകൾ, സ്പ്രെഡ്ഷീറ്റുകൾ, മൾട്ടിമീഡിയ എന്നിവയിലായി വ്യാപിക്കുന്നു. ഈ റിയലിസം GDPval പ്രൊഫഷണലുകളെ മോഡലുകൾ എങ്ങനെ പിന്തുണയ്ക്കുമെന്നതിൻ്റെ കൂടുതൽ യാഥാർത്ഥ്യബോധമുള്ള ഒരു പരീക്ഷണമാക്കി മാറ്റുന്നു.
GDPval പല സാമ്പത്തിക ടാസ്കുകളുടെ മുഴുവൻ സൂക്ഷ്മതയും പ്രതിഫലിപ്പിക്കാത്ത ഒരു പ്രാരംഭ ഘട്ടമാണ്. ഇത് 44 തൊഴിൽ മേഖലകളും നൂറുകണക്കിന് അറിവ് ടാസ്കുകളും ഉൾക്കൊള്ളുന്നുവെങ്കിലും, ഇത് ഒറ്റത്തവണ മൂല്യനിർണ്ണയങ്ങളിലേക്ക് പരിമിതമാണ്, അതിനാൽ ഒരു മോഡൽ സന്ദർഭം നിർമ്മിക്കുകയോ പല ഡ്രാഫ്റ്റുകളിലൂടെയും മെച്ചപ്പെടുത്തുകയോ ചെയ്യേണ്ട സാഹചര്യങ്ങളെ ഇത് ഉൾക്കൊള്ളുന്നില്ല. ഭാവി പതിപ്പുകൾ കൂടുതൽ ഇന്ററാക്ടീവ് വർക്ക്ഫ്ലോകളിലേക്കും യഥാർത്ഥ ലോക അറിവ് പ്രവർത്തനത്തിന്റെ സങ്കീർണ്ണതയെ മെച്ചമായി പ്രതിഫലിപ്പിക്കുന്ന സന്ദർഭ സമ്പന്നമായ ടാസ്കുകളിലേക്കും വ്യാപിപ്പിക്കും (കൂടുതൽ വിവരങ്ങൾക്ക് താഴെയുള്ള ഞങ്ങളുടെ പരിമിതികൾ വിഭാഗം കാണുക).
GDPval 9 വ്യവസായങ്ങളിലുടനീളം 44 തൊഴിൽ മേഖലകളിലെ ടാസ്കുകൾ ഉൾക്കൊള്ളുന്നു, ഭാവിയിലെ പതിപ്പുകൾ കവറേജ് വിപുലീകരിക്കുന്നത് തുടരും. അമേരിക്കൻ ജിഡിപിയിലേക്ക് 5% ൽ കൂടുതൽ സംഭാവന ചെയ്യുന്നവയെ അടിസ്ഥാനമാക്കി പ്രാരംഭ 9 വ്യവസായങ്ങൾ ഫെഡറൽ റിസർവ് ബാങ്ക് ഓഫ് സെന്റ് ലൂയിസിന്റെ ഡാറ്റ പ്രകാരം തിരഞ്ഞെടുക്കപ്പെട്ടു. അതിനുശേഷം, ഓരോ വ്യവസായത്തിലും മൊത്തം വേതനത്തിനും പ്രതിഫലനത്തിനും ഏറ്റവും കൂടുതൽ സംഭാവന ചെയ്യുന്ന, പ്രധാനമായും അറിവ് പ്രവർത്തനങ്ങളായ 5 തൊഴിൽ മേഖലകൾ ഞങ്ങൾ തിരഞ്ഞെടുത്തു, 2024 മെയ് US ബ്യൂറോ ഓഫ് ലേബർ സ്റ്റാറ്റിസ്റ്റിക്സ് (BLS) തൊഴിൽ തൊഴിൽ റിപ്പോർട്ട്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ലെ വേതനവും തൊഴിൽ ഡാറ്റയും ഉപയോഗിച്ച്. തൊഴിലുകൾ പ്രധാനമായും അറിവ് ജോലിയാണോ എന്ന് നിർണയിക്കാൻ, യുഎസ് ലേബർ ഡിപ്പാർട്ട്മെന്റ് സ്പോൺസർ ചെയ്യുന്ന യുഎസ് തൊഴിൽ വിവരങ്ങളുടെ ഡാറ്റാബേസ് O*NET(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ൽ നിന്ന് ടാസ്ക് ഡാറ്റ ഉപയോഗിച്ചു. O*NET ലെ ഓരോ തൊഴിലിനായി ഓരോ ടാസ്കും അറിവ് പ്രവർത്തനമോ ഭൗതിക പ്രവർത്തനമോ/കൈത്തൊഴിലോ (ഭൗതിക ലോകത്ത് നടപടികൾ സ്വീകരിക്കേണ്ടത്) ആണെന്ന് ഞങ്ങൾ വർഗ്ഗീകരിച്ചു. ഒരു തൊഴിൽ, അതിന്റെ ഘടക ടാസ്കുകളുടെ കുറഞ്ഞത് 60% ഭൗതിക ജോലികളോ കൈകാര്യം ചെയ്യുന്ന തൊഴിൽ അല്ലാത്തവയായി വർഗ്ഗീകരിക്കപ്പെട്ടാൽ, "പ്രധാനമായും അറിവ് ജോലികൾ" എന്നതിനെ പൊതുവായി യോഗ്യമായതായി കണക്കാക്കുന്നു. AI യഥാർത്ഥ ലോക ഉൽപ്പാദനക്ഷമതയിൽ ഏറ്റവും കൂടുതൽ സ്വാധീനം ചെലുത്തുന്ന തൊഴിൽ മേഖലകളിൽ ശ്രദ്ധ കേന്ദ്രീകരിച്ച്, GDPval-ന്റെ ആദ്യ പതിപ്പിനായി 60% ത്രെഷോൾഡ് ഒരു തുടക്കമായി ഞങ്ങൾ തിരഞ്ഞെടുത്തു.
ഈ പ്രക്രിയയിൽ ഉൾപ്പെടുത്തുന്നതിന് 44 തൊഴിലുകൾ ലഭിച്ചു.
റിയൽ എസ്റ്റേറ്റ്, വാടകയും ലീസിംഗും
കൺസിയർജുകൾ
സ്വത്ത്, റിയൽ എസ്റ്റേറ്റ്, സമൂഹ അസോസിയേഷൻ മാനേജർമാർ
റിയൽ എസ്റ്റേറ്റ് സെയിൽസ് ഏജൻ്റുമാർ
റിയൽ എസ്റ്റേറ്റ് ബ്രോക്കർമാർ
കൗണ്ടർ ക്ലർക്കുകളും വാടക ക്ലർക്കുകളും
സർക്കാർ
വിനോദ പ്രവർത്തകർ
അനുസരണ ഓഫീസർമാർ
പോലീസിന്റെയും ഡിറ്റക്റ്റീവുകളുടെയും പ്രഥമ നിര മേൽനോട്ടക്കാർ
അഡ്മിനിസ്ട്രേറ്റീവ് സേവന മാനേജർമാർ
കുട്ടി, കുടുംബം, സ്കൂൾ സാമൂഹിക പ്രവർത്തകർ
നിർമ്മാണം
മെക്കാനിക്കൽ എഞ്ചിനീയർമാർ
ഇൻഡസ്ട്രിയൽ എഞ്ചിനീയർമാർ
വാങ്ങുന്നവരും വാങ്ങൽ ഏജന്റുമാരും
ഷിപ്പിംഗ്, സ്വീകരിക്കൽ, ഇൻവെന്ററി ക്ലാർക്കുകൾ
ഉൽപ്പാദനവും പ്രവർത്തന തൊഴിലാളികളുടെയും ആദ്യനിര മേൽനോട്ടക്കാരൻമാർ
പ്രൊഫഷണൽ, ശാസ്ത്രീയ, സാങ്കേതിക സേവനങ്ങൾ
സോഫ്റ്റ്വെയർ ഡെവലപ്പർമാർ
വക്കീലുകൾ
അക്കൗണ്ടന്റുകളും ഓഡിറ്റർമാരും
കമ്പ്യൂട്ടർ ആൻഡ് ഇൻഫർമേഷൻ സിസ്റ്റം മാനേജർമാർ
പദ്ധതി മാനേജ്മെന്റ് വിദഗ്ധർ
ആരോഗ്യ പരിചരണവും സാമൂഹിക സഹായവും
രജിസ്റ്റർ ചെയ്ത നഴ്സുമാർ
നഴ്സ് പ്രാക്ടീഷണർമാർ
മെഡിക്കൽ ആൻഡ് ഹെൽത്ത് സർവീസ് മാനേജർമാർ
ഓഫീസ്, അഡ്മിനിസ്ട്രേറ്റീവ് പിന്തുണ തൊഴിലാളികളുടെ ആദ്യനിര മേൽനോട്ടക്കാരൻമാർ
മെഡിക്കൽ സെക്രട്ടറിമാരും അഡ്മിനിസ്ട്രേറ്റീവ് അസിസ്റ്റന്റുമാർ
ധനകാര്യവും ഇൻഷുറൻസും
ഉപഭോക്തൃ സേവന പ്രതിനിധികൾ
സാമ്പത്തികവും നിക്ഷേപ വിശകലന വിദഗ്ധരും
സാമ്പത്തിക മാനേജർമാർ
വ്യക്തിഗത സാമ്പത്തിക ഉപദേഷ്ടാക്കൾ
സെക്യൂരിറ്റികൾ, കൊമോഡിറ്റികൾ, സാമ്പത്തിക സേവനങ്ങൾ വിൽപ്പന ഏജൻ്റുകൾ
റീട്ടെയിൽ വ്യാപാരം
ഫാർമസിസ്റ്റുകൾ
റീട്ടെയിൽ വിൽപ്പന തൊഴിലാളികളുടെ ആദ്യനിര മേൽനോട്ടക്കാരൻമാർ
ജനറൽ ആൻഡ് ഓപ്പറേഷൻസ് മാനേജർമാർ
സ്വകാര്യ ഡിറ്റക്റ്റീവുകളും അന്വേഷണ ഉദ്യോഗസ്ഥരും
മൊത്തവ്യാപാരം
വിപണന മാനേജർമാർ
ഓർഡർ ക്ലർക്കുമാർ
റീട്ടെയിൽ അല്ലാത്ത വിൽപ്പന തൊഴിലാളികളുടെ പ്രഥമ നിര മേൽനോട്ടക്കാരൻമാർ
വിൽപ്പന പ്രതിനിധികൾ, ഹോൾസെയിൽ, നിർമ്മാണം, സാങ്കേതികവും ശാസ്ത്രീയവുമായ ഉൽപ്പന്നങ്ങൾ ഒഴികെ
വിൽപ്പന പ്രതിനിധികൾ, ഹോൾസെയിൽ, നിർമ്മാണം, സാങ്കേതികവും ശാസ്ത്രീയവുമായ ഉൽപ്പന്നങ്ങൾ
വിവരം
ഓഡിയോ, വീഡിയോ സാങ്കേതിക വിദഗ്ധർ
നിർമ്മാതാക്കളും സംവിധായകരും
വാർത്താ വിശകലനക്കാർ, റിപ്പോർട്ടർമാർ, പത്രപ്രവർത്തകർ
ഫിലിം, വീഡിയോ എഡിറ്റർമാർ
എഡിറ്റർമാർ
ഓരോ തൊഴിലും, അവരുടെ ദിവസേനയുള്ള ജോലിയെ പ്രതിഫലിപ്പിക്കുന്ന പ്രതിനിധി ടാസ്കുകൾ സൃഷ്ടിക്കുന്നതിന് പരിചയസമ്പന്നരായ പ്രൊഫഷണലുകളുമായി ഞങ്ങൾ പ്രവർത്തിച്ചു. ഈ പ്രൊഫഷണലുകൾക്ക് ശരാശരി 14 വർഷത്തെ അനുഭവസമ്പത്തുണ്ട്, ശക്തമായ പുരോഗതിയുടെ റെക്കോർഡുകളോടെ. പ്രതിനിധിത്വം പരമാവധി ഉറപ്പാക്കുന്നതിനായി, വ്യത്യസ്ത പ്രാക്ടീസ് മേഖലകളിൽ നിന്നുള്ള അഭിഭാഷകരും വ്യത്യസ്ത വലുപ്പത്തിലുള്ള സ്ഥാപനങ്ങളിലെ അഭിഭാഷകരും ഉൾപ്പെടുന്ന വിദഗ്ധരുടെ വിശാലമായ ഒരു സംഘത്തെ ഞങ്ങൾ ഉദ്ദേശപൂർവ്വം റിക്രൂട്ട് ചെയ്തു.
ഓരോ ടാസ്കും യഥാർത്ഥ ജോലിയുടെ പ്രതിനിധിയായി, മറ്റൊരു പ്രൊഫഷണൽ പൂർത്തിയാക്കാൻ സാധ്യമാകുന്ന വിധത്തിൽ, വിലയിരുത്തലിന് വ്യക്തമായതാക്കാൻ മൾട്ടി-സ്റ്റെപ്പ് റിവ്യൂ അവലോകത്തിലൂടെ പോയി. ശരാശരിയായി, ഓരോ ടാസ്കും 5 റൗണ്ട് വിദഗ്ധ അവലോകനം ലഭിച്ചു, ഇതിൽ മറ്റ് ടാസ്ക് എഴുത്തുകാരിൽ നിന്നുള്ള പരിശോധനകൾ, അധിക തൊഴിൽപരമായ അവലോകനങ്ങൾ, മോഡൽ അടിസ്ഥാനമാക്കിയുള്ള സാധുതാ പരിശോധന എന്നിവ ഉൾപ്പെടുന്നു.
ഫലമായ ഡാറ്റാസെറ്റ് ഓരോ തൊഴിൽ മേഖലക്കും 30 പൂർണ്ണമായി അവലോകനം ചെയ്ത ടാസ്കുകൾ (പൂർണ്ണ സെറ്റ്) ഉൾക്കൊള്ളുന്നു, കൂടാതെ ഞങ്ങളുടെ ഓപ്പൺ-സോഴ്സ്ഡ് ഗോൾഡ് സെറ്റിൽ ഓരോ തൊഴിൽ മേഖലക്കും 5 ടാസ്കുകൾ ഉൾപ്പെടുന്നു, യഥാർത്ഥ ലോക അറിവ് പ്രവർത്തനത്തിൽ മോഡൽ പ്രകടനം വിലയിരുത്തുന്നതിനുള്ള ശക്തമായ അടിത്തറ നൽകുന്നു.
GDPval ടാസ്കുകളുടെ ഉദാഹരണങ്ങൾ
പ്രോംപ്റ്റ് + ടാസ്ക് സന്ദർഭം
പരിചയസമ്പന്നമായ മനുഷ്യ ഡെലിവറബിൾ

GDPval ടാസ്കുകളിൽ മോഡൽ പ്രകടനം വിലയിരുത്താൻ, ഞങ്ങൾ വിദഗ്ധ "ഗ്രേഡർമാർ" എന്നറിയപ്പെടുന്ന ഒരു ഗ്രൂപ്പിനെ ആശ്രയിക്കുന്നു—ഡാറ്റാസെറ്റിൽ പ്രതിനിധീകരിക്കുന്നതുപോലുള്ള തൊഴിൽ മേഖലകളിൽ പരിചയസമ്പന്നരായ പ്രൊഫഷണലുകളുടെ ഒരു ഗ്രൂപ്പ്. ഈ ഗ്രേഡർമാർ മോഡൽ സൃഷ്ടിച്ച ഡെലിവറബിൾസിനെ ടാസ്ക് എഴുത്തുകാർ സൃഷ്ടിച്ചതുമായി (എന്താണ് AI, എന്താണ് മനുഷ്യൻ സൃഷ്ടിച്ചതെന്ന് അറിയാതെ) അന്ധമായി താരതമ്യം ചെയ്യുകയും വിമർശനങ്ങളും റാങ്കിംഗുകളും നൽകുകയും ചെയ്യുന്നു. ഗ്രേഡർമാർ മനുഷ്യനും AI ഡെലിവറിബിളുകളും റാങ്ക് ചെയ്യുകയും ഓരോ AI ഡെലിവറിബിളും മറ്റൊന്നിനേക്കാൾ "മെച്ചപ്പെട്ടത്", "ഒരുപോലെ നല്ലത്" അല്ലെങ്കിൽ "മോശം" എന്നിങ്ങനെ വർഗ്ഗീകരിക്കുകയും ചെയ്യുന്നു.
ടാസ്ക് എഴുത്തുകാർ അവരുടെ തൊഴിൽ മേഖലകൾക്കായി വിശദമായ സ്കോറിംഗ് മാനദണ്ഡങ്ങൾ സൃഷ്ടിച്ചു, ഇത് ഗ്രേഡിംഗ് പ്രക്രിയയിൽ സ്ഥിരതയും സുതാര്യതയും കൂട്ടുന്നു. ഞങ്ങൾ "ഓട്ടോമേറ്റഡ് ഗ്രേഡർ" എന്ന AI സിസ്റ്റവും നിർമ്മിച്ചു, ഇത് ഒരു ഡെലിവറബിൾ മനുഷ്യ വിദഗ്ധർ എങ്ങനെ വിലയിരുത്തുമെന്ന് കണക്കാക്കാൻ പരിശീലനം ലഭിച്ചിരിക്കുന്നു. മറ്റൊരു രീതിയിൽ പറഞ്ഞാൽ, ഓരോ തവണയും പൂർണ്ണമായ വിദഗ്ദ്ധ അവലോകനം നടത്തുന്നതിനുപകരം, ഓട്ടോമേറ്റഡ് ഗ്രേഡർ ആളുകൾക്ക് ഇഷ്ടപ്പെടാൻ സാധ്യതയുള്ള ഔട്ട്പുട്ട് എത്രയും വേഗത്തിൽ പ്രവചിക്കാൻ കഴിയും. ഞങ്ങൾ ഈ ഉപകരണം evals.openai.com വഴി പരീക്ഷണാത്മക ഗവേഷണ സേവനമായി പുറത്തിറക്കുന്നു, പക്ഷേ ഇത് വിദഗ്ദ്ധ ഗ്രേഡർമാരെ പോലെ വിശ്വസനീയമല്ല, അതിനാൽ അവരെ മാറ്റിസ്ഥാപിക്കാൻ ഞങ്ങൾ ഇത് ഉപയോഗിക്കുന്നില്ല.
ഇന്നത്തെ മികച്ച അഗ്രഗണ്യ മോഡലുകൾ വ്യവസായ വിദഗ്ധർ സൃഷ്ടിക്കുന്ന ജോലിയുടെ ഗുണനിലവാരത്തിലേക്ക് ഇതിനകം തന്നെ അടുക്കുന്നുവെന്ന് ഞങ്ങൾ കണ്ടെത്തി. ഇത് പരിശോധിക്കാൻ, വ്യവസായ വിദഗ്ധർ GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, Grok 4 എന്നിവയുൾപ്പെടെയുള്ള പ്രമുഖ മോഡലുകളിൽ നിന്നുള്ള ഡെലിവറബിൾസിനെ മനുഷ്യർ നിർമ്മിച്ച പ്രവർത്തനവുമായി താരതമ്യം ചെയ്ത ബ്ലൈൻഡ് മൂല്യനിർണയങ്ങൾ നടത്തി. GDPval ഗോൾഡ് സെറ്റിലെ 220 ടാസ്കുകളിൽ, മോഡൽ ഔട്ട്പുട്ടുകൾ വ്യവസായ വിദഗ്ധരുടെ ഡെലിവറബിൾസിനേക്കാൾ മെച്ചമാണോ (“വിജയങ്ങൾ”) അല്ലെങ്കിൽ സമാനമാണോ (“സമതലത്തിൽ”) എന്ന് ഞങ്ങൾ രേഖപ്പെടുത്തി, താഴെ കാണുന്ന ബാർ ചാർട്ടിൽ കാണിച്ചിരിക്കുന്നു. Claude Opus 4.1 ഈ സെറ്റിലെ ഏറ്റവും മികച്ച പ്രകടനം കാഴ്ചവെച്ച മോഡൽ ആയിരുന്നു, പ്രത്യേകിച്ച് എസ്തറ്റിക്സിൽ (ഉദാ., ഡോക്യുമെൻറ് ഫോർമാറ്റിംഗ്, സ്ലൈഡ് ലേഔട്ട്) മികവ് പുലർത്തി, GPT‑5 കൃത്യതയിൽ (ഉദാ., ഡൊമെയ്ൻ-സ്പെസിഫിക് അറിവ് കണ്ടെത്തൽ) പ്രത്യേകിച്ച് മികവ് പുലർത്തി. നമുക്ക് ഈ ടാസ്കുകളിൽ വ്യക്തമായ പുരോഗതി സമയത്തിനൊപ്പം കാണാൻ കഴിയും. GPT‑4o (2024 വസന്തത്തിൽ പുറത്തിറക്കിയത്) മുതൽ GPT‑5 (2025 വേനലിൽ പുറത്തിറക്കിയത്) വരെ പ്രകടനം ഇരട്ടിയിലധികം വർദ്ധിച്ചു, ഇത് വ്യക്തമായ രേഖീയ പ്രവണതയെ പിന്തുടരുന്നു.
കൂടാതെ, ഞങ്ങൾ കണ്ടെത്തിയത് അഗ്രഗണ്യ മോഡലുകൾ വ്യവസായ വിദഗ്ദ്ധരെക്കാൾ ഏകദേശം 100 മടങ്ങ് വേഗത്തിലും 100 മടങ്ങ് ചെലവുകുറവിലും GDPval ടാസ്കുകൾ പൂർത്തിയാക്കാൻ കഴിയും എന്നതാണ്. എന്നിരുന്നാലും, ഈ കണക്കുകൾ ശുദ്ധമായ മോഡൽ ഇൻഫറൻസ് സമയം, API ബില്ലിംഗ് നിരക്കുകൾ എന്നിവയെ പ്രതിഫലിപ്പിക്കുന്നു, അതിനാൽ യഥാർത്ഥ ജോലി സ്ഥലങ്ങളിൽ ഞങ്ങളുടെ മോഡലുകൾ ഉപയോഗിക്കുന്നതിന് ആവശ്യമായ മനുഷ്യ മേൽനോട്ടം, ആവർത്തനം, സംയോജനം തുടങ്ങിയ ഘട്ടങ്ങളെ ഉൾക്കൊള്ളുന്നില്ല. എങ്കിലും, മോഡലുകൾ പ്രത്യേകിച്ച് ശക്തമായ ടാസ്കുകളുടെ ഉപസമൂഹത്തിൽ, ഒരു മനുഷ്യനുമായി പരീക്ഷിക്കുന്നതിന് മുമ്പ് ഒരു ടാസ്ക് മോഡലിന് നൽകുന്ന സമയം, പണം എന്നിവ സംരക്ഷിക്കുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു.
വിദഗ്ദ്ധ ഗ്രേഡർമാർ മുൻനിര മോഡലുകളിൽ നിന്നുള്ള ഡെലിവറിബിളുകൾ മനുഷ്യ വിദഗ്ദ്ധരുമായി താരതമ്യം ചെയ്തു. ഇന്നത്തെ ഫ്രോണ്ടിയർ മോഡലുകൾ ഇതിനകം തന്നെ വ്യവസായ വിദഗ്ധർ സൃഷ്ടിക്കുന്ന പ്രവർത്തനത്തിന്റെ ഗുണനിലവാരത്തെ സമീപിക്കുന്നു. Claude Opus 4.1, ടാസ്കുകളിൽ പകുതിയോളം കാര്യങ്ങളിൽ മനുഷ്യരെക്കാൾ മികച്ചതോ തുല്യമായതോ ആയ ഔട്ട്പുട്ടുകൾ ഉത്പാദിപ്പിച്ചു.
ഒരു വർഷത്തിനുള്ളിൽ GPT‑4o മുതൽ GPT‑5 വരെ, GDPval ടാസ്കുകളിൽ പ്രകടനം മൂന്നു മടങ്ങിലധികം മെച്ചപ്പെട്ടു.
അവസാനമായി, GDPval-ൽ പ്രകടനം മെച്ചപ്പെടുത്താൻ കഴിയുമോ എന്ന് വിലയിരുത്താൻ ഞങ്ങൾ ഒരു ആന്തരിക, പരീക്ഷണാത്മക പതിപ്പായ GPT‑5‑നെ ക്രമാനുഗതമായി പരിശീലിപ്പിച്ചു. ഈ പ്രക്രിയ പ്രകടനം മെച്ചപ്പെടുത്തുകയും, കൂടുതൽ സാധ്യതയുള്ള മെച്ചപ്പെടുത്തലിനുള്ള ഒരു പാത സൃഷ്ടിക്കുകയും ചെയ്യുന്നതായി ഞങ്ങൾ കണ്ടെത്തി. മറ്റു നിയന്ത്രിത പരീക്ഷണങ്ങൾ ഇതിന് പിന്നിലേക്ക് പിന്തുണ നൽകുന്നു: മോഡൽ വലുപ്പം വർദ്ധിപ്പിക്കൽ, കൂടുതൽ യുക്തി ഘട്ടങ്ങളെ പ്രോത്സാഹിപ്പിക്കൽ, സമ്പന്നമായ ടാസ്ക് സന്ദർഭം നൽകൽ എന്നിവ ഓരോന്നും അളവുകൂടിയ നേട്ടങ്ങളിലേക്ക് നയിച്ചു.
നിങ്ങൾക്ക് പൂർണ്ണ ഫലങ്ങൾ ഞങ്ങളുടെ പേപ്പറിൽ വായിക്കാം. മറ്റു ഗവേഷകർ ഈ പ്രവർത്തനത്തെ അടിസ്ഥാനമാക്കി നിർമ്മിക്കാൻ കഴിയുന്നതിനായി, ഞങ്ങൾ GDPval ടാസ്കുകളുടെ ഒരു സ്വർണ്ണ ഉപസമൂഹവും ഒരു പൊതുജന ഗ്രേഡിംഗ് സേവനവും പുറത്തിറക്കുന്നു.
AI കൂടുതൽ കഴിവുള്ളതാകുമ്പോൾ, തൊഴിൽ വിപണിയിൽ മാറ്റങ്ങൾ ഉണ്ടാകാൻ സാധ്യതയുണ്ട്. ആദ്യകാല GDPval ഫലങ്ങൾ മോഡലുകൾക്ക് ആവർത്തനാത്മകവും, നന്നായി നിർവചിക്കപ്പെട്ട ടാസ്കുകൾ വിദഗ്ധരെക്കാൾ വേഗത്തിലും കുറഞ്ഞ ചെലവിലും കൈകാര്യം ചെയ്യാൻ കഴിയുമെന്ന് കാണിക്കുന്നു. എന്നിരുന്നാലും, മിക്ക ജോലികളും എഴുതിവെക്കാവുന്ന ടാസ്കുകളുടെ ഒരു ശേഖരത്തിലധികമാണ്. GDPval എവിടെ AI സാധാരണ ടാസ്കുകൾ കൈകാര്യം ചെയ്യാൻ കഴിയും എന്ന് ഹൈലൈറ്റ് ചെയ്യുന്നു, അതിനാൽ ആളുകൾക്ക് സൃഷ്ടിപരവും വിധിനിർണയത്തിൽ കൂടുതൽ ശ്രദ്ധ ആവശ്യമായ ജോലികളിൽ കൂടുതൽ സമയം ചെലവഴിക്കാൻ കഴിയും. AI ഈ രീതിയിൽ തൊഴിലാളികളെ പൂരകമാകുമ്പോൾ, അത് പ്രധാനപ്പെട്ട സാമ്പത്തിക വളർച്ചയിലേക്ക് മാറ്റാൻ കഴിയും. AI-യുടെ "അപ്പ് എലിവേറ്റർ" എന്ന ആശയത്തിലൂടെ എല്ലാവരെയും ഉൾപ്പെടുത്തുക, ഈ ഉപകരണങ്ങളിലേക്കുള്ള ആക്സസ് ജനാധിപത്യവൽക്കരിക്കുക, മാറ്റങ്ങളിലൂടെ തൊഴിലാളികളെ പിന്തുണയ്ക്കുക, വിശാലമായ സംഭാവനകൾക്ക് പ്രതിഫലം നൽകുന്ന സംവിധാനങ്ങൾ നിർമ്മിക്കുക എന്നതാണ് ഞങ്ങളുടെ ലക്ഷ്യം.
GDPval ഒരു പ്രാരംഭ ഘട്ടമാണ്. 44 തൊഴിൽ മേഖലകളും നൂറുകണക്കിന് ടാസ്കുകളും ഉൾക്കൊള്ളുന്നുവെങ്കിലും, ഞങ്ങൾ ഞങ്ങളുടെ പരീക്ഷണത്തിന്റെ പരിധി വികസിപ്പിക്കുകയും ഫലങ്ങൾ കൂടുതൽ അർത്ഥവത്താക്കുകയും ചെയ്യുന്നതിനായി ഞങ്ങളുടെ സമീപനം മെച്ചപ്പെടുത്തുന്നത് തുടരുന്നു. നിലവിലെ വിലയിരുത്തൽ പതിപ്പ് ഒരു-ഷോട്ട് ആണ്, അതിനാൽ ഒരു മോഡൽ സന്ദർഭം നിർമ്മിക്കേണ്ടതോ നിരവധി ഡ്രാഫ്റ്റ്കളിലൂടെ മെച്ചപ്പെടുത്തേണ്ടതോ ആയ കേസുകൾ പിടികൂടുന്നില്ല - ഉദാഹരണത്തിന്, ഉപഭോക്തൃ ഫീഡ്ബാക്ക് ലഭിച്ച ശേഷം ഒരു നിയമ ബ്രീഫ് പരിഷ്കരിക്കുകയോ, ഒരു ഡാറ്റ വിശകലനം നടത്തുമ്പോൾ ഒരു അസാധാരണത്വം കണ്ടെത്തിയ ശേഷം ആവർത്തിക്കുകയോ ചെയ്യുക. കൂടാതെ, യഥാർത്ഥ ലോകത്തിൽ, ടാസ്കുകൾ എല്ലായ്പ്പോഴും പ്രോംപ്റ്റും റഫറൻസ് ഫയലുകളും ഉപയോഗിച്ച് വ്യക്തമായി നിർവചിക്കപ്പെട്ടിരിക്കുന്നതല്ല; ഉദാഹരണത്തിന്, ഒരു അഭിഭാഷകൻ അസ്പഷ്ടതയെ മറികടന്ന് ഉപഭോക്താവുമായി സംസാരിച്ച്, അവരെ സഹായിക്കാൻ നിയമപരമായ ഒരു ബ്രീഫ് സൃഷ്ടിക്കുക എന്നത് ശരിയായ സമീപനമാണെന്ന് തീരുമാനിക്കേണ്ടി വരാം. ഞങ്ങൾ GDPval-നെ കൂടുതൽ തൊഴിൽ മേഖലകൾ, വ്യവസായങ്ങൾ, ടാസ്ക് തരം എന്നിവ ഉൾപ്പെടുത്തുന്നതിന് വിപുലീകരിക്കാൻ പദ്ധതിയിടുന്നു, കൂടാതെ കൂടുതൽ സംവേദനാത്മകതയും, അനിശ്ചിതത്വം കൈകാര്യം ചെയ്യുന്ന ടാസ്കുകൾ ഉൾപ്പെടെ, വൈവിധ്യമാർന്ന അറിവ് പ്രവർത്തനത്തിൽ പുരോഗതി മെച്ചപ്പെടുത്തുന്നതിന് ദീർഘകാല ലക്ഷ്യത്തോടെ.
- നിങ്ങൾ GDPval-ലേക്ക് സംഭാവന ചെയ്യാൻ താൽപ്പര്യമുള്ള ഒരു വ്യവസായ വിദഗ്ദ്ധനാണെങ്കിൽ , ദയവായി ഇവിടെ നിങ്ങളുടെ താൽപ്പര്യം പ്രകടിപ്പിക്കുക.
- നിങ്ങൾ OpenAI-യുമായി പ്രവർത്തിക്കുന്ന ഒരു ഉപഭോക്താവാണെങ്കിൽ ഭാവിയിലെ GDPval റൗണ്ടിലേക്ക് സംഭാവന നൽകാൻ ആഗ്രഹിക്കുന്നുവെങ്കിൽ, ദയവായി ഇവിടെ താൽപ്പര്യം പ്രകടിപ്പിക്കുക.
സമൂഹത്തിന്റെ പങ്കാളിത്തം അനിവാര്യമാണ്—ജോലി സ്ഥലത്ത് AGIയെ കൂടുതൽ പ്രയോജനപ്രദമാക്കുക എന്ന ലക്ഷ്യം പങ്കിടുന്ന ഗവേഷകരും പ്രായോഗിക വിദഗ്ധരും സംഘടനകളും ഒപ്പം ചേർന്ന് GDPval നിർമ്മിക്കാൻ ഞങ്ങൾ ആവേശഭരിതരാണ്.


