പ്രധാന ഉള്ളടക്കത്തിലേക്ക് നീങ്ങുക
OpenAI

2025 സെപ്റ്റംബർ 25

പ്രസിദ്ധീകരണംഗവേഷണം

യഥാർത്ഥ ലോക ടാസ്കുകളിൽ ഞങ്ങളുടെ മോഡലുകളുടെ പ്രകടനം അളക്കൽ

ഞങ്ങൾ GDPval എന്ന പുതിയ മൂല്യനിർണ്ണയം അവതരിപ്പിക്കുന്നു, ഇത് 44 തൊഴിൽ മേഖലകളിലുടനീളം സാമ്പത്തികമായി മൂല്യവത്തായ യഥാർത്ഥ ലോക ടാസ്കുകളിൽ മോഡൽ പ്രകടനം അളക്കുന്നു.

ആർട്ടിഫിഷ്യൽ ജനറൽ ഇന്റലിജൻസ് മുഴുവൻ മനുഷ്യരാശിക്കും പ്രയോജനപ്പെടുന്നുവെന്ന് ഉറപ്പാക്കുകയാണ് ഞങ്ങളുടെ ദൗത്യം. ഞങ്ങളുടെ ദൗത്യത്തിന്റെ ഭാഗമായിട്ടാണ്, AI മോഡലുകൾ യഥാർത്ഥ ലോകത്ത് ആളുകളെ എങ്ങനെ സഹായിക്കാമെന്ന് സുതാര്യമായി ആശയവിനിമയം നടത്താൻ ഞങ്ങൾ ആഗ്രഹിക്കുന്നു. അതുകൊണ്ടാണ് ഞങ്ങൾ GDPval അവതരിപ്പിക്കുന്നത്: സാമ്പത്തികമായി മൂല്യവത്തായ യഥാർത്ഥ ലോക ടാസ്കുകളിൽ ഞങ്ങളുടെ മോഡലുകളും മറ്റുള്ളവയും എത്രത്തോളം മികച്ച പ്രകടനം കാഴ്ചവെക്കുന്നു എന്ന് നിരീക്ഷിക്കാൻ സഹായിക്കുന്ന ഒരു പുതിയ വിലയിരുത്തൽ. ഞങ്ങൾ ഈ വിലയിരുത്തലിനെ GDPval എന്ന് വിളിക്കുന്നു, കാരണം പ്രധാന സാമ്പത്തിക സൂചികയായ മൊത്ത ആഭ്യന്തര ഉൽപ്പന്നം (GDP) എന്ന ആശയത്തിൽ നിന്ന് ഞങ്ങൾ ആരംഭിച്ചു, GDP-യിലേക്ക് ഏറ്റവും കൂടുതൽ സംഭാവന ചെയ്യുന്ന വ്യവസായങ്ങളിലെ പ്രധാന തൊഴിൽ മേഖലകളിൽ നിന്ന് ടാസ്കുകൾ എടുത്തു.

AI സമൂഹത്തിൽ ഉണ്ടാക്കുന്ന വ്യാപകമായ സ്വാധീനത്തെക്കുറിച്ച് ആളുകൾ പലപ്പോഴും അനുമാനിക്കാറുണ്ട്, പക്ഷേ മോഡലുകൾ ഇതിനകം ചെയ്യാൻ കഴിയുന്ന കാര്യങ്ങളെ നോക്കിയാൽ അതിന്റെ സാധ്യത മനസ്സിലാക്കാനുള്ള ഏറ്റവും വ്യക്തമായ മാർഗ്ഗമാണ്. ചരിത്രം കാണിക്കുന്നത് പ്രധാന സാങ്കേതികവിദ്യകൾ—ഇന്റർനെറ്റിൽ നിന്ന് സ്മാർട്ട്ഫോണുകളിലേക്ക്—Go ആവിഷ്കാരത്തിൽ നിന്ന് വ്യാപകമായ സ്വീകരണത്തിലേക്ക് എത്താൻ പത്താണ്ടിൽ കൂടുതൽ എടുത്തു. GDPval പോലുള്ള വിലയിരുത്തലുകൾ ഭാവിയിലെ AI മെച്ചപ്പെടുത്തലുകളെക്കുറിച്ചുള്ള സംഭാഷണങ്ങളെ ഊഹക്കളിയല്ലാതെ തെളിവുകളെ അടിസ്ഥാനമാക്കി നിലനിർത്താൻ സഹായിക്കുന്നു, കൂടാതെ മോഡൽ മെച്ചപ്പെടുത്തലുകൾ സമയത്തിനൊപ്പം പിന്തുടരാനും സഹായിക്കും.

മുൻ AI വിലയിരുത്തലുകൾ, വെല്ലുവിളി നിറഞ്ഞ അക്കാദമിക് പരീക്ഷകളും മത്സരാത്മക കോഡിംഗ് ചലഞ്ചുകളും പോലുള്ളവ, മോഡൽ റീസണിംഗ് കഴിവുകളുടെ അതിർത്തികൾ തള്ളിക്കളയുന്നതിൽ നിർണായകമായിരുന്നു, പക്ഷേ അവ പലപ്പോഴും പലരും അവരുടെ ദൈനംദിന ജോലിയിൽ കൈകാര്യം ചെയ്യുന്ന തരത്തിലുള്ള ടാസ്കുകൾക്കു വേണ്ടി പോരാ.

ഈ വിടവ് നികത്തുന്നതിനായി, കൂടുതൽ യാഥാർത്ഥ്യപരവും സാമ്പത്തികപരവുമായ പ്രസക്തമായ കഴിവുകൾ അളക്കുന്ന മൂല്യനിർണ്ണയങ്ങൾ ഞങ്ങൾ വികസിപ്പിച്ചുകൊണ്ടിരിക്കുന്നു. ഈ പുരോഗതി ക്ലാസിക് അക്കാദമിക് ബെഞ്ച്മാർക്കുകളിൽ നിന്ന് MMLU (പല വിഷയങ്ങളിലായി പരീക്ഷാ-ശൈലി ചോദ്യങ്ങൾ) പോലുള്ളവയിലേക്ക്, കൂടുതൽ പ്രായോഗികമായ മൂല്യനിർണ്ണയങ്ങളിലേക്ക് നീങ്ങിയിട്ടുണ്ട്, ഉദാഹരണത്തിന് SWE-Bench (സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗ് ബഗ്-ഫിക്സിംഗ് ടാസ്കുകൾ), MLE-Bench (മോഡൽ പരിശീലനം, വിശകലനം പോലുള്ള മെഷീൻ ലേണിംഗ് എഞ്ചിനീയറിംഗ് ടാസ്കുകൾ), Paper-Bench (ഗവേഷണ പ്രബന്ധങ്ങളിൽ ശാസ്ത്രീയ തർക്കവും വിമർശനവും), കൂടാതെ ഏറ്റവും പുതിയതായി SWE-Lancer (യഥാർത്ഥ പെയ്മെന്റുകൾ അടിസ്ഥാനമാക്കിയുള്ള ഫ്രീലാൻസ് സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗ് പദ്ധതികൾ) പോലുള്ള വിപണി-അടിസ്ഥാനമാക്കിയ മൂല്യനിർണ്ണയങ്ങളിലേക്ക്.

GDPval ആ പുരോഗതിയിലെ അടുത്ത ഘട്ടമാണ്. ഇത് വൈവിധ്യമാർന്ന തൊഴിൽ മേഖലകളിലും സെക്ടറുകളിലും പരിചയസമ്പന്നരായ പ്രൊഫഷണലുകളുടെ യഥാർത്ഥ ലോക അറിവ് പ്രവർത്തനങ്ങളിൽ നിന്ന് നേരിട്ട് എടുത്ത ടാസ്കുകളിൽ മോഡലിന്റെ പ്രകടനം അളക്കുന്നു, സാമ്പത്തികമായി മൂല്യവത്തായ ടാസ്കുകളിൽ മോഡലുകൾ എങ്ങനെ പ്രവർത്തിക്കുന്നു എന്നതിന്റെ വ്യക്തമായ ചിത്രം നൽകുന്നു. യാഥാർത്ഥ്യപരമായ തൊഴിൽ ടാസ്കുകളിൽ മോഡലുകൾ വിലയിരുത്തുന്നത് അവ ലാബിൽ എത്രത്തോളം നന്നായി പ്രവർത്തിക്കുന്നുവെന്ന് മാത്രമല്ല, അവർ ഓരോ ദിവസവും ആളുകൾ ചെയ്യുന്ന ജോലിയിൽ എങ്ങനെ പിന്തുണ നൽകുന്നുവെന്ന് മനസ്സിലാക്കാനും സഹായിക്കുന്നു. 

GDPval എന്താണ് അളവെടുക്കുന്നത്

GDPval, ഈ വിലയിരുത്തലിന്റെ ആദ്യ പതിപ്പ്, യുഎസ് GDP-യിലേക്ക് സംഭാവന ചെയ്യുന്ന മുൻനിര 9 വ്യവസായങ്ങളിൽ നിന്ന് തിരഞ്ഞെടുത്ത 44 തൊഴിൽ മേഖലകളിലായി വ്യാപിക്കുന്നു. GDPval പൂർണ്ണ സെറ്റിൽ 1,320 പ്രത്യേക ടാസ്കുകൾ ഉൾപ്പെടുന്നു (ഗോൾഡ് ഓപ്പൺ-സോഴ്സ്ഡ് സെറ്റിൽ 220), ഓരോന്നും ശരാശരി 14 വർഷത്തിലധികം പരിചയമുള്ള വിദഗ്ധർ ശ്രദ്ധാപൂർവ്വം രൂപകൽപ്പന ചെയ്തതും പരിശോധിച്ചതുമാണ്. ഓരോ ടാസ്കും ഒരു നിയമപരമായ ബ്രീഫ്, ഒരു എഞ്ചിനീയറിംഗ് ബ്ലൂപ്രിന്റ്, ഒരു ഉപഭോക്തൃ പിന്തുണ സംഭാഷണം, അല്ലെങ്കിൽ ഒരു നഴ്സിംഗ് കെയർ പദ്ധതി പോലുള്ള യഥാർത്ഥ പ്രവർത്തന ഉൽപ്പന്നങ്ങളെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്.

GDPval അതിന്റെ യാഥാർത്ഥ്യത്തിലും വിലയിരുത്തപ്പെടുന്ന ടാസ്കുകളുടെ വൈവിധ്യത്തിലും പ്രത്യേകതയുള്ളതാണ്. സാമ്പത്തിക മൂല്യവുമായി ബന്ധപ്പെട്ടു നിൽക്കുന്ന മറ്റ് മൂല്യനിർണ്ണയങ്ങൾ പ്രത്യേക ഡൊമെയ്ൻ-കളിൽ (ഉദാ., SWE-ലാൻസർ) ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നപ്പോൾ, GDPval പല ടാസ്കുകളും തൊഴിൽ മേഖലകളും ഉൾക്കൊള്ളുന്നു. അക്കാദമിക് പരീക്ഷയോ ടെസ്റ്റോ എന്ന ശൈലിയിൽ കൃത്രിമമായി ടാസ്കുകൾ സൃഷ്ടിക്കുന്ന ബെഞ്ച്മാർക്കുകളിൽ നിന്ന് വ്യത്യാസമായി (ഉദാ., ഹ്യുമാനിറ്റിയുടെ അവസാന പരീക്ഷ അല്ലെങ്കിൽ MMLU), GDPval ഇന്ന് നിലവിലുള്ള യഥാർത്ഥ ജോലിയോ ഉൽപ്പന്നമോ അല്ലെങ്കിൽ സമാനമായി നിർമ്മിച്ച ജോലിയുടെ ഡെലിവറബിൾസ് അടിസ്ഥാനമാക്കിയുള്ള ടാസ്കുകൾക്ക് പ്രാധാന്യം നൽകുന്നു. 

പരമ്പരാഗത ബെഞ്ച്മാർക്കുകളിൽ നിന്ന് വ്യത്യസ്തമായി, GDPval ടാസ്കുകൾ ലളിതമായ വാചക പ്രോംപ്റ്റുകൾ അല്ല. അവയ്ക്ക് റഫറൻസ് ഫയലുകളും സന്ദർഭവും ഉണ്ടാകും, പ്രതീക്ഷിക്കുന്ന ഡെലിവറബിൾസ് ഡോക്യുമെൻ്റുകൾ, സ്ലൈഡുകൾ, ഡയഗ്രാമുകൾ, സ്പ്രെഡ്ഷീറ്റുകൾ, മൾട്ടിമീഡിയ എന്നിവയിലായി വ്യാപിക്കുന്നു. ഈ റിയലിസം GDPval പ്രൊഫഷണലുകളെ മോഡലുകൾ എങ്ങനെ പിന്തുണയ്ക്കുമെന്നതിൻ്റെ കൂടുതൽ യാഥാർത്ഥ്യബോധമുള്ള ഒരു പരീക്ഷണമാക്കി മാറ്റുന്നു.

GDPval പല സാമ്പത്തിക ടാസ്കുകളുടെ മുഴുവൻ സൂക്ഷ്മതയും പ്രതിഫലിപ്പിക്കാത്ത ഒരു പ്രാരംഭ ഘട്ടമാണ്. ഇത് 44 തൊഴിൽ മേഖലകളും നൂറുകണക്കിന് അറിവ് ടാസ്കുകളും ഉൾക്കൊള്ളുന്നുവെങ്കിലും, ഇത് ഒറ്റത്തവണ മൂല്യനിർണ്ണയങ്ങളിലേക്ക് പരിമിതമാണ്, അതിനാൽ ഒരു മോഡൽ സന്ദർഭം നിർമ്മിക്കുകയോ പല ഡ്രാഫ്റ്റുകളിലൂടെയും മെച്ചപ്പെടുത്തുകയോ ചെയ്യേണ്ട സാഹചര്യങ്ങളെ ഇത് ഉൾക്കൊള്ളുന്നില്ല. ഭാവി പതിപ്പുകൾ കൂടുതൽ ഇന്ററാക്ടീവ് വർക്ക്ഫ്ലോകളിലേക്കും യഥാർത്ഥ ലോക അറിവ് പ്രവർത്തനത്തിന്റെ സങ്കീർണ്ണതയെ മെച്ചമായി പ്രതിഫലിപ്പിക്കുന്ന സന്ദർഭ സമ്പന്നമായ ടാസ്കുകളിലേക്കും വ്യാപിപ്പിക്കും (കൂടുതൽ വിവരങ്ങൾക്ക് താഴെയുള്ള ഞങ്ങളുടെ പരിമിതികൾ വിഭാഗം കാണുക).

ഞങ്ങൾ തൊഴിൽ തിരഞ്ഞെടുക്കുന്നത് എങ്ങനെ

GDPval 9 വ്യവസായങ്ങളിലുടനീളം 44 തൊഴിൽ മേഖലകളിലെ ടാസ്കുകൾ ഉൾക്കൊള്ളുന്നു, ഭാവിയിലെ പതിപ്പുകൾ കവറേജ് വിപുലീകരിക്കുന്നത് തുടരും. അമേരിക്കൻ ജിഡിപിയിലേക്ക് 5% ൽ കൂടുതൽ സംഭാവന ചെയ്യുന്നവയെ അടിസ്ഥാനമാക്കി പ്രാരംഭ 9 വ്യവസായങ്ങൾ ഫെഡറൽ റിസർവ് ബാങ്ക് ഓഫ് സെന്റ് ലൂയിസിന്റെ ഡാറ്റ പ്രകാരം തിരഞ്ഞെടുക്കപ്പെട്ടു. അതിനുശേഷം, ഓരോ വ്യവസായത്തിലും മൊത്തം വേതനത്തിനും പ്രതിഫലനത്തിനും ഏറ്റവും കൂടുതൽ സംഭാവന ചെയ്യുന്ന, പ്രധാനമായും അറിവ് പ്രവർത്തനങ്ങളായ 5 തൊഴിൽ മേഖലകൾ ഞങ്ങൾ തിരഞ്ഞെടുത്തു, 2024 മെയ് US ബ്യൂറോ ഓഫ് ലേബർ സ്റ്റാറ്റിസ്റ്റിക്സ് (BLS) തൊഴിൽ തൊഴിൽ റിപ്പോർട്ട്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ലെ വേതനവും തൊഴിൽ ഡാറ്റയും ഉപയോഗിച്ച്. തൊഴിലുകൾ പ്രധാനമായും അറിവ് ജോലിയാണോ എന്ന് നിർണയിക്കാൻ, യുഎസ് ലേബർ ഡിപ്പാർട്ട്മെന്റ് സ്പോൺസർ ചെയ്യുന്ന യുഎസ് തൊഴിൽ വിവരങ്ങളുടെ ഡാറ്റാബേസ് O*NET(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ൽ നിന്ന് ടാസ്ക് ഡാറ്റ ഉപയോഗിച്ചു. O*NET ലെ ഓരോ തൊഴിലിനായി ഓരോ ടാസ്കും അറിവ് പ്രവർത്തനമോ ഭൗതിക പ്രവർത്തനമോ/കൈത്തൊഴിലോ (ഭൗതിക ലോകത്ത് നടപടികൾ സ്വീകരിക്കേണ്ടത്) ആണെന്ന് ഞങ്ങൾ വർഗ്ഗീകരിച്ചു. ഒരു തൊഴിൽ, അതിന്റെ ഘടക ടാസ്കുകളുടെ കുറഞ്ഞത് 60% ഭൗതിക ജോലികളോ കൈകാര്യം ചെയ്യുന്ന തൊഴിൽ അല്ലാത്തവയായി വർഗ്ഗീകരിക്കപ്പെട്ടാൽ, "പ്രധാനമായും അറിവ് ജോലികൾ" എന്നതിനെ പൊതുവായി യോഗ്യമായതായി കണക്കാക്കുന്നു. AI യഥാർത്ഥ ലോക ഉൽപ്പാദനക്ഷമതയിൽ ഏറ്റവും കൂടുതൽ സ്വാധീനം ചെലുത്തുന്ന തൊഴിൽ മേഖലകളിൽ ശ്രദ്ധ കേന്ദ്രീകരിച്ച്, GDPval-ന്റെ ആദ്യ പതിപ്പിനായി 60% ത്രെഷോൾഡ് ഒരു തുടക്കമായി ഞങ്ങൾ തിരഞ്ഞെടുത്തു. 

ഈ പ്രക്രിയയിൽ ഉൾപ്പെടുത്തുന്നതിന് 44 തൊഴിലുകൾ ലഭിച്ചു.

റിയൽ എസ്റ്റേറ്റ്, വാടകയും ലീസിംഗും

  • കൺസിയർജുകൾ

  • സ്വത്ത്, റിയൽ എസ്റ്റേറ്റ്, സമൂഹ അസോസിയേഷൻ മാനേജർമാർ

  • റിയൽ എസ്റ്റേറ്റ് സെയിൽസ് ഏജൻ്റുമാർ

  • റിയൽ എസ്റ്റേറ്റ് ബ്രോക്കർമാർ

  • കൗണ്ടർ ക്ലർക്കുകളും വാടക ക്ലർക്കുകളും

സർക്കാർ

  • വിനോദ പ്രവർത്തകർ

  • അനുസരണ ഓഫീസർമാർ

  • പോലീസിന്റെയും ഡിറ്റക്റ്റീവുകളുടെയും പ്രഥമ നിര മേൽനോട്ടക്കാർ

  • അഡ്മിനിസ്ട്രേറ്റീവ് സേവന മാനേജർമാർ

  • കുട്ടി, കുടുംബം, സ്കൂൾ സാമൂഹിക പ്രവർത്തകർ

നിർമ്മാണം

  • മെക്കാനിക്കൽ എഞ്ചിനീയർമാർ

  • ഇൻഡസ്ട്രിയൽ എഞ്ചിനീയർമാർ

  • വാങ്ങുന്നവരും വാങ്ങൽ ഏജന്റുമാരും

  • ഷിപ്പിംഗ്, സ്വീകരിക്കൽ, ഇൻവെന്ററി ക്ലാർക്കുകൾ

  • ഉൽപ്പാദനവും പ്രവർത്തന തൊഴിലാളികളുടെയും ആദ്യനിര മേൽനോട്ടക്കാരൻമാർ

പ്രൊഫഷണൽ, ശാസ്ത്രീയ, സാങ്കേതിക സേവനങ്ങൾ

  • സോഫ്റ്റ്‌വെയർ ഡെവലപ്പർമാർ

  • വക്കീലുകൾ

  • അക്കൗണ്ടന്റുകളും ഓഡിറ്റർമാരും

  • കമ്പ്യൂട്ടർ ആൻഡ് ഇൻഫർമേഷൻ സിസ്റ്റം മാനേജർമാർ

  • പദ്ധതി മാനേജ്മെന്റ് വിദഗ്ധർ

ആരോഗ്യ പരിചരണവും സാമൂഹിക സഹായവും

  • രജിസ്റ്റർ ചെയ്ത നഴ്‌സുമാർ

  • നഴ്സ് പ്രാക്ടീഷണർമാർ

  • മെഡിക്കൽ ആൻഡ് ഹെൽത്ത് സർവീസ് മാനേജർമാർ

  • ഓഫീസ്, അഡ്മിനിസ്ട്രേറ്റീവ് പിന്തുണ തൊഴിലാളികളുടെ ആദ്യനിര മേൽനോട്ടക്കാരൻമാർ

  • മെഡിക്കൽ സെക്രട്ടറിമാരും അഡ്മിനിസ്ട്രേറ്റീവ് അസിസ്റ്റന്റുമാർ

ധനകാര്യവും ഇൻഷുറൻസും

  • ഉപഭോക്തൃ സേവന പ്രതിനിധികൾ

  • സാമ്പത്തികവും നിക്ഷേപ വിശകലന വിദഗ്ധരും

  • സാമ്പത്തിക മാനേജർമാർ

  • വ്യക്തിഗത സാമ്പത്തിക ഉപദേഷ്ടാക്കൾ

  • സെക്യൂരിറ്റികൾ, കൊമോഡിറ്റികൾ, സാമ്പത്തിക സേവനങ്ങൾ വിൽപ്പന ഏജൻ്റുകൾ

റീട്ടെയിൽ വ്യാപാരം

  • ഫാർമസിസ്റ്റുകൾ

  • റീട്ടെയിൽ വിൽപ്പന തൊഴിലാളികളുടെ ആദ്യനിര മേൽനോട്ടക്കാരൻമാർ

  • ജനറൽ ആൻഡ് ഓപ്പറേഷൻസ് മാനേജർമാർ

  • സ്വകാര്യ ഡിറ്റക്റ്റീവുകളും അന്വേഷണ ഉദ്യോഗസ്ഥരും

മൊത്തവ്യാപാരം

  • വിപണന മാനേജർമാർ

  • ഓർഡർ ക്ലർക്കുമാർ

  • റീട്ടെയിൽ അല്ലാത്ത വിൽപ്പന തൊഴിലാളികളുടെ പ്രഥമ നിര മേൽനോട്ടക്കാരൻമാർ

  • വിൽപ്പന പ്രതിനിധികൾ, ഹോൾസെയിൽ, നിർമ്മാണം, സാങ്കേതികവും ശാസ്ത്രീയവുമായ ഉൽപ്പന്നങ്ങൾ ഒഴികെ

  • വിൽപ്പന പ്രതിനിധികൾ, ഹോൾസെയിൽ, നിർമ്മാണം, സാങ്കേതികവും ശാസ്ത്രീയവുമായ ഉൽപ്പന്നങ്ങൾ

വിവരം

  • ഓഡിയോ, വീഡിയോ സാങ്കേതിക വിദഗ്ധർ

  • നിർമ്മാതാക്കളും സംവിധായകരും

  • വാർത്താ വിശകലനക്കാർ, റിപ്പോർട്ടർമാർ, പത്രപ്രവർത്തകർ

  • ഫിലിം, വീഡിയോ എഡിറ്റർമാർ

  • എഡിറ്റർമാർ

GDPval 9 മേഖലകളിലായി സോഫ്റ്റ്വെയർ ഡെവലപ്പർമാരും അഭിഭാഷകരും രജിസ്റ്റർ ചെയ്ത നഴ്സുമാരും മെക്കാനിക്കൽ എഞ്ചിനീയർമാരും ഉൾപ്പെടെ 44 അറിവ് പ്രവർത്തന തൊഴിലുകളിലായി വ്യാപിക്കുന്നു. ഈ തൊഴിൽ മേഖലകൾ അവരുടെ സാമ്പത്തിക പ്രാധാന്യം കാരണം തിരഞ്ഞെടുക്കപ്പെട്ടതാണ്, കൂടാതെ AI പ്രൊഫഷണലുകളെ അർത്ഥവത്തായി സഹായിക്കാൻ കഴിയുന്ന ദിവസേനയുള്ള ജോലികളുടെ തരം പ്രതിനിധീകരിക്കുന്നു.

ഞങ്ങൾ ഡാറ്റാസെറ്റ് എങ്ങനെ നിർമ്മിച്ചു

ഓരോ തൊഴിലും, അവരുടെ ദിവസേനയുള്ള ജോലിയെ പ്രതിഫലിപ്പിക്കുന്ന പ്രതിനിധി ടാസ്കുകൾ സൃഷ്ടിക്കുന്നതിന് പരിചയസമ്പന്നരായ പ്രൊഫഷണലുകളുമായി ഞങ്ങൾ പ്രവർത്തിച്ചു. ഈ പ്രൊഫഷണലുകൾക്ക് ശരാശരി 14 വർഷത്തെ അനുഭവസമ്പത്തുണ്ട്, ശക്തമായ പുരോഗതിയുടെ റെക്കോർഡുകളോടെ. പ്രതിനിധിത്വം പരമാവധി ഉറപ്പാക്കുന്നതിനായി, വ്യത്യസ്ത പ്രാക്ടീസ് മേഖലകളിൽ നിന്നുള്ള അഭിഭാഷകരും വ്യത്യസ്ത വലുപ്പത്തിലുള്ള സ്ഥാപനങ്ങളിലെ അഭിഭാഷകരും ഉൾപ്പെടുന്ന വിദഗ്ധരുടെ വിശാലമായ ഒരു സംഘത്തെ ഞങ്ങൾ ഉദ്ദേശപൂർവ്വം റിക്രൂട്ട് ചെയ്തു.

ഓരോ ടാസ്കും യഥാർത്ഥ ജോലിയുടെ പ്രതിനിധിയായി, മറ്റൊരു പ്രൊഫഷണൽ പൂർത്തിയാക്കാൻ സാധ്യമാകുന്ന വിധത്തിൽ, വിലയിരുത്തലിന് വ്യക്തമായതാക്കാൻ മൾട്ടി-സ്റ്റെപ്പ് റിവ്യൂ അവലോകത്തിലൂടെ പോയി. ശരാശരിയായി, ഓരോ ടാസ്കും 5 റൗണ്ട് വിദഗ്ധ അവലോകനം ലഭിച്ചു, ഇതിൽ മറ്റ് ടാസ്ക് എഴുത്തുകാരിൽ നിന്നുള്ള പരിശോധനകൾ, അധിക തൊഴിൽപരമായ അവലോകനങ്ങൾ, മോഡൽ അടിസ്ഥാനമാക്കിയുള്ള സാധുതാ പരിശോധന എന്നിവ ഉൾപ്പെടുന്നു. 

ഫലമായ ഡാറ്റാസെറ്റ് ഓരോ തൊഴിൽ മേഖലക്കും 30 പൂർണ്ണമായി അവലോകനം ചെയ്ത ടാസ്കുകൾ (പൂർണ്ണ സെറ്റ്) ഉൾക്കൊള്ളുന്നു, കൂടാതെ ഞങ്ങളുടെ ഓപ്പൺ-സോഴ്സ്ഡ് ഗോൾഡ് സെറ്റിൽ ഓരോ തൊഴിൽ മേഖലക്കും 5 ടാസ്കുകൾ ഉൾപ്പെടുന്നു, യഥാർത്ഥ ലോക അറിവ് പ്രവർത്തനത്തിൽ മോഡൽ പ്രകടനം വിലയിരുത്തുന്നതിനുള്ള ശക്തമായ അടിത്തറ നൽകുന്നു.

GDPval ടാസ്കുകളുടെ ഉദാഹരണങ്ങൾ

പ്രോംപ്റ്റ് + ടാസ്ക് സന്ദർഭം

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

പരിചയസമ്പന്നമായ മനുഷ്യ ഡെലിവറബിൾ

കേബിൾ റീൽ ഡിസൈൻ്റെ വിഭജിച്ച കാഴ്ച
GDPval ലെ ഓരോ ടാസ്കും ഒരു പരിചയസമ്പന്നനായ പ്രൊഫഷണൽ രൂപകൽപ്പന ചെയ്തതും അവരുടെ തൊഴിൽ മേഖലയിൽ നിന്നുള്ള യഥാർത്ഥ അറിവ് ജോലിയെ പ്രതിഫലിപ്പിക്കുന്നതുമാണ്. പ്രോംപ്റ്റ് ഒരു ഡൊമെയ്ൻ വിദഗ്ധൻ സൃഷ്ടിച്ച യാഥാർത്ഥ്യപ്രധാനമായ ജോലിനിർവഹണമാണ്, കൂടാതെ സ്വർണ്ണ ഡെലിവറബിൾ ആ വിദഗ്ധന്റെ സ്വന്തം പരിഹാരമാണ്.

ഞങ്ങൾ മോഡൽ പ്രകടനം എങ്ങനെ മൂല്യനിർണ്ണയം ചെയ്യുന്നു

GDPval ടാസ്കുകളിൽ മോഡൽ പ്രകടനം വിലയിരുത്താൻ, ഞങ്ങൾ വിദഗ്ധ "ഗ്രേഡർമാർ" എന്നറിയപ്പെടുന്ന ഒരു ഗ്രൂപ്പിനെ ആശ്രയിക്കുന്നു—ഡാറ്റാസെറ്റിൽ പ്രതിനിധീകരിക്കുന്നതുപോലുള്ള തൊഴിൽ മേഖലകളിൽ പരിചയസമ്പന്നരായ പ്രൊഫഷണലുകളുടെ ഒരു ഗ്രൂപ്പ്. ഈ ഗ്രേഡർമാർ മോഡൽ സൃഷ്ടിച്ച ഡെലിവറബിൾസിനെ ടാസ്ക് എഴുത്തുകാർ സൃഷ്ടിച്ചതുമായി (എന്താണ് AI, എന്താണ് മനുഷ്യൻ സൃഷ്ടിച്ചതെന്ന് അറിയാതെ) അന്ധമായി താരതമ്യം ചെയ്യുകയും വിമർശനങ്ങളും റാങ്കിംഗുകളും നൽകുകയും ചെയ്യുന്നു. ഗ്രേഡർമാർ മനുഷ്യനും AI ഡെലിവറിബിളുകളും റാങ്ക് ചെയ്യുകയും ഓരോ AI ഡെലിവറിബിളും മറ്റൊന്നിനേക്കാൾ "മെച്ചപ്പെട്ടത്", "ഒരുപോലെ നല്ലത്" അല്ലെങ്കിൽ "മോശം" എന്നിങ്ങനെ വർഗ്ഗീകരിക്കുകയും ചെയ്യുന്നു.

ടാസ്ക് എഴുത്തുകാർ അവരുടെ തൊഴിൽ മേഖലകൾക്കായി വിശദമായ സ്കോറിംഗ് മാനദണ്ഡങ്ങൾ സൃഷ്ടിച്ചു, ഇത് ഗ്രേഡിംഗ് പ്രക്രിയയിൽ സ്ഥിരതയും സുതാര്യതയും കൂട്ടുന്നു. ഞങ്ങൾ "ഓട്ടോമേറ്റഡ് ഗ്രേഡർ" എന്ന AI സിസ്റ്റവും നിർമ്മിച്ചു, ഇത് ഒരു ഡെലിവറബിൾ മനുഷ്യ വിദഗ്ധർ എങ്ങനെ വിലയിരുത്തുമെന്ന് കണക്കാക്കാൻ പരിശീലനം ലഭിച്ചിരിക്കുന്നു. മറ്റൊരു രീതിയിൽ പറഞ്ഞാൽ, ഓരോ തവണയും പൂർണ്ണമായ വിദഗ്ദ്ധ അവലോകനം നടത്തുന്നതിനുപകരം, ഓട്ടോമേറ്റഡ് ഗ്രേഡർ ആളുകൾക്ക് ഇഷ്ടപ്പെടാൻ സാധ്യതയുള്ള ഔട്ട്പുട്ട് എത്രയും വേഗത്തിൽ പ്രവചിക്കാൻ കഴിയും. ഞങ്ങൾ ഈ ഉപകരണം evals.openai.com വഴി പരീക്ഷണാത്മക ഗവേഷണ സേവനമായി പുറത്തിറക്കുന്നു, പക്ഷേ ഇത് വിദഗ്ദ്ധ ഗ്രേഡർമാരെ പോലെ വിശ്വസനീയമല്ല, അതിനാൽ അവരെ മാറ്റിസ്ഥാപിക്കാൻ ഞങ്ങൾ ഇത് ഉപയോഗിക്കുന്നില്ല. 

പ്രാരംഭ ഫലങ്ങൾ

ഇന്നത്തെ മികച്ച അഗ്രഗണ്യ മോഡലുകൾ വ്യവസായ വിദഗ്ധർ സൃഷ്ടിക്കുന്ന ജോലിയുടെ ഗുണനിലവാരത്തിലേക്ക് ഇതിനകം തന്നെ അടുക്കുന്നുവെന്ന് ഞങ്ങൾ കണ്ടെത്തി. ഇത് പരിശോധിക്കാൻ, വ്യവസായ വിദഗ്ധർ GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, Grok 4 എന്നിവയുൾപ്പെടെയുള്ള പ്രമുഖ മോഡലുകളിൽ നിന്നുള്ള ഡെലിവറബിൾസിനെ മനുഷ്യർ നിർമ്മിച്ച പ്രവർത്തനവുമായി താരതമ്യം ചെയ്ത ബ്ലൈൻഡ് മൂല്യനിർണയങ്ങൾ നടത്തി. GDPval ഗോൾഡ് സെറ്റിലെ 220 ടാസ്കുകളിൽ, മോഡൽ ഔട്ട്പുട്ടുകൾ വ്യവസായ വിദഗ്ധരുടെ ഡെലിവറബിൾസിനേക്കാൾ മെച്ചമാണോ (“വിജയങ്ങൾ”) അല്ലെങ്കിൽ സമാനമാണോ (“സമതലത്തിൽ”) എന്ന് ഞങ്ങൾ രേഖപ്പെടുത്തി, താഴെ കാണുന്ന ബാർ ചാർട്ടിൽ കാണിച്ചിരിക്കുന്നു. Claude Opus 4.1 ഈ സെറ്റിലെ ഏറ്റവും മികച്ച പ്രകടനം കാഴ്ചവെച്ച മോഡൽ ആയിരുന്നു, പ്രത്യേകിച്ച് എസ്തറ്റിക്സിൽ (ഉദാ., ഡോക്യുമെൻറ് ഫോർമാറ്റിംഗ്, സ്ലൈഡ് ലേഔട്ട്) മികവ് പുലർത്തി, GPT‑5 കൃത്യതയിൽ (ഉദാ., ഡൊമെയ്ൻ-സ്പെസിഫിക് അറിവ് കണ്ടെത്തൽ) പ്രത്യേകിച്ച് മികവ് പുലർത്തി. നമുക്ക് ഈ ടാസ്കുകളിൽ വ്യക്തമായ പുരോഗതി സമയത്തിനൊപ്പം കാണാൻ കഴിയും. GPT‑4o (2024 വസന്തത്തിൽ പുറത്തിറക്കിയത്) മുതൽ GPT‑5 (2025 വേനലിൽ പുറത്തിറക്കിയത്) വരെ പ്രകടനം ഇരട്ടിയിലധികം വർദ്ധിച്ചു, ഇത് വ്യക്തമായ രേഖീയ പ്രവണതയെ പിന്തുടരുന്നു.

കൂടാതെ, ഞങ്ങൾ കണ്ടെത്തിയത് അഗ്രഗണ്യ മോഡലുകൾ വ്യവസായ വിദഗ്ദ്ധരെക്കാൾ ഏകദേശം 100 മടങ്ങ് വേഗത്തിലും 100 മടങ്ങ് ചെലവുകുറവിലും GDPval ടാസ്കുകൾ പൂർത്തിയാക്കാൻ കഴിയും എന്നതാണ്. എന്നിരുന്നാലും, ഈ കണക്കുകൾ ശുദ്ധമായ മോഡൽ ഇൻഫറൻസ് സമയം, API ബില്ലിംഗ് നിരക്കുകൾ എന്നിവയെ പ്രതിഫലിപ്പിക്കുന്നു, അതിനാൽ യഥാർത്ഥ ജോലി സ്ഥലങ്ങളിൽ ഞങ്ങളുടെ മോഡലുകൾ ഉപയോഗിക്കുന്നതിന് ആവശ്യമായ മനുഷ്യ മേൽനോട്ടം, ആവർത്തനം, സംയോജനം തുടങ്ങിയ ഘട്ടങ്ങളെ ഉൾക്കൊള്ളുന്നില്ല. എങ്കിലും, മോഡലുകൾ പ്രത്യേകിച്ച് ശക്തമായ ടാസ്കുകളുടെ ഉപസമൂഹത്തിൽ, ഒരു മനുഷ്യനുമായി പരീക്ഷിക്കുന്നതിന് മുമ്പ് ഒരു ടാസ്ക് മോഡലിന് നൽകുന്ന സമയം, പണം എന്നിവ സംരക്ഷിക്കുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു.

വിദഗ്ദ്ധ ഗ്രേഡർമാർ മുൻനിര മോഡലുകളിൽ നിന്നുള്ള ഡെലിവറിബിളുകൾ മനുഷ്യ വിദഗ്ദ്ധരുമായി താരതമ്യം ചെയ്തു. ഇന്നത്തെ ഫ്രോണ്ടിയർ മോഡലുകൾ ഇതിനകം തന്നെ വ്യവസായ വിദഗ്ധർ സൃഷ്ടിക്കുന്ന പ്രവർത്തനത്തിന്റെ ഗുണനിലവാരത്തെ സമീപിക്കുന്നു. Claude Opus 4.1, ടാസ്കുകളിൽ പകുതിയോളം കാര്യങ്ങളിൽ മനുഷ്യരെക്കാൾ മികച്ചതോ തുല്യമായതോ ആയ ഔട്ട്പുട്ടുകൾ ഉത്പാദിപ്പിച്ചു.

ഒരു വർഷത്തിനുള്ളിൽ GPT‑4o മുതൽ GPT‑5 വരെ, GDPval ടാസ്കുകളിൽ പ്രകടനം മൂന്നു മടങ്ങിലധികം മെച്ചപ്പെട്ടു. 

അവസാനമായി, GDPval-ൽ പ്രകടനം മെച്ചപ്പെടുത്താൻ കഴിയുമോ എന്ന് വിലയിരുത്താൻ ഞങ്ങൾ ഒരു ആന്തരിക, പരീക്ഷണാത്മക പതിപ്പായ GPT‑5‑നെ ക്രമാനുഗതമായി പരിശീലിപ്പിച്ചു. ഈ പ്രക്രിയ പ്രകടനം മെച്ചപ്പെടുത്തുകയും, കൂടുതൽ സാധ്യതയുള്ള മെച്ചപ്പെടുത്തലിനുള്ള ഒരു പാത സൃഷ്ടിക്കുകയും ചെയ്യുന്നതായി ഞങ്ങൾ കണ്ടെത്തി. മറ്റു നിയന്ത്രിത പരീക്ഷണങ്ങൾ ഇതിന് പിന്നിലേക്ക് പിന്തുണ നൽകുന്നു: മോഡൽ വലുപ്പം വർദ്ധിപ്പിക്കൽ, കൂടുതൽ യുക്തി ഘട്ടങ്ങളെ പ്രോത്സാഹിപ്പിക്കൽ, സമ്പന്നമായ ടാസ്ക് സന്ദർഭം നൽകൽ എന്നിവ ഓരോന്നും അളവുകൂടിയ നേട്ടങ്ങളിലേക്ക് നയിച്ചു.

നിങ്ങൾക്ക് പൂർണ്ണ ഫലങ്ങൾ ഞങ്ങളുടെ പേപ്പറിൽ വായിക്കാം. മറ്റു ഗവേഷകർ ഈ പ്രവർത്തനത്തെ അടിസ്ഥാനമാക്കി നിർമ്മിക്കാൻ കഴിയുന്നതിനായി, ഞങ്ങൾ GDPval ടാസ്കുകളുടെ ഒരു സ്വർണ്ണ ഉപസമൂഹവും ഒരു പൊതുജന ഗ്രേഡിംഗ് സേവനവും പുറത്തിറക്കുന്നു.

ജോലിയുടെ ഭാവിയും കൃത്രിമ ബുദ്ധിയും 

AI കൂടുതൽ കഴിവുള്ളതാകുമ്പോൾ, തൊഴിൽ വിപണിയിൽ മാറ്റങ്ങൾ ഉണ്ടാകാൻ സാധ്യതയുണ്ട്. ആദ്യകാല GDPval ഫലങ്ങൾ മോഡലുകൾക്ക് ആവർത്തനാത്മകവും, നന്നായി നിർവചിക്കപ്പെട്ട ടാസ്കുകൾ വിദഗ്ധരെക്കാൾ വേഗത്തിലും കുറഞ്ഞ ചെലവിലും കൈകാര്യം ചെയ്യാൻ കഴിയുമെന്ന് കാണിക്കുന്നു. എന്നിരുന്നാലും, മിക്ക ജോലികളും എഴുതിവെക്കാവുന്ന ടാസ്കുകളുടെ ഒരു ശേഖരത്തിലധികമാണ്. GDPval എവിടെ AI സാധാരണ ടാസ്കുകൾ കൈകാര്യം ചെയ്യാൻ കഴിയും എന്ന് ഹൈലൈറ്റ് ചെയ്യുന്നു, അതിനാൽ ആളുകൾക്ക് സൃഷ്ടിപരവും വിധിനിർണയത്തിൽ കൂടുതൽ ശ്രദ്ധ ആവശ്യമായ ജോലികളിൽ കൂടുതൽ സമയം ചെലവഴിക്കാൻ കഴിയും. AI ഈ രീതിയിൽ തൊഴിലാളികളെ പൂരകമാകുമ്പോൾ, അത് പ്രധാനപ്പെട്ട സാമ്പത്തിക വളർച്ചയിലേക്ക് മാറ്റാൻ കഴിയും. AI-യുടെ "അപ്പ് എലിവേറ്റർ" എന്ന ആശയത്തിലൂടെ എല്ലാവരെയും ഉൾപ്പെടുത്തുക, ഈ ഉപകരണങ്ങളിലേക്കുള്ള ആക്സസ് ജനാധിപത്യവൽക്കരിക്കുക, മാറ്റങ്ങളിലൂടെ തൊഴിലാളികളെ പിന്തുണയ്ക്കുക, വിശാലമായ സംഭാവനകൾക്ക് പ്രതിഫലം നൽകുന്ന സംവിധാനങ്ങൾ നിർമ്മിക്കുക എന്നതാണ് ഞങ്ങളുടെ ലക്ഷ്യം. 

പരിമിതികളും അടുത്തത് എന്താണെന്നും

GDPval ഒരു പ്രാരംഭ ഘട്ടമാണ്. 44 തൊഴിൽ മേഖലകളും നൂറുകണക്കിന് ടാസ്കുകളും ഉൾക്കൊള്ളുന്നുവെങ്കിലും, ഞങ്ങൾ ഞങ്ങളുടെ പരീക്ഷണത്തിന്റെ പരിധി വികസിപ്പിക്കുകയും ഫലങ്ങൾ കൂടുതൽ അർത്ഥവത്താക്കുകയും ചെയ്യുന്നതിനായി ഞങ്ങളുടെ സമീപനം മെച്ചപ്പെടുത്തുന്നത് തുടരുന്നു. നിലവിലെ വിലയിരുത്തൽ പതിപ്പ് ഒരു-ഷോട്ട് ആണ്, അതിനാൽ ഒരു മോഡൽ സന്ദർഭം നിർമ്മിക്കേണ്ടതോ നിരവധി ഡ്രാഫ്റ്റ്കളിലൂടെ മെച്ചപ്പെടുത്തേണ്ടതോ ആയ കേസുകൾ പിടികൂടുന്നില്ല - ഉദാഹരണത്തിന്, ഉപഭോക്തൃ ഫീഡ്ബാക്ക് ലഭിച്ച ശേഷം ഒരു നിയമ ബ്രീഫ് പരിഷ്കരിക്കുകയോ, ഒരു ഡാറ്റ വിശകലനം നടത്തുമ്പോൾ ഒരു അസാധാരണത്വം കണ്ടെത്തിയ ശേഷം ആവർത്തിക്കുകയോ ചെയ്യുക. കൂടാതെ, യഥാർത്ഥ ലോകത്തിൽ, ടാസ്കുകൾ എല്ലായ്പ്പോഴും പ്രോംപ്റ്റും റഫറൻസ് ഫയലുകളും ഉപയോഗിച്ച് വ്യക്തമായി നിർവചിക്കപ്പെട്ടിരിക്കുന്നതല്ല; ഉദാഹരണത്തിന്, ഒരു അഭിഭാഷകൻ അസ്പഷ്ടതയെ മറികടന്ന് ഉപഭോക്താവുമായി സംസാരിച്ച്, അവരെ സഹായിക്കാൻ നിയമപരമായ ഒരു ബ്രീഫ് സൃഷ്ടിക്കുക എന്നത് ശരിയായ സമീപനമാണെന്ന് തീരുമാനിക്കേണ്ടി വരാം. ഞങ്ങൾ GDPval-നെ കൂടുതൽ തൊഴിൽ മേഖലകൾ, വ്യവസായങ്ങൾ, ടാസ്ക് തരം എന്നിവ ഉൾപ്പെടുത്തുന്നതിന് വിപുലീകരിക്കാൻ പദ്ധതിയിടുന്നു, കൂടാതെ കൂടുതൽ സംവേദനാത്മകതയും, അനിശ്ചിതത്വം കൈകാര്യം ചെയ്യുന്ന ടാസ്കുകൾ ഉൾപ്പെടെ, വൈവിധ്യമാർന്ന അറിവ് പ്രവർത്തനത്തിൽ പുരോഗതി മെച്ചപ്പെടുത്തുന്നതിന് ദീർഘകാല ലക്ഷ്യത്തോടെ.

പങ്കെടുക്കുക

സമൂഹത്തിന്റെ പങ്കാളിത്തം അനിവാര്യമാണ്—ജോലി സ്ഥലത്ത് AGIയെ കൂടുതൽ പ്രയോജനപ്രദമാക്കുക എന്ന ലക്ഷ്യം പങ്കിടുന്ന ഗവേഷകരും പ്രായോഗിക വിദഗ്ധരും സംഘടനകളും ഒപ്പം ചേർന്ന് GDPval നിർമ്മിക്കാൻ ഞങ്ങൾ ആവേശഭരിതരാണ്.