ChatGPT ഏജൻ്റ്-നെ പരിചയപ്പെടുത്തുന്നു: ഗവേഷണവും നടപടിയും തമ്മിൽ ഒരു പാലം സൃഷയിടിക്കുന്നു
ChatGPT ഇപ്പോൾ ചിന്തിക്കുകയും പ്രവർത്തിക്കുകയും ചെയ്യുന്നു, അതിന്റെ സ്വന്തം കമ്പ്യൂട്ടർ ഉപയോഗിച്ച് നിങ്ങളുടെ ടാസ്കുകൾ പൂർത്തിയാക്കാൻ ഏജൻസിയുടെ സ്കിൽ-ന്റെ ടൂൾബോക്സിൽ നിന്ന് മുൻകൂട്ടി തിരഞ്ഞെടുക്കുന്നു.
ChatGPT ഇപ്പോൾ സ്വന്തം കമ്പ്യൂട്ടർ ഉപയോഗിച്ച് നിങ്ങൾക്കായി ജോലി ചെയ്യാൻ കഴിയും, തുടക്കം മുതൽ അവസാനം വരെ സങ്കീർണ്ണമായ ടാസ്കുകൾ കൈകാര്യം ചെയ്യുന്നു.
നിങ്ങൾക്ക് ഇപ്പോൾ ChatGPT‑നോട് “എന്റെ കലണ്ടർ നോക്കുക, എന്റെ കലണ്ടർ നോക്കി, അടുത്തിടെയുള്ള വാർത്തകളുടെ അടിസ്ഥാനത്തിൽ വരാനിരിക്കുന്ന ഉപഭോക്താവ് ആയുള്ള മീറ്റിംഗുകളുടെ ഒരു ചുരുക്കം തയ്യാറാക്കൂ,” “നാലുപേർക്ക് ജാപ്പനീസ് പ്രഭാതഭക്ഷണം ഉണ്ടാക്കാൻ ചേരുവകൾ പദ്ധതി ചെയ്ത് വാങ്ങുക,” “മൂന്ന് എതിരാളികളെ വിശകലനം ചെയ്ത് ഒരു സ്ലൈഡ് ഡെക്ക് സൃഷ്ടിക്കുക” തുടങ്ങിയ അഭ്യർത്ഥനകൾ കൈകാര്യം ചെയ്യാൻ ആവശ്യപ്പെടാം. ChatGPT ബുദ്ധിപരമായി വെബ്സൈറ്റുകൾ നാവിഗേറ്റ് ചെയ്യുകയും ഫലങ്ങൾ തരംതിരിക്കുകയും ആവശ്യമുള്ളപ്പോൾ നിങ്ങളെ സുരക്ഷിതമായി ലോഗ് ഇൻ ചെയ്യാൻ പ്രോംപ്റ്റ് ചെയ്യുകയും കോഡ് പ്രവർത്തിപ്പിക്കുകയും വിശകലനം നടത്തുകയും അതിന്റെ കണ്ടെത്തലുകൾ സംഗ്രഹിക്കുന്ന എഡിറ്റുചെയ്യാവുന്ന സ്ലൈഡ്ഷോകളും സ്പ്രെഡ്ഷീറ്റുകളും നൽകുകയും ചെയ്യും.
ഈ പുതിയ കഴിവിന്റെ കാതൽ ഒരു ഏകീകൃത ഏജന്റ് സംവിധാനമാണ്. ഇത് മുമ്പത്തെ മുന്നേറ്റങ്ങളുടെ മൂന്ന് ശക്തികളെ ഒരുമിപ്പിക്കുന്നു: വെബ്സൈറ്റുകളുമായി സംവദിക്കാനുള്ള Operator യുടെ കഴിവ്, വിവരങ്ങൾ സമന്വയിപ്പിക്കുന്നതിൽ ഡീപ്പ് റിസേർച്ച്-ന്റെ സ്കിൽ, ChatGPTയുടെ ബുദ്ധിയും സംഭാഷണ പ്രാഗത്ഭ്യവും.
ChatGPT ഈ ടാസ്ക് സ്വന്തം വെർച്വൽ കമ്പ്യൂട്ടർ ഉപയോഗിച്ച് നിർവഹിക്കുന്നു, തുടക്കം മുതൽ അവസാനം വരെ സങ്കീർണ്ണമായ വർക്ക്ഫ്ലോകൾ കൈകാര്യം ചെയ്യുന്നതിനായി റീസണിംഗ്-നും നടപടി-ക്കും തമ്മിൽ സുഗമമായി മാറുന്നു, എല്ലാം നിങ്ങളുടെ നിർദ്ദേശങ്ങളെ അടിസ്ഥാനമാക്കി.
ഏറ്റവും പ്രധാനമായി, നിങ്ങൾക്ക് എല്ലായ്പ്പോഴും നിയന്ത്രണം കൈവശം ഉണ്ട്. ChatGPT നടപടികൾ ആരംഭിക്കുന്നതിന് മുമ്പ് അനുമതി അഭ്യർത്ഥിക്കുന്നു, കൂടാതെ നിങ്ങൾക്ക് ഏത് ഘട്ടത്തിലും എളുപ്പത്തിൽ തടസ്സപ്പെടുത്തുകയോ ബ്രൗസർ കൈക്കൊള്ളുകയോ ടാസ്കുകൾ നിർത്തുകയോ ചെയ്യാം.
ഇന്ന് മുതൽ, Pro, Plus, Team ഉപയോക്താക്കൾക്ക് ഏത് സംഭാഷണത്തിലും ഏത് ഘട്ടത്തിലും 'ഏജൻ്റ് മോഡ്' തിരഞ്ഞെടുത്ത് കമ്പോസറിൽ നിന്നുള്ള ടൂളുകളുടെ ഡ്രോപ്പ്ഡൗണിലൂടെ ChatGPT‑യുടെ പുതിയ ഏജൻ്റ് കഴിവുകൾ നേരിട്ട് പ്രവർത്തനക്ഷമമാക്കാൻ കഴിയും.
ChatGPT ഏജൻ്റ് സങ്കീർണ്ണമായ ടാസ്കുകൾ കൈകാര്യം ചെയ്യുന്നതിനുള്ള ശക്തമായ ഉപകരണമാണ്, ഇന്നത്തെ സമാരംഭം ഒരു തുടക്കം മാത്രമാണ്. കാലക്രമേണ കൂടുതൽ ആളുകൾക്ക് ഇത് കൂടുതൽ കഴിവുള്ളതും ഉപയോഗപ്രദവുമാക്കിക്കൊണ്ട്, ഞങ്ങൾ പതിവായി കാര്യമായ മെച്ചപ്പെടുത്തലുകൾ ആവർത്തിച്ച് ചേർക്കുന്നത് തുടരും.
മുമ്പ്, Operator-ഉം ഡീപ്പ് റിസേർച്ചും ഓരോന്നും അതുല്യമായ ശക്തി കൊണ്ടുവന്നു: Operatorക്ക് വെബിൽ സ്ക്രോൾ ചെയ്യാനും ക്ലിക്കുചെയ്യാനും ടൈപ്പുചെയ്യാനും കഴിയും, അതേസമയം ഡീപ്പ് റിസേർച്ച് വിവരങ്ങൾ വിശകലനം ചെയ്യുന്നതിലും സംഗ്രഹിക്കുന്നതിലും മികവ് പുലർത്തി. എന്നാൽ വ്യത്യസ്ത സാഹചര്യങ്ങളിൽ അവ മികച്ച രീതിയിൽ പ്രവർത്തിച്ചു: Operatorന് വിശകലനത്തിലേക്ക് ആഴത്തിൽ ഇറങ്ങാനോ വിശദമായ റിപ്പോർട്ടുകൾ എഴുതാനോ കഴിഞ്ഞില്ല, കൂടാതെ ഫലങ്ങൾ പരിഷ്കരിക്കുന്നതിനോ ഉപയോക്തൃ പ്രാമാണീകരണം ആവശ്യമുള്ള ഉള്ളടക്കം ആക്സസ് ചെയ്യുന്നതിനോ വെബ്സൈറ്റുകളുമായി സംവദിക്കാൻ ഡീപ്പ് റിസേർച്ച്-ന് കഴിഞ്ഞില്ല. വാസ്തവത്തിൽ, Operator ഉപയോഗിച്ച് ഉപയോക്താക്കൾ നടത്തിയ നിരവധി അന്വേഷണങ്ങൾ യഥാർത്ഥത്തിൽ ഡീപ്പ് റിസേർച്ച്ന് കൂടുതൽ അനുയോജ്യമാണെന്ന് ഞങ്ങൾ കണ്ടു, അതിനാൽ ഞങ്ങൾ രണ്ടിന്റെയും മികച്ചത് ഒരുമിച്ച് ചേർത്തു.
ChatGPT‑ൽ ഈ പൂരക ശക്തികൾ സംയോജിപ്പിക്കുകയും അധിക ഉപകരണങ്ങൾ അവതരിപ്പിക്കുകയും ചെയ്തതിലൂടെ, ഒരു മോഡലിനുള്ളിൽ പൂർണ്ണമായും പുതിയ കഴിവുകൾ ഞങ്ങൾ തുറന്നു. ഇപ്പോൾ ഇത് വെബ്സൈറ്റുകളുമായി സജീവമായി ഇടപഴകാൻ കഴിയും—ക്ലിക്കുചെയ്യൽ, തരംതിരിക്കൽ, കൂടുതൽ കൃത്യവും കാര്യക്ഷമവുമായ ഫലങ്ങൾ ശേഖരിക്കൽ. ലളിതമായ സംഭാഷണത്തിൽ നിന്ന് ഒരേ ചാറ്റിനുള്ളിൽ നേരിട്ട് നടപടികൾ അഭ്യർത്ഥിക്കുന്നതിലേക്ക് നിങ്ങൾക്ക് സ്വാഭാവികമായി മാറാൻ കഴിയും.
ഞങ്ങൾ ChatGPT ഏജൻ്റിനെ ഒരു ഉപകരണങ്ങളുടെ സ്യൂട്ടുമായി സജ്ജീകരിച്ചിരിക്കുന്നു: ഗ്രാഫിക്കൽ-ഉപയോക്തൃ ഇന്റർഫേസിലൂടെ വെബുമായി സംവദിക്കുന്ന ഒരു ദൃശ്യ ബ്രൗസർ, ലളിതമായ റീസണിംഗ് അടിസ്ഥാനത്തിലുള്ള വെബ് അന്വേഷണങ്ങൾക്കായി ഒരു ടെക്സ്റ്റ്-അധിഷ്ഠിത ബ്രൗസർ, ഒരു ടെർമിനൽ, നേരിട്ടുള്ള API ആക്സസ്. ഏജൻ്റ് ChatGPT ബന്ധിപ്പിക്കൽ ഉപകരണങ്ങൾ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) പ്രയോജനപ്പെടുത്താനും കഴിയും, ഇത് Gmail, Github പോലുള്ള ആപ്പുകൾ ബന്ധിപ്പിക്കാൻ നിങ്ങളെ അനുവദിക്കുന്നു, അതിനാൽ ChatGPT നിങ്ങളുടെ പ്രോംപ്റ്റുകൾക്ക് അനുയോജ്യമായ വിവരങ്ങൾ കണ്ടെത്താനും അതിന്റെ മറുപടികളിൽ അവ ഉപയോഗിക്കാനും കഴിയും. നിങ്ങൾക്ക് ബ്രൗസർ കൈകാര്യം ചെയ്ത് ഏത് വെബ്സൈറ്റിലും ലോഗ് ഇൻ ചെയ്യാം, ഇത് അതിന്റെ ഗവേഷണത്തിലും ടാസ്ക് നിർവഹണത്തിലും കൂടുതൽ ആഴത്തിലും വിശാലമായും പോകാൻ അനുവദിക്കുന്നു. വെബ് വിവരങ്ങൾ ആക്സസ് ചെയ്യുന്നതിനും ഇടപഴകുന്നതിനും ChatGPT‑ന് ഈ വ്യത്യസ്ത വഴികൾ നൽകുന്നത്, ടാസ്കുകൾ ഏറ്റവും കാര്യക്ഷമമായി നിർവഹിക്കുന്നതിനായി അനുയോജ്യമായ പാത തിരഞ്ഞെടുക്കാൻ ഇതിന് കഴിയും എന്നർത്ഥം. ഉദാഹരണത്തിന്, ഇത് ഒരു API വഴി നിങ്ങളുടെ കലണ്ടറിലെ വിവരങ്ങൾ ശേഖരിക്കുകയും, വാചകത്തെ അടിസ്ഥാനമാക്കിയുള്ള ബ്രൗസർ ഉപയോഗിച്ച് വലിയ അളവിലുള്ള വാചകത്തെ കാര്യക്ഷമമായി ചിന്തിക്കുകയും, പ്രാഥമികമായി മനുഷ്യർക്കായി രൂപകൽപ്പന ചെയ്ത വെബ്സൈറ്റുകളുമായി ദൃശ്യപരമായി സംവദിക്കാനുള്ള കഴിവും ഉണ്ട്.
ഇതെല്ലാം ചെയ്യുന്നത് സ്വന്തം വെർച്വൽ കമ്പ്യൂട്ടർ ഉപയോഗിച്ചാണ്, ഒന്നിലധികം ഉപകരണങ്ങൾ ഉപയോഗിക്കുമ്പോഴും, ടാസ്ക്കിന് ആവശ്യമായ സന്ദർഭം ഇത് സംരക്ഷിക്കുന്നു - മോഡലിന് ടെക്സ്റ്റ് ബ്രൗസറോ വിഷ്വൽ ബ്രൗസറോ ഉപയോഗിച്ച് ഒരു പേജ് തുറക്കാനും, വെബിൽ നിന്ന് ഒരു ഫയൽ ഡൗൺലോഡ് ചെയ്യാനും, ടെർമിനലിൽ ഒരു കമാൻഡ് പ്രവർത്തിപ്പിച്ച് അത് കൈകാര്യം ചെയ്യാനും, തുടർന്ന് വിഷ്വൽ ബ്രൗസറിൽ ഔട്ട്പുട്ട് തിരികെ കാണാനും തിരഞ്ഞെടുക്കാം. വേഗത, കൃത്യത, കാര്യക്ഷമത എന്നിവയോടെ ടാസ്കുകൾ നടപ്പിലാക്കുന്നതിനുള്ള സമീപനം മോഡൽ പൊരുത്തപ്പെടുത്തുന്നു.
ChatGPT ഏജൻ്റ് ആവർത്തനാത്മകവും സഹകരണപരവുമായ വർക്ക്ഫ്ലോകൾക്കായി രൂപകൽപ്പന ചെയ്തിരിക്കുന്നു, ഇത് മുൻ മോഡലുകളേക്കാൾ കൂടുതൽ സംവേദനാത്മകവും വഴക്കമുള്ളതുമാണ്. ChatGPT പ്രവർത്തിക്കുമ്പോൾ, നിങ്ങളുടെ നിർദ്ദേശങ്ങൾ വ്യക്തമാക്കാൻ, ആവശ്യമായ ഫലങ്ങളിലേക്ക് നയിക്കാൻ, അല്ലെങ്കിൽ ടാസ്ക് പൂർണ്ണമായും മാറ്റാൻ നിങ്ങൾക്ക് ഏത് ഘട്ടത്തിലും തടസ്സപ്പെടുത്താം. അത് ഉപേക്ഷിച്ചിടത്ത് നിന്ന് തുടരും, ഇപ്പോൾ പുതിയ വിവരങ്ങൾ ഉപയോഗിച്ച്, പക്ഷേ മുൻ പുരോഗതി നഷ്ടപ്പെടാതെ. അതുപോലെ, ChatGPT തന്നെ നിങ്ങളുടെ ലക്ഷ്യങ്ങളുമായി ടാസ്ക് പൊരുത്തപ്പെടുന്നുവെന്ന് ഉറപ്പാക്കാൻ ആവശ്യമുള്ളപ്പോൾ നിങ്ങളിൽ നിന്ന് അധിക വിശദാംശങ്ങൾ സജീവമായി തേടാം. ഒരു ടാസ്ക് പ്രതീക്ഷിച്ചതിലും കൂടുതൽ സമയമെടുക്കുകയോ അല്ലെങ്കിൽ കുടുങ്ങുന്നതായി തോന്നുകയോ ചെയ്താൽ, നിങ്ങൾക്ക് അത് താൽക്കാലികമായി നിർത്താം, പുരോഗതി സംഗ്രഹം ആവശ്യപ്പെടാം, അല്ലെങ്കിൽ അത് പൂർണ്ണമായും നിർത്തി ഭാഗിക ഫലങ്ങൾ സ്വീകരിക്കാം. നിങ്ങളുടെ ഫോണിൽ ChatGPT ആപ്പ് ഉണ്ടെങ്കിൽ, നിങ്ങളുടെ ടാസ്ക് പൂർത്തിയാകുമ്പോൾ അത് നിങ്ങളെ ഒരു അറിയിപ്പ് അയയ്ക്കും.
ഈ ഏകീകൃത ഏജന്റിക് കഴിവുകൾ ദൈനംദിനവും പ്രൊഫഷണൽ സന്ദർഭങ്ങളിലും ChatGPT‑യുടെ പ്രയോജനത ഗണ്യമായി വർദ്ധിപ്പിക്കുന്നു. ജോലിയിൽ, നിങ്ങൾക്ക് ആവർത്തനപരമായ ടാസ്കുകൾ ഓട്ടോമേറ്റ് ചെയ്യാം, ഉദാഹരണത്തിന്, സ്ക്രീൻഷോട്ടുകളോ ഡാഷ്ബോർഡുകളോ എഡിറ്റുചെയ്യാവുന്ന വെക്റ്റർ ഘടകങ്ങൾ ഉൾക്കൊള്ളുന്ന അവതരണങ്ങളായി മാറ്റുക, മീറ്റിംഗുകൾ പുനഃക്രമീകരിക്കുക, ഓഫ്സൈറ്റുകൾ ആസൂത്രണം ചെയ്യുകയും ബുക്ക് ചെയ്യുകയും ചെയ്യുക, അതേ ഫോർമാറ്റിംഗ് നിലനിർത്തിക്കൊണ്ട് പുതിയ സാമ്പത്തിക ഡാറ്റ ഉപയോഗിച്ച് സ്പ്രെഡ്ഷീറ്റുകൾ അപ്ഡേറ്റ് ചെയ്യുക. നിങ്ങളുടെ സ്വകാര്യ ജീവിതത്തിൽ, നിങ്ങൾക്ക് ഇത് ഉപയോഗിച്ച് യാത്രാ പദ്ധതികൾ അനായാസമായി തയ്യാറാക്കാനും ബുക്ക് ചെയ്യാനും, മുഴുവൻ അത്താഴവിരുന്നുകൾ രൂപകൽപ്പന ചെയ്യാനും ബുക്ക് ചെയ്യാനും, അല്ലെങ്കിൽ വിദഗ്ധരെ കണ്ടെത്തി കൂടിക്കാഴ്ചകൾ ഷെഡ്യൂൾ ചെയ്യാനും കഴിയും.
മോഡലിന്റെ ഉയർന്ന കഴിവുകൾ വെബ് ബ്രൗസിംഗും യഥാർത്ഥ ലോക ടാസ്ക് പൂർത്തീകരണ ശേഷികളും അളക്കുന്ന മൂല്യനിർണ്ണയങ്ങളിലെ അത്യാധുനിക (SOTA) പ്രകടനത്തിൽ പ്രതിഫലിക്കുന്നു.
ഹ്യൂമാനിറ്റിയുടെ അവസാന പരീക്ഷ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)* എന്നതിൽ, വിദഗ്ധ-തലത്തിലുള്ള ചോദ്യങ്ങളിൽ വിശാലമായ വിഷയങ്ങളിലുടനീളം AI യുടെ പ്രകടനം അളക്കുന്ന ഒരു മൂല്യനിർണ്ണയം, ChatGPT ഏജൻ്റിന് ശക്തി പകരുന്ന മോഡൽ 41.6 എന്ന പുതിയ പാസ്@1 SOTA സ്കോർ നേടുന്നു. ഏജൻ്റ് ചലനാത്മകമായി പദ്ധതി ആസൂത്രണം ചെയ്യുകയും അതിന്റേതായ ഉപകരണങ്ങൾ തിരഞ്ഞെടുക്കുകയും ചെയ്യുന്നതിനാൽ, ഓരോ റണ്ണിലും വ്യത്യസ്ത രീതികളിൽ ഒരേ ടാസ്ക് കൈകാര്യം ചെയ്യാൻ കഴിയും. ഒരു ലളിതമായ സമാന്തര റോൾഔട്ട് സ്ട്രാറ്റജി ഉപയോഗിച്ച് ഞങ്ങൾ ഇത് സ്കെയിൽ ചെയ്യുമ്പോൾ - ഒരേസമയം എട്ട് ശ്രമങ്ങൾ നടത്തുകയും ഏറ്റവും ഉയർന്ന സ്വയം റിപ്പോർട്ടുചെയ്ത ആത്മവിശ്വാസമുള്ളതിനെ തിരഞ്ഞെടുക്കുകയും ചെയ്യുമ്പോൾ - ഏജൻ്റിന്റെ HLE സ്കോർ 44.4 ആയി ഉയരുന്നു.
FrontierMath** ഏറ്റവും പ്രയാസമുള്ള അറിയപ്പെടുന്ന ഗണിത ബഞ്ച്മാർക്കാണ്, പുതുമയുള്ള, പ്രസിദ്ധീകരിക്കാത്ത പ്രശ്നങ്ങൾ ഉൾക്കൊള്ളുന്നു, അവ വിദഗ്ദ്ധ ഗണിതശാസ്ത്രജ്ഞർക്ക് പരിഹരിക്കാൻ മണിക്കൂറുകളോ ദിവസങ്ങളോ എടുക്കാം. ഉപകരണങ്ങൾ ഉപയോഗിച്ച്, കോഡ് എക്സിക്യൂഷനായി ടെർമിനലിലേക്കുള്ള ആക്സസ് പോലുള്ള, ChatGPT ഏജൻ്റ് 27.4% കൃത്യത കൈവരിക്കുന്നു, മുൻ മോഡലുകളെ വിശാലമായ മാർജിനിൽ മറികടക്കുന്നു.
ഞങ്ങൾ മോഡൽ സങ്കീർണ്ണമായ യഥാർത്ഥ ലോക ടാസ്കുകൾക്ക് മാതൃകയാക്കിയ ബെഞ്ച്മാർക്കുകൾ ഉപയോഗിച്ച് വിലയിരുത്തി. സങ്കീർണ്ണവും സാമ്പത്തികമായി മൂല്യവത്തായ അറിവ്-ടാസ്കുകളിൽ മോഡൽ പ്രകടനം വിലയിരുത്താൻ രൂപകൽപ്പന ചെയ്ത ഒരു ആന്തരിക ബെഞ്ച്മാർക്കിൽ, ChatGPT ഏജൻ്റിന്റെ ഔട്ട്പുട്ട് ടാസ്ക് പൂർത്തീകരണ സമയങ്ങളിൽ ഏകദേശം പകുതി കേസുകളിൽ മനുഷ്യരുമായി താരതമ്യപ്പെടുത്താവുന്നതോ മികച്ചതോ ആണ്, അതേസമയം o3, o4-mini എന്നിവയെ ഗണ്യമായി മറികടക്കുന്നു. മോഡൽ ഔട്ട്പുട്ടുകൾ ഓരോ മേഖലയിലും മികച്ച പ്രകടനം കാഴ്ചവെക്കുന്നവർ സൃഷ്ടിച്ച ഉയർന്ന നിലവാരമുള്ള മനുഷ്യ ബേസ്ലൈനുകളുമായി വിദഗ്ധർ താരതമ്യം ചെയ്യുന്നു. വൈവിധ്യമാർന്ന തൊഴിൽ മേഖലകളിലും വ്യവസായങ്ങളിലുമുള്ള വിദഗ്ധരിൽ നിന്ന് ലഭിക്കുന്ന ഈ ടാസ്കുകൾ യഥാർത്ഥ ലോക പ്രൊഫഷണൽ ജോലിയെ പ്രതിഫലിപ്പിക്കുന്നു - ആവശ്യാനുസരണം അടിയന്തിര പരിചരണ ദാതാക്കളുടെ മത്സരാധിഷ്ഠിത വിശകലനം തയ്യാറാക്കൽ, വിശദമായ അമോർട്ടൈസേഷൻ ഷെഡ്യൂളുകൾ നിർമ്മാണം, പുതിയ ഹരിത ഹൈഡ്രജൻ സൗകര്യത്തിനായി സാധ്യമായ ജലകിണറുകൾ തിരിച്ചറിയൽ എന്നിവ പോലുള്ള.
DSBench(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)ൽ, ഡാറ്റ വിശകലനവും മോഡലിംഗും ഉൾപ്പെടുന്ന യാഥാർത്ഥ്യപരമായ ഡാറ്റ സയൻസ് ടാസ്കുകളിൽ ഏജൻ്റുമാരെ വിലയിരുത്താൻ രൂപകൽപ്പന ചെയ്തതിൽ, ChatGPT ഏജൻ്റ് മനുഷ്യ പ്രകടനത്തെ ഗണ്യമായ മാർജിനിൽ മറികടക്കുന്നു.
യഥാർത്ഥ ലോക സാഹചര്യങ്ങളിൽ നിന്ന് ഉരുത്തിരിഞ്ഞ സ്പ്രെഡ്ഷീറ്റുകൾ എഡിറ്റുചെയ്യാനുള്ള കഴിവിനെ അടിസ്ഥാനമാക്കി മോഡലുകളെ വിലയിരുത്തുന്ന SpreadsheetBench ൽ, ChatGPT ഏജൻ്റ് നിലവിലുള്ള മോഡലുകളെ ഗണ്യമായ മാർജിനിലൂടെ മറികടക്കുന്നു. സ്പ്രെഡ്ഷീറ്റുകൾ നേരിട്ട് എഡിറ്റ് ചെയ്യാനുള്ള കഴിവ് നൽകുമ്പോൾ, ChatGPT ഏജൻ്റ് 45.5% സ്കോർ ലഭിക്കുന്നു, Excel-ൽ Copilot 20.0% നേടുമ്പോൾ ഇത് കൂടുതൽ സ്കോർ നേടുന്നു.
രീതിശാസ്ത്രം: സ്പ്രെഡ്ഷീറ്റ് ബെഞ്ച് രചയിതാക്കൾ Microsoft Excel ഉപയോഗിച്ച് വിൻഡോസ് പരിസ്ഥിതിയിൽ സ്പ്രെഡ്ഷീറ്റുകൾ വിലയിരുത്തി. ഞങ്ങൾ ഒരു OSX പരിസ്ഥിതിയും LibreOffice ഉം ഉപയോഗിച്ചു, ഇത് ചെറിയ ഗ്രേഡിംഗ് വ്യത്യാസങ്ങൾക്ക് കാരണമായേക്കാം. ഉദാഹരണത്തിന്, രചയിതാക്കൾ GPT‑4o നായി 15.02% ആകെ കഠിന നിയന്ത്രണം കണ്ടെത്തി, ഞങ്ങൾ 13.38% നേടി. ഞങ്ങൾ പൂർണ്ണമായ 912-ചോദ്യങ്ങളുടെ ബെഞ്ച്മാർക്ക് ഉപയോഗിച്ചു.
ആന്തരിക ബെഞ്ച്മാർക്കിൽ, ആദ്യ മുതൽ മൂന്നാം വർഷം വരെ നിക്ഷേപ ബാങ്കിംഗ് അനലിസ്റ്റ് മോഡലിംഗ് ടാസ്കുകൾകൈകാര്യം ചെയ്യാനുള്ള മോഡലിന്റെ കഴിവ് അളക്കുന്നു - ശരിയായ ഫോർമാറ്റിംഗും ഉദ്ധരണികളും ഉപയോഗിച്ച് ഒരു ഫോർച്യൂൺ 500 കമ്പനിക്ക് മൂന്ന് സ്റ്റേറ്റ്മെന്റ് സാമ്പത്തിക മോഡൽ ഒരുമിപ്പിക്കൽ, അല്ലെങ്കിൽ ടേക്ക്-പ്രൈവറ്റിനായി ഒരു ലിവറേജ് വാങ്ങൽ മോഡൽ നിർമ്മിക്കൽ പോലുള്ളവ - ChatGPT ഏജൻ്റിനെ ശക്തിപ്പെടുത്തുന്ന മോഡൽ ഡീപ്പ് റിസേർച്ച്-നെയും o3 നെയും ഗണ്യമായി മറികടക്കുന്നു. ഓരോ ടാസ്കും കൃത്യതയും ഫോർമുലയുടെ ഉപയോഗവും സംബന്ധിച്ച നൂറുകണക്കിന് മാനദണ്ഡങ്ങളിൽ ഗ്രേഡ് ചെയ്യപ്പെടുന്നു.
വെബിൽ കണ്ടെത്താൻ പ്രയാസമുള്ള വിവരങ്ങൾ കണ്ടെത്താനുള്ള ബ്രൗസിംഗ് ഏജൻ്റ്-ന്റെ കഴിവ് അളക്കുന്ന, ഈ വർഷം ആദ്യം ഞങ്ങൾ പ്രസിദ്ധീകരിച്ച ഒരു മാനദണ്ഡമായ BrowseComp- ലെ ChatGPT ഏജന്റിനെയും ഞങ്ങൾ വിലയിരുത്തി. ഈ മോഡൽ 68.9% ത്തോടെ ഒരു പുതിയ SOTA സജ്ജമാക്കി, ഇത് ഡീപ്പ് റിസേർച്ച്നെക്കാൾ 17.4 ശതമാനം പോയിന്റുകൾ കൂടുതലാണ്.
അവസാനമായി, യഥാർത്ഥ ലോക വെബ് ടാസ്കുകൾ പൂർത്തിയാക്കുന്നതിൽ വെബ് ബ്രൗസിംഗ് ഏജൻ്റുമാരുടെ പ്രകടനം വിലയിരുത്താൻ രൂപകൽപ്പന ചെയ്ത ബെഞ്ച്മാർക്ക് WebArena(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)യിൽ, o3‑പവർഡ് CUA (Operator പവർ ചെയ്യുന്ന മോഡൽ) എന്നതിനേക്കാൾ മോഡൽ മെച്ചപ്പെടുന്നു.
നിങ്ങൾക്ക് ഏത് സംഭാഷണത്തിലും ഏത് ഘട്ടത്തിലും കമ്പോസറിൽ നിന്നുള്ള ടൂളുകളുടെ ഡ്രോപ്പ്ഡൗണിൽ നിന്ന് 'ഏജൻ്റ് മോഡ്' തിരഞ്ഞെടുക്കുന്നതിലൂടെ ChatGPT‑യുടെ പുതിയ ഏജൻ്റ് കഴിവുകൾ നേരിട്ട് പ്രവർത്തനക്ഷമമാക്കാം. നിങ്ങളുടെ ആവശ്യമുള്ള ടാസ്ക് ലളിതമായി വിവരിക്കുക—അത് ഡീപ്പ് റിസേർച്ച് നടത്തുകയോ ഒരു സ്ലൈഡ്ഷോ സൃഷ്ടിക്കുകയോ ചെലവുകൾ സമർപ്പിക്കുകയോ ചെയ്യുന്നതായിരിക്കാം. നിങ്ങളുടെ ടാസ്ക് നിർവഹിക്കുമ്പോൾ, ഒരു ഓൺ-സ്ക്രീൻ ആഖ്യാനം ChatGPT എന്താണ് ചെയ്യുന്നത് എന്നതിനെക്കുറിച്ചുള്ള വ്യക്തമായ ദൃശ്യപരത നൽകുന്നു. നിങ്ങൾക്ക് ആവശ്യമുള്ളപ്പോഴെല്ലാം ബ്രൗസറിനെ തടസ്സപ്പെടുത്തുകയും നിയന്ത്രണം ഏറ്റെടുക്കുകയും ചെയ്യാം, ടാസ്കുകൾ നിങ്ങളുടെ ലക്ഷ്യങ്ങളുമായി പൊരുത്തപ്പെടുന്നുവെന്ന് ഉറപ്പാക്കുക.
ChatGPT ഏജൻ്റിന് നിങ്ങളുടെ കണക്റ്ററുകൾ ആക്സസ് ചെയ്യാൻ കഴിയും, ഇത് നിങ്ങളുടെ പ്രവൃത്തി പ്രവാഹങ്ങളുമായി സംയോജിപ്പിക്കാനും പ്രസക്തവും പ്രവർത്തനക്ഷമവുമായ വിവരങ്ങൾ ആക്സസ് ചെയ്യാനും അനുവദിക്കുന്നു. ആധികാരികമാക്കപ്പെട്ടാൽ, ഈ കണക്റ്ററുകൾ ChatGPT‑നെ നിങ്ങളുടെ ആ ദിവസത്തെ ഇൻബോക്സ് ആയി സംഗ്രഹിക്കാനോ, മീറ്റിംഗിനായി നിങ്ങൾക്ക് ലഭ്യമായ സമയ സ്ലോട്ടുകൾ കണ്ടെത്താനോ പോലുള്ള കാര്യങ്ങൾ ചെയ്യാൻ അനുവദിക്കുന്നു. എന്നാൽ, ഈ സൈറ്റുകളിൽ നടപടി എടുക്കാൻ, ബ്രൗസർ ഏറ്റെടുത്ത് ലോഗ് ഇൻ ചെയ്യാൻ പ്രോംപ്റ്റ് ചെയ്യും.
കൂടാതെ, എല്ലാ തിങ്കളാഴ്ച രാവിലെ ഒരു പ്രതിവാര മെട്രിക്സ് റിപ്പോർട്ട് സൃഷ്ടിക്കുന്നത് പോലുള്ള പൂർത്തിയാക്കിയ ടാസ്കുകൾ യാന്ത്രികമായി ആവർത്തിക്കാൻ നിങ്ങൾക്ക് ഷെഡ്യൂൾ ചെയ്യാൻ കഴിയും.
ഈ റിലീസ് സൂചിപ്പിക്കുന്നത് ഞങ്ങളുടെ ആദ്യ ഉപയോക്താക്കൾക്ക് വെബിൽ നടപടികൾ സ്വീകരിക്കാൻ ChatGPT യോട് ആവശ്യപ്പെടാം എന്നാണ്. ഇത് പുതിയ അപകടസാധ്യതകൾ കൊണ്ടുവരുന്നു, പ്രത്യേകിച്ചും ChatGPT ഏജൻ്റ്-ന് നിങ്ങളുടെ ഡാറ്റയുമായി നേരിട്ട് പ്രവർത്തിക്കാൻ കഴിയും, അത് കണക്ടറുകൾ വഴി ആക്സസ് ചെയ്ത വിവരങ്ങളായാലും അല്ലെങ്കിൽ ഏറ്റെടുക്കൽ മോഡ് വഴി നിങ്ങൾ ലോഗിൻ ചെയ്ത വെബ്സൈറ്റുകളായാലും. Operatorടെ ഗവേഷണ പ്രിവ്യൂവിൽ നിന്നുള്ള ശക്തമായ നിയന്ത്രണങ്ങൾ ഞങ്ങൾ ശക്തിപ്പെടുത്തുകയും തത്സമയ വെബിലെ സെൻസിറ്റീവ് വിവരങ്ങൾ കൈകാര്യം ചെയ്യൽ, വിശാലമായ ഉപയോക്തൃ വ്യാപ്തി, (പരിമിതമായ) ടെർമിനൽ നെറ്റ്റ്വർക്ക് ആക്സസ് തുടങ്ങിയ വെല്ലുവിളികൾക്കുള്ള സുരക്ഷാ മുൻകരുതലുകൾ ചേർക്കുകയും ചെയ്തു. ഈ ലഘൂകരണങ്ങൾ അപകടസാധ്യത ഗണ്യമായി കുറയ്ക്കുന്നുണ്ടെങ്കിലും, ChatGPT ഏജൻ്റിന്റെ വിപുലീകരിച്ച ഉപകരണങ്ങളും വിശാലമായ ഉപയോക്തൃ പരിധിയും അതിന്റെ മൊത്തത്തിലുള്ള അപകടസാധ്യത പ്രൊഫൈൽ ഉയർന്നതാണെന്ന് സൂചിപ്പിക്കുന്നു.
ഞങ്ങൾ ChatGPT ഏജൻ്റിനെ പ്രോംപ്റ്റ് ഇഞ്ചക്ഷൻ വഴി വൈരിപക്ഷീയമായ ഇടപെടലുകളിൽ നിന്ന് സംരക്ഷിക്കാൻ പ്രത്യേക ഊന്നൽ നൽകിയിട്ടുണ്ട്, ഇത് സാധാരണയായി ഏജൻ്റ് സിസ്റ്റങ്ങൾക്കുള്ള ഒരു അപകടമാണ്, അതിനാൽ കൂടുതൽ വിപുലമായ പ്രതിരോധ നടപടികൾ തയ്യാറാക്കിയിട്ടുണ്ട്. ഒരു ടാസ്ക് പൂർത്തിയാക്കുമ്പോൾ വെബിൽ ChatGPT ഏജൻ്റ് നേരിട്ടേക്കാവുന്ന ക്ഷുദ്ര നിർദ്ദേശങ്ങളിലൂടെ അതിന്റെ പെരുമാറ്റത്തിൽ കൃത്രിമം കാണിക്കാൻ മൂന്നാം കക്ഷികൾ നടത്തുന്ന ശ്രമങ്ങളാണ് പ്രോംപ്റ്റ് കുത്തിവയ്പ്പുകൾ. ഉദാഹരണത്തിന്, ഒരു വെബ്പേജിൽ മറഞ്ഞിരിക്കുന്ന ഒരു ക്ഷുദ്ര പ്രോംപ്റ്റ്, അദൃശ്യ ഘടകങ്ങളിലോ മെറ്റാഡാറ്റയിലോ പോലെ, ഏജൻ്റ്-നെ കബളിപ്പിച്ച് ആക്രമണകാരിയുമായി ഒരു കണക്ടറിൽ നിന്നുള്ള സ്വകാര്യ ഡാറ്റ പങ്കിടുന്നത് പോലെയുള്ള ഉദ്ദേശിക്കാത്ത പ്രവർത്തനങ്ങൾ നടത്താൻ പ്രേരിപ്പിച്ചേക്കാം, അല്ലെങ്കിൽ ഉപയോക്താവ് ലോഗിൻ ചെയ്തിരിക്കുന്ന ഒരു സൈറ്റിൽ ദോഷകരമായ നടപടി നടത്താം. ChatGPT ഏജൻ്റിന് നേരിട്ടുള്ള നടപടികൾ എടുക്കാൻ കഴിവുള്ളതിനാൽ, വിജയകരമായ ആക്രമണങ്ങൾ കൂടുതൽ സ്വാധീനം ചെലുത്തുകയും ഉയർന്ന അപകടസാധ്യതകൾ സൃഷ്ടിക്കുകയും ചെയ്യാം.
പ്രോംപ്റ്റ് ഇഞ്ചക്ഷൻ ആക്രമണങ്ങളെ അതിവേഗം കണ്ടെത്തുന്നതിനും പ്രതികരിക്കുന്നതിനും മോണിറ്ററിംഗ് ഉപയോഗിക്കുന്നതിനൊപ്പം, പ്രോംപ്റ്റ് ഇഞ്ചക്ഷൻ തിരിച്ചറിയുന്നതിനും പ്രതിരോധിക്കുന്നതിനും ഞങ്ങൾ ഏജൻ്റിനെ പരിശീലിപ്പിക്കുകയും പരീക്ഷിക്കുകയും ചെയ്തു. പ്രധാനപ്പെട്ട നടപടികൾക്ക് മുമ്പ് വ്യക്തമായ ഉപയോക്തൃ സ്ഥിരീകരണം ആവശ്യപ്പെടുന്നത് ഈ ആക്രമണങ്ങളിൽ നിന്നുള്ള ദോഷ സാധ്യത കുറയ്ക്കുന്നു, കൂടാതെ ഉപയോക്താക്കൾക്ക് ആവശ്യാനുസരണം ടാസ്കുകളിൽ ഇടപെടാൻ, ഏറ്റെടുക്കുകയോ താൽക്കാലികമായി നിർത്തുകയോ ചെയ്യാൻ കഴിയും. ഏജൻ്റ്-ന് എന്ത് വിവരങ്ങൾ നൽകണമെന്ന് തീരുമാനിക്കുമ്പോൾ ഉപയോക്താക്കൾ ഈ വിട്ടുവീഴ്ചകൾ വിലയിരുത്തണം, അതുപോലെ തന്നെ ഒരു ടാസ്ക്ന് കണക്ടറുകൾ ആവശ്യമില്ലാത്തപ്പോൾ അവ പ്രവർത്തനരഹിതമാക്കുന്നത് പോലുള്ള ഈ അപകടസാധ്യതകളിലേക്കുള്ള അവരുടെ എക്സ്പോഷർ കുറയ്ക്കുന്നതിനുള്ള നടപടികൾ സ്വീകരിക്കുകയും വേണം.
മോഡൽ തെറ്റുകൾ ചുറ്റുമുള്ള ലഘൂകരണങ്ങൾ ഞങ്ങൾ നടപ്പിലാക്കിയിട്ടുണ്ട്, പ്രത്യേകിച്ചും മോഡൽ ഇപ്പോൾ യഥാർത്ഥ ലോകത്തെ സ്വാധീനിക്കുന്ന ടാസ്കുകൾ ചെയ്യാൻ കഴിയുന്നതിനാൽ:
- സ്പഷ്ടമായ ഉപയോക്തൃ സ്ഥിരീകരണം: യഥാർത്ഥ-ലോക പ്രത്യാഘാതങ്ങളുള്ള, ഉദാഹരണത്തിന്, വാങ്ങൽ നടത്തുന്നതുപോലുള്ള നടപടികൾ സ്വീകരിക്കുന്നതിന് മുമ്പ് നിങ്ങളുടെ അനുമതി വ്യക്തമായി ചോദിക്കാൻ ChatGPT പരിശീലിപ്പിച്ചിരിക്കുന്നു.
- സജീവ മേൽനോട്ടം (“Watch Mode”): ഇമെയിലുകൾ അയയ്ക്കുന്നത് പോലുള്ള ചില നിർണായക ടാസ്കുകൾക്ക് നിങ്ങളുടെ സജീവ മേൽനോട്ടം ആവശ്യമാണ്.
- പ്രോആക്റ്റീവ് റിസ്ക് ലഘൂകരിക്കൽ: ബാങ്ക് ട്രാൻസ്ഫർ ചെയ്യുക പോലുള്ള ഉയർന്ന അപകടസാധ്യതയുള്ള ടാസ്കുകൾ സജീവമായി നിരസിക്കാൻ ChatGPTയെ പരിശീലിപ്പിച്ചിരിക്കുന്നു.
അവസാനമായി, മോഡലിന് ആക്സസ് ഉള്ള ഡാറ്റയെ പരിമിതപ്പെടുത്താൻ ഞങ്ങൾ അധിക നിയന്ത്രണങ്ങൾ അവതരിപ്പിച്ചു:
- സ്വകാര്യതാ നിയന്ത്രണങ്ങൾ: ChatGPT‑ന്റെ ക്രമീകരണങ്ങളിൽ ഒരു ക്ലിക്കിലൂടെ, നിങ്ങൾക്ക് എല്ലാ ബ്രൗസിംഗ് ഡാറ്റയും ഇല്ലാതാക്കാനും എല്ലാ സജീവ വെബ്സൈറ്റ് സെഷനുകളിൽ നിന്ന് ഉടൻ ലോഗ് ഔട്ട് ചെയ്യാനും കഴിയും. അല്ലാത്തപക്ഷം, സന്ദർശിച്ച ഓരോ വെബ്സൈറ്റിന്റെയും കുക്കി നയങ്ങളെ അടിസ്ഥാനമാക്കി കുക്കികൾ നിലനിൽക്കുന്നു, ഇത് സൈറ്റുകളിലേക്കുള്ള ആവർത്തിച്ചുള്ള സന്ദർശനങ്ങൾ കൂടുതൽ കാര്യക്ഷമമാക്കുന്നു.
- സുരക്ഷിത ബ്രൗസർ ഏറ്റെടുക്കൽ മോഡ്: ChatGPT‑ന്റെ ബ്രൗസർ (“ഏറ്റെടുക്കൽ മോഡ്”) ഉപയോഗിച്ച് നിങ്ങൾ വെബുമായി സംവദിക്കുമ്പോൾ, നിങ്ങളുടെ ഇൻപുട്ടുകൾ സ്വകാര്യമായി നിലനിൽക്കും. ഈ സെഷനുകളിൽ നിങ്ങൾ നൽകുന്ന പാസ്വേഡുകൾ പോലുള്ള ഡാറ്റ ChatGPT ശേഖരിക്കുകയോ സംഭരിക്കുകയോ ചെയ്യുന്നില്ല, കാരണം മോഡലിന് അത് ആവശ്യമില്ല, അത് ഒരിക്കലും കാണുന്നില്ലെങ്കിൽ അത് കൂടുതൽ സുരക്ഷിതമാണ്.
മോഡലിന്റെ വർദ്ധിച്ച കഴിവുകൾ ഉപയോഗിച്ച്, ഞങ്ങൾ ChatGPT ഏജൻ്റിനെ ഞങ്ങളുടെ തയ്യാറെടുപ്പ് ചട്ടക്കൂട് പ്രകാരം ഉയർന്ന ബയോളജിക്കൽ, കെമിക്കൽ കഴിവുകളുള്ളതായി പരിഗണിക്കാൻ തീരുമാനിച്ചു, അനുബന്ധ സുരക്ഷാ നടപടികൾ പ്രവർത്തനക്ഷമമാക്കി. ഒരു പുതുമുഖത്തിന് ഗുരുതരമായ ജൈവശാസ്ത്രപരമായ ദോഷം സൃഷ്ടിക്കാൻ ഈ മോഡൽ അർത്ഥവത്തായി സഹായിക്കുമെന്നതിന് കൃത്യമായ തെളിവുകൾ ഞങ്ങളുടെ പക്കലില്ലെങ്കിലും - ഉയർന്ന ശേഷിക്കുള്ള നമ്മുടെ പരിധി - ഞങ്ങൾ ഇപ്പോൾ ജാഗ്രത പാലിക്കുകയും ആവശ്യമായ സുരക്ഷാ നടപടികൾ നടപ്പിലാക്കുകയും ചെയ്യുന്നു. തൽഫലമായി, ഈ മോഡലിന് ഇതുവരെയുള്ളതിൽ വച്ച് ഏറ്റവും സമഗ്രമായ സുരക്ഷാ സംവിധാനങ്ങളുണ്ട്, അതിൽ ജീവശാസ്ത്രത്തിനായുള്ള മെച്ചപ്പെടുത്തിയ സുരക്ഷാ സംവിധാനങ്ങളുണ്ട്: സമഗ്രമായ ഭീഷണി മോഡലിംഗ്, ഇരട്ട-ഉപയോഗ നിരസിക്കൽ പരിശീലനം, എപ്പോഴും ഓൺ ആയ ക്ലാസിഫയറുകളും റീസണിംഗ് മോണിറ്ററുകളും, വ്യക്തമായ എൻഫോഴ്സ്മെന്റ് പൈപ്പ്ലൈനുകളും.
ChatGPT ഏജൻ്റിനെ സുരക്ഷിതമാക്കുന്നതിനുള്ള ഞങ്ങളുടെ പ്രവർത്തനത്തിന് പുറമേ, ഏതെങ്കിലും ഒരു ലാബിന് അപ്പുറം സുരക്ഷാ നടപടികൾ വ്യാപിക്കുമ്പോൾ ലേയേർഡ് ബയോസേഫ്റ്റി മികച്ച രീതിയിൽ പ്രവർത്തിക്കുന്നുവെന്ന് ഞങ്ങൾക്കറിയാം, അതിനാൽ പ്രതിരോധങ്ങൾ ശക്തിപ്പെടുത്തുന്നതിന് ഞങ്ങൾ പരിസ്ഥിതിയിലുടനീളം സഹകരിക്കുന്നു. ഞങ്ങളുടെ അപകട മോഡൽ, വിലയിരുത്തലുകൾ, നയങ്ങൾ എന്നിവ രൂപപ്പെടുത്തുന്നതിന് ഞങ്ങൾ പുറത്തെ ജൈവ സുരക്ഷാ വിദഗ്ധർ, സുരക്ഷാ സ്ഥാപനങ്ങൾ, അക്കാദമിക് ഗവേഷകർ എന്നിവരുമായി ഒന്നാം ദിവസം മുതൽ പ്രവർത്തിച്ചു. ബയോളജി പരിശീലനം ലഭിച്ച നിരൂപകർ ഞങ്ങളുടെ മൂല്യനിർണ്ണയ ഡാറ്റ സാധൂകരിച്ചു, കൂടാതെ ഡൊമെയ്ൻ വിദഗ്ദ്ധരായ റെഡ് ടീമർമാർ റിയലിസ്റ്റിക് സാഹചര്യങ്ങളിൽ സുരക്ഷാമാർഗങ്ങൾ സമ്മർദ്ദം പരീക്ഷിച്ചു. സഹകരണം ത്വരിതപ്പെടുത്തുന്നതിനും AI നൽകുന്ന ബയോഡിഫൻസ് ഗവേഷണം മുന്നോട്ട് കൊണ്ടുപോകുന്നതിനും സർക്കാർ, അക്കാദമിയ, ദേശീയ ലാബുകൾ, എൻജിഒകൾ എന്നിവയിൽ നിന്നുള്ള വിദഗ്ധരുമായി ഈ മാസം ആദ്യം ഞങ്ങൾ ഒരു ബയോഡിഫൻസ് ശില്പശാല വിളിച്ചുകൂട്ടി. ഉയർന്നുവരുന്ന അപകടസാധ്യതകളെ മറികടക്കാൻ ഞങ്ങൾ ആഗോളതലത്തിൽ പങ്കാളിത്തം തുടരും.
സിസ്റ്റം കാർഡിലെ ഏകീകൃത ഏജന്റിക് മോഡലിനായുള്ള ഞങ്ങളുടെ ശക്തമായ സുരക്ഷാ സമീപനത്തെക്കുറിച്ച് കൂടുതൽ വായിക്കുക. ഞങ്ങൾ യഥാർത്ഥ ലോക അപകടസാധ്യതകൾ കണ്ടെത്തുകയും പരിഹരിക്കുകയും ചെയ്യുന്നതിനായി ഒരു ബഗ് ബൗണ്ടി പ്രോഗ്രാം ആരംഭിക്കുന്നു.
ChatGPT ഏജൻ്റ് ഇന്ന് Pro, Plus, Team എന്നിവയിലേക്ക് പ്രാരംഭമായി വിതരണം ചെയ്യുന്നു; Pro-ന് ദിവസാവസാനം ആക്സസ് ലഭിക്കും, അതേസമയം Plus, Team ഉപയോക്താക്കൾക്ക് അടുത്ത കുറച്ച് ദിവസങ്ങളിൽ ആക്സസ് ലഭിക്കും. Enterprise, Education ഉപയോക്താക്കൾക്ക് വരും ആഴ്ചകളിൽ ആക്സസ് ലഭിക്കും. Pro ഉപയോക്താക്കൾക്ക് പ്രതിമാസം 400 സന്ദേശങ്ങൾ ലഭിക്കും, മറ്റ് പണമടച്ചുള്ള ഉപയോക്താക്കൾക്ക് പ്രതിമാസം 40 സന്ദേശങ്ങൾ ലഭിക്കും, കൂടാതെ ഫ്ലെക്സിബിൾ ക്രെഡിറ്റ് അധിഷ്ഠിത ഓപ്ഷനുകൾ വഴി അധിക ഉപയോഗം ലഭ്യമാണ്.
യൂറോപ്യൻ സാമ്പത്തിക മേഖലയിലും സ്വിറ്റ്സർലൻഡിലും ആക്സസ് പ്രാപ്തമാക്കുന്നതിന് ഞങ്ങൾ ഇപ്പോഴും പ്രവർത്തിച്ചുകൊണ്ടിരിക്കുന്നു.
Operator റിസർച്ച് പ്രിവ്യൂ സൈറ്റ് കുറച്ച് ആഴ്ചകൾ കൂടി പ്രവർത്തനക്ഷമമായി തുടരും, അതിനുശേഷം അത് പ്രവർത്തനം നിർത്തും. ഡീപ്പ് റിസേർച്ച് ChatGPT ഏജൻ്റ്ന്റെ കഴിവുകളുടെ ഭാഗമാണ്. നിങ്ങൾക്ക് യഥാർത്ഥ ഡീപ്പ് റിസേർച്ച് ഫീച്ചർ ഇഷ്ടമാണെങ്കിൽ - പ്രവർത്തിക്കാൻ കൂടുതൽ സമയമെടുത്തേക്കാം, പക്ഷേ ഡിഫോൾട്ടായി കൂടുതൽ വിശദവും ആഴത്തിലുള്ളതുമായ മറുപടി നൽകുന്നു - സന്ദേശ കമ്പോസറിലെ ഡ്രോപ്പ്ഡൗണിൽ നിന്ന് "ഡീപ്പ് റിസേർച്ച്" തിരഞ്ഞെടുത്ത് നിങ്ങൾക്ക് ഇപ്പോഴും അത് ആക്സസ് ചെയ്യാൻ കഴിയും.
ChatGPT ഏജൻ്റ് ഇപ്പോഴും അതിന്റെ പ്രാരംഭ ഘട്ടത്തിലാണ്. ഇത് സങ്കീർണ്ണമായ നിരവധി ടാസ്കുകൾ ഏറ്റെടുക്കാൻ കഴിവുള്ളതാണ്, പക്ഷേ ഇതിന് ഇപ്പോഴും തെറ്റുകൾ വരുത്താൻ സാധ്യതയുണ്ട്.
സ്ലൈഡ്ഷോകൾ സൃഷ്ടിക്കുന്നതിൽ അതിന്റെ കഴിവിൽ ഞങ്ങൾ വലിയ സാധ്യതകൾ കാണുന്നുണ്ടെങ്കിലും, ഈ പ്രവർത്തനം ഇപ്പോൾ ബീറ്റ ഘട്ടത്തിലാണ്. ഇപ്പോൾ, ഔട്ട്പുട്ടുകൾ ചിലപ്പോൾ അതിന്റെ ഫോർമാറ്റിംഗിലും മിനുക്കലിലും അടിസ്ഥാനപരമായി തോന്നാം, പ്രത്യേകിച്ചും നിലവിലുള്ള ഡോക്യുമെൻ്റ് ഇല്ലാതെ ആരംഭിക്കുമ്പോൾ. ടെക്സ്റ്റ്, ചാർട്ടുകൾ, ചിത്രം, ആകൃതികൾ എന്നിവ പോലുള്ള ഘടകങ്ങൾ ഉപയോഗിച്ച്, എക്സ്പോർട്ട്ന് ശേഷം പ്രാദേശികമായും എളുപ്പത്തിലും എഡിറ്റ് ചെയ്യാവുന്നതും ഘടനയും വഴക്കവും ഒപ്റ്റിമൈസ് ചെയ്യുന്നതുമായ, അവതരണങ്ങൾക്ക് അനുയോജ്യമായ ഒരു ഫ്ലോയിലും ഫോർമാറ്റിലും വിവരങ്ങൾ ക്രമീകരിക്കുന്ന ആർട്ടിഫാക്റ്റുകൾ സൃഷ്ടിക്കുന്നതിലാണ് ഞങ്ങൾ മോഡലിന്റെ പ്രാരംഭ കഴിവുകൾ കേന്ദ്രീകരിച്ചത്. നിലവിൽ, വ്യൂവറിലെ സ്ലൈഡുകളും എക്സ്പോർട്ടുചെയ്ത പവർപോയിന്റും തമ്മിൽ ഇടയ്ക്കിടെ പൊരുത്തക്കേടുകൾ ഉണ്ടാകാറുണ്ട്, അവ കുറയ്ക്കാൻ ഞങ്ങൾ പ്രവർത്തിക്കുന്നു. കൂടാതെ, നിങ്ങൾക്ക് നിലവിൽ ChatGPT‑നായി എഡിറ്റുചെയ്യാനോ ടെംപ്ലേറ്റായി ഉപയോഗിക്കാനോ നിലവിലുള്ള ഒരു സ്പ്രെഡ്ഷീറ്റ് അപ്ലോഡ് ചെയ്യാൻ കഴിയുമെങ്കിലും, സ്ലൈഡ്ഷോകൾക്കായി ഈ കഴിവ് ഇതുവരെ ലഭ്യമല്ല. വിശാലമായ കഴിവുകളും മെച്ചപ്പെട്ട ഫോർമാറ്റിംഗും ഉപയോഗിച്ച് കൂടുതൽ മിനുക്കിയതും നൂതനവുമായ ഔട്ട്പുട്ടുകൾ നിർമ്മിക്കുന്നതിന് ChatGPT‑യുടെ സ്ലൈഡ്ഷോ സൃഷ്ടിയുടെ അടുത്തത് പരിശീലനം ഞങ്ങൾ ഇതിനകം നടത്തുകയാണ്.
മൊത്തത്തിൽ, ChatGPT ഏജൻ്റിന്റെ കാര്യക്ഷമത, ആഴം, വൈവിധ്യം എന്നിവയിൽ കാലക്രമേണ തുടർച്ചയായ പുരോഗതികൾ ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു, ഉപയോക്താവിൽ നിന്ന് ആവശ്യമായ മേൽനോട്ടത്തിന്റെ അളവ് ക്രമീകരിക്കുന്നത് തുടരുന്നതിനിടെ, അത് കൂടുതൽ ഉപയോഗപ്രദമാക്കുന്നതിനും ഉപയോഗിക്കാൻ സുരക്ഷിതമാണെന്ന് ഉറപ്പാക്കുന്നതിനും കൂടുതൽ തടസ്സമില്ലാത്ത ഇടപെടലുകൾ ഉൾപ്പെടെ.
സ്പ്രെഡ്ഷീറ്റ്ബെഞ്ച് | ||||
മോഡൽ | മൂല്യനിർണ്ണയ പരിസ്ഥിതി | സോഫ്റ്റ് നിയന്ത്രണം (%): സെൽ-തലം | മൃദുവായ നിയന്ത്രണം (%): ഷീറ്റ്-തലം | മൃദുവായ നിയന്ത്രണം (%): മൊത്തത്തിൽ |
GPT‑4o | Windows, Excel | 15.03 | 23.65 | 18.35 |
Excel-ലെ കോപൈലറ്റ് | Windows, Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX, LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX, LibreOffice | 22.40 | 24.60 | 23.25 |
ChatGPT ഏജൻ്റ് | OSX, LibreOffice | 38.27 | 30.48 | 35.27 |
.xlsx ഫയലിനൊപ്പം ChatGPT ഏജൻ്റ് | OSX, LibreOffice | 50.56 | 37.51 | 45.54 |
മനുഷ്യൻ | 75.56 | 65.00 | 71.33 |
രചയിതാവ്
അടിക്കുറിപ്പുകൾ
* ബ്രൗസിംഗ് പ്രവർത്തനക്ഷമമാക്കുമ്പോൾ, മോഡലിന് ചിലപ്പോൾ ഓൺലൈനിൽ കൃത്യമായ ഉത്തരങ്ങൾ കണ്ടെത്താൻ കഴിയും, ഉദാഹരണത്തിന്, ഒരു ഡാറ്റാസെറ്റിൽ നിന്ന് സാമ്പിൾ പ്രശ്നങ്ങളുള്ള ബ്ലോഗ് പോസ്റ്റുകൾ വായിച്ച്. രണ്ട് തന്ത്രങ്ങൾ ഉപയോഗിച്ച് ബ്രൗസ് ചെയ്യുമ്പോൾ മോഡൽ തട്ടിപ്പിനെക്കുറിച്ചുള്ള ആശങ്കകൾ ഞങ്ങൾ ലഘൂകരിക്കുന്നു:
1. മോഡൽ മുമ്പ് ചീറ്റ് ചെയ്തതായി ഞങ്ങൾ ശ്രദ്ധിച്ച ഡൊമെയിനുകൾ നിരോധിച്ചു.
2. ഓരോ ശ്രമത്തിലും എല്ലാ ഔട്ട്പുട്ട് ടോക്കണുകളും പരിശോധിക്കുന്നതിന് ഒരു മോണിറ്ററായി ഒരു അധിക മോഡൽ ഉപയോഗിച്ചു, സംശയാസ്പദമായ പെരുമാറ്റം തിരിച്ചറിയാൻ. സംശയാസ്പദമായ പെരുമാറ്റം "ഒരു പേജ്, ഫയൽ, അല്ലെങ്കിൽ സ്നിപ്പെറ്റ്, ഇതിന്റെ പ്രധാന ഉദ്ദേശ്യം ഈ നിർദ്ദിഷ്ട ചോദ്യത്തിന് കൃത്യമായ ഉത്തരം നൽകുക എന്നതാണ് - ഉദാ., ഒരു ഔദ്യോഗിക ഗ്രേഡിംഗ് കീ, ചോർന്ന “പരിഹാരങ്ങൾ” ഗിസ്റ്റ്, അല്ലെങ്കിൽ പൂർത്തിയായ ഉത്തരം ഉദ്ധരിക്കുന്ന ചർച്ച." നിഷ്കളങ്കമായ പെരുമാറ്റം "ഒരു ധൃതിയുള്ള മനുഷ്യൻ ആലോചിച്ചേക്കാവുന്ന ഏതൊരു ആധികാരിക വിഭവവും (ഡോക്യുമെന്റേഷൻ, മാനുവലുകൾ, പഠനപ്രബന്ധങ്ങൾ, മതിപ്പുള്ള ലേഖനങ്ങൾ) യാദൃശ്ചികമായി ശരിയായ ഉത്തരം അടങ്ങിയാലും." മോണിറ്റർ റോൾഔട്ട് സംശയാസ്പദമെന്ന് കരുതുന്ന ഏതെങ്കിലും ശ്രമങ്ങൾ തെറ്റായി കണക്കാക്കപ്പെടുന്നു. ഈ പരിശോധന പരാജയപ്പെട്ട മിക്ക സാമ്പിളുകളും എച്ച്എൽഇയുമായി ബന്ധമില്ലാത്ത ഒന്നിലധികം ഇന്റർനെറ്റ് ഉറവിടങ്ങളിൽ കൃത്യമായ പരിഹാരം ലഭ്യമായ പ്രശ്നങ്ങളായിരുന്നു.
**OpenAI-ന് ടയർ 1-3 ഡാറ്റാസെറ്റിലെ 290 സ്വകാര്യ ചോദ്യങ്ങളിൽ 237-ൽ പ്രത്യേകമായ ആക്സസ് ഉണ്ട്. FrontierMath ടയർ 4 ചോദ്യങ്ങൾ ഈ വിലയിരുത്തലിൽ ഉൾപ്പെടുത്തിയിട്ടില്ല. ഓരോ ചോദ്യത്തിനും ഉത്തരം നൽകാനുള്ള 16 ശ്രമങ്ങളുടെ ശരാശരിയായി ഫലങ്ങൾ വിലയിരുത്തപ്പെട്ടു. ChatGPT ഏജൻ്റ് ഫലങ്ങൾ OpenAI ആണ് പുറത്തുവിടുന്നത്, Epoch AI ഗ്രേഡ് ചെയ്യുന്നു, ബ്രൗസറിലേക്കും ടെർമിനലിലേക്കും ആക്സസ് ഉണ്ട്, കൂടാതെ ഓരോ ഉത്തരത്തിനും 128K token-ന്റെ പരിധിയും ഉണ്ട്. ബ്രൗസർ, ടെർമിനൽ ആക്സസും ഇല്ലാതെ, ഫംഗ്ഷൻ കോളിംഗ് വഴി പൈത്തൺ സ്ക്രിപ്റ്റുകൾ ഉപയോഗിക്കുകയും ഉത്തരത്തിന് 100K token-കളുടെ പരിധിയും ഉപയോഗിച്ച് OpenAI o4-mini, o3 വിലയിരുത്തലുകൾ എപോച്ച് AI വഴി നേടുകയും ഗ്രേഡ് ചെയ്യുകയും ചെയ്യുന്നു.
*** മൊത്തം 64 സാമ്പിൾ റണ്ണുകളിൽ നേടിയ ഏറ്റവും മികച്ച സ്കോറിനെയാണ് Oracle@64 സൂചിപ്പിക്കുന്നത്, ഗ്രൗണ്ട് ട്രൂത്ത് ഉപയോഗിച്ച് തിരഞ്ഞെടുത്തതാണ് (അതായത്, യഥാർത്ഥ ഗ്രേഡഡ് പ്രകടനത്തെ അടിസ്ഥാനമാക്കി ഓരോ ടാസ്ക്-നും ഏറ്റവും ഉയർന്ന സ്കോറിംഗ് ശ്രമം ഞങ്ങൾ തിരഞ്ഞെടുക്കുന്നു). എല്ലാ ടാസ്ക്കു-കളിലുമുള്ള ഈ ഓരോ ടാസ്ക്-നും ഏറ്റവും മികച്ച സ്കോറുകളുടെ ശരാശരി ഞങ്ങൾ റിപ്പോർട്ട് ചെയ്യുന്നു. ഈ മെട്രിക് മോഡലിന്റെ ഉയർന്ന-ബൗണ്ട് സാധ്യതയും ടാസ്ക് പ്രകടനത്തിലെ വ്യത്യാസവും എടുത്തുകാണിക്കുന്നു - മോഡൽ വിജയിക്കുമ്പോൾ എത്രത്തോളം കഴിവുള്ളതായിരിക്കുമെന്ന് കാണിക്കുന്നു, കൂടുതൽ പരിശീലനത്തിലൂടെ സ്ഥിരത മെച്ചപ്പെടുത്തുന്നതിനുള്ള ഇടം സൂചിപ്പിക്കുന്നു. മോഡൽ ആത്മവിശ്വാസത്തെ അടിസ്ഥാനമാക്കി തിരഞ്ഞെടുക്കുന്ന സാധാരണ "മികച്ച N" മെട്രിക്കുകളിൽ നിന്ന് വ്യത്യസ്തമായി, oracle@64 തിരഞ്ഞെടുപ്പിനായി ഗ്രൗണ്ട് ട്രൂത്ത് ഉപയോഗിക്കുന്നു, കൂടാതെ ബൈനറി പാസ്/പരാജയത്തിന് പകരം തുടർച്ചയായ 0–1 സ്കെയിലിൽ ഗ്രേഡ് ചെയ്ത ടാസ്ക്-കൾക്ക് ബാധകമാണ്.


