2023 മാർച്ച് 14

GPT‑4

പേപ്പർ വായിക്കുക സിസ്റ്റം കാർഡ് കാണുക ChatGPT Plus പരീക്ഷിച്ചു നോക്കുക

കൂടുതൽ വിഭവങ്ങൾ

Playground-ൽ പരീക്ഷിച്ചുനോക്കൂ ഡെമോ ലൈവ്സ്ട്രീം വീണ്ടും കാണുക OpenAI Evals-ലേക്ക് സംഭാവന ചെയ്യുക

ലോഡിംഗ്…

OpenAIയുടെ ആഴത്തിലുള്ള പഠനം വർദ്ധിപ്പിക്കുന്നതിനുള്ള ശ്രമത്തിലെ ഏറ്റവും പുതിയ നാഴികക്കല്ലായ GPT‑4 ഞങ്ങൾ സൃഷ്ടിച്ചു. GPT‑4 ഒരു വലിയ മൾട്ടിമോഡൽ മോഡലാണ് (ചിത്രവും ടെക്സ്റ്റ് ഇൻപുട്ടുകളും സ്വീകരിച്ച്, ടെക്സ്റ്റ് ഔട്ട്പുട്ടുകൾ പുറപ്പെടുവിക്കുന്നു), അത് പല യഥാർത്ഥ ലോക സാഹചര്യങ്ങളിലും മനുഷ്യരെക്കാൾ കഴിവ് കുറവാണെങ്കിലും, വിവിധ പ്രൊഫഷണൽ, അക്കാദമിക് മാനദണ്ഡങ്ങളിൽ മാനുഷിക തലത്തിലുള്ള പ്രകടനം പ്രദർശിപ്പിക്കുന്നു. ഉദാഹരണത്തിന്, ഇത് പരീക്ഷ എഴുതുന്നവരുടെ മുകളിൽ 10% ലെ സ്കോർ നേടി ഒരു സിമുലേറ്റഡ് ബാർ പരീക്ഷ വിജയിക്കുന്നു; ഇതിനു വിപരീതമായി, GPT‑3.5കൾ സ്കോർ ഏകദേശം താഴെയുള്ള 10% ആയിരുന്നു. ഞങ്ങൾ 6 മാസം ചെലവഴിച്ച് GPT‑4 നെ ആവർത്തിച്ച് അനുരൂപമാക്കാൻ ഞങ്ങളുടെ വൈരിപരീക്ഷണ പ്രോഗ്രാമിൽ നിന്നും ChatGPT‑ൽ നിന്നും പാഠങ്ങൾ ഉപയോഗിച്ചു, അതിന്റെ ഫലമായി വസ്തുത, നിയന്ത്രണക്ഷമത, ഗാർഡ്രെയിലുകൾക്ക് പുറത്തുപോകാൻ വിസമ്മതിക്കൽ എന്നിവയിൽ ഞങ്ങളുടെ എക്കാലത്തെയും മികച്ച ഫലങ്ങൾ (തികഞ്ഞതല്ല എന്നിരുന്നാലും).⁠

കഴിഞ്ഞ രണ്ട് വർഷത്തിനിടെ, ഞങ്ങൾ ഞങ്ങളുടെ മുഴുവൻ ആഴത്തിലുള്ള പഠനം സ്റ്റാക്ക് പുനർനിർമ്മിക്കുകയും, അസൂറുമായി ചേർന്ന്, ഞങ്ങളുടെ ജോലിഭാരത്തിനായി നിലത്തുനിന്ന് ഒരു സൂപ്പർകമ്പ്യൂട്ടർ സഹ-രൂപകൽപ്പന ചെയ്യുകയും ചെയ്തു. ഒരു വർഷം മുമ്പ്, സിസ്റ്റത്തിന്റെ ആദ്യത്തെ “ടെസ്റ്റ് റൺ” ആയി ഞങ്ങൾ GPT‑3.5‑നെ പരിശീലിപ്പിച്ചു. ഞങ്ങൾ ചില ബഗുകൾ കണ്ടെത്തി പരിഹരിക്കുകയും ഞങ്ങളുടെ സൈദ്ധാന്തിക അടിത്തറ മെച്ചപ്പെടുത്തുകയും ചെയ്തു. ഫലമായി, ഞങ്ങളുടെ GPT‑4 പരിശീലനം റൺ (കുറഞ്ഞത് ഞങ്ങൾക്ക്!) അഭൂതപൂർവമായ സ്ഥിരതയുള്ളതായിരുന്നു, അതിന്റെ പരിശീലന പ്രകടനം കൃത്യമായി മുൻകൂട്ടി പ്രവചിക്കാൻ കഴിഞ്ഞ ആദ്യത്തെ വലിയ മോഡലായി മാറി. വിശ്വസനീയമായ സ്കെയിലിംഗിൽ ഞങ്ങൾ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നത് തുടരുമ്പോൾ, ഭാവിയിലെ കഴിവുകൾ കൂടുതൽ മുൻകൂട്ടി പ്രവചിക്കാനും തയ്യാറെടുക്കാനും സഹായിക്കുന്നതിന് ഞങ്ങളുടെ രീതിശാസ്ത്രം മെച്ചപ്പെടുത്താൻ ഞങ്ങൾ ലക്ഷ്യമിടുന്നു - സുരക്ഷയ്ക്കായി നിർണായകമാണെന്ന് ഞങ്ങൾ കാണുന്നു.

ഞങ്ങൾ ChatGPT, API എന്നിവ വഴി GPT‑4 ന്റെ ടെക്സ്റ്റ് ഇൻപുട്ട് ശേഷി പുറത്തിറക്കുന്നു (ഒരു വെയിറ്റ്ലിസ്റ്റ്⁠ ഉപയോഗിച്ച്). വിശാലമായ ലഭ്യതയ്ക്കായി ചിത്ര ഇൻപുട്ട് ശേഷി തയ്യാറാക്കുന്നതിന്, ആരംഭിക്കുന്നതിന് ഞങ്ങൾ ഒരു ഒറ്റ പങ്കാളിയുമായി⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ചേർന്ന് സഹകരിക്കുന്നു. കൂടുതൽ മെച്ചപ്പെടുത്തലുകൾ നയിക്കാൻ സഹായിക്കുന്നതിന് ഞങ്ങളുടെ മോഡലുകളിലെ പോരായ്മകൾ റിപ്പോർട്ട് ചെയ്യാൻ ആരെയും അനുവദിക്കുന്നതിന് AI മോഡൽ പ്രകടനത്തിന്റെ യാന്ത്രിക മൂല്യനിർണ്ണയത്തിനുള്ള ഞങ്ങളുടെ ചട്ടക്കൂടായ OpenAI ഇവാലുകളും ഞങ്ങൾ ഓപ്പൺ-സോഴ്സിംഗ് ചെയ്യുന്നു.

കഴിവുകൾ

ഒരു അനൗപചാരിക സംഭാഷണത്തിൽ, GPT‑3.5 ഉം GPT‑4 ഉം തമ്മിലുള്ള വ്യത്യാസം സൂക്ഷ്മമായിരിക്കാം. ടാസ്കിന്റെ സങ്കീർണ്ണത മതിയായ പരിധിയിൽ എത്തുമ്പോൾ വ്യത്യാസം പ്രകടമാകുന്നു - GPT‑4 കൂടുതൽ വിശ്വസനീയവും സൃഷ്ടിപരവും GPT‑3.5‑നേക്കാൾ കൂടുതൽ സൂക്ഷ്മമായ നിർദ്ദേശങ്ങൾ കൈകാര്യം ചെയ്യാൻ കഴിവുള്ളതുമാണ്.

രണ്ട് മോഡലുകൾ തമ്മിലുള്ള വ്യത്യാസം മനസ്സിലാക്കാൻ, യഥാർത്ഥത്തിൽ മനുഷ്യർക്കായി രൂപകൽപ്പന ചെയ്ത പരീക്ഷകൾ അനുകരിക്കുന്നതുൾപ്പെടെ വിവിധതരം ബെഞ്ച്മാർക്കുകളിൽ ഞങ്ങൾ പരീക്ഷണം നടത്തി. ഏറ്റവും പുതിയ പൊതുവായി ലഭ്യമായ ടെസ്റ്റുകൾ ഉപയോഗിച്ചോ (ഒളിമ്പ്യാഡുകളുടെയും എപി സൗജന്യ മറുപടി ചോദ്യങ്ങളുടെയും കാര്യത്തിൽ) അല്ലെങ്കിൽ പ്രാക്ടീസ് പരീക്ഷകളുടെ 2022-2023 പതിപ്പുകൾ വാങ്ങിക്കൊണ്ട് ഞങ്ങൾ മുന്നോട്ട് നീങ്ങി. ഈ പരീക്ഷകൾക്കായി ഞങ്ങൾ പ്രത്യേകമായ പരിശീലനം നടത്തിയില്ല. പരീക്ഷകളിലെ ചില പ്രശ്നങ്ങൾ പരിശീലന സമയത്ത് മോഡൽ കണ്ടിരുന്നു, പക്ഷേ ഫലങ്ങൾ പ്രതിനിധാനപരമാണെന്ന് ഞങ്ങൾ വിശ്വസിക്കുന്നു—വിശദാംശങ്ങൾക്ക് ഞങ്ങളുടെ സാങ്കേതിക റിപ്പോർട്ട്⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കാണുക.

ആന്തരിക റഫറൻസ് ¹

ലോഡിംഗ്...

മെഷീൻ ലേണിംഗ് മോഡലുകൾക്കായി രൂപകൽപ്പന ചെയ്ത പരമ്പരാഗത ബെഞ്ച്മാർക്കുകളിൽ ഞങ്ങൾ GPT‑4 നെ വിലയിരുത്തി. ബെഞ്ച്മാർക്ക്-നിർദ്ദിഷ്ട ക്രാഫ്റ്റിംഗോ അധിക പരിശീലന പ്രോട്ടോക്കോളുകളോ ഉൾപ്പെട്ടേക്കാവുന്ന മിക്ക അത്യാധുനിക (SOTA) മോഡലുകൾക്കൊപ്പം നിലവിലുള്ള വലിയ ഭാഷാ മോഡലുകളെ GPT‑4 ഗണ്യമായി മറികടന്നു:

ലോഡിംഗ്...

നിലവിലുള്ള പല എം.എൽ ബെഞ്ച്മാർക്കുകളും ഇംഗ്ലീഷിലാണ് എഴുതിയിരിക്കുന്നത്. മറ്റ് ഭാഷകളിൽ പ്രാപ്തിയുടെ പ്രാരംഭ ബോധം നേടുന്നതിനായി, ഞങ്ങൾ MMLU ബെഞ്ച്മാർക്ക്—57 വിഷയങ്ങളിൽ വ്യാപിച്ചുകിടക്കുന്ന 14,000 മൾട്ടിപിൾ-ചോയ്സ് പ്രശ്നങ്ങളുടെ സ്യൂട്ട്—അസ്യൂർ ട്രാൻസ്ലേറ്റ് ഉപയോഗിച്ച് വിവിധ ഭാഷകളിലേക്ക് വിവർത്തനം ചെയ്തു (കാണുക അനുബന്ധം⁠). പരീക്ഷിച്ച 26 ഭാഷകളിൽ 24-ൽ, ലാത്വിയൻ, വെൽഷ്, സ്വാഹിലി പോലുള്ള കുറഞ്ഞ വിഭവശേഷിയുള്ള ഭാഷകൾ ഉൾപ്പെടെ, GPT‑3.5, ചിഞ്ചില്ല, പാം തുടങ്ങിയ മറ്റ് എൽഎൽഎമ്മുകളുടെ ഇംഗ്ലീഷ് ഭാഷാ പ്രകടനത്തെ GPT‑4 മറികടന്നു:

ലോഡിംഗ്...

പിന്തുണ, വിൽപ്പന, ഉള്ളടക്ക മോഡറേഷൻ, പ്രോഗ്രാമിംഗ് തുടങ്ങിയ പ്രവർത്തനങ്ങളിൽ വലിയ സ്വാധീനം ചെലുത്തി ഞങ്ങൾ GPT -4 ആന്തരികമായി ഉപയോഗിക്കുന്നു. ഞങ്ങളുടെ വി ന്യാസ തന്ത്രത്തിലെ രണ്ടാം ഘട്ടം ആരംഭിച്ച് AI ഔട്ട് പുട്ടുകൾ വിലയിരുത്തുന്നതിൽ മനുഷ്യരെ സഹായിക്കാനും ഞങ്ങൾ ഇത് ഉപയോഗിക്കുന്നു⁠.

ദൃശ്യ ഇൻപുട്ടുകൾ

GPT‑4 വാചകത്തിന്റെയും ചിത്രങ്ങളുടെയും ഒരു പ്രോംപ്റ്റ് സ്വീകരിക്കാൻ കഴിയും, ഇത് - ടെക്സ്റ്റ്-ഒൺലി ക്രമീകരണത്തിന് സമാന്തരമായി - ഉപയോക്താവിന് ഏതെങ്കിലും ദൃശ്യമോ ഭാഷാ ടാസ്കോ വ്യക്തമാക്കാൻ അനുവദിക്കുന്നു. പ്രത്യേകിച്ചും, ഇത് ടെക്സ്റ്റ് ഔട്ട്പുട്ടുകൾ (സ്വാഭാവിക ഭാഷ, കോഡ് മുതലായവ) സൃഷ്ടിക്കുന്നു, ഇന്റർസ്പെർസ്ഡ് ടെക്സ്റ്റും ചിത്രങ്ങളും അടങ്ങിയ ഇൻപുട്ടുകൾ നൽകിയാൽ. വിവിധ ഡൊമെയ്ൻകളിൽ—വാചകങ്ങളും ഫോട്ടോഗ്രാഫുകളും, ഡയഗ്രാമുകളും, സ്ക്രീൻഷോട്ടുകളും അടങ്ങിയ ഡോക്യുമെൻ്റുകൾ ഉൾപ്പെടെ—GPT‑4 ടെക്സ്റ്റ് മാത്രം ഉള്ള ഇൻപുട്ടുകളിൽ കാണിക്കുന്നതുപോലെ സമാനമായ കഴിവുകൾ പ്രദർശിപ്പിക്കുന്നു. കൂടാതെ, കുറച്ച് ഷോട്ട്, ചെയിൻ-ഓഫ്-ചിന്ത പ്രോംപ്റ്റിംഗ് എന്നിവ ഉൾപ്പെടെ ടെക്സ്റ്റ്-മാത്രം ഭാഷാ മോഡലുകൾക്കായി വികസിപ്പിച്ച ടെസ്റ്റ്-ടൈം ടെക്നിക്കുകൾ ഉപയോഗിച്ച് ഇത് വർദ്ധിപ്പിക്കാൻ കഴിയും.⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ചിത്രം ഇൻപുട്ടുകൾ ഇപ്പോഴും ഗവേഷണ പ്രിവ്യൂ ആണ് കൂടാതെ പൊതുവായി ലഭ്യമല്ല.

ലോഡിംഗ്...

സ്റ്റാൻഡേർഡ് അക്കാദമിക് വിഷൻ ബെഞ്ച്മാർക്കുകളുടെ പരിമിതമായ സമാഹാരത്തിൽ വിലയിരുത്തി, ഞങ്ങൾ GPT‑4ന്റെ പ്രകടനം പ്രിവ്യൂ ചെയ്യുന്നു. എന്നിരുന്നാലും, മോഡലിന് നേരിടാൻ കഴിയുന്ന പുതിയതും ആവേശകരവുമായ ടാസ്കുകൾ ഞങ്ങൾ നിരന്തരം കണ്ടെത്തുന്നതിനാൽ ഈ നമ്പറുകൾ അതിന്റെ കഴിവുകളുടെ വ്യാപ്തിയെ പൂർണ്ണമായി പ്രതിനിധീകരിക്കുന്നില്ല. ഞങ്ങൾ കൂടുതൽ വിശകലനങ്ങളും മൂല്യനിർണ്ണയ സംഖ്യകളും കൂടാതെ ടെസ്റ്റ് ടൈം സാങ്കേതികവിദ്യകളുടെ ഫലത്തെക്കുറിച്ചുള്ള സമഗ്രമായ അന്വേഷണവും ഉടൻ റിലീസ് ചെയ്യാൻ പദ്ധതിയിടുന്നു.

ആന്തരിക അടിക്കുറിപ്പ്^A

ലോഡിംഗ്...

സ്റ്റിയറബിലിറ്റി

ഞങ്ങൾ AI-കളുടെ സ്വഭാവം നിർവചിക്കുന്നതിനെക്കുറിച്ച് ഞങ്ങളുടെ പോസ്റ്റിൽ പ്രതിപാദിച്ചിരിക്കുന്ന⁠ പദ്ധതിയുടെ ഓരോ വശത്തിലും, സ്റ്റിയറബിലിറ്റി ഉൾപ്പെടെ, പ്രവർത്തിച്ചുകൊണ്ടിരിക്കുന്നു. സ്ഥിരമായ വെർബോസിറ്റി, ടോൺ, ശൈലി എന്നിവയുള്ള ക്ലാസിക് ChatGPT വ്യക്തിത്വത്തേക്കാൾ, ഡെവലപ്പർമാർക്കും (ഉടൻ തന്നെ ChatGPT ഉപയോക്താക്കൾക്കും) ഇപ്പോൾ “സിസ്റ്റം” സന്ദേശത്തിൽ ആ നിർദ്ദേശങ്ങൾ വിവരിച്ച് അവരുടെ AI യുടെ ശൈലിയും ടാസ്കും നിർദ്ദേശിക്കാൻ കഴിയും. സിസ്റ്റം സന്ദേശങ്ങൾ API ഉപയോക്താക്കൾക്ക് അവരുടെ ഉപയോക്താക്കളുടെ അനുഭവം പരിധിക്കുള്ളിൽ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഗണ്യമായി ഇഷ്ടാനുസൃതമാക്കാൻ അനുവദിക്കുന്നു. ഞങ്ങൾ ഇവിടെ മെച്ചപ്പെടുത്തലുകൾ നടത്തുന്നത് തുടരും (പ്രത്യേകിച്ച് സിസ്റ്റം സന്ദേശങ്ങൾ നിലവിലെ മോഡലിനെ “ജയിൽ ബ്രേക്ക്” ചെയ്യാനുള്ള എളുപ്പവഴിയാണ്, അതായത്, അതിരുകൾ പാലിക്കുന്നത് തികഞ്ഞതല്ല എന്ന് അറിയുന്നു), എന്നാൽ നിങ്ങൾക്ക് അത് പരീക്ഷിക്കാൻ പ്രോത്സാഹിപ്പിക്കുകയും നിങ്ങൾ ചിന്തിക്കുന്നതിനെക്കുറിച്ച് ഞങ്ങളെ അറിയിക്കാനും ഞങ്ങൾ ആഗ്രഹിക്കുന്നു.

ലോഡിംഗ്...

പരിമിതികൾ

അതിന്റെ കഴിവുകൾ ഉണ്ടായിരുന്നിട്ടും, GPT‑4‑ന് മുമ്പത്തെ GPT മോഡലുകൾ പോലെ സമാനമായ പരിമിതികളുണ്ട്. ഏറ്റവും പ്രധാനമായി, ഇത് ഇപ്പോഴും പൂർണ്ണമായും വിശ്വസനീയമല്ല (ഇത് വസ്തുതകളെ "മതിഭ്രമം" കാണിക്കുകയും റീസണിംഗ് പിശകുകൾ വരുത്തുകയും ചെയ്യുന്നു). ഒരു നിർദ്ദിഷ്ട യൂസ് കേസിന്റെ ആവശ്യങ്ങളുമായി പൊരുത്തപ്പെടുന്ന കൃത്യമായ പ്രോട്ടോക്കോൾ (മനുഷ്യ അവലോകനം, അധിക സന്ദർഭത്തോടുകൂടിയ ഗ്രൗണ്ടിംഗ്, അല്ലെങ്കിൽ ഉയർന്ന സ്റ്റേക്ക് ഉപയോഗങ്ങൾ മൊത്തത്തിൽ ഒഴിവാക്കൽ എന്നിവ പോലുള്ള) ഭാഷാ മോഡൽ ഔട്ട്പുട്ടുകൾ ഉപയോഗിക്കുമ്പോൾ, പ്രത്യേകിച്ച് ഉയർന്ന സ്റ്റേക്ക് സന്ദർഭങ്ങളിൽ, വളരെ ശ്രദ്ധിക്കണം.

ഇപ്പോഴും ഒരു യഥാർത്ഥ പ്രശ്നമാണെങ്കിലും, മുൻ മോഡലുകളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ GPT‑4 ചിത്തഭ്രമങ്ങൾ ഗണ്യമായി കുറയ്ക്കുന്നു (അവ ഓരോ ആവർത്തനത്തിലും മെച്ചപ്പെടുന്നു). ഞങ്ങളുടെ ആന്തരിക വൈരിപരിശോധന വസ്തുതാ മൂല്യനിർണ്ണയങ്ങളിൽ, ജിപിടി-4, GPT‑3.5 നെക്കാൾ 40% ഉയർന്ന സ്കോർ നേടുന്നു:

ലോഡിംഗ്...

TruthfulQA പോലുള്ള ബാഹ്യ ബെഞ്ച്മാർക്കുകളിൽ ഞങ്ങൾ പുരോഗതി കൈവരിച്ചു, TruthfulQA മോഡലിന്റെ വൈരുദ്ധ്യപരമായി തിരഞ്ഞെടുത്ത തെറ്റായ പ്രസ്താവനകളിൽ നിന്ന് വസ്തുത വേർതിരിക്കാനുള്ള കഴിവ് പരിശോധിക്കുന്നു. ഈ ചോദ്യങ്ങൾ വസ്തുതാപരമായി തെറ്റായ, പക്ഷേ സ്ഥിതിവിവരശാസ്ത്രപരമായി ആകർഷകമായ ഉത്തരങ്ങളുമായി കൂട്ടിച്ചേർത്തിരിക്കുന്നു.

ലോഡിംഗ്...

GPT‑4 അടിസ്ഥാന മോഡൽ ഈ ടാസ്കിൽ GPT‑3.5 നെക്കാൾ അല്പം മികച്ചതാണ്; എന്നിരുന്നാലും, RLHF⁠ പോസ്റ്റ്-പരിശീലനം കഴിഞ്ഞ് (ഞങ്ങൾ GPT‑3.5⁠ ഉപയോഗിച്ച് ഉപയോഗിച്ച അതേ പ്രക്രിയ പ്രയോഗിക്കുന്നു) വലിയൊരു വിടവുണ്ട്. ചുവടെയുള്ള ചില ഉദാഹരണങ്ങൾ പരിശോധിക്കുമ്പോൾ, GPT‑4 സാധാരണ പ്രയോഗങ്ങൾ തിരഞ്ഞെടുക്കുന്നതിനെ ചെറുക്കുന്നു (നിങ്ങൾക്ക് ഒരു പഴയ നായയെ പുതിയ തന്ത്രങ്ങൾ പഠിപ്പിക്കാൻ കഴിയില്ല), എന്നിരുന്നാലും ഇത് സൂക്ഷ്മമായ വിശദാംശങ്ങൾ നഷ്ടപ്പെടുത്താം (എൽവിസ് പ്രെസ്ലി ഒരു നടന്റെ മകനല്ലായിരുന്നു).

ലോഡിംഗ്...

മോഡലിന് അതിന്റെ ഔട്ട്പുട്ടുകളിൽ വിവിധ പക്ഷപാതങ്ങൾ ഉണ്ടാകാം—ഞങ്ങൾ ഇവയിൽ പുരോഗതി കൈവരിച്ചിട്ടുണ്ട്, പക്ഷേ ഇനിയും കൂടുതൽ ചെയ്യേണ്ടതുണ്ട്. ഞങ്ങളുടെ സമീപകാല ബ്ലോഗ് പോസ്റ്റ്⁠ അനുസരിച്ച്, ഞങ്ങൾ നിർമ്മിക്കുന്ന AI സിസ്റ്റങ്ങൾ ഉപയോക്താക്കളുടെ മൂല്യങ്ങളുടെ വിശാലമായ ശ്രേണി പ്രതിഫലിപ്പിക്കുന്ന ന്യായമായ ഡിഫോൾട്ട് പെരുമാറ്റങ്ങൾ ഉണ്ടാക്കുകയും, ആ സിസ്റ്റങ്ങൾ വിശാലമായ പരിധികളിൽ ഇഷ്ടാനുസൃതമാക്കാൻ അനുവദിക്കുകയും, ആ പരിധികൾ എന്തായിരിക്കണം എന്നതിനെക്കുറിച്ചുള്ള പൊതുജനങ്ങളുടെ ഇൻപുട്ട് നേടുകയും ചെയ്യാൻ ഞങ്ങൾ ലക്ഷ്യമിടുന്നു.

GPT‑4 സാധാരണയായി അതിന്റെ ഭൂരിഭാഗം ഡാറ്റ അവസാനിക്കുന്ന (സെപ്റ്റംബർ 2021) ശേഷം സംഭവിച്ച സംഭവങ്ങളെക്കുറിച്ച് അറിവ് ഇല്ല, കൂടാതെ അതിന്റെ അനുഭവത്തിൽ നിന്ന് പഠിക്കുന്നില്ല. ഇത് ചിലപ്പോൾ ലളിതമായ റീസണിംഗ് പിശകുകൾ ഉണ്ടാക്കാം, അവ നിരവധി ഡൊമെയ്നുകളിലെ കഴിവുകളുമായി പൊരുത്തപ്പെടുന്നില്ലെന്ന് തോന്നുന്നു, അല്ലെങ്കിൽ ഉപയോക്താവിൽ നിന്ന് വ്യക്തമായ തെറ്റായ പ്രസ്താവനകൾ സ്വീകരിക്കുന്നതിൽ അമിതമായി വിശ്വസനീയമാണ്. ചിലപ്പോൾ അത് ഉൽപാദിപ്പിക്കുന്ന കോഡിലേക്ക് സുരക്ഷാ ദോഷങ്ങൾ അവതരിപ്പിക്കുന്നതുപോലെ, മനുഷ്യരെപ്പോലെ കഠിനമായ പ്രശ്നങ്ങളിൽ പരാജയപ്പെടാം.

GPT‑4 അതിന്റെ പ്രവചനങ്ങളിൽ ആത്മവിശ്വാസത്തോടെ തെറ്റായിരിക്കാം, തെറ്റ് സംഭവിക്കാൻ സാധ്യതയുള്ളപ്പോൾ ജോലി ഇരട്ട-പരിശോധിക്കാൻ ശ്രദ്ധിക്കാതെ. രസകരമായി, അടിസ്ഥാന പ്രീ-പരിശീലന മോഡൽ വളരെ നന്നായി കാലിബ്രേറ്റ് ചെയ്തിരിക്കുന്നു (ഒരു ഉത്തരത്തിൽ അതിന്റെ പ്രവചിച്ച ആത്മവിശ്വാസം സാധാരണയായി ശരിയാകാനുള്ള സാധ്യതയുമായി പൊരുത്തപ്പെടുന്നു). എന്നിരുന്നാലും, ഞങ്ങളുടെ നിലവിലെ പരിശീലനാനന്തര പ്രക്രിയയിലൂടെ, കാലിബ്രേഷൻ കുറയ്ക്കപ്പെടുന്നു.

ലോഡിംഗ്...

റിസ്കുകളും ലഘൂകരണങ്ങളും

പരിശീലനത്തിന്റെ തുടക്കം മുതൽ തന്നെ GPT‑4 നെ കൂടുതൽ സുരക്ഷിതവും യോജിപ്പുള്ളതുമാക്കാൻ ഞങ്ങൾ ആവർത്തിച്ചുവരികയാണ്, ഇതിൽ മുൻപരിശീലന ഡാറ്റയുടെ തിരഞ്ഞെടുക്കലും തരംതിരിക്കുകയും, വിലയിരുത്തലുകളും വിദഗ്ദ്ധരുടെ പങ്കാളിത്തവും, മോഡൽ സുരക്ഷാ മെച്ചപ്പെടുത്തലുകളും, നിരീക്ഷണവും നിർവഹണവും ഉൾപ്പെടുന്നു.

ദോഷകരമായ ഉപദേശം, ബഗ്ഗി കോഡ് അല്ലെങ്കിൽ കൃത്യമല്ലാത്ത വിവരങ്ങൾ സൃഷ്ടിക്കുന്നത് പോലുള്ള മുൻ മോഡലുകളുടേതിന് സമാനമായ അപകടസാധ്യതകൾ GPT‑4 ഉയർത്തുന്നു. എന്നിരുന്നാലും, GPT‑4 ന്റെ അധിക കഴിവുകൾ പുതിയ അപകട ഭീഷണികളിലേക്ക് നയിക്കുന്നു. ഈ അപകടസാധ്യതകളുടെ വ്യാപ്തി മനസിലാക്കാൻ, മോഡലിനെ വൈരിപരീക്ഷണത്തിന് വിധേയമാക്കാൻ AI വിന്യാസ അപകടസാധ്യതകൾ, സൈബർസുരക്ഷ, ബയോറിസ്ക്, വിശ്വാസവും സുരക്ഷയും, അന്താരാഷ്ട്ര സുരക്ഷ എന്നിവയുൾപ്പെടെയുള്ള 50-ലധികം ഡൊമെയ്നുകൾ നിന്നുള്ള വിദഗ്ധരെ ഞങ്ങൾ പങ്കെടുപ്പിച്ചു. അവരുടെ കണ്ടെത്തലുകൾ, വിലയിരുത്താൻ വൈദഗ്ധ്യം ആവശ്യമുള്ള ഉയർന്ന അപകടസാധ്യതയുള്ള മേഖലകളിൽ മോഡൽ സ്വഭാവം പരിശോധിക്കാൻ ഞങ്ങളെ പ്രത്യേകമായി പ്രവർത്തന സജ്ജമാക്കി. ഈ വിദഗ്ധരിൽ നിന്നുള്ള ഫീഡ്ബാക്കും ഡാറ്റയും ഞങ്ങളുടെ മോഡലിന്റെ ലഘൂകരണങ്ങളിലും മെച്ചപ്പെടുത്തലുകളിലും സംഭാവന ചെയ്തു; ഉദാഹരണത്തിന്, അപകടകരമായ രാസവസ്തുക്കൾ എങ്ങനെ സംശ്ലേഷണം ചെയ്യാമെന്ന് ചോദിക്കുന്ന അഭ്യർത്ഥനകൾ നിരസിക്കാനുള്ള GPT‑4 ന്റെ കഴിവ് മെച്ചപ്പെടുത്താൻ ഞങ്ങൾ അധിക ഡാറ്റ ശേഖരിച്ചു.

അത്തരം ഉള്ളടക്കത്തിനായുള്ള അഭ്യർത്ഥനകൾ നിരസിക്കാൻ മോഡലിനെ പരിശീലിപ്പിക്കുന്നതിലൂടെ ദോഷകരമായ p ട്ട്പുട്ടുകൾ കുറയ്ക്കുന്നതിന് (ഞങ്ങളുടെ ഉപയോഗ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) മാർഗ്ഗനിർദ്ദേശങ്ങൾ നിർവചിച്ചതുപോലെ) RLHF പരിശീലനത്തിനിടെ ഒരു അധിക സുരക്ഷാ റിവാർഡ് സിഗ്നൽ GPT -4 ഉൾക്കൊള്ളുന്നു. സുരക്ഷയുമായി ബന്ധപ്പെട്ട പ്രോംപ്റ്റുകളിൽ സുരക്ഷാ അതിരുകളും പൂർത്തീകരണ ശൈലിയും വിലയിരുത്തുന്ന GPT‑4 സീറോ-ഷോട്ട് ക്ലാസിഫയർ ആണ് പ്രതിഫലം നൽകുന്നത്. സാധുവായ അഭ്യർത്ഥനകൾ നിരസിക്കുന്നത് തടയാൻ, വിവിധ ഉറവിടങ്ങളിൽ നിന്ന് വൈവിധ്യമാർന്ന ഡാറ്റാസെറ്റ് ഞങ്ങൾ ശേഖരിക്കുന്നു (ഉദാ., ലേബൽ ചെയ്ത പ്രൊഡക്ഷൻ ഡാറ്റ, മനുഷ്യൻറെ റെഡ്-ടീമിംഗ്, മോഡൽ സൃഷ്ടിച്ച പ്രോംപ്റ്റുകൾ) കൂടാതെ അനുവദനീയവും അനുമതിയില്ലാത്തവുമായ വിഭാഗങ്ങളിൽ സുരക്ഷാ പ്രതിഫല സിഗ്നൽ (സാന്ദ്രതയുള്ള അല്ലെങ്കിൽ നെഗറ്റീവ് മൂല്യത്തോടെ) പ്രയോഗിക്കുന്നു.

GPT‑3.5 നെ അപേക്ഷിച്ച് ഞങ്ങളുടെ ലഘൂകരണങ്ങൾ GPT‑4ന്റെ പല സുരക്ഷാ ഗുണങ്ങളും ഗണ്യമായി മെച്ചപ്പെടുത്തിയിരിക്കുന്നു. ഞങ്ങൾ അനുമതി ഇല്ലാത്ത ഉള്ളടക്കത്തിനായുള്ള അഭ്യർത്ഥനകളോട് പ്രതികരിക്കുന്ന മോഡലിന്റെ പ്രവണത GPT‑3.5 നെ അപേക്ഷിച്ച് 82% കുറച്ചു, കൂടാതെ GPT‑4 ഞങ്ങളുടെ നയങ്ങൾക്ക് അനുസൃതമായി സെൻസിറ്റീവ് അഭ്യർത്ഥനകളോട് (ഉദാ., മെഡിക്കൽ ഉപദേശവും സ്വയം ഉപദ്രവവും) 29% കൂടുതൽ തവണ പ്രതികരിക്കുന്നു.

ലോഡിംഗ്...

മൊത്തത്തിൽ, ഞങ്ങളുടെ മോഡൽ-തല ഇടപെടലുകൾ മോശം പെരുമാറ്റം പ്രേരിപ്പിക്കുന്നതിന്റെ ബുദ്ധിമുട്ട് വർദ്ധിപ്പിക്കുന്നു, എന്നാൽ അങ്ങനെ ചെയ്യുന്നത് ഇപ്പോഴും സാധ്യമാണ്. കൂടാതെ, ഞങ്ങളുടെ ഉപയോഗ മാർഗ്ഗനിർദ്ദേശങ്ങൾ⁠ ലംഘിക്കുന്ന ഉള്ളടക്കം സൃഷ്ടിക്കുന്ന “ജയിൽ ബ്രേക്കുകൾ” ഇപ്പോഴും നിലവിലുണ്ട്. AI സിസ്റ്റങ്ങളുടെ “ഓരോ token-നുള്ള അപകടം” വർദ്ധിക്കുമ്പോൾ, ഈ ഇടപെടലുകളിൽ അത്യന്തം ഉയർന്ന വിശ്വാസ്യത കൈവരിക്കുന്നത് നിർണ്ണായകമാകും; ഇപ്പോൾ ദുരുപയോഗം കണ്ടെത്തൽ പോലുള്ള ഡിപ്ലോയ്മെന്റ് സമയ സുരക്ഷാ സാങ്കേതികതകളിലൂടെ ഈ പരിമിതികൾ പൂരിപ്പിക്കുന്നത് പ്രധാനമാണ്.

GPT‑4, അതിന്റെ പിൻഗാമി മോഡലുകൾക്ക് ഗുണകരവും ദോഷകരവുമായ രീതികളിൽ സമൂഹത്തെ ഗണ്യമായി സ്വാധീനിക്കാനുള്ള സാധ്യതയുണ്ട്. ഞങ്ങൾ ബാഹ്യ ഗവേഷകരുമായി സഹകരിക്കുന്നത്, സാധ്യതയുള്ള പ്രത്യാഘാതങ്ങളെ എങ്ങനെ മനസിലാക്കുകയും വിലയിരുത്തുകയും ചെയ്യുന്നതിൽ മെച്ചപ്പെടുത്താനും, ഭാവിയിലെ സിസ്റ്റങ്ങളിൽ ഉയർന്നുവരാനിടയുള്ള അപകടകരമായ കഴിവുകൾക്കായി വിലയിരുത്തലുകൾ നിർമ്മിക്കാനുമാണ്. GPT‑4‑ഉം മറ്റ് AI സിസ്റ്റങ്ങളുടെയും സാധ്യതയുള്ള സാമൂഹികവും സാമ്പത്തികവുമായ പ്രത്യാഘാതങ്ങളെക്കുറിച്ചുള്ള ഞങ്ങളുടെ കൂടുതൽ ചിന്തകൾ ഞങ്ങൾ ഉടൻ പങ്കുവെക്കും.

പരിശീലന പ്രക്രിയ

മുമ്പത്തെ GPT മോഡലുകളെപ്പോലെ, GPT‑4 ബേസ് മോഡൽ ഒരു ഡോക്യുമെന്റിലെ അടുത്ത വാക്ക് പ്രവചിക്കാൻ പരിശീലിപ്പിക്കപ്പെട്ടു, കൂടാതെ പൊതുവായി ലഭ്യമായ ഡാറ്റ (ഇന്റർനെറ്റ് ഡാറ്റ പോലുള്ളവ) കൂടാതെ ഞങ്ങൾ ലൈസൻസ് ചെയ്ത ഡാറ്റ ഉപയോഗിച്ച് പരിശീലിപ്പിക്കപ്പെട്ടു. ഡാറ്റ ഒരു വെബ്-സ്കെയിൽ കോർപസാണ്, ഇതിൽ ഗണിത പ്രശ്നങ്ങളുടെ ശരിയായതും തെറ്റായതുമായ പരിഹാരങ്ങൾ, ദുർബലവും ശക്തവുമായ യുക്തി, സ്വയം വിരുദ്ധവും സ്ഥിരവുമായ പ്രസ്താവനകൾ, കൂടാതെ വൈവിധ്യമാർന്ന പ്രത്യയശാസ്ത്രങ്ങളും ആശയങ്ങളും ഉൾപ്പെടുന്നു.

അതിനാൽ ഒരു ചോദ്യത്തോടെ പ്രോംപ്റ്റ് ചെയ്യുമ്പോൾ, അടിസ്ഥാന മോഡൽ ഉപയോക്താവിന്റെ ഉദ്ദേശ്യത്തിൽ നിന്ന് വളരെ അകലെയായിരിക്കാവുന്ന വൈവിധ്യമാർന്ന രീതികളിൽ പ്രതികരിക്കാൻ കഴിയും. ഉപയോക്താവിന്റെ ഉദ്ദേശ്യവുമായി ഗാർഡ്റെയിലുകൾക്കുള്ളിൽ ഇത് പൊരുത്തപ്പെടുത്താൻ, മനുഷ്യ ഫീഡ്ബാക്ക് (RLHF⁠) ഉപയോഗിച്ച് റീഇൻഫോഴ്സ്മെന്‍റ് ലേണിംഗ് ഉപയോഗിച്ച് മോഡലിന്റെ പെരുമാറ്റം നന്നായി ട്യൂൺ ചെയ്യുന്നു.

മോഡലിന്റെ കഴിവുകൾ പ്രധാനമായും പൂർവപരിശീലന പ്രക്രിയയിൽ നിന്നാണ് വരുന്നതെന്ന് ശ്രദ്ധിക്കുക—RLHF പരീക്ഷാ പ്രകടനം മെച്ചപ്പെടുത്തുന്നില്ല (സജീവ പരിശ്രമമില്ലാതെ, ഇത് യഥാർത്ഥത്തിൽ പ്രകടനം കുറയ്ക്കുന്നു). എന്നാൽ മോഡലിന്റെ നിയന്ത്രണം പരിശീലനാനന്തര പ്രക്രിയയിൽ നിന്നാണ് വരുന്നത്—അടിസ്ഥാന മോഡലിന് ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകേണ്ടതാണെന്ന് അറിയാൻ പോലും പ്രോംപ്റ്റ് എഞ്ചിനീയറിംഗ് ആവശ്യമാണ്.

പ്രവചനീയമായ സ്കെയിലിംഗ്

GPT‑4 പദ്ധതിയുടെ ഒരു വലിയ ഫോക്കസ് പ്രവചനാത്മകമായി സ്കെയിൽ ചെയ്യുന്ന ഒരു ആഴത്തിലുള്ള പഠനം സ്റ്റാക്ക് നിർമ്മിക്കുന്നതിലാണ്. പ്രധാനമായി ചിന്തിക്കൂ, GPT‑4 പോലുള്ള വളരെ വലിയ പരിശീലന റണ്ണുകൾക്കായി, വിപുലമായ മോഡൽ-നിർദ്ദിഷ്ട ട്യൂണിംഗ് നടത്തുന്നത് പ്രായോഗികമല്ല. ഒന്നിലധികം സ്കെയിലുകളിൽ വളരെ പ്രവചിക്കാവുന്ന പെരുമാറ്റമുള്ള അടിസ്ഥാന സൗകര്യങ്ങളും ഒപ്റ്റിമൈസേഷനും ഞങ്ങൾ വികസിപ്പിച്ചെടുത്തു. ഈ സ്കേലബിലിറ്റി സ്ഥിരീകരിക്കുന്നതിന്, 10,000x കുറവ് കംപ്യൂട്ട് ഉപയോഗിച്ച് അതേ രീതിശാസ്ത്രം ഉപയോഗിച്ച് പരിശീലിപ്പിച്ച മോഡലുകളിൽ നിന്ന് എക്സ്ട്രാപോളേറ്റ് ചെയ്ത്, ഞങ്ങളുടെ ആന്തരിക കോഡ്ബേസിൽ (പരിശീലന സെറ്റിന്റെ ഭാഗമല്ല) GPT‑4 ന്റെ അന്തിമ നഷ്ടം കൃത്യമായി മുൻകൂട്ടി പ്രവചിച്ചു:

ലോഡിംഗ്...

ഇപ്പോൾ ഞങ്ങൾ പരിശീലന സമയത്ത് ഒപ്റ്റിമൈസ് ചെയ്യുന്ന മെട്രിക് (ലോസ്) കൃത്യമായി പ്രവചിക്കാൻ കഴിയുന്നുവെന്നതിനാൽ, കൂടുതൽ വ്യാഖ്യാനിക്കാവുന്ന അളവുകൾ പ്രവചിക്കുന്നതിനുള്ള രീതിശാസ്ത്രം വികസിപ്പിക്കാൻ തുടങ്ങുന്നു. ഉദാഹരണത്തിന്, HumanEval⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഡാറ്റാസെറ്റിന്റെ ഒരു ഉപസെറ്റിലെ പാസ് നിരക്ക് ഞങ്ങൾ വിജയകരമായി പ്രവചിച്ചു, 1,000x കുറവ് കംപ്യൂട്ടുള്ള മോഡലുകളിൽ നിന്ന് എക്സ്ട്രാപോളേറ്റ് ചെയ്തു:

ലോഡിംഗ്...

ചില കഴിവുകൾ ഇപ്പോഴും പ്രവചിക്കാൻ ബുദ്ധിമുട്ടാണ്. ഉദാഹരണത്തിന്, മോഡൽ കംപ്യൂട്ട് വർദ്ധിക്കുന്നതോടെ മോശമാകുന്ന ഒരു മെട്രിക് കണ്ടെത്താനുള്ള മത്സരമായിരുന്നു Inverse Scaling Prize, ഹിൻഡ്സൈറ്റ് നെഗ്ലക്ട്⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) വിജയികളിൽ ഒന്നായിരുന്നു. സമീപകാല മറ്റൊരു ഫലം⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) പോലെ, GPT‑4 പ്രവണതയെ മാറ്റുന്നു:

ലോഡിംഗ്...

ഭാവിയിലെ മെഷീൻ ലേണിംഗ് കഴിവുകൾ കൃത്യമായി പ്രവചിക്കുന്നത് സുരക്ഷയുടെ ഒരു പ്രധാന ഭാഗമാണെന്ന് ഞങ്ങൾ വിശ്വസിക്കുന്നു, അതിന്റെ സാധ്യതയുള്ള ആഘാതവുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ അതിന് വേണ്ടത്ര ശ്രദ്ധ ലഭിക്കുന്നില്ല (എന്നാൽ നിരവധി സ്ഥാപനങ്ങളിലെ ശ്രമങ്ങൾ ഞങ്ങളെ പ്രോത്സാഹിപ്പിക്കുന്നു). ഭാവി സംവിധാനങ്ങളിൽ നിന്ന് എന്താണ് പ്രതീക്ഷിക്കേണ്ടതെന്ന് സമൂഹത്തിന് മികച്ച മാർഗ്ഗനിർദ്ദേശം നൽകുന്ന രീതികൾ വികസിപ്പിക്കുന്നതിനുള്ള ഞങ്ങളുടെ ശ്രമങ്ങൾ ഞങ്ങൾ വർദ്ധിപ്പിക്കുന്നു, ഇത് ഈ മേഖലയിലെ ഒരു പൊതുവായ ലക്ഷ്യമാകുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു.

OpenAI Evals

സാമ്പിൾ പ്രകാരം അവരുടെ പ്രകടന സാമ്പിൾ പരിശോധിക്കുമ്പോൾ GPT‑4 പോലുള്ള മോഡലുകൾ വിലയിരുത്തുന്നതിനുള്ള ബെഞ്ച്മാർക്കുകൾ സൃഷ്ടിക്കുന്നതിനും പ്രവർത്തിപ്പിക്കുന്നതിനുമുള്ള ഞങ്ങളുടെ സോഫ്റ്റ്വെയർ ചട്ടക്കൂടായ OpenAI Evals⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), ഞങ്ങൾ ഓപ്പൺ-സോഴ്സിംഗ് ചെയ്യുന്നു. ഞങ്ങൾ Evals ഉപയോഗിച്ച് ഞങ്ങളുടെ മോഡലുകളുടെ വികസനത്തിന് മാർഗ്ഗനിർദ്ദേശം നൽകുന്നു (പോരായ്മകൾ തിരിച്ചറിയുന്നതിനും റിഗ്രഷനുകൾ തടയുന്നതിനും), കൂടാതെ ഇത് മോഡൽ പതിപ്പുകളിലുടനീളം പ്രകടനം ട്രാക്ക് ചെയ്യുന്നതിനും (ഇപ്പോൾ പതിവായി പുറത്തിറങ്ങും) ഉൽപ്പന്ന സംയോജനങ്ങൾ വികസിപ്പിക്കുന്നതിനും ഞങ്ങളുടെ ഉപയോക്താക്കൾക്ക് പ്രയോഗിക്കാം. ഉദാഹരണത്തിന്, സ്ട്രൈപ്പ് അവരുടെ GPT‑പ്രേരിത ഡോക്യുമെന്റേഷൻ ഉപകരണത്തിന്റെ കൃത്യത അളക്കാൻ അവരുടെ മാനുഷിക മൂല്യനിർണ്ണയങ്ങൾക്ക് പൂരകമായി എവലുകൾ ഉപയോഗിച്ചു.

കോഡ് എല്ലാം ഓപ്പൺ സോഴ്സ് ആയതിനാൽ, ഇഷ്ടാനുസൃത മൂല്യനിർണ്ണയ തർക്കം⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) നടപ്പിലാക്കാൻ പുതിയ ക്ലാസുകൾ എഴുതുന്നതിന് ഇവാൽസ് പിന്തുണയ്ക്കുന്നു. എന്നിരുന്നാലും, ഞങ്ങളുടെ സ്വന്തം അനുഭവത്തിൽ, പല ബെഞ്ച്മാർക്കുകളും കുറച്ച് “ടെംപ്ലേറ്റുകളിൽ” ഒന്ന് പിന്തുടരുന്നു, അതിനാൽ ആന്തരികമായി ഏറ്റവും ഉപയോഗപ്രദമായ ടെംപ്ലേറ്റുകൾ ഞങ്ങൾ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) (“മോഡൽ-ഗ്രേഡഡ് ഇവാലുകൾക്ക്” ഒരു ടെംപ്ലേറ്റ് ഉൾപ്പെടെ - GPT‑4 അതിശയകരമായി സ്വന്തം ജോലി പരിശോധിക്കാൻ കഴിവുള്ളതാണെന്ന് ഞങ്ങൾ കണ്ടെത്തി). സാധാരണയായി ഒരു പുതിയ ഇവാൽ നിർമ്മിക്കുന്നതിനുള്ള ഏറ്റവും ഫലപ്രദമായ മാർഗം⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഡാറ്റ നൽകുന്നതിനൊപ്പം ഈ ടെംപ്ലേറ്റുകളിൽ ഒന്നിനെ തൽക്ഷണം ചെയ്യുക എന്നതാണ്. ഈ ടെംപ്ലേറ്റുകളും Evals-ഉം ഉപയോഗിച്ച് മറ്റുള്ളവർ എന്ത് നിർമ്മിക്കുമെന്ന് കാണാൻ ഞങ്ങൾ ആവേശഭരിതരാണ്.

Evals പരമാവധി വിപുലമായ പരാജയ മോഡുകളെയും ബുദ്ധിമുട്ടുള്ള ടാസ്കുകളെയും പ്രതിനിധീകരിക്കുന്ന ബെഞ്ച്മാർക്കുകൾ പങ്കിടാനും ക്രൗഡ് സോഴ്സ് ചെയ്യാനുമുള്ള ഒരു മാർഗമാകുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു. പിന്തുടരാൻ ഒരു ഉദാഹരണമായി, GPT‑4 പരാജയപ്പെടുന്ന പത്ത് പ്രോംപ്റ്റ് ഉൾപ്പെടുന്ന⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ലോജിക് പസിൽ ഇവാൽ ഞങ്ങൾ സൃഷ്ടിച്ചിരിക്കുന്നു. ഇവാൽസ് നിലവിലുള്ള മാനദണ്ഡങ്ങൾ നടപ്പിലാക്കുന്നതിലും പൊരുത്തപ്പെടുന്നു; അക്കാദമിക് ബെഞ്ച്മാർക്കുകൾ നടപ്പിലാക്കുന്ന നിരവധി നോട്ട്ബുക്കുകൾ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കൂടാതെ CoQA⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) (ചെറിയ ഉപസെറ്റുകൾ) സമന്വയിപ്പിക്കുന്നതിനുള്ള ചില വ്യതിയാനങ്ങൾ ഉദാഹരണമായി ഞങ്ങൾ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്.

ഞങ്ങളുടെ മോഡലുകൾ പരീക്ഷിക്കുന്നതിനും ഏറ്റവും രസകരമായ ഉദാഹരണങ്ങൾ സമർപ്പിക്കുന്നതിനും Evals ഉപയോഗിക്കാൻ ഞങ്ങൾ എല്ലാവരെയും ക്ഷണിക്കുന്നു. Evals ഞങ്ങളുടെ മോഡലുകൾ ഉപയോഗിക്കുന്നതിനും നിർമ്മിക്കുന്നതിനുമുള്ള പ്രക്രിയയുടെ അവിഭാജ്യ ഘടകമായിരിക്കും എന്ന് ഞങ്ങൾ വിശ്വസിക്കുന്നു, നേരിട്ടുള്ള സംഭാവനകൾ, ചോദ്യങ്ങൾ, ഫീഡ്ബാക്ക് എന്നിവ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഞങ്ങൾ സ്വാഗതം ചെയ്യുന്നു.

ChatGPT Plus

ChatGPT Plus സബ്സ്ക്രൈബർമാർക്ക് ഒരു ഉപയോഗപരിധിയോടെ chatgpt.com⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ൽ GPT‑4 ആക്സസ് ലഭിക്കും. ഡിമാൻഡിനും സിസ്റ്റം പ്രകടനത്തിനും അനുസരിച്ച് കൃത്യമായ ഉപയോഗപരിധി ക്രമീകരിക്കുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു, പക്ഷേ പ്രായോഗികമായി ഞങ്ങൾ കഠിനമായ ശേഷി നിയന്ത്രണങ്ങൾ നേരിടും (എന്നാൽ വരാനിരിക്കുന്ന മാസങ്ങളിൽ ഞങ്ങൾ സ്കെയിൽ അപ്പ് ചെയ്യുകയും ഒപ്റ്റിമൈസ് ചെയ്യുകയും ചെയ്യും).

ഞങ്ങൾ കാണുന്ന ട്രാഫിക്ക് പാറ്റേണുകളെ ആശ്രയിച്ച്, ഉയർന്ന വോളിയം GPT‑4 ഉപയോഗത്തിനായി ഒരു പുതിയ സബ്സ്ക്രിപ്ഷൻ ലെവൽ അവതരിപ്പിക്കാം; സബ്സ്ക്രിപ്ഷൻ ഇല്ലാത്തവർക്ക് പരീക്ഷിക്കാൻ കഴിയുന്ന വിധത്തിൽ ചില ഘട്ടങ്ങളിൽ കുറച്ച് സൗജന്യ GPT‑4 അന്വേഷണങ്ങൾ വാഗ്ദാനം ചെയ്യാൻ ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു.

API

GPT‑4 API-ലേക്ക് ആക്സസ് നേടാൻ (gpt-3.5-turbo പോലെ അതേ ചാറ്റ് കംപ്ലീഷൻസ് API⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഉപയോഗിക്കുന്നു), ദയവായി ഞങ്ങളുടെ വെയിറ്റ് ലിസ്റ്റ്നായി സൈൻ അപ്പ് ചെയ്യുക⁠. ഞങ്ങൾ ഇന്ന് ചില ഡെവലപ്പർമാരെ ക്ഷണിക്കാൻ തുടങ്ങും, ശേഷി ആവശ്യവുമായി സന്തുലിതമാക്കുന്നതിന് ക്രമേണ വർദ്ധിപ്പിക്കും. നിങ്ങൾ AI അല്ലെങ്കിൽ AI വിന്യാസ പ്രശ്നങ്ങളുടെ സാമൂഹിക സ്വാധീനം പഠിക്കുന്ന ഗവേഷകനാണെങ്കിൽ, ഞങ്ങളുടെ ഗവേഷക ആക്സസ് പ്രോഗ്രാം⁠ വഴി സബ്സിഡിയുള്ള ആക്സസിനായി നിങ്ങൾക്ക് അപേക്ഷിക്കാം.

നിങ്ങൾക്ക് ആക്സസ് ലഭിച്ചുകഴിഞ്ഞാൽ, നിങ്ങൾക്ക് GPT‑4 മോഡലിലേക്ക് ടെക്സ്റ്റ്-മാത്രം അഭ്യർത്ഥനകൾ നടത്താം (ചിത്രം ഇൻപുട്ടുകൾ ഇപ്പോഴും പരിമിതമായ ആൽഫയിലാണ്), ഞങ്ങൾ പുതിയ പതിപ്പുകൾ പുറത്തിറക്കുമ്പോൾ, ഞങ്ങളുടെ ശുപാർശ ചെയ്ത സ്ഥിരമായ മോഡലിലേക്ക് യാന്ത്രികമായി അപ്ഡേറ്റ് ചെയ്യും (നിങ്ങൾ gpt-4-0314 എന്ന് വിളിച്ച് നിലവിലെ പതിപ്പ് പിൻ ചെയ്യാം, ഇത് ജൂൺ 14 വരെ ഞങ്ങൾ പിന്തുണയ്ക്കും). വില 1k പ്രോംപ്റ്റ് tokenകൾക്ക് $0.03, 1k പൂർത്തീകരണ tokenകൾക്ക് $0.06 എന്നിങ്ങനെയാണ്. മിനിറ്റിൽ 40k ടോക്കണുകളും മിനിറ്റിൽ 200 അഭ്യർത്ഥനകളുമാണ് ഡിഫോൾട്ട് നിരക്ക് പരിധികൾ.

gpt-4 ന് 8,192 token-കളുടെ സന്ദർഭ ദൈർഘ്യമുണ്ട്. ഞങ്ങൾ 32,768-സന്ദർഭം (ഏകദേശം 50 പേജുകൾ ടെക്സ്റ്റ്) പതിപ്പായ gpt-4-32k-ലേക്കും പരിമിതമായ ആക്സസ് നൽകുന്നു, ഇത് കാലക്രമേണ യാന്ത്രികമായി അപ്ഡേറ്റ് ചെയ്യപ്പെടും (നിലവിലെ പതിപ്പ് gpt-4-32k-0314, ജൂൺ 14 വരെ പിന്തുണയ്ക്കുന്നു). വില 1K പ്രോംപ്റ്റ് ടോക്കണുകൾക്ക് $0.06 ഉം 1K പൂർത്തീകരണ ടോക്കണുകൾക്ക് $0.12 ഉം ആണ്. നീണ്ട സന്ദർഭത്തിനായി ഞങ്ങൾ ഇപ്പോഴും മോഡൽ ഗുണനിലവാരം മെച്ചപ്പെടുത്തുകയാണ്, നിങ്ങളുടെ യൂസ്-കേസിനായി ഇത് എങ്ങനെ പ്രവർത്തിക്കുന്നു എന്നതിനെക്കുറിച്ചുള്ള നിങ്ങളുടെ ഫീഡ്ബാക്ക് ഞങ്ങൾ ആഗ്രഹിക്കുന്നു. ശേഷിയെ അടിസ്ഥാനമാക്കി, ഞങ്ങൾ 8K, 32K എഞ്ചിനുകൾക്കായുള്ള അഭ്യർത്ഥനകൾ വ്യത്യസ്ത നിരക്കുകളിൽ പ്രോസസ്സ് ചെയ്യുന്നു, അതിനാൽ നിങ്ങൾക്ക് അവയിലേക്ക് വ്യത്യസ്ത സമയങ്ങളിൽ ആക്സസ് ലഭിക്കാം.

തീരുമാനം

നിരവധി ആപ്ലിക്കേഷനുകൾ ശക്തിപ്പെടുത്തുന്നതിലൂടെ ജനങ്ങളുടെ ജീവിതം മെച്ചപ്പെടുത്തുന്നതിനുള്ള വിലപ്പെട്ട ഉപകരണമായി GPT‑4 മാറുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു. ഇനിയും ഒരുപാട് ജോലികൾ ചെയ്യാനുണ്ട്, മോഡലിന് മുകളിൽ കമ്മ്യൂണിറ്റി കെട്ടിപ്പടുക്കുന്നതിന്റെയും, കണ്ടെത്തുന്നതിന്റെയും, സംഭാവന ചെയ്യുന്നതിന്റെയും കൂട്ടായ പരിശ്രമങ്ങളിലൂടെ ഈ മോഡൽ മെച്ചപ്പെടുത്തുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു.

കൂടുതൽ അറിയാൻ: പേപ്പർ വായിക്കുക⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) / സിസ്റ്റം കാർഡ് കാണുക⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) / ChatGPT Plus-ൽ ശ്രമിക്കുക⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) / Playground-ൽ ശ്രമിക്കുക⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) / ഡെമോ ലൈവ് സ്ട്രീം വീണ്ടും കാണുക⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) / OpenAI Evals-ലേക്ക് സംഭാവന ചെയ്യുക⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)

അനുബന്ധം

മറ്റു ഭാഷകളിലേക്ക് വിവർത്തനം ചെയ്ത MMLU ചോദ്യങ്ങളുടെ ഉദാഹരണം. ശ്രദ്ധിക്കുക, ഞങ്ങൾ സ്ഥിരമായ തിരഞ്ഞെടുപ്പ് ടോക്കണുകൾ (A–D) ഉപയോഗിക്കുന്നു:

ലോഡിംഗ്...

അടിക്കുറിപ്പുകൾ

A
സന്ദർഭത്തിൽ പരിശീലന സെറ്റിൽ നിന്നുള്ള 4 ഉദാഹരണങ്ങൾ ഉപയോഗിച്ച് ചെയിൻ-ഓഫ്-തോട്ട് പ്രോംപ്റ്റിംഗ് ഉപയോഗിച്ച് ഞങ്ങൾ ഈ ബെഞ്ച്മാർക്ക് വിലയിരുത്തുന്നു. മൂല്യനിർണ്ണയ സെറ്റിൽ നിർദ്ദിഷ്ട പ്രോംപ്റ്റ് ട്യൂൺ ചെയ്തു.

അവലംബങ്ങൾ

1
പി. അറെഡോണ്ടോ (കേസ് ടെക്സ്റ്റ്/സ്റ്റാൻഫോർഡ് കോഡ്എക്സ്), ഡി. കാറ്റ്സ് (സ്റ്റാൻഫോർഡ് കോഡ്എക്സ്), എം. ബൊമ്മരിറ്റോ (സ്റ്റാൻഫോർഡ് കോഡ്എക്സ്), എസ്. ഗാവോ (കേസ് ടെക്സ്റ്റ്). കൂടുതൽ വിശകലനം പേപ്പറിൽ ലഭ്യമാണ്⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു).