2026 മേയ് 29

വിശ്വസനീയമായ തേഡ് പാർട്ടി ഇവാലുവേഷനുകൾക്കായുള്ള പങ്കിട്ട പ്ലേബുക്ക്

ഫ്രണ്ടിയർ മോഡലുകളുടെ സംരക്ഷണങ്ങളും കഴിവുകളും ഫലപ്രദമായി സ്വതന്ത്രമായി വിലയിരുത്താൻ പ്രധാനപ്പെട്ടത്.

ലോഡിംഗ്…

സ്വതന്ത്രവും വിശ്വസനീയവുമായ തേഡ് പാർട്ടി ഇവാലുവേഷനുകൾ സുരക്ഷാ പരിസ്ഥിതിയെ ശക്തിപ്പെടുത്തുന്നതിൽ നിർണായക പങ്ക്⁠ വഹിക്കുന്നു. ഗുരുതര കഴിവുകളെയും സുരക്ഷാ ലഘൂകരണങ്ങളെയും കുറിച്ചുള്ള അവകാശവാദങ്ങൾക്ക് അധിക തെളിവ് നൽകാൻ ഈ ഇവാലുവേഷനുകൾ അത്യാധുനിക മോഡലുകളിൽ നടത്തപ്പെടുന്നു. ഈ പോസ്റ്റിൽ, ഇതുവരെ ഞങ്ങൾ പഠിച്ച പാഠങ്ങൾ പങ്കിടുകയും, ഈ മേഖലയിലെ ഉയർന്നുവരുന്ന മാനദണ്ഡങ്ങളെ അറിയിക്കാൻ സഹായിക്കുമെന്ന് പ്രതീക്ഷിക്കുന്ന വിധത്തിൽ അത്യാധുനിക മോഡലുകളെ സാധുവായി വിലയിരുത്താൻ കഴിയുന്ന ഇവാലുവേഷനുകൾ രൂപകൽപ്പന ചെയ്യുന്നതിനുള്ള സമീപനങ്ങൾ ശുപാർശ ചെയ്യുകയും ചെയ്യുന്നു.

മുമ്പ്, പല ഇവാലുവേഷനുകളും മോഡലുകളെ ചാറ്റ്ബോട്ടുകളെപ്പോലെ കണ്ടിരുന്നു: ഒരു ഉപയോക്താവ് ചോദ്യം ചോദിക്കുന്നതുപോലെ ഇവാലുവേഷൻ മോഡലിനോട് പ്രോംപ്റ്റ് നൽകി, മോഡൽ മറുപടി നൽകി, പിന്നെ ഒരു ഇവാലുവേറ്റർ ഔട്ട്പുട്ട് വിധിച്ചു. ഇന്നത്തെ അത്യാധുനിക മോഡലുകൾക്ക് വളരെ കൂടുതൽ ചെയ്യാൻ കഴിയും: അവയ്ക്ക് ഉപകരണങ്ങൾ ഉപയോഗിക്കാനും, പല ഘട്ടങ്ങളിലായി വിവരങ്ങൾ പിന്തുടരാനും, വലിയൊരു വർക്ക്‌ഫ്ലോയിനുള്ളിൽ പ്രവർത്തിക്കാനും കഴിയും. ഇത് പ്രകടനം മോഡലിനെ മാത്രമല്ല, ടാസ്ക് നടക്കുന്ന എൻവയോൺമെന്റിനെയും അതിന്റെ പ്രവർത്തനങ്ങൾ സുഗമമാക്കുന്ന സെറ്റപ്പിനെയും ആശ്രയിക്കുന്നുവെന്ന് അർത്ഥമാക്കുന്നു. ഞങ്ങൾ “ഹാർനെസ്” എന്ന് വിളിക്കുന്ന ഈ ചുറ്റുപാടുള്ള സെറ്റപ്പിന്, ഉപകരണങ്ങൾ എങ്ങനെ ഉപയോഗിക്കുന്നു, വിവരങ്ങൾ എങ്ങനെ പിന്തുടരുന്നു, അല്ലെങ്കിൽ പിശകുകളിൽ നിന്ന് എങ്ങനെ വീണ്ടെടുക്കുന്നു എന്നതുള്‍പ്പെടെ സിസ്റ്റത്തിന്റെ പ്രകടനത്തിലെ പ്രധാന വശങ്ങൾ മാറ്റാൻ കഴിയും.

പ്രോംപ്റ്റ്-പ്രതികരണ വർക്ക്‌ഫ്ലോയും ഏജന്റിക് ടാസ്ക് വർക്ക്‌ഫ്ലോയും താരതമ്യം ചെയ്യുന്ന ഡയഗ്രാം; നിയന്ത്രണ ലൂപ്പുകൾ, ഉപകരണങ്ങൾ, സന്ദർഭം, ബജറ്റ്, സംരക്ഷണങ്ങൾ എന്നിവ സ്വയംഭരണ ടാസ്ക് നിർവഹണം എങ്ങനെ സാധ്യമാക്കുന്നു എന്ന് കാണിക്കുന്നു.

ഇത് ഇവാലുവേഷനുകൾ നടത്തേണ്ട രീതിയും ഇവാലുവേഷൻ റിപ്പോർട്ടുകളിൽ വായനക്കാർ ശ്രദ്ധിക്കേണ്ടതും മാറ്റുന്നു. ഞങ്ങളുടെ കാഴ്ചപ്പാടിൽ, ഏറ്റവും ഉപകാരപ്രദമായ റിപ്പോർട്ടുകൾ ഫലത്തിന് പുറമേ രണ്ട് കാര്യങ്ങൾ വ്യക്തമായി വിവരിക്കുന്നു: ഒന്നാമത്, ഇവാലുവേഷൻ സെറ്റപ്പ് ഏത് അവകാശവാദം പരീക്ഷിക്കാൻ രൂപകൽപ്പന ചെയ്തതാണെന്ന് അവ വ്യക്തമാക്കുന്നു; രണ്ടാമത്, ഇവാലുവേഷൻ ഫലം സാധുവാണെന്ന് കാണിക്കുന്ന ലഭ്യമായ തെളിവ് അവ പങ്കിടുന്നു.

ഇവാലുവേഷനുകളിൽ പരീക്ഷിക്കപ്പെടുന്ന അവകാശവാദങ്ങൾ സാധാരണയായി മൂന്നു വിഭാഗങ്ങളിലൊന്നിൽ പെടുന്നു¹:

കഴിവ് എലിസിറ്റേഷൻ: വിലയിരുത്തുന്ന കഴിവ് ഒരു മോഡലിന് യുക്തിപൂർവം സൃഷ്ടിക്കാൻ കഴിയുമോ?
സംരക്ഷണ പ്രകടനം: വിലയിരുത്തുന്ന പെരുമാറ്റത്തെയോ ആക്രമണത്തെയോ നേരിടാൻ പരീക്ഷിച്ച സംരക്ഷണങ്ങൾ എത്രമാത്രം ദൃഢമാണ്?
താരതമ്യം: തുല്യ വ്യവസ്ഥകളിൽ വ്യത്യസ്ത മോഡലുകൾ എങ്ങനെ പ്രകടനം കാഴ്ചവയ്ക്കുന്നു?

ഒരു ഫലത്തിന്റെ സാധുതയെ ബാധിക്കാവുന്ന പ്രതിഫലങ്ങൾ ഇവാലുവേറ്റർമാർ എങ്ങനെ പരിശോധിച്ചു എന്നും ഇവാലുവേഷൻ റിപ്പോർട്ടുകൾ വിശദീകരിക്കണം. ഇവയിൽ ഉൾപ്പെടുന്നത്:

റിവാർഡ് ഹാക്കിംഗ്: ഒരു ടാസ്കിലെ അല്ലെങ്കിൽ സ്കോററിലെ ഷോർട്ട്കട്ടുകൾ ഉപയോഗപ്പെടുത്തുക; ഇതിലൂടെ, മൂല്യനിർണ്ണയം അളക്കാൻ ഉദ്ദേശിച്ച യഥാർത്ഥ പെരുമാറ്റം പ്രകടിപ്പിക്കാതെ തന്നെ സിസ്റ്റത്തിന് ക്രെഡിറ്റ് ലഭിക്കുന്നു.
നിരസിക്കലുകൾ: പരീക്ഷിക്കുന്ന പെരുമാറ്റം മറയുന്ന വിധത്തിൽ നിരസിക്കൽ.
കണ്ടാമിനേഷൻ: ഇവാലുവേഷൻ ടാസ്കുകൾ, ഉത്തരങ്ങൾ, അല്ലെങ്കിൽ അടുത്ത വേരിയന്റുകൾ ട്രെയിനിംഗ് ഡാറ്റയിൽ ഉണ്ടായിരുന്നതുകൊണ്ടോ, ബ്രൗസിംഗ് പോലുള്ളവ വഴി ഇവാലുവേഷനിടെ കണ്ടെത്താനായതുകൊണ്ടോ അമിത പ്രകടനം കാഴ്ചവയ്ക്കൽ.
തകരാറുള്ള പ്രശ്നങ്ങൾ: ടാസ്കുകൾ അസാധുവായതിനാൽ കുറഞ്ഞ പ്രകടനം കാണിക്കൽ. അന്യായമായ സ്കോറിംഗ് (ഉദാ., ശരിയായ ഉത്തരത്തിന് വ്യക്തമാക്കാത്ത ഇംപ്ലിമെന്റേഷൻ വിശദാംശങ്ങൾ ആവശ്യമാകുന്നത്), പരിഹരിക്കാനാവാത്ത എൻവയോൺമെന്റുകൾ (ഉദാ., നിർണായക ഫയലുകൾ അല്ലെങ്കിൽ വിശ്വസനീയമല്ലാത്ത ഉപകരണങ്ങൾ കാണാതാകൽ) എന്നിവ കാരണങ്ങളിൽ ഉൾപ്പെടാം.
സാൻഡ്‌ബാഗിംഗ്: തങ്ങളെ ഇവാലുവേറ്റ് ചെയ്യുന്നതായി അവബോധം കാണിക്കുമ്പോൾ ഉദ്ദേശപൂർവം കുറഞ്ഞ പ്രകടനം കാഴ്ചവയ്ക്കൽ.

ഒരു ഇവാലുവേഷനായി ശരിയായ ഹാർനെസ് തിരഞ്ഞെടുക്കുന്നത് മികച്ച ഫലങ്ങൾക്ക് നിർണായകമാണ്.

ദൈർഘ്യമേറിയ ട്രാജക്ടറികളിൽ പ്രവർത്തിക്കുന്ന സിസ്റ്റങ്ങൾക്ക് ഹാർനെസിന്റെ പങ്ക് പ്രത്യേകിച്ച് പ്രധാനമാണെന്ന് ഞങ്ങൾ നിരീക്ഷിച്ചിട്ടുണ്ട്. മോഡലുകൾക്ക് ഉപകരണങ്ങൾ ഉപയോഗിക്കാനും, നില നിലനിർത്താനും, പല ഘട്ടങ്ങളിലായി പിശകുകളിൽ നിന്ന് വീണ്ടെടുക്കാനും കഴിയുമ്പോൾ, ഹാർനെസിന് നിരീക്ഷിച്ച പ്രകടനനില മാറ്റാനും, വിലയിരുത്തുന്ന കഴിവ് ഇവാലുവേഷനിൽ പ്രത്യക്ഷപ്പെടുമോ എന്നതുപോലും നിർണ്ണയിക്കാനും കഴിയും. ഉദാഹരണത്തിന്, നില സംരക്ഷിക്കുകയും പരാജയപ്പെട്ട പ്രവർത്തനങ്ങൾ വീണ്ടും നടത്താൻ ശ്രമിക്കുകയും ചെയ്യുന്ന ഒരു ഹാർനെസ്, വളരെ ലളിതമായ ഒരു ഹാർനസ്സിൽ ഒരിക്കലും പൂർത്തിയാക്കാൻ കഴിയാത്ത ഒന്നിലധികം ഘട്ടങ്ങളുള്ള ഒരു ടാസ്ക് പൂർത്തിയാക്കാൻ ആ മോഡലിനെ സഹായിച്ചേക്കാം.

താഴെയുള്ള പട്ടികയിൽ, ഇവാലുവേറ്റർമാർ ഉന്നയിക്കാൻ ആഗ്രഹിക്കുന്ന മൂന്ന് തരത്തിലുള്ള അവകാശവാദങ്ങളും ഓരോ തരത്തിലുള്ള അവകാശവാദത്തിനും ആവശ്യമാണ് എന്ന് ഞങ്ങൾ വിശ്വസിക്കുന്ന ഹാർനെസും വേർതിരിക്കുന്നു.

ഇവാലുവേഷൻ പിന്തുണയ്ക്കാൻ ശ്രമിക്കുന്ന അവകാശവാദം	അനുയോജ്യമായ ഹാർനെസ് തിരഞ്ഞെടുപ്പ്	റിപ്പോർട്ട് ചെയ്യേണ്ട തെളിവ്
ശക്തമായ എലിസിറ്റേഷനിലുണ്ടാകുന്ന കഴിവ്: സിസ്റ്റം A-യ്ക്ക് അതിന്റെ ഏറ്റവും ശക്തമായ വിശ്വസനീയ പ്രകടനം പുറത്തെടുക്കാൻ സെറ്റപ്പ് രൂപകൽപ്പന ചെയ്തിരിക്കുമ്പോൾ X തരത്തിലുള്ള ടാസ്കുകൾ പൂർത്തിയാക്കാൻ കഴിയും.	സിസ്റ്റത്തിനായി ഏറ്റവും ശക്തമായ വിശ്വസനീയ എലിസിറ്റേഷൻ സെറ്റപ്പ് ഉപയോഗിക്കുക; കഴിവുള്ള ഒരു ഉപയോക്താവ് യുക്തിപൂർവം ഉപയോഗിക്കുന്ന ഹാർനെസ്, ഉപകരണങ്ങൾ, സ്കാഫോൾഡിംഗ്, ബജറ്റ് എന്നിവ ഉൾപ്പെടെയാണിത്.	ഹാർനെസ്, ഉപകരണ സെറ്റപ്പ്, എലിസിറ്റേഷൻ മാർഗ്ഗനിർദ്ദേശം, അനുവദിച്ച ബജറ്റ്/ശ്രമം, ടോക്കണുകൾ/ചെലവ്/സമയം, അവകാശപ്പെടുന്ന കഴിവിന് ആ സെറ്റപ്പ് എന്തുകൊണ്ട് വിശ്വസനീയമായ പ്രോക്സിയാണെന്നത്. വ്യത്യസ്തമായി ഓപ്റ്റിമൈസ് ചെയ്ത സെറ്റപ്പുകളിൽ സിസ്റ്റങ്ങളെ താരതമ്യം ചെയ്യുകയാണെങ്കിൽ, അത് സിസ്റ്റം-ടു-സിസ്റ്റം അല്ലെങ്കിൽ ശക്തമായ എലിസിറ്റേഷൻ താരതമ്യം എന്ന് ലേബൽ ചെയ്യുക.
നിയന്ത്രിത താരതമ്യം: പങ്കിട്ട ഇവാലുവേഷൻ സെറ്റപ്പിൽ സിസ്റ്റം A, സിസ്റ്റം B-നെക്കാൾ മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു.	ടാസ്കുകൾ, സ്കോറിംഗ്, ബജറ്റ് എന്നിവ സ്ഥിരമായി നിലനിർത്തുക. താരതമ്യം ചെയ്യുന്ന സിസ്റ്റങ്ങൾക്കായി യുക്തിസഹമായ പരമാവധി എലിസിറ്റേഷൻ നൽകാൻ മുൻകൂട്ടി തിരഞ്ഞെടുത്ത പങ്കിട്ട ഹാർനെസ്/ഉപകരണ സെറ്റപ്പ് അല്ലെങ്കിൽ സ്റ്റാൻഡേർഡൈസ്ഡ് ഹാർനെസുകളുടെ സ്ഥിരമായ സെറ്റ് ഉപയോഗിക്കുക.	പങ്കിട്ട ടാസ്ക് സെറ്റ്, ഉപകരണങ്ങൾ, സ്കോറിംഗ് രീതി, ഹാർനെസ്, ബജറ്റ്, ടോക്കൺ കാര്യക്ഷമത/ചെലവ്, അറിയാവുന്ന പരിമിതികൾ. കോഡിംഗ്-ഏജന്റ് ഇവാലുവേഷനുകൾക്ക്, Codex CLI പോലുള്ള ഓപ്പൺ-സോഴ്‌സ് ഹാർനെസിന് സിസ്റ്റങ്ങളിലുടനീളം സ്ഥിരമായ ഏജന്റ് ലൂപ്പും ഉപകരണ ഇന്റർഫേസും നൽകാൻ കഴിയും. പരമാവധി എലിസിറ്റേഷനുള്ള ആശയപരമായ സമീപനം ഓരോ ടാസ്കിനും സിസ്റ്റത്തിനും പ്രത്യേകമായി ഒരു ബെസ്പോക്ക് ഹാർനെസ് ഓപ്റ്റിമൈസ് ചെയ്യുന്നതായിരിക്കും, എന്നാൽ അത് നിലവിൽ പ്രായോഗികമായി ബുദ്ധിമുട്ടാണ്.
എലിസിറ്റ് ചെയ്ത ആക്രമണത്തിന് കീഴിലുള്ള സംരക്ഷണ ദൃഢത: പ്രസക്തമായ മോഡൽ പെരുമാറ്റത്തിനോ എലിസിറ്റ് ചെയ്ത ആക്രമണത്തിനോ സിസ്റ്റം A-യുടെ സംരക്ഷണങ്ങൾ മതിയാകും.	പ്രസക്തമായ വിരുദ്ധ മോഡലിന് കീഴിൽ ഏറ്റവും ശക്തമായ വിശ്വസനീയ ആക്രമണം എലിസിറ്റ് ചെയ്യാൻ രൂപകൽപ്പന ചെയ്ത സംരക്ഷണ-ടെസ്റ്റിംഗ് സെറ്റപ്പ് ഉപയോഗിക്കുക.	ഇവാലുവേറ്റർമാർ പ്രസക്തമായ മോഡൽ പെരുമാറ്റത്തെ എങ്ങനെ വിവരിച്ചു, പരീക്ഷിച്ച സംരക്ഷണ കോൺഫിഗറേഷൻ, എലിസിറ്റേഷൻ തന്ത്രം, അത് നടപ്പിലാക്കാൻ ഉപയോഗിച്ച ഹാർനെസ്, അനുവദിച്ച ബജറ്റ് അല്ലെങ്കിൽ ശ്രമം.

കഴിവ് അവകാശവാദങ്ങൾ അവയ്ക്കു പിന്നിലെ എലിസിറ്റേഷൻ എത്ര ശക്തമാണോ അത്ര മാത്രമേ ശക്തമായിരിക്കൂ: ഇവാലുവേഷൻ അളക്കാൻ ശ്രമിക്കുന്ന ടാസ്കിനും കഴിവിനും ഏറ്റവും അനുയോജ്യമായ ഹാർനെസ് ഇവാലുവേറ്റർമാർ തിരഞ്ഞെടുക്കണം. ഒരേ വ്യവസ്ഥകളിൽ സിസ്റ്റങ്ങളെ താരതമ്യം ചെയ്യാൻ സ്റ്റാൻഡേർഡൈസ്ഡ് ഹാർനെസ് കൃത്യമായിരിക്കാം, എന്നാൽ മോഡലിന് ടാസ്ക് നിർവഹിക്കാൻ സഹായിക്കുന്ന പ്രത്യേക ഹാർനെസ് ഫീച്ചറുകൾ ഒഴിവാക്കുമ്പോൾ അത് കഴിവിനെ കുറച്ച് കാണിക്കാം. ഉദാഹരണത്തിന്, OpenAI-യുടെ സൈബർ റേഞ്ചുകളിലെ GPT‑5.5‑ന്റെ പ്രകടനം, ദൈർഘ്യമേറിയ, മൾട്ടി-സ്റ്റെപ്പ് ഉപകരണ ഉപയോഗം ആവശ്യമായ ടാസ്കുകളിൽ ഹാർനെസ് തിരഞ്ഞെടുപ്പ് അളന്ന കഴിവിനെ ഗണ്യമായി മാറ്റാൻ കഴിയുമെന്ന് കാണിക്കുന്നു: ഇടപെടൽ നീളുമ്പോൾ ടാസ്കിന് പ്രസക്തമായ സന്ദർഭം സംരക്ഷിക്കാൻ ഹാർനെസ് കമ്പാക്ഷൻ⁠ ഉപയോഗിക്കുമ്പോൾ മോഡൽ മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു. ചില മോഡലുകൾക്കായി, കമ്പാക്ഷൻ ഒഴിവാക്കുന്ന ഹാർനെസ് പ്രകടനം ആവശ്യത്തിന് എലിസിറ്റ് ചെയ്യില്ലെന്ന് ഇത് തെളിയിക്കുന്നു.

ഉയർന്ന വിജയ നിരക്കുകൾ മികച്ചതാണ്

പ്രസിദ്ധീകരിച്ച മറ്റു ഇവാലുവേഷനുകളും² ഹാർനെസ്, ബജറ്റ് തിരഞ്ഞെടുപ്പുകൾ ഇവാലുവേഷൻ ഫലങ്ങൾ മാറ്റുന്നതായി കാണിക്കുന്നു. ടെസ്റ്റ് സമയത്തെ കമ്പ്യൂട്ട് വർധിപ്പിക്കുന്നത് ഒരു ഇവാലുവേഷൻ എലിസിറ്റ് ചെയ്യുന്ന കഴിവിനെ ഗണ്യമായി മാറ്റാൻ കഴിയും, പ്രത്യേകിച്ച് നിരവധി സൈബർ ടാസ്കുകൾ പോലെ വിജയം പരിശോധിക്കാൻ എളുപ്പമുള്ള മേഖലകളിൽ. UK AISI-യുടെ സൈബർ റേഞ്ച് ഇവാലുവേഷനിൽ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), ബജറ്റ് 10M ടോക്കണുകളിൽ നിന്ന് 100M ടോക്കണുകളാക്കി വർധിപ്പിച്ചത് പ്രകടനം 59% വരെ മെച്ചപ്പെടുത്തി, പരീക്ഷിച്ച ഏറ്റവും ഉയർന്ന ബജറ്റിലും പ്രകടനം ഇപ്പോഴും ഉയർന്നുകൊണ്ടിരുന്നു. ഇത് വിശദീകരിക്കുന്നത് ഇവാലുവേഷനെ കൂടുതൽ വ്യാഖ്യാനിക്കാവുന്നതാക്കുന്നു: പരീക്ഷിച്ച എലിസിറ്റേഷൻ സെറ്റപ്പിനെ ആശ്രയിച്ച് ഫലം എങ്ങനെ മാറുന്നു എന്ന് ഇത് വായനക്കാരെ കാണിക്കുന്നു. അധിക ബജറ്റിനൊപ്പം പ്രകടനം ഇപ്പോഴും മെച്ചപ്പെടുന്നുവെങ്കിൽ, സ്കോർ ആ ഹാർനെസിനും ബജറ്റിനും കീഴിലുള്ള പ്രകടനമായി വിവരിക്കണം; അളന്ന കഴിവിന്റെ പരമാവധി പരിധിയായി അല്ല. കഴിവ് പലപ്പോഴും ഒരിക്കൽ എല്ലാത്തിനുമായി വ്യക്തമായി അളക്കാവുന്ന സ്ഥിരമായ അളവല്ല, മറിച്ച് വിഭവങ്ങളെ ആശ്രയിക്കുന്നതാണ്. ആവർത്തിച്ച ശ്രമങ്ങളിലുടനീളം വിജയം അളക്കാനാകുന്നിടത്ത്, സ്ഥിരമായ ടോക്കൺ ബജറ്റിലെ വിജയ നിരക്കിനൊപ്പം വിജയകരമായ ഓരോ പരിഹാരത്തിനും പ്രതീക്ഷിക്കാവുന്ന ചെലവും റിപ്പോർട്ടുകൾ പരിഗണിക്കണം. ഇത് തീവ്രത വ്യാഖ്യാനിക്കുന്നത് എളുപ്പമാക്കാം: ആവർത്തിച്ച ശ്രമങ്ങളുടെ ചെലവ് പ്രസക്തമായ ഭീഷണി മോഡലിനുള്ളിലാണെങ്കിൽ കുറഞ്ഞ വിജയ നിരക്കും പ്രായോഗികമായി അർത്ഥവത്താകാം. കഴിവ് അവകാശവാദങ്ങൾക്ക്, ഒഴിവാക്കാവുന്ന കുറഞ്ഞ എലിസിറ്റേഷൻ ഒരു അളവെടുപ്പ് പരാജയമാണ്: ഹാർനെസോ ബജറ്റോ സിസ്റ്റത്തിന് സാധ്യമായിരുന്ന പെരുമാറ്റം പ്രകടിപ്പിക്കുന്നത് തടയുന്നുവെങ്കിൽ, സ്കോർ അവകാശപ്പെടുന്ന കഴിവ് അളക്കുന്നില്ല. ഇവാലുവേറ്റർമാർ സാധ്യമായത്രയും എലിസിറ്റേഷൻ മുന്നോട്ട് കൊണ്ടുപോയിട്ടും പ്രകടനം ഇപ്പോഴും മെച്ചപ്പെടുകയാണെങ്കിൽ, റിപ്പോർട്ടുകൾ അത് വ്യക്തമായി പറയുകയും ഫലം ഒരു താഴ്ന്ന പരിധി കണക്ക് മാത്രമാണെന്ന് വ്യക്തമാക്കുകയും വേണം.

കസ്റ്റം ഹാർനെസുകൾ ഉൾപ്പെടെ ആക്രമികൾക്ക് ലഭ്യമായ വിഭവങ്ങളെ കണക്കിലെടുക്കാത്തപ്പോൾ, ഒരു ആക്രമണം വിജയിക്കുമോ എന്നും അത് എത്ര ഗുരുതരമാകുമോ എന്നും സംരക്ഷണ ടെസ്റ്റിംഗ് കുറച്ചുമാത്രമായി കാണിക്കാം. UK AISI-യുടെ GPT‑5.5 സൈബർ ഇവാലുവേഷനിൽ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), അവരുടെ വിദഗ്ധ റെഡ് ടീമിംഗ്, OpenAI നൽകിയ ദ്രോഹകരമായ ക്വറികളിലുടനീളം, മൾട്ടി-ടേൺ ഏജന്റിക് ക്രമീകരണങ്ങൾ ഉൾപ്പെടെ, നിയമലംഘന സൈബർ ഉള്ളടക്കം എലിസിറ്റ് ചെയ്ത ഒരു യൂണിവേഴ്സൽ ജെയിൽബ്രേക്ക് കണ്ടെത്തി. മോഡലിന്റെ ആക്രമണ പ്രകടനം ശക്തിപ്പെടുത്താൻ കസ്റ്റം ഹാർനെസ് സൃഷ്ടിക്കാൻ അവർ Codex ഉപയോഗിച്ചു: അത് പുനരുപയോഗിക്കാവുന്ന സംരക്ഷണ-ബൈപാസ് പാറ്റേൺ ഇടപെടലിൽ ഉൾപ്പെടുത്തി, ടേണുകളിലും ബ്ലോക്കുകളിലും ആ പാറ്റേൺ സംരക്ഷിച്ചു, OpenAI നൽകിയ ദ്രോഹകരമായ സൈബർ ക്വറികളിലുടനീളം പ്രയോഗിച്ചു. സംരക്ഷണ ടെസ്റ്റിംഗ് എതിരാളിയുടെ ശേഷിക്കും സ്വഭാവത്തിനും അനുയോജ്യമായ രീതിയിലായിരിക്കണം. അവകാശവാദം വിദഗ്ധ ദുരുപയോഗത്തിനെതിരായ ദൃഢതയെക്കുറിച്ചാണെങ്കിൽ, നിർവചിച്ച ബജറ്റിന് കീഴിൽ ഏറ്റവും ശക്തമായ വിശ്വസനീയ എൻഡ്-ടു-എൻഡ് ആക്രമണ തന്ത്രം, ആ തന്ത്രം സംരക്ഷിക്കാനും വീണ്ടും ഉപയോഗിക്കാനും ആവശ്യമായ ഹാർനെസ് ഉൾപ്പെടെ, ടെസ്റ്റ് വിലയിരുത്തണം. അല്ലെങ്കിൽ, ഫലങ്ങൾ തെറ്റായി കാലിബ്രേറ്റ് ചെയ്യപ്പെടാനുള്ള അപകടസാധ്യതയുണ്ട്: ലളിതമായ പ്രോംപ്റ്റിംഗിനെതിരായ പ്രതിരോധത്തെക്കുറിച്ചുള്ള ചെറിയ അവകാശവാദം മാത്രമേ അവ പിന്തുണയ്ക്കൂ; എലിസിറ്റേഷൻ രീതി പ്രവർത്തനക്ഷമമാക്കുമ്പോൾ ആക്രമണം എത്ര ഗുരുതരമാകുന്നു എന്നും അതിന്റെ വിജയസാധ്യതയും നഷ്ടപ്പെടാം; അതുപോലെ വളരെ അധികം ബജറ്റ് നൽകിയാൽ ഒരു പ്രശ്നം എത്ര സാധ്യതയുള്ളതോ ഗുരുതരമോ ആണെന്നത് അമിതമായി കാണിക്കുകയും ചെയ്യാം.

സ്റ്റാൻഡേർഡൈസ്ഡ് ഹാർനെസ് താരതമ്യങ്ങൾക്ക് സമയവും സാഹചര്യവും ഉണ്ട്, പക്ഷേ സ്ഥിരമായ ഹാർനെസ് സെറ്റ് ഉപയോഗിക്കുന്നത് എന്തുകൊണ്ട് അനുയോജ്യമാണെന്നും അത് ഏത് അവകാശവാദത്തെ പിന്തുണയ്ക്കാമെന്നും ഇവാലുവേറ്റർമാർ വ്യക്തമാക്കണം. METR-ന്റെ ടൈം-ഹൊറൈസൺ ഇവാലുവേഷൻ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) വിപുലമായ, ഉചിതമായി നിശ്ചയിച്ച ഇവാലുവേഷൻ സെറ്റപ്പിന്റെ ഉദാഹരണമാണ്: അത് ഇവാലുവേറ്റ് ചെയ്യുന്ന സിസ്റ്റങ്ങളിലുടനീളം താരതമ്യയോഗ്യമായ ഫലങ്ങൾ സൃഷ്ടിക്കാൻ രൂപകൽപ്പന ചെയ്തിരിക്കുന്നു. METR ഒരു പൊതു ഫലം നിർവചിക്കുന്നു: നൽകിയ വിശ്വാസ്യതാ നിലയിൽ ഒരു AI ഏജന്റ് വിജയിക്കുമെന്ന് പ്രവചിക്കുന്ന മനുഷ്യ ടാസ്കിന്റെ സാധാരണ ദൈർഘ്യം. ഒരുമിച്ച് റിപ്പോർട്ട് ചെയ്യുന്ന ഓരോ കണക്കുകളുടെ ബാച്ചിനുള്ളിലും പങ്കിട്ട ടാസ്ക് സ്യൂട്ട്, സ്കോറിംഗ് രീതി, ഫിറ്റിംഗ് രീതി, Triframe and ReAct⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) പോലുള്ള പുനരുപയോഗിക്കാവുന്ന ചെറിയ സ്കാഫോൾഡുകളുടെ സെറ്റ് എന്നിവ ഇത് പ്രയോഗിക്കുന്നു. METR ടാസ്ക് സ്യൂട്ട് വിപുലീകരിക്കുകയും Vivaria എന്ന ഫ്രെയിംവർക്കിൽ നിന്ന് Inspect എന്നതിലേക്കു ഇവാലുവേഷൻ ഇൻഫ്രാസ്ട്രക്ചർ മാറ്റുകയും ചെയ്തപ്പോൾ, അത് മാറ്റം റിപ്പോർട്ട് ചെയ്തു (Time Horizon 1.1 അപ്ഡേറ്റ്⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)) കൂടാതെ പുതിയ ഇവാലുവേഷൻ സെറ്റപ്പിൽ മോഡലുകളെ വീണ്ടും ഇവാലുവേറ്റ് ചെയ്തു. സ്ഥിരമായ ഹാർനെസ് സെറ്റ് ഉൾപ്പെടുന്ന സ്റ്റാൻഡേർഡൈസ്ഡ് ഇവാലുവേഷൻ സെറ്റപ്പിന്റെ മൂല്യം അതാണ്: അളവെടുപ്പ് സെറ്റപ്പിലെ മാറ്റം അല്ല, മറിച്ച് താരതമ്യം ചെയ്യുന്ന സിസ്റ്റങ്ങൾ തമ്മിലുള്ള വ്യത്യാസമാണ് സ്കോറിലെ വ്യത്യാസം പ്രതിഫലിപ്പിക്കുന്നത് എന്ന് വായനക്കാരെ ആത്മവിശ്വാസത്തിലാക്കാൻ ഇത് സഹായിക്കും.

തേഡ് പാർട്ടി ഇവാലുവേഷൻ റിപ്പോർട്ടുകൾ അവരുടെ ഇവാലുവേഷൻ സെറ്റപ്പ് ഏത് തരത്തിലുള്ള അവകാശവാദത്തെ പിന്തുണയ്ക്കാനാണ് ഉദ്ദേശിക്കുന്നതെന്ന് വ്യക്തമാക്കണമെന്ന്; പരീക്ഷിച്ചത് ആ വിശാലമായ അവകാശവാദത്തെ എത്ര അടുത്തായി പ്രതിഫലിപ്പിക്കുന്നു എന്ന് വിവരിക്കണമെന്ന്; ഫലത്തെ രൂപപ്പെടുത്തിയ ഹാർനെസ് തിരഞ്ഞെടുപ്പുകൾ വിവരിക്കണമെന്ന്; ഇവാലുവേഷനുകൾക്കിടയിൽ ആ തിരഞ്ഞെടുപ്പുകൾ മാറുമ്പോൾ വിശദമാക്കണമെന്ന്; ഫലം എങ്ങനെ സൃഷ്ടിച്ചു എന്നും അവകാശവാദത്തിലേക്ക് അത് എത്ര നന്നായി ജനറലൈസ് ചെയ്യുന്നു എന്നും കാണിക്കാൻ പിന്തുണയ്ക്കുന്ന തെളിവുകൾ ഉൾപ്പെടുത്തണമെന്ന് ഞങ്ങൾ ശുപാർശ ചെയ്യുന്നു.

ഫലങ്ങളെ വളച്ചൊടിക്കാവുന്ന അറിയപ്പെടുന്ന അപകടങ്ങൾ പരിശോധിച്ച് സാധുത വിലയിരുത്തുക.

മോഡലുകൾ കൂടുതൽ കഴിവുള്ളതാകുമ്പോൾ, ഇവാലുവേഷൻ സ്കോറുകൾ തെറ്റായി വ്യാഖ്യാനിക്കാൻ എളുപ്പമാകുന്നു. യഥാർത്ഥ കഴിവുകളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ, ഒരു മോഡൽ അത് ഇവാലുവേറ്റ് ചെയ്യപ്പെടുന്നതായി തിരിച്ചറിഞ്ഞ് തന്ത്രപരമായി കുറഞ്ഞ പ്രകടനം കാഴ്ചവച്ചാൽ ഇവാലുവേഷൻ സ്കോറുകൾ കൃത്രിമമായി കുറയാം. ടാസ്കിലോ പ്രോംപ്റ്റിലോ സ്കോററിലോ ഹാർനെസിലോ ഉള്ള ഒരു ഷോർട്ട്കട്ട് മോഡൽ ചൂഷണം ചെയ്താൽ അവ ഉയർത്തിക്കാണിക്കപ്പെടാം. കണ്ടാമിനേഷൻ മൂലവും (മോഡലിന് ടാസ്ക് പരിഹരിക്കാതെ തന്നെ ഉത്തരം ഇതിനകം അറിയുകയോ കണ്ടെത്താനാകുകയോ ചെയ്യുന്നിടത്ത്) അല്ലെങ്കിൽ അവ്യക്തമായ, തെറ്റായി സ്കോർ ചെയ്ത, പരിഹരിക്കാനാവാത്ത, അല്ലെങ്കിൽ ഉദ്ദേശിക്കാത്ത ഷോർട്ട്കട്ടുകൾക്ക് വിധേയമായ “തകരാറുള്ള” പ്രശ്നങ്ങൾ മൂലവും അവ വളച്ചൊടിക്കപ്പെടാം. അതിനാൽ ഇവാലുവേഷൻ റിപ്പോർട്ടുകൾ പ്രധാന സ്കോറുകൾക്കൊപ്പം ഈ അപകടങ്ങളെക്കുറിച്ചുള്ള ചർച്ചയും ഉൾപ്പെടുത്തണം, അതുവഴി വായനക്കാർക്ക് സ്കോറുകൾ ഉദ്ദേശിച്ച പെരുമാറ്റത്തെ പ്രതിഫലിപ്പിക്കുന്നുണ്ടോ എന്ന് വിലയിരുത്താൻ കഴിയും.

ഹാർനെസുകൾ, ബജറ്റുകൾ, ഉപകരണങ്ങൾ, സ്കോറിംഗ് നിയമങ്ങൾ, മോണിറ്ററുകൾ, അവലോകന നടപടികൾ എന്നിവയെല്ലാം ഒരു ഏജന്റ് ഉദ്ദേശിച്ച ടാസ്ക് പരിഹരിക്കുകയാണോ, അത് ഒഴിവാക്കുകയാണോ, മനഃപാഠമാക്കുകയാണോ, അല്ലെങ്കിൽ അതിനെ ചുറ്റിപ്പറ്റി ഒരു വഴി കണ്ടെത്തുകയാണോ എന്നതിനെ ബാധിക്കുന്നു. വിശ്വസനീയമായ റിപ്പോർട്ട് ആ പരിശോധനകൾ ദൃശ്യവത്കരിക്കുന്നു: ഒരു മൂല്യനിർണയ വിലയിരുത്തൽ ഓരോ തവണ നടത്തുമ്പോഴും ഇവാലുവേറ്റർമാർ ഈ പെരുമാറ്റങ്ങൾക്കായി സാമ്പിളുകൾ അവലോകനം ചെയ്യണം.

റിവാർഡ് ഹാക്കിംഗ്

റിവാർഡ് ഹാക്കിംഗ് എന്ന് പറഞ്ഞാൽ ഉദ്ദേശിച്ച കഴിവിനെ പ്രതിഫലിപ്പിക്കാത്ത രീതികളിൽ ഉയർന്ന ഇവാലുവേഷൻ സ്കോറുകൾ നേടുന്നതാണ്. ഇവിടെ ആശങ്ക, ഇവാലുവേഷൻ അളക്കാൻ ഉദ്ദേശിച്ച ജോലി ചെയ്യുന്നതിനുപകരം ടാസ്ക്, സ്കോറർ, പ്രോംപ്റ്റ്, അല്ലെങ്കിൽ ഹാർനെസ് ചൂഷണം ചെയ്ത് സിസ്റ്റത്തിന് ക്രെഡിറ്റ് ലഭിക്കുന്നതാണ്. GPT 5.4-നെക്കുറിച്ചുള്ള METR-ന്റെ ഇവാലുവേഷൻ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഇത് എന്തുകൊണ്ട് പ്രധാനമാണെന്ന് കാണിക്കുന്നു: പ്രാഥമികമായി ഏകദേശം 13 മണിക്കൂർ ടൈം ഹൊറൈസണായി രേഖപ്പെടുമായിരുന്ന നിരക്കിൽ മോഡൽ ടാസ്കുകളിൽ വിജയിച്ചെങ്കിലും, മനുഷ്യ അവലോകനം ചില വിജയങ്ങൾ റിവാർഡ് ഹാക്കിംഗിൽ നിന്നാണെന്ന് കാണിച്ചു; റിവാർഡ് ഹാക്കിംഗ് ഇല്ലാത്ത സംഭവങ്ങൾ മാത്രം പരിഗണിക്കാൻ ഫലങ്ങൾ തിരുത്തിയപ്പോൾ കണക്ക് ഏകദേശം 6 മണിക്കൂറായി കുറഞ്ഞു. ഇത്തരത്തിലുള്ള ക്രമീകരണങ്ങളുടെ ആവശ്യം ഇവാലുവേറ്റർമാർ വിലയിരുത്തുകയും, അവ ആവശ്യമാകുമ്പോൾ വ്യക്തമായി റിപ്പോർട്ട് ചെയ്യുകയും വേണം: ഏത് പ്രത്യക്ഷ വിജയങ്ങളാണ് അയോഗ്യമാക്കിയത്, എന്തുകൊണ്ടാണ് അയോഗ്യമാക്കിയത്, ആ വിധിയെ ഫലം എത്രമാത്രം ആശ്രയിക്കുന്നു എന്നിവ വായനക്കാർക്ക് കാണാൻ കഴിയുമ്പോൾ ഒരു കഴിവ് കണക്ക് കൂടുതൽ ഉപകാരപ്രദമാകും.

ട്രെൻഡ് ലൈനും കോൺഫിഡൻസ് ഇന്റർവലുകളും ഉൾപ്പെടുത്തിക്കൊണ്ട്, കാലക്രമേണയുള്ള AI മോഡലുകളുടെ പ്രകടനം കാണിക്കുന്ന ചാർട്ട്.

നിരസിക്കലുകൾ

സംരക്ഷണങ്ങൾ കാരണം മോഡലുകൾ കഴിവ് ഇവാലുവേഷനുകളിൽ കുറഞ്ഞ പ്രകടനം കാണിക്കാനും ഇടയുണ്ട്. ഇവാലുവേഷൻ ടാസ്കുകൾ പൂർത്തിയാക്കുന്നതിനുപകരം നിരസിക്കുന്നതിനാൽ ഒരു മോഡലിന്റെ ഇവാലുവേഷൻ പ്രകടനം അതിന് കഴിവുള്ളതിനെക്കാൾ കുറവായിരിക്കാം. അതിനാൽ നിരസിക്കലുകൾ ഇവാലുവേഷൻ ഫലങ്ങളുടെ ഭാഗമായിരുന്നോ എന്നും ആയിരുന്നെങ്കിൽ അവ കാരണം എത്ര സാമ്പിളുകൾ ബാധിക്കപ്പെട്ടു എന്നും റിപ്പോർട്ടുകൾ വിശദീകരിക്കണം.

കണ്ടാമിനേഷൻ

പൊതുവായോ വീണ്ടും ഉപയോഗിക്കാവുന്നതോ ആയ ബെഞ്ച്മാർക്കുകൾക്കാണ്⁠ കണ്ടാമിനേഷൻ ഏറ്റവും പ്രധാനപ്പെട്ടത്. ടാസ്കുകൾ, ഉത്തരങ്ങൾ, അല്ലെങ്കിൽ അടുത്ത വേരിയന്റുകൾ ട്രെയിനിംഗ് ഡാറ്റയിൽ പ്രത്യക്ഷപ്പെടുകയോ ബ്രൗസിംഗ് ഉള്ള ഏജന്റിന് കണ്ടെത്താനാകുകയോ ചെയ്താൽ, പ്രകടനം മോഡൽ പ്രകടനത്തിനുപകരം മനഃപാഠമാക്കലോ വീണ്ടെടുക്കലോ പ്രതിഫലിപ്പിച്ചേക്കാം. സാധ്യമായിടത്ത് ഇവാലുവേറ്റർമാർ സ്വകാര്യമായതോ പുതുതായി നിർമ്മിച്ചതോ ആയ ടാസ്കുകൾക്ക് മുൻഗണന നൽകുകയും, പരിഹരിക്കുന്നതിന് മുമ്പ് മോഡലുകൾ ടാസ്ക്-നിർദ്ദിഷ്ട വിശദാംശങ്ങൾ പുനരുത്പാദിപ്പിക്കുന്നുണ്ടോ എന്ന് പരീക്ഷിക്കുകയും വേണം.

തകരാറുള്ള പ്രശ്നങ്ങൾ

തകരാറുള്ള പ്രശ്നങ്ങളിൽ, അപ്രതീക്ഷിതമായി പരിഹരിക്കാനാകാത്ത ഒരു പ്രശ്നം പോലുള്ള സാഹചര്യങ്ങൾ ഉൾപ്പെടുന്നു. തകരാറുള്ള പ്രശ്നങ്ങൾ ഒരു സാധാരണ സാധുതാ അപകടമായി കണക്കാക്കേണ്ടത്ര പൊതുവായി കാണപ്പെടുന്നു⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു). തെറ്റായ ഗ്രൗണ്ട് ട്രൂത്ത്, അവ്യക്തമായ പ്രോംപ്റ്റുകൾ, ഫയലുകൾ ഇല്ലാതിരിക്കൽ, സ്ഥിരതയില്ലാത്ത സേവനങ്ങൾ, അന്യായമായ സ്കോറിംഗ് മാനദണ്ഡങ്ങൾ, മറഞ്ഞിരിക്കുന്ന ഉത്തര ഫയലുകൾ അല്ലെങ്കിൽ ഗ്രൗണ്ട്-ട്രൂത്ത് പാച്ച് അടങ്ങിയ റിപ്പോസിറ്ററി ചരിത്രം പോലുള്ള ഷോർട്ട്കട്ടുകൾ തുറന്നു കാണിക്കുന്ന എൻവയോൺമെന്റുകൾ എന്നിവ ഇതിൽ ഉൾപ്പെടുന്നു.

സാൻഡ്‌ബാഗിംഗ്

ഒരു മോഡലോ സിസ്റ്റമോ നടത്തുന്ന സാൻഡ്‌ബാഗിംഗ് എന്നത് ശക്തമായ പ്രകടനം ഏതെങ്കിലും ലക്ഷ്യവുമായി സംഘർഷത്തിലാകുമ്പോൾ തന്ത്രപരമായി കുറഞ്ഞ പ്രകടനം കാഴ്ചവയ്ക്കുന്നതാണ്. ഉയർന്ന ഇവാലുവേഷൻ സ്കോറുകൾ അൺലേണിംഗിന് കാരണമാകുകയോ വിന്യാസം തടയുകയോ ചെയ്യാം എന്ന് മോഡൽ മനസ്സിലാക്കുന്ന ഒരു സന്ദർഭം സൃഷ്ടിച്ച് Apollo-യുടെ GPT‑5.5 ഇവാലുവേഷൻ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഇത് പരീക്ഷിച്ചു. GPT‑5.5 എങ്കിലും ശരിയായി ഉത്തരം നൽകി, തന്ത്രപരമായ കുറഞ്ഞ പ്രകടനത്തിന് കുറഞ്ഞ പെരുമാറ്റ തെളിവ് മാത്രമുണ്ടെന്ന് സൂചിപ്പിച്ചു³. എന്നാൽ അവരുടെ റീസണിംഗ് ട്രേസ് അവലോകനം പ്രധാനപ്പെട്ട സന്ദർഭം കൂട്ടിച്ചേർത്തു: സാൻഡ്‌ബാഗിംഗ്-വ്യവസ്ഥാ സാമ്പിളുകളിൽ 52%-ൽ അലൈന്മെന്റ്-ഇവാലുവേഷൻ അവബോധത്തിന്റെ മിതമോ അതിലധികമോ ആയ സൂചനകൾ Apollo കണ്ടെത്തി, കൗണ്ടർഫാക്ച്വലുകളിൽ ഇത് 0% ആയിരുന്നു. ആ തെളിവ് ഫലത്തിന്റെ വ്യാഖ്യാനം സങ്കീർണ്ണമാക്കുന്നു, പക്ഷേ ഒടുവിൽ വായനക്കാർക്ക് കൂടുതൽ സിഗ്നൽ നൽകുന്നു: ആശ്വാസകരമായ പെരുമാറ്റ ഫലവും അത് അതിരുകടന്ന് വ്യാഖ്യാനിക്കുമ്പോൾ ജാഗ്രത വേണമെന്ന കാരണവും രണ്ടും വായനക്കാർക്ക് കാണാം.

കൂടുതൽ ശക്തമായ ഇവാലുവേഷനുകളെ ഞങ്ങൾ എങ്ങനെ പിന്തുണക്കുന്നു.

ശക്തമായ അവകാശവാദങ്ങൾക്ക് പെരുമാറ്റം എലിസിറ്റ് ചെയ്യാൻ ശരിയായ ഹാർനെസും ഫലം വിശ്വസനീയമാണെന്ന് കാണിക്കാൻ സാധുതാ പരിശോധനകളും ആവശ്യമാണ്. ഹാർനെസുകളും സാധുതാ പരിശോധനകളും ഇവാലുവേഷൻ ഫലത്തിന്റെ ഭാഗമാണെന്ന ഞങ്ങളുടെ കാഴ്ചപ്പാട്, പ്രായോഗികമായി തേഡ് പാർട്ടി ഇവാലുവേഷനുകളെ ഞങ്ങൾ പിന്തുണയ്ക്കുന്ന രീതി രൂപപ്പെടുത്തുന്നു:

ഇവാലുവേറ്റർമാരുമായി ഞങ്ങൾ നിർദ്ദിഷ്ട പരമാവധി-എലിസിറ്റേഷൻ മാർഗ്ഗനിർദ്ദേശം പങ്കിടുന്നു.
OpenAI മോഡലുകൾക്കായി Codex ഒരു പൊതുവായ അടിസ്ഥാനമായി ഉപയോഗിക്കാൻ കഴിവ് ഇവാലുവേറ്റർമാരോട് ഞങ്ങൾ ആവശ്യപ്പെടുന്നു: ഉപയോക്താക്കൾ ആശ്രയിക്കാൻ സാധ്യതയുള്ള അതേ ഏജന്റിക് ഇന്റർഫേസിലൂടെ എങ്കിലും ടെസ്റ്റുകൾ ഒരു ബേസ്‌ലൈൻ റൺ ചെയ്യണം; വെറും ചുരുക്കിയ മോഡൽ ഇന്റർഫേസിലൂടെ മാത്രം അല്ല.
ഡിസെപ്ഷൻ, സാൻഡ്‌ബാഗിംഗ്, അല്ലെങ്കിൽ ഇവാലുവേഷൻ അവബോധം വിലയിരുത്താൻ ആവശ്യമുള്ളിടത്ത് റീസണിംഗ് ട്രേസുകളും മറ്റ് ഇടനില ആർട്ടിഫാക്റ്റുകളും ഞങ്ങൾ ലഭ്യമാക്കുകയും ചെയ്യുന്നു. GPT‑5 മുതൽ OpenAI ഇവാലുവേഷനുകളിൽ METR, Apollo എന്നിവർ ഈ ആക്സസ് ഉപയോഗിച്ചിട്ടുണ്ട്.
അവസാനമായി, കോൺടെക്സ്റ്റ് മാനേജ്മെന്റും ഉപകരണ ആക്സസും മുതൽ പുനഃശ്രമ പെരുമാറ്റം, സ്കോറിംഗ്, വിഭവ ബജറ്റുകൾ വരെ, ഹാർനെസ് തിരഞ്ഞെടുപ്പുകൾ എപ്പോൾ എങ്ങനെ ഫലങ്ങളെ ഗണ്യമായി മാറ്റുന്നു എന്ന് കൂടുതൽ ആഴത്തിൽ മനസ്സിലാക്കാനുള്ള ഗവേഷണത്തിന് ഞങ്ങൾ മുൻഗണന നൽകുന്നു.

ഇവാലുവേഷൻ മാനദണ്ഡങ്ങൾക്കും ഭാവി ഗവേഷണ ദിശകൾക്കും ഇതിന്റെ അർത്ഥം.

ഈ ശുപാർശകൾ വ്യക്തിഗത ഇവാലുവേഷൻ റിപ്പോർട്ടുകൾ മെച്ചപ്പെടുത്തുന്നതിനുമാത്രമല്ല, അത്യാധുനിക AI ഇവാലുവേഷനും റിപ്പോർട്ടിംഗിനുമായി ഉയർന്നുവരുന്ന ദേശീയ ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)മറ്റും അന്തർദേശീയ ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)മാനദണ്ഡങ്ങളെ അറിയിക്കുന്നതിനുമാണ് ഉദ്ദേശിക്കുന്നത്. മുന്നോട്ട് പോകുമ്പോൾ, തേഡ് പാർട്ടി ഇവാലുവേഷൻ മാനദണ്ഡങ്ങൾക്ക്, നിർദ്ദിഷ്ട ഇവാലുവേഷനുകൾ ഏത് അവകാശവാദങ്ങളെ പിന്തുണയ്ക്കുന്നു, ഏത് സിസ്റ്റമാണ് പരീക്ഷിച്ചത്, ഫലം എങ്ങനെ എലിസിറ്റ് ചെയ്തു, അതിന്റെ സാധുത ഇവാലുവേറ്റർമാർ എങ്ങനെ പരിശോധിച്ചു എന്നിവ തീരുമാനം എടുക്കുന്നവർക്ക് മനസ്സിലാക്കാൻ മതിയായ വിശദാംശങ്ങൾ ആവശ്യമാകും. ഏജന്റിക് കഴിവുകൾ പ്രധാനമായ ടാസ്കുകളിൽ പരീക്ഷിക്കപ്പെടുന്ന അത്യാധുനിക സിസ്റ്റുകൾക്കായി, വിശദാംശങ്ങളിൽ ഇവ ഉൾപ്പെടണം (സുരക്ഷയോ രഹസ്യാത്മകതയോ സംബന്ധിച്ച ആശങ്കകൾക്ക് വിധേയമായി):

അവകാശവാദം: ഇവാലുവേഷൻ സിസ്റ്റങ്ങളെ താരതമ്യം ചെയ്യുന്നതാണോ, കഴിവിന്റെ പരമാവധി പരിധി കണക്കാക്കുന്നതാണോ, അല്ലെങ്കിൽ സംരക്ഷണങ്ങൾ പരീക്ഷിക്കുന്നതാണോ.
ഇവാലുവേഷൻ ഉള്ളടക്കം: ഇവാലുവേഷൻ യഥാർത്ഥത്തിൽ ഏത് കഴിവുകൾ, പെരുമാറ്റങ്ങൾ, അല്ലെങ്കിൽ പരാജയ രീതികൾ പരീക്ഷിക്കുന്നു എന്ന് വായനക്കാർക്ക് മനസ്സിലാക്കാൻ ടാസ്കുകളെയോ ടാസ്ക് വിതരണത്തെയോ കുറിച്ചുള്ള മതിയായ വിശദാംശം.
പരീക്ഷിച്ച സിസ്റ്റം: മോഡൽ, റീസണിംഗ് ക്രമീകരണം, ഉപകരണ ആക്സസ്, ഹാർനെസ്, സംരക്ഷണങ്ങൾ.
ബജറ്റ്: ടേണുകൾ, ടോക്കണുകൾ, ശ്രമങ്ങൾ/പുനഃശ്രമങ്ങൾ, വാൾ-ക്ലോക്ക് സമയം, ഇൻഫറൻസ് ചെലവ്, ബാധകമായിടത്ത് വിജയകരമായ ഓരോ പരിഹാരത്തിനും പ്രതീക്ഷിക്കാവുന്ന ചെലവ്.
എലിസിറ്റേഷൻ രീതികൾ: ഫലം പുറത്തെടുക്കാൻ ഉപയോഗിച്ച ഹാർനെസ് തിരഞ്ഞെടുപ്പുകൾ, പരീക്ഷിച്ചത് ഉന്നയിക്കുന്ന വിശാലമായ അവകാശവാദത്തെ എത്ര അടുത്തായി പ്രതിഫലിപ്പിക്കുന്നു എന്നതും.
സാധുതാ പരിശോധനകൾ: റിവാർഡ് ഹാക്കിംഗ്, ഇവാലുവേഷൻ അവബോധം, കണ്ടാമിനേഷൻ, നിരസിക്കലുകൾ, സാൻഡ്‌ബാഗിംഗ്, ഫലത്തെ ദുർബലപ്പെടുത്താവുന്ന മറ്റ് പെരുമാറ്റങ്ങൾ എന്നിവ വിലയിരുത്തുന്നവർ അന്വേഷിച്ച രീതി; സ്ഥിരീകരിച്ച കേസുകൾ സ്കോറിംഗിനെയോ വ്യാഖ്യാനത്തെയോ എങ്ങനെ ബാധിച്ചു എന്നത് ഉൾപ്പെടെ.

ഹാർനെസ് തിരഞ്ഞെടുപ്പുകളെയോ സാധുതാ പരിശോധനകളെയോ ഒഴിവാക്കുന്ന മാനദണ്ഡങ്ങൾ ഒരു സിസ്റ്റത്തിന് ചെയ്യാൻ കഴിയുന്നതിനെ കുറച്ച് കാണിക്കുകയോ സുരക്ഷാ അവകാശവാദത്തിൽ ആത്മവിശ്വാസം അമിതമായി കാണിക്കുകയോ ചെയ്യാം. ശക്തമായ ഹാർനെസുകളും എലിസിറ്റേഷൻ രീതികളും നിർമ്മിക്കുന്നത് ഇപ്പോഴും തുറന്ന ഗവേഷണ മേഖലയാണ്, കൂടാതെ കൂടുതൽ അന്വേഷണത്തിന്റെയും നിക്ഷേപത്തിന്റെയും കേന്ദ്രമായിരിക്കണം.

2026

രചയിതാവ്

OpenAI

ഗ്ലോസറി

ഈ പോസ്റ്റിൽ നിരവധി സാങ്കേതിക പദങ്ങൾ ഉപയോഗിക്കുന്നതിനാൽ, ഞങ്ങൾ എന്താണ് ഉദ്ദേശിക്കുന്നതെന്ന് ലളിതമായ ഭാഷയിൽ വിശദീകരിക്കുന്ന ഒരു ഗ്ലോസറി താഴെ ചേർത്തിട്ടുണ്ട്:

ഏജന്റിക് സിസ്റ്റം: ഒരു പ്രോംപ്റ്റിന് ഒരൊറ്റ മറുപടി മാത്രം നൽകുന്നതിനു പകരം, ഉപകരണങ്ങൾ ഉപയോഗിക്കുകയും ടാസ്ക് നില നിലനിർത്തുകയും ഒരു പരിസരത്തിൽ പ്രവർത്തിക്കുകയും ചെയ്ത് പല ഘട്ടങ്ങളിലായി ഒരു ടാസ്ക് പൂർത്തിയാക്കാൻ കഴിയുന്ന സിസ്റ്റം.
മൂല്യനിർണയ വിലയിരുത്തൽ: ഇവാലുവേഷൻ ഡാറ്റ, രേഖാ അവലോകനം, അഭിമുഖം, പ്രോസസ് അവലോകനം, മറ്റ് പ്രസക്ത ആർട്ടിഫാക്റ്റുകൾ എന്നിവയെ അടിസ്ഥാനമാക്കി ഒരു അവകാശവാദം, റിസ്ക് നിഗമനം, അല്ലെങ്കിൽ ഉറപ്പ് നിലപാട് തെളിവുകൾ പിന്തുണയ്ക്കുന്നുണ്ടോ എന്നതിനെക്കുറിച്ചുള്ള വിശാലമായ വിധി.
കമ്പാക്ഷൻ: ദൈർഘ്യമേറിയ റണ്ണുകളിൽ ടാസ്കിന് പ്രസക്തമായ സന്ദർഭം സംരക്ഷിക്കുന്ന രീതി.
കോൺഫിഗറേഷൻ: മോഡലിന്റെ പേരിന് അപ്പുറം, കൃത്യമായി പരീക്ഷിക്കപ്പെട്ട സിസ്റ്റവും അതിന്റെ മൂല്യനിർണ്ണയ സാഹചര്യങ്ങളും.
കണ്ടാമിനേഷൻ: ഇവാലുവേഷൻ ടാസ്കുകൾ, ഉത്തരങ്ങൾ, അല്ലെങ്കിൽ അടുത്ത വേരിയന്റുകൾ ഒരു മോഡലിന്റെ ട്രെയിനിംഗ് ഡാറ്റയിൽ പ്രത്യക്ഷപ്പെടുകയോ ഇവാലുവേഷൻ സമയത്ത് കണ്ടെത്താനാകുകയോ ചെയ്യുമ്പോൾ (ഉദാ., ബ്രൗസിംഗ് പോലുള്ള ഉപകരണങ്ങൾ വഴി), പ്രകടനം മോഡലിന്റെ യഥാർത്ഥ ജനറലൈസേഷനേക്കാൾ ഉയർന്നതായി കാണപ്പെടുന്നു.
എലിസിറ്റേഷൻ: ഒരു മൂല്യനിർണയ വിലയിരുത്തലിനിടെ ഒരു സിസ്റ്റത്തിൽ നിന്ന് ഒരു കഴിവോ പെരുമാറ്റമോ പുറത്തെടുക്കാൻ ശ്രമിക്കുന്ന പ്രക്രിയ.
എൻവയോൺമെന്റ്: ഒരു സിസ്റ്റം പരീക്ഷിക്കപ്പെടുന്ന ടാസ്ക് ക്രമീകരണം. ടെർമിനൽ എൻവയോൺമെന്റ് അല്ലെങ്കിൽ വീഡിയോ ഗെയിം പോലുള്ള, ഇവാലുവേഷനിടെ ഏജന്റ് ഇടപെടുകയും മാറ്റുകയും ചെയ്യുന്ന ബാഹ്യ നില പോലുള്ള കാര്യങ്ങൾ ഇതിൽ ഉൾപ്പെടുന്നു.
ഇവാലുവേഷൻ: ഒരു മൂല്യനിർണയ വിലയിരുത്തലിനുള്ളിലെ പ്രത്യേക ടെസ്റ്റ് അല്ലെങ്കിൽ അളവ്.
ഇവാലുവേഷൻ അവബോധം: താൻ ഇവാലുവേറ്റ് ചെയ്യപ്പെടുകയാണെന്ന് ഒരു മോഡൽ തിരിച്ചറിയുകയോ തിരിച്ചറിയുന്നതായി തോന്നുകയോ ചെയ്യുകയും ആ സന്ദർഭത്തിന് മറുപടിയായി തന്റെ പെരുമാറ്റം മാറ്റാൻ സാധ്യതയുണ്ടാകുകയും ചെയ്യുന്നതിനെ ഇവാലുവേഷൻ അവബോധം എന്നു പറയുന്നു. ഇത് മോഡൽ തനിയെ പരീക്ഷിക്കപ്പെടുന്നതിനെക്കുറിച്ച് വ്യക്തമാക്കിയുള്ള റീസണിംഗ് നടത്തുന്നത്, ഇവാലുവേഷന്റെ ഉദ്ദേശ്യം അനുമാനിക്കുന്നത്, അല്ലെങ്കിൽ ഫലം താൻ എങ്ങനെ വിധിക്കപ്പെടും അല്ലെങ്കിൽ വിന്യസിക്കപ്പെടും എന്നതിനെ ബാധിക്കുമെന്ന് പ്രതീക്ഷിച്ച് പെരുമാറ്റം മാറ്റുന്നത് പോലെ കാണപ്പെടാം.
ഹാർനെസ്: ഒരു മോഡലിന് ടാസ്ക് നിർവഹിക്കാൻ അനുവദിക്കുന്ന മോഡൽ അഭിമുഖമായ ഘടന: പ്രോംപ്റ്റുകൾ, ടൂളുകൾ, ഇന്റർഫേസുകൾ, നിയന്ത്രണ ലോജിക്, മെമ്മറി, പുനഃശ്രമങ്ങൾ, വാലിഡേറ്ററുകൾ, മോഡലിനെ ചുറ്റിപ്പറ്റിയുള്ള മറ്റ് സഹായ ഘടനകൾ.
പരമാവധി എലിസിറ്റേഷൻ: സിസ്റ്റത്തെ ഒരു സ്റ്റാൻഡേർഡൈസ്ഡ് ഹാർനെസിലൂടെ ഒരിക്കൽ മാത്രം കൊണ്ടുപോകുന്നതിന് പകരം, നിർവചിച്ച ബജറ്റിന് കീഴിൽ ഒരു സിസ്റ്റത്തിന് സൃഷ്ടിക്കാൻ കഴിയുന്ന ഏറ്റവും ശക്തമായ വിശ്വസനീയ പ്രകടനമോ പരാജയ രീതിയോ കണ്ടെത്താൻ ലക്ഷ്യമിടുന്ന ടെസ്റ്റിംഗ്.
റീസണിംഗ് ട്രേസുകൾ: ഒരു ടെസ്റ്റിനിടെ മോഡലിന്റെ ഇന്റർമീഡിയേറ്റ് റീസണിംഗിന്റെ രേഖകൾ.
റിവാർഡ് ഹാക്കിംഗ്: ഇവാലുവേറ്ററുടെ ഉദ്ദേശ്യത്തിന് പുറത്തുള്ള ഒരു ഷോർട്ട്കട്ടിലൂടെയോ പെരുമാറ്റത്തിലൂടെയോ ഉയർന്ന സ്കോർ നേടൽ.
സംരക്ഷണങ്ങൾ: ഒരു മോഡലിന് അല്ലെങ്കിൽ ഉൽപ്പന്നത്തിന് ചുറ്റും ഏർപ്പെടുത്തിയിട്ടുള്ള ഫിൽട്ടറുകൾ, മോണിറ്ററുകൾ, ബ്ലോക്കിംഗ് സിസ്റ്റങ്ങൾ, മറ്റ് പരിരക്ഷകൾ.
സാൻഡ്‌ബാഗിംഗ്: ഫലത്തെ ദുർബലപ്പെടുത്തുന്ന രീതിയിൽ ഇവാലുവേഷനിൽ തന്ത്രപരമായി കുറഞ്ഞ പ്രകടനം കാണിക്കൽ.
സ്കോറിംഗ്: പ്രകടനം എങ്ങനെ അളക്കണം അല്ലെങ്കിൽ ഒരു ടാസ്ക് വിജയിച്ചോ എന്ന് തീരുമാനിക്കാൻ ഉപയോഗിക്കുന്ന രീതി.
സ്റ്റാൻഡേർഡൈസ്ഡ് ഹാർനെസ്: ഒരു പ്രത്യേക മോഡലിനോ ടാസ്കിനോ അനുസരിച്ച് ഇഷ്ടാനുസൃതമാക്കുന്നതിനു പകരം സിസ്റ്റങ്ങളിലുടനീളം ഒരുപോലെ നിലനിർത്തുന്ന ഹാർനെസ്; അതുവഴി ഫലങ്ങളിലെ വ്യത്യാസങ്ങൾ പരീക്ഷിച്ച മോഡലിനാൽ ഉണ്ടായതാണെന്ന് നിർണ്ണയിക്കാൻ എളുപ്പമാകും.
ടൈം ഹൊറൈസൺ: നിർദ്ദിഷ്ട വിശ്വാസ്യതയോടെ ഒരു സിസ്റ്റത്തിന് പൂർത്തിയാക്കാൻ കഴിയുന്ന ടാസ്കിന്റെ ദൈർഘ്യം; അതേ ടാസ്ക് മനുഷ്യന് എത്ര സമയം എടുക്കും എന്ന രീതിയിൽ പലപ്പോഴും പ്രകടിപ്പിക്കുന്നു.
ഉപകരണ ആക്സസ്: മൂല്യനിർണയ വിലയിരുത്തലിനിടെ മോഡലിന് ലഭ്യമായ ബാഹ്യ ഉപകരണങ്ങൾ.
ട്രാജക്ടറികൾ: ഒരു ടാസ്ക് നിർവഹിക്കുമ്പോൾ ഒരു സിസ്റ്റം പിന്തുടരുന്ന ഘട്ടം ഘട്ടമായ പാതകൾ.
യൂണിവേഴ്സൽ ജെയിൽബ്രേക്ക്: നിരവധി പ്രോംപ്റ്റുകളിലോ ടാസ്കുകളിലോ സിസ്റ്റം സംരക്ഷണങ്ങൾ മറികടക്കാൻ കാരണമാകുന്ന ഒറ്റ ആക്രമണ പാറ്റേൺ.

അടിക്കുറിപ്പുകൾ

1
തേഡ് പാർട്ടികൾ മിസ്അലൈൻമെന്റ് അല്ലെങ്കിൽ പ്രവണതയുമായി ബന്ധപ്പെട്ട അവകാശവാദങ്ങൾ എങ്ങനെ വിലയിരുത്തണം എന്നത് ഈ പോസ്റ്റ് പരിഹരിക്കാൻ ശ്രമിക്കുന്നില്ല. ഹാർനെസ് തിരഞ്ഞെടുപ്പുകൾ ആ ഇവാലുവേഷനുകളെ എങ്ങനെ ബാധിക്കുന്നു എന്ന് മനസ്സിലാക്കാൻ കൂടുതൽ പ്രവർത്തനം ആവശ്യമാണ്, പ്രത്യേകിച്ചും, ദീർഘകാലാടിസ്ഥാനത്തിലുള്ള പെരുമാറ്റങ്ങളെ പിന്തുണയ്ക്കുന്ന ഹാർനസ്സുകൾ, മൂല്യനിർണ്ണയക്കാർ നിരീക്ഷിക്കേണ്ട അപ്രതീക്ഷിതമായ പെരുമാറ്റങ്ങളുടെ സ്വഭാവത്തെപ്പോലും മാറ്റിയേക്കാം എന്നതിനാലാണിത്.
2
ഏജന്റ് ഇവാലുവേഷനുകളിൽ നിന്ന് HAL⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഒരു അധിക ഉദാഹരണം നൽകുന്നു: CORE-Bench⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)-ൽ, ഹാർനെസ് Claude Code-ലേക്ക് മാറ്റിയത് അതേ ബെഞ്ച്മാർക്കിലെ അളന്ന പ്രകടനവും ചെലവ് പ്രൊഫൈലും മാറ്റി. മറ്റ് പൊതുവായ ഉദാഹരണങ്ങളിൽ SWE-agent⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), SeeAct⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), ScienceAgentBench⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), CORE-Bench⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), Inspect Cyber⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) എന്നിവ ഉൾപ്പെടുന്നു; ഓരോന്നും സ്കോർ ഏത് ഇന്റർഫേസിലോ ഹാർനെസിലോ നിന്നാണ് ലഭിച്ചതെന്ന് വായനക്കാരോട് പറയുന്നു.
3
രണ്ട് Sandbagging QA വേരിയന്റുകളിലും 100% ഉം തന്ത്രപരമായ ഡിസെപ്ഷൻ സാൻഡ്‌ബാഗിംഗ് ടാസ്കിൽ 99.6% ഉം സ്കോർ ചെയ്തത്.

വായന തുടരുക

എല്ലാം കാണുക

Safety and alignment in an era of long-horizon models

സുരക്ഷ2026 ജൂലൈ 20

Why teens deserve access to safe AI

സുരക്ഷ2026 ജൂലൈ 16

GPT-Red: ദൃഢതയ്ക്കായി സ്വയം മെച്ചപ്പെടുത്തൽ തുറക്കുന്നു

സുരക്ഷ2026 ജൂലൈ 15