ഡിപ്ലോയ്മെന്റ് സിമുലേറ്റ് ചെയ്ത് റിലീസിന് മുമ്പ് മോഡൽ പെരുമാറ്റം പ്രവചിക്കൽ
റിലീസിന് മുമ്പായി മോഡലിന്റെ അനഭിലഷണീയമായ പെരുമാറ്റം കൂടുതൽ കൃത്യമായി വിലയിരുത്തുന്നതിന് യഥാർത്ഥ സംഭാഷണ സന്ദർഭങ്ങൾ ഉപയോഗിക്കുന്നത്.
ഒരു പുതിയ മോഡൽ റിലീസ് ചെയ്യുന്നതിന് മുമ്പ്, അതിന് എന്ത് ചെയ്യാൻ കഴിയും എന്നത് മാത്രമല്ല, പുതിയ അപകടസാധ്യതകൾ സൃഷ്ടിക്കാൻ ഇടയുള്ള മേഖലകൾ ഉൾപ്പെടെ, യഥാർത്ഥ ഉപയോഗത്തിൽ അത് എങ്ങനെ പെരുമാറാൻ സാധ്യതയുണ്ട് എന്നും ലാബുകൾ മനസ്സിലാക്കേണ്ടതുണ്ട്. കഴിവുകൾ കൂടുന്നതിനനുസരിച്ച് ഇത് കൂടുതൽ പ്രധാനമാകുന്നു. ഡിപ്ലോയ്മെന്റിന് മുമ്പുള്ള ഞങ്ങളുടെ സുരക്ഷാ അവലോകനത്തിന്റെ ഭാഗമായി, മോഡൽ പെരുമാറ്റം മനസ്സിലാക്കാൻ ലക്ഷ്യമിട്ട മൂല്യനിർണയങ്ങൾ, റെഡ്-ടീമിംഗ്, മറ്റ് പരിശോധനകൾ എന്നിവ ഞങ്ങൾ പ്രയോജനപ്പെടുത്തുന്നു. മോഡലുകൾ ഡിപ്ലോയ് ചെയ്യുന്നതിന് മുമ്പ് തന്നെ അത് സിമുലേറ്റ് ചെയ്യാനുള്ള ഒരു രീതി ഞങ്ങൾ ഇപ്പോൾ ഉപയോഗിക്കാൻ തുടങ്ങിയിട്ടുണ്ട്. ഒരു കാൻഡിഡേറ്റ് മോഡൽ ഉപയോക്താക്കളിലേക്ക് എത്തുന്നതിന് മുമ്പ് അത് എങ്ങനെ പ്രവർത്തിക്കും എന്നതിന്റെ ഒരു ഡിപ്ലോയ്മെന്റ് പോലെയുള്ള പ്രിവ്യൂ നൽകിക്കൊണ്ട്, ഈ രീതി ഒരു പൂരക സൂചന കൂട്ടിച്ചേർക്കുന്നു.
ഭാവിയിലെ ഒരു ഡിപ്ലോയ്മെന്റ് നടക്കുന്നതിന് മുമ്പ് അതിനെ സിമുലേറ്റ് ചെയ്യാനുള്ള രീതിയാണ് ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ. ഒരു പുതിയ കാൻഡിഡേറ്റ് മോഡൽ ഉപയോഗിച്ച് മുൻ സംഭാഷണങ്ങൾ പ്രൈവസി സംരക്ഷിക്കുന്ന രീതിയിൽ വീണ്ടും പ്ലേ ചെയ്തുകൊണ്ടാണ് ഞങ്ങൾ ഇത് ചെയ്യുന്നത്. മോഡൽ റിലീസ് ചെയ്യുന്നതിന് മുൻപായി യഥാർത്ഥ സാഹചര്യങ്ങളിൽ പുതിയ മോഡൽ എങ്ങനെ പ്രതികരിക്കുന്നു എന്ന് പഠിക്കാൻ ഇത് ഞങ്ങളെ സഹായിക്കുന്നു, കൂടാതെ പുതിയതായി എന്തെങ്കിലും അനഭിലഷണീയമായ പെരുമാറ്റങ്ങൾ ഉണ്ടാകുന്നുണ്ടോയെന്നും അവ എത്രത്തോളം ആവർത്തിക്കാൻ സാധ്യതയുണ്ടെന്നും മനസ്സിലാക്കാനും ഇതിലൂടെ സാധിക്കും.
ഒന്നിലധികം GPT‑5‑സീരിസിലെ Thinking ഡിപ്ലോയ്മെന്റുകളിലുടനീളം, അനഭിലഷണീയമായ മോഡൽ പെരുമാറ്റ നിരക്കുകളെക്കുറിച്ചുള്ള ഞങ്ങളുടെ കണക്കുകൂട്ടലുകൾ മെച്ചപ്പെടുത്താനും, റിലീസിന് മുമ്പായി പുതിയ തരത്തിലുള്ള പൊരുത്തക്കേടുകൾ കണ്ടെത്താനും, മോഡലുകൾ പരിശോധിക്കപ്പെടുകയാണെന്ന് അവയ്ക്ക് തന്നെ തിരിച്ചറിയാൻ കഴിയുന്നതിനുള്ള സാധ്യത കുറയ്ക്കാനും ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ സഹായിച്ചു. സങ്കീർണ്ണമായ ഏജന്റിക് റോളൗട്ടുകളിലും ഞങ്ങൾ ഈ രീതി പ്രയോഗിച്ചു. ടൂളുകൾ ഉപയോഗിക്കുന്ന സങ്കീർണ്ണമായ ഏജന്റ് സജ്ജീകരണങ്ങളിലേക്ക് സാധാരണ ചാറ്റുകൾക്കപ്പുറം ഇതിനെ വ്യാപിപ്പിക്കാൻ കഴിയുമെന്നും, അതുപോലെ തന്നെ ഇന്റേണൽ മോഡൽ ഡിപ്ലോയ്മെന്റുകൾക്ക് മുമ്പുള്ള അപകടസാധ്യതകൾ വിലയിരുത്തുന്നതിനും ഇത് ഉപയോഗിക്കാമെന്നും ഇതിലൂടെ മനസ്സിലാക്കാൻ കഴിഞ്ഞു.
പരമ്പരാഗത മൂല്യനിർണയങ്ങളിലെ ബ്ലൈൻഡ് സ്പോട്ടുകൾ തിരിച്ചറിയാനും പ്രതിവിധികളും ഡിപ്ലോയ്മെന്റ് തീരുമാനങ്ങളും അറിയിക്കാനും മോഡൽ വികസനത്തിനിടെ ഡിപ്ലോയ്മെന്റ് സിമുലേഷനിൽ നിന്നുള്ള ഉൾക്കാഴ്ചകൾ ഞങ്ങൾ ഇതിനകം ഉപയോഗിച്ചിട്ടുണ്ട്. ഈ പൈപ്പ്ലൈൻ പ്രവർത്തിപ്പിക്കുന്നത് ഞങ്ങൾ കൂടുതൽ എളുപ്പമാക്കുന്നതിനാൽ, ഭാവിയിലെ മോഡൽ വികസന പ്രക്രിയയിൽ ഇത് കൂടുതൽ വലിയൊരു പങ്ക് വഹിക്കുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു.
മേഖലയിലുടനീളം ഉപയോഗിക്കുന്ന ഡിപ്ലോയ്മെന്റിന് മുമ്പുള്ള വിലയിരുത്തലുകളിൽ പൊതുവെ ഉൾപ്പെടുന്നത്, ബുദ്ധിമുട്ടുള്ളതോ, അതീവ ഗൗരവമുള്ളതോ, അല്ലെങ്കിൽ പ്രതികൂലമായതോ ആകാൻ ബോധപൂർവ്വം തിരഞ്ഞെടുക്കപ്പെട്ട സിന്തറ്റിക്, മാനുവലായി എഴുതിയ, അല്ലെങ്കിൽ പ്രൊഡക്ഷൻ പ്രോംപ്റ്റുകളുടെ ഒരു മിശ്രിതമാണ്. ഈ വിലയിരുത്തലുകൾക്ക് പൊതുവെ പരസ്പരം ബന്ധപ്പെട്ടിരിക്കുന്ന രണ്ട് ലക്ഷ്യങ്ങളാണുള്ളത്: ഡിപ്ലോയ്മെന്റ് ട്രാഫിക്കിൽ സംഭവിക്കാൻ വളരെ ചെറിയ സാധ്യത മാത്രമുള്ള സാഹചര്യങ്ങളിൽ സ്ട്രെസ്സ്-ടെസ്റ്റ് ചെയ്യുമ്പോൾ മോഡൽ എങ്ങനെ പ്രതികരിക്കുന്നു എന്ന് വിലയിരുത്തുക, ഒപ്പം പുതിയ അനഭിലഷണീയമായ പെരുമാറ്റങ്ങൾ കണ്ടെത്തുകയും ഡിപ്ലോയ്മെന്റ് സമയത്ത് അവ എത്രത്തോളം ആവർത്തിക്കാൻ സാധ്യതയുണ്ടെന്ന് പ്രവചിക്കുകയും ചെയ്യുന്നതുൾപ്പെടെ, മോഡലിന്റെ അനഭിലഷണീയമായ പെരുമാറ്റങ്ങളെക്കുറിച്ച് പൊതുവായ ഒരു ധാരണ നേടുക എന്നിവയാണവ.
ആദ്യ ലക്ഷ്യത്തിന് പരമ്പരാഗത മൂല്യനിർണയങ്ങൾ നിർണായകമായി തുടരുന്നുണ്ടെങ്കിലും, രണ്ടാമത്തെ ലക്ഷ്യവുമായി ബന്ധപ്പെട്ട് നോൺ-ടെയിൽ അപകടസാധ്യതകൾക്കുള്ള ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ ഒരു വലിയ മുന്നേറ്റത്തെയാണ് പ്രതിനിധീകരിക്കുന്നത് (ഞങ്ങളുടെ പരീക്ഷണങ്ങളിൽ, 200,000 സന്ദേശങ്ങളിൽ 1-ൽ താഴെ തവണ മാത്രം സംഭവിക്കുന്ന പെരുമാറ്റങ്ങൾ അളക്കാൻ ഞങ്ങളുടെ സമീപനത്തിന് കഴിയുമെന്ന് പ്രതീക്ഷിക്കാനാവില്ല). പരമ്പരാഗത മൂല്യനിർണയങ്ങളിലെ ചില പ്രധാന വെല്ലുവിളികളെ മറികടക്കുന്നതിലാണ് ഡിപ്ലോയ്മെന്റ് സിമുലേഷന്റെ ശക്തി:
- കവറേജ്: സാധ്യമായ എല്ലാ തരത്തിലുള്ള അനഭിലഷണീയ മോഡൽ പെരുമാറ്റങ്ങളെയും മൂല്യനിർണയ പ്രോംപ്റ്റുകൾ ഉൾക്കൊള്ളുമെന്ന് ഉൾക്കൊള്ളുമെന്ന് ഉറപ്പുനൽകുക ബുദ്ധിമുട്ടാണ്. പുതിയ തരത്തിലുള്ള അനഭിലഷണീയ പെരുമാറ്റങ്ങൾ അളക്കാൻ പുതിയ മൂല്യനിർണയങ്ങൾ സൃഷ്ടിക്കുകയും കൂടാതെ ഏതൊക്കെ ദോഷങ്ങളാണ് അളക്കേണ്ടതെന്ന് അറിഞ്ഞിരിക്കുകയും വേണം. ഇതിന് കൂടുതൽ സമയവും അധ്വാനവും ആവശ്യമായി വന്നേക്കാം, മാത്രമല്ല കാലക്രമേണ വിലയിരുത്തലുകൾ സാച്ചുറേറ്റ് ആയേക്കാം.
- തിരഞ്ഞെടുപ്പ് പക്ഷപാതങ്ങൾ: പരമ്പരാഗത മൂല്യനിർണയങ്ങൾ സാധാരണയായി നിർദ്ദിഷ്ട അനഭിലഷണീയ മോഡൽ പെരുമാറ്റങ്ങളെ മനസ്സിൽ കണ്ട് നിർമ്മിച്ചതാണ്; മുമ്പ് സംഭവിച്ചിട്ടുള്ള സന്ദർഭങ്ങളിലേക്കുള്ള പക്ഷപാതം സൃഷ്ടിക്കുന്ന രീതിയിലാണ് അവ തിരഞ്ഞെടുക്കുന്നത്. ഇത് മുഴുവൻ ഡിപ്ലോയ്മെന്റ് വിതരണത്തിൽ ഇത്തരം പെരുമാറ്റങ്ങളുടെ സംഭവനിരക്കിനെക്കുറിച്ചുള്ള അവയുടെ കണക്കുകൾ കുറച്ച് മാത്രമേ വിവരപ്രദമാക്കൂ.
- മോഡലുകൾക്ക് ടെസ്റ്റുകളായി തിരിച്ചറിയാൻ കഴിയുക: മോഡലുകൾ തങ്ങൾ പരിശോധിക്കപ്പെടുകയാണെന്ന് തിരിച്ചറിയാൻ കൂടുതലായി പ്രാപ്തരാകുന്നുണ്ട്, ഇത് അവയുടെ പെരുമാറ്റത്തെയും സുരക്ഷയെക്കുറിച്ചുള്ള ഞങ്ങളുടെ തുടർന്നുള്ള വിലയിരുത്തലുകളെയും വികലമാക്കിയേക്കാം.OpenAI-യിൽ ഞങ്ങൾ ഉപയോഗിക്കുന്ന പല പരമ്പരാഗത മൂല്യനിർണയങ്ങളും പ്രൊഡക്ഷൻ ട്രാഫിക്കിൽ നിന്നു തന്നെ എടുത്തവയായതിനാൽ ഈ പ്രശ്നം അവയ്ക്ക് ഇല്ലെങ്കിലും, മേഖലയിലുടനീളം ഉപയോഗിക്കുന്ന നിരവധി പരമ്പരാഗത മൂല്യനിർണയങ്ങളിൽ ഇതൊരു പൊതുവായ ആശങ്കയാണ്.
ഡിപ്ലോയ്മെന്റ് സിമുലേഷന്റെ പ്രധാന സാങ്കേതിക വിദ്യ ലളിതമാണ്: ഡിപ്ലോയ്മെന്റിൽ നിന്നുള്ള സമീപകാല സംഭാഷണങ്ങൾ എടുക്കുന്നു, പഴയ മോഡലിൽ നിന്നുള്ള അസൽ അസിസ്റ്റന്റ് പ്രതികരണം നീക്കം ചെയ്യുന്നു, തുടർന്ന് റിലീസ് ചെയ്യാനിരിക്കുന്ന കാൻഡിഡേറ്റ് മോഡൽ ഉപയോഗിച്ച് അത് വീണ്ടും സൃഷ്ടിക്കുന്നു. പുതിയ ഫെയ്ലിയർ മോഡുകൾ അന്വേഷിച്ച് ഞങ്ങൾ ഈ കംപ്ലീഷനുകളെ വിലയിരുത്തുന്നു, കൂടാതെ ഈ ഡിപ്ലോയ്മെന്റ് പോലെയുള്ള ഡിസ്ട്രിബ്യൂഷനിലെ ഫ്രീക്വൻസിയെ അടിസ്ഥാനമാക്കി ഡിപ്ലോയ്മെന്റ് സമയത്തുണ്ടാകാൻ സാധ്യതയുള്ള അനഭിലഷണീയമായ പെരുമാറ്റങ്ങളുടെ ഫ്രീക്വൻസി കണക്കാക്കുകയും ചെയ്യുന്നു. റിലീസിന് ശേഷം യഥാർത്ഥ ഡിപ്ലോയ്മെന്റ് ട്രാഫിക്കിലും ഇതേ അളവെടുപ്പുകൾ നടത്താൻ ഞങ്ങൾക്ക് കഴിയും, ഇത് ഡിപ്ലോയ്മെന്റിന് മുമ്പുള്ള ഞങ്ങളുടെ പ്രവചനങ്ങൾ ശരിയാണോ എന്ന് ഉറപ്പുവരുത്താൻ ഞങ്ങളെ സഹായിക്കുന്നു.
ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ മുകളിൽ സൂചിപ്പിച്ച മൂന്ന് പരിമിതികളെ ഗണ്യമായി ലഘൂകരിക്കുന്നു: സമീപകാല ഉപയോഗത്തെ പ്രതിനിധീകരിക്കുന്ന ഇവാല്യുവേഷൻ പ്രോംപ്റ്റുകളുടെ വിതരണം ഉപയോഗിക്കുന്നതിലൂടെ സാമ്പിളിംഗ് ബയസ് പരിഹരിക്കപ്പെടുന്നു. പ്രതിനിധാന സ്വഭാവമുള്ള പ്രോംപ്റ്റുകൾ ഉപയോഗിച്ചുള്ള ഡിപ്ലോയ്മെന്റ് സിമുലേഷന് കവറേജിനെക്കുറിച്ചുള്ള ആശങ്കകളും ലഘൂകരിക്കാനാകും: കൂടുതൽ ട്രാഫിക് സിമുലേറ്റ് ചെയ്യുന്നതിലൂടെ, മോഡലിന്റെ അനഭിലഷണീയമായ പെരുമാറ്റങ്ങളുടെ മികച്ച കവറേജ് നമുക്ക് ലഭിക്കുന്നു. കമ്പ്യൂട്ടിംഗ് ശേഷിയും കവറേജും തമ്മിലുള്ള ഈ സന്തുലിതാവസ്ഥ പ്രധാനമാണ്, കാരണം കൂടുതൽ മൂല്യനിർണ്ണയങ്ങൾ നിർമ്മിക്കാൻ ആവശ്യമായ മനുഷ്യപ്രയത്നത്തിന് പകരമായി, റിസ്ക് അസെസ്മെന്റിന്റെ ഗുണനിലവാരം കമ്പ്യൂട്ടിംഗ് ശേഷിക്കനുസരിച്ച് വർദ്ധിപ്പിക്കാൻ ഇത് സഹായിക്കുന്നു. കൂടാതെ, ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ വഴി ലഭിക്കുന്ന സംഭാഷണങ്ങളും യഥാർത്ഥ ഡിപ്ലോയ്മെന്റ് ട്രാഫിക്കും തമ്മിൽ വേർതിരിച്ചറിയാൻ മോഡലുകൾക്ക് സാധിക്കുന്നതായി തോന്നുന്നില്ല.
ചിത്രം 1: ഞങ്ങളുടെ ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ പൈപ്പ്ലൈനിന്റെ അവലോകനം
ഏരിയ | പരമ്പരാഗത മൂല്യനിർണയങ്ങൾ | ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ |
കവറേജ് | നമുക്ക് കവറേജ് ഉണ്ടെന്ന് ഉറപ്പാക്കാൻ ആഗ്രഹിക്കുന്ന, കുറഞ്ഞ പ്രിവലൻസ് ഉള്ളതാണെങ്കിലും ഉയർന്ന സെവരിറ്റി ഉള്ളതുമായ റിസ്കുകൾക്ക് ഇത് കൂടുതൽ അനുയോജ്യമാണ് | ഡിപ്ലോയ്മെന്റ് ട്രാഫിക്കിൽ നാം കാണാൻ സാധ്യതയുള്ള റിസ്കുകളുടെ സ്പെക്ട്രം മനസ്സിലാക്കാൻ ഇത് കൂടുതൽ അനുയോജ്യമാണ് |
പ്രതിനിധാനം / പക്ഷപാതം | വിന്യാസത്തിൽ വളരെ കുറഞ്ഞ വ്യാപനമുള്ള പെരുമാറ്റങ്ങൾക്ക് പോലും, ലക്ഷ്യമിട്ട ഭൂതകാല അല്ലെങ്കിൽ പ്രവചിച്ച അപകടസാധ്യതകൾ വിലയിരുത്തുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു | നിലവിലെ വിന്യാസ ട്രാഫിക്കിൽ ഒരു നിശ്ചിത വ്യാപനത്തിന് മുകളിൽ സംഭവിക്കുന്ന അപകടസാധ്യതകളുടെ പ്രതിനിധി |
മൂല്യനിർണ്ണയ അവബോധം | ഡിപ്ലോയ്മെന്റ് ഡാറ്റ ഉപയോഗിച്ച് മൂല്യനിർണ്ണയം സൃഷ്ടിച്ചിട്ടില്ലെങ്കിൽ, പ്രകടമാകാൻ സാധ്യതയുള്ള ടെസ്റ്റ് ക്യൂകൾ (ഉദാഹരണത്തിന്, സിന്തറ്റിക് ഡാറ്റ ഉപയോഗിച്ച്). | ഡിപ്ലോയ്മെന്റ്-ലൈക്ക് കോൺടെക്സ്റ്റ് മൂല്യനിർണ്ണ അവയർനെസ്സിനെ ഗണ്യമായി ലഘൂകരിക്കുന്നതായി കാണപ്പെടുന്നു |
പരിശ്രമം | കസ്റ്റം പ്രോംപ്റ്റ് ഡിസ്ട്രിബ്യൂഷനുകൾക്കും സെറ്റപ്പുകൾക്കും ഗണ്യമായി കൂടുതൽ മാനുവൽ എഫർട്ട് ആവശ്യമാണ് | ഇതിന് ഒറ്റത്തവണയുള്ള ഇൻഫ്രാസ്ട്രക്ചർ ചിലവ് ആവശ്യമാണ്, അതിനുശേഷം ഡിപ്ലോയ്മെന്റിൽ നിന്നുള്ള പ്രിഫിക്സുകളും അറിയപ്പെടുന്ന അഭികാമ്യമല്ലാത്ത ബിഹേവിയറുകളിൽ നിന്നുള്ള ഗ്രേഡറുകളും പുനരുപയോഗിക്കുന്നു |
പരമ്പരാഗത മൂല്യനിർണയങ്ങളും ഡിപ്ലോയ്മെന്റ് സിമുലേഷനും തമ്മിലുള്ള ഉയർന്ന തലത്തിലുള്ള താരതമ്യം
ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ വിലയിരുത്തുന്നതിനായി, GPT‑5.4 Thinking-ൽ ഡിപ്ലോയ്മെന്റ് സമയത്ത് ഉണ്ടാകാനിടയുള്ള 20 തരം അനഭിലഷണീയമായ പെരുമാറ്റങ്ങളുടെ ആവൃത്തിയെക്കുറിച്ചുള്ള പ്രവചനങ്ങൾ ഞങ്ങൾ മുൻകൂട്ടി രജിസ്റ്റർ ചെയ്തു. GPT‑5 സീരീസിലെ തിങ്കിംഗ് മോഡലുകളുടെ മറ്റ് ഡിപ്ലോയ്മെന്റുകളിലുടനീളം ഞങ്ങൾ റെട്രോസ്പെക്റ്റീവ് പഠനങ്ങളും നടത്തി. സിസ്റ്റം കാർഡുകളിൽ ഞങ്ങൾ റിപ്പോർട്ട് ചെയ്തുവരുന്ന മിസ്അലൈൻമെന്റ്, അനുവദനീയമല്ലാത്ത ഉള്ളടക്ക വിഭാഗങ്ങൾ എന്നിവ ഞങ്ങൾ വിശകലനം ചെയ്യുന്ന മോഡൽ പെരുമാറ്റങ്ങളിൽ ഉൾപ്പെടുന്നു (ഉദാഹരണത്തിന്, ടൂളുകളെക്കുറിച്ച് മോഡൽ കള്ളം പറയുകയോ അനുവദനീയമല്ലാത്ത ലൈംഗിക ഉള്ളടക്കം നൽകുകയോ ചെയ്യുന്നത്). ഈ ഫലങ്ങൾക്കായി ഞങ്ങൾ 20 വിഭാഗം അനഭിലഷണീയമായ മോഡൽ പെരുമാറ്റങ്ങൾ മാത്രമേ ട്രാക്ക് ചെയ്യുന്നുള്ളൂവെങ്കിലും, അതുപോലെ പുതിയ മിസ്അലൈൻഡ് പെരുമാറ്റങ്ങൾ മാത്രമേ പരിശോധിക്കുന്നുള്ളൂവെങ്കിലും, ഡിപ്ലോയ്മെന്റ് സമയത്തെ ഏതൊരു മോഡൽ സവിശേഷതയെയും സിമുലേറ്റ് ചെയ്യാൻ പ്രയോഗിക്കാവുന്ന ഒരു പൊതു സാങ്കേതികവിദ്യയാണ് ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ.
ഞങ്ങൾ ഉപയോഗിച്ച പ്രൊഡക്ഷൻ ട്രാഫിക്കും GPT‑5 സീരീസിലെ Thinking മോഡലുകളിൽ നിന്നുള്ളതായിരുന്നു. ഞങ്ങളുടെ മൂല്യനിർണ്ണയങ്ങൾ നടത്തുന്നതിന് മുൻപായി, അക്കൗണ്ടുമായി ബന്ധിപ്പിച്ചിട്ടുള്ള ഐഡന്റിഫയറുകളും വ്യക്തികളെ തിരിച്ചറിയാൻ സഹായിക്കുന്ന മറ്റ് വിവരങ്ങളും ഞങ്ങൾ സ്വയമേവ നീക്കം ചെയ്തു. ഞങ്ങളുടെ പ്രൈവസി പോളിസി അനുസരിച്ച്, മോഡൽ മെച്ചപ്പെടുത്തലുകൾക്കായി സ്വന്തം ഡാറ്റ ഉപയോഗിക്കാൻ അനുവദിക്കുന്ന ഉപയോക്താക്കളുടെ ChatGPT ട്രാഫിക് മാത്രമേ ഞങ്ങൾ വിശകലനം ചെയ്തുള്ളൂ. ഈ മൂല്യനിർണ്ണയങ്ങളിൽ നിന്നുള്ള മൊത്തത്തിലുള്ള കണ്ടെത്തലുകൾ മാത്രമേ ഞങ്ങൾ റിപ്പോർട്ട് ചെയ്യുന്നുള്ളൂ. 2025 ഓഗസ്റ്റ് മുതൽ 2026 മാർച്ച് വരെയുള്ള കാലയളവിൽ, GPT‑5 Thinking മുതൽ GPT‑5.4 വരെയുള്ള ഡിപ്ലോയ്മെന്റുകളിലുടനീളമായി, വ്യക്തികളെ തിരിച്ചറിയാനുള്ള വിവരങ്ങൾ ഒഴിവാക്കിയ ഏകദേശം 1.3 ദശലക്ഷം സംഭാഷണങ്ങൾ ഞങ്ങൾ മൊത്തത്തിൽ വിശകലനം ചെയ്തു.
ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ വഴി ലഭ്യമാകുന്ന പ്രീ-ഡിപ്ലോയ്മെന്റ് റിസ്ക് അസെസ്മെന്റിന്റെ ഗുണനിലവാരം ഞങ്ങൾ പ്രധാനമായും മൂന്ന് രീതികളിലാണ് വിലയിരുത്തുന്നത്:
- ടാക്സോണമി കവറേജ്: ഞങ്ങളുടെ പ്രാരംഭ ബാഡ് ബിഹേവിയർ ടാക്സോണമിയിൽ ഉൾപ്പെടാത്ത പ്രധാനപ്പെട്ട ഏതെങ്കിലും മിസ്അലൈൻഡ് പെരുമാറ്റങ്ങൾ പോസ്റ്റ്-റിലീസ് ഓഡിറ്റിംഗിലൂടെ കണ്ടെത്താനായോ?
- ദിശാപരമായ കൃത്യത: ഇതിനകം അറിയാവുന്ന പെരുമാറ്റങ്ങളുടെ ഡിപ്ലോയ്മെന്റ് പ്രിവലൻസ് വർദ്ധിക്കുമോ അതോ കുറയുമോ എന്ന് സിമുലേഷൻ കൃത്യമായി പ്രവചിച്ചോ?
- നിരക്ക് കാലിബ്രേഷൻ: ഞങ്ങളുടെ പ്രീ-ഡിപ്ലോയ്മെന്റ് എസ്റ്റിമേറ്റുകൾ പിന്നീട് ഡിപ്ലോയ്മെന്റിൽ ഞങ്ങൾ നിരീക്ഷിച്ച റേറ്റുകളുമായി അടുത്തുനിൽക്കുന്നതായിരുന്നോ? മികച്ച റേറ്റ് കാലിബ്രേഷൻ കൈവരിക്കുന്നതിന് ഡയറക്ഷണൽ അക്യുറസിക്കപ്പുറം കൂടുതൽ കാര്യങ്ങൾ ആവശ്യമാണ്, അതിനാൽ ഇത് സാധ്യമായ ഏറ്റവും ഉയർന്ന ഗുണനിലവാര മാനദണ്ഡമായി മാറുന്നു.
ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ സമയത്ത് തങ്ങൾ ഒരു ഇവാല്യുവേഷനിലാണെന്ന് മോഡലുകൾക്ക് എത്രത്തോളം തിരിച്ചറിയാൻ കഴിയുമെന്ന് ഞങ്ങൾ അളക്കുന്നു. കൂടാതെ, വിവിധ തരത്തിലുള്ള ഡിപ്ലോയ്മെന്റ് ട്രാഫിക്കുകളോടും വെല്ലുവിളികൾ നിറഞ്ഞ ടൂൾ യൂസ് സെറ്റിംഗ്സുകളോടും ഈ രീതി എത്രത്തോളം റോബസ്റ്റ് ആണെന്നും ഞങ്ങൾ പരിശോധിക്കുന്നു.
GPT‑5 സീരീസിലെ Thinking ഡിപ്ലോയ്മെന്റുകളിലുടനീളം, യഥാർത്ഥ റിസ്ക് റേറ്റ് നിർണ്ണയിക്കുന്നതിൽ ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ ചലഞ്ചിംഗ്-പ്രോംപ്റ്റ് ബേസ്ലൈനുകളെക്കാൾ മികച്ച പ്രകടനം കാഴ്ചവെക്കുകയും, റിലീസിന് മുൻപായി കാൽക്കുലേറ്റർ ഹാക്കിംഗ് കണ്ടെത്താൻ ഇതിന് സാധിക്കുകയും ചെയ്തു. കൂടാതെ, മോഡലിനെ സംബന്ധിച്ചിടത്തോളം ഇത് യഥാർത്ഥ ഡിപ്ലോയ്മെന്റിൽ നിന്ന് വേർതിരിച്ചറിയാൻ കഴിയാത്തതാണെന്നും കാണപ്പെട്ടു.
ഞങ്ങളുടെ പ്രവചനങ്ങളുടെ അവലോകനം. GPT‑5 സീരീസിലെ Thinking മോഡൽ ഡിപ്ലോയ്മെന്റുകൾക്കായുള്ള എല്ലാ പ്രവചനങ്ങളുടെയും വിഷ്വലൈസേഷനായി, ഫിഗർ 2 കാണുക. GPT‑5.4 Thinking-നായുള്ള പ്രവചനങ്ങൾ പ്രീ-രജിസ്റ്റർ ചെയ്തവയായിരുന്നു, അതേസമയം മറ്റുള്ളവ റെട്രോആക്റ്റീവ് പ്രവചനങ്ങളായിരുന്നു. മൊത്തത്തിൽ, ഞങ്ങളുടെ പ്രവചനങ്ങൾക്ക് 1.5x മീഡിയൻ മൾട്ടിപ്ലിക്കേറ്റീവ് എറർ ഉണ്ടായിരുന്നു (ഉദാഹരണത്തിന്, അനഭിലഷണീയമായ പെരുമാറ്റത്തിന്റെ റേറ്റ് 100k-ൽ 10 ആണെങ്കിൽ, ഇത് 100k-ൽ 15 അല്ലെങ്കിൽ 6.67 എന്ന റേറ്റ് എസ്റ്റിമേറ്റ് ചെയ്യുന്നതിന് തുല്യമായിരിക്കും). ഞങ്ങളുടെ രീതിയുടെ ടെയിൽ എററുകൾ ഏകദേശം 10 മടങ്ങ് വലുതായിരിക്കാമെങ്കിലും, താഴെ ചർച്ച ചെയ്യുന്നതുപോലെ ഞങ്ങളുടെ സിമുലേഷൻ പൈപ്പ്ലൈനിലെ കൂടുതൽ മെച്ചപ്പെടുത്തലുകളിലൂടെ അവ ഗണ്യമായി കുറയ്ക്കാനാകുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു.
ചിത്രം 2. മുൻകാല ഡിപ്ലോയ്മെന്റ് ഡാറ്റയെ അടിസ്ഥാനമാക്കി ഡിപ്ലോയ്മെന്റ് സമയത്തുണ്ടാകുന്ന അനഭിലഷണീയമായ പെരുമാറ്റങ്ങളുടെ ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ ഫ്രീക്വൻസി പ്രവചനങ്ങൾ. 5.1 → 5 എന്ന സൂചകം വ്യക്തമാക്കുന്നത്, ഞങ്ങൾ GPT‑5 ൽ നിന്നുള്ള പ്രിഫിക്സുകൾ GPT‑5.1 ഉപയോഗിച്ച് റീസാമ്പിൾ ചെയ്യുന്നു എന്നാണ്, അതായത് GPT‑5 ൽ നിന്നുള്ള ഡാറ്റയുടെ അടിസ്ഥാനത്തിൽ GPT‑5.1 ന്റെ ഡിപ്ലോയ്മെന്റ് സിമുലേറ്റ് ചെയ്യുന്നു. ഞങ്ങൾ മുമ്പ്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ചർച്ച ചെയ്തതുപോലെ, GPT‑5.1 ൽ കണ്ട ഏറ്റവും ഉയർന്ന നിരക്കിലുള്ള തെറ്റായ പെരുമാറ്റം "calculator hacking" ആയിരുന്നു.
ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ പ്രവചനങ്ങളെ ബേസ്ലൈനുകളുമായി താരതമ്യം ചെയ്യുന്നു. പ്രീ-ഡിപ്ലോയ്മെന്റ് റിസ്ക് അസെസ്മെന്റുകൾക്കായി കൃത്യമായി എസ്റ്റിമേറ്റ് ചെയ്യേണ്ട ഏറ്റവും പ്രധാനപ്പെട്ട വിഭാഗങ്ങൾ, മോഡൽ ഡിപ്ലോയ്മെന്റിന് ശേഷം ഇൻസിഡൻസിൽ വലിയ മാറ്റങ്ങൾ (ഉദാഹരണത്തിന്, >= 1.5x) ഉണ്ടാകുന്നവയാണ്. ഈ സബ്സെറ്റിൽ, ഒരു മോഡൽ ഡിപ്ലോയ്മെന്റിനൊപ്പം ഒരു പ്രത്യേക അനഭിലഷണീയമായ പെരുമാറ്റത്തിന്റെ പ്രിവലൻസ് വർദ്ധിക്കുമോ അതോ കുറയുമോ എന്ന് പ്രവചിക്കുന്നതിലും (ഫിഗർ 3, ഇടത്), ഡിപ്ലോയ്മെന്റ് സമയത്തെ അതിൻ്റെ കൃത്യമായ ഇൻസിഡൻസ് എസ്റ്റിമേറ്റ് ചെയ്യുന്നതിലും (ഫിഗർ 3, വലത്) ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ ബേസ്ലൈനുകളേക്കാൾ വളരെ മികച്ച പ്രകടനം കാഴ്ചവെക്കുന്നു. ഞങ്ങൾ പ്രധാനമായും രണ്ട് ബേസ്ലൈനുകളാണ് ഉപയോഗിക്കുന്നത്: നിലവിൽ സിസ്റ്റം കാർഡുകൾക്കും ലോഞ്ച് തീരുമാനങ്ങൾക്കുമായി ഞങ്ങൾ ഉപയോഗിക്കുന്ന ചലഞ്ചിംഗ് പ്രോംപ്റ്റ്സ് ബേസ്ലൈൻ, ഒപ്പം പുതിയ മോഡലിനായുള്ള എസ്റ്റിമേറ്റുകളായി മുൻ ഡിപ്ലോയ്മെന്റിൽ നിന്നുള്ള റേറ്റുകൾ ഉപയോഗിക്കുന്ന ഒരു നേവ് ബേസ്ലൈൻ.
ചിത്രം 3. സ്റ്റാറ്റിക് ഇവാലുകളെക്കാൾ മികച്ച രീതിയിൽ, ഇൻസിഡൻസ് മാറ്റങ്ങളുടെ ദിശയും (ഇടത്ത്) കൃത്യമായ പ്രൊഡക്ഷൻ റേറ്റുകളും (വലത്ത്) ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ പ്രവചിക്കുന്നു.
ഞങ്ങളുടെ പൈപ്പ്ലൈനിലെ സിമുലേഷൻ പിശകിന്റെ ഉറവിടങ്ങൾ. ഞങ്ങളുടെ പൈപ്പ്ലൈനിലെ നിലവിലെ എറർ ഉറവിടങ്ങളും ഞങ്ങൾ പഠനവിധേയമാക്കി. പ്രത്യേകിച്ചും, വലിയ ടെയിൽ എററുകൾ ഡിപ്ലോയ്മെന്റ് തീരുമാനങ്ങൾ എടുക്കുന്നതിൽ പൈപ്പ്ലൈനിന്റെ വിശ്വാസ്യത കുറയ്ക്കുന്നു: ഉദാഹരണത്തിന്, ഒരു നിശ്ചിത തരത്തിലുള്ള അനഭിലഷണീയമായ പെരുമാറ്റത്തിൽ പ്രവചിക്കപ്പെട്ട വലിയൊരു വർദ്ധനവ് കാണുമ്പോൾ, പൈപ്പ്ലൈനിൽ ഇടയ്ക്കെങ്കിലും വലിയ എററുകൾ ഉണ്ടാകാറുണ്ടെന്ന് അറിയാമെങ്കിൽ, ഇതൊരു വിശ്വസനീയമായ എസ്റ്റിമേറ്റാണോ അതോ പൈപ്പ്ലൈനിന്റെ ഒരു ആർട്ടിഫാക്റ്റ് ആണോ എന്ന സംശയം അത് ഉയർത്തുന്നു. സാധ്യമായ എററുകൾക്ക് പ്രധാനമായും രണ്ട് ഉറവിടങ്ങളാണുള്ളത്:
- റീസാമ്പ്ലിംഗ് പരിസ്ഥിതി ഫിഡെലിറ്റി പിശക്: പ്രൊഡക്ഷൻ റേറ്റുകൾ കൃത്യമായി എസ്റ്റിമേറ്റ് ചെയ്യുന്നതിന്, ഞങ്ങളുടെ സിമുലേഷൻ പൈപ്പ്ലൈൻ കഴിയുന്നത്ര യാഥാർത്ഥ്യത്തോട് അടുത്തുനിൽക്കുന്നതായിരിക്കണം. ഇതൊരു പരിധിവരെ ഒരു എഞ്ചിനീയറിംഗ് പ്രോബ്ലം ആണ് (പ്രൊഡക്ഷൻ ട്രാഫിക്കിനായി ഉപയോഗിക്കുന്ന അതേ പൈപ്പ്ലൈനുകൾ ഉപയോഗിച്ച് മോഡലിൽ നിന്ന് സാമ്പിൾ ചെയ്യുന്നത്), കൂടാതെ നിരന്തരം മാറിക്കൊണ്ടിരിക്കുന്ന എക്സ്റ്റേണൽ റിസോഴ്സുകളിലേക്ക് (ഉദാഹരണത്തിന്, വെബ് സെർച്ചുകൾ അല്ലെങ്കിൽ ലോക്കൽ ഫയലുകളുമായി സംവദിക്കുന്നത്) റീഡ്/റൈറ്റ് ആക്സസ് ആവശ്യമുള്ള ടൂളുകളെ സംബന്ധിച്ചിടത്തോളം ഇതൊരു രസകരമായ വെല്ലുവിളിയുമാണ്. ഒരു യഥാർത്ഥ ഡിപ്ലോയ്മെന്റിൽ നിന്നും അതിന്റെ സിമുലേഷനിൽ നിന്നുമുള്ള പ്രവചനങ്ങൾ താരതമ്യം ചെയ്യുന്നതിലൂടെ (അതായത്, ഇതിനകം ഡിപ്ലോയ് ചെയ്ത മോഡലിന്റെ ഡിപ്ലോയ്മെന്റ് സിമുലേറ്റ് ചെയ്യുന്നത്) നമുക്ക് സിമുലേഷൻ ഫിഡെലിറ്റി എറർ വേർതിരിച്ചറിയാൻ കഴിയും.
- പ്രോംപ്റ്റ് വിതരണ ഷിഫ്റ്റ് പിശക്: ഡിപ്ലോയ്മെന്റ് സിമുലേഷനുമായി ബന്ധപ്പെട്ട ഒരു പ്രധാന ആശങ്കയെന്തെന്നാൽ, ഏതൊരു മോഡലിന്റെയും ഡിപ്ലോയ്മെന്റ് ഇൻപുട്ടുകളിൽ ഒരു ഡിസ്ട്രിബ്യൂഷണൽ ഷിഫ്റ്റിന് കാരണമാകും എന്നതാണ്, പ്രത്യേകിച്ചും ഉപയോക്താക്കൾ പുതിയ മോഡൽ അഫോർഡൻസുകളുമായി പൊരുത്തപ്പെടുകയാണെങ്കിൽ. സമീപകാല പ്രോംപ്റ്റുകൾ ഉപയോഗിച്ച് ഡിപ്ലോയ്മെന്റ് സിമുലേറ്റ് ചെയ്യുമ്പോൾ ലഭിക്കുന്ന എസ്റ്റിമേറ്റുകളും, റിയലൈസ്ഡ് ഡിപ്ലോയ്മെന്റിൽ നിന്നുള്ള പ്രോംപ്റ്റുകൾ ഉപയോഗിക്കുമ്പോഴുള്ള എസ്റ്റിമേറ്റുകളും തമ്മിൽ താരതമ്യം ചെയ്തുകൊണ്ടാണ് ഞങ്ങൾ പ്രോംപ്റ്റ് ഡിസ്ട്രിബ്യൂഷൻ എറർ വേർതിരിച്ചറിയുന്നത്.
ഫിഗർ 4-ൽ കാണുന്നതുപോലെ, ഞങ്ങളുടെ പൈപ്പ്ലൈനിലെ എററിന്റെ വലിയൊരു ഭാഗവും –പ്രത്യേകിച്ച് ടെയിൽ എററുകളുടെ കാര്യത്തിൽ–നിലവിൽ സിമുലേഷൻ ഫിഡെലിറ്റി മൂലമാണെന്ന് ഞങ്ങൾ കണ്ടെത്തുന്നു. പ്രോംപ്റ്റ് ഡിസ്ട്രിബ്യൂഷൻ ഷിഫ്റ്റ് കുറയ്ക്കുന്നതിനേക്കാൾ സിമുലേഷൻ ഫിഡെലിറ്റി മെച്ചപ്പെടുത്തുന്നത് പൊതുവെ എളുപ്പമായിരിക്കുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നതിനാൽ, ഇതൊരു ശുഭവാർത്തയാണ്. മുൻ ഡിപ്ലോയ്മെന്റിൽ നിന്നുള്ള ഏറ്റവും പുതിയ ഡാറ്റ ഉപയോഗിക്കുന്നതിലൂടെ പ്രോംപ്റ്റ് ഡിസ്ട്രിബ്യൂഷൻ ഷിഫ്റ്റ് എറർ കുറയ്ക്കാനാകുമെന്നും ഞങ്ങൾ കണ്ടെത്തുന്നു. കൂടുതൽ വിവരങ്ങൾ റിസർച്ച് പേപ്പറിൽ ലഭ്യമാണ്.
ചിത്രം 4: ഞങ്ങളുടെ എസ്റ്റിമേറ്റുകളിലെ എററിന്റെ ഏറ്റവും വലിയ ഉറവിടം, പ്രത്യേകിച്ചും ഏറ്റവും എക്സ്ട്രീം ആയ എററുകളുടെ കാര്യത്തിൽ, റീസാമ്പിളിംഗ് എൻവയോൺമെന്റ് ഫിഡെലിറ്റിയാണെന്ന് കാണപ്പെടുന്നു.
ഈ ഡിപ്ലോയ്മെന്റുകളിൽ അവതരിപ്പിക്കപ്പെട്ട ഏക പുതിയ മിസ്അലൈൻമെന്റ് ഓട്ടോമേറ്റഡ് ഓഡിറ്റിംഗ് കണ്ടെത്തി. ഞങ്ങൾ പഠനവിധേയമാക്കിയ ഡിപ്ലോയ്മെന്റ് വിൻഡോയിൽ, ഞങ്ങൾ വിശകലനം ചെയ്ത ChatGPT ട്രാഫിക്കിൽ കണ്ടെത്തിയ ഏക പുതിയ മിസ്അലൈൻമെന്റായ 'കാൽക്കുലേറ്റർ ഹാക്കിംഗ്', സിമുലേറ്റഡ് ഡിപ്ലോയ്മെന്റുകളെ അടിസ്ഥാനമാക്കിയുള്ള ഞങ്ങളുടെ ഓട്ടോമേറ്റഡ് ഓഡിറ്റിംഗ് പൈപ്പ്ലൈൻ റിലീസിന് മുൻപായി തന്നെ കണ്ടെത്തുമായിരുന്നു. ഒരു പ്രവർത്തനത്തെ സെർച്ച് ആയി അവതരിപ്പിക്കുന്നതോടൊപ്പം മോഡൽ ഒരു ബ്രൗസർ ടൂളിനെ കാൽക്കുലേറ്ററായി ഉപയോഗിക്കുന്നത് ഉൾപ്പെടുന്ന ഒരു തരം റിവാർഡ് ഹാക്കിംഗ് ആണ് കാൽക്കുലേറ്റർ ഹാക്കിംഗ്. ലാർജ്-സ്കെയിൽ ഓഡിറ്റിംഗ് എല്ലാ പുതിയ ഫെയിലിയറുകളും കണ്ടെത്തുമെന്ന് ഇതിനർത്ഥമില്ല, എന്നാൽ റിയലിസ്റ്റിക് കോൺടെക്സ്റ്റുകൾ പ്രധാനമായിരിക്കുന്നത് എന്തുകൊണ്ടാണെന്ന് ഇത് കാണിക്കുന്നു: സിമുലേഷൻ സീഡ് ചെയ്യാൻ ഉപയോഗിച്ച യഥാർത്ഥ ട്രാഫിക്കിൽ ഈ പെരുമാറ്റങ്ങൾ ഉണ്ടായിരുന്നില്ലെങ്കിൽ കൂടിയും, ഇടുങ്ങിയ ഇവൽ സെറ്റുകൾക്ക് നേരിട്ട് കണ്ടെത്താൻ കഴിയാത്ത പെരുമാറ്റങ്ങളെ പുറത്തുകൊണ്ടുവരാൻ അവയ്ക്ക് കഴിയും.
ഡിപ്ലോയ്മെന്റ്-ലൈക്ക് കോൺടെക്സ്റ്റുകൾ ഉപയോഗിക്കുന്നതിന്റെ മറ്റൊരു നേട്ടം, തങ്ങൾ പരീക്ഷിക്കപ്പെടുകയാണെന്ന് മോഡലുകൾ തിരിച്ചറിയുമ്പോൾ ഉണ്ടാകുന്ന ഡിസ്റ്റോർഷനുകൾ കുറയ്ക്കാൻ അവയ്ക്ക് കഴിയും എന്നതാണ്. മുൻകാല ഗവേഷണങ്ങളിൽ, തങ്ങൾ എപ്പോഴാണ് പരീക്ഷിക്കപ്പെടുന്നതെന്ന് മോഡലുകൾക്ക് പലപ്പോഴും അറിയാമെന്ന്, ഞങ്ങളും മറ്റുള്ളവരും(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കണ്ടെത്തിയിട്ടുണ്ട്. ഉഉദാഹരണത്തിന്, തങ്ങൾ എന്തിലാണ് പരീക്ഷിക്കപ്പെടുന്നതെന്നും, ഒരു ഇവാല്യുവേറ്റർക്ക് എന്തായിരിക്കും താൽപ്പര്യമെന്നും, ഇനി ത–ങ്ങൾ മോശമായി പെരുമാറുകയാണെങ്കിൽ– പിടിക്കപ്പെടുമോ എന്നും മോഡലുകൾക്ക് അവയുടെ ചെയിൻ-ഓഫ്-തോട്ടിൽ ചിന്തിക്കാൻ കഴിഞ്ഞേക്കും. അലൈൻമെന്റ് ഇവാല്യുവേഷൻസിന് ഇതൊരു പ്രശ്നമാണ്: പരീക്ഷിക്കപ്പെടുകയാണെന്ന് കരുതുന്നതുകൊണ്ട് മാത്രമാണ് ഒരു മോഡൽ നന്നായി പെരുമാറുന്നതെങ്കിൽ, താൻ ഡിപ്ലോയ് ചെയ്യപ്പെട്ടുവെന്ന് മനസ്സിലാക്കിക്കഴിഞ്ഞാൽ മോഡൽ സുരക്ഷിതമായി പെരുമാറുമെന്ന് നമുക്കെങ്ങനെ ഉറപ്പിക്കാനാകും?
യഥാർത്ഥ ഡിപ്ലോയ്മെന്റ് ഡാറ്റയെ അടിസ്ഥാനമാക്കാത്ത പരമ്പരാഗത ഇവാല്യുവേഷനുകളെ അപേക്ഷിച്ച്, മോഡലുകൾ പ്രകടിപ്പിക്കുന്ന ഇവാല്യുവേഷൻ അവയർനെസ്സിന്റെ അളവ് ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ ഗണ്യമായി കുറയ്ക്കുന്നുവെന്ന് ഞങ്ങൾ കാണിക്കുന്നു. ഞങ്ങൾ പ്രധാനമായും മൂന്ന് രീതികളിലൂടെയാണ് ഇവാല്യുവേഷൻ അവയർനെസ്സ് അളക്കുന്നത്: ഒരു ട്രാജക്ടറി പ്രൊഡക്ഷനിൽ നിന്നുള്ളതാണോ അതോ ഇവാല്യുവേഷനിൽ നിന്നുള്ളതാണോ എന്ന് തരംതിരിക്കാൻ മോഡലിനോട് ആവശ്യപ്പെടുക, അലൈൻമെന്റിനായി വിലയിരുത്തപ്പെടുന്നതിനെക്കുറിച്ചുള്ള വ്യക്തമായ പ്രസ്താവനകൾക്കായി ചെയിൻ-ഓഫ്-തോട്ട് നിരീക്ഷിക്കുക, അതുപോലെതന്നെ മെറ്റാഗെയിമിംഗ്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു): ഓവർസൈറ്റിനെക്കുറിച്ചുള്ള ഏതെങ്കിലും തരത്തിലുള്ള യുക്തിചിന്തകൾക്കായി നിരീക്ഷിക്കുക എന്നിവയാണവ. ഈ മൂന്ന് അളവുകോലുകളിലുടനീളവും സിമുലേറ്റഡ് ഡിപ്ലോയ്മെന്റ് ട്രാഫിക് യഥാർത്ഥ ഡിപ്ലോയ്മെന്റ് ട്രാഫിക്കുമായി വളരെ അടുത്തുനിൽക്കുന്നതായി കണ്ടു. ഉദാഹരണത്തിന്, യഥാർത്ഥ പ്രൊഡക്ഷൻ ട്രാഫിക്കിനെ 5.4% സമയത്തും സിമുലേറ്റഡ് ട്രാഫിക്കിനെ 5.1% സമയത്തും GPT‑5.2 ഇവാല്യുവേഷൻ-ലൈക്ക് ആയി ലേബൽ ചെയ്തു, അതേസമയം പ്രധാനമായും സിന്തറ്റിക് ഉദാഹരണങ്ങൾ ഉൾക്കൊള്ളുന്ന SWE-Bench, MonorepoBench തുടങ്ങിയ പരമ്പരാഗത ഇവാല്യുവേഷനുകളെ ഏതാണ്ട് 100% സമയത്തും ഇവാല്യുവേഷനുകളായി തരംതിരിച്ചു.
ചിത്രം 5. ഇവാല്യുവേഷൻ-അവയർനെസ്സ് താരതമ്യം: ഇവാൽ ഡിറ്റക്ഷൻ, വെർബലൈസ്ഡ് അലൈൻമെന്റ് ഇവാല്യുവേഷൻ അവയർനെസ്സ്, മെറ്റാഗെയിമിംഗ് എന്നിവയുടെ കാര്യത്തിൽ യഥാർത്ഥ പ്രൊഡക്ഷൻ ട്രാഫിക്കും സിമുലേറ്റഡ് ട്രാഫിക്കും സമാനമായ റേറ്റുകൾ കാണിക്കുന്നു, അതേസമയം പരമ്പരാഗത ഇവാൽ ഡാറ്റാസെറ്റുകൾ വളരെ ഉയർന്ന റേറ്റുകൾ റിപ്പോർട്ട് ചെയ്യുന്നു.
സ്റ്റാൻഡേർഡ് ചാറ്റ് മോഡുകൾക്കപ്പുറത്തേക്ക് ഈ രീതി വ്യാപിപ്പിക്കാൻ കഴിയുമോ എന്ന് പരിശോധിക്കുന്നതിനായി, വെല്ലുവിളികൾ നിറഞ്ഞ ഏജന്റിക് കോഡിംഗ് സെറ്റിംഗ്സുകൾക്കായി ഡിപ്ലോയ്മെന്റുകൾ സിമുലേറ്റ് ചെയ്യുന്നതിനെക്കുറിച്ചും ഞങ്ങൾ പഠനവിധേയമാക്കി. പ്രത്യേകിച്ചും, GPT‑5.5 അടിസ്ഥാനമാക്കിയുള്ള കോഡിംഗ് ഏജന്റുകളുടെ ഇന്റേണൽ ഡിപ്ലോയ്മെന്റ് സിമുലേറ്റ് ചെയ്യുന്നതിനായി, GPT‑5.4‑ൽ നിന്നുള്ള 120,000 ഇന്റേണൽ എംപ്ലോയി ഏജന്റിക് ട്രാജക്ടറികളാണ് ഞങ്ങൾ ഉപയോഗിക്കുന്നത്. ഇത് പ്രധാനമായും രണ്ട് ലക്ഷ്യങ്ങൾ നിറവേറ്റുന്നു: ഇന്റേണൽ ഡിപ്ലോയ്മെന്റുകൾക്കായുള്ള റിസ്ക് അസെസ്മെന്റിനായി ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ എപ്രകാരം ഉപയോഗിക്കാമെന്ന് ഇത് കാണിക്കുന്നു, കൂടാതെ ശ്രദ്ധാപൂർവ്വമുള്ള ടൂൾ സിമുലേഷനിലൂടെ ഏജന്റിക് സെറ്റിംഗ്സുകളിൽ പോലും സിമുലേഷൻ ഫിഡെലിറ്റി ഉയർന്നതാക്കാൻ സാധിക്കുമെന്ന് ഇത് വ്യക്തമാക്കുന്നു.
ഞങ്ങളുടെ നിലവിലെ പൈപ്പ്ലൈനിലെ എററിന്റെ പ്രധാന ഉറവിടങ്ങളിലൊന്ന് സിമുലേഷൻ ഫിഡെലിറ്റിയാണെന്ന് മുകളിൽ ഞങ്ങൾ ചർച്ച ചെയ്തു. ഡിപ്ലോയ്മെന്റ് സിമുലേഷനുകൾ റിയലിസ്റ്റിക് ആക്കുന്നതിലെ വെല്ലുവിളികളിലൊന്ന്, നിരന്തരം മാറിക്കൊണ്ടിരിക്കുന്ന എക്സ്റ്റേണൽ റിസോഴ്സുകളിലേക്ക് (ഉദാഹരണത്തിന്, വെബ് സെർച്ചുകൾ അല്ലെങ്കിൽ ലോക്കൽ ഫയലുകളുമായി സംവദിക്കുന്നത്) റീഡ്/റൈറ്റ് ആക്സസ് ആവശ്യമുള്ളപ്പോൾ പോലും, ടൂളുകൾ റിയലിസ്റ്റിക് ആയ രീതിയിൽ പ്രവർത്തിക്കേണ്ടതുണ്ട് എന്നതാണ്.
ഏജന്റിക് ഡിപ്ലോയ്മെന്റുകൾ പോലുള്ള സെറ്റിംഗ്സുകൾക്ക് ഇത് പ്രത്യേകിച്ചും വെല്ലുവിളിയാകുന്നു: ഒരൊറ്റ ഏജന്റ് ട്രാജക്ടറി നൂറുകണക്കിന് ടൂൾ കോളുകൾ, റിപ്പോസിറ്ററി സ്റ്റേറ്റ്, നെറ്റ്വർക്ക് റെസ്പോൺസുകൾ അല്ലെങ്കിൽ ട്രാൻസിയന്റ് ഫെയിലിയറുകൾ എന്നിവയെ ആശ്രയിച്ചിരിക്കാം. ഇത് റിയൽ ടൂൾ ആക്സസ് ഉപയോഗിച്ചുള്ള റീസാമ്പിളിംഗ് വെല്ലുവിളി നിറഞ്ഞതും അപകടകരവുമാക്കുന്നു. ഇതിന്റെ വെളിച്ചത്തിൽ, ലൈവ് സിസ്റ്റങ്ങളിൽ ടൂൾ കോളുകൾ പ്രയോഗിക്കുന്നതിന് പകരം, മറ്റൊരു LLM ഉപയോഗിച്ച് ഞങ്ങൾ അവയെ സിമുലേറ്റ് ചെയ്യുന്നു. റിയലിസത്തിനും അതുവഴി എസ്റ്റിമേഷൻ ക്വാളിറ്റിക്കും ഈ LLM-ന് അധിക അഫോർഡൻസുകൾ നൽകേണ്ടത് അത്യാവശ്യമാണെന്ന് ഞങ്ങൾ വ്യക്തമാക്കുന്നു.
ഞങ്ങൾ ടൂൾ-സിമുലേറ്റർ മോഡലിന് ഒറിജിനൽ ഫൈനൽ-ടേൺ റോൾഔട്ട്, സംഭാഷണ സമയത്തെ റിപ്പോസിറ്ററി, ടൂൾ-കോൾ/റെസ്പോൺസ് പെയറുകളുടെ ഒരു ഡാറ്റാബേസ്, കൂടാതെ റീഡ്-ഒൺലി കണക്റ്ററുകൾ എന്നിവ നൽകുന്നു. ഒരു ഡിസ്ക്രിമിനേറ്റർ സിമുലേറ്റഡ് റോൾഔട്ടുകളെ യഥാർത്ഥ റോൾഔട്ടുകളിൽ നിന്ന് വേർതിരിച്ചറിയാൻ ശ്രമിച്ച ഒരു ടെസ്റ്റിൽ, റിയലിസം 11.6% വിൻ റേറ്റിൽ നിന്ന് 49.5% ആയി മെച്ചപ്പെട്ടു, ഇത് 50% ചാൻസ് ലെവലിന് അടുത്താണ്.
ചിത്രം 6: വർദ്ധിച്ച അഫോർഡൻസുകളോടെ ടൂൾ കോളുകൾ സിമുലേറ്റ് ചെയ്യുമ്പോൾ, ടൂളുകൾ കൂടുതലായി ഉപയോഗിക്കുന്ന സജ്ജീകരണങ്ങളിൽ പോലും റീസാമ്പിളിംഗ് റിയലിസത്തെ യഥാർത്ഥ സാമ്പിളിംഗിൽ നിന്ന് ഏതാണ്ട് തിരിച്ചറിയാൻ കഴിയാത്തവിധം മാറ്റാൻ സാധിക്കും.
സിമുലേഷൻ ഫിഡിലിറ്റിയുടെ അധിക തെളിവ് എന്ന നിലയിൽ, GPT‑5.4 ഉപയോഗിച്ച് GPT‑5.4 Codex തിങ്കിംഗ് ട്രാഫിക് സിമുലേറ്റ് ചെയ്യുമ്പോൾ, മിസ്അലൈൻമെന്റ് റേറ്റുകൾ ഏകദേശം എറർ ബാറുകൾക്കുള്ളിലാണ്. നേരെമറിച്ച്, ഞങ്ങളുടെ പ്രീ-ഡിപ്ലോയ്മെന്റ് ടെസ്റ്റിംഗിൽ മിക്ക വിഭാഗങ്ങളിലും GPT‑5.5 കൂടുതൽ മിസ്അലൈൻഡ് ആയിരുന്നു.
ചിത്രം 7: ടൂൾ സിമുലേഷനോടെ, GPT‑5.4 ഉപയോഗിച്ച് വീണ്ടും സാമ്പിൾ ചെയ്ത സംഭാഷണങ്ങളുടെയും യഥാർത്ഥ GPT‑5.4 പ്രൊഡക്ഷൻ ട്രാഫിക്കിന്റെയും പെരുമാറ്റ നിരക്കുകൾ വളരെ സാമ്യമുള്ളതാണ് – ഇത് ഉയർന്ന റീസാമ്പിളിംഗ് എൻവയോൺമെന്റ് ഫിഡെലിറ്റി സൂചിപ്പിക്കുന്നു. ഈ വിഭാഗങ്ങളെക്കുറിച്ചുള്ള കൂടുതൽ കോൺടെക്സ്റ്റിനായി GPT‑5.5 സിസ്റ്റം കാർഡ്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കാണുക.
ചുറ്റുമുള്ള ടൂൾ പരിസ്ഥിതി മതിയായ ഫിഡിലിറ്റിയോടെ സിമുലേറ്റ് ചെയ്യുമ്പോൾ, ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ സങ്കീർണ്ണമായ ഏജന്റ് ക്രമീകരണങ്ങളിലേക്ക് വ്യാപിക്കാമെന്ന് ഈ ഫലങ്ങൾ സൂചിപ്പിക്കുന്നു.
പ്രൈവറ്റ് പ്രൊഡക്ഷൻ ട്രാഫിക്കിലേക്ക് ആക്സസ് ഇല്ലാതെ തന്നെ എക്സ്റ്റേണൽ ഓഡിറ്റർമാർക്ക് ഇതിന്റെ ചില നേട്ടങ്ങൾ ലഭിക്കുമോ എന്നത് സ്വാഭാവികമായ ഒരു ചോദ്യമാണ്. പ്രിഫിക്സുകളായി ഉപയോഗിച്ച 100,000 WildChat സംഭാഷണങ്ങൾ വഴി ഞങ്ങൾ ഇത് പരീക്ഷിച്ചു. സമീപകാല OpenAI പ്രൊഡക്ഷൻ ഡാറ്റയെക്കാൾ കൃത്യത കുറഞ്ഞതായിരുന്നു WildChat എങ്കിലും, അത് തീർച്ചയായും വിവരപ്രദമായിരുന്നു: സമീപകാല പ്രൊഡക്ഷൻ ഡാറ്റയ്ക്ക് WildChat-നെ അപേക്ഷിച്ച് ശരാശരി മൾട്ടിപ്ലിക്കേറ്റീവ് എറർ കുറവായിരുന്നു (1.75× vs. 2.44×), അതേസമയം WildChat പലപ്പോഴും പ്രൊഡക്ഷൻ റേറ്റുകളുടെ ഏകദേശം 3×-നുള്ളിൽ നിൽക്കുകയും എബൗവ്-ചാൻസ് റേറ്റുകളിൽ മികച്ച മോഡൽ ഏതെന്ന് തിരിച്ചറിയുകയും ചെയ്തു. ഡെവലപ്പർമാർ നടത്തുന്ന ഡിപ്ലോയ്മെന്റ് സിമുലേഷനുകൾക്ക് പ്രതീക്ഷ നൽകുന്ന ഒരു കോംപ്ലിമെന്റ് ആയിട്ടാണ് ഞങ്ങൾ WildChat-സ്റ്റൈൽ ഇവാല്യുവേഷനുകളെ കാണുന്നത്. ഈ വിഷയത്തിലുള്ള കൂടുതൽ ഫലങ്ങൾക്കായി ഈ കമ്പാനിയൻ Alignment ബ്ലോഗ്പോസ്റ്റ്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കാണുക.
അഡ്വേഴ്സറിയൽ ഇവാല്യുവേഷൻസ്, റെഡ്-ടീമിംഗ്, ടാർഗെറ്റഡ് ടെയിൽ-റിസ്ക് അനാലിസിസ് എന്നിവയ്ക്ക് ഒരു കോംപ്ലിമെന്റ് ആണ് ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ, അല്ലാതെ അവയ്ക്കൊരു പകരക്കാരനല്ല. ചില അനഭിലഷണീയമായ മോഡൽ പെരുമാറ്റങ്ങൾ കണ്ടെത്തുന്നത് ചെയ്ൻ-ഓഫ്-തോട്ട് മോണിറ്ററബിലിറ്റിയെ ആശ്രയിച്ചിരിക്കുന്നു: ഭാവിയിലെ മോഡലുകൾ വ്യക്തത കുറഞ്ഞ രീതിയിൽ യുക്തി ഉപയോഗിക്കുകയോ, പ്രധാനപ്പെട്ട ഘട്ടങ്ങൾ ഒഴിവാക്കുകയോ, അല്ലെങ്കിൽ തങ്ങളുടെ ഉദ്ദേശ്യം മറച്ചുവെക്കാൻ പഠിക്കുകയോ ചെയ്യുകയാണെങ്കിൽ, ഇത്തരം അനഭിലഷണീയമായ പെരുമാറ്റങ്ങൾ നമുക്ക് കണ്ടെത്താൻ കഴിഞ്ഞേക്കില്ല. കൂടാതെ, പ്രൊഡക്ഷൻ ഡാറ്റ പ്രൈവറ്റ് ആയതിനാൽ, എക്സ്റ്റേണൽ ഓഡിറ്റർമാരേക്കാൾ ഡെവലപ്പർമാർക്കാണ് നിലവിൽ റെപ്രസെന്റേറ്റീവ് കോൺടെക്സ്റ്റുകളിലേക്ക് കൂടുതൽ ശക്തമായ ആക്സസ് ഉള്ളത്. മികച്ച പബ്ലിക് ഡാറ്റാസെറ്റുകൾക്ക് ആ വിടവ് നികത്താൻ കഴിഞ്ഞേക്കും.
സാമ്പിൾ ചെയ്ത പ്രിഫിക്സുകളിൽ പ്രത്യക്ഷപ്പെടാൻ തക്കവണ്ണം ഇടയ്ക്കിടെ സംഭവിക്കുന്ന പെരുമാറ്റങ്ങൾക്കാണ് ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ ഏറ്റവും ഉപയോഗപ്രദമാകുന്നത്. ഒരു കോടി സംഭാഷണങ്ങളിൽ ഒരിക്കൽ മാത്രം സംഭവിക്കുന്ന ഒരു ഫെയിലിയർ പത്തുലക്ഷം സാമ്പിളുകളുള്ള ഒരു റണ്ണിൽ കണ്ടെത്താൻ സാധ്യതയില്ല, അതിനാൽ അഡ്വേഴ്സറിയൽ ഇവാല്യുവേഷൻസ്, റെഡ്-ടീമിംഗ്, ടാർഗെറ്റഡ് ടെയിൽ-റിസ്ക് അനാലിസിസ് എന്നിവ തുടർന്നും ആവശ്യമാണ്. പ്രാഥമിക പരീക്ഷണങ്ങളിൽ മൾട്ടിപ്പിൾ ടേണുകൾ സിമുലേറ്റ് ചെയ്യുന്നതിലൂടെ ഞങ്ങളുടെ എസ്റ്റിമേറ്റുകളിൽ കാര്യമായ മെച്ചപ്പെടുത്തലുകളൊന്നും കണ്ടെത്താൻ കഴിയാത്തതിനാൽ, ഞങ്ങൾ നിലവിൽ ഒരൊറ്റ അസിസ്റ്റന്റ് റെസ്പോൺസ് സിമുലേറ്റ് ചെയ്യുന്നതിലാണ് ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നത്. ഭാവിയിൽ സിമുലേഷൻ ഫിഡെലിറ്റി മെച്ചപ്പെടുത്തുന്നതിനുള്ള ഒരു പ്രധാന മേഖലയായി ഇത് മാറിയേക്കാം.
ഈ രീതി പ്രിഫിക്സ് ഡിസ്ട്രിബ്യൂഷനെയും—അതായത്, റീസാമ്പിൾ ചെയ്യപ്പെടുന്ന സംഭാഷണങ്ങളുടെ മിശ്രിതത്തെയും - ആശ്രയിച്ചിരിക്കുന്നു. ഒരു പ്രധാന പ്രൊഡക്റ്റ് മാറ്റം, പുതിയ ടൂൾ റിലീസ്, ആഗോള സംഭവം, അല്ലെങ്കിൽ സീസണൽ ഷിഫ്റ്റ് എന്നിവയ്ക്ക് ശേഷം കൂടുതൽ കഴിവുള്ള ഒരു മോഡലുമായി ഉപയോക്താക്കൾ സംവദിക്കുന്ന രീതിയുമായി ഹിസ്റ്റോറിക്കൽ ട്രാഫിക് പൊരുത്തപ്പെട്ടേക്കില്ല. ലഭ്യമായ ഏറ്റവും പുതിയ ഡാറ്റ ഉപയോഗിക്കുന്നതിലൂടെ ഈ പ്രശ്നം ലഘൂകരിക്കാനാകുമെന്ന് ഫുൾ പേപ്പറിലെ വിശകലനം സൂചിപ്പിക്കുന്നു.
യഥാർത്ഥ ലോകത്തിൽ ലാംഗ്വേജ് മോഡലുകൾ എങ്ങനെ പെരുമാറുമെന്ന് പ്രവചിക്കാനും ഡിപ്ലോയ്മെന്റിന് മുമ്പായി അവ ഉയർത്തുന്ന അപകടസാധ്യതകൾ മനസ്സിലാക്കാനും ഫ്രോണ്ടിയർ ലാബുകളെയും ഇവാല്യുവേറ്റർമാരെയും സഹായിക്കുന്ന പ്രീ-ഡിപ്ലോയ്മെന്റ് റിസ്ക് അസെസ്മെന്റിനായുള്ള ഒരു പുതിയ സമീപനമാണ് ഡിപ്ലോയ്മെന്റ് സിമുലേഷൻ. ഡിപ്ലോയ്മെന്റ് പെരുമാറ്റത്തെക്കുറിച്ചുള്ള എസ്റ്റിമേറ്റുകൾ മെച്ചപ്പെടുത്താനും, ഇവാല്യുവേഷൻ-അവയർനെസ്സ് ഇഫക്റ്റുകൾ കുറയ്ക്കാനും, റിലീസിന് ശേഷം പ്രീ-ഡിപ്ലോയ്മെന്റ് പ്രെഡിക്ഷനുകൾ പരിശോധിക്കാൻ കഴിയുന്നതാക്കാനും സഹായിക്കുന്ന കൂടുതൽ പ്രൊഡക്ഷൻ-ലൈക്ക് ആയ ഒരു പ്രെഡിക്ഷൻ ലെയർ ചേർക്കുന്നതിലൂടെ, നിലവിലുള്ള സേഫ്റ്റി ഇവാല്യുവേഷൻസ്, റെഡ്-ടീമിംഗ്, ടാർഗെറ്റഡ് അനാലിസിസ് എന്നിവയ്ക്ക് ഇതൊരു കോംപ്ലിമെന്റ് ആയി പ്രവർത്തിക്കുന്നു. പരമ്പരാഗത ഇവാല്യുവേഷനുകൾക്കൊപ്പം ഉപയോഗിക്കുമ്പോൾ, മോഡൽ റിസ്ക് അസെസ്മെന്റ് കൂടുതൽ റിയലിസ്റ്റിക് ആയതും, കൂടുതൽ ക്വാണ്ടിറ്റേറ്റീവ് ആയതും, ഡിപ്ലോയ്മെന്റ് തീരുമാനങ്ങൾക്ക് കൂടുതൽ ഉപയോഗപ്രദമായതുമാക്കി മാറ്റാൻ ഡിപ്ലോയ്മെന്റ് സിമുലേഷന് കഴിയും.


