എങ്ങനെ കൺഫഷന് ഭാഷാ മോഡലുകൾ സത്യസന്ധമാക്കുന്നു
നിർദ്ദേശങ്ങൾ ലംഘിക്കുമ്പോഴോ ഉദ്ദേശിക്കാത്ത ഷോർട്ട്കട്ടുകള് സ്വീകരിക്കുമ്പോഴോ റിപ്പോർട്ടുചെയ്യാൻ മോഡലുകളെ ട്രെയിൻ ചെയ്യുന്ന ഒരു ആദ്യകാല, പ്രൂഫ്-ഓഫ്-കൺസെപ്റ്റ് രീതി ഞങ്ങൾ പങ്കിടുന്നു.
AI സിസ്റ്റങ്ങൾ കൂടുതൽ കഴിവുള്ളതായി മാറിക്കൊണ്ടിരിക്കുന്നു, അവയെ കഴിയുന്നത്ര ആഴത്തിൽ മനസ്സിലാക്കാൻ ഞങ്ങൾ ആഗ്രഹിക്കുന്നു — അവ എങ്ങനെ, എന്തുകൊണ്ട് ഒരു ഉത്തരത്തിൽ എത്തിച്ചേരുന്നു എന്നത് ഉൾപ്പെടെ. ചിലപ്പോൾ ഒരു മോഡൽ ഷോർട്ട്കട്ട് എടുക്കുകയോ തെറ്റായ ലക്ഷ്യത്തിന് വേണ്ടി ഓപ്റ്റിമൈസ് ചെയ്യുകയോ ചെയ്യാം, പക്ഷേ അതിന്റെ അന്തിമ ഔട്ട്പുട്ട് ശരിയായതായി തോന്നാം. അത് സംഭവിക്കുമ്പോൾ നമുക്ക് കണ്ടെത്താൻ കഴിയുമെങ്കിൽ, വിന്യസിച്ചിരിക്കുന്ന സംവിധാനങ്ങളെ നന്നായി നിരീക്ഷിക്കാനും, പരിശീലനം മെച്ചപ്പെടുത്താനും, ഔട്ട്പുട്ടുകളിലെ വിശ്വാസം വർദ്ധിപ്പിക്കാനും കഴിയും.
OpenAI-യും മറ്റുള്ളവരും നടത്തിയ ഗവേഷണങ്ങൾ കാണിക്കുന്നത് AI മോഡലുകൾക്ക് ഭ്രമാത്മകത ഉണ്ടാക്കാനോ, പ്രതിഫലം നൽകാനോ, സത്യസന്ധതയില്ലായ്മ കാണിക്കാനോ കഴിയുമെന്നാണ്. ഇപ്പോൾ, തന്ത്രങ്ങൾ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) പോലുള്ള ഏറ്റവും ആശങ്കാജനകമായ മോശം പെരുമാറ്റങ്ങൾ നമ്മൾ കാണുന്നത് സമ്മർദ്ദ പരിശോധനകളിലും പ്രതികൂല വിലയിരുത്തലുകളിലും മാത്രമാണ്. എന്നാൽ മോഡലുകൾ കൂടുതൽ കഴിവുള്ളതും ഏജന്റിക് സ്വഭാവമുള്ളതുമായതോടെ, അപൂർവമായ പൊരുത്തക്കേടുകൾ പോലും കൂടുതൽ ഗൗരവമേറിയതാകുന്നു, ഈ അപകടസാധ്യതകൾ നന്നായി കണ്ടെത്താനും, മനസ്സിലാക്കാനും, കുറയ്ക്കാനും സഹായിക്കുന്ന രീതികളിൽ നിക്ഷേപം നടത്താൻ ഞങ്ങളെ പ്രേരിപ്പിക്കുന്നു.
ഈ കൃതി ഒരു സമീപനത്തെ കണ്ടെത്തുന്നു: മോഡലുകൾക്ക് അവ അനിഷ്ടകരമായ പെരുമാറ്റത്തിൽ ഏർപ്പെടുമ്പോൾ തുറന്ന് സമ്മതിക്കാൻ പരിശീലനം നൽകുക—ഞങ്ങൾ കൺഫെഷനുകള് എന്ന് വിളിക്കുന്ന ഒരു സാങ്കേതികവിദ്യ.
ഒരു കൺഫെഷൻ ഉപയോക്താവിനുള്ള മോഡലിന്റെ പ്രധാന ഉത്തരത്തിൽ നിന്ന് വേർപെട്ട ഒരു രണ്ടാമത്തെ ഔട്ട്പുട്ടാണ്. പ്രധാന ഉത്തരത്തെ പല മാനങ്ങളിലൂടെ വിലയിരുത്തുന്നു — കൃത്യത, ശൈലി, സഹായകരമായ സ്വഭാവം, അനുസരണം, സുരക്ഷ, തുടങ്ങി നിരവധി കാര്യങ്ങളിൽ, മികച്ച ഉത്തരങ്ങൾ സൃഷ്ടിക്കുന്നതിന് മോഡലുകളെ ട്രെയിൻ ചെയ്യുന്നതിന് ഈ ബഹുമുഖ സിഗ്നലുകൾ ഉപയോഗിക്കുന്നു. നേരെമറിച്ച്, കൺഫെഷനെ വിലയിരുത്തുകയും പരിശീലിപ്പിക്കുകയും ചെയ്യുന്നത് ഒരു കാര്യത്തിൽ മാത്രമാണ്: സത്യസന്ധത. ഒരു കൺഫെഷണലിന്റെ ഘടനയിൽ നിന്ന് ഒരു പേജ് കടം വാങ്ങി, മോഡൽ അതിന്റെ കൺഫെഷനിൽ പറയുന്ന ഒന്നും പരിശീലനത്തിനിടെ അതിനെതിരെ ഉപയോഗിക്കപ്പെടുന്നില്ല. മോഡൽ ഒരു പരീക്ഷ ഹാക്ക് ചെയ്യുന്നതിനെക്കുറിച്ചോ, എന്തെങ്കിലും ചെയ്യാൻ പ്രേരിപ്പിച്ചതിന്റെയോ, അല്ലെങ്കിൽ നിർദ്ദേശങ്ങൾ ലംഘിക്കുന്നതിനെക്കുറിച്ചോ സത്യസന്ധമായി സമ്മതിക്കുന്നുവെങ്കിൽ, ആ സമ്മതം അതിന്റെ പ്രതിഫലം കുറയ്ക്കുന്നതിന് പകരം വർദ്ധിപ്പിക്കും. മോഡൽ യഥാർത്ഥത്തിൽ എന്താണ് ചെയ്തതെന്ന് വിശ്വസ്തതയോടെ റിപ്പോർട്ട് ചെയ്യാൻ പ്രോത്സാഹിപ്പിക്കുക എന്നതാണ് ലക്ഷ്യം.
ഞങ്ങളുടെ പരിശോധനകളിൽ, കുറ്റസമ്മത രീതി മോഡൽ മോശം പെരുമാറ്റത്തിന്റെ ദൃശ്യപരത ഗണ്യമായി മെച്ചപ്പെടുത്തുന്നുവെന്ന് ഞങ്ങൾ കണ്ടെത്തി. ഞങ്ങളുടെ വിലയിരുത്തലുകൾ വഴി ശരാശരി കണക്കാക്കുമ്പോൾ, "തെറ്റായ നെഗറ്റീവ് ഫലങ്ങളുടെ" സാധ്യത (അഥവാ, മോഡൽ നിർദ്ദേശങ്ങൾ പാലിക്കാതെ, അതിനുശേഷം അത് സമ്മതിക്കാതെ പോകുന്നത്) വെറും 4.4% മാത്രമാണ്.
വിരുദ്ധമായ ഡാറ്റാസെറ്റുകളിൽ ഞങ്ങളുടെ “proof of concept” കൺഫെഷൻ മോഡലിന്റെ കൃത്യത. ഫലങ്ങളെ അനുസരിച്ചു, സമ്മതിച്ചില്ല (ശരിയായ നെഗറ്റീവ്), അനുസരിച്ചു, സമ്മതിച്ചു (തെറ്റായ പോസിറ്റീവ്), അനുസരിച്ചില്ല, സമ്മതിച്ചില്ല (തെറ്റായ നെഗറ്റീവ്), അനുസരിച്ചില്ല, സമ്മതിച്ചില്ല (ശരിയായ പോസിറ്റീവ്) എന്നിങ്ങനെ തരം തിരിച്ചിരിക്കുന്നു.

ഒരു ഉപയോക്താവ് പ്രോംപ്റ്റ് നൽകിയാൽ, നാല് സാധ്യതകളുള്ള ഫലങ്ങൾ (1) മോഡൽ പ്രതികരണം പാലനീയമാണോ (“നല്ലത്”) അല്ലെങ്കിൽ പാലനീയമല്ല (“മോശം”) എന്നതിന്റെ സംയോജനത്തെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്, (2) സമ്മതം പാലനീയതയാണോ അല്ലെങ്കിൽ പാലനീയമല്ലായ്മയാണോ അവകാശപ്പെടുന്നു. സാധാരണയായി, സമ്മതിപ്പിക്കൽ കൃത്യമായിരിക്കാനുള്ള സാധ്യത കൂടുതലാണെന്ന് നാം കാണുന്നു, കൂടാതെ സമ്മതിപ്പിക്കൽ പിശകുകൾ സാധാരണയായി ഹാനികരമല്ല, ഉദ്ദേശപൂർവ്വം തെറ്റിദ്ധരിപ്പിക്കുന്നതല്ലാതെ സത്യസന്ധമായ ആശയക്കുഴപ്പം മൂലമാണെന്ന് കാണുന്നു.
ഒരു കൺഫെഷൻ എന്നത്, മോഡൽ അതിനു നൽകിയ വ്യക്തവും പരോക്ഷവുമായ നിർദ്ദേശങ്ങളോ നയങ്ങളോ എത്രത്തോളം പാലിച്ചുവെന്നും, അത് "കുറുക്കു വഴി തേടിയതോ" "ഹാക്ക് ചെയ്തതോ", നയങ്ങൾ ലംഘിച്ചതോ, അല്ലെങ്കിൽ ഏതെങ്കിലും വിധത്തിൽ പ്രതീക്ഷകൾ നിറവേറ്റാൻ കഴിയാത്തതോ ആയ ഏതെങ്കിലും സന്ദർഭങ്ങളുണ്ടോ എന്നും കാണിക്കുന്ന ഒരു സ്വയം റിപ്പോർട്ടാണ്. ഞങ്ങളുടെ ഗവേഷണത്തിൽ, മോഡലുകൾ അവരുടെ സ്വന്തം പോരായ്മകൾ തുറന്നുപറയാൻ പരിശീലിപ്പിക്കപ്പെടാമെന്ന് ഞങ്ങൾ കണ്ടെത്തുന്നു. കൺഫെഷൻ നടത്തുന്നതിനായി ഞങ്ങൾ GPT‑5 Thinking-ന്റെ ഒരു പതിപ്പ് പരിശീലിപ്പിച്ചു, കൂടാതെ കുതന്ത്രത, ഹാക്കിംഗ്, നിർദ്ദേശങ്ങൾ ലംഘിക്കൽ, ഭ്രമാത്മകത തുടങ്ങിയ പെരുമാറ്റങ്ങൾ പുറത്തുകൊണ്ടുവരാൻ രൂപകൽപ്പന ചെയ്തിരിക്കുന്ന നിരവധി ഔട്ട്-ഓഫ്-ഡിസ്ട്രിബ്യൂഷൻ സ്ട്രെസ്-ടെസ്റ്റ് ഡാറ്റാസെറ്റുകളിൽ ഇത് വിലയിരുത്തി. ഞങ്ങൾ കണ്ടെത്തിയത് മോഡൽ ഈ അനിഷ്ടമായ പെരുമാറ്റങ്ങളിൽ ഏർപ്പെടുമ്പോഴും, അവയെക്കുറിച്ച് സമ്മതിക്കാൻ വളരെ സാധ്യതയുണ്ടെന്നതാണ്. മുകളിൽ കാണുന്ന ചിത്രം കൺഫെഷൻ സമീപനം വൈവിധ്യമാർന്ന ഡാറ്റാസെറ്റുകളിലും ടാസ്കുകളിലും വ്യാപകമായി ഫലപ്രദമാണെന്ന് കാണിക്കുന്നു.
ഉപയോക്താവും മോഡലും തമ്മിലുള്ള ഏതെങ്കിലും ഇടപെടലിന് ശേഷം മോഡൽ ഉത്തരം നൽകുമ്പോൾ, മോഡലിന് ഒരു കൺഫെഷൻ റിപ്പോർട്ട് നൽകാൻ നിർദ്ദേശിക്കുന്ന “സിസ്റ്റം സന്ദേശം” അയച്ച് ഒരു കൺഫെഷൻ അഭ്യർത്ഥിക്കാം. റിപ്പോർട്ട്, മോഡലിന്റെ അവസാന ഉത്തരവുമായി ബന്ധപ്പെട്ടതാണ്, അതിൽ (1) ഈ ഉത്തരത്തിൽ പാലിക്കേണ്ട എല്ലാ വ്യക്തമായും അപ്രത്യക്ഷമായും ഉള്ള നിർദ്ദേശങ്ങൾ, നിയന്ത്രണങ്ങൾ, ലക്ഷ്യങ്ങൾ എന്നിവയുടെ പട്ടിക, (2) ഈ ലക്ഷ്യങ്ങളിൽ ഓരോന്നും ഉത്തരം യഥാർത്ഥത്തിൽ പാലിച്ചോ എന്നതിന്റെ സത്യസന്ധവും വസ്തുനിഷ്ഠവുമായ വിശകലനം, (3) ഉത്തരം സൃഷ്ടിക്കുന്നതിനിടെ മോഡൽ നേരിട്ട ഏതെങ്കിലും അനിശ്ചിതത്വങ്ങൾ, ആശയക്കുഴപ്പങ്ങൾ, അല്ലെങ്കിൽ "തീർച്ച പറയാൻ ബുദ്ധിമുട്ടുള്ള വിലയിരുത്തൽ" എന്നിവയുടെ പട്ടിക എന്നിവ ഉൾക്കൊള്ളുന്നു. പരിശീലന സമയത്ത്, ഒരു കൺഫെഷൻ, ലക്ഷ്യങ്ങളുടെ സമ്പൂർണ്ണത, അനുസരണ വിശകലനത്തിന്റെ കൃത്യത, അനിശ്ചിതത്വങ്ങളുടെ പരിരക്ഷ എന്നിവയുടെ അടിസ്ഥാനത്തിൽ മാത്രം സ്കോർ ചെയ്യുന്ന വേർതിരിച്ചുള്ള ഒരു റിവാർഡ് മോഡൽ ഉപയോഗിച്ച് വിലയിരുത്തപ്പെടുന്നു. ഈ പ്രതിഫലങ്ങൾ കൺഫെഷൻ ഔട്ട്പുട്ടിനാണ് പ്രത്യേകമായി പ്രയോഗിക്കുന്നത്, പ്രധാന ഉത്തരത്തിനുള്ള പ്രതിഫലത്തെ ഒരിക്കലും ബാധിക്കില്ല. മുകളിൽ ചർച്ച ചെയ്ത സവിശേഷത ഉറപ്പാക്കുന്നു, മോഡൽ കൺഫെഷനിൽ പറയുന്ന ഒന്നും അതിന്റെ പ്രധാന ഉത്തരത്തിനുള്ള പ്രതിഫലത്തെ ബാധിക്കുകയോ (സഹായിക്കുകയോ) ചെയ്യില്ല.
കൺഫെഷനുകളുടെ സിദ്ധാന്തം ലളിതമാണ്. നിങ്ങൾ മോഡലിനെ ഒരേസമയം പല ലക്ഷ്യങ്ങൾക്കായി ഓപ്റ്റിമൈസ് ചെയ്യാൻ ആവശ്യപ്പെടുന്നതിനാൽ പലതരം അനാവശ്യ മോഡൽ പെരുമാറ്റങ്ങൾ പ്രത്യക്ഷപ്പെടുന്നു. റീഇൻഫോഴ്സ്മെന്റ് ലേണിംഗ് സമയത്ത്, മോഡൽ ഒരു പ്രോംപ്റ്റ് കാണുകയും, ഒരു പ്രതികരണം സൃഷ്ടിക്കുകയും, ഒരു പ്രതിഫലം ലഭിക്കുകയും ചെയ്യുന്നു. കാലക്രമേണ, അത് മികച്ച സ്കോർ നേടുന്ന തരത്തിലുള്ള ഉത്തരങ്ങൾ സൃഷ്ടിക്കാൻ പഠിക്കുന്നു. വെല്ലുവിളി എന്തെന്നാൽ, പ്രതിഫല സിഗ്നലിന് ഒരേസമയം നിരവധി വ്യത്യസ്ത പരിഗണനകൾ സംയോജിപ്പിക്കേണ്ടതുണ്ട് എന്നതാണ്: ഉത്തരം എത്രത്തോളം ശരിയാണ്, അത് സഹായകരമാണോ, അത് ഉൽപ്പന്നവും നയവും സംബന്ധിച്ച പ്രത്യേകതകൾ പാലിക്കുന്നുണ്ടോ, സുരക്ഷാ നിയന്ത്രണങ്ങൾ പാലിക്കുന്നുണ്ടോ, ഉപയോക്താക്കൾ ഇഷ്ടപ്പെടുന്നവയുമായി പൊരുത്തപ്പെടുന്നുണ്ടോ. ഈ സിഗ്നലുകൾ തമ്മിൽ ഇടപഴകുമ്പോൾ, അവ മോഡലിനെ നമുക്ക് ആവശ്യമില്ലാത്ത പെരുമാറ്റങ്ങളിലേക്ക് അനവസരത്തിൽ നയിക്കാം.
ഉദാഹരണത്തിന്, ഭ്രമാത്മകത യെക്കുറിച്ചുള്ള ഞങ്ങളുടെ പ്രവർത്തനം ചില ഡാറ്റാസെറ്റുകൾ ആത്മവിശ്വാസത്തോടെയുള്ള ഊഹങ്ങളെ അനിശ്ചിതത്വത്തെക്കുറിച്ചുള്ള സത്യസന്ധമായ സമ്മതത്തെക്കാൾ കൂടുതൽ പ്രതിഫലം നൽകുന്നുവെന്ന് കാണിച്ചു. ഞങ്ങളുടെ സ്തുതിപ്രിയത്വത്തെ കുറിച്ചുള്ള ഗവേഷണം മോഡലുകൾക്ക് മുൻഗണനാ സിഗ്നൽ വളരെ ശക്തമായപ്പോൾ അമിതമായി അനുകൂലമാകുമെന്ന് കാണിച്ചു. മറ്റ് ഗ്രൂപ്പുകളിൽ നിന്നുള്ള പഠനങ്ങൾ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) മോഡലുകൾക്ക് "റിവാർഡ് ഹാക്ക്" ചെയ്യാന് കഴിയുമെന്ന് തെളിയിച്ചിട്ടുണ്ട് - പരിശീലന സജ്ജീകരണത്തിലെ പഴുതുകൾ കണ്ടെത്തി, അത് നമ്മൾ ഉദ്ദേശിച്ചത് ചെയ്യാതെ തന്നെ ഉയർന്ന സ്കോർ നേടാൻ അവരെ അനുവദിക്കുന്നു. ചില സന്ദർഭങ്ങളിൽ, ഈ ഷോർട്ട്കട്ടുകൾ വിന്യാസത്തിൽ കൂടുതൽ ദോഷകരമായ പെരുമാറ്റത്തിലേക്ക് സാമാന്യവൽക്കരിക്കപ്പെടാം(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) .
ലക്ഷ്യങ്ങളെ പൂർണ്ണമായും വേർതിരിക്കുന്നതിനാൽ കൺഫെഷനുകൾ ഈ പ്രശ്നം ഒഴിവാക്കുന്നു. പ്രധാന ഉത്തരങ്ങൾ എല്ലാ സാധാരണ ഘടകങ്ങൾക്കും ഓപ്റ്റിമൈസ് ചെയ്യുന്നത് തുടരുന്നു. കൺഫെഷൻ കൃത്യമായി ഒരു കാര്യത്തെ അടിസ്ഥാനമാക്കിയാണ് പരിശീലിപ്പിക്കുന്നത്: സത്യസന്ധത. കൺഫെഷനിൽ മോഡൽ പറയുന്നതൊന്നും അതിന് എതിരല്ല, പ്രധാന ഉത്തരത്തിനുള്ള പ്രതിഫലത്തെ കൺഫെഷൻ സ്വാധീനിക്കുന്നില്ല. അതായത് മോഡൽ അതിന്റെ ആദ്യ ഔട്ട്പുട്ടിൽ വഞ്ചന നടത്തുകയോ കുറുക്കുവഴികൾ സ്വീകരിക്കുകയോ ചെയ്താലും, അതിനെ സമ്മതിക്കുന്നതിൽ ഒരു പ്രോത്സാഹനം ഇപ്പോഴും നിലനിൽക്കുന്നു. പ്രായോഗികമായി ഞങ്ങൾ കാണുന്നത് ഇങ്ങനെയാണ്: മോഡലുകൾ പ്രധാന ഉത്തരത്തിൽ അത് മറച്ചുവെച്ചാലും, കൺഫെഷനില് മോശം പെരുമാറ്റം അംഗീകരിക്കാൻ തയ്യാറാണ്. കൺഫെഷനുകള് പരാജയപ്പെടുമ്പോൾ, സാധാരണയായി മോഡൽ യഥാർത്ഥത്തിൽ ആശയക്കുഴപ്പത്തിലാകുന്നതുകൊണ്ടാണ്—നിർദ്ദേശങ്ങൾ അവ്യക്തമായതിനാലോ അല്ലെങ്കിൽ ഒരു പിഴവ് സംഭവിച്ചുവെന്ന് തിരിച്ചറിയാത്തതിനാലോ—മറിച്ച് മോഡൽ ഉദ്ദേശപൂർവ്വം തെറ്റിദ്ധരിപ്പിക്കാൻ ശ്രമിക്കുന്നതിനാൽ അല്ല. പ്രധാനമായും, പ്രാരംഭ ഫലങ്ങൾ കാണിക്കുന്നത്, ചിന്താശൃംഖല ഇല്ലാതെയും ഉത്തരം ഉത്പാറീസണിംഗ്ദിപ്പിക്കുമ്പോഴും സമ്മതങ്ങൾ ഫലപ്രദമായി തുടരുന്നു, സമ്മതത്തിന്റെ സത്യസന്ധത ആന്തരിക റീസണിംഗ് ഗ്രാഹ്യതയില് ആശ്രയിക്കുന്നില്ലെന്നും ഭാവിയിലെ മോഡൽ ആർക്കിടെക്ചറുകളിലേക്കും പൊതുവായിരിക്കാമെന്നും സൂചിപ്പിക്കുന്നു.
അനുസരണത്തിന്റെ അടിസ്ഥാന സത്യ ലേബലുകൾ ഇല്ലാതെ പോലും കൺഫെഷൻ പരിശീലനം പ്രവർത്തിക്കുന്നു. "അടിസ്ഥാന സത്യം" എന്നതുകൊണ്ട് ഞങ്ങൾ ഉദ്ദേശിക്കുന്നത്, മോഡൽ യഥാർത്ഥത്തിൽ ഒരു നിർദ്ദേശം പാലിച്ചിട്ടുണ്ടോ അതോ അത് ലംഘിച്ചോ എന്ന് സൂചിപ്പിക്കുന്ന ഒരു നിർണ്ണായകവും ബാഹ്യമായി നൽകിയതുമായ ലേബലിനെയാണ്. പല യഥാർത്ഥ ലോക ടാസ്കുകളിലും ഈ ലേബലുകൾ ലഭ്യമല്ല—മോഡൽ ഒരു നിയമം ലംഘിച്ചുവെന്ന് നിശ്ചയമായി അറിയാമെങ്കിൽ, ഒരു കൺഫെഷനില് ആശ്രയിക്കുന്നതിനു പകരം ആ ലംഘനത്തെ നേരിട്ട് ശിക്ഷിക്കാനാകും. പകരം, മോഡലിന് അത് ചെയ്തതെന്ന് വിശ്വസിക്കുന്നതിന്റെ ഘടനാപരവും, തെളിവുകളാൽ പിന്തുണയ്ക്കപ്പെട്ടതുമായ വിശദീകരണം നൽകുന്നതിന് പ്രതിഫലം ലഭിക്കുന്നു. ഈ സജ്ജീകരണത്തിൽ സത്യസന്ധത ഉദ്ഭവിക്കുന്നതായി പേപ്പര് കാണിക്കുന്നു. ഞങ്ങൾ ചിന്തിക്കുന്നത്, സത്യസന്ധവും തെളിവുകളാൽ പിന്തുണയ്ക്കപ്പെട്ടതുമായ ഒരു വിവരണം നൽകുന്നത്, ജഡ്ജിനെ തൃപ്തിപ്പെടുത്താൻ കഴിയുന്ന ഒരു സുസ്ഥിരമായ കെട്ടുകഥ നിർമ്മിക്കുന്നതിനെക്കാൾ മോഡലിന് സാധാരണയായി എളുപ്പമാണെന്ന് ആണ്. ഈ പേപ്പറില് കണ്ടെത്തുന്ന ഒരു പ്രധാന അനുമാനമാണിത്, കൂടാതെ കൺഫെഷനുകള് പരാജയപ്പെടുന്ന കേസുകൾ—തെറ്റായ നെഗറ്റീവുകളും തെറ്റായ പോസിറ്റീവുകളും—എങ്ങനെ ഉണ്ടാകുന്നു എന്നതിനെക്കുറിച്ചും ഇത് ചർച്ച ചെയ്യുന്നു.
പേപ്പർ കൺഫെഷനുകളുടെ ഫലപ്രാപ്തിയെക്കുറിച്ച് പ്രാഥമിക തെളിവുകൾ നൽകുന്നു, പക്ഷേ അത് അന്തിമമായ തെളിവായി കണക്കാക്കരുത്. ഞങ്ങൾ ഒരു ഫ്രണ്ടിയർ മോഡൽ (GPT‑5 Thinking) ഉപയോഗിച്ചിരുന്നുവെങ്കിലും, ഞങ്ങളുടെ പരീക്ഷണങ്ങൾ പരിമിതമായ തോതിൽ ആയിരുന്നു, താരതമ്യേന കുറച്ച് കംപ്യൂട്ടേഷൻ, ഡാറ്റ എന്നിവ ഉപയോഗിച്ചു. ഈ പ്രവർത്തനം അടുത്തതലത്തിലേക്ക് കൊണ്ടുപോകുന്നതിൽ ഞങ്ങൾ ആവേശഭരിതരാണ്, കൂടാതെ അതിന്റെ പരിശീലനം വർദ്ധിപ്പിക്കുമ്പോൾ കൺഫെഷനുകളുടെ സത്യസന്ധത തുടരുമോ എന്ന് കാണുവാനും.
മോഡൽ "റിവാർഡ് ഹാക്കിംഗ്" പ്രധാന മറുപടിയിൽ വാക്കുകളുടെ എണ്ണം സൂചിപ്പിക്കുന്നതിനായി വാചകങ്ങൾ അടയാളപ്പെടുത്തി ഗ്രേഡറെ വഞ്ചിക്കുന്നു, എന്നാൽ പിന്നീട് ഇത് സമ്മതിക്കുന്നു.
ഞങ്ങളുടെ പരീക്ഷണങ്ങളുടെ ഭാഗമായി, ദുർബലമായ ഒരു മോഡൽ കണക്കാക്കിയ "ഹാക്ക് ചെയ്യാവുന്ന" റിവാർഡ് സിഗ്നലിനെതിരെ ഞങ്ങൾ മോഡലുകളെ മനഃപൂർവ്വം പരിശീലിപ്പിച്ചു. ഈ ക്രമീകരണം പ്രധാന പ്രതിഫലത്തിനും കൺഫെഷൻ പ്രതിഫലത്തിനും ബാധകമാണ്. മോഡൽ, ദുർബലമായ പ്രതിഫല സിഗ്നൽ ഉപയോഗിച്ച് പ്രയോജനപ്പെടുത്താൻ പഠിച്ചു: (ദുർബലമായ മോഡൽ ഉപയോഗിച്ച് വിലയിരുത്തുമ്പോൾ) അതിന്റെ പ്രത്യക്ഷ കൃത്യത മെച്ചപ്പെട്ടു, എന്നാൽ (ശക്തമായ വിലയിരുത്തൽ) ഉപകരണത്തിന്റെ അടിസ്ഥാനത്തിൽ വിലയിരുത്തുമ്പോൾ അതിന്റെ യഥാർത്ഥ കൃത്യത കുറഞ്ഞു.
എന്നിരുന്നാലും, കൺഫെഷൻ ചാനൽ അതേ ദുർബലമായ സിഗ്നലിൽ പരിശീലിപ്പിക്കപ്പെട്ടെങ്കിലും, അതിന്റെ കൃത്യത വിപരീത ദിശയിലേക്ക് നീങ്ങി. കൺഫെഷൻ പ്രതിഫലം ഒപ്റ്റിമൈസ് ചെയ്യുന്നതിനുള്ള ഏറ്റവും നല്ല മാർഗം പ്രധാന പ്രതിഫലം, ഹാക്ക് ചെയ്തപ്പോൾ സമ്മതിക്കുക എന്നതാണെന്ന് മോഡൽ മനസ്സിലാക്കി. പ്രധാന സ്വഭാവം മാറിയപ്പോൾ പോലും, കാലക്രമേണ കൺഫെഷനുകള് കൂടുതൽ കൃത്യതയുള്ളതായി മാറി.
പരിശീലനത്തിന്റെ വേളയില്, മോഡലിന് അനുസരിക്കാന് കഴിയാത്തപ്പോള്, ചില സാഹചര്യങ്ങളിൽ അത് പ്രധാന റിവാർഡ് ജഡ്ജിയെ "ഹാക്ക്" ചെയ്യാൻ പഠിക്കുന്നു, അതിനാൽ ജഡ്ജിയുടെ കൃത്യത കുറയുന്നു. ഇതിന് വിപരീതമായി, കൺഫഷൻ റിവാർഡ് ജഡ്ജ് ഹാക്ക് ചെയ്യാൻ കഴിയുന്നവനാണെങ്കിലും, മോഡൽ അതിന്റെ കൺഫഷനിൽ പരിശീലനത്തിനിടെ കൂടുതൽ സത്യസന്ധമാകുന്നു, അനുസരിക്കാത്തപ്പോൾ ഏകദേശം 100% കൺഫഷൻ നേടുന്നതുവരെ അത് എത്തുന്നു.
പേപ്പർ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കൂടുതൽ പരീക്ഷണങ്ങളും ഫലങ്ങളും ഉൾക്കൊള്ളുന്നു. കൺഫെഷൻ പരിശീലനം ലഭിച്ച മോഡലിനെ അതേ രീതിയിൽ പരിശീലിപ്പിച്ച, എന്നാൽ കൺഫെഷൻ ചാനൽ ഇല്ലാത്ത ഒരു നിയന്ത്രണ മോഡലുമായി ഞങ്ങൾ താരതമ്യം ചെയ്തു. കൺഫെഷനുകള് പരാജയപ്പെട്ട കേസുകളും ഞങ്ങൾ കൂടി പരിശോധിച്ചു. മിക്കവാറും എല്ലാ "തെറ്റുകളും" മോഡൽ യഥാർത്ഥത്തിൽ ആശയക്കുഴപ്പത്തിലായിരുന്നപ്പോൾ സംഭവിച്ചു—നിർദ്ദേശങ്ങൾ അവ്യക്തമായിരുന്നപ്പോൾ അല്ലെങ്കിൽ അത് ഒരു പിഴവ് സംഭവിച്ചുവെന്ന് തിരിച്ചറിയാത്തപ്പോൾ. (മുകളിൽ തെറ്റായ നെഗറ്റീവ് ഉദാഹരണം കാണുക.)
കൺഫെഷനുകള്ക്ക് അവരുടെ പരിമിതികളുണ്ട്. അവ മോശം പെരുമാറ്റം തടയുന്നില്ല; അത് പുറത്തെടുക്കുന്നു. പരിശീലന വേളയിലും വിന്യാസത്തിലും ഒരു നിരീക്ഷണ, രോഗനിർണയ ഉപകരണം എന്ന നിലയിലാണ് അവയുടെ പ്രധാന മൂല്യം. കൺഫെഷനുകള് ചിന്താശൃംഖല നിരീക്ഷണത്തിന് സമാനമായ പങ്ക് വഹിക്കുന്നു: ഇരുവരും മറഞ്ഞിരിക്കുന്ന റീസണിംഗ് പ്രക്രിയകൾ കൂടുതൽ ദൃശ്യമാക്കുന്നു. കൺഫെഷനുകൾ മോഡൽ നിർദ്ദേശങ്ങൾ ലംഘിച്ചോ എന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു; ചിന്താശൃംഖല അത് എങ്ങനെ അവിടെ എത്തി എന്നതിനെ പ്രദർശിപ്പിക്കുന്നു.
ഈ പ്രവൃത്തി ആശയത്തിന്റെ തെളിവായും പ്രവർത്തിക്കുന്നു. ഞങ്ങൾ വലിയ തോതിൽ കൺഫെഷൻ മെക്കാനിസങ്ങൾ ട്രെയിൻ ചെയ്തിട്ടില്ല, കൂടാതെ കൺഫെഷൻ കൃത്യത ഇപ്പോഴും അപൂർണ്ണമാണ്. മാതൃകാ കുടുംബങ്ങളിലും ജോലികളിലും ഈ സമീപനം കൂടുതൽ വിശ്വസനീയവും, കൂടുതൽ കരുത്തുറ്റതും, കൂടുതൽ വിശാലമായി ബാധകവുമാക്കുന്നതിന് കൂടുതൽ കാര്യങ്ങൾ ചെയ്യേണ്ടതുണ്ട്.
ഈ പ്രവർത്തനം ഞങ്ങളുടെ AI സുരക്ഷയിലേക്കുള്ള വിശാലമായ സമീപനത്തിൽ ഉൾപ്പെടുന്നു. കൺഫെഷനുകൾ ചിന്താപരമായ പൊരുത്തം, ചിന്താശൃംഖല നിരീക്ഷണം, നിർദ്ദേശ ശ്രേണി എന്നിവ ഉൾപ്പെടുന്ന വലിയ ഒരു ഘടനയിലെ ഒരു ഘടകമാണ്. ഒരൊറ്റ രീതി മാത്രം പോരാ; പരസ്പരം ശക്തിപ്പെടുത്തുന്ന പരിശോധനകളുടെയും സുതാര്യത ഉപകരണങ്ങളുടെയും ഒരു പാളി സംവിധാനമാണ് ലക്ഷ്യം. പരിശീലനത്തിലും വിലയിരുത്തലിലും മോഡലുകളുടെ പ്രശ്നകരമായ പെരുമാറ്റങ്ങൾ കണ്ടെത്തുന്നതിനും വിന്യാസ സമയത്ത് നിരീക്ഷിക്കുന്നതിനും കൺഫെഷനുകൾ സഹായിക്കും. ഒന്നിലധികം മാനങ്ങളെ സന്തുലിതമാക്കുന്നതിന്റെ പ്രശ്നം കൺഫെഷനുകൾ മാത്രം പരിഹരിക്കുന്നില്ല. എന്നാൽ മോഡലുകൾ സത്യസന്ധതയിൽ മാത്രം ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്ന ഒരു "സത്യസന്ധതാ സീറം" മോഡ് സൃഷ്ടിക്കുന്നതിലൂടെ, ബോർഡിലുടനീളം സത്യസന്ധതയും സുരക്ഷയും മെച്ചപ്പെടുത്തുന്നതിനുള്ള ഒരു വിലപ്പെട്ട ഉപകരണം ഇത് ഞങ്ങളുടെ സ്റ്റാക്കിലേക്ക് ചേർക്കുന്നു.
മോഡലുകൾ കൂടുതൽ കഴിവുള്ളവയാകുകയും ഉയർന്ന തലത്തിലുള്ള സാഹചര്യങ്ങളിൽ വിന്യസിക്കപ്പെടുകയും ചെയ്യുമ്പോൾ, അവ എന്താണ് ചെയ്യുന്നതെന്നും എന്തുകൊണ്ടാണെന്നും മനസ്സിലാക്കാൻ നമുക്ക് മികച്ച ഉപകരണങ്ങൾ ആവശ്യമാണ്. കൺഫെഷനുകള് ഒരു പൂർണ്ണ പരിഹാരമല്ല, പക്ഷേ അവ നമ്മുടെ സുതാര്യതയ്ക്കും മേൽനോട്ട സ്റ്റാക്കിലേക്കും അർത്ഥവത്തായ ഒരു ലെയര് ചേർക്കുന്നു. ഭാവി പ്രവർത്തനങ്ങളിൽ, ഞങ്ങൾ കൺഫെഷനുകൾ വ്യാപിപ്പിക്കാനും അവയെ സുതാര്യതയും സുരക്ഷാ സാങ്കേതികവിദ്യകളും, ചിന്താശൃംഖല നിരീക്ഷണവും ആലോചനാപരമായ വിന്യാസവും ഉൾപ്പെടെ, കൂട്ടിച്ചേർത്ത്, ഞങ്ങളുടെ മോഡലുകൾ എല്ലാ നിർദ്ദേശങ്ങളും നയങ്ങളും (ഉദാഹരണത്തിന്, ഞങ്ങളുടെ Model Spec(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)) വിശ്വസ്തമായി പാലിക്കുകയും, അവരുടെ നടപടികൾ സത്യസന്ധമായി റിപ്പോർട്ട് ചെയ്യുകയും ചെയ്യുമെന്ന് ഉറപ്പാക്കുന്നതിനായി കൂടുതൽ പുരോഗതി കൈവരിക്കാനുമാണ് ഞങ്ങളുടെ പദ്ധതി.


