സ്പാർസ് സർക്യൂട്ടുകളിലൂടെ ന്യൂറൽ നെറ്റ്വർക്കുകൾ മനസ്സിലാക്കൽ
ലളിതവും കൂടുതൽ കണ്ടെത്താവുന്നതുമായ ഘട്ടങ്ങളിൽ ചിന്തിക്കാൻ ഞങ്ങൾ മോഡലുകളെ പരിശീലിപ്പിച്ചു - അതിനാൽ അവ എങ്ങനെ പ്രവർത്തിക്കുന്നുവെന്ന് നമുക്ക് നന്നായി മനസ്സിലാക്കാൻ കഴിയും.
ന്യൂറൽ നെറ്റ്വർക്ക്കൾ ഇന്നത്തെ ഏറ്റവും കഴിവുള്ള AI സിസ്റ്റങ്ങൾക്ക് ശക്തി പകരുന്നു, പക്ഷേ അവയെ മനസ്സിലാക്കുന്നത് ഇപ്പോഴും പ്രയാസമാണ്. വ്യക്തമായ, ഘട്ടം ഘട്ടമായുള്ള നിർദ്ദേശങ്ങൾ ഉപയോഗിച്ച് ഞങ്ങൾ ഈ മോഡലുകൾ എഴുതുന്നില്ല. പകരം, അവർ ഒരു ടാസ്ക് മാസ്റ്റർ ചെയ്യുന്നതുവരെ കോടിക്കണക്കിന് ആന്തരിക ബന്ധങ്ങൾ, അല്ലെങ്കിൽ “ഭാരങ്ങൾ” ക്രമീകരിച്ചുകൊണ്ട് പഠിക്കുന്നു. പരിശീലനത്തിന്റെ നിയമങ്ങൾ ഞങ്ങൾ രൂപകൽപ്പന ചെയ്യുന്നു, പക്ഷേ ഉയർന്നുവരുന്ന പ്രത്യേക പെരുമാറ്റങ്ങൾ അല്ല, ഫലം ഒരു മനുഷ്യനും എളുപ്പത്തിൽ മനസ്സിലാക്കാൻ കഴിയാത്ത കണക്ഷനുകളുടെ സാന്ദ്രമായ വെബാണ്.
AI സിസ്റ്റങ്ങൾ കൂടുതൽ കഴിവുള്ളവരാകുകയും ശാസ്ത്രം, വിദ്യാഭ്യാസം, ആരോഗ്യ പരിപാലനം എന്നിവയിലെ തീരുമാനങ്ങളിൽ യഥാർത്ഥ ലോക സ്വാധീനം ചെലുത്തുകയും ചെയ്യുമ്പോൾ, അവ എങ്ങനെ പ്രവർത്തിക്കുന്നുവെന്ന് മനസ്സിലാക്കുന്നത് അത്യാവശ്യമാണ്. ഒരു മോഡൽ നൽകിയിരിക്കുന്ന ഔട്ട്പുട്ട് നിർമ്മിച്ചത് എന്തുകൊണ്ടാണെന്ന് മനസിലാക്കാൻ സഹായിക്കുന്ന രീതികളെയാണ് വ്യാഖ്യാനക്ഷമത സൂചിപ്പിക്കുന്നത്. ഇത് നേടാൻ നമുക്ക് പല മാർഗങ്ങളുമുണ്ട്.
ഉദാഹരണത്തിന്, ചിന്തിക്കുന്ന മോഡലുകൾ ഒരു അന്തിമ ഉത്തരത്തിലേക്കുള്ള വഴിയിൽ അവരുടെ ജോലി വിശദീകരിക്കാൻ പ്രോത്സാഹനം ലഭിക്കുന്നു. മോഡലിന്റെ സ്വഭാവം നിരീക്ഷിക്കാൻ ചിന്താശൃംഖല വ്യാഖ്യാനക്ഷമത ഈ വിശദീകരണങ്ങളെ ഉപയോഗിക്കുന്നു. ഇത് ഉടനടി ഉപയോഗപ്രദമാണ്: നിലവിലെ റീസണിംഗ് മോഡലുകളുടെ ചിന്താ ശൃംഖലകൾ വഞ്ചന പോലുള്ള ആശങ്കാജനകമായ പെരുമാറ്റങ്ങളുമായി ബന്ധപ്പെട്ട് വിവരദായകമാണെന്ന് തോന്നുന്നു. എന്നിരുന്നാലും, ഈ സ്വഭാവവിശേഷത്തെ പൂർണ്ണമായും ആശ്രയിക്കുന്നത് ദുർബലമായ തന്ത്രമാണ്, ഇത് കാലക്രമേണ തകരാം.
മറുവശത്ത്, ഈ ഗവേഷണത്തിന്റെ ശ്രദ്ധാകേന്ദ്രമായ മെക്കാനിസ്റ്റിക് വ്യാഖ്യാനക്ഷമത, ഒരു മോഡലിന്റെ കണക്കുകൂട്ടലുകൾ പൂർണ്ണമായും റിവേഴ്സ് എഞ്ചിനീയർ ചെയ്യാൻ ശ്രമിക്കുന്നു. ഇത് ഇതുവരെ അത്രയും ഉടനടി ഉപയോഗപ്രദമായിട്ടില്ല, പക്ഷേ തത്വത്തിൽ, മോഡലിന്റെ പെരുമാറ്റത്തെ കുറിച്ച് കൂടുതൽ പൂർണ്ണമായ വിശദീകരണം നൽകാൻ കഴിയും. ഏറ്റവും സൂക്ഷ്മമായ തലത്തിൽ മോഡൽ സ്വഭാവം വിശദീകരിക്കാൻ ശ്രമിക്കുന്നതിലൂടെ, മെക്കാനിസ്റ്റിക് വ്യാഖ്യാനം കുറച്ച് അനുമാനങ്ങൾ മാത്രമേ ഉണ്ടാക്കൂ, അതിനാൽ നമുക്ക് കൂടുതൽ ആത്മവിശ്വാസം നൽകുന്നു. എന്നാൽ താഴ്ന്ന തലത്തിലുള്ള വിശദാംശങ്ങളിൽ നിന്ന് സങ്കീർണ്ണമായ പെരുമാറ്റങ്ങളുടെ വിശദീകരണങ്ങളിലേക്കുള്ള പാത വളരെ ദൈർഘ്യമേറിയതും കൂടുതൽ ബുദ്ധിമുട്ടുള്ളതുമാണ്.
വ്യാഖ്യാനക്ഷമത ചില പ്രധാന ലക്ഷ്യങ്ങളെ പിന്തുണയ്ക്കുന്നു, ഉദാഹരണത്തിന് മികച്ച മേൽനോട്ടം പ്രാപ്തമാക്കുകയും സുരക്ഷിതമല്ലാത്ത അല്ലെങ്കിൽ തന്ത്രപരമായി തെറ്റായ പെരുമാറ്റത്തിന്റെ ആദ്യകാല മുന്നറിയിപ്പ് അടയാളങ്ങൾ നൽകുകയും ചെയ്യുന്നു. ഇത് സ്കെയിലബിൾ മേൽനോട്ടം, വൈരുദ്ധ്യപരമായ പരിശീലനം, റെഡ്-ടീമിംഗ് എന്നിവ പോലുള്ള ഞങ്ങളുടെ മറ്റ് സുരക്ഷാ ശ്രമങ്ങളെയും പൂരിപ്പിക്കുന്നു.
ഈ കൃതിയിൽ, മോഡലുകൾ വ്യാഖ്യാനിക്കാൻ എളുപ്പമാക്കുന്ന രീതികളിൽ പലപ്പോഴും ട്രെയിൻ ചെയ്യാൻ കഴിയുമെന്ന് ഞങ്ങൾ കാണിക്കുന്നു. സാന്ദ്രമായ നെറ്റ്വർക്കുകളുടെ പോസ്റ്റ്-ഹോക്ക് വിശകലനത്തിന് വാഗ്ദാന പൂരകമായി ഞങ്ങളുടെ ജോലിയെ ഞങ്ങൾ കാണുന്നു.
ഇത് വളരെ മഹത്തായ ഒരു പന്തയമാണ്; ഞങ്ങളുടെ ഏറ്റവും ശക്തമായ മോഡലുകളുടെ സങ്കീർണ്ണമായ പെരുമാറ്റങ്ങളെ പൂർണ്ണമായി മനസ്സിലാക്കുന്നതിന് ഞങ്ങളുടെ പ്രവർത്തനത്തിൽ നിന്ന് ഒരു ദീർഘമായ പാതയുണ്ട്. എന്നിരുന്നാലും, ലളിതമായ പെരുമാറ്റങ്ങൾക്കായി, ഞങ്ങളുടെ രീതി ഉപയോഗിച്ച് പരിശീലിപ്പിച്ച സ്പാർസ് മോഡലുകളിൽ ചെറിയ, വിഭജിക്കപ്പെട്ട സർക്യൂട്ടുകൾ അടങ്ങിയിരിക്കുന്നുവെന്ന് ഞങ്ങൾ കണ്ടെത്തുന്നു, അവ മനസ്സിലാക്കാനും പെരുമാറ്റം നടത്താനും പര്യാപ്തമാണ്. നമുക്ക് മനസ്സിലാക്കാൻ കഴിയുന്ന മെക്കാനിസങ്ങൾ ഉള്ള വലിയ സംവിധാനങ്ങളുടെ പരിശീലനത്തിലേക്ക് ഒരു എളുപ്പത്തിൽ കൈകാര്യം ചെയ്യാവുന്ന പാത ഉണ്ടായിരിക്കാമെന്ന് ഇത് സൂചിപ്പിക്കുന്നു.
മുമ്പത്തെ മെക്കാനിസ്റ്റിക് വ്യാഖ്യാന പ്രവർത്തനങ്ങൾ സങ്കീർണ്ണവും കുരുക്കുള്ളതുമായ ശൃംഖലകളിൽ നിന്ന് ആരംഭിക്കുകയും അവയെ അഴിക്കാൻ ശ്രമിക്കുകയും ചെയ്തിട്ടുണ്ട്. ഈ നെറ്റ്വർക്കുകളിൽ, ഓരോ വ്യക്തിഗത ന്യൂറോണും ആയിരക്കണക്കിന് മറ്റ് ന്യൂറോണുകളുമായി ബന്ധിപ്പിച്ചിരിക്കുന്നു. മിക്ക ന്യൂറോണുകളും പല വ്യത്യസ്തമായ പ്രവർത്തനങ്ങൾ നടത്തുന്നതായി തോന്നുന്നു, അതിനാൽ അവയെ മനസ്സിലാക്കുന്നത് അസാധ്യമാണെന്ന് തോന്നുന്നു.
എന്നാൽ കൂടുതൽ ന്യൂറോണുകളുള്ള, എന്നാൽ ഓരോ ന്യൂറോണിനും ഏതാനും ഡസൻ കണക്ഷനുകൾ മാത്രമുള്ള, അഴിച്ചുവിട്ട ന്യൂറൽ നെറ്റ്വർക്ക് ഞങ്ങൾ പരിശീലിപ്പിച്ചാൽ എങ്ങനെയിരിക്കും? അപ്പോൾ ഒരുപക്ഷേ ഫലമായുണ്ടാകുന്ന നെറ്റ്വർക്ക് ലളിതവും മനസ്സിലാക്കാൻ എളുപ്പമുള്ളതുമാകാം. ഇത് ഞങ്ങളുടെ പ്രവർത്തനത്തിന്റെ കേന്ദ്ര ഗവേഷണ ലക്ഷ്യമാണ്.
ഈ തത്വം മനസ്സിൽ വെച്ചുകൊണ്ട്, GPT‑2 പോലുള്ള നിലവിലുള്ള ഭാഷാ മോഡലുകൾക്ക് വളരെ സമാനമായ വാസ്തുവിദ്യയുള്ള ഭാഷാ മോഡലുകളെ ഞങ്ങൾ പരിശീലിപ്പിച്ചു, ഒരു ചെറിയ മാറ്റത്തോടെ: മോഡലിന്റെ ഭൂരിഭാഗം ഭാരങ്ങൾ പൂജ്യങ്ങളായിരിക്കണമെന്ന് ഞങ്ങൾ നിർബന്ധിക്കുന്നു. ഇത് മോഡലിനെ അതിന്റെ ന്യൂറോണുകൾ തമ്മിലുള്ള സാധ്യമായ കണക്ഷനുകളിൽ വളരെ കുറച്ച് മാത്രമേ ഉപയോഗിക്കാൻ അനുവദിച്ചു. ഇത് മോഡലിന്റെ ആന്തരിക കണക്കുകൂട്ടലുകളെ ഗണ്യമായി വേർതിരിക്കുന്നതിൽ ഞങ്ങൾ വാദിക്കുന്ന ലളിതമായ ഒരു മാറ്റമാണ്.
സാധാരണ സാന്ദ്രമായ ന്യൂറൽ നെറ്റ്വർക്ക്കളിൽ, ഓരോ ന്യൂറോണും അടുത്ത പാളിയിലെ എല്ലാ ന്യൂറോണുകളുമായി ബന്ധിപ്പിച്ചിരിക്കുന്നു. നമ്മുടെ വിരളമായ മോഡലുകളിൽ, ഓരോ ന്യൂറോണും അടുത്തത് പാളിയിലെ കുറച്ച് ന്യൂറോണുകളുമായി മാത്രമേ ബന്ധിപ്പിക്കുന്നുള്ളൂ. ഇത് ന്യൂറോണുകളെയും, മൊത്തത്തിലുള്ള നെറ്റ്വർക്കിനെയും മനസ്സിലാക്കാൻ എളുപ്പമാക്കുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു.
ഞങ്ങളുടെ വിരളമായ മോഡലുകളുടെ കണക്കുകൂട്ടലുകൾ എത്രത്തോളം വേർതിരിച്ചിരിക്കുന്നു എന്ന് അളക്കാൻ ഞങ്ങൾ ആഗ്രഹിക്കുന്നു. ഞങ്ങൾ വിവിധ ലളിതമായ മോഡൽ പെരുമാറ്റങ്ങൾ പരിഗണിച്ചു, ഓരോ പെരുമാറ്റത്തിനും ഉത്തരവാദികളായ മോഡലിന്റെ ഭാഗങ്ങളെ ഒറ്റപ്പെടുത്താൻ കഴിയുമോ എന്ന് പരിശോധിച്ചു - ഇതിനെ ഞങ്ങൾ സർക്യൂട്ടുകൾ എന്ന് വിളിക്കുന്നു.
ലളിതമായ അൽഗോരിതമിക് ടാസ്കുകളുടെ ഒരു സ്യൂട്ട് ഞങ്ങൾ കൈകൊണ്ട് ക്യൂറേറ്റ് ചെയ്തു. ഓരോന്നിനും, ഞങ്ങൾ ഇപ്പോഴും ടാസ്ക് നിർവഹിക്കാൻ കഴിയുന്ന ഏറ്റവും ചെറിയ സർക്യൂട്ടിലേക്ക് മോഡൽ കുറച്ചു, ആ സർക്യൂട്ട് എത്ര ലളിതമാണെന്ന് പരിശോധിച്ചു. (വിശദാംശങ്ങൾക്ക്, ഞങ്ങളുടെ പേപ്പർ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കാണുക.) വലുതും വിരളമായ മോഡലുകൾ പരിശീലനം നടത്തുന്നതിലൂടെ, കൂടുതൽ ലളിതമായ സർക്യൂട്ടുകളുള്ള കൂടുതൽ കഴിവുള്ള മോഡലുകൾ നിർമ്മിക്കാൻ ഞങ്ങൾ കണ്ടെത്തി.
മോഡലുകളിലുടനീളം കഴിവിനെതിരെ വ്യാഖ്യാനക്ഷമതയെ ഞങ്ങൾ പ്ലോട്ട് ചെയ്യുന്നു (താഴത്തെ ഇടത് ഭാഗം മികച്ചതാണ്). ഒരു നിശ്ചിത വിരള മോഡൽ വലുപ്പത്തിനായി, വിരളത വർദ്ധിപ്പിക്കുന്നത്—കൂടുതൽ ഭാരങ്ങൾ പൂജ്യമായി സജ്ജീകരിക്കുന്നത്—ശേഷി കുറയ്ക്കുന്നു, പക്ഷേ വ്യാഖ്യാനക്ഷമത വർദ്ധിപ്പിക്കുന്നു. മോഡൽ വലുപ്പം വർദ്ധിപ്പിക്കുന്നത് ഈ പരിധിയെ പുറത്തേക്ക് നീക്കുന്നു, അതിനാൽ കഴിവും വ്യാഖ്യാനശേഷിയും ഉള്ള വലിയ മോഡലുകൾ നിർമ്മിക്കാൻ കഴിയും എന്ന് സൂചിപ്പിക്കുന്നു.
ഇത് വ്യക്തമായി ആക്കാൻ, പൈത്തൺ കോഡിൽ പരിശീലനം ലഭിച്ച ഒരു മോഡൽ ശരിയായ തരം ഉദ്ധരണി ഉപയോഗിച്ച് ഒരു സ്ട്രിംഗ് പൂർത്തിയാക്കേണ്ട ഒരു ടാസ്ക് പരിഗണിക്കുക. പൈത്തണിൽ, ‘ഹലോ’ ഒരൊറ്റ ഉദ്ധരണിയോടെ അവസാനിക്കണം, “ഹലോ” ഒരു ഇരട്ട ഉദ്ധരണിയോടെ അവസാനിക്കണം. ഏത് ഉദ്ധരണി തരം സ്ട്രിംഗ് തുറന്നത് ഓർത്തെടുത്ത് അവസാനം പുനർനിർമ്മിക്കുന്നതിലൂടെ മോഡലിന് ഇത് പരിഹരിക്കാൻ കഴിയും.
ഞങ്ങളുടെ ഏറ്റവും വ്യാഖ്യാനിക്കാവുന്ന മോഡലുകളിൽ കൃത്യമായി ആ അൽഗോരിതം നടപ്പിലാക്കുന്ന വിഭജിക്കപ്പെട്ട സർക്യൂട്ടുകൾ അടങ്ങിയിരിക്കുന്നതായി തോന്നുന്നു.

ഒരു സ്ട്രിംഗ് ഒരൊറ്റ അല്ലെങ്കിൽ ഇരട്ട ഉദ്ധരണിയിൽ അവസാനിപ്പിക്കണോ എന്ന് പ്രവചിക്കുന്ന സ്പാർസ് ട്രാൻസ്ഫോർമറിലെ ഉദാഹരണ സർക്യൂട്ട്. ഈ സർക്യൂട്ട് അഞ്ച് അവശേഷിക്കുന്ന ചാനലുകൾ (ലംബ ചാരനിറ വരകൾ), പാളി 0-ൽ രണ്ട് എംഎൽപി ന്യൂറോണുകൾ, പാളി 10-ൽ ഒരു ശ്രദ്ധ ക്വറി-കീ ചാനൽ, ഒരു മൂല്യ ചാനൽ എന്നിവ മാത്രം ഉപയോഗിക്കുന്നു. മോഡൽ (1) ഒരു അവശിഷ്ട ചാനലിൽ ഒറ്റ ഉദ്ധരണികളും മറ്റൊന്നിൽ ഇരട്ട ഉദ്ധരണികളും എൻകോഡ് ചെയ്യുന്നു; (2) ഏതെങ്കിലും ഉദ്ധരണി കണ്ടെത്താൻ ഒരു ചാനലാക്കി മാറ്റാൻ ഒരു എംഎൽപി പാളി ഉപയോഗിക്കുന്നു, ഒറ്റ, ഇരട്ട ഉദ്ധരണികൾക്കിടയിൽ തരംതിരിക്കുന്ന മറ്റൊരു ചാനൽ; (3) ഇടക്കാല ടോക്കണുകൾ അവഗണിക്കാനും മുമ്പത്തെ ഉദ്ധരണി കണ്ടെത്താനും അതിന്റെ തരം അന്തിമ ടോക്കണിലേക്ക് പകർത്താനും ഒരു ശ്രദ്ധ പ്രവർത്തനം ഉപയോഗിക്കുന്നു; (4) പൊരുത്തപ്പെടുന്ന ക്ലോസിംഗ് ഉദ്ധരണി പ്രവചിക്കുന്നു.
ഞങ്ങളുടെ നിർവചനത്തിൽ, മുകളിൽ കാണിച്ചിരിക്കുന്ന കൃത്യമായ കണക്ഷനുകൾ ടാസ്ക് നിർവഹിക്കാൻ മതിയാകും—മോഡൽ നീക്കം ചെയ്യുകയാണെങ്കിൽ, ഈ ചെറിയ സർക്യൂട്ട് ഇപ്പോഴും പ്രവർത്തിക്കും. അവയും അത്യാവശ്യമാണ് - ഈ കുറച്ച് അരികുകൾ ഇല്ലാതാക്കുന്നത് മോഡൽ പരാജയപ്പെടാൻ കാരണമാകുന്നു.
ഞങ്ങൾ കൂടുതൽ സങ്കീർണ്ണമായ ചില പെരുമാറ്റങ്ങളും പരിശോധിച്ചു. ഈ പെരുമാറ്റങ്ങൾക്കായുള്ള ഞങ്ങളുടെ സർക്യൂട്ടുകൾ (ഉദാഹരണത്തിന് ചുവടെ കാണിച്ചിരിക്കുന്ന വേരിയബിൾ ബൈൻഡിംഗ്) പൂർണ്ണമായും വിശദീകരിക്കാൻ ബുദ്ധിമുട്ടാണ്. അപ്പോഴും, മോഡൽ സ്വഭാവത്തെ പ്രവചിക്കാൻ കഴിയുന്ന ലളിതമായ ഭാഗിക വിശദീകരണങ്ങൾ നമുക്ക് നേടാൻ കഴിയുന്നു.
കുറച്ച് കുറവ് വിശദമായി, മറ്റൊരു ഉദാഹരണ സർക്യൂട്ട്. current എന്ന പേരിലുള്ള ഒരു വേരിയബിളിന്റെ തരം നിർണ്ണയിക്കാൻ, ഒരു ശ്രദ്ധ പ്രവർത്തനം വേരിയബിളിന്റെ പേര് set() token ലേക്ക് പകർത്തുന്നു, മറ്റൊരു പ്രവർത്തനം set() token നിന്ന് തരം വേരിയബിളിന്റെ തുടർന്നുള്ള ഉപയോഗത്തിലേക്ക് പകർത്തുന്നു, ഇത് മോഡലിന് ശരിയായ അടുത്തത് token അനുമാനിക്കാൻ സഹായിക്കുന്നു.
ഈ പ്രവർത്തി ഒരു വലിയ ലക്ഷ്യത്തിലേക്കുള്ള ആദ്യകാല ഘട്ടമാണ്: മോഡൽ കണക്കുകൂട്ടലുകൾ മനസ്സിലാക്കാൻ എളുപ്പമാക്കുക. പക്ഷേ, ഇനിയും ഒരുപാട് ദൂരം Go ചെയ്യാനുണ്ട്. ഞങ്ങളുടെ വിരളമായ മോഡലുകൾ അഗ്രഗണ്യ മോഡലുകളേക്കാൾ വളരെ ചെറുതാണ്, അവയുടെ കണക്കുകൂട്ടലിന്റെ വലിയ ഭാഗങ്ങൾ വ്യാഖ്യാനിക്കപ്പെടാതെ തുടരുന്നു.
അടുത്തത്, ഞങ്ങൾ ഞങ്ങളുടെ സാങ്കേതികവിദ്യകൾ വലിയ മോഡലുകളിലേക്ക് വ്യാപിപ്പിക്കാനും മോഡലുകളുടെ പെരുമാറ്റത്തെ കൂടുതൽ വിശദീകരിക്കാനും പ്രതീക്ഷിക്കുന്നു. കഴിവുള്ള വിരളമായ മോഡലുകളിൽ കൂടുതൽ സങ്കീർണ്ണമായ യുക്തിയുടെ അടിസ്ഥാനത്തിലുള്ള സർക്യൂട്ട് മോട്ടിഫുകൾ കണക്കാക്കുന്നതിലൂടെ, അതിർത്തി മോഡലുകളെക്കുറിച്ചുള്ള അന്വേഷണങ്ങളെ കൂടുതൽ ഫലപ്രദമായി ലക്ഷ്യമിടാൻ ഞങ്ങളെ സഹായിക്കുന്ന ഒരു ധാരണ വികസിപ്പിക്കാൻ ഞങ്ങൾക്ക് കഴിയും.
വിരളമായ മോഡലുകളുടെ പരിശീലനത്തിലെ കാര്യക്ഷമതയില്ലായ്മ മറികടക്കാൻ, മുന്നോട്ട് പോകാൻ രണ്ട് വഴികൾ കാണുന്നു. ആദ്യം മുതൽ വിരളമായ മോഡലുകളെ പരിശീലനം നടത്തുന്നതിന് പകരം നിലവിലുള്ള സാന്ദ്രമായ മോഡലുകളിൽ നിന്ന് വിരളമായ സർക്യൂട്ടുകൾ എക്സ്ട്രാക്റ്റ് ചെയ്യുക എന്നതാണ് ഒന്ന്. സാന്ദ്ര മോഡലുകൾ വിരള മോഡലുകളേക്കാൾ വിന്യസിക്കാൻ അടിസ്ഥാനപരമായി കൂടുതൽ കാര്യക്ഷമമാണ്. വ്യാഖ്യാനക്ഷമതയ്ക്കായി മോഡലുകൾ ട്രെയിൻ ചെയ്യുന്നതിനുള്ള കൂടുതൽ കാര്യക്ഷമമായ സാങ്കേതികതകൾ വികസിപ്പിക്കുക എന്നതാണ് മറ്റൊരു മാർഗ്ഗം, അത് ഉൽപാദനത്തിൽ ഉൾപ്പെടുത്താൻ എളുപ്പമായേക്കാം.
ഇവിടെ ഞങ്ങളുടെ കണ്ടെത്തലുകൾ ഈ സമീപനം കൂടുതൽ കഴിവുള്ള സിസ്റ്റങ്ങളിലേക്ക് വ്യാപിക്കുമെന്ന് ഒരു ഉറപ്പുമില്ലെന്ന് ശ്രദ്ധിക്കുക, എന്നാൽ ഈ ആദ്യ ഫലങ്ങൾ പ്രതീക്ഷാജനകമാണ്. ഞങ്ങളുടെ ലക്ഷ്യം ഒരു മോഡലിനെ എത്രത്തോളം വിശ്വസനീയമായി വ്യാഖ്യാനിക്കാൻ കഴിയുമെന്ന് ക്രമേണ വിപുലീകരിക്കുകയും, ഭാവിയിലെ സിസ്റ്റങ്ങളെ വിശകലനം ചെയ്യാനും, ഡീബഗ് ചെയ്യാനും, വിലയിരുത്താനും എളുപ്പമാക്കുന്ന ഉപകരണങ്ങൾ നിർമ്മിക്കുകയും ചെയ്യുക എന്നതാണ്.
രചയിതാക്കൾ
Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing


