Sparse circuits ਰਾਹੀਂ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਨੂੰ ਸਮਝਣਾ
ਅਸੀਂ ਮਾਡਲਾਂ ਨੂੰ ਹੋਰ ਸਰਲ, ਹੋਰ ਪਤਾ ਲਗਾਉਣ ਯੋਗ ਕਦਮਾਂ ਵਿੱਚ ਸੋਚਣ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ—ਤਾਂ ਜੋ ਅਸੀਂ ਵਧੀਆ ਢੰਗ ਨਾਲ ਸਮਝ ਸਕੀਏ ਕਿ ਉਹ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ।
ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਅੱਜ ਦੇ ਸਭ ਤੋਂ ਸਮਰੱਥ AI ਸਿਸਟਮਾਂ ਨੂੰ ਚਲਾਉਂਦੇ ਹਨ, ਪਰ ਉਨ੍ਹਾਂ ਨੂੰ ਸਮਝਣਾ ਅਜੇ ਵੀ ਮੁਸ਼ਕਲ ਹੈ। ਅਸੀਂ ਇਹ ਮਾਡਲ ਸਪਸ਼ਟ, ਕਦਮ-ਦਰ-ਕਦਮ ਹਦਾਇਤਾਂ ਨਾਲ ਨਹੀਂ ਲਿਖਦੇ। ਇਸ ਦੀ ਬਜਾਏ, ਇਹ ਅਰਬਾਂ ਅੰਦਰੂਨੀ ਕਨੈਕਸ਼ਨਾਂ ਜਾਂ “weights” ਨੂੰ ਠੀਕ ਕਰਕੇ ਸਿੱਖਦੇ ਹਨ, ਜਦ ਤੱਕ ਕਿ ਉਹ ਕਿਸੇ ਕੰਮ ਵਿੱਚ ਨਿਪੁੰਨ ਨਾ ਹੋ ਜਾਣ। ਅਸੀਂ ਟ੍ਰੇਨਿੰਗ ਦੇ ਨਿਯਮ ਬਣਾਉਂਦੇ ਹਾਂ, ਪਰ ਉਭਰਨ ਵਾਲੇ ਖ਼ਾਸ ਵਰਤਾਰੇ ਨਹੀਂ, ਅਤੇ ਨਤੀਜੇ ਵਜੋਂ ਕਨੈਕਸ਼ਨਾਂ ਦਾ ਇੱਕ ਘਣਾ ਜਾਲ ਬਣਦਾ ਹੈ ਜਿਸ ਨੂੰ ਕੋਈ ਮਨੁੱਖ ਆਸਾਨੀ ਨਾਲ ਸਮਝ ਨਹੀਂ ਸਕਦਾ।
ਜਿਵੇਂ ਜਿਵੇਂ AI ਸਿਸਟਮ ਹੋਰ ਸਮਰੱਥ ਬਣਦੇ ਹਨ ਅਤੇ ਵਿਗਿਆਨ, ਸਿੱਖਿਆ ਅਤੇ ਸਿਹਤਸੇਵਾ ਵਿੱਚ ਫ਼ੈਸਲਿਆਂ 'ਤੇ ਅਸਲ ਦੁਨੀਆ ਵਾਲਾ ਅਸਰ ਪਾਂਦੇ ਹਨ, ਇਹ ਸਮਝਣਾ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ ਕਿ ਉਹ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ। ਵਿਆਖਿਆਯੋਗਤਾ ਉਹ ਤਰੀਕੇ ਹਨ ਜੋ ਸਾਨੂੰ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ ਕਿ ਕਿਸੇ ਮਾਡਲ ਨੇ ਕੋਈ ਨਿਰਧਾਰਤ ਆਉਟਪੁੱਟ ਕਿਉਂ ਦਿੱਤੀ। ਅਸੀਂ ਇਸ ਨੂੰ ਕਈ ਤਰੀਕਿਆਂ ਨਾਲ ਹਾਸਲ ਕਰ ਸਕਦੇ ਹਾਂ।
ਉਦਾਹਰਨ ਲਈ, ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਨੂੰ ਆਖਰੀ ਜਵਾਬ ਤੱਕ ਪਹੁੰਚਣ ਦੇ ਰਸਤੇ ਆਪਣੇ ਕੰਮ ਦੀ ਵਿਆਖਿਆ ਕਰਨ ਲਈ ਪ੍ਰੋਤਸਾਹਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। Chain of thought interpretability ਮਾਡਲ ਦੇ ਵਰਤਾਰੇ ਦੀ ਨਿਗਰਾਨੀ ਕਰਨ ਲਈ ਇਨ੍ਹਾਂ ਵਿਆਖਿਆਵਾਂ ਦਾ ਲਾਭ ਲੈਂਦੀ ਹੈ। ਇਹ ਤੁਰੰਤ ਲਾਭਕਾਰੀ ਹੈ: ਮੌਜੂਦਾ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਦੀਆਂ chain of thought ਧੋਖੇਬਾਜ਼ੀ ਵਰਗੇ ਚਿੰਤਾਜਨਕ ਵਰਤਾਰਿਆਂ ਬਾਰੇ ਜਾਣਕਾਰੀਪ੍ਰਦ ਲੱਗਦੀਆਂ ਹਨ। ਹਾਲਾਂਕਿ, ਇਸ ਗੁਣ 'ਤੇ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਿਰਭਰ ਕਰਨਾ ਇੱਕ ਨਾਜ਼ੁਕ ਰਣਨੀਤੀ ਹੈ, ਅਤੇ ਸਮੇਂ ਦੇ ਨਾਲ ਇਹ ਟੁੱਟ ਸਕਦੀ ਹੈ।
ਦੂਜੇ ਪਾਸੇ, mechanistic interpretability, ਜੋ ਇਸ ਕੰਮ ਦਾ ਕੇਂਦਰ ਹੈ, ਮਾਡਲ ਦੀਆਂ ਗਣਨਾਵਾਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ reverse engineer ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੀ ਹੈ। ਹੁਣ ਤੱਕ ਇਹ ਤੁਰੰਤ ਤੌਰ 'ਤੇ ਘੱਟ ਲਾਭਕਾਰੀ ਰਹੀ ਹੈ, ਪਰ ਸਿਧਾਂਤਕ ਤੌਰ 'ਤੇ ਇਹ ਮਾਡਲ ਦੇ ਵਰਤਾਰੇ ਦੀ ਹੋਰ ਪੂਰੀ ਵਿਆਖਿਆ ਦੇ ਸਕਦੀ ਹੈ। ਸਭ ਤੋਂ ਸੁਖਮ ਪੱਧਰ 'ਤੇ ਮਾਡਲ ਦੇ ਵਰਤਾਰੇ ਨੂੰ ਸਮਝਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਕੇ, mechanistic interpretability ਘੱਟ ਧਾਰਣਾਵਾਂ ਬਣਾਉਂਦੀ ਹੈ ਅਤੇ ਸਾਨੂੰ ਹੋਰ ਵਿਸ਼ਵਾਸ ਦੇ ਸਕਦੀ ਹੈ। ਪਰ ਹੇਠਲੇ-ਪੱਧਰ ਦੇ ਵੇਰਵਿਆਂ ਤੋਂ ਜਟਿਲ ਵਰਤਾਰਿਆਂ ਦੀਆਂ ਵਿਆਖਿਆਵਾਂ ਤੱਕ ਦਾ ਰਸਤਾ ਕਾਫ਼ੀ ਲੰਮਾ ਅਤੇ ਮੁਸ਼ਕਲ ਹੈ।
ਵਿਆਖਿਆਯੋਗਤਾ ਕਈ ਮੁੱਖ ਲਕਸ਼ਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦੀ ਹੈ, ਉਦਾਹਰਨ ਲਈ ਬਿਹਤਰ ਨਿਗਰਾਨੀ ਯੋਗ ਬਣਾਉਣਾ ਅਤੇ ਅਸੁਰੱਖਿਅਤ ਜਾਂ ਰਣਨੀਤਿਕ ਤੌਰ 'ਤੇ ਗ਼ੈਰ-ਸੰਰੇਖਿਤ ਵਰਤਾਰੇ ਦੇ ਸ਼ੁਰੂਆਤੀ ਸੰਕੇਤ ਪ੍ਰਦਾਨ ਕਰਨਾ। ਇਹ ਸਾਡੇ ਹੋਰ ਸੁਰੱਖਿਆ ਯਤਨਾਂ, ਜਿਵੇਂ scalable oversight, adversarial training, ਅਤੇ red-teaming, ਦਾ ਵੀ ਪੂਰਕ ਹੈ।
ਇਸ ਕੰਮ ਵਿੱਚ, ਅਸੀਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਅਕਸਰ ਅਸੀਂ ਮਾਡਲਾਂ ਨੂੰ ਅਜੇਹੇ ਤਰੀਕਿਆਂ ਨਾਲ ਟ੍ਰੇਨ ਕਰ ਸਕਦੇ ਹਾਂ ਜੋ ਉਨ੍ਹਾਂ ਨੂੰ ਵਿਆਖਿਆ ਕਰਨ ਲਈ ਹੋਰ ਆਸਾਨ ਬਣਾਉਂਦੇ ਹਨ। ਅਸੀਂ ਆਪਣੇ ਕੰਮ ਨੂੰ dense ਨੈੱਟਵਰਕਾਂ ਦੀ post-hoc analysis ਲਈ ਇੱਕ ਉਮੀਦਭਰਿਆ ਪੂਰਕ ਮੰਨਦੇ ਹਾਂ।
ਇਹ ਇੱਕ ਬਹੁਤ ਮਹੱਤਵਾਕਾਂਕਸ਼ੀ ਦਾਅ ਹੈ; ਸਾਡੇ ਕੰਮ ਤੋਂ ਸਾਡੇ ਸਭ ਤੋਂ ਸ਼ਕਤੀਸ਼ਾਲੀ ਮਾਡਲਾਂ ਦੇ ਜਟਿਲ ਵਰਤਾਰਿਆਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਮਝਣ ਤੱਕ ਦਾ ਰਸਤਾ ਲੰਮਾ ਹੈ। ਫਿਰ ਵੀ, ਸਰਲ ਵਰਤਾਰਿਆਂ ਲਈ, ਸਾਨੂੰ ਮਿਲਦਾ ਹੈ ਕਿ ਸਾਡੀ ਵਿਧੀ ਨਾਲ ਟ੍ਰੇਨ ਕੀਤੇ sparse ਮਾਡਲਾਂ ਵਿੱਚ ਛੋਟੇ, ਅਲੱਗ-ਅਲੱਗ ਸਰਕਿਟ ਹੁੰਦੇ ਹਨ ਜੋ ਸਮਝਣਯੋਗ ਵੀ ਹਨ ਅਤੇ ਵਰਤਾਰਾ ਕਰਨ ਲਈ ਕਾਫ਼ੀ ਵੀ। ਇਹ ਸੁਝਾਉਂਦਾ ਹੈ ਕਿ ਵੱਡੇ ਸਿਸਟਮਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਵੱਲ ਇੱਕ ਕਾਰਗਰ ਰਸਤਾ ਹੋ ਸਕਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਦੇ ਮਕੈਨਿਜ਼ਮ ਅਸੀਂ ਸਮਝ ਸਕੀਏ।
ਪਿਛਲਾ mechanistic interpretability ਕੰਮ dense, ਉਲਝੇ ਹੋਏ ਨੈੱਟਵਰਕਾਂ ਤੋਂ ਸ਼ੁਰੂ ਹੋਇਆ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਸੁਲਝਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ। ਇਨ੍ਹਾਂ ਨੈੱਟਵਰਕਾਂ ਵਿੱਚ ਹਰ ਇਕ neuron ਹਜ਼ਾਰਾਂ ਹੋਰ neurons ਨਾਲ ਜੁੜਿਆ ਹੁੰਦਾ ਹੈ। ਜ਼ਿਆਦਾਤਰ neurons ਕਈ ਵੱਖਰੇ ਕੰਮ ਕਰਦੇ ਦਿਸਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਉਨ੍ਹਾਂ ਨੂੰ ਸਮਝਣਾ ਲਗਭਗ ਅਸੰਭਵ ਜਿਹਾ ਲੱਗਦਾ ਹੈ।
ਪਰ ਜੇ ਅਸੀਂ ਅਲਝਣ-ਰਹਿਤ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਟ੍ਰੇਨ ਕਰੀਏ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ neurons ਕਾਫ਼ੀ ਵੱਧ ਹੋਣ, ਪਰ ਹਰ neuron ਦੇ ਸਿਰਫ ਕੁਝ ਦਰਜਨ ਕਨੈਕਸ਼ਨ ਹੋਣ? ਤਾਂ ਸ਼ਾਇਦ ਬਣਿਆ ਨੈੱਟਵਰਕ ਹੋਰ ਸਰਲ ਹੋਵੇ ਅਤੇ ਸਮਝਣਾ ਹੋਰ ਆਸਾਨ ਹੋਵੇ। ਇਹ ਸਾਡੇ ਕੰਮ ਦਾ ਕੇਂਦਰੀ ਖੋਜ-ਦਾਅ ਹੈ।
ਇਸ ਸਿਧਾਂਤ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਦੇ ਹੋਏ, ਅਸੀਂ GPT‑2 ਵਰਗੇ ਮੌਜੂਦਾ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਨਾਲ ਬਹੁਤ ਮਿਲਦੀ-ਜੁਲਦੀ ਆਰਕੀਟੈਕਚਰ ਵਾਲੇ ਭਾਸ਼ਾ ਮਾਡਲ ਟ੍ਰੇਨ ਕੀਤੇ, ਇੱਕ ਛੋਟੇ ਬਦਲਾਅ ਨਾਲ: ਅਸੀਂ ਮਾਡਲ ਦੇ ਬਹੁਤ ਵੱਡੇ ਹਿੱਸੇ ਵਾਲੇ weights ਨੂੰ zero ਹੋਣ ਲਈ ਮਜਬੂਰ ਕਰਦੇ ਹਾਂ। ਇਸ ਨਾਲ ਮਾਡਲ ਨੂੰ ਆਪਣੇ neurons ਦਰਮਿਆਨ ਸੰਭਵ ਕਨੈਕਸ਼ਨਾਂ ਵਿੱਚੋਂ ਬਹੁਤ ਥੋੜ੍ਹੇ ਹੀ ਵਰਤਣ ਲਈ ਬੱਝਿਆ ਗਿਆ। ਇਹ ਇੱਕ ਸਰਲ ਬਦਲਾਅ ਹੈ, ਜਿਸ ਬਾਰੇ ਸਾਡਾ ਤਰਕ ਹੈ ਕਿ ਇਹ ਮਾਡਲ ਦੀਆਂ ਅੰਦਰੂਨੀ ਗਣਨਾਵਾਂ ਨੂੰ ਕਾਫ਼ੀ ਹੱਦ ਤੱਕ ਅਲੱਗ-ਅਲੱਗ ਕਰ ਦਿੰਦਾ ਹੈ।
ਸਧਾਰਣ dense ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਵਿੱਚ, ਹਰ neuron ਅਗਲੀ ਪਰਤ ਦੇ ਹਰ neuron ਨਾਲ ਜੁੜਿਆ ਹੁੰਦਾ ਹੈ। ਸਾਡੇ sparse ਮਾਡਲਾਂ ਵਿੱਚ, ਹਰ neuron ਅਗਲੀ ਪਰਤ ਵਿੱਚ ਸਿਰਫ ਕੁਝ neurons ਨਾਲ ਹੀ ਜੁੜਦਾ ਹੈ। ਅਸੀਂ ਆਸ ਕਰਦੇ ਹਾਂ ਕਿ ਇਸ ਨਾਲ neurons ਅਤੇ ਪੂਰਾ ਨੈੱਟਵਰਕ ਸਮਝਣਾ ਆਸਾਨ ਹੋਵੇਗਾ।
ਅਸੀਂ ਮਾਪਣਾ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ ਸਾਡੇ sparse ਮਾਡਲਾਂ ਦੀਆਂ ਗਣਨਾਵਾਂ ਕਿੰਨੀ ਹੱਦ ਤੱਕ ਅਲੱਗ-ਅਲੱਗ ਹਨ। ਅਸੀਂ ਮਾਡਲ ਦੇ ਵੱਖ-ਵੱਖ ਸਰਲ ਵਰਤਾਰਿਆਂ 'ਤੇ ਵਿਚਾਰ ਕੀਤਾ ਅਤੇ ਜਾਂਚਿਆ ਕਿ ਕੀ ਅਸੀਂ ਹਰ ਵਰਤਾਰੇ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਮਾਡਲ ਦੇ ਹਿੱਸਿਆਂ ਨੂੰ ਅਲੱਗ ਕਰ ਸਕਦੇ ਹਾਂ—ਜਿਨ੍ਹਾਂ ਨੂੰ ਅਸੀਂ circuits ਕਹਿੰਦੇ ਹਾਂ।
ਅਸੀਂ ਸਰਲ algorithmic ਕੰਮਾਂ ਦਾ ਇੱਕ ਹੱਥੋਂ-ਤਿਆਰ ਕੀਤਾ ਸੈੱਟ ਬਣਾਇਆ। ਹਰ ਕੰਮ ਲਈ, ਅਸੀਂ ਮਾਡਲ ਨੂੰ ਉਸ ਸਭ ਤੋਂ ਛੋਟੇ ਸਰਕਿਟ ਤੱਕ prune ਕੀਤਾ ਜੋ ਅਜੇ ਵੀ ਕੰਮ ਕਰ ਸਕੇ, ਅਤੇ ਦੇਖਿਆ ਕਿ ਉਹ ਸਰਕਿਟ ਕਿੰਨਾ ਸਰਲ ਹੈ। (ਵੇਰਵਿਆਂ ਲਈ, ਸਾਡਾ paper(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵੇਖੋ।) ਸਾਨੂੰ ਮਿਲਿਆ ਕਿ ਵੱਡੇ ਅਤੇ ਹੋਰ sparse ਮਾਡਲ ਟ੍ਰੇਨ ਕਰਕੇ, ਅਸੀਂ ਵਧਦੀ ਸਮਰੱਥਾ ਵਾਲੇ ਮਾਡਲ ਤਿਆਰ ਕਰ ਸਕਦੇ ਸੀ ਜਿਨ੍ਹਾਂ ਦੇ circuits ਹੋਰ ਅਤੇ ਹੋਰ ਸਰਲ ਹੁੰਦੇ ਗਏ।
ਅਸੀਂ ਮਾਡਲਾਂ ਵਿੱਚ ਵਿਆਖਿਆਯੋਗਤਾ ਦੀ ਤੁਲਨਾ ਸਮਰੱਥਾ ਨਾਲ ਕਰਦੇ ਹਾਂ (ਹੇਠਲਾ-ਖੱਬਾ ਬਿਹਤਰ ਹੈ)। ਨਿਰਧਾਰਤ sparse ਮਾਡਲ ਆਕਾਰ ਲਈ, sparsity ਵਧਾਉਣਾ—ਅਰਥਾਤ ਹੋਰ weights ਨੂੰ zero ਕਰਨਾ—ਸਮਰੱਥਾ ਘਟਾਉਂਦਾ ਹੈ ਪਰ ਵਿਆਖਿਆਯੋਗਤਾ ਵਧਾਉਂਦਾ ਹੈ। ਮਾਡਲ ਆਕਾਰ ਵਧਾਉਣ ਨਾਲ ਇਹ frontier ਬਾਹਰ ਵੱਲ ਖਿਸਕਦੀ ਹੈ, ਜੋ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ ਅਸੀਂ ਵੱਡੇ ਮਾਡਲ ਬਣਾ ਸਕਦੇ ਹਾਂ ਜੋ ਸਮਰੱਥ ਵੀ ਹੋਣ ਅਤੇ ਵਿਆਖਿਆਯੋਗ ਵੀ।
ਇਸ ਨੂੰ ਠੋਸ ਬਣਾਉਣ ਲਈ, ਇੱਕ ਅਜੇਹੇ ਕੰਮ ਬਾਰੇ ਸੋਚੋ ਜਿੱਥੇ Python ਕੋਡ 'ਤੇ ਟ੍ਰੇਨ ਕੀਤੇ ਮਾਡਲ ਨੂੰ ਸਹੀ ਕਿਸਮ ਦੇ quote ਨਾਲ ਇੱਕ string ਪੂਰੀ ਕਰਨੀ ਹੁੰਦੀ ਹੈ। Python ਵਿੱਚ, ‘hello’ ਦਾ ਅੰਤ single quote ਨਾਲ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ, ਅਤੇ “hello” ਦਾ ਅੰਤ double quote ਨਾਲ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਾਡਲ ਇਹ ਕੰਮ ਇਸ ਤਰ੍ਹਾਂ ਕਰ ਸਕਦਾ ਹੈ ਕਿ ਉਹ ਯਾਦ ਰੱਖੇ ਕਿ string ਕਿਹੜੇ quote type ਨਾਲ ਸ਼ੁਰੂ ਹੋਈ ਸੀ ਅਤੇ ਅੰਤ ਵਿੱਚ ਉਹੀ ਦੁਹਰਾਏ।
ਸਾਡੇ ਸਭ ਤੋਂ ਵਿਆਖਿਆਯੋਗ ਮਾਡਲਾਂ ਵਿੱਚ ਅਜੇਹੇ ਅਲੱਗ-ਅਲੱਗ circuits ਦਿਸਦੇ ਹਨ ਜੋ ਬਿਲਕੁਲ ਉਹੀ algorithm ਲਾਗੂ ਕਰਦੇ ਹਨ।

Sparse ਟ੍ਰਾਂਸਫਾਰਮਰ ਵਿੱਚ ਇੱਕ ਉਦਾਹਰਨ ਸਰਕਿਟ ਜੋ ਅਨੁਮਾਨ ਲਗਾਉਂਦਾ ਹੈ ਕਿ string ਨੂੰ single quote ਨਾਲ ਖਤਮ ਕਰਨਾ ਹੈ ਜਾਂ double quote ਨਾਲ। ਇਹ ਸਰਕਿਟ ਕੇਵਲ ਪੰਜ residual channels (ਲੰਬਵੀਂ ਸਲੇਟੀ ਲਾਈਨਾਂ), layer 0 ਵਿੱਚ ਦੋ MLP neurons, ਅਤੇ layer 10 ਵਿੱਚ ਇੱਕ attention query-key channel ਅਤੇ ਇੱਕ value channel ਵਰਤਦਾ ਹੈ। ਮਾਡਲ (1) ਇੱਕ residual channel ਵਿੱਚ single quotes ਅਤੇ ਦੂਜੇ ਵਿੱਚ double quotes encode ਕਰਦਾ ਹੈ; (2) ਇਸ ਨੂੰ ਇੱਕ MLP layer ਰਾਹੀਂ ਇੱਕ ਅਜੇਹੇ channel ਵਿੱਚ ਬਦਲਦਾ ਹੈ ਜੋ ਕਿਸੇ ਵੀ quote ਨੂੰ ਪਛਾਣਦਾ ਹੈ ਅਤੇ ਦੂਜੇ ਵਿੱਚ ਜੋ single ਅਤੇ double quotes ਵਿਚਕਾਰ ਵਰਗੀਕਰਨ ਕਰਦਾ ਹੈ; (3) ਵਿਚਕਾਰਲੇ tokens ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਨ, ਪਿਛਲਾ quote ਲੱਭਣ ਅਤੇ ਉਸਦੀ ਕਿਸਮ ਨੂੰ ਅੰਤਿਮ token ਵਿੱਚ ਕਾਪੀ ਕਰਨ ਲਈ ਇੱਕ attention ਕਾਰਵਾਈ ਵਰਤਦਾ ਹੈ; ਅਤੇ (4) ਮਿਲਦਾ-ਜੁਲਦਾ closing quote ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਂਦਾ ਹੈ।
ਸਾਡੀ ਪਰਿਭਾਸ਼ਾ ਵਿੱਚ, ਉੱਪਰ ਦਿਖਾਏ ਗਏ ਸਹੀ ਕਨੈਕਸ਼ਨ ਕੰਮ ਕਰਨ ਲਈ ਕਾਫ਼ੀ ਹਨ—ਜੇ ਅਸੀਂ ਮਾਡਲ ਦਾ ਬਾਕੀ ਹਿੱਸਾ ਹਟਾ ਦੇਈਏ, ਤਾਂ ਵੀ ਇਹ ਛੋਟਾ ਸਰਕਿਟ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਲਾਜ਼ਮੀ ਵੀ ਹਨ—ਇਨ੍ਹਾਂ ਕੁਝ edges ਨੂੰ ਮਿਟਾਉਣ ਨਾਲ ਮਾਡਲ ਅਸਫਲ ਹੋ ਜਾਂਦਾ ਹੈ।
ਅਸੀਂ ਕੁਝ ਹੋਰ ਜਟਿਲ ਵਰਤਾਰੇ ਵੀ ਵੇਖੇ। ਇਨ੍ਹਾਂ ਵਰਤਾਰਿਆਂ ਲਈ ਸਾਡੇ circuits (ਉਦਾਹਰਨ ਲਈ, ਹੇਠਾਂ ਦਿਖਾਇਆ variable binding) ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਮਝਾਉਣਾ ਹੋਰ ਮੁਸ਼ਕਲ ਹੈ। ਫਿਰ ਵੀ, ਅਸੀਂ ਅਜੇ ਵੀ ਮੁਕਾਬਲਤਨ ਸਰਲ ਅੰਸ਼ਕ ਵਿਆਖਿਆਵਾਂ ਹਾਸਲ ਕਰ ਸਕਦੇ ਹਾਂ ਜੋ ਮਾਡਲ ਦੇ ਵਰਤਾਰੇ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦੀਆਂ ਹਨ।
ਘੱਟ ਵੇਰਵੇ ਨਾਲ ਇੱਕ ਹੋਰ ਉਦਾਹਰਨ ਸਰਕਿਟ। current ਨਾਮਕ ਵੇਰੀਏਬਲ ਦੀ ਕਿਸਮ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ, ਇੱਕ attention ਕਾਰਵਾਈ ਵੇਰੀਏਬਲ ਦਾ ਨਾਮ set() ਟੋਕਨ ਵਿੱਚ ਕਾਪੀ ਕਰਦੀ ਹੈ ਜਦੋਂ ਇਹ ਪਰਿਭਾਸ਼ਿਤ ਹੁੰਦਾ ਹੈ, ਅਤੇ ਇਕ ਹੋਰ ਬਾਅਦਲੀ ਕਾਰਵਾਈ set() ਟੋਕਨ ਤੋਂ ਕਿਸਮ ਨੂੰ ਵੇਰੀਏਬਲ ਦੀ ਅਗਲੀ ਵਰਤੋਂ ਵਿੱਚ ਕਾਪੀ ਕਰਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਮਾਡਲ ਸਹੀ ਅਗਲੇ ਟੋਕਨ ਦਾ ਅਨੁਮਾਨ ਲਗਾ ਸਕਦਾ ਹੈ।
ਇਹ ਕੰਮ ਇੱਕ ਵੱਡੇ ਲਕਸ਼ ਵੱਲ ਸ਼ੁਰੂਆਤੀ ਕਦਮ ਹੈ: ਮਾਡਲ ਦੀਆਂ ਗਣਨਾਵਾਂ ਨੂੰ ਸਮਝਣਾ ਹੋਰ ਆਸਾਨ ਬਣਾਉਣਾ। ਪਰ ਅਜੇ ਕਾਫ਼ੀ ਲੰਮਾ ਰਸਤਾ ਤੈਅ ਕਰਨਾ ਬਾਕੀ ਹੈ। ਸਾਡੇ sparse ਮਾਡਲ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਨਾਲੋਂ ਕਾਫ਼ੀ ਛੋਟੇ ਹਨ, ਅਤੇ ਉਨ੍ਹਾਂ ਦੀ ਗਣਨਾ ਦੇ ਵੱਡੇ ਹਿੱਸੇ ਅਜੇ ਵੀ ਅਵਿਆਖਿਆਤ ਰਹਿੰਦੇ ਹਨ।
ਅਗਲੇ ਪੜਾਅ ਵਿੱਚ, ਅਸੀਂ ਆਪਣੀਆਂ ਤਕਨੀਕਾਂ ਨੂੰ ਵੱਡੇ ਮਾਡਲਾਂ ਤੱਕ ਸਕੇਲ ਕਰਨ ਅਤੇ ਮਾਡਲਾਂ ਦੇ ਹੋਰ ਵਰਤਾਰੇ ਨੂੰ ਸਮਝਾਉਣ ਦੀ ਆਸ ਕਰਦੇ ਹਾਂ। ਸਮਰੱਥ sparse ਮਾਡਲਾਂ ਵਿੱਚ ਹੋਰ ਜਟਿਲ ਰੀਜ਼ਨਿੰਗ ਦੇ ਆਧਾਰਭੂਤ circuit motifs ਨੂੰ ਸੂਚੀਬੱਧ ਕਰਕੇ, ਅਸੀਂ ਅਜਿਹੀ ਸਮਝ ਵਿਕਸਿਤ ਕਰ ਸਕਦੇ ਹਾਂ ਜੋ ਸਾਨੂੰ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਨੂੰ ਹੋਰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਨਿਸ਼ਾਨਾ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰੇ।
Sparse ਮਾਡਲਾਂ ਦੀ ਟ੍ਰੇਨਿੰਗ ਦੀ ਅਕੁਸ਼ਲਤਾ ਨੂੰ ਦੂਰ ਕਰਨ ਲਈ, ਅਸੀਂ ਦੋ ਰਸਤੇ ਵੇਖਦੇ ਹਾਂ। ਇੱਕ ਇਹ ਹੈ ਕਿ ਸ਼ੁਰੂ ਤੋਂ sparse ਮਾਡਲ ਟ੍ਰੇਨ ਕਰਨ ਦੀ ਬਜਾਏ, ਮੌਜੂਦਾ dense ਮਾਡਲਾਂ ਤੋਂ sparse circuits ਨਿਕਾਲੇ ਜਾਣ। Dense ਮਾਡਲ ਮੂਲ ਰੂਪ ਵਿੱਚ sparse ਮਾਡਲਾਂ ਨਾਲੋਂ ਤੈਨਾਤ ਕਰਨ ਲਈ ਹੋਰ ਕੁਸ਼ਲ ਹਨ। ਦੂਜਾ ਰਸਤਾ ਇਹ ਹੈ ਕਿ ਵਿਆਖਿਆਯੋਗਤਾ ਲਈ ਮਾਡਲਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਦੀਆਂ ਹੋਰ ਕੁਸ਼ਲ ਤਕਨੀਕਾਂ ਵਿਕਸਿਤ ਕੀਤੀਆਂ ਜਾਣ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਸ਼ਾਇਦ production ਵਿੱਚ ਲਗਾਉਣਾ ਆਸਾਨ ਹੋਵੇ।
ਧਿਆਨ ਰਹੇ ਕਿ ਇੱਥੇ ਸਾਡੇ ਨਤੀਜੇ ਇਸ ਗੱਲ ਦੀ ਕੋਈ ਗਾਰੰਟੀ ਨਹੀਂ ਹਨ ਕਿ ਇਹ ਦ੍ਰਿਸ਼ਟਿਕੋਣ ਹੋਰ ਸਮਰੱਥ ਸਿਸਟਮਾਂ ਤੱਕ ਵੀ ਫੈਲੇਗਾ, ਪਰ ਇਹ ਸ਼ੁਰੂਆਤੀ ਨਤੀਜੇ ਉਮੀਦਜਨਕ ਹਨ। ਸਾਡਾ ਲਕਸ਼ ਇਹ ਹੈ ਕਿ ਅਸੀਂ ਹੌਲੀ-ਹੌਲੀ ਮਾਡਲ ਦੇ ਉਸ ਹਿੱਸੇ ਨੂੰ ਵਧਾਈਏ ਜਿਸ ਦੀ ਅਸੀਂ ਭਰੋਸੇਯੋਗ ਵਿਆਖਿਆ ਕਰ ਸਕੀਏ, ਅਤੇ ਅਜੇਹੇ ਟੂਲ ਬਣਾਈਏ ਜੋ ਭਵਿੱਖ ਦੇ ਸਿਸਟਮਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ, ਡੀਬੱਗ ਅਤੇ ਮੁਲਾਂਕਣ ਕਰਨਾ ਆਸਾਨ ਬਣਾਉਣ।
ਲੇਖਕ
Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing


