13 ਨਵੰਬਰ 2025

Sparse circuits ਰਾਹੀਂ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਨੂੰ ਸਮਝਣਾ

ਅਸੀਂ ਮਾਡਲਾਂ ਨੂੰ ਹੋਰ ਸਰਲ, ਹੋਰ ਪਤਾ ਲਗਾਉਣ ਯੋਗ ਕਦਮਾਂ ਵਿੱਚ ਸੋਚਣ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ—ਤਾਂ ਜੋ ਅਸੀਂ ਵਧੀਆ ਢੰਗ ਨਾਲ ਸਮਝ ਸਕੀਏ ਕਿ ਉਹ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ।

ਪੇਪਰ ਪੜ੍ਹੋ

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਅੱਜ ਦੇ ਸਭ ਤੋਂ ਸਮਰੱਥ AI ਸਿਸਟਮਾਂ ਨੂੰ ਚਲਾਉਂਦੇ ਹਨ, ਪਰ ਉਨ੍ਹਾਂ ਨੂੰ ਸਮਝਣਾ ਅਜੇ ਵੀ ਮੁਸ਼ਕਲ ਹੈ। ਅਸੀਂ ਇਹ ਮਾਡਲ ਸਪਸ਼ਟ, ਕਦਮ-ਦਰ-ਕਦਮ ਹਦਾਇਤਾਂ ਨਾਲ ਨਹੀਂ ਲਿਖਦੇ। ਇਸ ਦੀ ਬਜਾਏ, ਇਹ ਅਰਬਾਂ ਅੰਦਰੂਨੀ ਕਨੈਕਸ਼ਨਾਂ ਜਾਂ “weights” ਨੂੰ ਠੀਕ ਕਰਕੇ ਸਿੱਖਦੇ ਹਨ, ਜਦ ਤੱਕ ਕਿ ਉਹ ਕਿਸੇ ਕੰਮ ਵਿੱਚ ਨਿਪੁੰਨ ਨਾ ਹੋ ਜਾਣ। ਅਸੀਂ ਟ੍ਰੇਨਿੰਗ ਦੇ ਨਿਯਮ ਬਣਾਉਂਦੇ ਹਾਂ, ਪਰ ਉਭਰਨ ਵਾਲੇ ਖ਼ਾਸ ਵਰਤਾਰੇ ਨਹੀਂ, ਅਤੇ ਨਤੀਜੇ ਵਜੋਂ ਕਨੈਕਸ਼ਨਾਂ ਦਾ ਇੱਕ ਘਣਾ ਜਾਲ ਬਣਦਾ ਹੈ ਜਿਸ ਨੂੰ ਕੋਈ ਮਨੁੱਖ ਆਸਾਨੀ ਨਾਲ ਸਮਝ ਨਹੀਂ ਸਕਦਾ।

ਅਸੀਂ ਵਿਆਖਿਆਯੋਗਤਾ ਨੂੰ ਕਿਵੇਂ ਵੇਖਦੇ ਹਾਂ

ਜਿਵੇਂ ਜਿਵੇਂ AI ਸਿਸਟਮ ਹੋਰ ਸਮਰੱਥ ਬਣਦੇ ਹਨ ਅਤੇ ਵਿਗਿਆਨ, ਸਿੱਖਿਆ ਅਤੇ ਸਿਹਤਸੇਵਾ ਵਿੱਚ ਫ਼ੈਸਲਿਆਂ 'ਤੇ ਅਸਲ ਦੁਨੀਆ ਵਾਲਾ ਅਸਰ ਪਾਂਦੇ ਹਨ, ਇਹ ਸਮਝਣਾ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ ਕਿ ਉਹ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ। ਵਿਆਖਿਆਯੋਗਤਾ ਉਹ ਤਰੀਕੇ ਹਨ ਜੋ ਸਾਨੂੰ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ ਕਿ ਕਿਸੇ ਮਾਡਲ ਨੇ ਕੋਈ ਨਿਰਧਾਰਤ ਆਉਟਪੁੱਟ ਕਿਉਂ ਦਿੱਤੀ। ਅਸੀਂ ਇਸ ਨੂੰ ਕਈ ਤਰੀਕਿਆਂ ਨਾਲ ਹਾਸਲ ਕਰ ਸਕਦੇ ਹਾਂ।

ਉਦਾਹਰਨ ਲਈ, ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਨੂੰ ਆਖਰੀ ਜਵਾਬ ਤੱਕ ਪਹੁੰਚਣ ਦੇ ਰਸਤੇ ਆਪਣੇ ਕੰਮ ਦੀ ਵਿਆਖਿਆ ਕਰਨ ਲਈ ਪ੍ਰੋਤਸਾਹਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। Chain of thought interpretability ਮਾਡਲ ਦੇ ਵਰਤਾਰੇ ਦੀ ਨਿਗਰਾਨੀ ਕਰਨ ਲਈ ਇਨ੍ਹਾਂ ਵਿਆਖਿਆਵਾਂ ਦਾ ਲਾਭ ਲੈਂਦੀ ਹੈ। ਇਹ ਤੁਰੰਤ ਲਾਭਕਾਰੀ ਹੈ: ਮੌਜੂਦਾ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਦੀਆਂ chain of thought ਧੋਖੇਬਾਜ਼ੀ ਵਰਗੇ ਚਿੰਤਾਜਨਕ ਵਰਤਾਰਿਆਂ ਬਾਰੇ ਜਾਣਕਾਰੀਪ੍ਰਦ ਲੱਗਦੀਆਂ ਹਨ। ਹਾਲਾਂਕਿ, ਇਸ ਗੁਣ 'ਤੇ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਿਰਭਰ ਕਰਨਾ ਇੱਕ ਨਾਜ਼ੁਕ ਰਣਨੀਤੀ ਹੈ, ਅਤੇ ਸਮੇਂ ਦੇ ਨਾਲ ਇਹ ਟੁੱਟ ਸਕਦੀ ਹੈ।

ਦੂਜੇ ਪਾਸੇ, mechanistic interpretability, ਜੋ ਇਸ ਕੰਮ ਦਾ ਕੇਂਦਰ ਹੈ, ਮਾਡਲ ਦੀਆਂ ਗਣਨਾਵਾਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ reverse engineer ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੀ ਹੈ। ਹੁਣ ਤੱਕ ਇਹ ਤੁਰੰਤ ਤੌਰ 'ਤੇ ਘੱਟ ਲਾਭਕਾਰੀ ਰਹੀ ਹੈ, ਪਰ ਸਿਧਾਂਤਕ ਤੌਰ 'ਤੇ ਇਹ ਮਾਡਲ ਦੇ ਵਰਤਾਰੇ ਦੀ ਹੋਰ ਪੂਰੀ ਵਿਆਖਿਆ ਦੇ ਸਕਦੀ ਹੈ। ਸਭ ਤੋਂ ਸੁਖਮ ਪੱਧਰ 'ਤੇ ਮਾਡਲ ਦੇ ਵਰਤਾਰੇ ਨੂੰ ਸਮਝਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਕੇ, mechanistic interpretability ਘੱਟ ਧਾਰਣਾਵਾਂ ਬਣਾਉਂਦੀ ਹੈ ਅਤੇ ਸਾਨੂੰ ਹੋਰ ਵਿਸ਼ਵਾਸ ਦੇ ਸਕਦੀ ਹੈ। ਪਰ ਹੇਠਲੇ-ਪੱਧਰ ਦੇ ਵੇਰਵਿਆਂ ਤੋਂ ਜਟਿਲ ਵਰਤਾਰਿਆਂ ਦੀਆਂ ਵਿਆਖਿਆਵਾਂ ਤੱਕ ਦਾ ਰਸਤਾ ਕਾਫ਼ੀ ਲੰਮਾ ਅਤੇ ਮੁਸ਼ਕਲ ਹੈ।

ਵਿਆਖਿਆਯੋਗਤਾ ਕਈ ਮੁੱਖ ਲਕਸ਼ਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦੀ ਹੈ, ਉਦਾਹਰਨ ਲਈ ਬਿਹਤਰ ਨਿਗਰਾਨੀ ਯੋਗ ਬਣਾਉਣਾ ਅਤੇ ਅਸੁਰੱਖਿਅਤ ਜਾਂ ਰਣਨੀਤਿਕ ਤੌਰ 'ਤੇ ਗ਼ੈਰ-ਸੰਰੇਖਿਤ ਵਰਤਾਰੇ ਦੇ ਸ਼ੁਰੂਆਤੀ ਸੰਕੇਤ ਪ੍ਰਦਾਨ ਕਰਨਾ। ਇਹ ਸਾਡੇ ਹੋਰ ਸੁਰੱਖਿਆ ਯਤਨਾਂ, ਜਿਵੇਂ scalable oversight, adversarial training, ਅਤੇ red-teaming, ਦਾ ਵੀ ਪੂਰਕ ਹੈ।

ਇਸ ਕੰਮ ਵਿੱਚ, ਅਸੀਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਅਕਸਰ ਅਸੀਂ ਮਾਡਲਾਂ ਨੂੰ ਅਜੇਹੇ ਤਰੀਕਿਆਂ ਨਾਲ ਟ੍ਰੇਨ ਕਰ ਸਕਦੇ ਹਾਂ ਜੋ ਉਨ੍ਹਾਂ ਨੂੰ ਵਿਆਖਿਆ ਕਰਨ ਲਈ ਹੋਰ ਆਸਾਨ ਬਣਾਉਂਦੇ ਹਨ। ਅਸੀਂ ਆਪਣੇ ਕੰਮ ਨੂੰ dense ਨੈੱਟਵਰਕਾਂ ਦੀ post-hoc analysis ਲਈ ਇੱਕ ਉਮੀਦਭਰਿਆ ਪੂਰਕ ਮੰਨਦੇ ਹਾਂ।

ਇਹ ਇੱਕ ਬਹੁਤ ਮਹੱਤਵਾਕਾਂਕਸ਼ੀ ਦਾਅ ਹੈ; ਸਾਡੇ ਕੰਮ ਤੋਂ ਸਾਡੇ ਸਭ ਤੋਂ ਸ਼ਕਤੀਸ਼ਾਲੀ ਮਾਡਲਾਂ ਦੇ ਜਟਿਲ ਵਰਤਾਰਿਆਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਮਝਣ ਤੱਕ ਦਾ ਰਸਤਾ ਲੰਮਾ ਹੈ। ਫਿਰ ਵੀ, ਸਰਲ ਵਰਤਾਰਿਆਂ ਲਈ, ਸਾਨੂੰ ਮਿਲਦਾ ਹੈ ਕਿ ਸਾਡੀ ਵਿਧੀ ਨਾਲ ਟ੍ਰੇਨ ਕੀਤੇ sparse ਮਾਡਲਾਂ ਵਿੱਚ ਛੋਟੇ, ਅਲੱਗ-ਅਲੱਗ ਸਰਕਿਟ ਹੁੰਦੇ ਹਨ ਜੋ ਸਮਝਣਯੋਗ ਵੀ ਹਨ ਅਤੇ ਵਰਤਾਰਾ ਕਰਨ ਲਈ ਕਾਫ਼ੀ ਵੀ। ਇਹ ਸੁਝਾਉਂਦਾ ਹੈ ਕਿ ਵੱਡੇ ਸਿਸਟਮਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਵੱਲ ਇੱਕ ਕਾਰਗਰ ਰਸਤਾ ਹੋ ਸਕਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਦੇ ਮਕੈਨਿਜ਼ਮ ਅਸੀਂ ਸਮਝ ਸਕੀਏ।

ਇੱਕ ਨਵਾਂ ਦ੍ਰਿਸ਼ਟਿਕੋਣ: sparse ਮਾਡਲ ਸਿੱਖਣਾ

ਪਿਛਲਾ mechanistic interpretability ਕੰਮ dense, ਉਲਝੇ ਹੋਏ ਨੈੱਟਵਰਕਾਂ ਤੋਂ ਸ਼ੁਰੂ ਹੋਇਆ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਸੁਲਝਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ। ਇਨ੍ਹਾਂ ਨੈੱਟਵਰਕਾਂ ਵਿੱਚ ਹਰ ਇਕ neuron ਹਜ਼ਾਰਾਂ ਹੋਰ neurons ਨਾਲ ਜੁੜਿਆ ਹੁੰਦਾ ਹੈ। ਜ਼ਿਆਦਾਤਰ neurons ਕਈ ਵੱਖਰੇ ਕੰਮ ਕਰਦੇ ਦਿਸਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਉਨ੍ਹਾਂ ਨੂੰ ਸਮਝਣਾ ਲਗਭਗ ਅਸੰਭਵ ਜਿਹਾ ਲੱਗਦਾ ਹੈ।

ਪਰ ਜੇ ਅਸੀਂ ਅਲਝਣ-ਰਹਿਤ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਟ੍ਰੇਨ ਕਰੀਏ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ neurons ਕਾਫ਼ੀ ਵੱਧ ਹੋਣ, ਪਰ ਹਰ neuron ਦੇ ਸਿਰਫ ਕੁਝ ਦਰਜਨ ਕਨੈਕਸ਼ਨ ਹੋਣ? ਤਾਂ ਸ਼ਾਇਦ ਬਣਿਆ ਨੈੱਟਵਰਕ ਹੋਰ ਸਰਲ ਹੋਵੇ ਅਤੇ ਸਮਝਣਾ ਹੋਰ ਆਸਾਨ ਹੋਵੇ। ਇਹ ਸਾਡੇ ਕੰਮ ਦਾ ਕੇਂਦਰੀ ਖੋਜ-ਦਾਅ ਹੈ।

ਇਸ ਸਿਧਾਂਤ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਦੇ ਹੋਏ, ਅਸੀਂ GPT‑2 ਵਰਗੇ ਮੌਜੂਦਾ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਨਾਲ ਬਹੁਤ ਮਿਲਦੀ-ਜੁਲਦੀ ਆਰਕੀਟੈਕਚਰ ਵਾਲੇ ਭਾਸ਼ਾ ਮਾਡਲ ਟ੍ਰੇਨ ਕੀਤੇ, ਇੱਕ ਛੋਟੇ ਬਦਲਾਅ ਨਾਲ: ਅਸੀਂ ਮਾਡਲ ਦੇ ਬਹੁਤ ਵੱਡੇ ਹਿੱਸੇ ਵਾਲੇ weights ਨੂੰ zero ਹੋਣ ਲਈ ਮਜਬੂਰ ਕਰਦੇ ਹਾਂ। ਇਸ ਨਾਲ ਮਾਡਲ ਨੂੰ ਆਪਣੇ neurons ਦਰਮਿਆਨ ਸੰਭਵ ਕਨੈਕਸ਼ਨਾਂ ਵਿੱਚੋਂ ਬਹੁਤ ਥੋੜ੍ਹੇ ਹੀ ਵਰਤਣ ਲਈ ਬੱਝਿਆ ਗਿਆ। ਇਹ ਇੱਕ ਸਰਲ ਬਦਲਾਅ ਹੈ, ਜਿਸ ਬਾਰੇ ਸਾਡਾ ਤਰਕ ਹੈ ਕਿ ਇਹ ਮਾਡਲ ਦੀਆਂ ਅੰਦਰੂਨੀ ਗਣਨਾਵਾਂ ਨੂੰ ਕਾਫ਼ੀ ਹੱਦ ਤੱਕ ਅਲੱਗ-ਅਲੱਗ ਕਰ ਦਿੰਦਾ ਹੈ।

ਘਣੇ ਸਰਕਿਟ ਅਤੇ sparse ਸਰਕਿਟ ਦੀ ਤੁਲਨਾ ਕਰਦਾ ਡਾਇਗ੍ਰਾਮ। Dense ਵਰਜਨ ਵਿੱਚ ਨੋਡਾਂ ਦੀਆਂ ਦੋ ਕਤਾਰਾਂ ਹਨ ਜਿਨ੍ਹਾਂ ਵਿਚਕਾਰ ਬਹੁਤ ਸਾਰੀਆਂ ਜੋੜੂ ਲਾਈਨਾਂ ਹਨ, ਜਦਕਿ sparse ਵਰਜਨ ਵਿੱਚ ਉਹੀ ਲੇਆਉਟ ਹੈ ਪਰ ਘੱਟ ਅਤੇ ਹੋਰ ਚੋਣਵਾਂ ਕਨੈਕਸ਼ਨਾਂ ਨਾਲ।

ਸਧਾਰਣ dense ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਵਿੱਚ, ਹਰ neuron ਅਗਲੀ ਪਰਤ ਦੇ ਹਰ neuron ਨਾਲ ਜੁੜਿਆ ਹੁੰਦਾ ਹੈ। ਸਾਡੇ sparse ਮਾਡਲਾਂ ਵਿੱਚ, ਹਰ neuron ਅਗਲੀ ਪਰਤ ਵਿੱਚ ਸਿਰਫ ਕੁਝ neurons ਨਾਲ ਹੀ ਜੁੜਦਾ ਹੈ। ਅਸੀਂ ਆਸ ਕਰਦੇ ਹਾਂ ਕਿ ਇਸ ਨਾਲ neurons ਅਤੇ ਪੂਰਾ ਨੈੱਟਵਰਕ ਸਮਝਣਾ ਆਸਾਨ ਹੋਵੇਗਾ।

ਵਿਆਖਿਆਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ

ਅਸੀਂ ਮਾਪਣਾ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ ਸਾਡੇ sparse ਮਾਡਲਾਂ ਦੀਆਂ ਗਣਨਾਵਾਂ ਕਿੰਨੀ ਹੱਦ ਤੱਕ ਅਲੱਗ-ਅਲੱਗ ਹਨ। ਅਸੀਂ ਮਾਡਲ ਦੇ ਵੱਖ-ਵੱਖ ਸਰਲ ਵਰਤਾਰਿਆਂ 'ਤੇ ਵਿਚਾਰ ਕੀਤਾ ਅਤੇ ਜਾਂਚਿਆ ਕਿ ਕੀ ਅਸੀਂ ਹਰ ਵਰਤਾਰੇ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਮਾਡਲ ਦੇ ਹਿੱਸਿਆਂ ਨੂੰ ਅਲੱਗ ਕਰ ਸਕਦੇ ਹਾਂ—ਜਿਨ੍ਹਾਂ ਨੂੰ ਅਸੀਂ circuits ਕਹਿੰਦੇ ਹਾਂ।

ਅਸੀਂ ਸਰਲ algorithmic ਕੰਮਾਂ ਦਾ ਇੱਕ ਹੱਥੋਂ-ਤਿਆਰ ਕੀਤਾ ਸੈੱਟ ਬਣਾਇਆ। ਹਰ ਕੰਮ ਲਈ, ਅਸੀਂ ਮਾਡਲ ਨੂੰ ਉਸ ਸਭ ਤੋਂ ਛੋਟੇ ਸਰਕਿਟ ਤੱਕ prune ਕੀਤਾ ਜੋ ਅਜੇ ਵੀ ਕੰਮ ਕਰ ਸਕੇ, ਅਤੇ ਦੇਖਿਆ ਕਿ ਉਹ ਸਰਕਿਟ ਕਿੰਨਾ ਸਰਲ ਹੈ। (ਵੇਰਵਿਆਂ ਲਈ, ਸਾਡਾ paper⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵੇਖੋ।) ਸਾਨੂੰ ਮਿਲਿਆ ਕਿ ਵੱਡੇ ਅਤੇ ਹੋਰ sparse ਮਾਡਲ ਟ੍ਰੇਨ ਕਰਕੇ, ਅਸੀਂ ਵਧਦੀ ਸਮਰੱਥਾ ਵਾਲੇ ਮਾਡਲ ਤਿਆਰ ਕਰ ਸਕਦੇ ਸੀ ਜਿਨ੍ਹਾਂ ਦੇ circuits ਹੋਰ ਅਤੇ ਹੋਰ ਸਰਲ ਹੁੰਦੇ ਗਏ।

ਸਕੈਟਰ ਪਲਾਟ ਜਿਸ ਵਿੱਚ x-ਅਕਸ 'ਤੇ ਮਾਡਲ ਦੀ ਸਮਰੱਥਾ (pretraining loss) ਅਤੇ y-ਅਕਸ 'ਤੇ ਵਿਆਖਿਆਯੋਗਤਾ (pruned circuit size) ਦਿਖਾਈ ਗਈ ਹੈ। ਬਿੰਦੂ ਵੱਖ-ਵੱਖ ਆਕਾਰਾਂ ਅਤੇ sparsity ਪੱਧਰਾਂ ਵਾਲੇ ਮਾਡਲ ਦਰਸਾਉਂਦੇ ਹਨ; ਰੰਗ ਕੁੱਲ parameters ਦਿਖਾਉਂਦਾ ਹੈ ਅਤੇ ਮਾਰਕਰ ਦਾ ਆਕਾਰ nonzero parameters ਦੀ ਗਿਣਤੀ ਦਿਖਾਉਂਦਾ ਹੈ। ਤੀਰ ਉੱਪਰ-ਸੱਜੇ ਦਿਸ਼ਾ ਨੂੰ “ਬਿਹਤਰ” ਵਜੋਂ ਲੇਬਲ ਕਰਦੇ ਹਨ।

ਅਸੀਂ ਮਾਡਲਾਂ ਵਿੱਚ ਵਿਆਖਿਆਯੋਗਤਾ ਦੀ ਤੁਲਨਾ ਸਮਰੱਥਾ ਨਾਲ ਕਰਦੇ ਹਾਂ (ਹੇਠਲਾ-ਖੱਬਾ ਬਿਹਤਰ ਹੈ)। ਨਿਰਧਾਰਤ sparse ਮਾਡਲ ਆਕਾਰ ਲਈ, sparsity ਵਧਾਉਣਾ—ਅਰਥਾਤ ਹੋਰ weights ਨੂੰ zero ਕਰਨਾ—ਸਮਰੱਥਾ ਘਟਾਉਂਦਾ ਹੈ ਪਰ ਵਿਆਖਿਆਯੋਗਤਾ ਵਧਾਉਂਦਾ ਹੈ। ਮਾਡਲ ਆਕਾਰ ਵਧਾਉਣ ਨਾਲ ਇਹ frontier ਬਾਹਰ ਵੱਲ ਖਿਸਕਦੀ ਹੈ, ਜੋ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ ਅਸੀਂ ਵੱਡੇ ਮਾਡਲ ਬਣਾ ਸਕਦੇ ਹਾਂ ਜੋ ਸਮਰੱਥ ਵੀ ਹੋਣ ਅਤੇ ਵਿਆਖਿਆਯੋਗ ਵੀ।

ਇਸ ਨੂੰ ਠੋਸ ਬਣਾਉਣ ਲਈ, ਇੱਕ ਅਜੇਹੇ ਕੰਮ ਬਾਰੇ ਸੋਚੋ ਜਿੱਥੇ Python ਕੋਡ 'ਤੇ ਟ੍ਰੇਨ ਕੀਤੇ ਮਾਡਲ ਨੂੰ ਸਹੀ ਕਿਸਮ ਦੇ quote ਨਾਲ ਇੱਕ string ਪੂਰੀ ਕਰਨੀ ਹੁੰਦੀ ਹੈ। Python ਵਿੱਚ, ‘hello’ ਦਾ ਅੰਤ single quote ਨਾਲ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ, ਅਤੇ “hello” ਦਾ ਅੰਤ double quote ਨਾਲ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਾਡਲ ਇਹ ਕੰਮ ਇਸ ਤਰ੍ਹਾਂ ਕਰ ਸਕਦਾ ਹੈ ਕਿ ਉਹ ਯਾਦ ਰੱਖੇ ਕਿ string ਕਿਹੜੇ quote type ਨਾਲ ਸ਼ੁਰੂ ਹੋਈ ਸੀ ਅਤੇ ਅੰਤ ਵਿੱਚ ਉਹੀ ਦੁਹਰਾਏ।

ਸਾਡੇ ਸਭ ਤੋਂ ਵਿਆਖਿਆਯੋਗ ਮਾਡਲਾਂ ਵਿੱਚ ਅਜੇਹੇ ਅਲੱਗ-ਅਲੱਗ circuits ਦਿਸਦੇ ਹਨ ਜੋ ਬਿਲਕੁਲ ਉਹੀ algorithm ਲਾਗੂ ਕਰਦੇ ਹਨ।

Sparse transformer ਵਿੱਚ ਇੱਕ ਉਦਾਹਰਨ ਸਰਕਿਟ ਦਿਖਾਉਂਦਾ ਡਾਇਗ੍ਰਾਮ। ਇਹ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਖ਼ਾਸ neurons ਅਤੇ attention heads “(” ਅਤੇ “circuits” ਵਰਗੇ input tokens ਦੇ ਜਵਾਬ ਵਿੱਚ ਕਿਵੇਂ ਸਰਗਰਮ ਹੁੰਦੇ ਹਨ, ਜਿੱਥੇ positive ਅਤੇ negative weights, multiplications, nonlinearities, ਅਤੇ MLP ਅਤੇ attention layers ਦੇ ਵਿਚਕਾਰ ਕਨੈਕਸ਼ਨਾਂ ਲਈ ਲੇਬਲ ਕੀਤੇ ਰਾਹ ਹਨ, ਜੋ ਆਖ਼ਿਰ ਵਿੱਚ output token probabilities ਤੱਕ ਪਹੁੰਚਦੇ ਹਨ।

Sparse ਟ੍ਰਾਂਸਫਾਰਮਰ ਵਿੱਚ ਇੱਕ ਉਦਾਹਰਨ ਸਰਕਿਟ ਜੋ ਅਨੁਮਾਨ ਲਗਾਉਂਦਾ ਹੈ ਕਿ string ਨੂੰ single quote ਨਾਲ ਖਤਮ ਕਰਨਾ ਹੈ ਜਾਂ double quote ਨਾਲ। ਇਹ ਸਰਕਿਟ ਕੇਵਲ ਪੰਜ residual channels (ਲੰਬਵੀਂ ਸਲੇਟੀ ਲਾਈਨਾਂ), layer 0 ਵਿੱਚ ਦੋ MLP neurons, ਅਤੇ layer 10 ਵਿੱਚ ਇੱਕ attention query-key channel ਅਤੇ ਇੱਕ value channel ਵਰਤਦਾ ਹੈ। ਮਾਡਲ (1) ਇੱਕ residual channel ਵਿੱਚ single quotes ਅਤੇ ਦੂਜੇ ਵਿੱਚ double quotes encode ਕਰਦਾ ਹੈ; (2) ਇਸ ਨੂੰ ਇੱਕ MLP layer ਰਾਹੀਂ ਇੱਕ ਅਜੇਹੇ channel ਵਿੱਚ ਬਦਲਦਾ ਹੈ ਜੋ ਕਿਸੇ ਵੀ quote ਨੂੰ ਪਛਾਣਦਾ ਹੈ ਅਤੇ ਦੂਜੇ ਵਿੱਚ ਜੋ single ਅਤੇ double quotes ਵਿਚਕਾਰ ਵਰਗੀਕਰਨ ਕਰਦਾ ਹੈ; (3) ਵਿਚਕਾਰਲੇ tokens ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਨ, ਪਿਛਲਾ quote ਲੱਭਣ ਅਤੇ ਉਸਦੀ ਕਿਸਮ ਨੂੰ ਅੰਤਿਮ token ਵਿੱਚ ਕਾਪੀ ਕਰਨ ਲਈ ਇੱਕ attention ਕਾਰਵਾਈ ਵਰਤਦਾ ਹੈ; ਅਤੇ (4) ਮਿਲਦਾ-ਜੁਲਦਾ closing quote ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਂਦਾ ਹੈ।

ਸਾਡੀ ਪਰਿਭਾਸ਼ਾ ਵਿੱਚ, ਉੱਪਰ ਦਿਖਾਏ ਗਏ ਸਹੀ ਕਨੈਕਸ਼ਨ ਕੰਮ ਕਰਨ ਲਈ ਕਾਫ਼ੀ ਹਨ—ਜੇ ਅਸੀਂ ਮਾਡਲ ਦਾ ਬਾਕੀ ਹਿੱਸਾ ਹਟਾ ਦੇਈਏ, ਤਾਂ ਵੀ ਇਹ ਛੋਟਾ ਸਰਕਿਟ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਲਾਜ਼ਮੀ ਵੀ ਹਨ—ਇਨ੍ਹਾਂ ਕੁਝ edges ਨੂੰ ਮਿਟਾਉਣ ਨਾਲ ਮਾਡਲ ਅਸਫਲ ਹੋ ਜਾਂਦਾ ਹੈ।

ਅਸੀਂ ਕੁਝ ਹੋਰ ਜਟਿਲ ਵਰਤਾਰੇ ਵੀ ਵੇਖੇ। ਇਨ੍ਹਾਂ ਵਰਤਾਰਿਆਂ ਲਈ ਸਾਡੇ circuits (ਉਦਾਹਰਨ ਲਈ, ਹੇਠਾਂ ਦਿਖਾਇਆ variable binding) ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਮਝਾਉਣਾ ਹੋਰ ਮੁਸ਼ਕਲ ਹੈ। ਫਿਰ ਵੀ, ਅਸੀਂ ਅਜੇ ਵੀ ਮੁਕਾਬਲਤਨ ਸਰਲ ਅੰਸ਼ਕ ਵਿਆਖਿਆਵਾਂ ਹਾਸਲ ਕਰ ਸਕਦੇ ਹਾਂ ਜੋ ਮਾਡਲ ਦੇ ਵਰਤਾਰੇ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦੀਆਂ ਹਨ।

Python ਫੰਕਸ਼ਨ get_neighbors ਵਿੱਚ ਇੱਕ ਉਦਾਹਰਨ sparse-transformer ਸਰਕਿਟ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਡਾਇਗ੍ਰਾਮ। current = set() ਨੂੰ ਕੀਤੀਆਂ ਦੋ ਅਸਾਈਨਮੈਂਟਾਂ ਨੂੰ ਬਾਕਸ ਕੀਤਾ ਗਿਆ ਹੈ, ਅਤੇ ਰੰਗੀਨ ਤੀਰ ਦਿਖਾਉਂਦੇ ਹਨ ਕਿ ਕਿਹੜੇ attention heads (Q/K/V ਇੰਡੈਕਸ ਨਾਲ ਲੇਬਲ ਕੀਤੇ) ਸਰਗਰਮ ਹੁੰਦੇ ਹਨ ਤਾਂ ਜੋ ਵੇਰੀਏਬਲ current ਦੀ ਹਰ ਘਟਨਾ ਨੂੰ ਲੂਪ ਵਿੱਚ ਇਸਦੀ ਵਰਤੋਂ ਨਾਲ ਜੋੜਿਆ ਜਾ ਸਕੇ।

ਘੱਟ ਵੇਰਵੇ ਨਾਲ ਇੱਕ ਹੋਰ ਉਦਾਹਰਨ ਸਰਕਿਟ। current ਨਾਮਕ ਵੇਰੀਏਬਲ ਦੀ ਕਿਸਮ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ, ਇੱਕ attention ਕਾਰਵਾਈ ਵੇਰੀਏਬਲ ਦਾ ਨਾਮ set() ਟੋਕਨ ਵਿੱਚ ਕਾਪੀ ਕਰਦੀ ਹੈ ਜਦੋਂ ਇਹ ਪਰਿਭਾਸ਼ਿਤ ਹੁੰਦਾ ਹੈ, ਅਤੇ ਇਕ ਹੋਰ ਬਾਅਦਲੀ ਕਾਰਵਾਈ set() ਟੋਕਨ ਤੋਂ ਕਿਸਮ ਨੂੰ ਵੇਰੀਏਬਲ ਦੀ ਅਗਲੀ ਵਰਤੋਂ ਵਿੱਚ ਕਾਪੀ ਕਰਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਮਾਡਲ ਸਹੀ ਅਗਲੇ ਟੋਕਨ ਦਾ ਅਨੁਮਾਨ ਲਗਾ ਸਕਦਾ ਹੈ।

ਅੱਗੇ ਦਾ ਰਸਤਾ

ਇਹ ਕੰਮ ਇੱਕ ਵੱਡੇ ਲਕਸ਼ ਵੱਲ ਸ਼ੁਰੂਆਤੀ ਕਦਮ ਹੈ: ਮਾਡਲ ਦੀਆਂ ਗਣਨਾਵਾਂ ਨੂੰ ਸਮਝਣਾ ਹੋਰ ਆਸਾਨ ਬਣਾਉਣਾ। ਪਰ ਅਜੇ ਕਾਫ਼ੀ ਲੰਮਾ ਰਸਤਾ ਤੈਅ ਕਰਨਾ ਬਾਕੀ ਹੈ। ਸਾਡੇ sparse ਮਾਡਲ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਨਾਲੋਂ ਕਾਫ਼ੀ ਛੋਟੇ ਹਨ, ਅਤੇ ਉਨ੍ਹਾਂ ਦੀ ਗਣਨਾ ਦੇ ਵੱਡੇ ਹਿੱਸੇ ਅਜੇ ਵੀ ਅਵਿਆਖਿਆਤ ਰਹਿੰਦੇ ਹਨ।

ਅਗਲੇ ਪੜਾਅ ਵਿੱਚ, ਅਸੀਂ ਆਪਣੀਆਂ ਤਕਨੀਕਾਂ ਨੂੰ ਵੱਡੇ ਮਾਡਲਾਂ ਤੱਕ ਸਕੇਲ ਕਰਨ ਅਤੇ ਮਾਡਲਾਂ ਦੇ ਹੋਰ ਵਰਤਾਰੇ ਨੂੰ ਸਮਝਾਉਣ ਦੀ ਆਸ ਕਰਦੇ ਹਾਂ। ਸਮਰੱਥ sparse ਮਾਡਲਾਂ ਵਿੱਚ ਹੋਰ ਜਟਿਲ ਰੀਜ਼ਨਿੰਗ ਦੇ ਆਧਾਰਭੂਤ circuit motifs ਨੂੰ ਸੂਚੀਬੱਧ ਕਰਕੇ, ਅਸੀਂ ਅਜਿਹੀ ਸਮਝ ਵਿਕਸਿਤ ਕਰ ਸਕਦੇ ਹਾਂ ਜੋ ਸਾਨੂੰ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਨੂੰ ਹੋਰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਨਿਸ਼ਾਨਾ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰੇ।

Sparse ਮਾਡਲਾਂ ਦੀ ਟ੍ਰੇਨਿੰਗ ਦੀ ਅਕੁਸ਼ਲਤਾ ਨੂੰ ਦੂਰ ਕਰਨ ਲਈ, ਅਸੀਂ ਦੋ ਰਸਤੇ ਵੇਖਦੇ ਹਾਂ। ਇੱਕ ਇਹ ਹੈ ਕਿ ਸ਼ੁਰੂ ਤੋਂ sparse ਮਾਡਲ ਟ੍ਰੇਨ ਕਰਨ ਦੀ ਬਜਾਏ, ਮੌਜੂਦਾ dense ਮਾਡਲਾਂ ਤੋਂ sparse circuits ਨਿਕਾਲੇ ਜਾਣ। Dense ਮਾਡਲ ਮੂਲ ਰੂਪ ਵਿੱਚ sparse ਮਾਡਲਾਂ ਨਾਲੋਂ ਤੈਨਾਤ ਕਰਨ ਲਈ ਹੋਰ ਕੁਸ਼ਲ ਹਨ। ਦੂਜਾ ਰਸਤਾ ਇਹ ਹੈ ਕਿ ਵਿਆਖਿਆਯੋਗਤਾ ਲਈ ਮਾਡਲਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਦੀਆਂ ਹੋਰ ਕੁਸ਼ਲ ਤਕਨੀਕਾਂ ਵਿਕਸਿਤ ਕੀਤੀਆਂ ਜਾਣ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਸ਼ਾਇਦ production ਵਿੱਚ ਲਗਾਉਣਾ ਆਸਾਨ ਹੋਵੇ।

ਧਿਆਨ ਰਹੇ ਕਿ ਇੱਥੇ ਸਾਡੇ ਨਤੀਜੇ ਇਸ ਗੱਲ ਦੀ ਕੋਈ ਗਾਰੰਟੀ ਨਹੀਂ ਹਨ ਕਿ ਇਹ ਦ੍ਰਿਸ਼ਟਿਕੋਣ ਹੋਰ ਸਮਰੱਥ ਸਿਸਟਮਾਂ ਤੱਕ ਵੀ ਫੈਲੇਗਾ, ਪਰ ਇਹ ਸ਼ੁਰੂਆਤੀ ਨਤੀਜੇ ਉਮੀਦਜਨਕ ਹਨ। ਸਾਡਾ ਲਕਸ਼ ਇਹ ਹੈ ਕਿ ਅਸੀਂ ਹੌਲੀ-ਹੌਲੀ ਮਾਡਲ ਦੇ ਉਸ ਹਿੱਸੇ ਨੂੰ ਵਧਾਈਏ ਜਿਸ ਦੀ ਅਸੀਂ ਭਰੋਸੇਯੋਗ ਵਿਆਖਿਆ ਕਰ ਸਕੀਏ, ਅਤੇ ਅਜੇਹੇ ਟੂਲ ਬਣਾਈਏ ਜੋ ਭਵਿੱਖ ਦੇ ਸਿਸਟਮਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ, ਡੀਬੱਗ ਅਤੇ ਮੁਲਾਂਕਣ ਕਰਨਾ ਆਸਾਨ ਬਣਾਉਣ।

ਲੇਖਕ

Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing

ਪੜ੍ਹਦੇ ਰਹੋ

ਸਭ ਵੇਖੋ

$math-breakthroughs art-card 1x1$

Ten advances in mathematics and theoretical computer science

ਪ੍ਰਕਾਸ਼ਨ1 ਅਗ 2026

ਦੋ ਸੈਟਿੰਗਾਂ ਨੂੰ ਸਮਰੱਥ ਕਰਨ ਨਾਲ ARC-AGI-3 ਬੈਂਚਮਾਰਕ ਸਕੋਰ ਤਿੰਨ ਗੁਣਾ ਕਿਵੇਂ ਹੋ ਗਏ

ਖੋਜ29 ਜੁਲਾ 2026

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

ਕੰਪਨੀ29 ਜੁਲਾ 2026