
OpenAI ਵਿੱਚ, ਅਸੀਂ AI ਸਿਸਟਮਾਂ ਨੂੰ ਹੋਰ ਲਾਭਦਾਇਕ ਅਤੇ ਭਰੋਸੇਯੋਗ ਬਣਾਉਣ ਲਈ ਕਾਫ਼ੀ ਮਿਹਨਤ ਕਰ ਰਹੇ ਹਾਂ. ਭਾਵੇਂ ਭਾਸ਼ਾ ਮਾਡਲ ਹੋਰ ਸਮਰੱਥ ਹੋ ਰਹੇ ਹਨ, ਇੱਕ ਚੁਣੌਤੀ ਅਜੇ ਵੀ ਪੂਰੀ ਤਰ੍ਹਾਂ ਹੱਲ ਕਰਨੀ ਬਹੁਤ ਔਖੀ ਹੈ: ਭਰਮ. ਇਸ ਨਾਲ ਸਾਡਾ ਭਾਵ ਉਹ ਮੌਕੇ ਹਨ ਜਦੋਂ ਕੋਈ ਮਾਡਲ ਪੂਰੇ ਭਰੋਸੇ ਨਾਲ ਅਜਿਹਾ ਜਵਾਬ ਬਣਾਉਂਦਾ ਹੈ ਜੋ ਸੱਚ ਨਹੀਂ ਹੁੰਦਾ. ਸਾਡੇ ਨਵੇਂ ਖੋਜ ਪੇਪਰ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਦਲੀਲ ਦਿੱਤੀ ਗਈ ਹੈ ਕਿ ਭਾਸ਼ਾ ਮਾਡਲ ਇਸ ਲਈ ਭਰਮ ਪੈਦਾ ਕਰਦੇ ਹਨ ਕਿਉਂਕਿ ਮਿਆਰੀ ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਮੁਲਾਂਕਣ ਪ੍ਰਕਿਰਿਆਵਾਂ ਅਨਿਸ਼ਚਿਤਤਾ ਨੂੰ ਮੰਨਣ ਦੀ ਬਜਾਏ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਨੂੰ ਇਨਾਮ ਦਿੰਦੀਆਂ ਹਨ.
ChatGPT ਵੀ ਭਰਮ ਪੈਦਾ ਕਰਦਾ ਹੈ. GPT‑5 ਵਿੱਚ ਖ਼ਾਸਕਰ ਰੀਜ਼ਨਿੰਗ ਦੌਰਾਨ ਭਰਮ ਕਾਫ਼ੀ ਘੱਟ ਹਨ, ਪਰ ਇਹ ਫਿਰ ਵੀ ਹੁੰਦੇ ਹਨ. ਸਾਰੇ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਲਈ ਭਰਮ ਇੱਕ ਬੁਨਿਆਦੀ ਚੁਣੌਤੀ ਹਨ, ਪਰ ਅਸੀਂ ਇਨ੍ਹਾਂ ਨੂੰ ਹੋਰ ਘਟਾਉਣ ਲਈ ਕਾਫ਼ੀ ਮਿਹਨਤ ਕਰ ਰਹੇ ਹਾਂ.
ਭਰਮ ਉਹ ਸੰਭਾਵਿਕ ਪਰ ਗਲਤ ਕਥਨ ਹਨ ਜੋ ਭਾਸ਼ਾ ਮਾਡਲ ਬਣਾਉਂਦੇ ਹਨ. ਇਹ ਹੈਰਾਨੀਜਨਕ ਢੰਗ ਨਾਲ ਸਾਹਮਣੇ ਆ ਸਕਦੇ ਹਨ, ਇੱਥੋਂ ਤੱਕ ਕਿ ਵੇਖਣ ਵਿੱਚ ਸਿੱਧੇ-ਸਾਦੇ ਸਵਾਲਾਂ ਲਈ ਵੀ. ਉਦਾਹਰਨ ਲਈ, ਜਦੋਂ ਅਸੀਂ ਇੱਕ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਵਰਤੇ ਜਾਂਦੇ ਚੈਟਬਾਟ ਨੂੰ Adam Tauman Kalai (ਇਸ ਪੇਪਰ ਦੇ ਇੱਕ ਲੇਖਕ) ਦੀ PhD ਡਿਸਰਟੇਸ਼ਨ ਦਾ ਸਿਰਲੇਖ ਪੁੱਛਿਆ, ਇਸ ਨੇ ਪੂਰੇ ਭਰੋਸੇ ਨਾਲ ਤਿੰਨ ਵੱਖ-ਵੱਖ ਜਵਾਬ ਦਿੱਤੇ—ਇੱਕ ਵੀ ਸਹੀ ਨਹੀਂ ਸੀ. ਜਦੋਂ ਅਸੀਂ ਉਸ ਦਾ ਜਨਮਦਿਨ ਪੁੱਛਿਆ, ਇਸ ਨੇ ਤਿੰਨ ਵੱਖ-ਵੱਖ ਤਾਰੀਖਾਂ ਦਿੱਤੀਆਂ, ਅਤੇ ਉਹ ਵੀ ਸਭ ਗਲਤ ਸਨ.
ਭਰਮ ਇਸ ਲਈ ਵੀ ਕਾਇਮ ਰਹਿੰਦੇ ਹਨ ਕਿਉਂਕਿ ਮੌਜੂਦਾ ਮੁਲਾਂਕਣ ਢੰਗ ਗਲਤ ਪ੍ਰੇਰਣਾ ਤੈਅ ਕਰਦੇ ਹਨ. ਹਾਲਾਂਕਿ ਮੁਲਾਂਕਣ ਖ਼ੁਦ ਸਿੱਧੇ ਤੌਰ 'ਤੇ ਭਰਮ ਪੈਦਾ ਨਹੀਂ ਕਰਦੇ, ਪਰ ਜ਼ਿਆਦਾਤਰ ਮੁਲਾਂਕਣ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਅਜੇਹੇ ਢੰਗ ਨਾਲ ਮਾਪਦੇ ਹਨ ਜੋ ਅਨਿਸ਼ਚਿਤਤਾ ਬਾਰੇ ਇਮਾਨਦਾਰ ਹੋਣ ਦੀ ਬਜਾਏ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕਰਦਾ ਹੈ.
ਇਸ ਨੂੰ ਬਹੁ-ਵਿਕਲਪੀ ਟੈਸਟ ਵਾਂਗ ਸੋਚੋ. ਜੇ ਤੁਹਾਨੂੰ ਜਵਾਬ ਨਹੀਂ ਪਤਾ ਪਰ ਤੁਸੀਂ ਅੰਨ੍ਹਾ ਅੰਦਾਜ਼ਾ ਲਗਾ ਲਓ, ਤਾਂ ਹੋ ਸਕਦਾ ਹੈ ਤੁਸੀਂ ਖੁਸ਼ਕਿਸਮਤ ਹੋਵੋ ਅਤੇ ਸਹੀ ਨਿਕਲ ਆਓ. ਇਸ ਨੂੰ ਖਾਲੀ ਛੱਡਣਾ ਯਕੀਨੀ ਤੌਰ 'ਤੇ ਸਿਫ਼ਰ ਦਿੰਦਾ ਹੈ. ਠੀਕ ਇਸੇ ਤਰ੍ਹਾਂ, ਜਦੋਂ ਮਾਡਲਾਂ ਨੂੰ ਸਿਰਫ਼ ਸਹੀਪਣ ਦੇ ਆਧਾਰ 'ਤੇ ਅੰਕ ਦਿੱਤੇ ਜਾਂਦੇ ਹਨ, ਯਾਨੀ ਉਹਨਾਂ ਸਵਾਲਾਂ ਦਾ ਪ੍ਰਤੀਸ਼ਤ ਜਿਨ੍ਹਾਂ ਦੇ ਉਹ ਬਿਲਕੁਲ ਸਹੀ ਜਵਾਬ ਦਿੰਦੇ ਹਨ, ਤਾਂ ਉਹਨਾਂ ਨੂੰ “ਮੈਨੂੰ ਨਹੀਂ ਪਤਾ” ਕਹਿਣ ਦੀ ਬਜਾਏ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ.
ਇੱਕ ਹੋਰ ਉਦਾਹਰਨ ਲਈ, ਮੰਨੋ ਕਿਸੇ ਭਾਸ਼ਾ ਮਾਡਲ ਨੂੰ ਕਿਸੇ ਵਿਅਕਤੀ ਦਾ ਜਨਮਦਿਨ ਪੁੱਛਿਆ ਜਾਂਦਾ ਹੈ ਪਰ ਉਸ ਨੂੰ ਨਹੀਂ ਪਤਾ. ਜੇ ਉਹ “10 ਸਤੰਬਰ” ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਂਦਾ ਹੈ, ਤਾਂ ਉਸ ਦੇ ਸਹੀ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ 365 ਵਿੱਚੋਂ 1 ਹੈ. “ਮੈਨੂੰ ਨਹੀਂ ਪਤਾ” ਕਹਿਣ ਨਾਲ ਸਿਫ਼ਰ ਅੰਕ ਯਕੀਨੀ ਹਨ. ਹਜ਼ਾਰਾਂ ਟੈਸਟ ਸਵਾਲਾਂ ਵਿੱਚ, ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਵਾਲਾ ਮਾਡਲ ਸਕੋਰਬੋਰਡਾਂ 'ਤੇ ਉਸ ਸੰਭਲ ਕੇ ਕੰਮ ਕਰਨ ਵਾਲੇ ਮਾਡਲ ਨਾਲੋਂ ਵਧੀਆ ਦਿੱਸਦਾ ਹੈ ਜੋ ਅਨਿਸ਼ਚਿਤਤਾ ਮੰਨ ਲੈਂਦਾ ਹੈ.
ਉਹਨਾਂ ਸਵਾਲਾਂ ਲਈ ਜਿੱਥੇ ਇੱਕੋ “ਸਹੀ ਜਵਾਬ” ਹੁੰਦਾ ਹੈ, ਜਵਾਬਾਂ ਦੀਆਂ ਤਿੰਨ ਕਿਸਮਾਂ ਸੋਚੀਆਂ ਜਾ ਸਕਦੀਆਂ ਹਨ: ਸਹੀ ਜਵਾਬ, ਗਲਤੀਆਂ, ਅਤੇ ਉਹ ਮੌਕੇ ਜਿੱਥੇ ਮਾਡਲ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਤੋਂ ਪਰਹੇਜ਼ ਕਰਦਾ ਹੈ. ਪਰਹੇਜ਼ ਕਰਨਾ ਨਿਮਰਤਾ ਦਾ ਹਿੱਸਾ ਹੈ, ਜੋ OpenAI ਦੀਆਂ ਮੁੱਖ ਮੁੱਲਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ. ਜ਼ਿਆਦਾਤਰ ਸਕੋਰਬੋਰਡ ਮਾਡਲਾਂ ਨੂੰ ਸਹੀਪਣ ਦੇ ਆਧਾਰ 'ਤੇ ਤਰਜੀਹ ਅਤੇ ਰੈਂਕ ਕਰਦੇ ਹਨ, ਪਰ ਗਲਤੀਆਂ ਪਰਹੇਜ਼ ਨਾਲੋਂ ਮਾੜੀਆਂ ਹੁੰਦੀਆਂ ਹਨ. ਸਾਡਾ ਮਾਡਲ ਸਪੈਕ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਕਹਿੰਦਾ ਹੈ ਕਿ ਪੂਰੇ ਭਰੋਸੇ ਨਾਲ ਉਹ ਜਾਣਕਾਰੀ ਦੇਣ ਦੀ ਬਜਾਏ ਜੋ ਗਲਤ ਹੋ ਸਕਦੀ ਹੈ, ਅਨਿਸ਼ਚਿਤਤਾ ਦਰਸਾਉਣਾ ਜਾਂ ਸਪਸ਼ਟੀਕਰਨ ਮੰਗਣਾ ਬਿਹਤਰ ਹੈ.
ਇੱਕ ਠੋਸ ਉਦਾਹਰਨ ਲਈ, SimpleQA eval ਨੂੰ GPT5 ਸਿਸਟਮ ਕਾਰਡ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦੀ ਇੱਕ ਉਦਾਹਰਨ ਵਜੋਂ ਵੇਖੋ.
ਮੈਟਰਿਕ | gpt-5-thinking-mini | OpenAI o4-mini |
ਪਰਹੇਜ਼ ਦਰ | 52% | 1% |
ਸਹੀਪਣ ਦਰ | 22% | 24% |
ਗਲਤੀ ਦਰ | 26% | 75% |
ਕੁੱਲ | 100% | 100% |
ਸਹੀਪਣ ਦੇ ਹਿਸਾਬ ਨਾਲ, ਪੁਰਾਣਾ OpenAI o4-mini ਮਾਡਲ ਕੁਝ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ. ਹਾਲਾਂਕਿ, ਇਸ ਦੀ ਗਲਤੀ ਦਰ (ਅਰਥਾਤ, ਭਰਮ ਦੀ ਦਰ) ਕਾਫ਼ੀ ਵੱਧ ਹੈ. ਜਦੋਂ ਅਨਿਸ਼ਚਿਤਤਾ ਹੋਵੇ ਤਾਂ ਰਣਨੀਤਿਕ ਅੰਦਾਜ਼ੇ ਸਹੀਪਣ ਨੂੰ ਸੁਧਾਰਦੇ ਹਨ, ਪਰ ਗਲਤੀਆਂ ਅਤੇ ਭਰਮ ਵੀ ਵਧਾਉਂਦੇ ਹਨ.
ਜਦੋਂ ਦਰਜਨਾਂ ਮੁਲਾਂਕਣਾਂ ਦੇ ਨਤੀਜਿਆਂ ਦਾ ਔਸਤ ਕੱਢਿਆ ਜਾਂਦਾ ਹੈ, ਬਹੁਤ ਸਾਰੇ ਬੈਂਚਮਾਰਕ ਸਹੀਪਣ ਮੈਟਰਿਕ ਨੂੰ ਹੀ ਚੁਣ ਲੈਂਦੇ ਹਨ, ਪਰ ਇਸ ਨਾਲ ਸਹੀ ਅਤੇ ਗਲਤ ਵਿਚਕਾਰ ਇੱਕ ਝੂਠਾ ਦੋਹਰਾ ਭੇਦ ਬਣ ਜਾਂਦਾ ਹੈ. SimpleQA ਵਰਗੇ ਸਧਾਰਣ ਮੁਲਾਂਕਣਾਂ 'ਤੇ, ਕੁਝ ਮਾਡਲ ਲਗਭਗ 100% ਸਹੀਪਣ ਹਾਸਲ ਕਰ ਲੈਂਦੇ ਹਨ ਅਤੇ ਇਸ ਤਰ੍ਹਾਂ ਭਰਮ ਖਤਮ ਕਰ ਦਿੰਦੇ ਹਨ. ਪਰ ਹੋਰ ਮੁਸ਼ਕਲ ਮੁਲਾਂਕਣਾਂ ਅਤੇ ਅਸਲੀ ਵਰਤੋਂ ਵਿੱਚ, ਸਹੀਪਣ 100% ਤੋਂ ਘੱਟ ਰਹਿੰਦਾ ਹੈ ਕਿਉਂਕਿ ਕੁਝ ਅਜੇਹੇ ਸਵਾਲ ਹੁੰਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਦਾ ਜਵਾਬ ਵੱਖ-ਵੱਖ ਕਾਰਨਾਂ ਕਰਕੇ ਨਿਰਧਾਰਤ ਨਹੀਂ ਕੀਤਾ ਜਾ ਸਕਦਾ, ਜਿਵੇਂ ਜਾਣਕਾਰੀ ਦੀ ਅਣਉਪਲਬਧਤਾ, ਛੋਟੇ ਮਾਡਲਾਂ ਦੀ ਸੀਮਿਤ ਸੋਚ ਸਮਰੱਥਾ, ਜਾਂ ਅਜਿਹੀਆਂ ਅਸਪਸ਼ਟਤਾਵਾਂ ਜਿਨ੍ਹਾਂ ਨੂੰ ਸਪਸ਼ਟ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ.
ਫਿਰ ਵੀ, ਸਿਰਫ਼ ਸਹੀਪਣ ਵਾਲੇ ਸਕੋਰਬੋਰਡ ਲੀਡਰਬੋਰਡਾਂ ਅਤੇ ਮਾਡਲ ਕਾਰਡਾਂ 'ਤੇ ਹਾਵੀ ਹਨ, ਜਿਸ ਨਾਲ ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਅਜੇਹੇ ਮਾਡਲ ਬਣਾਉਣ ਦੀ ਪ੍ਰੇਰਣਾ ਮਿਲਦੀ ਹੈ ਜੋ ਰੁਕਣ ਦੀ ਬਜਾਏ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ. ਇਹ ਇੱਕ ਕਾਰਣ ਹੈ ਕਿ, ਭਾਵੇਂ ਮਾਡਲ ਹੋਰ ਅੱਗੇ ਵਧ ਰਹੇ ਹਨ, ਉਹ ਫਿਰ ਵੀ ਭਰਮ ਪੈਦਾ ਕਰ ਸਕਦੇ ਹਨ, ਅਨਿਸ਼ਚਿਤਤਾ ਮੰਨਣ ਦੀ ਬਜਾਏ ਪੂਰੇ ਭਰੋਸੇ ਨਾਲ ਗਲਤ ਜਵਾਬ ਦਿੰਦੇ ਹਨ.
ਇਸ ਦਾ ਇੱਕ ਸਿੱਧਾ ਹੱਲ ਹੈ. ਜਿੱਥੇ ਪੂਰੇ ਭਰੋਸੇ ਵਾਲੀਆਂ ਗਲਤੀਆਂ ਲਈ ਅਨਿਸ਼ਚਿਤਤਾ ਨਾਲੋਂ ਵੱਧ ਸਜ਼ਾ ਦਿਓ, ਅਤੇ ਅਨਿਸ਼ਚਿਤਤਾ ਦੇ ਉਚਿਤ ਪ੍ਰਗਟਾਵਿਆਂ ਲਈ ਅੰਸ਼ਿਕ ਸਿਹਰਾ ਦਿਓ. ਇਹ ਵਿਚਾਰ ਨਵਾਂ ਨਹੀਂ ਹੈ. ਕੁਝ ਮਿਆਰੀਕ੍ਰਿਤ ਟੈਸਟਾਂ ਵਿੱਚ ਲੰਬੇ ਸਮੇਂ ਤੋਂ ਗਲਤ ਜਵਾਬਾਂ ਲਈ ਨਕਾਰਾਤਮਕ ਅੰਕਾਂ ਜਾਂ ਸਵਾਲ ਖਾਲੀ ਛੱਡਣ ਲਈ ਅੰਸ਼ਿਕ ਸਿਹਰੇ ਦੇ ਰੂਪ ਵਰਤੇ ਜਾਂਦੇ ਹਨ ਤਾਂ ਜੋ ਅੰਨ੍ਹੇ ਅੰਦਾਜ਼ਿਆਂ ਨੂੰ ਹਤੋਤਸ਼ਾਹਿਤ ਕੀਤਾ ਜਾ ਸਕੇ. ਕਈ ਖੋਜ ਸਮੂਹਾਂ ਨੇ ਅਨਿਸ਼ਚਿਤਤਾ ਅਤੇ ਕੈਲੀਬ੍ਰੇਸ਼ਨ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਣ ਵਾਲੇ ਮੁਲਾਂਕਣਾਂ ਦੀ ਵੀ ਪੜਤਾਲ ਕੀਤੀ ਹੈ.
ਸਾਡੀ ਗੱਲ ਵੱਖਰੀ ਹੈ. ਸਿਰਫ਼ ਨਾਲੇ ਕੁਝ ਨਵੇਂ ਅਨਿਸ਼ਚਿਤਤਾ-ਸਚੇਤ ਟੈਸਟ ਜੋੜ ਦੇਣਾ ਕਾਫ਼ੀ ਨਹੀਂ. ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਵਰਤੇ ਜਾਂਦੇ, ਸਹੀਪਣ-ਆਧਾਰਿਤ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਅਪਡੇਟ ਕਰਨ ਦੀ ਲੋੜ ਹੈ ਤਾਂ ਜੋ ਉਹਨਾਂ ਦੀ ਸਕੋਰਿੰਗ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਨੂੰ ਹਤੋਤਸ਼ਾਹਿਤ ਕਰੇ. ਜੇ ਮੁੱਖ ਸਕੋਰਬੋਰਡ ਖੁਸ਼ਕਿਸਮਤੀ ਵਾਲੇ ਅੰਦਾਜ਼ਿਆਂ ਨੂੰ ਇਨਾਮ ਦਿੰਦੇ ਰਹੇ, ਤਾਂ ਮਾਡਲ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣਾ ਸਿੱਖਦੇ ਰਹਿਣਗੇ. ਸਕੋਰਬੋਰਡ ਠੀਕ ਕਰਨ ਨਾਲ ਭਰਮ ਘਟਾਉਣ ਵਾਲੀਆਂ ਤਕਨੀਕਾਂ ਦੀ ਅਪਣਾਉਣ ਵਧ ਸਕਦੀ ਹੈ, ਚਾਹੇ ਉਹ ਨਵੀਂ ਤਰ੍ਹਾਂ ਵਿਕਸਿਤ ਕੀਤੀਆਂ ਗਈਆਂ ਹੋਣ ਜਾਂ ਪਹਿਲਾਂ ਦੀ ਖੋਜ ਤੋਂ ਆਈਆਂ ਹੋਣ.
ਅਸੀਂ ਇਸ ਬਾਰੇ ਗੱਲ ਕੀਤੀ ਹੈ ਕਿ ਭਰਮਾਂ ਤੋਂ ਛੁਟਕਾਰਾ ਪਾਉਣਾ ਇੰਨਾ ਔਖਾ ਕਿਉਂ ਹੈ, ਪਰ ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਇਹ ਬਹੁਤ ਖ਼ਾਸ ਤੱਥਾਤਮਕ ਗਲਤੀਆਂ ਆਉਂਦੀਆਂ ਕਿੱਥੋਂ ਹਨ? ਆਖ਼ਿਰਕਾਰ, ਵੱਡੇ ਪ੍ਰੀਟ੍ਰੇਨ ਕੀਤੇ ਮਾਡਲ ਵਿਰਲੇ ਹੀ ਹੋਰ ਕਿਸਮ ਦੀਆਂ ਗਲਤੀਆਂ ਦਿਖਾਉਂਦੇ ਹਨ, ਜਿਵੇਂ ਸ਼ਬਦ-ਜੋੜ ਦੀਆਂ ਗਲਤੀਆਂ ਜਾਂ ਨਾ ਮਿਲਦੀਆਂ ਕੋਠੀਆਂ. ਫਰਕ ਦਾ ਸਬੰਧ ਇਸ ਗੱਲ ਨਾਲ ਹੈ ਕਿ ਡਾਟਾ ਵਿੱਚ ਕਿਹੜੇ ਕਿਸਮ ਦੇ ਪੈਟਰਨ ਹਨ.
ਭਾਸ਼ਾ ਮਾਡਲ ਪਹਿਲਾਂ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਰਾਹੀਂ ਸਿੱਖਦੇ ਹਨ, ਜੋ ਬੇਹੱਦ ਵੱਡੀ ਮਾਤਰਾ ਦੇ ਪਾਠ ਵਿੱਚ ਅਗਲੇ ਸ਼ਬਦ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਹੈ. ਰਵਾਇਤੀ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਸਮੱਸਿਆਵਾਂ ਤੋਂ ਵੱਖ, ਹਰ ਕਥਨ ਨਾਲ “ਸਹੀ/ਗਲਤ” ਲੇਬਲ ਨਹੀਂ ਹੁੰਦੇ. ਮਾਡਲ ਸਿਰਫ਼ ਸੁਚਾਰੂ ਭਾਸ਼ਾ ਦੇ ਸਕਾਰਾਤਮਕ ਉਦਾਹਰਨ ਵੇਖਦਾ ਹੈ ਅਤੇ ਸਮੁੱਚੀ ਵੰਡ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣਾ ਪੈਂਦਾ ਹੈ.
ਜਦੋਂ ਤੁਹਾਡੇ ਕੋਲ ਗਲਤ ਵਜੋਂ ਲੇਬਲ ਕੀਤੀਆਂ ਕੋਈ ਉਦਾਹਰਨਾਂ ਹੀ ਨਾ ਹੋਣ, ਤਾਂ ਵੈਧ ਕਥਨਾਂ ਨੂੰ ਗੈਰ-ਵੈਧ ਕਥਨਾਂ ਤੋਂ ਵੱਖ ਕਰਨਾ ਦੋਗੁਣਾ ਔਖਾ ਹੋ ਜਾਂਦਾ ਹੈ. ਪਰ ਲੇਬਲ ਹੋਣ ਦੇ ਬਾਵਜੂਦ ਵੀ, ਕੁਝ ਗਲਤੀਆਂ ਅਟੱਲ ਹਨ. ਇਹ ਸਮਝਣ ਲਈ, ਇੱਕ ਸੌਖੀ ਤੁਲਨਾ ਸੋਚੋ. ਚਿੱਤਰ ਪਛਾਣ ਵਿੱਚ, ਜੇ ਲੱਖਾਂ ਬਿੱਲੀ ਅਤੇ ਕੁੱਤੇ ਦੀਆਂ ਤਸਵੀਰਾਂ ਨੂੰ “ਬਿੱਲੀ” ਜਾਂ “ਕੁੱਤਾ” ਵਜੋਂ ਲੇਬਲ ਕੀਤਾ ਗਿਆ ਹੋਵੇ, ਤਾਂ ਐਲਗੋਰਿਦਮ ਉਹਨਾਂ ਨੂੰ ਭਰੋਸੇਯੋਗ ਢੰਗ ਨਾਲ ਵਰਗੀਕ੍ਰਿਤ ਕਰਨਾ ਸਿੱਖ ਸਕਦੇ ਹਨ. ਪਰ ਮੰਨੋ ਇਸ ਦੀ ਬਜਾਏ ਹਰ ਪਾਲਤੂ ਜਾਨਵਰ ਦੀ ਤਸਵੀਰ ਨੂੰ ਉਸ ਦੇ ਜਨਮਦਿਨ ਨਾਲ ਲੇਬਲ ਕੀਤਾ ਜਾਵੇ. ਕਿਉਂਕਿ ਜਨਮਦਿਨ ਅਸਲ ਵਿੱਚ ਯਾਦ੍ਰਿਚਿਕ ਹੁੰਦੇ ਹਨ, ਇਹ ਕੰਮ ਹਮੇਸ਼ਾ ਗਲਤੀਆਂ ਪੈਦਾ ਕਰੇਗਾ, ਭਾਵੇਂ ਐਲਗੋਰਿਦਮ ਕਿੰਨਾ ਵੀ ਅੱਗੇ ਕਿਉਂ ਨਾ ਹੋਵੇ.
ਇਹੀ ਸਿਧਾਂਤ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਵਿੱਚ ਲਾਗੂ ਹੁੰਦਾ ਹੈ. ਸ਼ਬਦ-ਜੋੜ ਅਤੇ ਕੋਠੀਆਂ ਸਥਿਰ ਪੈਟਰਨਾਂ ਦੀ ਪਾਲਣਾ ਕਰਦੇ ਹਨ, ਇਸ ਲਈ ਉੱਥੇ ਗਲਤੀਆਂ ਪੈਮਾਨੇ ਨਾਲ ਗਾਇਬ ਹੋ ਜਾਂਦੀਆਂ ਹਨ. ਪਰ ਮਨਮਾਨੇ ਘੱਟ-ਆਵ੍ਰਿਤੀ ਵਾਲੇ ਤੱਥ, ਜਿਵੇਂ ਕਿਸੇ ਪਾਲਤੂ ਜਾਨਵਰ ਦਾ ਜਨਮਦਿਨ, ਸਿਰਫ਼ ਪੈਟਰਨਾਂ ਤੋਂ ਭਵਿੱਖਬਾਣੀ ਨਹੀਂ ਕੀਤੇ ਜਾ ਸਕਦੇ ਅਤੇ ਇਸ ਲਈ ਭਰਮ ਪੈਦਾ ਕਰਦੇ ਹਨ. ਸਾਡਾ ਵਿਸ਼ਲੇਸ਼ਣ ਸਮਝਾਉਂਦਾ ਹੈ ਕਿ ਅਗਲੇ ਸ਼ਬਦ ਦੀ ਭਵਿੱਖਬਾਣੀ ਤੋਂ ਕਿਹੜੇ ਕਿਸਮ ਦੇ ਭਰਮ ਉਭਰਣੇ ਚਾਹੀਦੇ ਹਨ. ਆਦਰਸ਼ ਤੌਰ 'ਤੇ, ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਤੋਂ ਬਾਅਦ ਦੇ ਹੋਰ ਪੜਾਅ ਉਹਨਾਂ ਨੂੰ ਹਟਾਉਣੇ ਚਾਹੀਦੇ ਹਨ, ਪਰ ਪਿਛਲੇ ਭਾਗ ਵਿੱਚ ਵਰਣਿਤ ਕਾਰਨਾਂ ਕਰਕੇ ਇਹ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਫਲ ਨਹੀਂ ਹੁੰਦਾ.
ਅਸੀਂ ਆਸ ਕਰਦੇ ਹਾਂ ਕਿ ਸਾਡੇ ਪੇਪਰ ਵਿੱਚ ਦਿੱਤਾ ਅੰਕੜਾਤਮਕ ਨਜ਼ਰੀਆ ਭਰਮਾਂ ਦੇ ਸੁਭਾਵ ਨੂੰ ਸਪਸ਼ਟ ਕਰੇਗਾ ਅਤੇ ਆਮ ਗਲਤਫ਼ਹਿਮੀਆਂ ਨੂੰ ਚੁਣੌਤੀ ਦੇਵੇਗਾ:
- ਦਾਅਵਾ: ਸਹੀਪਣ ਸੁਧਾਰ ਕੇ ਭਰਮ ਖਤਮ ਹੋ ਜਾਣਗੇ ਕਿਉਂਕਿ 100% ਸਹੀ ਮਾਡਲ ਕਦੇ ਭਰਮ ਨਹੀਂ ਪੈਦਾ ਕਰਦਾ.
ਨਤੀਜਾ: ਸਹੀਪਣ ਕਦੇ ਵੀ 100% ਤੱਕ ਨਹੀਂ ਪਹੁੰਚੇਗਾ ਕਿਉਂਕਿ ਮਾਡਲ ਦੇ ਆਕਾਰ, ਖੋਜ ਅਤੇ ਰੀਜ਼ਨਿੰਗ ਸਮਰੱਥਾਵਾਂ ਤੋਂ ਬਿਨਾਂ ਵੀ ਕੁਝ ਅਸਲੀ ਦੁਨੀਆ ਦੇ ਸਵਾਲ ਮੂਲ ਰੂਪ ਵਿੱਚ ਬੇਜਵਾਬ ਹੁੰਦੇ ਹਨ. - ਦਾਅਵਾ: ਭਰਮ ਅਟੱਲ ਹਨ.
ਨਤੀਜਾ: ਇਹ ਅਟੱਲ ਨਹੀਂ ਹਨ, ਕਿਉਂਕਿ ਭਾਸ਼ਾ ਮਾਡਲ ਅਨਿਸ਼ਚਿਤ ਹੋਣ 'ਤੇ ਜਵਾਬ ਦੇਣ ਤੋਂ ਪਰਹੇਜ਼ ਕਰ ਸਕਦੇ ਹਨ. - ਦਾਅਵਾ: ਭਰਮਾਂ ਤੋਂ ਬਚਣ ਲਈ ਉਸ ਪੱਧਰ ਦੀ ਬੁੱਧਿਮੱਤਾ ਚਾਹੀਦੀ ਹੈ ਜੋ ਸਿਰਫ਼ ਵੱਡੇ ਮਾਡਲਾਂ ਨਾਲ ਹੀ ਸੰਭਵ ਹੈ.
ਨਤੀਜਾ: ਇੱਕ ਛੋਟੇ ਮਾਡਲ ਲਈ ਆਪਣੀਆਂ ਹੱਦਾਂ ਜਾਣਣਾ ਹੋਰ ਆਸਾਨ ਹੋ ਸਕਦਾ ਹੈ. ਉਦਾਹਰਨ ਲਈ, ਜਦੋਂ ਉਸ ਨੂੰ Māori ਵਿੱਚ ਸਵਾਲ ਦਾ ਜਵਾਬ ਦੇਣ ਲਈ ਕਿਹਾ ਜਾਵੇ, ਤਾਂ ਇੱਕ ਛੋਟਾ ਮਾਡਲ ਜਿਸ ਨੂੰ Māori ਨਹੀਂ ਆਉਂਦੀ, ਸਿੱਧਾ “ਮੈਨੂੰ ਨਹੀਂ ਪਤਾ” ਕਹਿ ਸਕਦਾ ਹੈ, ਜਦਕਿ ਇੱਕ ਅਜਿਹਾ ਮਾਡਲ ਜੋ ਕੁਝ Māori ਜਾਣਦਾ ਹੈ, ਉਸ ਨੂੰ ਆਪਣੇ ਭਰੋਸੇ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣਾ ਪੈਂਦਾ ਹੈ. ਜਿਵੇਂ ਪੇਪਰ ਵਿੱਚ ਚਰਚਾ ਕੀਤੀ ਗਈ ਹੈ, “ਕੈਲੀਬ੍ਰੇਟਡ” ਹੋਣ ਲਈ ਸਹੀ ਹੋਣ ਨਾਲੋਂ ਕਾਫ਼ੀ ਘੱਟ ਗਣਨਾ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ. - ਦਾਅਵਾ: ਭਰਮ ਆਧੁਨਿਕ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਵਿੱਚ ਇੱਕ ਰਹੱਸਮਈ ਗੜਬੜ ਹਨ.
ਨਤੀਜਾ: ਅਸੀਂ ਉਹ ਅੰਕੜਾਤਮਕ ਮਕੈਨਿਜ਼ਮ ਸਮਝਦੇ ਹਾਂ ਜਿਨ੍ਹਾਂ ਰਾਹੀਂ ਭਰਮ ਪੈਦਾ ਹੁੰਦੇ ਹਨ ਅਤੇ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਇਨਾਮਿਤ ਕੀਤੇ ਜਾਂਦੇ ਹਨ. - ਦਾਅਵਾ: ਭਰਮ ਮਾਪਣ ਲਈ ਸਾਨੂੰ ਸਿਰਫ਼ ਇੱਕ ਵਧੀਆ ਭਰਮ eval ਦੀ ਲੋੜ ਹੈ.
ਨਤੀਜਾ: ਭਰਮ eval ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤੇ ਗਏ ਹਨ. ਹਾਲਾਂਕਿ, ਇੱਕ ਵਧੀਆ ਭਰਮ eval ਦਾ ਉਹਨਾਂ ਸੈਂਕੜਿਆਂ ਰਵਾਇਤੀ ਸਹੀਪਣ-ਆਧਾਰਿਤ evals ਦੇ ਮੁਕਾਬਲੇ ਘੱਟ ਪ੍ਰਭਾਵ ਹੁੰਦਾ ਹੈ ਜੋ ਨਿਮਰਤਾ ਨੂੰ ਦੰਡਿਤ ਅਤੇ ਅੰਦਾਜ਼ੇ ਨੂੰ ਇਨਾਮਿਤ ਕਰਦੇ ਹਨ. ਇਸ ਦੀ ਬਜਾਏ, ਸਾਰੇ ਮੁੱਖ eval ਮੈਟਰਿਕਾਂ ਨੂੰ ਅਨਿਸ਼ਚਿਤਤਾ ਦੇ ਪ੍ਰਗਟਾਵਿਆਂ ਨੂੰ ਇਨਾਮ ਦੇਣ ਲਈ ਮੁੜ-ਤਿਆਰ ਕਰਨ ਦੀ ਲੋੜ ਹੈ.
ਸਾਡੇ ਸਭ ਤੋਂ ਨਵੇਂ ਮਾਡਲਾਂ ਵਿੱਚ ਭਰਮ ਦੀਆਂ ਦਰਾਂ ਘੱਟ ਹਨ, ਅਤੇ ਅਸੀਂ ਆਪਣੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੁਆਰਾ ਨਿਕਲਣ ਵਾਲੀਆਂ ਪੂਰੇ ਭਰੋਸੇ ਵਾਲੀਆਂ ਗਲਤੀਆਂ ਦੀ ਦਰ ਨੂੰ ਹੋਰ ਘਟਾਉਣ ਲਈ ਲਗਾਤਾਰ ਮਿਹਨਤ ਕਰ ਰਹੇ ਹਾਂ.
ਘੋਸ਼ਣਾ ਦੇ ਯੋਗਦਾਨਕਰਤਾ
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke


