ਮੁੱਖ ਸਮੱਗਰੀ 'ਤੇ ਜਾਓ
OpenAI

5 ਸਤੰਬਰ 2025

ਖੋਜਪ੍ਰਕਾਸ਼ਨ

ਭਾਸ਼ਾ ਮਾਡਲ ਭਰਮ ਕਿਉਂ ਪੈਦਾ ਕਰਦੇ ਹਨ

ਟੀਲ, ਨੀਲੇ ਅਤੇ ਲੈਵੈਂਡਰ ਦੇ ਹੌਲੇ, ਵਗਦੇ ਸਟਰੋਕਾਂ ਨਾਲ ਫਰੇਮ ਵਿੱਚ ਤਿਰਛੇ ਮਿਲਦੀਆਂ ਗ੍ਰੇਡੀਐਂਟਾਂ ਵਾਲੀ ਅਮੂਰਤ ਤਸਵੀਰ.
ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

OpenAI ਵਿੱਚ, ਅਸੀਂ AI ਸਿਸਟਮਾਂ ਨੂੰ ਹੋਰ ਲਾਭਦਾਇਕ ਅਤੇ ਭਰੋਸੇਯੋਗ ਬਣਾਉਣ ਲਈ ਕਾਫ਼ੀ ਮਿਹਨਤ ਕਰ ਰਹੇ ਹਾਂ. ਭਾਵੇਂ ਭਾਸ਼ਾ ਮਾਡਲ ਹੋਰ ਸਮਰੱਥ ਹੋ ਰਹੇ ਹਨ, ਇੱਕ ਚੁਣੌਤੀ ਅਜੇ ਵੀ ਪੂਰੀ ਤਰ੍ਹਾਂ ਹੱਲ ਕਰਨੀ ਬਹੁਤ ਔਖੀ ਹੈ: ਭਰਮ. ਇਸ ਨਾਲ ਸਾਡਾ ਭਾਵ ਉਹ ਮੌਕੇ ਹਨ ਜਦੋਂ ਕੋਈ ਮਾਡਲ ਪੂਰੇ ਭਰੋਸੇ ਨਾਲ ਅਜਿਹਾ ਜਵਾਬ ਬਣਾਉਂਦਾ ਹੈ ਜੋ ਸੱਚ ਨਹੀਂ ਹੁੰਦਾ. ਸਾਡੇ ਨਵੇਂ ਖੋਜ ਪੇਪਰ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਦਲੀਲ ਦਿੱਤੀ ਗਈ ਹੈ ਕਿ ਭਾਸ਼ਾ ਮਾਡਲ ਇਸ ਲਈ ਭਰਮ ਪੈਦਾ ਕਰਦੇ ਹਨ ਕਿਉਂਕਿ ਮਿਆਰੀ ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਮੁਲਾਂਕਣ ਪ੍ਰਕਿਰਿਆਵਾਂ ਅਨਿਸ਼ਚਿਤਤਾ ਨੂੰ ਮੰਨਣ ਦੀ ਬਜਾਏ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਨੂੰ ਇਨਾਮ ਦਿੰਦੀਆਂ ਹਨ.

ChatGPT ਵੀ ਭਰਮ ਪੈਦਾ ਕਰਦਾ ਹੈ. GPT‑5 ਵਿੱਚ ਖ਼ਾਸਕਰ ਰੀਜ਼ਨਿੰਗ ਦੌਰਾਨ ਭਰਮ ਕਾਫ਼ੀ ਘੱਟ ਹਨ, ਪਰ ਇਹ ਫਿਰ ਵੀ ਹੁੰਦੇ ਹਨ. ਸਾਰੇ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਲਈ ਭਰਮ ਇੱਕ ਬੁਨਿਆਦੀ ਚੁਣੌਤੀ ਹਨ, ਪਰ ਅਸੀਂ ਇਨ੍ਹਾਂ ਨੂੰ ਹੋਰ ਘਟਾਉਣ ਲਈ ਕਾਫ਼ੀ ਮਿਹਨਤ ਕਰ ਰਹੇ ਹਾਂ.

ਭਰਮ ਕੀ ਹਨ?

ਭਰਮ ਉਹ ਸੰਭਾਵਿਕ ਪਰ ਗਲਤ ਕਥਨ ਹਨ ਜੋ ਭਾਸ਼ਾ ਮਾਡਲ ਬਣਾਉਂਦੇ ਹਨ. ਇਹ ਹੈਰਾਨੀਜਨਕ ਢੰਗ ਨਾਲ ਸਾਹਮਣੇ ਆ ਸਕਦੇ ਹਨ, ਇੱਥੋਂ ਤੱਕ ਕਿ ਵੇਖਣ ਵਿੱਚ ਸਿੱਧੇ-ਸਾਦੇ ਸਵਾਲਾਂ ਲਈ ਵੀ. ਉਦਾਹਰਨ ਲਈ, ਜਦੋਂ ਅਸੀਂ ਇੱਕ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਵਰਤੇ ਜਾਂਦੇ ਚੈਟਬਾਟ ਨੂੰ Adam Tauman Kalai (ਇਸ ਪੇਪਰ ਦੇ ਇੱਕ ਲੇਖਕ) ਦੀ PhD ਡਿਸਰਟੇਸ਼ਨ ਦਾ ਸਿਰਲੇਖ ਪੁੱਛਿਆ, ਇਸ ਨੇ ਪੂਰੇ ਭਰੋਸੇ ਨਾਲ ਤਿੰਨ ਵੱਖ-ਵੱਖ ਜਵਾਬ ਦਿੱਤੇ—ਇੱਕ ਵੀ ਸਹੀ ਨਹੀਂ ਸੀ. ਜਦੋਂ ਅਸੀਂ ਉਸ ਦਾ ਜਨਮਦਿਨ ਪੁੱਛਿਆ, ਇਸ ਨੇ ਤਿੰਨ ਵੱਖ-ਵੱਖ ਤਾਰੀਖਾਂ ਦਿੱਤੀਆਂ, ਅਤੇ ਉਹ ਵੀ ਸਭ ਗਲਤ ਸਨ.

ਪੇਪਰ ਲਈ ਪੜ੍ਹਾਉਣਾ

ਭਰਮ ਇਸ ਲਈ ਵੀ ਕਾਇਮ ਰਹਿੰਦੇ ਹਨ ਕਿਉਂਕਿ ਮੌਜੂਦਾ ਮੁਲਾਂਕਣ ਢੰਗ ਗਲਤ ਪ੍ਰੇਰਣਾ ਤੈਅ ਕਰਦੇ ਹਨ. ਹਾਲਾਂਕਿ ਮੁਲਾਂਕਣ ਖ਼ੁਦ ਸਿੱਧੇ ਤੌਰ 'ਤੇ ਭਰਮ ਪੈਦਾ ਨਹੀਂ ਕਰਦੇ, ਪਰ ਜ਼ਿਆਦਾਤਰ ਮੁਲਾਂਕਣ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਅਜੇਹੇ ਢੰਗ ਨਾਲ ਮਾਪਦੇ ਹਨ ਜੋ ਅਨਿਸ਼ਚਿਤਤਾ ਬਾਰੇ ਇਮਾਨਦਾਰ ਹੋਣ ਦੀ ਬਜਾਏ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕਰਦਾ ਹੈ.

ਇਸ ਨੂੰ ਬਹੁ-ਵਿਕਲਪੀ ਟੈਸਟ ਵਾਂਗ ਸੋਚੋ. ਜੇ ਤੁਹਾਨੂੰ ਜਵਾਬ ਨਹੀਂ ਪਤਾ ਪਰ ਤੁਸੀਂ ਅੰਨ੍ਹਾ ਅੰਦਾਜ਼ਾ ਲਗਾ ਲਓ, ਤਾਂ ਹੋ ਸਕਦਾ ਹੈ ਤੁਸੀਂ ਖੁਸ਼ਕਿਸਮਤ ਹੋਵੋ ਅਤੇ ਸਹੀ ਨਿਕਲ ਆਓ. ਇਸ ਨੂੰ ਖਾਲੀ ਛੱਡਣਾ ਯਕੀਨੀ ਤੌਰ 'ਤੇ ਸਿਫ਼ਰ ਦਿੰਦਾ ਹੈ. ਠੀਕ ਇਸੇ ਤਰ੍ਹਾਂ, ਜਦੋਂ ਮਾਡਲਾਂ ਨੂੰ ਸਿਰਫ਼ ਸਹੀਪਣ ਦੇ ਆਧਾਰ 'ਤੇ ਅੰਕ ਦਿੱਤੇ ਜਾਂਦੇ ਹਨ, ਯਾਨੀ ਉਹਨਾਂ ਸਵਾਲਾਂ ਦਾ ਪ੍ਰਤੀਸ਼ਤ ਜਿਨ੍ਹਾਂ ਦੇ ਉਹ ਬਿਲਕੁਲ ਸਹੀ ਜਵਾਬ ਦਿੰਦੇ ਹਨ, ਤਾਂ ਉਹਨਾਂ ਨੂੰ “ਮੈਨੂੰ ਨਹੀਂ ਪਤਾ” ਕਹਿਣ ਦੀ ਬਜਾਏ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ.

ਇੱਕ ਹੋਰ ਉਦਾਹਰਨ ਲਈ, ਮੰਨੋ ਕਿਸੇ ਭਾਸ਼ਾ ਮਾਡਲ ਨੂੰ ਕਿਸੇ ਵਿਅਕਤੀ ਦਾ ਜਨਮਦਿਨ ਪੁੱਛਿਆ ਜਾਂਦਾ ਹੈ ਪਰ ਉਸ ਨੂੰ ਨਹੀਂ ਪਤਾ. ਜੇ ਉਹ “10 ਸਤੰਬਰ” ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਂਦਾ ਹੈ, ਤਾਂ ਉਸ ਦੇ ਸਹੀ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ 365 ਵਿੱਚੋਂ 1 ਹੈ. “ਮੈਨੂੰ ਨਹੀਂ ਪਤਾ” ਕਹਿਣ ਨਾਲ ਸਿਫ਼ਰ ਅੰਕ ਯਕੀਨੀ ਹਨ. ਹਜ਼ਾਰਾਂ ਟੈਸਟ ਸਵਾਲਾਂ ਵਿੱਚ, ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਵਾਲਾ ਮਾਡਲ ਸਕੋਰਬੋਰਡਾਂ 'ਤੇ ਉਸ ਸੰਭਲ ਕੇ ਕੰਮ ਕਰਨ ਵਾਲੇ ਮਾਡਲ ਨਾਲੋਂ ਵਧੀਆ ਦਿੱਸਦਾ ਹੈ ਜੋ ਅਨਿਸ਼ਚਿਤਤਾ ਮੰਨ ਲੈਂਦਾ ਹੈ.

ਉਹਨਾਂ ਸਵਾਲਾਂ ਲਈ ਜਿੱਥੇ ਇੱਕੋ “ਸਹੀ ਜਵਾਬ” ਹੁੰਦਾ ਹੈ, ਜਵਾਬਾਂ ਦੀਆਂ ਤਿੰਨ ਕਿਸਮਾਂ ਸੋਚੀਆਂ ਜਾ ਸਕਦੀਆਂ ਹਨ: ਸਹੀ ਜਵਾਬ, ਗਲਤੀਆਂ, ਅਤੇ ਉਹ ਮੌਕੇ ਜਿੱਥੇ ਮਾਡਲ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਤੋਂ ਪਰਹੇਜ਼ ਕਰਦਾ ਹੈ. ਪਰਹੇਜ਼ ਕਰਨਾ ਨਿਮਰਤਾ ਦਾ ਹਿੱਸਾ ਹੈ, ਜੋ OpenAI ਦੀਆਂ ਮੁੱਖ ਮੁੱਲਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ. ਜ਼ਿਆਦਾਤਰ ਸਕੋਰਬੋਰਡ ਮਾਡਲਾਂ ਨੂੰ ਸਹੀਪਣ ਦੇ ਆਧਾਰ 'ਤੇ ਤਰਜੀਹ ਅਤੇ ਰੈਂਕ ਕਰਦੇ ਹਨ, ਪਰ ਗਲਤੀਆਂ ਪਰਹੇਜ਼ ਨਾਲੋਂ ਮਾੜੀਆਂ ਹੁੰਦੀਆਂ ਹਨ. ਸਾਡਾ ਮਾਡਲ ਸਪੈਕ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਕਹਿੰਦਾ ਹੈ ਕਿ ਪੂਰੇ ਭਰੋਸੇ ਨਾਲ ਉਹ ਜਾਣਕਾਰੀ ਦੇਣ ਦੀ ਬਜਾਏ ਜੋ ਗਲਤ ਹੋ ਸਕਦੀ ਹੈ, ਅਨਿਸ਼ਚਿਤਤਾ ਦਰਸਾਉਣਾ ਜਾਂ ਸਪਸ਼ਟੀਕਰਨ ਮੰਗਣਾ ਬਿਹਤਰ ਹੈ.

ਇੱਕ ਠੋਸ ਉਦਾਹਰਨ ਲਈ, SimpleQA eval ਨੂੰ GPT5 ਸਿਸਟਮ ਕਾਰਡ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦੀ ਇੱਕ ਉਦਾਹਰਨ ਵਜੋਂ ਵੇਖੋ.

ਮੈਟਰਿਕ

gpt-5-thinking-mini

OpenAI o4-mini

ਪਰਹੇਜ਼ ਦਰ
(ਕੋਈ ਖਾਸ ਜਵਾਬ ਨਹੀਂ ਦਿੱਤਾ ਜਾਂਦਾ)

52%

1%

ਸਹੀਪਣ ਦਰ
(ਸਹੀ ਜਵਾਬ, ਵੱਧ ਹੋਵੇ ਤਾਂ ਬਿਹਤਰ)

22%

24%

ਗਲਤੀ ਦਰ
(ਗਲਤ ਜਵਾਬ, ਘੱਟ ਹੋਵੇ ਤਾਂ ਬਿਹਤਰ)

26%

75%

ਕੁੱਲ

100%

100%

ਸਹੀਪਣ ਦੇ ਹਿਸਾਬ ਨਾਲ, ਪੁਰਾਣਾ OpenAI o4-mini ਮਾਡਲ ਕੁਝ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ. ਹਾਲਾਂਕਿ, ਇਸ ਦੀ ਗਲਤੀ ਦਰ (ਅਰਥਾਤ, ਭਰਮ ਦੀ ਦਰ) ਕਾਫ਼ੀ ਵੱਧ ਹੈ. ਜਦੋਂ ਅਨਿਸ਼ਚਿਤਤਾ ਹੋਵੇ ਤਾਂ ਰਣਨੀਤਿਕ ਅੰਦਾਜ਼ੇ ਸਹੀਪਣ ਨੂੰ ਸੁਧਾਰਦੇ ਹਨ, ਪਰ ਗਲਤੀਆਂ ਅਤੇ ਭਰਮ ਵੀ ਵਧਾਉਂਦੇ ਹਨ.

ਜਦੋਂ ਦਰਜਨਾਂ ਮੁਲਾਂਕਣਾਂ ਦੇ ਨਤੀਜਿਆਂ ਦਾ ਔਸਤ ਕੱਢਿਆ ਜਾਂਦਾ ਹੈ, ਬਹੁਤ ਸਾਰੇ ਬੈਂਚਮਾਰਕ ਸਹੀਪਣ ਮੈਟਰਿਕ ਨੂੰ ਹੀ ਚੁਣ ਲੈਂਦੇ ਹਨ, ਪਰ ਇਸ ਨਾਲ ਸਹੀ ਅਤੇ ਗਲਤ ਵਿਚਕਾਰ ਇੱਕ ਝੂਠਾ ਦੋਹਰਾ ਭੇਦ ਬਣ ਜਾਂਦਾ ਹੈ. SimpleQA ਵਰਗੇ ਸਧਾਰਣ ਮੁਲਾਂਕਣਾਂ 'ਤੇ, ਕੁਝ ਮਾਡਲ ਲਗਭਗ 100% ਸਹੀਪਣ ਹਾਸਲ ਕਰ ਲੈਂਦੇ ਹਨ ਅਤੇ ਇਸ ਤਰ੍ਹਾਂ ਭਰਮ ਖਤਮ ਕਰ ਦਿੰਦੇ ਹਨ. ਪਰ ਹੋਰ ਮੁਸ਼ਕਲ ਮੁਲਾਂਕਣਾਂ ਅਤੇ ਅਸਲੀ ਵਰਤੋਂ ਵਿੱਚ, ਸਹੀਪਣ 100% ਤੋਂ ਘੱਟ ਰਹਿੰਦਾ ਹੈ ਕਿਉਂਕਿ ਕੁਝ ਅਜੇਹੇ ਸਵਾਲ ਹੁੰਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਦਾ ਜਵਾਬ ਵੱਖ-ਵੱਖ ਕਾਰਨਾਂ ਕਰਕੇ ਨਿਰਧਾਰਤ ਨਹੀਂ ਕੀਤਾ ਜਾ ਸਕਦਾ, ਜਿਵੇਂ ਜਾਣਕਾਰੀ ਦੀ ਅਣਉਪਲਬਧਤਾ, ਛੋਟੇ ਮਾਡਲਾਂ ਦੀ ਸੀਮਿਤ ਸੋਚ ਸਮਰੱਥਾ, ਜਾਂ ਅਜਿਹੀਆਂ ਅਸਪਸ਼ਟਤਾਵਾਂ ਜਿਨ੍ਹਾਂ ਨੂੰ ਸਪਸ਼ਟ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ.

ਫਿਰ ਵੀ, ਸਿਰਫ਼ ਸਹੀਪਣ ਵਾਲੇ ਸਕੋਰਬੋਰਡ ਲੀਡਰਬੋਰਡਾਂ ਅਤੇ ਮਾਡਲ ਕਾਰਡਾਂ 'ਤੇ ਹਾਵੀ ਹਨ, ਜਿਸ ਨਾਲ ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਅਜੇਹੇ ਮਾਡਲ ਬਣਾਉਣ ਦੀ ਪ੍ਰੇਰਣਾ ਮਿਲਦੀ ਹੈ ਜੋ ਰੁਕਣ ਦੀ ਬਜਾਏ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ. ਇਹ ਇੱਕ ਕਾਰਣ ਹੈ ਕਿ, ਭਾਵੇਂ ਮਾਡਲ ਹੋਰ ਅੱਗੇ ਵਧ ਰਹੇ ਹਨ, ਉਹ ਫਿਰ ਵੀ ਭਰਮ ਪੈਦਾ ਕਰ ਸਕਦੇ ਹਨ, ਅਨਿਸ਼ਚਿਤਤਾ ਮੰਨਣ ਦੀ ਬਜਾਏ ਪੂਰੇ ਭਰੋਸੇ ਨਾਲ ਗਲਤ ਜਵਾਬ ਦਿੰਦੇ ਹਨ.

ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਅੰਕ ਦੇਣ ਦਾ ਹੋਰ ਵਧੀਆ ਤਰੀਕਾ

ਇਸ ਦਾ ਇੱਕ ਸਿੱਧਾ ਹੱਲ ਹੈ. ਜਿੱਥੇ ਪੂਰੇ ਭਰੋਸੇ ਵਾਲੀਆਂ ਗਲਤੀਆਂ ਲਈ ਅਨਿਸ਼ਚਿਤਤਾ ਨਾਲੋਂ ਵੱਧ ਸਜ਼ਾ ਦਿਓ, ਅਤੇ ਅਨਿਸ਼ਚਿਤਤਾ ਦੇ ਉਚਿਤ ਪ੍ਰਗਟਾਵਿਆਂ ਲਈ ਅੰਸ਼ਿਕ ਸਿਹਰਾ ਦਿਓ. ਇਹ ਵਿਚਾਰ ਨਵਾਂ ਨਹੀਂ ਹੈ. ਕੁਝ ਮਿਆਰੀਕ੍ਰਿਤ ਟੈਸਟਾਂ ਵਿੱਚ ਲੰਬੇ ਸਮੇਂ ਤੋਂ ਗਲਤ ਜਵਾਬਾਂ ਲਈ ਨਕਾਰਾਤਮਕ ਅੰਕਾਂ ਜਾਂ ਸਵਾਲ ਖਾਲੀ ਛੱਡਣ ਲਈ ਅੰਸ਼ਿਕ ਸਿਹਰੇ ਦੇ ਰੂਪ ਵਰਤੇ ਜਾਂਦੇ ਹਨ ਤਾਂ ਜੋ ਅੰਨ੍ਹੇ ਅੰਦਾਜ਼ਿਆਂ ਨੂੰ ਹਤੋਤਸ਼ਾਹਿਤ ਕੀਤਾ ਜਾ ਸਕੇ. ਕਈ ਖੋਜ ਸਮੂਹਾਂ ਨੇ ਅਨਿਸ਼ਚਿਤਤਾ ਅਤੇ ਕੈਲੀਬ੍ਰੇਸ਼ਨ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਣ ਵਾਲੇ ਮੁਲਾਂਕਣਾਂ ਦੀ ਵੀ ਪੜਤਾਲ ਕੀਤੀ ਹੈ.

ਸਾਡੀ ਗੱਲ ਵੱਖਰੀ ਹੈ. ਸਿਰਫ਼ ਨਾਲੇ ਕੁਝ ਨਵੇਂ ਅਨਿਸ਼ਚਿਤਤਾ-ਸਚੇਤ ਟੈਸਟ ਜੋੜ ਦੇਣਾ ਕਾਫ਼ੀ ਨਹੀਂ. ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਵਰਤੇ ਜਾਂਦੇ, ਸਹੀਪਣ-ਆਧਾਰਿਤ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਅਪਡੇਟ ਕਰਨ ਦੀ ਲੋੜ ਹੈ ਤਾਂ ਜੋ ਉਹਨਾਂ ਦੀ ਸਕੋਰਿੰਗ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਨੂੰ ਹਤੋਤਸ਼ਾਹਿਤ ਕਰੇ. ਜੇ ਮੁੱਖ ਸਕੋਰਬੋਰਡ ਖੁਸ਼ਕਿਸਮਤੀ ਵਾਲੇ ਅੰਦਾਜ਼ਿਆਂ ਨੂੰ ਇਨਾਮ ਦਿੰਦੇ ਰਹੇ, ਤਾਂ ਮਾਡਲ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣਾ ਸਿੱਖਦੇ ਰਹਿਣਗੇ. ਸਕੋਰਬੋਰਡ ਠੀਕ ਕਰਨ ਨਾਲ ਭਰਮ ਘਟਾਉਣ ਵਾਲੀਆਂ ਤਕਨੀਕਾਂ ਦੀ ਅਪਣਾਉਣ ਵਧ ਸਕਦੀ ਹੈ, ਚਾਹੇ ਉਹ ਨਵੀਂ ਤਰ੍ਹਾਂ ਵਿਕਸਿਤ ਕੀਤੀਆਂ ਗਈਆਂ ਹੋਣ ਜਾਂ ਪਹਿਲਾਂ ਦੀ ਖੋਜ ਤੋਂ ਆਈਆਂ ਹੋਣ.

ਅਗਲੇ ਸ਼ਬਦ ਦੀ ਭਵਿੱਖਬਾਣੀ ਤੋਂ ਭਰਮ ਕਿਵੇਂ ਪੈਦਾ ਹੁੰਦੇ ਹਨ

ਅਸੀਂ ਇਸ ਬਾਰੇ ਗੱਲ ਕੀਤੀ ਹੈ ਕਿ ਭਰਮਾਂ ਤੋਂ ਛੁਟਕਾਰਾ ਪਾਉਣਾ ਇੰਨਾ ਔਖਾ ਕਿਉਂ ਹੈ, ਪਰ ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਇਹ ਬਹੁਤ ਖ਼ਾਸ ਤੱਥਾਤਮਕ ਗਲਤੀਆਂ ਆਉਂਦੀਆਂ ਕਿੱਥੋਂ ਹਨ? ਆਖ਼ਿਰਕਾਰ, ਵੱਡੇ ਪ੍ਰੀਟ੍ਰੇਨ ਕੀਤੇ ਮਾਡਲ ਵਿਰਲੇ ਹੀ ਹੋਰ ਕਿਸਮ ਦੀਆਂ ਗਲਤੀਆਂ ਦਿਖਾਉਂਦੇ ਹਨ, ਜਿਵੇਂ ਸ਼ਬਦ-ਜੋੜ ਦੀਆਂ ਗਲਤੀਆਂ ਜਾਂ ਨਾ ਮਿਲਦੀਆਂ ਕੋਠੀਆਂ. ਫਰਕ ਦਾ ਸਬੰਧ ਇਸ ਗੱਲ ਨਾਲ ਹੈ ਕਿ ਡਾਟਾ ਵਿੱਚ ਕਿਹੜੇ ਕਿਸਮ ਦੇ ਪੈਟਰਨ ਹਨ.

ਭਾਸ਼ਾ ਮਾਡਲ ਪਹਿਲਾਂ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਰਾਹੀਂ ਸਿੱਖਦੇ ਹਨ, ਜੋ ਬੇਹੱਦ ਵੱਡੀ ਮਾਤਰਾ ਦੇ ਪਾਠ ਵਿੱਚ ਅਗਲੇ ਸ਼ਬਦ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਹੈ. ਰਵਾਇਤੀ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਸਮੱਸਿਆਵਾਂ ਤੋਂ ਵੱਖ, ਹਰ ਕਥਨ ਨਾਲ “ਸਹੀ/ਗਲਤ” ਲੇਬਲ ਨਹੀਂ ਹੁੰਦੇ. ਮਾਡਲ ਸਿਰਫ਼ ਸੁਚਾਰੂ ਭਾਸ਼ਾ ਦੇ ਸਕਾਰਾਤਮਕ ਉਦਾਹਰਨ ਵੇਖਦਾ ਹੈ ਅਤੇ ਸਮੁੱਚੀ ਵੰਡ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣਾ ਪੈਂਦਾ ਹੈ.

ਜਦੋਂ ਤੁਹਾਡੇ ਕੋਲ ਗਲਤ ਵਜੋਂ ਲੇਬਲ ਕੀਤੀਆਂ ਕੋਈ ਉਦਾਹਰਨਾਂ ਹੀ ਨਾ ਹੋਣ, ਤਾਂ ਵੈਧ ਕਥਨਾਂ ਨੂੰ ਗੈਰ-ਵੈਧ ਕਥਨਾਂ ਤੋਂ ਵੱਖ ਕਰਨਾ ਦੋਗੁਣਾ ਔਖਾ ਹੋ ਜਾਂਦਾ ਹੈ. ਪਰ ਲੇਬਲ ਹੋਣ ਦੇ ਬਾਵਜੂਦ ਵੀ, ਕੁਝ ਗਲਤੀਆਂ ਅਟੱਲ ਹਨ. ਇਹ ਸਮਝਣ ਲਈ, ਇੱਕ ਸੌਖੀ ਤੁਲਨਾ ਸੋਚੋ. ਚਿੱਤਰ ਪਛਾਣ ਵਿੱਚ, ਜੇ ਲੱਖਾਂ ਬਿੱਲੀ ਅਤੇ ਕੁੱਤੇ ਦੀਆਂ ਤਸਵੀਰਾਂ ਨੂੰ “ਬਿੱਲੀ” ਜਾਂ “ਕੁੱਤਾ” ਵਜੋਂ ਲੇਬਲ ਕੀਤਾ ਗਿਆ ਹੋਵੇ, ਤਾਂ ਐਲਗੋਰਿਦਮ ਉਹਨਾਂ ਨੂੰ ਭਰੋਸੇਯੋਗ ਢੰਗ ਨਾਲ ਵਰਗੀਕ੍ਰਿਤ ਕਰਨਾ ਸਿੱਖ ਸਕਦੇ ਹਨ. ਪਰ ਮੰਨੋ ਇਸ ਦੀ ਬਜਾਏ ਹਰ ਪਾਲਤੂ ਜਾਨਵਰ ਦੀ ਤਸਵੀਰ ਨੂੰ ਉਸ ਦੇ ਜਨਮਦਿਨ ਨਾਲ ਲੇਬਲ ਕੀਤਾ ਜਾਵੇ. ਕਿਉਂਕਿ ਜਨਮਦਿਨ ਅਸਲ ਵਿੱਚ ਯਾਦ੍ਰਿਚਿਕ ਹੁੰਦੇ ਹਨ, ਇਹ ਕੰਮ ਹਮੇਸ਼ਾ ਗਲਤੀਆਂ ਪੈਦਾ ਕਰੇਗਾ, ਭਾਵੇਂ ਐਲਗੋਰਿਦਮ ਕਿੰਨਾ ਵੀ ਅੱਗੇ ਕਿਉਂ ਨਾ ਹੋਵੇ.

ਇਹੀ ਸਿਧਾਂਤ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਵਿੱਚ ਲਾਗੂ ਹੁੰਦਾ ਹੈ. ਸ਼ਬਦ-ਜੋੜ ਅਤੇ ਕੋਠੀਆਂ ਸਥਿਰ ਪੈਟਰਨਾਂ ਦੀ ਪਾਲਣਾ ਕਰਦੇ ਹਨ, ਇਸ ਲਈ ਉੱਥੇ ਗਲਤੀਆਂ ਪੈਮਾਨੇ ਨਾਲ ਗਾਇਬ ਹੋ ਜਾਂਦੀਆਂ ਹਨ. ਪਰ ਮਨਮਾਨੇ ਘੱਟ-ਆਵ੍ਰਿਤੀ ਵਾਲੇ ਤੱਥ, ਜਿਵੇਂ ਕਿਸੇ ਪਾਲਤੂ ਜਾਨਵਰ ਦਾ ਜਨਮਦਿਨ, ਸਿਰਫ਼ ਪੈਟਰਨਾਂ ਤੋਂ ਭਵਿੱਖਬਾਣੀ ਨਹੀਂ ਕੀਤੇ ਜਾ ਸਕਦੇ ਅਤੇ ਇਸ ਲਈ ਭਰਮ ਪੈਦਾ ਕਰਦੇ ਹਨ. ਸਾਡਾ ਵਿਸ਼ਲੇਸ਼ਣ ਸਮਝਾਉਂਦਾ ਹੈ ਕਿ ਅਗਲੇ ਸ਼ਬਦ ਦੀ ਭਵਿੱਖਬਾਣੀ ਤੋਂ ਕਿਹੜੇ ਕਿਸਮ ਦੇ ਭਰਮ ਉਭਰਣੇ ਚਾਹੀਦੇ ਹਨ. ਆਦਰਸ਼ ਤੌਰ 'ਤੇ, ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਤੋਂ ਬਾਅਦ ਦੇ ਹੋਰ ਪੜਾਅ ਉਹਨਾਂ ਨੂੰ ਹਟਾਉਣੇ ਚਾਹੀਦੇ ਹਨ, ਪਰ ਪਿਛਲੇ ਭਾਗ ਵਿੱਚ ਵਰਣਿਤ ਕਾਰਨਾਂ ਕਰਕੇ ਇਹ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਫਲ ਨਹੀਂ ਹੁੰਦਾ.

ਨਤੀਜੇ

ਅਸੀਂ ਆਸ ਕਰਦੇ ਹਾਂ ਕਿ ਸਾਡੇ ਪੇਪਰ ਵਿੱਚ ਦਿੱਤਾ ਅੰਕੜਾਤਮਕ ਨਜ਼ਰੀਆ ਭਰਮਾਂ ਦੇ ਸੁਭਾਵ ਨੂੰ ਸਪਸ਼ਟ ਕਰੇਗਾ ਅਤੇ ਆਮ ਗਲਤਫ਼ਹਿਮੀਆਂ ਨੂੰ ਚੁਣੌਤੀ ਦੇਵੇਗਾ:

  • ਦਾਅਵਾ: ਸਹੀਪਣ ਸੁਧਾਰ ਕੇ ਭਰਮ ਖਤਮ ਹੋ ਜਾਣਗੇ ਕਿਉਂਕਿ 100% ਸਹੀ ਮਾਡਲ ਕਦੇ ਭਰਮ ਨਹੀਂ ਪੈਦਾ ਕਰਦਾ.
    ਨਤੀਜਾ:
    ਸਹੀਪਣ ਕਦੇ ਵੀ 100% ਤੱਕ ਨਹੀਂ ਪਹੁੰਚੇਗਾ ਕਿਉਂਕਿ ਮਾਡਲ ਦੇ ਆਕਾਰ, ਖੋਜ ਅਤੇ ਰੀਜ਼ਨਿੰਗ ਸਮਰੱਥਾਵਾਂ ਤੋਂ ਬਿਨਾਂ ਵੀ ਕੁਝ ਅਸਲੀ ਦੁਨੀਆ ਦੇ ਸਵਾਲ ਮੂਲ ਰੂਪ ਵਿੱਚ ਬੇਜਵਾਬ ਹੁੰਦੇ ਹਨ.
  • ਦਾਅਵਾ: ਭਰਮ ਅਟੱਲ ਹਨ.
    ਨਤੀਜਾ:
    ਇਹ ਅਟੱਲ ਨਹੀਂ ਹਨ, ਕਿਉਂਕਿ ਭਾਸ਼ਾ ਮਾਡਲ ਅਨਿਸ਼ਚਿਤ ਹੋਣ 'ਤੇ ਜਵਾਬ ਦੇਣ ਤੋਂ ਪਰਹੇਜ਼ ਕਰ ਸਕਦੇ ਹਨ.
  • ਦਾਅਵਾ: ਭਰਮਾਂ ਤੋਂ ਬਚਣ ਲਈ ਉਸ ਪੱਧਰ ਦੀ ਬੁੱਧਿਮੱਤਾ ਚਾਹੀਦੀ ਹੈ ਜੋ ਸਿਰਫ਼ ਵੱਡੇ ਮਾਡਲਾਂ ਨਾਲ ਹੀ ਸੰਭਵ ਹੈ.
    ਨਤੀਜਾ:
    ਇੱਕ ਛੋਟੇ ਮਾਡਲ ਲਈ ਆਪਣੀਆਂ ਹੱਦਾਂ ਜਾਣਣਾ ਹੋਰ ਆਸਾਨ ਹੋ ਸਕਦਾ ਹੈ. ਉਦਾਹਰਨ ਲਈ, ਜਦੋਂ ਉਸ ਨੂੰ Māori ਵਿੱਚ ਸਵਾਲ ਦਾ ਜਵਾਬ ਦੇਣ ਲਈ ਕਿਹਾ ਜਾਵੇ, ਤਾਂ ਇੱਕ ਛੋਟਾ ਮਾਡਲ ਜਿਸ ਨੂੰ Māori ਨਹੀਂ ਆਉਂਦੀ, ਸਿੱਧਾ “ਮੈਨੂੰ ਨਹੀਂ ਪਤਾ” ਕਹਿ ਸਕਦਾ ਹੈ, ਜਦਕਿ ਇੱਕ ਅਜਿਹਾ ਮਾਡਲ ਜੋ ਕੁਝ Māori ਜਾਣਦਾ ਹੈ, ਉਸ ਨੂੰ ਆਪਣੇ ਭਰੋਸੇ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣਾ ਪੈਂਦਾ ਹੈ. ਜਿਵੇਂ ਪੇਪਰ ਵਿੱਚ ਚਰਚਾ ਕੀਤੀ ਗਈ ਹੈ, “ਕੈਲੀਬ੍ਰੇਟਡ” ਹੋਣ ਲਈ ਸਹੀ ਹੋਣ ਨਾਲੋਂ ਕਾਫ਼ੀ ਘੱਟ ਗਣਨਾ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ.
  • ਦਾਅਵਾ: ਭਰਮ ਆਧੁਨਿਕ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਵਿੱਚ ਇੱਕ ਰਹੱਸਮਈ ਗੜਬੜ ਹਨ.
    ਨਤੀਜਾ:
    ਅਸੀਂ ਉਹ ਅੰਕੜਾਤਮਕ ਮਕੈਨਿਜ਼ਮ ਸਮਝਦੇ ਹਾਂ ਜਿਨ੍ਹਾਂ ਰਾਹੀਂ ਭਰਮ ਪੈਦਾ ਹੁੰਦੇ ਹਨ ਅਤੇ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਇਨਾਮਿਤ ਕੀਤੇ ਜਾਂਦੇ ਹਨ.
  • ਦਾਅਵਾ: ਭਰਮ ਮਾਪਣ ਲਈ ਸਾਨੂੰ ਸਿਰਫ਼ ਇੱਕ ਵਧੀਆ ਭਰਮ eval ਦੀ ਲੋੜ ਹੈ.
    ਨਤੀਜਾ:
    ਭਰਮ eval ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤੇ ਗਏ ਹਨ. ਹਾਲਾਂਕਿ, ਇੱਕ ਵਧੀਆ ਭਰਮ eval ਦਾ ਉਹਨਾਂ ਸੈਂਕੜਿਆਂ ਰਵਾਇਤੀ ਸਹੀਪਣ-ਆਧਾਰਿਤ evals ਦੇ ਮੁਕਾਬਲੇ ਘੱਟ ਪ੍ਰਭਾਵ ਹੁੰਦਾ ਹੈ ਜੋ ਨਿਮਰਤਾ ਨੂੰ ਦੰਡਿਤ ਅਤੇ ਅੰਦਾਜ਼ੇ ਨੂੰ ਇਨਾਮਿਤ ਕਰਦੇ ਹਨ. ਇਸ ਦੀ ਬਜਾਏ, ਸਾਰੇ ਮੁੱਖ eval ਮੈਟਰਿਕਾਂ ਨੂੰ ਅਨਿਸ਼ਚਿਤਤਾ ਦੇ ਪ੍ਰਗਟਾਵਿਆਂ ਨੂੰ ਇਨਾਮ ਦੇਣ ਲਈ ਮੁੜ-ਤਿਆਰ ਕਰਨ ਦੀ ਲੋੜ ਹੈ.

ਸਾਡੇ ਸਭ ਤੋਂ ਨਵੇਂ ਮਾਡਲਾਂ ਵਿੱਚ ਭਰਮ ਦੀਆਂ ਦਰਾਂ ਘੱਟ ਹਨ, ਅਤੇ ਅਸੀਂ ਆਪਣੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੁਆਰਾ ਨਿਕਲਣ ਵਾਲੀਆਂ ਪੂਰੇ ਭਰੋਸੇ ਵਾਲੀਆਂ ਗਲਤੀਆਂ ਦੀ ਦਰ ਨੂੰ ਹੋਰ ਘਟਾਉਣ ਲਈ ਲਗਾਤਾਰ ਮਿਹਨਤ ਕਰ ਰਹੇ ਹਾਂ.

ਘੋਸ਼ਣਾ ਦੇ ਯੋਗਦਾਨਕਰਤਾ

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke