ਮੁੱਖ ਸਮੱਗਰੀ 'ਤੇ ਜਾਓ
OpenAI

ਅਸੀਂ ਇੱਕ ਅਜਿਹਾ ਸਿਸਟਮ ਟ੍ਰੇਨ ਕੀਤਾ ਹੈ ਜੋ ਪ੍ਰਾਇਮਰੀ ਸਕੂਲ ਦੇ ਗਣਿਤ ਪ੍ਰਸ਼ਨਾਂ ਨੂੰ ਫਾਈਨ-ਟਿਊਨ ਕੀਤੇ GPT‑3 ਮਾਡਲ ਨਾਲੋਂ ਲਗਭਗ ਦੋਗੁਣੀ ਸਹੀਤਾ ਨਾਲ ਹੱਲ ਕਰਦਾ ਹੈ. ਇਹ ਅਸਲੀ ਬੱਚਿਆਂ ਜਿੰਨੇ ਪ੍ਰਸ਼ਨਾਂ ਵਿੱਚੋਂ ਲਗਭਗ 90% ਹੱਲ ਕਰ ਲੈਂਦਾ ਹੈ: 9-12 ਸਾਲ ਦੇ ਬੱਚਿਆਂ ਦੇ ਇੱਕ ਛੋਟੇ ਨਮੂਨੇ ਨੇ ਸਾਡੇ ਡਾਟਾਸੈੱਟ ਦੇ ਟੈਸਟ ਵਿੱਚ 60% ਅੰਕ ਹਾਸਲ ਕੀਤੇ, ਜਦਕਿ ਸਾਡੇ ਸਿਸਟਮ ਨੇ ਉਹਨਾਂ ਹੀ ਪ੍ਰਸ਼ਨਾਂ 'ਤੇ 55% ਅੰਕ ਹਾਸਲ ਕੀਤੇ.

ਇਹ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ

ਇਹ ਇਸ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿਉਂਕਿ ਅੱਜ ਦੀ AI ਆਮ ਸਮਝ ਵਾਲੀ ਬਹੁ-ਕਦਮੀ ਰੀਜ਼ਨਿੰਗ ਵਿੱਚ ਅਜੇ ਵੀ ਕਾਫ਼ੀ ਕਮਜ਼ੋਰ ਹੈ, ਜੋ ਕਿ ਪ੍ਰਾਇਮਰੀ ਸਕੂਲ ਦੇ ਬੱਚਿਆਂ ਲਈ ਵੀ ਆਸਾਨ ਹੁੰਦੀ ਹੈ. ਅਸੀਂ ਇਹ ਨਤੀਜੇ ਆਪਣੇ ਮਾਡਲ ਨੂੰ ਆਪਣੀਆਂ ਗਲਤੀਆਂ ਪਛਾਣਣ ਲਈ ਟ੍ਰੇਨ ਕਰਕੇ ਹਾਸਲ ਕੀਤੇ ਹਨ, ਤਾਂ ਜੋ ਇਹ ਵਾਰ-ਵਾਰ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕੇ ਜਦ ਤੱਕ ਇਸਨੂੰ ਕੰਮ ਕਰਨ ਵਾਲਾ ਹੱਲ ਨਾ ਮਿਲ ਜਾਵੇ.

ਪ੍ਰਸਤਾਵਨਾ

GPT‑3 ਵਰਗੇ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ ਵਿੱਚ ਕਈ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੁਨਰ ਹਨ, ਜਿਵੇਂ ਕਿ ਕਈ ਲਿਖਣ ਅੰਦਾਜ਼ਾਂ ਦੀ ਨਕਲ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਅਤੇ ਵਿਸਤ੍ਰਿਤ ਤੱਥਾਤਮਕ ਗਿਆਨ. ਪਰ ਉਹ ਅਜਿਹੇ ਕੰਮ ਕਰਨ ਵਿੱਚ ਮੁਸ਼ਕਲ ਮਹਿਸੂਸ ਕਰਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਲਈ ਸਹੀ ਬਹੁ-ਕਦਮੀ ਰੀਜ਼ਨਿੰਗ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਜਿਵੇਂ ਪ੍ਰਾਇਮਰੀ ਸਕੂਲ ਦੇ ਗਣਿਤਕ ਸ਼ਬਦੀ ਪ੍ਰਸ਼ਨ ਹੱਲ ਕਰਨਾ. ਭਾਵੇਂ ਮਾਡਲ ਸਹੀ ਹੱਲਾਂ ਦੀ ਲਯ ਦੀ ਨਕਲ ਕਰ ਸਕਦਾ ਹੈ, ਪਰ ਇਹ ਨਿਯਮਿਤ ਤੌਰ 'ਤੇ ਤਰਕ ਵਿੱਚ ਗੰਭੀਰ ਗਲਤੀਆਂ ਕਰਦਾ ਹੈ.

ਜਟਿਲ ਤਾਰਕਿਕ ਖੇਤਰਾਂ ਵਿੱਚ ਮਨੁੱਖੀ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਬਰਾਬਰ ਪਹੁੰਚਣ ਲਈ, ਸਾਡੇ ਮਾਡਲਾਂ ਨੂੰ ਆਪਣੀਆਂ ਗਲਤੀਆਂ ਪਛਾਣਣਾ ਅਤੇ ਆਪਣੇ ਕਦਮ ਸੋਚ-ਸਮਝ ਕੇ ਚੁਣਣਾ ਸਿੱਖਣਾ ਹੋਵੇਗਾ. ਇਸ ਮੰਤਵ ਲਈ, ਅਸੀਂ ਵੇਰੀਫਾਇਰਾਂ ਨੂੰ ਇਹ ਅੰਕਲਨ ਕਰਨ ਲਈ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ ਕਿ ਕੋਈ ਪ੍ਰਸਤਾਵਿਤ ਹੱਲ ਸਹੀ ਹੈ ਜਾਂ ਨਹੀਂ. ਨਵਾਂ ਪ੍ਰਸ਼ਨ ਹੱਲ ਕਰਨ ਲਈ, ਅਸੀਂ ਕਈ ਪ੍ਰਸਤਾਵਿਤ ਹੱਲਾਂ ਵਿੱਚੋਂ ਸਭ ਤੋਂ ਵਧੀਆ ਹੱਲ ਚੁਣਨ ਲਈ ਵੇਰੀਫਾਇਰ ਵਰਤਦੇ ਹਾਂ. ਅਸੀਂ ਆਪਣੇ ਤਰੀਕਿਆਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਨਵਾਂ GSM8K ਡਾਟਾਸੈੱਟ ਇਕੱਠਾ ਕੀਤਾ ਹੈ, ਅਤੇ ਖੋਜ ਨੂੰ ਆਸਾਨ ਬਣਾਉਣ ਲਈ ਅਸੀਂ ਇਹ ਡਾਟਾਸੈੱਟ ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ.

ਹੇਠਾਂ ਦਿੱਤੀਆਂ ਦਸ ਉਦਾਹਰਣਾਂ ਵਿੱਚ ਅਸੀਂ ਆਪਣੇ ਨਵੇਂ ਤਰੀਕੇ, ਵੇਰੀਫਿਕੇਸ਼ਨ, ਅਤੇ ਆਪਣੇ ਬੇਸਲਾਈਨ ਤਰੀਕੇ, ਫਾਈਨ-ਟਿਊਨਿੰਗ, ਨਾਲ ਬਣੇ ਹੱਲ ਦਿਖਾਉਂਦੇ ਹਾਂ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

GSM8K ਡਾਟਾਸੈੱਟ

GSM8K ਵਿੱਚ 8.5K ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਪ੍ਰਾਇਮਰੀ ਸਕੂਲ ਦੇ ਗਣਿਤਕ ਸ਼ਬਦੀ ਪ੍ਰਸ਼ਨ ਹਨ. ਹਰ ਪ੍ਰਸ਼ਨ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ 2 ਤੋਂ 8 ਕਦਮ ਲੱਗਦੇ ਹਨ, ਅਤੇ ਹੱਲਾਂ ਵਿੱਚ ਮੁੱਖ ਤੌਰ 'ਤੇ ਅੰਤਿਮ ਜਵਾਬ ਤੱਕ ਪਹੁੰਚਣ ਲਈ ਮੂਲ ਗਣਿਤੀ ਕ੍ਰਿਆਵਾਂ (+ − × ÷) ਦੀ ਵਰਤੋਂ ਕਰਦਿਆਂ ਆਰੰਭਿਕ ਗਿਣਤੀਆਂ ਦੀ ਲੜੀ ਕੀਤੀ ਜਾਂਦੀ ਹੈ. ਫਾਈਨ-ਟਿਊਨ ਕੀਤੇ ਆਧੁਨਿਕ ਭਾਸ਼ਾਈ ਮਾਡਲ ਇਸ ਡਾਟਾਸੈੱਟ 'ਤੇ ਕਮਜ਼ੋਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ, ਮੁੱਖ ਤੌਰ 'ਤੇ ਪ੍ਰਸ਼ਨਾਂ ਦੀ ਬਹੁਤ ਵੱਧ ਵਿਭਿੰਨਤਾ ਕਾਰਨ. ਇਸੇ ਵੇਲੇ, GSM8K ਦੇ ਹੱਲ ਸਿਰਫ਼ ਆਰੰਭਿਕ ਧਾਰਣਾਵਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ, ਇਸ ਲਈ ਟੈਸਟ ਵਿੱਚ ਉੱਚ ਪ੍ਰਦਰਸ਼ਨ ਹਾਸਲ ਕਰਨਾ ਇੱਕ ਸੰਭਵ ਲਕਸ਼ ਹੈ.

GSM8K ਵਿੱਚ ਹੱਲ ਸ਼ੁੱਧ ਗਣਿਤੀ ਅਭਿਵਿਕਤੀਆਂ ਦੀ ਬਜਾਏ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਵਿੱਚ ਲਿਖੇ ਗਏ ਹਨ. ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਨਾਲ ਜੁੜੇ ਰਹਿਣ ਨਾਲ, ਮਾਡਲ ਦੁਆਰਾ ਤਿਆਰ ਹੱਲ ਮਨੁੱਖਾਂ ਲਈ ਹੋਰ ਆਸਾਨੀ ਨਾਲ ਸਮਝ ਆਉਣਯੋਗ ਬਣਦੇ ਹਨ, ਅਤੇ ਸਾਡੇ ਤਰੀਕੇ ਤੁਲਨਾਤਮਕ ਤੌਰ 'ਤੇ ਡੋਮੇਨ-ਅਗਨੋਸਟਿਕ ਰਹਿੰਦੇ ਹਨ.

ਵੇਰੀਫਾਇਰਾਂ ਦੀ ਟ੍ਰੇਨਿੰਗ: ਮਾਡਲ ਜੋ ਆਪਣੀਆਂ ਗਲਤੀਆਂ ਤੋਂ ਸਿੱਖਦੇ ਹਨ

ਗਣਿਤੀ ਰੀਜ਼ਨਿੰਗ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਚੁਣੌਤੀ ਇਹ ਹੈ ਕਿ ਇਹ ਵਿਅਕਤੀਗਤ ਗਲਤੀਆਂ ਲਈ ਬਹੁਤ ਸੰਵੇਦਨਸ਼ੀਲ ਹੁੰਦੀ ਹੈ. ਆਟੋਰੇਗ੍ਰੈੱਸਿਵ ਮਾਡਲ, ਜੋ ਹਰ ਹੱਲ ਟੋਕਨ-ਦਰ-ਟੋਕਨ ਤਿਆਰ ਕਰਦੇ ਹਨ, ਆਪਣੇ ਹੀ ਦੋਸ਼ ਠੀਕ ਕਰਨ ਲਈ ਕੋਈ ਤਰੀਕਾ ਨਹੀਂ ਰੱਖਦੇ. ਜੋ ਹੱਲ ਰਾਹ ਤੋਂ ਭਟਕ ਜਾਂਦੇ ਹਨ, ਉਹ ਜਲਦੀ ਹੀ ਮੁੜ ਸੰਭਾਲੇ ਨਹੀਂ ਜਾ ਸਕਦੇ, ਜਿਵੇਂ ਦਿੱਤੀਆਂ ਉਦਾਹਰਣਾਂ ਵਿੱਚ ਵੇਖਿਆ ਜਾ ਸਕਦਾ ਹੈ.

ਅਸੀਂ ਇਸ ਸਮੱਸਿਆ ਦਾ ਹੱਲ ਇਹ ਕਰਕੇ ਕਰਦੇ ਹਾਂ ਕਿ ਮਾਡਲ ਦੁਆਰਾ ਬਣਾਏ ਹੱਲਾਂ ਦੀ ਸਹੀਤਾ ਨੂੰ ਅੰਕਣ ਲਈ ਵੇਰੀਫਾਇਰਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ. ਵੇਰੀਫਾਇਰਾਂ ਨੂੰ ਕਈ ਸੰਭਾਵਤ ਹੱਲ ਦਿੱਤੇ ਜਾਂਦੇ ਹਨ, ਜੋ ਸਾਰੇ ਮਾਡਲ ਨੇ ਖੁਦ ਲਿਖੇ ਹੁੰਦੇ ਹਨ, ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਇਹ ਨਿਰਣੇ ਕਰਨ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਕਿ ਉਨ੍ਹਾਂ ਵਿੱਚੋਂ ਕਿਹੜੇ, ਜੇ ਕੋਈ ਹਨ, ਸਹੀ ਹਨ.

ਟੈਸਟ ਸਮੇਂ ਨਵਾਂ ਪ੍ਰਸ਼ਨ ਹੱਲ ਕਰਨ ਲਈ, ਅਸੀਂ 100 ਉਮੀਦਵਾਰ ਹੱਲ ਬਣਾਉਂਦੇ ਹਾਂ ਅਤੇ ਫਿਰ ਉਹ ਹੱਲ ਚੁਣਦੇ ਹਾਂ ਜਿਸ ਨੂੰ ਵੇਰੀਫਾਇਰ ਸਭ ਤੋਂ ਉੱਚੀ ਰੈਂਕਿੰਗ ਦਿੰਦਾ ਹੈ. ਵੇਰੀਫਾਇਰਾਂ ਨੂੰ ਇਸ ਅੰਦਰੂਨੀ ਵਿਕਲਪਿਕਤਾ ਤੋਂ ਲਾਭ ਮਿਲਦਾ ਹੈ, ਅਤੇ ਇਸ ਗੱਲ ਤੋਂ ਵੀ ਕਿ ਵੇਰੀਫਿਕੇਸ਼ਨ ਅਕਸਰ ਜਨਰੇਸ਼ਨ ਨਾਲੋਂ ਸੌਖਾ ਕੰਮ ਹੁੰਦਾ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਸਾਨੂੰ ਪਤਾ ਲੱਗਿਆ ਹੈ ਕਿ ਜੇ ਡਾਟਾਸੈੱਟ ਕਾਫ਼ੀ ਵੱਡਾ ਹੋਵੇ, ਤਾਂ ਵੇਰੀਫਿਕੇਸ਼ਨ ਤੋਂ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਮਜ਼ਬੂਤ ਵਾਧਾ ਮਿਲਦਾ ਹੈ. ਜੇ ਡਾਟਾਸੈੱਟ ਬਹੁਤ ਛੋਟੇ ਹੋਣ, ਤਾਂ ਸਾਡਾ ਮੰਨਣਾ ਹੈ ਕਿ ਵੇਰੀਫਾਇਰ ਟ੍ਰੇਨਿੰਗ ਸੈੱਟ ਦੇ ਅੰਤਿਮ ਜਵਾਬ ਯਾਦ ਕਰਕੇ ਓਵਰਫਿਟ ਹੋ ਜਾਂਦੇ ਹਨ, ਨਾ ਕਿ ਗਣਿਤੀ ਰੀਜ਼ਨਿੰਗ ਦੇ ਹੋਰ ਲਾਭਕਾਰੀ ਗੁਣ ਸਿੱਖਦੇ ਹਨ.

ਪੂਰੇ ਟ੍ਰੇਨਿੰਗ ਸੈੱਟ 'ਤੇ, 6B ਪੈਰਾਮੀਟਰ ਵੇਰੀਫਿਕੇਸ਼ਨ, ਫਾਈਨ-ਟਿਊਨ ਕੀਤੇ 175B ਪੈਰਾਮੀਟਰ ਮਾਡਲ ਨਾਲੋਂ ਥੋੜ੍ਹਾ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਲਗਭਗ 30x ਮਾਡਲ ਆਕਾਰ ਵਾਧੇ ਦੇ ਬਰਾਬਰ ਲਾਭ ਮਿਲਦਾ ਹੈ. ਇਸ ਤੋਂ ਇਲਾਵਾ, ਜੇ ਅਸੀਂ ਮੌਜੂਦਾ ਨਤੀਜਿਆਂ ਦੇ ਆਧਾਰ 'ਤੇ ਅਨੁਮਾਨ ਲਗਾਈਏ, ਤਾਂ ਵਾਧੂ ਡਾਟੇ ਨਾਲ ਵੇਰੀਫਿਕੇਸ਼ਨ ਹੋਰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸਕੇਲ ਕਰਦੀ ਦਿਖਾਈ ਦਿੰਦੀ ਹੈ.

ਨਿਸਕਰਸ਼

ਸਹੀ ਤਰਕ ਪੇਸ਼ ਕਰਨਾ ਅਤੇ ਗਲਤ ਤਰਕਾਂ ਨੂੰ ਪਛਾਣਣਾ ਹੋਰ ਆਮ AI ਵਿਕਸਿਤ ਕਰਨ ਵਿੱਚ ਮੁੱਖ ਚੁਣੌਤੀਆਂ ਹਨ. ਪ੍ਰਾਇਮਰੀ ਸਕੂਲ ਦਾ ਗਣਿਤ ਇਨ੍ਹਾਂ ਸਮਰੱਥਾਵਾਂ ਲਈ ਇੱਕ ਆਦਰਸ਼ ਟੈਸਟਬੈੱਡ ਹੈ. GSM8K ਦੇ ਪ੍ਰਸ਼ਨ ਧਾਰਣਾਤਮਕ ਤੌਰ 'ਤੇ ਸਧਾਰਣ ਹਨ, ਫਿਰ ਵੀ ਇੱਕ ਨਾਜ਼ੁਕ ਗਲਤੀ ਪੂਰੇ ਹੱਲ ਨੂੰ ਪਟੜੀ ਤੋਂ ਉਤਾਰਣ ਲਈ ਕਾਫ਼ੀ ਹੁੰਦੀ ਹੈ. ਅਜਿਹੀਆਂ ਗਲਤੀਆਂ ਦੀ ਪਛਾਣ ਕਰਨਾ ਅਤੇ ਉਨ੍ਹਾਂ ਤੋਂ ਬਚਣਾ ਸਾਡੇ ਮਾਡਲਾਂ ਲਈ ਵਿਕਸਿਤ ਕਰਨ ਵਾਲਾ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹੁਨਰ ਹੈ. ਵੇਰੀਫਾਇਰਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਕੇ, ਅਸੀਂ ਆਪਣੇ ਮਾਡਲਾਂ ਨੂੰ ਚੰਗੇ ਹੱਲਾਂ ਨੂੰ ਉਹਨਾਂ ਹੱਲਾਂ ਤੋਂ ਵੱਖ ਕਰਨਾ ਸਿਖਾਉਂਦੇ ਹਾਂ ਜੋ ਪੂਰੀ ਤਰ੍ਹਾਂ ਕੰਮ ਨਹੀਂ ਕਰ ਸਕੇ. ਜਿਵੇਂ ਜਿਵੇਂ ਅਸੀਂ ਆਪਣੇ ਮਾਡਲਾਂ ਨੂੰ ਹੋਰ ਤਾਰਕਿਕ ਤੌਰ 'ਤੇ ਜਟਿਲ ਖੇਤਰਾਂ ਵਿੱਚ ਲਾਗੂ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਾਂਗੇ, ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ ਇਹ ਹੁਨਰ ਹੋਰ ਵੱਧ ਮਹੱਤਵਪੂਰਨ ਹੋਣਗੇ.

ਲੇਖਕ

Karl Cobbe, Vineet Kosaraju, John Schulman

ਆਭਾਰ

GSM8K ਡਾਟਾ ਇਕੱਠਾ ਕਰਨ ਲਈ Surge AI ਦੀ ਟੀਮ ਦਾ ਧੰਨਵਾਦ.

ਸਾਡੇ ਪੇਪਰ ਦੇ ਸਹਿ-ਲੇਖਕਾਂ ਦਾ ਧੰਨਵਾਦ: Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, ਅਤੇ Christopher Hesse.

ਇਸ ਰਿਲੀਜ਼ ਬਾਰੇ ਫੀਡਬੈਕ ਦੇਣ ਵਾਲਿਆਂ ਦਾ ਧੰਨਵਾਦ: Dan Hendrycks, Leo Gao, Alec Radford, Giambattista Parascandolo, Harri Edwards, Yura Burda, Nick Ryder, Ilya Sutskever, Mira Murati, Sam Altman, Aris Konstantinidis, Andrew Mayne, Hannah Wong, ਅਤੇ Steve Dowling.

ਸਾਡਾ ਟੈਸਟ ਦੇਣ ਲਈ ਸੇਵਾ-ਭਾਵ ਨਾਲ ਸ਼ਾਮਲ ਹੋਏ ਵਿਦਿਆਰਥੀਆਂ ਦਾ ਧੰਨਵਾਦ.