Solving math word problems

ਅਸੀਂ ਇੱਕ ਅਜਿਹਾ ਸਿਸਟਮ ਟ੍ਰੇਨ ਕੀਤਾ ਹੈ ਜੋ ਪ੍ਰਾਇਮਰੀ ਸਕੂਲ ਦੇ ਗਣਿਤ ਪ੍ਰਸ਼ਨਾਂ ਨੂੰ ਫਾਈਨ-ਟਿਊਨ ਕੀਤੇ GPT‑3 ਮਾਡਲ ਨਾਲੋਂ ਲਗਭਗ ਦੋਗੁਣੀ ਸਹੀਤਾ ਨਾਲ ਹੱਲ ਕਰਦਾ ਹੈ. ਇਹ ਅਸਲੀ ਬੱਚਿਆਂ ਜਿੰਨੇ ਪ੍ਰਸ਼ਨਾਂ ਵਿੱਚੋਂ ਲਗਭਗ 90% ਹੱਲ ਕਰ ਲੈਂਦਾ ਹੈ: 9-12 ਸਾਲ ਦੇ ਬੱਚਿਆਂ ਦੇ ਇੱਕ ਛੋਟੇ ਨਮੂਨੇ ਨੇ ਸਾਡੇ ਡਾਟਾਸੈੱਟ ਦੇ ਟੈਸਟ ਵਿੱਚ 60% ਅੰਕ ਹਾਸਲ ਕੀਤੇ, ਜਦਕਿ ਸਾਡੇ ਸਿਸਟਮ ਨੇ ਉਹਨਾਂ ਹੀ ਪ੍ਰਸ਼ਨਾਂ 'ਤੇ 55% ਅੰਕ ਹਾਸਲ ਕੀਤੇ.
ਇਹ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ
ਇਹ ਇਸ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿਉਂਕਿ ਅੱਜ ਦੀ AI ਆਮ ਸਮਝ ਵਾਲੀ ਬਹੁ-ਕਦਮੀ ਰੀਜ਼ਨਿੰਗ ਵਿੱਚ ਅਜੇ ਵੀ ਕਾਫ਼ੀ ਕਮਜ਼ੋਰ ਹੈ, ਜੋ ਕਿ ਪ੍ਰਾਇਮਰੀ ਸਕੂਲ ਦੇ ਬੱਚਿਆਂ ਲਈ ਵੀ ਆਸਾਨ ਹੁੰਦੀ ਹੈ. ਅਸੀਂ ਇਹ ਨਤੀਜੇ ਆਪਣੇ ਮਾਡਲ ਨੂੰ ਆਪਣੀਆਂ ਗਲਤੀਆਂ ਪਛਾਣਣ ਲਈ ਟ੍ਰੇਨ ਕਰਕੇ ਹਾਸਲ ਕੀਤੇ ਹਨ, ਤਾਂ ਜੋ ਇਹ ਵਾਰ-ਵਾਰ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕੇ ਜਦ ਤੱਕ ਇਸਨੂੰ ਕੰਮ ਕਰਨ ਵਾਲਾ ਹੱਲ ਨਾ ਮਿਲ ਜਾਵੇ.
GPT‑3 ਵਰਗੇ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ ਵਿੱਚ ਕਈ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੁਨਰ ਹਨ, ਜਿਵੇਂ ਕਿ ਕਈ ਲਿਖਣ ਅੰਦਾਜ਼ਾਂ ਦੀ ਨਕਲ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਅਤੇ ਵਿਸਤ੍ਰਿਤ ਤੱਥਾਤਮਕ ਗਿਆਨ. ਪਰ ਉਹ ਅਜਿਹੇ ਕੰਮ ਕਰਨ ਵਿੱਚ ਮੁਸ਼ਕਲ ਮਹਿਸੂਸ ਕਰਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਲਈ ਸਹੀ ਬਹੁ-ਕਦਮੀ ਰੀਜ਼ਨਿੰਗ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਜਿਵੇਂ ਪ੍ਰਾਇਮਰੀ ਸਕੂਲ ਦੇ ਗਣਿਤਕ ਸ਼ਬਦੀ ਪ੍ਰਸ਼ਨ ਹੱਲ ਕਰਨਾ. ਭਾਵੇਂ ਮਾਡਲ ਸਹੀ ਹੱਲਾਂ ਦੀ ਲਯ ਦੀ ਨਕਲ ਕਰ ਸਕਦਾ ਹੈ, ਪਰ ਇਹ ਨਿਯਮਿਤ ਤੌਰ 'ਤੇ ਤਰਕ ਵਿੱਚ ਗੰਭੀਰ ਗਲਤੀਆਂ ਕਰਦਾ ਹੈ.
ਜਟਿਲ ਤਾਰਕਿਕ ਖੇਤਰਾਂ ਵਿੱਚ ਮਨੁੱਖੀ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਬਰਾਬਰ ਪਹੁੰਚਣ ਲਈ, ਸਾਡੇ ਮਾਡਲਾਂ ਨੂੰ ਆਪਣੀਆਂ ਗਲਤੀਆਂ ਪਛਾਣਣਾ ਅਤੇ ਆਪਣੇ ਕਦਮ ਸੋਚ-ਸਮਝ ਕੇ ਚੁਣਣਾ ਸਿੱਖਣਾ ਹੋਵੇਗਾ. ਇਸ ਮੰਤਵ ਲਈ, ਅਸੀਂ ਵੇਰੀਫਾਇਰਾਂ ਨੂੰ ਇਹ ਅੰਕਲਨ ਕਰਨ ਲਈ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ ਕਿ ਕੋਈ ਪ੍ਰਸਤਾਵਿਤ ਹੱਲ ਸਹੀ ਹੈ ਜਾਂ ਨਹੀਂ. ਨਵਾਂ ਪ੍ਰਸ਼ਨ ਹੱਲ ਕਰਨ ਲਈ, ਅਸੀਂ ਕਈ ਪ੍ਰਸਤਾਵਿਤ ਹੱਲਾਂ ਵਿੱਚੋਂ ਸਭ ਤੋਂ ਵਧੀਆ ਹੱਲ ਚੁਣਨ ਲਈ ਵੇਰੀਫਾਇਰ ਵਰਤਦੇ ਹਾਂ. ਅਸੀਂ ਆਪਣੇ ਤਰੀਕਿਆਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਨਵਾਂ GSM8K ਡਾਟਾਸੈੱਟ ਇਕੱਠਾ ਕੀਤਾ ਹੈ, ਅਤੇ ਖੋਜ ਨੂੰ ਆਸਾਨ ਬਣਾਉਣ ਲਈ ਅਸੀਂ ਇਹ ਡਾਟਾਸੈੱਟ ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ.
ਹੇਠਾਂ ਦਿੱਤੀਆਂ ਦਸ ਉਦਾਹਰਣਾਂ ਵਿੱਚ ਅਸੀਂ ਆਪਣੇ ਨਵੇਂ ਤਰੀਕੇ, ਵੇਰੀਫਿਕੇਸ਼ਨ, ਅਤੇ ਆਪਣੇ ਬੇਸਲਾਈਨ ਤਰੀਕੇ, ਫਾਈਨ-ਟਿਊਨਿੰਗ, ਨਾਲ ਬਣੇ ਹੱਲ ਦਿਖਾਉਂਦੇ ਹਾਂ.
GSM8K ਵਿੱਚ 8.5K ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਪ੍ਰਾਇਮਰੀ ਸਕੂਲ ਦੇ ਗਣਿਤਕ ਸ਼ਬਦੀ ਪ੍ਰਸ਼ਨ ਹਨ. ਹਰ ਪ੍ਰਸ਼ਨ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ 2 ਤੋਂ 8 ਕਦਮ ਲੱਗਦੇ ਹਨ, ਅਤੇ ਹੱਲਾਂ ਵਿੱਚ ਮੁੱਖ ਤੌਰ 'ਤੇ ਅੰਤਿਮ ਜਵਾਬ ਤੱਕ ਪਹੁੰਚਣ ਲਈ ਮੂਲ ਗਣਿਤੀ ਕ੍ਰਿਆਵਾਂ (+ − × ÷) ਦੀ ਵਰਤੋਂ ਕਰਦਿਆਂ ਆਰੰਭਿਕ ਗਿਣਤੀਆਂ ਦੀ ਲੜੀ ਕੀਤੀ ਜਾਂਦੀ ਹੈ. ਫਾਈਨ-ਟਿਊਨ ਕੀਤੇ ਆਧੁਨਿਕ ਭਾਸ਼ਾਈ ਮਾਡਲ ਇਸ ਡਾਟਾਸੈੱਟ 'ਤੇ ਕਮਜ਼ੋਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ, ਮੁੱਖ ਤੌਰ 'ਤੇ ਪ੍ਰਸ਼ਨਾਂ ਦੀ ਬਹੁਤ ਵੱਧ ਵਿਭਿੰਨਤਾ ਕਾਰਨ. ਇਸੇ ਵੇਲੇ, GSM8K ਦੇ ਹੱਲ ਸਿਰਫ਼ ਆਰੰਭਿਕ ਧਾਰਣਾਵਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ, ਇਸ ਲਈ ਟੈਸਟ ਵਿੱਚ ਉੱਚ ਪ੍ਰਦਰਸ਼ਨ ਹਾਸਲ ਕਰਨਾ ਇੱਕ ਸੰਭਵ ਲਕਸ਼ ਹੈ.
GSM8K ਵਿੱਚ ਹੱਲ ਸ਼ੁੱਧ ਗਣਿਤੀ ਅਭਿਵਿਕਤੀਆਂ ਦੀ ਬਜਾਏ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਵਿੱਚ ਲਿਖੇ ਗਏ ਹਨ. ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਨਾਲ ਜੁੜੇ ਰਹਿਣ ਨਾਲ, ਮਾਡਲ ਦੁਆਰਾ ਤਿਆਰ ਹੱਲ ਮਨੁੱਖਾਂ ਲਈ ਹੋਰ ਆਸਾਨੀ ਨਾਲ ਸਮਝ ਆਉਣਯੋਗ ਬਣਦੇ ਹਨ, ਅਤੇ ਸਾਡੇ ਤਰੀਕੇ ਤੁਲਨਾਤਮਕ ਤੌਰ 'ਤੇ ਡੋਮੇਨ-ਅਗਨੋਸਟਿਕ ਰਹਿੰਦੇ ਹਨ.
ਗਣਿਤੀ ਰੀਜ਼ਨਿੰਗ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਚੁਣੌਤੀ ਇਹ ਹੈ ਕਿ ਇਹ ਵਿਅਕਤੀਗਤ ਗਲਤੀਆਂ ਲਈ ਬਹੁਤ ਸੰਵੇਦਨਸ਼ੀਲ ਹੁੰਦੀ ਹੈ. ਆਟੋਰੇਗ੍ਰੈੱਸਿਵ ਮਾਡਲ, ਜੋ ਹਰ ਹੱਲ ਟੋਕਨ-ਦਰ-ਟੋਕਨ ਤਿਆਰ ਕਰਦੇ ਹਨ, ਆਪਣੇ ਹੀ ਦੋਸ਼ ਠੀਕ ਕਰਨ ਲਈ ਕੋਈ ਤਰੀਕਾ ਨਹੀਂ ਰੱਖਦੇ. ਜੋ ਹੱਲ ਰਾਹ ਤੋਂ ਭਟਕ ਜਾਂਦੇ ਹਨ, ਉਹ ਜਲਦੀ ਹੀ ਮੁੜ ਸੰਭਾਲੇ ਨਹੀਂ ਜਾ ਸਕਦੇ, ਜਿਵੇਂ ਦਿੱਤੀਆਂ ਉਦਾਹਰਣਾਂ ਵਿੱਚ ਵੇਖਿਆ ਜਾ ਸਕਦਾ ਹੈ.
ਅਸੀਂ ਇਸ ਸਮੱਸਿਆ ਦਾ ਹੱਲ ਇਹ ਕਰਕੇ ਕਰਦੇ ਹਾਂ ਕਿ ਮਾਡਲ ਦੁਆਰਾ ਬਣਾਏ ਹੱਲਾਂ ਦੀ ਸਹੀਤਾ ਨੂੰ ਅੰਕਣ ਲਈ ਵੇਰੀਫਾਇਰਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ. ਵੇਰੀਫਾਇਰਾਂ ਨੂੰ ਕਈ ਸੰਭਾਵਤ ਹੱਲ ਦਿੱਤੇ ਜਾਂਦੇ ਹਨ, ਜੋ ਸਾਰੇ ਮਾਡਲ ਨੇ ਖੁਦ ਲਿਖੇ ਹੁੰਦੇ ਹਨ, ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਇਹ ਨਿਰਣੇ ਕਰਨ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਕਿ ਉਨ੍ਹਾਂ ਵਿੱਚੋਂ ਕਿਹੜੇ, ਜੇ ਕੋਈ ਹਨ, ਸਹੀ ਹਨ.
ਟੈਸਟ ਸਮੇਂ ਨਵਾਂ ਪ੍ਰਸ਼ਨ ਹੱਲ ਕਰਨ ਲਈ, ਅਸੀਂ 100 ਉਮੀਦਵਾਰ ਹੱਲ ਬਣਾਉਂਦੇ ਹਾਂ ਅਤੇ ਫਿਰ ਉਹ ਹੱਲ ਚੁਣਦੇ ਹਾਂ ਜਿਸ ਨੂੰ ਵੇਰੀਫਾਇਰ ਸਭ ਤੋਂ ਉੱਚੀ ਰੈਂਕਿੰਗ ਦਿੰਦਾ ਹੈ. ਵੇਰੀਫਾਇਰਾਂ ਨੂੰ ਇਸ ਅੰਦਰੂਨੀ ਵਿਕਲਪਿਕਤਾ ਤੋਂ ਲਾਭ ਮਿਲਦਾ ਹੈ, ਅਤੇ ਇਸ ਗੱਲ ਤੋਂ ਵੀ ਕਿ ਵੇਰੀਫਿਕੇਸ਼ਨ ਅਕਸਰ ਜਨਰੇਸ਼ਨ ਨਾਲੋਂ ਸੌਖਾ ਕੰਮ ਹੁੰਦਾ ਹੈ.
ਸਾਨੂੰ ਪਤਾ ਲੱਗਿਆ ਹੈ ਕਿ ਜੇ ਡਾਟਾਸੈੱਟ ਕਾਫ਼ੀ ਵੱਡਾ ਹੋਵੇ, ਤਾਂ ਵੇਰੀਫਿਕੇਸ਼ਨ ਤੋਂ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਮਜ਼ਬੂਤ ਵਾਧਾ ਮਿਲਦਾ ਹੈ. ਜੇ ਡਾਟਾਸੈੱਟ ਬਹੁਤ ਛੋਟੇ ਹੋਣ, ਤਾਂ ਸਾਡਾ ਮੰਨਣਾ ਹੈ ਕਿ ਵੇਰੀਫਾਇਰ ਟ੍ਰੇਨਿੰਗ ਸੈੱਟ ਦੇ ਅੰਤਿਮ ਜਵਾਬ ਯਾਦ ਕਰਕੇ ਓਵਰਫਿਟ ਹੋ ਜਾਂਦੇ ਹਨ, ਨਾ ਕਿ ਗਣਿਤੀ ਰੀਜ਼ਨਿੰਗ ਦੇ ਹੋਰ ਲਾਭਕਾਰੀ ਗੁਣ ਸਿੱਖਦੇ ਹਨ.
ਪੂਰੇ ਟ੍ਰੇਨਿੰਗ ਸੈੱਟ 'ਤੇ, 6B ਪੈਰਾਮੀਟਰ ਵੇਰੀਫਿਕੇਸ਼ਨ, ਫਾਈਨ-ਟਿਊਨ ਕੀਤੇ 175B ਪੈਰਾਮੀਟਰ ਮਾਡਲ ਨਾਲੋਂ ਥੋੜ੍ਹਾ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਲਗਭਗ 30x ਮਾਡਲ ਆਕਾਰ ਵਾਧੇ ਦੇ ਬਰਾਬਰ ਲਾਭ ਮਿਲਦਾ ਹੈ. ਇਸ ਤੋਂ ਇਲਾਵਾ, ਜੇ ਅਸੀਂ ਮੌਜੂਦਾ ਨਤੀਜਿਆਂ ਦੇ ਆਧਾਰ 'ਤੇ ਅਨੁਮਾਨ ਲਗਾਈਏ, ਤਾਂ ਵਾਧੂ ਡਾਟੇ ਨਾਲ ਵੇਰੀਫਿਕੇਸ਼ਨ ਹੋਰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸਕੇਲ ਕਰਦੀ ਦਿਖਾਈ ਦਿੰਦੀ ਹੈ.
ਸਹੀ ਤਰਕ ਪੇਸ਼ ਕਰਨਾ ਅਤੇ ਗਲਤ ਤਰਕਾਂ ਨੂੰ ਪਛਾਣਣਾ ਹੋਰ ਆਮ AI ਵਿਕਸਿਤ ਕਰਨ ਵਿੱਚ ਮੁੱਖ ਚੁਣੌਤੀਆਂ ਹਨ. ਪ੍ਰਾਇਮਰੀ ਸਕੂਲ ਦਾ ਗਣਿਤ ਇਨ੍ਹਾਂ ਸਮਰੱਥਾਵਾਂ ਲਈ ਇੱਕ ਆਦਰਸ਼ ਟੈਸਟਬੈੱਡ ਹੈ. GSM8K ਦੇ ਪ੍ਰਸ਼ਨ ਧਾਰਣਾਤਮਕ ਤੌਰ 'ਤੇ ਸਧਾਰਣ ਹਨ, ਫਿਰ ਵੀ ਇੱਕ ਨਾਜ਼ੁਕ ਗਲਤੀ ਪੂਰੇ ਹੱਲ ਨੂੰ ਪਟੜੀ ਤੋਂ ਉਤਾਰਣ ਲਈ ਕਾਫ਼ੀ ਹੁੰਦੀ ਹੈ. ਅਜਿਹੀਆਂ ਗਲਤੀਆਂ ਦੀ ਪਛਾਣ ਕਰਨਾ ਅਤੇ ਉਨ੍ਹਾਂ ਤੋਂ ਬਚਣਾ ਸਾਡੇ ਮਾਡਲਾਂ ਲਈ ਵਿਕਸਿਤ ਕਰਨ ਵਾਲਾ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹੁਨਰ ਹੈ. ਵੇਰੀਫਾਇਰਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਕੇ, ਅਸੀਂ ਆਪਣੇ ਮਾਡਲਾਂ ਨੂੰ ਚੰਗੇ ਹੱਲਾਂ ਨੂੰ ਉਹਨਾਂ ਹੱਲਾਂ ਤੋਂ ਵੱਖ ਕਰਨਾ ਸਿਖਾਉਂਦੇ ਹਾਂ ਜੋ ਪੂਰੀ ਤਰ੍ਹਾਂ ਕੰਮ ਨਹੀਂ ਕਰ ਸਕੇ. ਜਿਵੇਂ ਜਿਵੇਂ ਅਸੀਂ ਆਪਣੇ ਮਾਡਲਾਂ ਨੂੰ ਹੋਰ ਤਾਰਕਿਕ ਤੌਰ 'ਤੇ ਜਟਿਲ ਖੇਤਰਾਂ ਵਿੱਚ ਲਾਗੂ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਾਂਗੇ, ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ ਇਹ ਹੁਨਰ ਹੋਰ ਵੱਧ ਮਹੱਤਵਪੂਰਨ ਹੋਣਗੇ.
ਲੇਖਕ
ਆਭਾਰ
GSM8K ਡਾਟਾ ਇਕੱਠਾ ਕਰਨ ਲਈ Surge AI ਦੀ ਟੀਮ ਦਾ ਧੰਨਵਾਦ.
ਸਾਡੇ ਪੇਪਰ ਦੇ ਸਹਿ-ਲੇਖਕਾਂ ਦਾ ਧੰਨਵਾਦ: Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, ਅਤੇ Christopher Hesse.
ਇਸ ਰਿਲੀਜ਼ ਬਾਰੇ ਫੀਡਬੈਕ ਦੇਣ ਵਾਲਿਆਂ ਦਾ ਧੰਨਵਾਦ: Dan Hendrycks, Leo Gao, Alec Radford, Giambattista Parascandolo, Harri Edwards, Yura Burda, Nick Ryder, Ilya Sutskever, Mira Murati, Sam Altman, Aris Konstantinidis, Andrew Mayne, Hannah Wong, ਅਤੇ Steve Dowling.
ਸਾਡਾ ਟੈਸਟ ਦੇਣ ਲਈ ਸੇਵਾ-ਭਾਵ ਨਾਲ ਸ਼ਾਮਲ ਹੋਏ ਵਿਦਿਆਰਥੀਆਂ ਦਾ ਧੰਨਵਾਦ.


