ਅਸਲ ਦੁਨੀਆ ਦੇ ਕੰਮਾਂ ਉੱਤੇ ਸਾਡੇ ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਮਾਪਣਾ
ਅਸੀਂ GDPval ਪੇਸ਼ ਕਰ ਰਹੇ ਹਾਂ, ਇੱਕ ਨਵਾਂ ਮੁਲਾਂਕਣ ਜੋ 44 ਪੇਸ਼ਾਵਾਂ ਵਿੱਚ ਆਰਥਿਕ ਤੌਰ ‘ਤੇ ਕੀਮਤੀ ਅਸਲ-ਦੁਨੀਆ ਦੇ ਕੰਮਾਂ ਉੱਤੇ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਮਾਪਦਾ ਹੈ।
ਸਾਡਾ ਮਿਸ਼ਨ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣਾ ਹੈ ਕਿ ਆਰਟੀਫ਼ਿਸ਼ੀਅਲ ਜਨਰਲ ਇੰਟੈਲੀਜੈਂਸ ਸਾਰੀ ਮਨੁੱਖਤਾ ਲਈ ਲਾਭਕਾਰੀ ਹੋਵੇ। ਆਪਣੇ ਮਿਸ਼ਨ ਦੇ ਹਿੱਸੇ ਵਜੋਂ, ਅਸੀਂ ਪਾਰਦਰਸ਼ੀ ਢੰਗ ਨਾਲ ਇਹ ਸੰਚਾਰ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ AI ਮਾਡਲ ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਲੋਕਾਂ ਦੀ ਕਿਵੇਂ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ। ਇਸੇ ਲਈ ਅਸੀਂ GDPval ਪੇਸ਼ ਕਰ ਰਹੇ ਹਾਂ: ਇੱਕ ਨਵਾਂ ਮੁਲਾਂਕਣ ਜੋ ਸਾਨੂੰ ਇਹ ਟਰੈਕ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ ਕਿ ਸਾਡੇ ਮਾਡਲ ਅਤੇ ਹੋਰ ਮਾਡਲ ਆਰਥਿਕ ਤੌਰ ‘ਤੇ ਕੀਮਤੀ ਅਸਲ-ਦੁਨੀਆ ਦੇ ਕੰਮਾਂ ਉੱਤੇ ਕਿੰਨਾ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ। ਅਸੀਂ ਇਸ ਮੁਲਾਂਕਣ ਨੂੰ GDPval ਇਸ ਲਈ ਕਹਿੰਦੇ ਹਾਂ ਕਿਉਂਕਿ ਅਸੀਂ ਮੁੱਖ ਆਰਥਿਕ ਸੰਕੇਤਕ ਵਜੋਂ Gross Domestic Product (GDP) ਦੀ ਧਾਰਣਾ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕੀਤੀ ਅਤੇ ਉਹਨਾਂ ਉਦਯੋਗਾਂ ਦੀਆਂ ਮੁੱਖ ਪੇਸ਼ਾਵਾਂ ਵਿੱਚੋਂ ਟਾਸਕ ਲਏ ਜੋ GDP ਵਿੱਚ ਸਭ ਤੋਂ ਵੱਧ ਯੋਗਦਾਨ ਪਾਉਂਦੇ ਹਨ।
ਲੋਕ ਅਕਸਰ ਸਮਾਜ ਉੱਤੇ AI ਦੇ ਵਿਆਪਕ ਪ੍ਰਭਾਵ ਬਾਰੇ ਅਨੁਮਾਨ ਲਗਾਉਂਦੇ ਹਨ, ਪਰ ਇਸ ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਸਮਝਣ ਦਾ ਸਭ ਤੋਂ ਸਪਸ਼ਟ ਤਰੀਕਾ ਇਹ ਵੇਖਣਾ ਹੈ ਕਿ ਮਾਡਲ ਪਹਿਲਾਂ ਹੀ ਕੀ ਕਰਨ ਦੇ ਯੋਗ ਹਨ। ਇਤਿਹਾਸ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਇੰਟਰਨੈੱਟ ਤੋਂ ਲੈ ਕੇ ਸਮਾਰਟਫੋਨ ਤੱਕ, ਵੱਡੀਆਂ ਤਕਨਾਲੋਜੀਆਂ ਨੂੰ ਖੋਜ ਤੋਂ ਵਿਆਪਕ ਅਪਣਾਅ ਤੱਕ ਪਹੁੰਚਣ ਵਿੱਚ ਇੱਕ ਦਹਾਕੇ ਤੋਂ ਵੱਧ ਸਮਾਂ ਲੱਗਿਆ। GDPval ਵਰਗੇ ਮੁਲਾਂਕਣ ਭਵਿੱਖੀ AI ਸੁਧਾਰਾਂ ਬਾਰੇ ਗੱਲਬਾਤ ਨੂੰ ਅਨੁਮਾਨਾਂ ਦੀ ਥਾਂ ਸਬੂਤਾਂ ਨਾਲ ਜੋੜਨ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ ਅਤੇ ਸਮੇਂ ਦੇ ਨਾਲ ਮਾਡਲ ਸੁਧਾਰ ਨੂੰ ਟਰੈਕ ਕਰਨ ਵਿੱਚ ਸਾਡੀ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ।
ਪਿਛਲੇ AI ਮੁਲਾਂਕਣ, ਜਿਵੇਂ ਕਿ ਚੁਣੌਤੀਪੂਰਨ ਅਕਾਦਮਿਕ ਟੈਸਟ ਅਤੇ ਮੁਕਾਬਲਾਤੀ ਕੋਡਿੰਗ ਚੁਣੌਤੀਆਂ, ਮਾਡਲ ਰੀਜ਼ਨਿੰਗ ਸਮਰੱਥਾਵਾਂ ਦੀਆਂ ਹੱਦਾਂ ਨੂੰ ਅੱਗੇ ਧੱਕਣ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਰਹੇ ਹਨ, ਪਰ ਉਹ ਅਕਸਰ ਉਹਨਾਂ ਕੰਮਾਂ ਤੋਂ ਘੱਟ ਪੈਂਦੇ ਹਨ ਜੋ ਬਹੁਤ ਸਾਰੇ ਲੋਕ ਆਪਣੀ ਰੋਜ਼ਾਨਾ ਨੌਕਰੀ ਵਿੱਚ ਸੰਭਾਲਦੇ ਹਨ।
ਇਸ ਖਾਈ ਨੂੰ ਪੂਰਣ ਲਈ, ਅਸੀਂ ਅਜੇਹੇ ਮੁਲਾਂਕਣ ਤਿਆਰ ਕਰ ਰਹੇ ਹਾਂ ਜੋ ਵੱਧ ਤੋਂ ਵੱਧ ਯਥਾਰਥਵਾਦੀ ਅਤੇ ਆਰਥਿਕ ਤੌਰ ‘ਤੇ ਸਬੰਧਤ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਮਾਪਦੇ ਹਨ। ਇਹ ਤਰੱਕੀ MMLU ਵਰਗੇ ਰਵਾਇਤੀ ਅਕਾਦਮਿਕ ਬੈਂਚਮਾਰਕਾਂ ਤੋਂ (ਦਰਜਨਾਂ ਵਿਸ਼ਿਆਂ ‘ਤੇ ਪਰੀਖਿਆ-ਸ਼ੈਲੀ ਦੇ ਪ੍ਰਸ਼ਨ), ਹੋਰ ਲਾਗੂ ਮੁਲਾਂਕਣਾਂ ਜਿਵੇਂ SWE-Bench (ਸਾਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਬੱਗ-ਫਿਕਸਿੰਗ ਟਾਸਕ), MLE-Bench (ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਇੰਜੀਨੀਅਰਿੰਗ ਟਾਸਕ ਜਿਵੇਂ ਮਾਡਲ ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ), ਅਤੇ Paper-Bench (ਖੋਜ ਪੇਪਰਾਂ ਉੱਤੇ ਵਿਗਿਆਨਕ ਰੀਜ਼ਨਿੰਗ ਅਤੇ ਸਮੀਖਿਆ), ਅਤੇ ਹੋਰ ਹਾਲ ਹੀ ਵਿੱਚ ਮਾਰਕੀਟ-ਅਧਾਰਤ ਮੁਲਾਂਕਣਾਂ ਜਿਵੇਂ SWE-Lancer (ਅਸਲੀ ਭੁਗਤਾਨਾਂ ‘ਤੇ ਆਧਾਰਿਤ ਫ੍ਰੀਲਾਂਸ ਸਾਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਪ੍ਰੋਜੈਕਟ) ਤੱਕ ਪਹੁੰਚੀ ਹੈ।
GDPval ਇਸ ਤਰੱਕੀ ਦਾ ਅਗਲਾ ਕਦਮ ਹੈ। ਇਹ ਵੱਖ-ਵੱਖ ਪੇਸ਼ਾਵਾਂ ਅਤੇ ਸੈਕਟਰਾਂ ਵਿੱਚ ਤਜਰਬੇਕਾਰ ਪੇਸ਼ੇਵਰਾਂ ਦੇ ਅਸਲ-ਦੁਨੀਆ ਗਿਆਨ-ਕੰਮ ਵਿੱਚੋਂ ਸਿੱਧੇ ਲਏ ਟਾਸਕਾਂ ਉੱਤੇ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਮਾਪਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ ਹੋਰ ਸਪਸ਼ਟ ਤਸਵੀਰ ਮਿਲਦੀ ਹੈ ਕਿ ਮਾਡਲ ਆਰਥਿਕ ਤੌਰ ‘ਤੇ ਕੀਮਤੀ ਕੰਮਾਂ ਉੱਤੇ ਕਿਵੇਂ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ। ਯਥਾਰਥਵਾਦੀ ਪੇਸ਼ਾਵਰ ਟਾਸਕਾਂ ਉੱਤੇ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਸਾਨੂੰ ਇਹ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ ਕਿ ਉਹ ਕੇਵਲ ਲੈਬ ਵਿੱਚ ਹੀ ਕਿੰਨਾ ਵਧੀਆ ਕਰਦੇ ਹਨ ਨਹੀਂ, ਸਗੋਂ ਇਹ ਵੀ ਕਿ ਉਹ ਲੋਕਾਂ ਦੇ ਹਰ ਰੋਜ਼ ਦੇ ਕੰਮ ਵਿੱਚ ਉਹਨਾਂ ਦੀ ਕਿਵੇਂ ਸਹਾਇਤਾ ਕਰ ਸਕਦੇ ਹਨ।
GDPval, ਇਸ ਮੁਲਾਂਕਣ ਦਾ ਪਹਿਲਾ ਸੰਸਕਰਣ, ਅਮਰੀਕੀ GDP ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਣ ਵਾਲੇ ਸਿਖਰਲੇ 9 ਉਦਯੋਗਾਂ ਵਿੱਚੋਂ ਚੁਣੀਆਂ 44 ਪੇਸ਼ਾਵਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ। GDPval ਦੇ ਪੂਰੇ ਸੈੱਟ ਵਿੱਚ 1,320 ਵਿਸ਼ੇਸ਼ ਟਾਸਕ ਸ਼ਾਮਲ ਹਨ (ਜਿਨ੍ਹਾਂ ਵਿੱਚੋਂ 220 ਗੋਲਡ ਓਪਨ-ਸੋਰਸਡ ਸੈੱਟ ਵਿੱਚ ਹਨ), ਅਤੇ ਹਰ ਇੱਕ ਨੂੰ ਇਨ੍ਹਾਂ ਖੇਤਰਾਂ ਦੇ ਔਸਤਨ 14 ਸਾਲ ਤੋਂ ਵੱਧ ਤਜਰਬੇ ਵਾਲੇ ਤਜਰਬੇਕਾਰ ਪੇਸ਼ੇਵਰਾਂ ਨੇ ਬੜੀ ਬਰੀਕੀ ਨਾਲ ਤਿਆਰ ਅਤੇ ਜਾਂਚਿਆ ਹੈ। ਹਰ ਟਾਸਕ ਅਸਲ ਕੰਮ-ਉਤਪਾਦਾਂ ‘ਤੇ ਆਧਾਰਿਤ ਹੈ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਕਾਨੂੰਨੀ ਬ੍ਰੀਫ, ਇੱਕ ਇੰਜੀਨੀਅਰਿੰਗ ਬਲੂਪ੍ਰਿੰਟ, ਇੱਕ ਗਾਹਕ ਸਹਾਇਤਾ ਗੱਲਬਾਤ ਜਾਂ ਇੱਕ ਨਰਸਿੰਗ ਕੇਅਰ ਪਲਾਨ।
GDPval ਆਪਣੀ ਯਥਾਰਥਤਾ ਅਤੇ ਮੁਲਾਂਕਣ ਕੀਤੀਆਂ ਜਾ ਰਹੀਆਂ ਟਾਸਕਾਂ ਦੀ ਵੱਖਰਤਾ ਦੋਹਾਂ ਵਿੱਚ ਵਿਲੱਖਣ ਹੈ। ਆਰਥਿਕ ਮੁੱਲ ਨਾਲ ਜੁੜੇ ਹੋਰ ਮੁਲਾਂਕਣਾਂ ਤੋਂ ਵੱਖਰੇ, ਜੋ ਖਾਸ ਡੋਮੇਨਾਂ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੁੰਦੇ ਹਨ (ਉਦਾਹਰਨ ਵਜੋਂ SWE-Lancer), GDPval ਬਹੁਤ ਸਾਰੇ ਕੰਮਾਂ ਅਤੇ ਪੇਸ਼ਾਵਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ। ਅਤੇ ਉਹਨਾਂ ਬੈਂਚਮਾਰਕਾਂ ਤੋਂ ਵੱਖਰੇ, ਜਿੱਥੇ ਅਕਾਦਮਿਕ ਪਰੀਖਿਆ ਜਾਂ ਟੈਸਟ ਦੀ ਸ਼ੈਲੀ ਵਿੱਚ ਕ੍ਰਿਤ੍ਰਿਮ ਢੰਗ ਨਾਲ ਟਾਸਕ ਬਣਾਏ ਜਾਂਦੇ ਹਨ (ਉਦਾਹਰਨ ਵਜੋਂ Humanity’s Last Exam ਜਾਂ MMLU), GDPval ਉਹਨਾਂ ਟਾਸਕਾਂ ਉੱਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰਦਾ ਹੈ ਜੋ ਅਜਿਹੀਆਂ ਡਿਲਿਵਰੇਬਲਜ਼ ‘ਤੇ ਆਧਾਰਿਤ ਹਨ ਜੋ ਜਾਂ ਤਾਂ ਅੱਜ ਮੌਜੂਦ ਅਸਲ ਕੰਮ ਦਾ ਹਿੱਸਾ ਜਾਂ ਉਤਪਾਦ ਹਨ, ਜਾਂ ਫਿਰ ਉਸੇ ਤਰ੍ਹਾਂ ਬਣਾਇਆ ਗਿਆ ਕੰਮ-ਉਤਪਾਦ ਹਨ।
ਰਵਾਇਤੀ ਬੈਂਚਮਾਰਕਾਂ ਤੋਂ ਵੱਖਰੇ, GDPval ਟਾਸਕ ਸਿਰਫ ਸਧਾਰਣ ਟੈਕਸਟ ਪ੍ਰੌੰਪਟ ਨਹੀਂ ਹਨ। ਉਹ ਸੰਦਰਭ ਅਤੇ ਰੈਫ਼ਰੈਂਸ ਫ਼ਾਈਲਾਂ ਨਾਲ ਆਉਂਦੇ ਹਨ, ਅਤੇ ਉਮੀਦ ਕੀਤੀਆਂ ਡਿਲਿਵਰੇਬਲਜ਼ ਵਿੱਚ ਦਸਤਾਵੇਜ਼, ਸਲਾਈਡਾਂ, ਡਾਇਗ੍ਰਾਮ, ਸਪ੍ਰੈਡਸ਼ੀਟਾਂ ਅਤੇ ਮਲਟੀਮੀਡੀਆ ਸ਼ਾਮਲ ਹਨ। ਇਹ ਯਥਾਰਥਤਾ GDPval ਨੂੰ ਇਸ ਗੱਲ ਦਾ ਹੋਰ ਯਥਾਰਥਵਾਦੀ ਟੈਸਟ ਬਣਾਉਂਦੀ ਹੈ ਕਿ ਮਾਡਲ ਪੇਸ਼ੇਵਰਾਂ ਦੀ ਕਿਵੇਂ ਸਹਾਇਤਾ ਕਰ ਸਕਦੇ ਹਨ।
GDPval ਇੱਕ ਸ਼ੁਰੂਆਤੀ ਕਦਮ ਹੈ ਜੋ ਕਈ ਆਰਥਿਕ ਕੰਮਾਂ ਦੀ ਪੂਰੀ ਨਜ਼ਾਕਤ ਨੂੰ ਦਰਸਾਉਂਦਾ ਨਹੀਂ। ਭਾਵੇਂ ਇਹ 44 ਪੇਸ਼ਾਵਾਂ ਅਤੇ ਸੈਂਕੜਿਆਂ ਗਿਆਨ-ਕੰਮ ਟਾਸਕਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ, ਪਰ ਇਹ ਵਨ-ਸ਼ਾਟ ਮੁਲਾਂਕਣਾਂ ਤੱਕ ਸੀਮਿਤ ਹੈ, ਇਸ ਲਈ ਇਹ ਉਹ ਮਾਮਲੇ ਨਹੀਂ ਫੜਦਾ ਜਿੱਥੇ ਮਾਡਲ ਨੂੰ ਸੰਦਰਭ ਬਣਾਉਣ ਜਾਂ ਕਈ ਡਰਾਫਟਾਂ ਰਾਹੀਂ ਸੁਧਾਰ ਕਰਨ ਦੀ ਲੋੜ ਹੋਵੇ। ਭਵਿੱਖ ਦੇ ਸੰਸਕਰਣ ਹੋਰ ਇੰਟਰਐਕਟਿਵ ਵਰਕਫ਼ਲੋ ਅਤੇ ਸੰਦਰਭ-ਭਰਪੂਰ ਟਾਸਕਾਂ ਤੱਕ ਵਿਸਤਾਰ ਕਰਨਗੇ ਤਾਂ ਜੋ ਅਸਲ-ਦੁਨੀਆ ਗਿਆਨ-ਕੰਮ ਦੀ ਜਟਿਲਤਾ ਨੂੰ ਹੋਰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਦਰਸਾਇਆ ਜਾ ਸਕੇ (ਹੇਠਾਂ ਸਾਡੀ Limitations ਸੈਕਸ਼ਨ ਵਿੱਚ ਹੋਰ ਵੇਖੋ)।
GDPval 9 ਉਦਯੋਗਾਂ ਅਤੇ 44 ਪੇਸ਼ਾਵਾਂ ਵਿੱਚ ਟਾਸਕਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ, ਅਤੇ ਭਵਿੱਖ ਦੇ ਸੰਸਕਰਣ ਕਵਰੇਜ ਨੂੰ ਵਧਾਉਂਦੇ ਰਹਿਣਗੇ। ਸ਼ੁਰੂਆਤੀ 9 ਉਦਯੋਗ ਉਹਨਾਂ ਦੇ ਆਧਾਰ ‘ਤੇ ਚੁਣੇ ਗਏ ਜੋ U.S. GDP ਵਿੱਚ 5% ਤੋਂ ਵੱਧ ਯੋਗਦਾਨ ਪਾਉਂਦੇ ਹਨ, ਜਿਵੇਂ ਕਿ Federal Reserve Bank of St. Louis ਦੇ ਡੇਟਾ ਦੁਆਰਾ ਨਿਰਧਾਰਤ ਕੀਤਾ ਗਿਆ। ਫਿਰ, ਅਸੀਂ ਹਰ ਉਦਯੋਗ ਦੇ ਅੰਦਰ ਉਹ 5 ਪੇਸ਼ਾਵਾਂ ਚੁਣੀਆਂ ਜੋ ਕੁੱਲ ਮਜ਼ਦੂਰੀ ਅਤੇ ਮੁਆਵਜ਼ੇ ਵਿੱਚ ਸਭ ਤੋਂ ਵੱਧ ਯੋਗਦਾਨ ਪਾਉਂਦੀਆਂ ਹਨ ਅਤੇ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਗਿਆਨ-ਕੰਮ ਵਾਲੀਆਂ ਪੇਸ਼ਾਵਾਂ ਹਨ, ਜਿਸ ਲਈ May 2024 US Bureau of Labor Statistics (BLS) occupational employment report(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦੇ ਵੇਤਨ ਅਤੇ ਰੋਜ਼ਗਾਰ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਗਈ। ਇਹ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ ਕਿ ਕੀ ਪੇਸ਼ਾਵਾਂ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਗਿਆਨ-ਕੰਮ ਵਾਲੀਆਂ ਸਨ, ਅਸੀਂ O*NET(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਤੋਂ ਟਾਸਕ ਡੇਟਾ ਵਰਤਿਆ, ਜੋ U.S. Department of Labor ਦੁਆਰਾ ਪ੍ਰਾਯੋਜਿਤ ਅਮਰੀਕੀ ਪੇਸ਼ਾਵਰ ਜਾਣਕਾਰੀ ਦਾ ਡੇਟਾਬੇਸ ਹੈ। ਅਸੀਂ O*NET ਵਿੱਚ ਹਰ ਪੇਸ਼ੇ ਲਈ ਹਰ ਟਾਸਕ ਨੂੰ ਗਿਆਨ-ਕੰਮ ਜਾਂ ਭੌਤਿਕ ਕੰਮ/ਹੱਥੋਂ ਮਿਹਨਤ (ਜਿਸ ਲਈ ਭੌਤਿਕ ਦੁਨੀਆ ਵਿੱਚ ਕਾਰਵਾਈ ਦੀ ਲੋੜ ਹੋਵੇ) ਵਜੋਂ ਵਰਗੀਕ੍ਰਿਤ ਕੀਤਾ। ਇੱਕ ਪੇਸ਼ਾ ਕੁੱਲ ਮਿਲਾ ਕੇ “ਮੁੱਖ ਤੌਰ ‘ਤੇ ਗਿਆਨ-ਕੰਮ” ਵਜੋਂ ਤਦ ਯੋਗ ਮੰਨੀ ਗਈ ਜੇ ਇਸ ਦੇ ਘੱਟੋ-ਘੱਟ 60% ਘਟਕ ਟਾਸਕਾਂ ਨੂੰ ਅਜੇਹਾ ਵਰਗੀਕ੍ਰਿਤ ਕੀਤਾ ਗਿਆ ਹੋਵੇ ਕਿ ਉਹਨਾਂ ਵਿੱਚ ਭੌਤਿਕ ਕੰਮ ਜਾਂ ਹੱਥੋਂ ਮਿਹਨਤ ਸ਼ਾਮਲ ਨਾ ਹੋਵੇ। ਅਸੀਂ GDPval ਦੇ ਪਹਿਲੇ ਸੰਸਕਰਣ ਲਈ ਇਸ 60% ਥ੍ਰੈਸ਼ਹੋਲਡ ਨੂੰ ਸ਼ੁਰੂਆਤੀ ਬਿੰਦੂ ਵਜੋਂ ਚੁਣਿਆ, ਉਹਨਾਂ ਪੇਸ਼ਾਵਾਂ ‘ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰਦਿਆਂ ਜਿੱਥੇ AI ਦਾ ਅਸਲ-ਦੁਨੀਆ ਉਤਪਾਦਕਤਾ ‘ਤੇ ਸਭ ਤੋਂ ਵੱਧ ਪ੍ਰਭਾਵ ਹੋ ਸਕਦਾ ਹੈ।
ਇਸ ਪ੍ਰਕਿਰਿਆ ਨਾਲ 44 ਪੇਸ਼ਾਵਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਲਈ ਪ੍ਰਾਪਤ ਕੀਤਾ ਗਿਆ।
ਰੀਅਲ ਐਸਟੇਟ ਅਤੇ ਕਿਰਾਏ ਤੇ ਲੀਜ਼ਿੰਗ
ਕਨਸੀਅਰਜ
ਜਾਇਦਾਦ, ਰੀਅਲ ਐਸਟੇਟ ਅਤੇ ਕਮਿਊਨਿਟੀ ਐਸੋਸੀਏਸ਼ਨ ਮੈਨੇਜਰ
ਰੀਅਲ ਐਸਟੇਟ ਸੇਲਜ਼ ਏਜੰਟ
ਰੀਅਲ ਐਸਟੇਟ ਬ੍ਰੋਕਰ
ਕਾਊਂਟਰ ਅਤੇ ਰੈਂਟਲ ਕਲਰਕ
ਸਰਕਾਰ
ਮਨੋਰੰਜਨ ਕਰਮਚਾਰੀ
ਕੰਪਲਾਇੰਸ ਅਧਿਕਾਰੀ
ਪੁਲਿਸ ਅਤੇ ਜਾਸੂਸਾਂ ਦੇ ਪਹਿਲੀ ਪੰਤੀ ਦੇ ਨਿਗਰਾਨ
ਪ੍ਰਸ਼ਾਸਕੀ ਸੇਵਾ ਮੈਨੇਜਰ
ਬੱਚਿਆਂ, ਪਰਿਵਾਰ ਅਤੇ ਸਕੂਲ ਸਮਾਜਿਕ ਕਰਮਚਾਰੀ
ਮੈਨੂਫੈਕਚਰਿੰਗ
ਮਕੈਨਿਕਲ ਇੰਜੀਨੀਅਰ
ਉਦਯੋਗਿਕ ਇੰਜੀਨੀਅਰ
ਖਰੀਦਦਾਰ ਅਤੇ ਖਰੀਦ ਏਜੰਟ
ਸ਼ਿਪਿੰਗ, ਪ੍ਰਾਪਤੀ ਅਤੇ ਸਟਾਕ ਕਲਰਕ
ਉਤਪਾਦਨ ਅਤੇ ਓਪਰੇਟਿੰਗ ਕਰਮਚਾਰੀਆਂ ਦੇ ਪਹਿਲੀ ਪੰਤੀ ਦੇ ਨਿਗਰਾਨ
ਪੇਸ਼ਾਵਰ, ਵਿਗਿਆਨਕ ਅਤੇ ਤਕਨੀਕੀ ਸੇਵਾਵਾਂ
ਸਾਫਟਵੇਅਰ ਡਿਵੈਲਪਰ
ਵਕੀਲ
ਅਕਾਊਂਟੈਂਟ ਅਤੇ ਆਡੀਟਰ
ਕੰਪਿਊਟਰ ਅਤੇ ਜਾਣਕਾਰੀ ਪ੍ਰਣਾਲੀ ਮੈਨੇਜਰ
ਪ੍ਰੋਜੈਕਟ ਪ੍ਰਬੰਧਨ ਵਿਸ਼ੇਸ਼ਗਿਆਨ
ਸਿਹਤ ਸੰਭਾਲ ਅਤੇ ਸਮਾਜਿਕ ਸਹਾਇਤਾ
ਰਜਿਸਟਰਡ ਨਰਸਾਂ
ਨਰਸ ਪ੍ਰੈਕਟੀਸ਼ਨਰ
ਚਿਕਿਤਸਾ ਅਤੇ ਸਿਹਤ ਸੇਵਾ ਮੈਨੇਜਰ
ਦਫ਼ਤਰੀ ਅਤੇ ਪ੍ਰਸ਼ਾਸਕੀ ਸਹਾਇਤਾ ਕਰਮਚਾਰੀਆਂ ਦੇ ਪਹਿਲੀ ਪੰਤੀ ਦੇ ਨਿਗਰਾਨ
ਮੈਡੀਕਲ ਸਕੱਤਰ ਅਤੇ ਪ੍ਰਸ਼ਾਸਕੀ ਸਹਾਇਕ
ਵਿੱਤ ਅਤੇ ਬੀਮਾ
ਗਾਹਕ ਸੇਵਾ ਪ੍ਰਤੀਨਿਧੀ
ਵਿੱਤੀ ਅਤੇ ਨਿਵੇਸ਼ ਵਿਸ਼ਲੇਸ਼ਕ
ਵਿੱਤੀ ਮੈਨੇਜਰ
ਨਿੱਜੀ ਵਿੱਤੀ ਸਲਾਹਕਾਰ
ਸਿਕਿਊਰਿਟੀਆਂ, ਕਮੋਡਿਟੀਆਂ ਅਤੇ ਵਿੱਤੀ ਸੇਵਾਵਾਂ ਦੇ ਵਿਕਰੀ ਏਜੰਟ
ਖੁਦਰਾ ਵਪਾਰ
ਫਾਰਮਾਸਿਸਟ
ਖੁਦਰਾ ਵਿਕਰੀ ਕਰਮਚਾਰੀਆਂ ਦੇ ਪਹਿਲੀ ਪੰਤੀ ਦੇ ਨਿਗਰਾਨ
ਜਨਰਲ ਅਤੇ ਓਪਰੇਸ਼ਨ ਮੈਨੇਜਰ
ਨਿੱਜੀ ਜਾਸੂਸ ਅਤੇ ਜਾਂਚਕਰਤਾ
ਥੋਕ ਵਪਾਰ
ਵਿਕਰੀ ਮੈਨੇਜਰ
ਆਰਡਰ ਕਲਰਕ
ਗੈਰ-ਖੁਦਰਾ ਵਿਕਰੀ ਕਰਮਚਾਰੀਆਂ ਦੇ ਪਹਿਲੀ ਪੰਤੀ ਦੇ ਨਿਗਰਾਨ
ਵਿਕਰੀ ਪ੍ਰਤੀਨਿਧੀ, ਥੋਕ ਅਤੇ ਮੈਨੂਫੈਕਚਰਿੰਗ, ਤਕਨੀਕੀ ਅਤੇ ਵਿਗਿਆਨਕ ਉਤਪਾਦਾਂ ਤੋਂ ਇਲਾਵਾ
ਵਿਕਰੀ ਪ੍ਰਤੀਨਿਧੀ, ਥੋਕ ਅਤੇ ਮੈਨੂਫੈਕਚਰਿੰਗ, ਤਕਨੀਕੀ ਅਤੇ ਵਿਗਿਆਨਕ ਉਤਪਾਦ
ਜਾਣਕਾਰੀ
ਆਡੀਓ ਅਤੇ ਵੀਡੀਓ ਟੈਕਨੀਸ਼ੀਅਨ
ਨਿਰਮਾਤਾ ਅਤੇ ਡਾਇਰੈਕਟਰ
ਖ਼ਬਰਾਂ ਦੇ ਵਿਸ਼ਲੇਸ਼ਕ, ਰਿਪੋਰਟਰ ਅਤੇ ਪੱਤਰਕਾਰ
ਫ਼ਿਲਮ ਅਤੇ ਵੀਡੀਓ ਸੰਪਾਦਕ
ਸੰਪਾਦਕ
ਹਰ ਪੇਸ਼ੇ ਲਈ, ਅਸੀਂ ਤਜਰਬੇਕਾਰ ਪੇਸ਼ੇਵਰਾਂ ਨਾਲ ਮਿਲ ਕੇ ਅਜੇਹੇ ਪ੍ਰਤੀਨਿਧੀ ਟਾਸਕ ਬਣਾਏ ਜੋ ਉਹਨਾਂ ਦੇ ਦਿਨ-ਪ੍ਰਤੀਦਿਨ ਦੇ ਕੰਮ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। ਇਨ੍ਹਾਂ ਪੇਸ਼ੇਵਰਾਂ ਦਾ ਔਸਤ ਤਜਰਬਾ 14 ਸਾਲ ਸੀ ਅਤੇ ਉਨ੍ਹਾਂ ਦੇ ਉਤਕਰਸ਼ ਦੇ ਮਜ਼ਬੂਤ ਰਿਕਾਰਡ ਸਨ। ਅਸੀਂ ਜ਼ਾਣ-ਬੁੱਝ ਕੇ ਵੱਖ-ਵੱਖ ਕਿਸਮ ਦੇ ਮਾਹਰ ਭਰਤੀ ਕੀਤੇ—ਜਿਵੇਂ ਵੱਖ-ਵੱਖ ਪ੍ਰੈਕਟਿਸ ਖੇਤਰਾਂ ਅਤੇ ਵੱਖ-ਵੱਖ ਆਕਾਰ ਦੀਆਂ ਫ਼ਰਮਾਂ ਦੇ ਵਕੀਲ—ਤਾਂ ਜੋ ਪ੍ਰਤੀਨਿਧਤਾ ਵੱਧ ਤੋਂ ਵੱਧ ਹੋਵੇ।
ਹਰ ਟਾਸਕ ਇੱਕ ਬਹੁ-ਕਦਮੀ ਸਮੀਖਿਆ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚੋਂ ਲੰਘੀ ਤਾਂ ਜੋ ਇਹ ਯਕੀਨੀ ਬਣਾਇਆ ਜਾ ਸਕੇ ਕਿ ਉਹ ਅਸਲ ਕੰਮ ਦੀ ਪ੍ਰਤੀਨਿਧੀ ਹੈ, ਕਿਸੇ ਹੋਰ ਪੇਸ਼ੇਵਰ ਲਈ ਪੂਰੀ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ, ਅਤੇ ਮੁਲਾਂਕਣ ਲਈ ਸਪਸ਼ਟ ਹੈ। ਔਸਤਨ, ਹਰ ਟਾਸਕ ਨੂੰ ਮਾਹਰ ਸਮੀਖਿਆ ਦੇ 5 ਦੌਰ ਮਿਲੇ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਹੋਰ ਟਾਸਕ ਲੇਖਕਾਂ, ਵਾਧੂ ਪੇਸ਼ਾਵਰ ਸਮੀਖਿਆਕਾਰਾਂ ਅਤੇ ਮਾਡਲ-ਅਧਾਰਿਤ ਵੈਲੀਡੇਸ਼ਨ ਦੀਆਂ ਜਾਂਚਾਂ ਸ਼ਾਮਲ ਸਨ।
ਨਤੀਜੇ ਵਜੋਂ ਬਣੇ ਡੇਟਾਸੈੱਟ ਵਿੱਚ ਹਰ ਪੇਸ਼ੇ ਲਈ 30 ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਮੀਖਿਆ ਕੀਤੀਆਂ ਟਾਸਕਾਂ (ਫੁੱਲ-ਸੈੱਟ) ਅਤੇ ਸਾਡੇ ਓਪਨ-ਸੋਰਸਡ ਗੋਲਡ ਸੈੱਟ ਵਿੱਚ ਹਰ ਪੇਸ਼ੇ ਲਈ 5 ਟਾਸਕਾਂ ਸ਼ਾਮਲ ਹਨ, ਜੋ ਅਸਲ-ਦੁਨੀਆ ਗਿਆਨ-ਕੰਮ ਉੱਤੇ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਮੁਲਾਂਕਣ ਲਈ ਮਜ਼ਬੂਤ ਆਧਾਰ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ।
GDPval ਟਾਸਕਾਂ ਦੇ ਉਦਾਹਰਨ
ਪ੍ਰੌੰਪਟ + ਕਾਰਜ ਸੰਦਰਭ
ਤਜਰਬੇਕਾਰ ਮਨੁੱਖੀ ਡਿਲਿਵਰੇਬਲ

GDPval ਟਾਸਕਾਂ ਉੱਤੇ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ, ਅਸੀਂ ਮਾਹਰ “ਗ੍ਰੇਡਰਾਂ” ਉੱਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਾਂ—ਤਜਰਬੇਕਾਰ ਪੇਸ਼ੇਵਰਾਂ ਦਾ ਇੱਕ ਸਮੂਹ ਜੋ ਡੇਟਾਸੈੱਟ ਵਿੱਚ ਦਰਸਾਈਆਂ ਗਈਆਂ ਉਹੀ ਪੇਸ਼ਾਵਾਂ ਨਾਲ ਸੰਬੰਧਿਤ ਹਨ। ਇਹ ਗ੍ਰੇਡਰ ਮਾਡਲ-ਜਨਰੇਟ ਕੀਤੀਆਂ ਡਿਲਿਵਰੇਬਲਜ਼ ਦੀ ਟਾਸਕ ਲੇਖਕਾਂ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੀਆਂ ਡਿਲਿਵਰੇਬਲਜ਼ ਨਾਲ ਅੰਨ੍ਹੀ ਤੁਲਨਾ ਕਰਦੇ ਹਨ (ਉਹਨਾਂ ਨੂੰ ਨਹੀਂ ਪਤਾ ਹੁੰਦਾ ਕਿ ਕਿਹੜੀ AI ਬਣਾਈ ਹੈ ਅਤੇ ਕਿਹੜੀ ਮਨੁੱਖ ਨੇ), ਅਤੇ ਆਲੋਚਨਾ ਅਤੇ ਰੈਂਕਿੰਗ ਦਿੰਦੇ ਹਨ। ਫਿਰ ਗ੍ਰੇਡਰ ਮਨੁੱਖੀ ਅਤੇ AI ਡਿਲਿਵਰੇਬਲਜ਼ ਦੀ ਰੈਂਕਿੰਗ ਕਰਦੇ ਹਨ ਅਤੇ ਹਰ AI ਡਿਲਿਵਰੇਬਲ ਨੂੰ ਇਕ-ਦੂਜੇ ਦੇ ਮੁਕਾਬਲੇ “better”, “as good as”, ਜਾਂ “worse than” ਵਜੋਂ ਵਰਗੀਕ੍ਰਿਤ ਕਰਦੇ ਹਨ।
ਟਾਸਕ ਲੇਖਕਾਂ ਨੇ ਆਪਣੀਆਂ ਪੇਸ਼ਾਵਾਂ ਲਈ ਵਿਸਤ੍ਰਿਤ ਸਕੋਰਿੰਗ ਰੂਬਰਿਕ ਵੀ ਬਣਾਏ, ਜੋ ਗ੍ਰੇਡਿੰਗ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਇਕਸਾਰਤਾ ਅਤੇ ਪਾਰਦਰਸ਼ਤਾ ਜੋੜਦੇ ਹਨ। ਅਸੀਂ ਇੱਕ “automated grader” ਵੀ ਬਣਾਇਆ, ਇੱਕ AI ਸਿਸਟਮ ਜੋ ਇਹ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਹੈ ਕਿ ਮਨੁੱਖੀ ਮਾਹਰ ਕਿਸੇ ਦਿੱਤੀ ਡਿਲਿਵਰੇਬਲ ਬਾਰੇ ਕਿਵੇਂ ਫ਼ੈਸਲਾ ਕਰਨਗੇ। ਹੋਰ ਸ਼ਬਦਾਂ ਵਿੱਚ, ਹਰ ਵਾਰ ਪੂਰੀ ਮਾਹਰ ਸਮੀਖਿਆ ਚਲਾਉਣ ਦੀ ਥਾਂ, automated grader ਤੇਜ਼ੀ ਨਾਲ ਅਨੁਮਾਨ ਲਗਾ ਸਕਦਾ ਹੈ ਕਿ ਲੋਕ ਸੰਭਾਵਤ ਤੌਰ ‘ਤੇ ਕਿਹੜੀ ਆਉਟਪੁੱਟ ਨੂੰ ਤਰਜੀਹ ਦੇਣਗੇ। ਅਸੀਂ ਇਸ ਸੰਦ ਨੂੰ evals.openai.com ‘ਤੇ ਇੱਕ ਪ੍ਰਯੋਗਾਤਮਕ ਖੋਜ ਸੇਵਾ ਵਜੋਂ ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ, ਪਰ ਇਹ ਹਾਲੇ ਮਾਹਰ ਗ੍ਰੇਡਰਾਂ ਜਿੰਨਾ ਭਰੋਸੇਯੋਗ ਨਹੀਂ ਹੈ, ਇਸ ਲਈ ਅਸੀਂ ਇਸਦਾ ਉਪਯੋਗ ਉਨ੍ਹਾਂ ਦੀ ਥਾਂ ਲੈਣ ਲਈ ਨਹੀਂ ਕਰਦੇ।
ਅਸੀਂ ਪਾਇਆ ਕਿ ਅੱਜ ਦੇ ਸਭ ਤੋਂ ਵਧੀਆ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਪਹਿਲਾਂ ਹੀ ਉਦਯੋਗ ਮਾਹਰਾਂ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਕੰਮ ਦੀ ਗੁਣਵੱਤਾ ਦੇ ਨੇੜੇ ਪਹੁੰਚ ਰਹੇ ਹਨ। ਇਹ ਜਾਂਚਣ ਲਈ, ਅਸੀਂ ਅੰਨ੍ਹੇ ਮੁਲਾਂਕਣ ਚਲਾਏ ਜਿੱਥੇ ਉਦਯੋਗ ਮਾਹਰਾਂ ਨੇ ਕਈ ਅਗੇਤੀ ਮਾਡਲਾਂ—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, ਅਤੇ Grok 4—ਦੀਆਂ ਡਿਲਿਵਰੇਬਲਜ਼ ਦੀ ਮਨੁੱਖਾਂ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਕੰਮ ਨਾਲ ਤੁਲਨਾ ਕੀਤੀ। GDPval ਗੋਲਡ ਸੈੱਟ ਦੀਆਂ 220 ਟਾਸਕਾਂ ਵਿੱਚ, ਅਸੀਂ ਉਹ ਮੌਕੇ ਦਰਜ ਕੀਤੇ ਜਦੋਂ ਮਾਡਲ ਆਉਟਪੁੱਟ ਨੂੰ ਉਦਯੋਗ ਮਾਹਰਾਂ ਦੀਆਂ ਡਿਲਿਵਰੇਬਲਜ਼ ਨਾਲੋਂ ਵਧੀਆ (“wins”) ਜਾਂ ਬਰਾਬਰ (“ties”) ਰੇਟ ਕੀਤਾ ਗਿਆ, ਜਿਵੇਂ ਹੇਠਾਂ ਬਾਰ ਚਾਰਟ ਵਿੱਚ ਦਿਖਾਇਆ ਗਿਆ ਹੈ। Claude Opus 4.1 ਇਸ ਸੈੱਟ ਵਿੱਚ ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲਾ ਮਾਡਲ ਸੀ, ਖ਼ਾਸ ਤੌਰ ‘ਤੇ ਸੁੰਦਰਤਾ-ਸਬੰਧੀ ਪੱਖਾਂ (ਉਦਾਹਰਨ ਵਜੋਂ ਦਸਤਾਵੇਜ਼ ਫਾਰਮੈਟਿੰਗ, ਸਲਾਈਡ ਲੇਆਉਟ) ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਸੀ, ਅਤੇ GPT‑5 ਖ਼ਾਸ ਤੌਰ ‘ਤੇ ਸ਼ੁੱਧਤਾ (ਉਦਾਹਰਨ ਵਜੋਂ ਡੋਮੇਨ-ਖ਼ਾਸ ਗਿਆਨ ਲੱਭਣ) ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਸੀ। ਅਸੀਂ ਇਨ੍ਹਾਂ ਟਾਸਕਾਂ ਉੱਤੇ ਸਮੇਂ ਦੇ ਨਾਲ ਸਪਸ਼ਟ ਤਰੱਕੀ ਵੀ ਵੇਖਦੇ ਹਾਂ। GPT‑4o (ਬਸੰਤ 2024 ਵਿੱਚ ਜਾਰੀ) ਤੋਂ GPT‑5 (ਗਰਮੀ 2025 ਵਿੱਚ ਜਾਰੀ) ਤੱਕ ਪ੍ਰਦਰਸ਼ਨ ਦੋਗੁਣਾ ਤੋਂ ਵੱਧ ਹੋ ਗਿਆ ਹੈ, ਇੱਕ ਸਪਸ਼ਟ ਰੇਖੀ ਰੁਝਾਨ ਦਾ ਪਾਲਣ ਕਰਦਿਆਂ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, ਅਸੀਂ ਪਾਇਆ ਕਿ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ GDPval ਟਾਸਕਾਂ ਨੂੰ ਉਦਯੋਗ ਮਾਹਰਾਂ ਨਾਲੋਂ ਲਗਭਗ 100x ਤੇਜ਼ ਅਤੇ 100x ਸਸਤੇ ਢੰਗ ਨਾਲ ਪੂਰਾ ਕਰ ਸਕਦੇ ਹਨ। ਹਾਲਾਂਕਿ, ਇਹ ਅੰਕੜੇ ਸਿਰਫ਼ ਮਾਡਲ ਇਨਫ਼ਰੈਂਸ ਸਮੇਂ ਅਤੇ API ਬਿਲਿੰਗ ਦਰਾਂ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ, ਅਤੇ ਇਸ ਲਈ ਉਹ ਮਨੁੱਖੀ ਨਿਗਰਾਨੀ, ਦੁਹਰਾਈ ਅਤੇ ਇੰਟੀਗ੍ਰੇਸ਼ਨ ਕਦਮਾਂ ਨੂੰ ਨਹੀਂ ਫੜਦੇ ਜੋ ਅਸਲ ਕਾਰਜਸਥਲ ਸੈਟਿੰਗਾਂ ਵਿੱਚ ਸਾਡੇ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਲਈ ਲਾਜ਼ਮੀ ਹੁੰਦੇ ਹਨ। ਫਿਰ ਵੀ, ਖ਼ਾਸ ਕਰਕੇ ਉਹਨਾਂ ਟਾਸਕਾਂ ਦੇ ਉਪਸਮੂਹ ਉੱਤੇ ਜਿੱਥੇ ਮਾਡਲ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਮਜ਼ਬੂਤ ਹਨ, ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ ਕਿਸੇ ਟਾਸਕ ਨੂੰ ਪਹਿਲਾਂ ਮਾਡਲ ਨੂੰ ਦੇਣਾ, ਮਨੁੱਖ ਨਾਲ ਕੋਸ਼ਿਸ਼ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ, ਸਮਾਂ ਅਤੇ ਪੈਸਾ ਬਚਾਏਗਾ।
ਮਾਹਰ ਗ੍ਰੇਡਰਾਂ ਨੇ ਅਗੇਤੀ ਮਾਡਲਾਂ ਦੀਆਂ ਡਿਲਿਵਰੇਬਲਜ਼ ਦੀ ਤੁਲਨਾ ਮਨੁੱਖੀ ਮਾਹਰਾਂ ਨਾਲ ਕੀਤੀ। ਅੱਜ ਦੇ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਪਹਿਲਾਂ ਹੀ ਉਦਯੋਗ ਮਾਹਰਾਂ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਕੰਮ ਦੀ ਗੁਣਵੱਤਾ ਦੇ ਨੇੜੇ ਪਹੁੰਚ ਰਹੇ ਹਨ। Claude Opus 4.1 ਨੇ ਲਗਭਗ ਅੱਧ ਤੋਂ ਥੋੜ੍ਹੀਆਂ ਘੱਟ ਟਾਸਕਾਂ ਵਿੱਚ ਮਨੁੱਖਾਂ ਜਿੰਨੀ ਚੰਗੀ ਜਾਂ ਉਸ ਤੋਂ ਵਧੀਆ ਰੇਟ ਕੀਤੀ ਗਈ ਆਉਟਪੁੱਟ ਬਣਾਈ।
GPT‑4o ਤੋਂ GPT‑5 ਤੱਕ, ਇੱਕ ਸਾਲ ਵਿੱਚ GDPval ਟਾਸਕਾਂ ਉੱਤੇ ਪ੍ਰਦਰਸ਼ਨ ਤਿੰਨ ਗੁਣਾ ਤੋਂ ਵੱਧ ਹੋ ਗਿਆ।
ਅੰਤ ਵਿੱਚ, ਅਸੀਂ GPT‑5 ਦੇ ਇੱਕ ਅੰਦਰੂਨੀ, ਪ੍ਰਯੋਗਾਤਮਕ ਸੰਸਕਰਣ ਨੂੰ ਕ੍ਰਮਵਾਰ ਟ੍ਰੇਨ ਕੀਤਾ ਤਾਂ ਜੋ ਇਹ ਅੰਦਾਜ਼ਾ ਲਗਾਇਆ ਜਾ ਸਕੇ ਕਿ ਕੀ ਅਸੀਂ GDPval ਉੱਤੇ ਪ੍ਰਦਰਸ਼ਨ ਸੁਧਾਰ ਸਕਦੇ ਹਾਂ। ਅਸੀਂ ਪਾਇਆ ਕਿ ਇਸ ਪ੍ਰਕਿਰਿਆ ਨੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਸੁਧਾਰ ਕੀਤਾ, ਜਿਸ ਨਾਲ ਹੋਰ ਸੰਭਾਵਤ ਸੁਧਾਰ ਲਈ ਰਸਤਾ ਬਣਿਆ। ਹੋਰ ਨਿਯੰਤਰਿਤ ਪ੍ਰਯੋਗ ਵੀ ਇਸ ਦੀ ਪੁਸ਼ਟੀ ਕਰਦੇ ਹਨ: ਮਾਡਲ ਆਕਾਰ ਵਧਾਉਣਾ, ਹੋਰ ਰੀਜ਼ਨਿੰਗ ਕਦਮ ਉਤਸ਼ਾਹਿਤ ਕਰਨਾ ਅਤੇ ਟਾਸਕ ਲਈ ਹੋਰ ਸਮ੍ਰਿੱਧ ਸੰਦਰਭ ਦੇਣਾ—ਹਰ ਇਕ ਨਾਲ ਮਾਪਣਯੋਗ ਲਾਭ ਮਿਲੇ।
ਤੁਸੀਂ ਸਾਡੇ ਪੇਪਰ ਵਿੱਚ ਪੂਰੇ ਨਤੀਜੇ ਪੜ੍ਹ ਸਕਦੇ ਹੋ। ਅਸੀਂ GDPval ਟਾਸਕਾਂ ਦਾ ਇੱਕ ਗੋਲਡ ਉਪਸਮੂਹ ਅਤੇ ਇੱਕ ਸਰਵਜਨਿਕ ਗ੍ਰੇਡਿੰਗ ਸੇਵਾ ਵੀ ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ ਤਾਂ ਜੋ ਹੋਰ ਖੋਜਕਰਤਾ ਇਸ ਕੰਮ ਨੂੰ ਅੱਗੇ ਵਧਾ ਸਕਣ।
ਜਿਵੇਂ-जਿਵੇਂ AI ਹੋਰ ਸਮਰੱਥ ਹੁੰਦਾ ਜਾਵੇਗਾ, ਇਹ ਸੰਭਾਵਤ ਤੌਰ ‘ਤੇ ਨੌਕਰੀ ਬਾਜ਼ਾਰ ਵਿੱਚ ਤਬਦੀਲੀਆਂ ਲਿਆਵੇਗਾ। ਸ਼ੁਰੂਆਤੀ GDPval ਨਤੀਜੇ ਦਿਖਾਉਂਦੇ ਹਨ ਕਿ ਮਾਡਲ ਪਹਿਲਾਂ ਹੀ ਕੁਝ ਦੁਹਰਾਏ ਜਾਣ ਵਾਲੇ, ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਨਿਰਧਾਰਤ ਕੰਮ ਮਾਹਰਾਂ ਨਾਲੋਂ ਤੇਜ਼ ਅਤੇ ਘੱਟ ਲਾਗਤ ‘ਤੇ ਕਰ ਸਕਦੇ ਹਨ। ਹਾਲਾਂਕਿ, ਜ਼ਿਆਦਾਤਰ ਨੌਕਰੀਆਂ ਸਿਰਫ਼ ਉਹਨਾਂ ਟਾਸਕਾਂ ਦਾ ਸਮੂਹ ਨਹੀਂ ਹੁੰਦੀਆਂ ਜੋ ਲਿਖੀਆਂ ਜਾ ਸਕਣ। GDPval ਇਹ ਉਜਾਗਰ ਕਰਦਾ ਹੈ ਕਿ AI ਕਿੱਥੇ ਰੁਟੀਨ ਟਾਸਕ ਸੰਭਾਲ ਸਕਦਾ ਹੈ ਤਾਂ ਜੋ ਲੋਕ ਕੰਮ ਦੇ ਰਚਨਾਤਮਕ ਅਤੇ ਫ਼ੈਸਲਾ-ਕੇਂਦ੍ਰਿਤ ਹਿੱਸਿਆਂ ਉੱਤੇ ਹੋਰ ਸਮਾਂ ਬਿਤਾ ਸਕਣ। ਜਦੋਂ AI ਇਸ ਤਰੀਕੇ ਨਾਲ ਕਰਮਚਾਰੀਆਂ ਨੂੰ ਪੂਰਕ ਬਣਾਉਂਦਾ ਹੈ, ਤਾਂ ਇਹ ਮਹੱਤਵਪੂਰਨ ਆਰਥਿਕ ਵਾਧੇ ਵਿੱਚ ਬਦਲ ਸਕਦਾ ਹੈ। ਸਾਡਾ ਲੱਖ ਇਹ ਹੈ ਕਿ ਇਹਨਾਂ ਸੰਦਾਂ ਤੱਕ ਪਹੁੰਚ ਦਾ ਲੋਕਤੰਤਰਿਕਰਨ ਕਰਕੇ, ਕਰਮਚਾਰੀਆਂ ਨੂੰ ਬਦਲਾਅ ਦੌਰਾਨ ਸਹਾਇਤਾ ਦੇ ਕੇ, ਅਤੇ ਵਿਸ਼ਾਲ ਯੋਗਦਾਨ ਨੂੰ ਇਨਾਮ ਦੇਣ ਵਾਲੀਆਂ ਪ੍ਰਣਾਲੀਆਂ ਬਣਾ ਕੇ, ਹਰ ਕਿਸੇ ਨੂੰ AI ਦੀ “up elevator” ਉੱਤੇ ਰੱਖਿਆ ਜਾਵੇ।
GDPval ਇੱਕ ਸ਼ੁਰੂਆਤੀ ਕਦਮ ਹੈ। ਭਾਵੇਂ ਇਹ 44 ਪੇਸ਼ਾਵਾਂ ਅਤੇ ਸੈਂਕੜਿਆਂ ਟਾਸਕਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ, ਅਸੀਂ ਆਪਣੀ ਪਹੁੰਚ ਨੂੰ ਹੋਰ ਸੁਧਾਰ ਰਹੇ ਹਾਂ ਤਾਂ ਜੋ ਆਪਣੀ ਜਾਂਚ ਦੇ ਦਾਇਰੇ ਨੂੰ ਵਧਾਇਆ ਜਾ ਸਕੇ ਅਤੇ ਨਤੀਜਿਆਂ ਨੂੰ ਹੋਰ ਅਰਥਪੂਰਨ ਬਣਾਇਆ ਜਾ ਸਕੇ। ਮੁਲਾਂਕਣ ਦਾ ਮੌਜੂਦਾ ਸੰਸਕਰਣ ਵੀ ਵਨ-ਸ਼ਾਟ ਹੈ, ਇਸ ਲਈ ਇਹ ਉਹ ਮਾਮਲੇ ਨਹੀਂ ਫੜਦਾ ਜਿੱਥੇ ਮਾਡਲ ਨੂੰ ਸੰਦਰਭ ਬਣਾਉਣ ਜਾਂ ਕਈ ਡਰਾਫਟਾਂ ਰਾਹੀਂ ਸੁਧਾਰ ਕਰਨ ਦੀ ਲੋੜ ਹੋਵੇ—ਉਦਾਹਰਨ ਵਜੋਂ, ਕਲਾਇੰਟ ਫੀਡਬੈਕ ਤੋਂ ਬਾਅਦ ਕਾਨੂੰਨੀ ਬ੍ਰੀਫ ਸੋਧਣਾ ਜਾਂ ਕੋਈ ਅਸਧਾਰਣਤਾ ਵੇਖਣ ਤੋਂ ਬਾਅਦ ਡੇਟਾ ਵਿਸ਼ਲੇਸ਼ਣ ਨੂੰ ਦੁਹਰਾਉਣਾ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਟਾਸਕ ਹਮੇਸ਼ਾਂ ਕਿਸੇ ਪ੍ਰੌੰਪਟ ਅਤੇ ਰੈਫ਼ਰੈਂਸ ਫ਼ਾਈਲਾਂ ਨਾਲ ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਪਰਿਭਾਸ਼ਿਤ ਨਹੀਂ ਹੁੰਦੇ; ਉਦਾਹਰਨ ਵਜੋਂ, ਕਿਸੇ ਵਕੀਲ ਨੂੰ ਇਹ ਨਿਰਣੈ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਅਸਪਸ਼ਟਤਾ ਨਾਲ ਨਜਿੱਠਣਾ ਅਤੇ ਆਪਣੇ ਕਲਾਇੰਟ ਨਾਲ ਗੱਲ ਕਰਨੀ ਪੈ ਸਕਦੀ ਹੈ ਕਿ ਉਸ ਦੀ ਮਦਦ ਲਈ ਕਾਨੂੰਨੀ ਬ੍ਰੀਫ ਬਣਾਉਣਾ ਸਹੀ ਪਹੁੰਚ ਹੈ। ਅਸੀਂ GDPval ਨੂੰ ਹੋਰ ਪੇਸ਼ਾਵਾਂ, ਉਦਯੋਗਾਂ ਅਤੇ ਟਾਸਕ ਕਿਸਮਾਂ ਤੱਕ ਵਧਾਉਣ ਦੀ ਯੋਜਨਾ ਬਣਾਈ ਹੈ, ਵਧੀਕ ਇੰਟਰਐਕਟਿਵਿਟੀ ਨਾਲ, ਅਤੇ ਅਜੇਹੇ ਹੋਰ ਟਾਸਕਾਂ ਨਾਲ ਜੋ ਅਸਪਸ਼ਟਤਾ ਨਾਲ ਨਜਿੱਠਣ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ, ਲੰਬੇ ਸਮੇਂ ਦੇ ਲੱਖ ਨਾਲ ਕਿ ਵੱਖ-ਵੱਖ ਗਿਆਨ-ਕੰਮ ਵਿੱਚ ਤਰੱਕੀ ਨੂੰ ਹੋਰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਮਾਪਿਆ ਜਾ ਸਕੇ।
- ਜੇ ਤੁਸੀਂ ਉਦਯੋਗ ਮਾਹਰ ਹੋ ਅਤੇ GDPval ਵਿੱਚ ਯੋਗਦਾਨ ਦੇਣ ਵਿੱਚ ਰੁਚੀ ਰੱਖਦੇ ਹੋ, ਤਾਂ ਕਿਰਪਾ ਕਰਕੇ ਇੱਥੇ ਆਪਣੀ ਦਿਲਚਸਪੀ ਦਰਸਾਓ.
- ਜੇ ਤੁਸੀਂ OpenAI ਨਾਲ ਕੰਮ ਕਰਨ ਵਾਲੇ ਗਾਹਕ ਹੋ ਅਤੇ ਤੁਸੀਂ GDPval ਦੇ ਭਵਿੱਖਲੇ ਦੌਰ ਵਿੱਚ ਯੋਗਦਾਨ ਦੇਣਾ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਕਿਰਪਾ ਕਰਕੇ ਇੱਥੇ ਦਿਲਚਸਪੀ ਜਤਾਓ.
ਕਮਿਊਨਿਟੀ ਦੀ ਭਾਗੀਦਾਰੀ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ—ਅਸੀਂ ਖੋਜਕਰਤਿਆਂ, ਪ੍ਰੈਕਟੀਸ਼ਨਰਾਂ ਅਤੇ ਉਹਨਾਂ ਸੰਸਥਾਵਾਂ ਨਾਲ ਮਿਲ ਕੇ GDPval ਬਣਾਉਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਹਾਂ ਜੋ AGI ਨੂੰ ਕੰਮ ਕਰਦੇ ਲੋਕਾਂ ਲਈ ਹੋਰ ਲਾਭਕਾਰੀ ਬਣਾਉਣ ਦੇ ਸਾਡੇ ਲੱਖ ਨੂੰ ਸਾਂਝਾ ਕਰਦੇ ਹਨ।


