25 ਸਤੰਬਰ 2025

ਅਸਲ ਦੁਨੀਆ ਦੇ ਕੰਮਾਂ ਉੱਤੇ ਸਾਡੇ ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਮਾਪਣਾ

ਅਸੀਂ GDPval ਪੇਸ਼ ਕਰ ਰਹੇ ਹਾਂ, ਇੱਕ ਨਵਾਂ ਮੁਲਾਂਕਣ ਜੋ 44 ਪੇਸ਼ਾਵਾਂ ਵਿੱਚ ਆਰਥਿਕ ਤੌਰ ‘ਤੇ ਕੀਮਤੀ ਅਸਲ-ਦੁਨੀਆ ਦੇ ਕੰਮਾਂ ਉੱਤੇ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਮਾਪਦਾ ਹੈ।

ਪੇਪਰ ਪੜ੍ਹੋ evals.openai.com ‘ਤੇ ਜਾਓ

ਸਾਡਾ ਮਿਸ਼ਨ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣਾ ਹੈ ਕਿ ਆਰਟੀਫ਼ਿਸ਼ੀਅਲ ਜਨਰਲ ਇੰਟੈਲੀਜੈਂਸ ਸਾਰੀ ਮਨੁੱਖਤਾ ਲਈ ਲਾਭਕਾਰੀ ਹੋਵੇ। ਆਪਣੇ ਮਿਸ਼ਨ ਦੇ ਹਿੱਸੇ ਵਜੋਂ, ਅਸੀਂ ਪਾਰਦਰਸ਼ੀ ਢੰਗ ਨਾਲ ਇਹ ਸੰਚਾਰ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ AI ਮਾਡਲ ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਲੋਕਾਂ ਦੀ ਕਿਵੇਂ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ। ਇਸੇ ਲਈ ਅਸੀਂ GDPval ਪੇਸ਼ ਕਰ ਰਹੇ ਹਾਂ: ਇੱਕ ਨਵਾਂ ਮੁਲਾਂਕਣ ਜੋ ਸਾਨੂੰ ਇਹ ਟਰੈਕ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ ਕਿ ਸਾਡੇ ਮਾਡਲ ਅਤੇ ਹੋਰ ਮਾਡਲ ਆਰਥਿਕ ਤੌਰ ‘ਤੇ ਕੀਮਤੀ ਅਸਲ-ਦੁਨੀਆ ਦੇ ਕੰਮਾਂ ਉੱਤੇ ਕਿੰਨਾ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ। ਅਸੀਂ ਇਸ ਮੁਲਾਂਕਣ ਨੂੰ GDPval ਇਸ ਲਈ ਕਹਿੰਦੇ ਹਾਂ ਕਿਉਂਕਿ ਅਸੀਂ ਮੁੱਖ ਆਰਥਿਕ ਸੰਕੇਤਕ ਵਜੋਂ Gross Domestic Product (GDP) ਦੀ ਧਾਰਣਾ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕੀਤੀ ਅਤੇ ਉਹਨਾਂ ਉਦਯੋਗਾਂ ਦੀਆਂ ਮੁੱਖ ਪੇਸ਼ਾਵਾਂ ਵਿੱਚੋਂ ਟਾਸਕ ਲਏ ਜੋ GDP ਵਿੱਚ ਸਭ ਤੋਂ ਵੱਧ ਯੋਗਦਾਨ ਪਾਉਂਦੇ ਹਨ।

ਲੋਕ ਅਕਸਰ ਸਮਾਜ ਉੱਤੇ AI ਦੇ ਵਿਆਪਕ ਪ੍ਰਭਾਵ ਬਾਰੇ ਅਨੁਮਾਨ ਲਗਾਉਂਦੇ ਹਨ, ਪਰ ਇਸ ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਸਮਝਣ ਦਾ ਸਭ ਤੋਂ ਸਪਸ਼ਟ ਤਰੀਕਾ ਇਹ ਵੇਖਣਾ ਹੈ ਕਿ ਮਾਡਲ ਪਹਿਲਾਂ ਹੀ ਕੀ ਕਰਨ ਦੇ ਯੋਗ ਹਨ। ਇਤਿਹਾਸ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਇੰਟਰਨੈੱਟ ਤੋਂ ਲੈ ਕੇ ਸਮਾਰਟਫੋਨ ਤੱਕ, ਵੱਡੀਆਂ ਤਕਨਾਲੋਜੀਆਂ ਨੂੰ ਖੋਜ ਤੋਂ ਵਿਆਪਕ ਅਪਣਾਅ ਤੱਕ ਪਹੁੰਚਣ ਵਿੱਚ ਇੱਕ ਦਹਾਕੇ ਤੋਂ ਵੱਧ ਸਮਾਂ ਲੱਗਿਆ। GDPval ਵਰਗੇ ਮੁਲਾਂਕਣ ਭਵਿੱਖੀ AI ਸੁਧਾਰਾਂ ਬਾਰੇ ਗੱਲਬਾਤ ਨੂੰ ਅਨੁਮਾਨਾਂ ਦੀ ਥਾਂ ਸਬੂਤਾਂ ਨਾਲ ਜੋੜਨ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ ਅਤੇ ਸਮੇਂ ਦੇ ਨਾਲ ਮਾਡਲ ਸੁਧਾਰ ਨੂੰ ਟਰੈਕ ਕਰਨ ਵਿੱਚ ਸਾਡੀ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ।

ਪਿਛਲੇ AI ਮੁਲਾਂਕਣ, ਜਿਵੇਂ ਕਿ ਚੁਣੌਤੀਪੂਰਨ ਅਕਾਦਮਿਕ ਟੈਸਟ ਅਤੇ ਮੁਕਾਬਲਾਤੀ ਕੋਡਿੰਗ ਚੁਣੌਤੀਆਂ, ਮਾਡਲ ਰੀਜ਼ਨਿੰਗ ਸਮਰੱਥਾਵਾਂ ਦੀਆਂ ਹੱਦਾਂ ਨੂੰ ਅੱਗੇ ਧੱਕਣ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਰਹੇ ਹਨ, ਪਰ ਉਹ ਅਕਸਰ ਉਹਨਾਂ ਕੰਮਾਂ ਤੋਂ ਘੱਟ ਪੈਂਦੇ ਹਨ ਜੋ ਬਹੁਤ ਸਾਰੇ ਲੋਕ ਆਪਣੀ ਰੋਜ਼ਾਨਾ ਨੌਕਰੀ ਵਿੱਚ ਸੰਭਾਲਦੇ ਹਨ।

ਇਸ ਖਾਈ ਨੂੰ ਪੂਰਣ ਲਈ, ਅਸੀਂ ਅਜੇਹੇ ਮੁਲਾਂਕਣ ਤਿਆਰ ਕਰ ਰਹੇ ਹਾਂ ਜੋ ਵੱਧ ਤੋਂ ਵੱਧ ਯਥਾਰਥਵਾਦੀ ਅਤੇ ਆਰਥਿਕ ਤੌਰ ‘ਤੇ ਸਬੰਧਤ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਮਾਪਦੇ ਹਨ। ਇਹ ਤਰੱਕੀ MMLU ਵਰਗੇ ਰਵਾਇਤੀ ਅਕਾਦਮਿਕ ਬੈਂਚਮਾਰਕਾਂ ਤੋਂ (ਦਰਜਨਾਂ ਵਿਸ਼ਿਆਂ ‘ਤੇ ਪਰੀਖਿਆ-ਸ਼ੈਲੀ ਦੇ ਪ੍ਰਸ਼ਨ), ਹੋਰ ਲਾਗੂ ਮੁਲਾਂਕਣਾਂ ਜਿਵੇਂ SWE-Bench (ਸਾਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਬੱਗ-ਫਿਕਸਿੰਗ ਟਾਸਕ), MLE-Bench (ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਇੰਜੀਨੀਅਰਿੰਗ ਟਾਸਕ ਜਿਵੇਂ ਮਾਡਲ ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ), ਅਤੇ Paper-Bench (ਖੋਜ ਪੇਪਰਾਂ ਉੱਤੇ ਵਿਗਿਆਨਕ ਰੀਜ਼ਨਿੰਗ ਅਤੇ ਸਮੀਖਿਆ), ਅਤੇ ਹੋਰ ਹਾਲ ਹੀ ਵਿੱਚ ਮਾਰਕੀਟ-ਅਧਾਰਤ ਮੁਲਾਂਕਣਾਂ ਜਿਵੇਂ SWE-Lancer (ਅਸਲੀ ਭੁਗਤਾਨਾਂ ‘ਤੇ ਆਧਾਰਿਤ ਫ੍ਰੀਲਾਂਸ ਸਾਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਪ੍ਰੋਜੈਕਟ) ਤੱਕ ਪਹੁੰਚੀ ਹੈ।

GDPval ਇਸ ਤਰੱਕੀ ਦਾ ਅਗਲਾ ਕਦਮ ਹੈ। ਇਹ ਵੱਖ-ਵੱਖ ਪੇਸ਼ਾਵਾਂ ਅਤੇ ਸੈਕਟਰਾਂ ਵਿੱਚ ਤਜਰਬੇਕਾਰ ਪੇਸ਼ੇਵਰਾਂ ਦੇ ਅਸਲ-ਦੁਨੀਆ ਗਿਆਨ-ਕੰਮ ਵਿੱਚੋਂ ਸਿੱਧੇ ਲਏ ਟਾਸਕਾਂ ਉੱਤੇ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਮਾਪਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ ਹੋਰ ਸਪਸ਼ਟ ਤਸਵੀਰ ਮਿਲਦੀ ਹੈ ਕਿ ਮਾਡਲ ਆਰਥਿਕ ਤੌਰ ‘ਤੇ ਕੀਮਤੀ ਕੰਮਾਂ ਉੱਤੇ ਕਿਵੇਂ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ। ਯਥਾਰਥਵਾਦੀ ਪੇਸ਼ਾਵਰ ਟਾਸਕਾਂ ਉੱਤੇ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਸਾਨੂੰ ਇਹ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ ਕਿ ਉਹ ਕੇਵਲ ਲੈਬ ਵਿੱਚ ਹੀ ਕਿੰਨਾ ਵਧੀਆ ਕਰਦੇ ਹਨ ਨਹੀਂ, ਸਗੋਂ ਇਹ ਵੀ ਕਿ ਉਹ ਲੋਕਾਂ ਦੇ ਹਰ ਰੋਜ਼ ਦੇ ਕੰਮ ਵਿੱਚ ਉਹਨਾਂ ਦੀ ਕਿਵੇਂ ਸਹਾਇਤਾ ਕਰ ਸਕਦੇ ਹਨ।

GDPval ਕੀ ਮਾਪਦਾ ਹੈ

GDPval, ਇਸ ਮੁਲਾਂਕਣ ਦਾ ਪਹਿਲਾ ਸੰਸਕਰਣ, ਅਮਰੀਕੀ GDP ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਣ ਵਾਲੇ ਸਿਖਰਲੇ 9 ਉਦਯੋਗਾਂ ਵਿੱਚੋਂ ਚੁਣੀਆਂ 44 ਪੇਸ਼ਾਵਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ। GDPval ਦੇ ਪੂਰੇ ਸੈੱਟ ਵਿੱਚ 1,320 ਵਿਸ਼ੇਸ਼ ਟਾਸਕ ਸ਼ਾਮਲ ਹਨ (ਜਿਨ੍ਹਾਂ ਵਿੱਚੋਂ 220 ਗੋਲਡ ਓਪਨ-ਸੋਰਸਡ ਸੈੱਟ ਵਿੱਚ ਹਨ), ਅਤੇ ਹਰ ਇੱਕ ਨੂੰ ਇਨ੍ਹਾਂ ਖੇਤਰਾਂ ਦੇ ਔਸਤਨ 14 ਸਾਲ ਤੋਂ ਵੱਧ ਤਜਰਬੇ ਵਾਲੇ ਤਜਰਬੇਕਾਰ ਪੇਸ਼ੇਵਰਾਂ ਨੇ ਬੜੀ ਬਰੀਕੀ ਨਾਲ ਤਿਆਰ ਅਤੇ ਜਾਂਚਿਆ ਹੈ। ਹਰ ਟਾਸਕ ਅਸਲ ਕੰਮ-ਉਤਪਾਦਾਂ ‘ਤੇ ਆਧਾਰਿਤ ਹੈ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਕਾਨੂੰਨੀ ਬ੍ਰੀਫ, ਇੱਕ ਇੰਜੀਨੀਅਰਿੰਗ ਬਲੂਪ੍ਰਿੰਟ, ਇੱਕ ਗਾਹਕ ਸਹਾਇਤਾ ਗੱਲਬਾਤ ਜਾਂ ਇੱਕ ਨਰਸਿੰਗ ਕੇਅਰ ਪਲਾਨ।

GDPval ਆਪਣੀ ਯਥਾਰਥਤਾ ਅਤੇ ਮੁਲਾਂਕਣ ਕੀਤੀਆਂ ਜਾ ਰਹੀਆਂ ਟਾਸਕਾਂ ਦੀ ਵੱਖਰਤਾ ਦੋਹਾਂ ਵਿੱਚ ਵਿਲੱਖਣ ਹੈ। ਆਰਥਿਕ ਮੁੱਲ ਨਾਲ ਜੁੜੇ ਹੋਰ ਮੁਲਾਂਕਣਾਂ ਤੋਂ ਵੱਖਰੇ, ਜੋ ਖਾਸ ਡੋਮੇਨਾਂ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੁੰਦੇ ਹਨ (ਉਦਾਹਰਨ ਵਜੋਂ SWE-Lancer), GDPval ਬਹੁਤ ਸਾਰੇ ਕੰਮਾਂ ਅਤੇ ਪੇਸ਼ਾਵਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ। ਅਤੇ ਉਹਨਾਂ ਬੈਂਚਮਾਰਕਾਂ ਤੋਂ ਵੱਖਰੇ, ਜਿੱਥੇ ਅਕਾਦਮਿਕ ਪਰੀਖਿਆ ਜਾਂ ਟੈਸਟ ਦੀ ਸ਼ੈਲੀ ਵਿੱਚ ਕ੍ਰਿਤ੍ਰਿਮ ਢੰਗ ਨਾਲ ਟਾਸਕ ਬਣਾਏ ਜਾਂਦੇ ਹਨ (ਉਦਾਹਰਨ ਵਜੋਂ Humanity’s Last Exam ਜਾਂ MMLU), GDPval ਉਹਨਾਂ ਟਾਸਕਾਂ ਉੱਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰਦਾ ਹੈ ਜੋ ਅਜਿਹੀਆਂ ਡਿਲਿਵਰੇਬਲਜ਼ ‘ਤੇ ਆਧਾਰਿਤ ਹਨ ਜੋ ਜਾਂ ਤਾਂ ਅੱਜ ਮੌਜੂਦ ਅਸਲ ਕੰਮ ਦਾ ਹਿੱਸਾ ਜਾਂ ਉਤਪਾਦ ਹਨ, ਜਾਂ ਫਿਰ ਉਸੇ ਤਰ੍ਹਾਂ ਬਣਾਇਆ ਗਿਆ ਕੰਮ-ਉਤਪਾਦ ਹਨ।

ਰਵਾਇਤੀ ਬੈਂਚਮਾਰਕਾਂ ਤੋਂ ਵੱਖਰੇ, GDPval ਟਾਸਕ ਸਿਰਫ ਸਧਾਰਣ ਟੈਕਸਟ ਪ੍ਰੌੰਪਟ ਨਹੀਂ ਹਨ। ਉਹ ਸੰਦਰਭ ਅਤੇ ਰੈਫ਼ਰੈਂਸ ਫ਼ਾਈਲਾਂ ਨਾਲ ਆਉਂਦੇ ਹਨ, ਅਤੇ ਉਮੀਦ ਕੀਤੀਆਂ ਡਿਲਿਵਰੇਬਲਜ਼ ਵਿੱਚ ਦਸਤਾਵੇਜ਼, ਸਲਾਈਡਾਂ, ਡਾਇਗ੍ਰਾਮ, ਸਪ੍ਰੈਡਸ਼ੀਟਾਂ ਅਤੇ ਮਲਟੀਮੀਡੀਆ ਸ਼ਾਮਲ ਹਨ। ਇਹ ਯਥਾਰਥਤਾ GDPval ਨੂੰ ਇਸ ਗੱਲ ਦਾ ਹੋਰ ਯਥਾਰਥਵਾਦੀ ਟੈਸਟ ਬਣਾਉਂਦੀ ਹੈ ਕਿ ਮਾਡਲ ਪੇਸ਼ੇਵਰਾਂ ਦੀ ਕਿਵੇਂ ਸਹਾਇਤਾ ਕਰ ਸਕਦੇ ਹਨ।

GDPval ਇੱਕ ਸ਼ੁਰੂਆਤੀ ਕਦਮ ਹੈ ਜੋ ਕਈ ਆਰਥਿਕ ਕੰਮਾਂ ਦੀ ਪੂਰੀ ਨਜ਼ਾਕਤ ਨੂੰ ਦਰਸਾਉਂਦਾ ਨਹੀਂ। ਭਾਵੇਂ ਇਹ 44 ਪੇਸ਼ਾਵਾਂ ਅਤੇ ਸੈਂਕੜਿਆਂ ਗਿਆਨ-ਕੰਮ ਟਾਸਕਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ, ਪਰ ਇਹ ਵਨ-ਸ਼ਾਟ ਮੁਲਾਂਕਣਾਂ ਤੱਕ ਸੀਮਿਤ ਹੈ, ਇਸ ਲਈ ਇਹ ਉਹ ਮਾਮਲੇ ਨਹੀਂ ਫੜਦਾ ਜਿੱਥੇ ਮਾਡਲ ਨੂੰ ਸੰਦਰਭ ਬਣਾਉਣ ਜਾਂ ਕਈ ਡਰਾਫਟਾਂ ਰਾਹੀਂ ਸੁਧਾਰ ਕਰਨ ਦੀ ਲੋੜ ਹੋਵੇ। ਭਵਿੱਖ ਦੇ ਸੰਸਕਰਣ ਹੋਰ ਇੰਟਰਐਕਟਿਵ ਵਰਕਫ਼ਲੋ ਅਤੇ ਸੰਦਰਭ-ਭਰਪੂਰ ਟਾਸਕਾਂ ਤੱਕ ਵਿਸਤਾਰ ਕਰਨਗੇ ਤਾਂ ਜੋ ਅਸਲ-ਦੁਨੀਆ ਗਿਆਨ-ਕੰਮ ਦੀ ਜਟਿਲਤਾ ਨੂੰ ਹੋਰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਦਰਸਾਇਆ ਜਾ ਸਕੇ (ਹੇਠਾਂ ਸਾਡੀ Limitations ਸੈਕਸ਼ਨ ਵਿੱਚ ਹੋਰ ਵੇਖੋ)।

ਅਸੀਂ ਪੇਸ਼ਾਵਾਂ ਕਿਵੇਂ ਚੁਣੀਆਂ

GDPval 9 ਉਦਯੋਗਾਂ ਅਤੇ 44 ਪੇਸ਼ਾਵਾਂ ਵਿੱਚ ਟਾਸਕਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ, ਅਤੇ ਭਵਿੱਖ ਦੇ ਸੰਸਕਰਣ ਕਵਰੇਜ ਨੂੰ ਵਧਾਉਂਦੇ ਰਹਿਣਗੇ। ਸ਼ੁਰੂਆਤੀ 9 ਉਦਯੋਗ ਉਹਨਾਂ ਦੇ ਆਧਾਰ ‘ਤੇ ਚੁਣੇ ਗਏ ਜੋ U.S. GDP ਵਿੱਚ 5% ਤੋਂ ਵੱਧ ਯੋਗਦਾਨ ਪਾਉਂਦੇ ਹਨ, ਜਿਵੇਂ ਕਿ Federal Reserve Bank of St. Louis ਦੇ ਡੇਟਾ ਦੁਆਰਾ ਨਿਰਧਾਰਤ ਕੀਤਾ ਗਿਆ। ਫਿਰ, ਅਸੀਂ ਹਰ ਉਦਯੋਗ ਦੇ ਅੰਦਰ ਉਹ 5 ਪੇਸ਼ਾਵਾਂ ਚੁਣੀਆਂ ਜੋ ਕੁੱਲ ਮਜ਼ਦੂਰੀ ਅਤੇ ਮੁਆਵਜ਼ੇ ਵਿੱਚ ਸਭ ਤੋਂ ਵੱਧ ਯੋਗਦਾਨ ਪਾਉਂਦੀਆਂ ਹਨ ਅਤੇ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਗਿਆਨ-ਕੰਮ ਵਾਲੀਆਂ ਪੇਸ਼ਾਵਾਂ ਹਨ, ਜਿਸ ਲਈ May 2024 US Bureau of Labor Statistics (BLS) occupational employment report⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦੇ ਵੇਤਨ ਅਤੇ ਰੋਜ਼ਗਾਰ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਗਈ। ਇਹ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ ਕਿ ਕੀ ਪੇਸ਼ਾਵਾਂ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਗਿਆਨ-ਕੰਮ ਵਾਲੀਆਂ ਸਨ, ਅਸੀਂ O*NET⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਤੋਂ ਟਾਸਕ ਡੇਟਾ ਵਰਤਿਆ, ਜੋ U.S. Department of Labor ਦੁਆਰਾ ਪ੍ਰਾਯੋਜਿਤ ਅਮਰੀਕੀ ਪੇਸ਼ਾਵਰ ਜਾਣਕਾਰੀ ਦਾ ਡੇਟਾਬੇਸ ਹੈ। ਅਸੀਂ O*NET ਵਿੱਚ ਹਰ ਪੇਸ਼ੇ ਲਈ ਹਰ ਟਾਸਕ ਨੂੰ ਗਿਆਨ-ਕੰਮ ਜਾਂ ਭੌਤਿਕ ਕੰਮ/ਹੱਥੋਂ ਮਿਹਨਤ (ਜਿਸ ਲਈ ਭੌਤਿਕ ਦੁਨੀਆ ਵਿੱਚ ਕਾਰਵਾਈ ਦੀ ਲੋੜ ਹੋਵੇ) ਵਜੋਂ ਵਰਗੀਕ੍ਰਿਤ ਕੀਤਾ। ਇੱਕ ਪੇਸ਼ਾ ਕੁੱਲ ਮਿਲਾ ਕੇ “ਮੁੱਖ ਤੌਰ ‘ਤੇ ਗਿਆਨ-ਕੰਮ” ਵਜੋਂ ਤਦ ਯੋਗ ਮੰਨੀ ਗਈ ਜੇ ਇਸ ਦੇ ਘੱਟੋ-ਘੱਟ 60% ਘਟਕ ਟਾਸਕਾਂ ਨੂੰ ਅਜੇਹਾ ਵਰਗੀਕ੍ਰਿਤ ਕੀਤਾ ਗਿਆ ਹੋਵੇ ਕਿ ਉਹਨਾਂ ਵਿੱਚ ਭੌਤਿਕ ਕੰਮ ਜਾਂ ਹੱਥੋਂ ਮਿਹਨਤ ਸ਼ਾਮਲ ਨਾ ਹੋਵੇ। ਅਸੀਂ GDPval ਦੇ ਪਹਿਲੇ ਸੰਸਕਰਣ ਲਈ ਇਸ 60% ਥ੍ਰੈਸ਼ਹੋਲਡ ਨੂੰ ਸ਼ੁਰੂਆਤੀ ਬਿੰਦੂ ਵਜੋਂ ਚੁਣਿਆ, ਉਹਨਾਂ ਪੇਸ਼ਾਵਾਂ ‘ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰਦਿਆਂ ਜਿੱਥੇ AI ਦਾ ਅਸਲ-ਦੁਨੀਆ ਉਤਪਾਦਕਤਾ ‘ਤੇ ਸਭ ਤੋਂ ਵੱਧ ਪ੍ਰਭਾਵ ਹੋ ਸਕਦਾ ਹੈ।

ਇਸ ਪ੍ਰਕਿਰਿਆ ਨਾਲ 44 ਪੇਸ਼ਾਵਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਲਈ ਪ੍ਰਾਪਤ ਕੀਤਾ ਗਿਆ।

ਰੀਅਲ ਐਸਟੇਟ ਅਤੇ ਕਿਰਾਏ ਤੇ ਲੀਜ਼ਿੰਗ

ਕਨਸੀਅਰਜ
ਜਾਇਦਾਦ, ਰੀਅਲ ਐਸਟੇਟ ਅਤੇ ਕਮਿਊਨਿਟੀ ਐਸੋਸੀਏਸ਼ਨ ਮੈਨੇਜਰ
ਰੀਅਲ ਐਸਟੇਟ ਸੇਲਜ਼ ਏਜੰਟ
ਰੀਅਲ ਐਸਟੇਟ ਬ੍ਰੋਕਰ
ਕਾਊਂਟਰ ਅਤੇ ਰੈਂਟਲ ਕਲਰਕ

ਸਰਕਾਰ

ਮਨੋਰੰਜਨ ਕਰਮਚਾਰੀ
ਕੰਪਲਾਇੰਸ ਅਧਿਕਾਰੀ
ਪੁਲਿਸ ਅਤੇ ਜਾਸੂਸਾਂ ਦੇ ਪਹਿਲੀ ਪੰਤੀ ਦੇ ਨਿਗਰਾਨ
ਪ੍ਰਸ਼ਾਸਕੀ ਸੇਵਾ ਮੈਨੇਜਰ
ਬੱਚਿਆਂ, ਪਰਿਵਾਰ ਅਤੇ ਸਕੂਲ ਸਮਾਜਿਕ ਕਰਮਚਾਰੀ

ਮੈਨੂਫੈਕਚਰਿੰਗ

ਮਕੈਨਿਕਲ ਇੰਜੀਨੀਅਰ
ਉਦਯੋਗਿਕ ਇੰਜੀਨੀਅਰ
ਖਰੀਦਦਾਰ ਅਤੇ ਖਰੀਦ ਏਜੰਟ
ਸ਼ਿਪਿੰਗ, ਪ੍ਰਾਪਤੀ ਅਤੇ ਸਟਾਕ ਕਲਰਕ
ਉਤਪਾਦਨ ਅਤੇ ਓਪਰੇਟਿੰਗ ਕਰਮਚਾਰੀਆਂ ਦੇ ਪਹਿਲੀ ਪੰਤੀ ਦੇ ਨਿਗਰਾਨ

ਪੇਸ਼ਾਵਰ, ਵਿਗਿਆਨਕ ਅਤੇ ਤਕਨੀਕੀ ਸੇਵਾਵਾਂ

ਸਾਫਟਵੇਅਰ ਡਿਵੈਲਪਰ
ਵਕੀਲ
ਅਕਾਊਂਟੈਂਟ ਅਤੇ ਆਡੀਟਰ
ਕੰਪਿਊਟਰ ਅਤੇ ਜਾਣਕਾਰੀ ਪ੍ਰਣਾਲੀ ਮੈਨੇਜਰ
ਪ੍ਰੋਜੈਕਟ ਪ੍ਰਬੰਧਨ ਵਿਸ਼ੇਸ਼ਗਿਆਨ

ਸਿਹਤ ਸੰਭਾਲ ਅਤੇ ਸਮਾਜਿਕ ਸਹਾਇਤਾ

ਰਜਿਸਟਰਡ ਨਰਸਾਂ
ਨਰਸ ਪ੍ਰੈਕਟੀਸ਼ਨਰ
ਚਿਕਿਤਸਾ ਅਤੇ ਸਿਹਤ ਸੇਵਾ ਮੈਨੇਜਰ
ਦਫ਼ਤਰੀ ਅਤੇ ਪ੍ਰਸ਼ਾਸਕੀ ਸਹਾਇਤਾ ਕਰਮਚਾਰੀਆਂ ਦੇ ਪਹਿਲੀ ਪੰਤੀ ਦੇ ਨਿਗਰਾਨ
ਮੈਡੀਕਲ ਸਕੱਤਰ ਅਤੇ ਪ੍ਰਸ਼ਾਸਕੀ ਸਹਾਇਕ

ਵਿੱਤ ਅਤੇ ਬੀਮਾ

ਗਾਹਕ ਸੇਵਾ ਪ੍ਰਤੀਨਿਧੀ
ਵਿੱਤੀ ਅਤੇ ਨਿਵੇਸ਼ ਵਿਸ਼ਲੇਸ਼ਕ
ਵਿੱਤੀ ਮੈਨੇਜਰ
ਨਿੱਜੀ ਵਿੱਤੀ ਸਲਾਹਕਾਰ
ਸਿਕਿਊਰਿਟੀਆਂ, ਕਮੋਡਿਟੀਆਂ ਅਤੇ ਵਿੱਤੀ ਸੇਵਾਵਾਂ ਦੇ ਵਿਕਰੀ ਏਜੰਟ

ਖੁਦਰਾ ਵਪਾਰ

ਫਾਰਮਾਸਿਸਟ
ਖੁਦਰਾ ਵਿਕਰੀ ਕਰਮਚਾਰੀਆਂ ਦੇ ਪਹਿਲੀ ਪੰਤੀ ਦੇ ਨਿਗਰਾਨ
ਜਨਰਲ ਅਤੇ ਓਪਰੇਸ਼ਨ ਮੈਨੇਜਰ
ਨਿੱਜੀ ਜਾਸੂਸ ਅਤੇ ਜਾਂਚਕਰਤਾ

ਥੋਕ ਵਪਾਰ

ਵਿਕਰੀ ਮੈਨੇਜਰ
ਆਰਡਰ ਕਲਰਕ
ਗੈਰ-ਖੁਦਰਾ ਵਿਕਰੀ ਕਰਮਚਾਰੀਆਂ ਦੇ ਪਹਿਲੀ ਪੰਤੀ ਦੇ ਨਿਗਰਾਨ
ਵਿਕਰੀ ਪ੍ਰਤੀਨਿਧੀ, ਥੋਕ ਅਤੇ ਮੈਨੂਫੈਕਚਰਿੰਗ, ਤਕਨੀਕੀ ਅਤੇ ਵਿਗਿਆਨਕ ਉਤਪਾਦਾਂ ਤੋਂ ਇਲਾਵਾ
ਵਿਕਰੀ ਪ੍ਰਤੀਨਿਧੀ, ਥੋਕ ਅਤੇ ਮੈਨੂਫੈਕਚਰਿੰਗ, ਤਕਨੀਕੀ ਅਤੇ ਵਿਗਿਆਨਕ ਉਤਪਾਦ

ਜਾਣਕਾਰੀ

ਆਡੀਓ ਅਤੇ ਵੀਡੀਓ ਟੈਕਨੀਸ਼ੀਅਨ
ਨਿਰਮਾਤਾ ਅਤੇ ਡਾਇਰੈਕਟਰ
ਖ਼ਬਰਾਂ ਦੇ ਵਿਸ਼ਲੇਸ਼ਕ, ਰਿਪੋਰਟਰ ਅਤੇ ਪੱਤਰਕਾਰ
ਫ਼ਿਲਮ ਅਤੇ ਵੀਡੀਓ ਸੰਪਾਦਕ
ਸੰਪਾਦਕ

GDPval 9 ਸੈਕਟਰਾਂ ਵਿੱਚ 44 ਗਿਆਨ-ਕੰਮ ਪੇਸ਼ਾਵਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ, ਸਾਫਟਵੇਅਰ ਡਿਵੈਲਪਰਾਂ ਅਤੇ ਵਕੀਲਾਂ ਤੋਂ ਲੈ ਕੇ ਰਜਿਸਟਰਡ ਨਰਸਾਂ ਅਤੇ ਮਕੈਨਿਕਲ ਇੰਜੀਨੀਅਰਾਂ ਤੱਕ। ਇਹ ਪੇਸ਼ਾਵਾਂ ਆਪਣੀ ਆਰਥਿਕ ਮਹੱਤਤਾ ਦੇ ਆਧਾਰ ‘ਤੇ ਚੁਣੀਆਂ ਗਈਆਂ ਸਨ ਅਤੇ ਉਹਨਾਂ ਦਿਨ-ਪ੍ਰਤੀਦਿਨ ਦੇ ਕੰਮਾਂ ਦੀ ਨੁਮਾਇੰਦਗੀ ਕਰਦੀਆਂ ਹਨ ਜਿੱਥੇ AI ਪੇਸ਼ੇਵਰਾਂ ਦੀ ਅਰਥਪੂਰਨ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ।

ਅਸੀਂ ਡੇਟਾਸੈੱਟ ਕਿਵੇਂ ਬਣਾਇਆ

ਹਰ ਪੇਸ਼ੇ ਲਈ, ਅਸੀਂ ਤਜਰਬੇਕਾਰ ਪੇਸ਼ੇਵਰਾਂ ਨਾਲ ਮਿਲ ਕੇ ਅਜੇਹੇ ਪ੍ਰਤੀਨਿਧੀ ਟਾਸਕ ਬਣਾਏ ਜੋ ਉਹਨਾਂ ਦੇ ਦਿਨ-ਪ੍ਰਤੀਦਿਨ ਦੇ ਕੰਮ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। ਇਨ੍ਹਾਂ ਪੇਸ਼ੇਵਰਾਂ ਦਾ ਔਸਤ ਤਜਰਬਾ 14 ਸਾਲ ਸੀ ਅਤੇ ਉਨ੍ਹਾਂ ਦੇ ਉਤਕਰਸ਼ ਦੇ ਮਜ਼ਬੂਤ ਰਿਕਾਰਡ ਸਨ। ਅਸੀਂ ਜ਼ਾਣ-ਬੁੱਝ ਕੇ ਵੱਖ-ਵੱਖ ਕਿਸਮ ਦੇ ਮਾਹਰ ਭਰਤੀ ਕੀਤੇ—ਜਿਵੇਂ ਵੱਖ-ਵੱਖ ਪ੍ਰੈਕਟਿਸ ਖੇਤਰਾਂ ਅਤੇ ਵੱਖ-ਵੱਖ ਆਕਾਰ ਦੀਆਂ ਫ਼ਰਮਾਂ ਦੇ ਵਕੀਲ—ਤਾਂ ਜੋ ਪ੍ਰਤੀਨਿਧਤਾ ਵੱਧ ਤੋਂ ਵੱਧ ਹੋਵੇ।

ਹਰ ਟਾਸਕ ਇੱਕ ਬਹੁ-ਕਦਮੀ ਸਮੀਖਿਆ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚੋਂ ਲੰਘੀ ਤਾਂ ਜੋ ਇਹ ਯਕੀਨੀ ਬਣਾਇਆ ਜਾ ਸਕੇ ਕਿ ਉਹ ਅਸਲ ਕੰਮ ਦੀ ਪ੍ਰਤੀਨਿਧੀ ਹੈ, ਕਿਸੇ ਹੋਰ ਪੇਸ਼ੇਵਰ ਲਈ ਪੂਰੀ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ, ਅਤੇ ਮੁਲਾਂਕਣ ਲਈ ਸਪਸ਼ਟ ਹੈ। ਔਸਤਨ, ਹਰ ਟਾਸਕ ਨੂੰ ਮਾਹਰ ਸਮੀਖਿਆ ਦੇ 5 ਦੌਰ ਮਿਲੇ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਹੋਰ ਟਾਸਕ ਲੇਖਕਾਂ, ਵਾਧੂ ਪੇਸ਼ਾਵਰ ਸਮੀਖਿਆਕਾਰਾਂ ਅਤੇ ਮਾਡਲ-ਅਧਾਰਿਤ ਵੈਲੀਡੇਸ਼ਨ ਦੀਆਂ ਜਾਂਚਾਂ ਸ਼ਾਮਲ ਸਨ।

ਨਤੀਜੇ ਵਜੋਂ ਬਣੇ ਡੇਟਾਸੈੱਟ ਵਿੱਚ ਹਰ ਪੇਸ਼ੇ ਲਈ 30 ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਮੀਖਿਆ ਕੀਤੀਆਂ ਟਾਸਕਾਂ (ਫੁੱਲ-ਸੈੱਟ) ਅਤੇ ਸਾਡੇ ਓਪਨ-ਸੋਰਸਡ ਗੋਲਡ ਸੈੱਟ ਵਿੱਚ ਹਰ ਪੇਸ਼ੇ ਲਈ 5 ਟਾਸਕਾਂ ਸ਼ਾਮਲ ਹਨ, ਜੋ ਅਸਲ-ਦੁਨੀਆ ਗਿਆਨ-ਕੰਮ ਉੱਤੇ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਮੁਲਾਂਕਣ ਲਈ ਮਜ਼ਬੂਤ ਆਧਾਰ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ।

GDPval ਟਾਸਕਾਂ ਦੇ ਉਦਾਹਰਨ

ਪ੍ਰੌੰਪਟ + ਕਾਰਜ ਸੰਦਰਭ

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

ਤਜਰਬੇਕਾਰ ਮਨੁੱਖੀ ਡਿਲਿਵਰੇਬਲ

GDPval ਵਿੱਚ ਹਰ ਟਾਸਕ ਕਿਸੇ ਤਜਰਬੇਕਾਰ ਪੇਸ਼ੇਵਰ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਉਸ ਦੀ ਪੇਸ਼ੇਵਰ ਭੂਮਿਕਾ ਦੇ ਅਸਲ ਗਿਆਨ-ਕੰਮ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਪ੍ਰੌੰਪਟ ਇੱਕ ਯਥਾਰਥਵਾਦੀ ਕੰਮ ਅਸਾਈਨਮੈਂਟ ਹੁੰਦਾ ਹੈ ਜੋ ਡੋਮੇਨ ਮਾਹਰ ਨੇ ਬਣਾਇਆ ਹੁੰਦਾ ਹੈ, ਅਤੇ ਗੋਲਡ ਡਿਲਿਵਰੇਬਲ ਮਾਹਰ ਦਾ ਆਪਣਾ ਹੱਲ ਹੁੰਦਾ ਹੈ।

ਅਸੀਂ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਕਿਵੇਂ ਗ੍ਰੇਡ ਕਰਦੇ ਹਾਂ

GDPval ਟਾਸਕਾਂ ਉੱਤੇ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ, ਅਸੀਂ ਮਾਹਰ “ਗ੍ਰੇਡਰਾਂ” ਉੱਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਾਂ—ਤਜਰਬੇਕਾਰ ਪੇਸ਼ੇਵਰਾਂ ਦਾ ਇੱਕ ਸਮੂਹ ਜੋ ਡੇਟਾਸੈੱਟ ਵਿੱਚ ਦਰਸਾਈਆਂ ਗਈਆਂ ਉਹੀ ਪੇਸ਼ਾਵਾਂ ਨਾਲ ਸੰਬੰਧਿਤ ਹਨ। ਇਹ ਗ੍ਰੇਡਰ ਮਾਡਲ-ਜਨਰੇਟ ਕੀਤੀਆਂ ਡਿਲਿਵਰੇਬਲਜ਼ ਦੀ ਟਾਸਕ ਲੇਖਕਾਂ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੀਆਂ ਡਿਲਿਵਰੇਬਲਜ਼ ਨਾਲ ਅੰਨ੍ਹੀ ਤੁਲਨਾ ਕਰਦੇ ਹਨ (ਉਹਨਾਂ ਨੂੰ ਨਹੀਂ ਪਤਾ ਹੁੰਦਾ ਕਿ ਕਿਹੜੀ AI ਬਣਾਈ ਹੈ ਅਤੇ ਕਿਹੜੀ ਮਨੁੱਖ ਨੇ), ਅਤੇ ਆਲੋਚਨਾ ਅਤੇ ਰੈਂਕਿੰਗ ਦਿੰਦੇ ਹਨ। ਫਿਰ ਗ੍ਰੇਡਰ ਮਨੁੱਖੀ ਅਤੇ AI ਡਿਲਿਵਰੇਬਲਜ਼ ਦੀ ਰੈਂਕਿੰਗ ਕਰਦੇ ਹਨ ਅਤੇ ਹਰ AI ਡਿਲਿਵਰੇਬਲ ਨੂੰ ਇਕ-ਦੂਜੇ ਦੇ ਮੁਕਾਬਲੇ “better”, “as good as”, ਜਾਂ “worse than” ਵਜੋਂ ਵਰਗੀਕ੍ਰਿਤ ਕਰਦੇ ਹਨ।

ਟਾਸਕ ਲੇਖਕਾਂ ਨੇ ਆਪਣੀਆਂ ਪੇਸ਼ਾਵਾਂ ਲਈ ਵਿਸਤ੍ਰਿਤ ਸਕੋਰਿੰਗ ਰੂਬਰਿਕ ਵੀ ਬਣਾਏ, ਜੋ ਗ੍ਰੇਡਿੰਗ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਇਕਸਾਰਤਾ ਅਤੇ ਪਾਰਦਰਸ਼ਤਾ ਜੋੜਦੇ ਹਨ। ਅਸੀਂ ਇੱਕ “automated grader” ਵੀ ਬਣਾਇਆ, ਇੱਕ AI ਸਿਸਟਮ ਜੋ ਇਹ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਹੈ ਕਿ ਮਨੁੱਖੀ ਮਾਹਰ ਕਿਸੇ ਦਿੱਤੀ ਡਿਲਿਵਰੇਬਲ ਬਾਰੇ ਕਿਵੇਂ ਫ਼ੈਸਲਾ ਕਰਨਗੇ। ਹੋਰ ਸ਼ਬਦਾਂ ਵਿੱਚ, ਹਰ ਵਾਰ ਪੂਰੀ ਮਾਹਰ ਸਮੀਖਿਆ ਚਲਾਉਣ ਦੀ ਥਾਂ, automated grader ਤੇਜ਼ੀ ਨਾਲ ਅਨੁਮਾਨ ਲਗਾ ਸਕਦਾ ਹੈ ਕਿ ਲੋਕ ਸੰਭਾਵਤ ਤੌਰ ‘ਤੇ ਕਿਹੜੀ ਆਉਟਪੁੱਟ ਨੂੰ ਤਰਜੀਹ ਦੇਣਗੇ। ਅਸੀਂ ਇਸ ਸੰਦ ਨੂੰ evals.openai.com ‘ਤੇ ਇੱਕ ਪ੍ਰਯੋਗਾਤਮਕ ਖੋਜ ਸੇਵਾ ਵਜੋਂ ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ, ਪਰ ਇਹ ਹਾਲੇ ਮਾਹਰ ਗ੍ਰੇਡਰਾਂ ਜਿੰਨਾ ਭਰੋਸੇਯੋਗ ਨਹੀਂ ਹੈ, ਇਸ ਲਈ ਅਸੀਂ ਇਸਦਾ ਉਪਯੋਗ ਉਨ੍ਹਾਂ ਦੀ ਥਾਂ ਲੈਣ ਲਈ ਨਹੀਂ ਕਰਦੇ।

ਸ਼ੁਰੂਆਤੀ ਨਤੀਜੇ

ਅਸੀਂ ਪਾਇਆ ਕਿ ਅੱਜ ਦੇ ਸਭ ਤੋਂ ਵਧੀਆ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਪਹਿਲਾਂ ਹੀ ਉਦਯੋਗ ਮਾਹਰਾਂ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਕੰਮ ਦੀ ਗੁਣਵੱਤਾ ਦੇ ਨੇੜੇ ਪਹੁੰਚ ਰਹੇ ਹਨ। ਇਹ ਜਾਂਚਣ ਲਈ, ਅਸੀਂ ਅੰਨ੍ਹੇ ਮੁਲਾਂਕਣ ਚਲਾਏ ਜਿੱਥੇ ਉਦਯੋਗ ਮਾਹਰਾਂ ਨੇ ਕਈ ਅਗੇਤੀ ਮਾਡਲਾਂ—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, ਅਤੇ Grok 4—ਦੀਆਂ ਡਿਲਿਵਰੇਬਲਜ਼ ਦੀ ਮਨੁੱਖਾਂ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਕੰਮ ਨਾਲ ਤੁਲਨਾ ਕੀਤੀ। GDPval ਗੋਲਡ ਸੈੱਟ ਦੀਆਂ 220 ਟਾਸਕਾਂ ਵਿੱਚ, ਅਸੀਂ ਉਹ ਮੌਕੇ ਦਰਜ ਕੀਤੇ ਜਦੋਂ ਮਾਡਲ ਆਉਟਪੁੱਟ ਨੂੰ ਉਦਯੋਗ ਮਾਹਰਾਂ ਦੀਆਂ ਡਿਲਿਵਰੇਬਲਜ਼ ਨਾਲੋਂ ਵਧੀਆ (“wins”) ਜਾਂ ਬਰਾਬਰ (“ties”) ਰੇਟ ਕੀਤਾ ਗਿਆ, ਜਿਵੇਂ ਹੇਠਾਂ ਬਾਰ ਚਾਰਟ ਵਿੱਚ ਦਿਖਾਇਆ ਗਿਆ ਹੈ। Claude Opus 4.1 ਇਸ ਸੈੱਟ ਵਿੱਚ ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲਾ ਮਾਡਲ ਸੀ, ਖ਼ਾਸ ਤੌਰ ‘ਤੇ ਸੁੰਦਰਤਾ-ਸਬੰਧੀ ਪੱਖਾਂ (ਉਦਾਹਰਨ ਵਜੋਂ ਦਸਤਾਵੇਜ਼ ਫਾਰਮੈਟਿੰਗ, ਸਲਾਈਡ ਲੇਆਉਟ) ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਸੀ, ਅਤੇ GPT‑5 ਖ਼ਾਸ ਤੌਰ ‘ਤੇ ਸ਼ੁੱਧਤਾ (ਉਦਾਹਰਨ ਵਜੋਂ ਡੋਮੇਨ-ਖ਼ਾਸ ਗਿਆਨ ਲੱਭਣ) ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਸੀ। ਅਸੀਂ ਇਨ੍ਹਾਂ ਟਾਸਕਾਂ ਉੱਤੇ ਸਮੇਂ ਦੇ ਨਾਲ ਸਪਸ਼ਟ ਤਰੱਕੀ ਵੀ ਵੇਖਦੇ ਹਾਂ। GPT‑4o (ਬਸੰਤ 2024 ਵਿੱਚ ਜਾਰੀ) ਤੋਂ GPT‑5 (ਗਰਮੀ 2025 ਵਿੱਚ ਜਾਰੀ) ਤੱਕ ਪ੍ਰਦਰਸ਼ਨ ਦੋਗੁਣਾ ਤੋਂ ਵੱਧ ਹੋ ਗਿਆ ਹੈ, ਇੱਕ ਸਪਸ਼ਟ ਰੇਖੀ ਰੁਝਾਨ ਦਾ ਪਾਲਣ ਕਰਦਿਆਂ।

ਇਸ ਤੋਂ ਇਲਾਵਾ, ਅਸੀਂ ਪਾਇਆ ਕਿ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ GDPval ਟਾਸਕਾਂ ਨੂੰ ਉਦਯੋਗ ਮਾਹਰਾਂ ਨਾਲੋਂ ਲਗਭਗ 100x ਤੇਜ਼ ਅਤੇ 100x ਸਸਤੇ ਢੰਗ ਨਾਲ ਪੂਰਾ ਕਰ ਸਕਦੇ ਹਨ। ਹਾਲਾਂਕਿ, ਇਹ ਅੰਕੜੇ ਸਿਰਫ਼ ਮਾਡਲ ਇਨਫ਼ਰੈਂਸ ਸਮੇਂ ਅਤੇ API ਬਿਲਿੰਗ ਦਰਾਂ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ, ਅਤੇ ਇਸ ਲਈ ਉਹ ਮਨੁੱਖੀ ਨਿਗਰਾਨੀ, ਦੁਹਰਾਈ ਅਤੇ ਇੰਟੀਗ੍ਰੇਸ਼ਨ ਕਦਮਾਂ ਨੂੰ ਨਹੀਂ ਫੜਦੇ ਜੋ ਅਸਲ ਕਾਰਜਸਥਲ ਸੈਟਿੰਗਾਂ ਵਿੱਚ ਸਾਡੇ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਲਈ ਲਾਜ਼ਮੀ ਹੁੰਦੇ ਹਨ। ਫਿਰ ਵੀ, ਖ਼ਾਸ ਕਰਕੇ ਉਹਨਾਂ ਟਾਸਕਾਂ ਦੇ ਉਪਸਮੂਹ ਉੱਤੇ ਜਿੱਥੇ ਮਾਡਲ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਮਜ਼ਬੂਤ ਹਨ, ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ ਕਿਸੇ ਟਾਸਕ ਨੂੰ ਪਹਿਲਾਂ ਮਾਡਲ ਨੂੰ ਦੇਣਾ, ਮਨੁੱਖ ਨਾਲ ਕੋਸ਼ਿਸ਼ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ, ਸਮਾਂ ਅਤੇ ਪੈਸਾ ਬਚਾਏਗਾ।

ਮਾਹਰ ਗ੍ਰੇਡਰਾਂ ਨੇ ਅਗੇਤੀ ਮਾਡਲਾਂ ਦੀਆਂ ਡਿਲਿਵਰੇਬਲਜ਼ ਦੀ ਤੁਲਨਾ ਮਨੁੱਖੀ ਮਾਹਰਾਂ ਨਾਲ ਕੀਤੀ। ਅੱਜ ਦੇ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਪਹਿਲਾਂ ਹੀ ਉਦਯੋਗ ਮਾਹਰਾਂ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਕੰਮ ਦੀ ਗੁਣਵੱਤਾ ਦੇ ਨੇੜੇ ਪਹੁੰਚ ਰਹੇ ਹਨ। Claude Opus 4.1 ਨੇ ਲਗਭਗ ਅੱਧ ਤੋਂ ਥੋੜ੍ਹੀਆਂ ਘੱਟ ਟਾਸਕਾਂ ਵਿੱਚ ਮਨੁੱਖਾਂ ਜਿੰਨੀ ਚੰਗੀ ਜਾਂ ਉਸ ਤੋਂ ਵਧੀਆ ਰੇਟ ਕੀਤੀ ਗਈ ਆਉਟਪੁੱਟ ਬਣਾਈ।

GPT‑4o ਤੋਂ GPT‑5 ਤੱਕ, ਇੱਕ ਸਾਲ ਵਿੱਚ GDPval ਟਾਸਕਾਂ ਉੱਤੇ ਪ੍ਰਦਰਸ਼ਨ ਤਿੰਨ ਗੁਣਾ ਤੋਂ ਵੱਧ ਹੋ ਗਿਆ।

ਅੰਤ ਵਿੱਚ, ਅਸੀਂ GPT‑5 ਦੇ ਇੱਕ ਅੰਦਰੂਨੀ, ਪ੍ਰਯੋਗਾਤਮਕ ਸੰਸਕਰਣ ਨੂੰ ਕ੍ਰਮਵਾਰ ਟ੍ਰੇਨ ਕੀਤਾ ਤਾਂ ਜੋ ਇਹ ਅੰਦਾਜ਼ਾ ਲਗਾਇਆ ਜਾ ਸਕੇ ਕਿ ਕੀ ਅਸੀਂ GDPval ਉੱਤੇ ਪ੍ਰਦਰਸ਼ਨ ਸੁਧਾਰ ਸਕਦੇ ਹਾਂ। ਅਸੀਂ ਪਾਇਆ ਕਿ ਇਸ ਪ੍ਰਕਿਰਿਆ ਨੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਸੁਧਾਰ ਕੀਤਾ, ਜਿਸ ਨਾਲ ਹੋਰ ਸੰਭਾਵਤ ਸੁਧਾਰ ਲਈ ਰਸਤਾ ਬਣਿਆ। ਹੋਰ ਨਿਯੰਤਰਿਤ ਪ੍ਰਯੋਗ ਵੀ ਇਸ ਦੀ ਪੁਸ਼ਟੀ ਕਰਦੇ ਹਨ: ਮਾਡਲ ਆਕਾਰ ਵਧਾਉਣਾ, ਹੋਰ ਰੀਜ਼ਨਿੰਗ ਕਦਮ ਉਤਸ਼ਾਹਿਤ ਕਰਨਾ ਅਤੇ ਟਾਸਕ ਲਈ ਹੋਰ ਸਮ੍ਰਿੱਧ ਸੰਦਰਭ ਦੇਣਾ—ਹਰ ਇਕ ਨਾਲ ਮਾਪਣਯੋਗ ਲਾਭ ਮਿਲੇ।

ਤੁਸੀਂ ਸਾਡੇ ਪੇਪਰ ਵਿੱਚ ਪੂਰੇ ਨਤੀਜੇ ਪੜ੍ਹ ਸਕਦੇ ਹੋ। ਅਸੀਂ GDPval ਟਾਸਕਾਂ ਦਾ ਇੱਕ ਗੋਲਡ ਉਪਸਮੂਹ ਅਤੇ ਇੱਕ ਸਰਵਜਨਿਕ ਗ੍ਰੇਡਿੰਗ ਸੇਵਾ ਵੀ ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ ਤਾਂ ਜੋ ਹੋਰ ਖੋਜਕਰਤਾ ਇਸ ਕੰਮ ਨੂੰ ਅੱਗੇ ਵਧਾ ਸਕਣ।

ਕੰਮ ਦਾ ਭਵਿੱਖ ਅਤੇ AI

ਜਿਵੇਂ-जਿਵੇਂ AI ਹੋਰ ਸਮਰੱਥ ਹੁੰਦਾ ਜਾਵੇਗਾ, ਇਹ ਸੰਭਾਵਤ ਤੌਰ ‘ਤੇ ਨੌਕਰੀ ਬਾਜ਼ਾਰ ਵਿੱਚ ਤਬਦੀਲੀਆਂ ਲਿਆਵੇਗਾ। ਸ਼ੁਰੂਆਤੀ GDPval ਨਤੀਜੇ ਦਿਖਾਉਂਦੇ ਹਨ ਕਿ ਮਾਡਲ ਪਹਿਲਾਂ ਹੀ ਕੁਝ ਦੁਹਰਾਏ ਜਾਣ ਵਾਲੇ, ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਨਿਰਧਾਰਤ ਕੰਮ ਮਾਹਰਾਂ ਨਾਲੋਂ ਤੇਜ਼ ਅਤੇ ਘੱਟ ਲਾਗਤ ‘ਤੇ ਕਰ ਸਕਦੇ ਹਨ। ਹਾਲਾਂਕਿ, ਜ਼ਿਆਦਾਤਰ ਨੌਕਰੀਆਂ ਸਿਰਫ਼ ਉਹਨਾਂ ਟਾਸਕਾਂ ਦਾ ਸਮੂਹ ਨਹੀਂ ਹੁੰਦੀਆਂ ਜੋ ਲਿਖੀਆਂ ਜਾ ਸਕਣ। GDPval ਇਹ ਉਜਾਗਰ ਕਰਦਾ ਹੈ ਕਿ AI ਕਿੱਥੇ ਰੁਟੀਨ ਟਾਸਕ ਸੰਭਾਲ ਸਕਦਾ ਹੈ ਤਾਂ ਜੋ ਲੋਕ ਕੰਮ ਦੇ ਰਚਨਾਤਮਕ ਅਤੇ ਫ਼ੈਸਲਾ-ਕੇਂਦ੍ਰਿਤ ਹਿੱਸਿਆਂ ਉੱਤੇ ਹੋਰ ਸਮਾਂ ਬਿਤਾ ਸਕਣ। ਜਦੋਂ AI ਇਸ ਤਰੀਕੇ ਨਾਲ ਕਰਮਚਾਰੀਆਂ ਨੂੰ ਪੂਰਕ ਬਣਾਉਂਦਾ ਹੈ, ਤਾਂ ਇਹ ਮਹੱਤਵਪੂਰਨ ਆਰਥਿਕ ਵਾਧੇ ਵਿੱਚ ਬਦਲ ਸਕਦਾ ਹੈ। ਸਾਡਾ ਲੱਖ ਇਹ ਹੈ ਕਿ ਇਹਨਾਂ ਸੰਦਾਂ ਤੱਕ ਪਹੁੰਚ ਦਾ ਲੋਕਤੰਤਰਿਕਰਨ ਕਰਕੇ, ਕਰਮਚਾਰੀਆਂ ਨੂੰ ਬਦਲਾਅ ਦੌਰਾਨ ਸਹਾਇਤਾ ਦੇ ਕੇ, ਅਤੇ ਵਿਸ਼ਾਲ ਯੋਗਦਾਨ ਨੂੰ ਇਨਾਮ ਦੇਣ ਵਾਲੀਆਂ ਪ੍ਰਣਾਲੀਆਂ ਬਣਾ ਕੇ, ਹਰ ਕਿਸੇ ਨੂੰ AI ਦੀ “up elevator” ਉੱਤੇ ਰੱਖਿਆ ਜਾਵੇ।

ਸੀਮਾਵਾਂ ਅਤੇ ਅੱਗੇ ਕੀ ਹੈ

GDPval ਇੱਕ ਸ਼ੁਰੂਆਤੀ ਕਦਮ ਹੈ। ਭਾਵੇਂ ਇਹ 44 ਪੇਸ਼ਾਵਾਂ ਅਤੇ ਸੈਂਕੜਿਆਂ ਟਾਸਕਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ, ਅਸੀਂ ਆਪਣੀ ਪਹੁੰਚ ਨੂੰ ਹੋਰ ਸੁਧਾਰ ਰਹੇ ਹਾਂ ਤਾਂ ਜੋ ਆਪਣੀ ਜਾਂਚ ਦੇ ਦਾਇਰੇ ਨੂੰ ਵਧਾਇਆ ਜਾ ਸਕੇ ਅਤੇ ਨਤੀਜਿਆਂ ਨੂੰ ਹੋਰ ਅਰਥਪੂਰਨ ਬਣਾਇਆ ਜਾ ਸਕੇ। ਮੁਲਾਂਕਣ ਦਾ ਮੌਜੂਦਾ ਸੰਸਕਰਣ ਵੀ ਵਨ-ਸ਼ਾਟ ਹੈ, ਇਸ ਲਈ ਇਹ ਉਹ ਮਾਮਲੇ ਨਹੀਂ ਫੜਦਾ ਜਿੱਥੇ ਮਾਡਲ ਨੂੰ ਸੰਦਰਭ ਬਣਾਉਣ ਜਾਂ ਕਈ ਡਰਾਫਟਾਂ ਰਾਹੀਂ ਸੁਧਾਰ ਕਰਨ ਦੀ ਲੋੜ ਹੋਵੇ—ਉਦਾਹਰਨ ਵਜੋਂ, ਕਲਾਇੰਟ ਫੀਡਬੈਕ ਤੋਂ ਬਾਅਦ ਕਾਨੂੰਨੀ ਬ੍ਰੀਫ ਸੋਧਣਾ ਜਾਂ ਕੋਈ ਅਸਧਾਰਣਤਾ ਵੇਖਣ ਤੋਂ ਬਾਅਦ ਡੇਟਾ ਵਿਸ਼ਲੇਸ਼ਣ ਨੂੰ ਦੁਹਰਾਉਣਾ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਟਾਸਕ ਹਮੇਸ਼ਾਂ ਕਿਸੇ ਪ੍ਰੌੰਪਟ ਅਤੇ ਰੈਫ਼ਰੈਂਸ ਫ਼ਾਈਲਾਂ ਨਾਲ ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਪਰਿਭਾਸ਼ਿਤ ਨਹੀਂ ਹੁੰਦੇ; ਉਦਾਹਰਨ ਵਜੋਂ, ਕਿਸੇ ਵਕੀਲ ਨੂੰ ਇਹ ਨਿਰਣੈ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਅਸਪਸ਼ਟਤਾ ਨਾਲ ਨਜਿੱਠਣਾ ਅਤੇ ਆਪਣੇ ਕਲਾਇੰਟ ਨਾਲ ਗੱਲ ਕਰਨੀ ਪੈ ਸਕਦੀ ਹੈ ਕਿ ਉਸ ਦੀ ਮਦਦ ਲਈ ਕਾਨੂੰਨੀ ਬ੍ਰੀਫ ਬਣਾਉਣਾ ਸਹੀ ਪਹੁੰਚ ਹੈ। ਅਸੀਂ GDPval ਨੂੰ ਹੋਰ ਪੇਸ਼ਾਵਾਂ, ਉਦਯੋਗਾਂ ਅਤੇ ਟਾਸਕ ਕਿਸਮਾਂ ਤੱਕ ਵਧਾਉਣ ਦੀ ਯੋਜਨਾ ਬਣਾਈ ਹੈ, ਵਧੀਕ ਇੰਟਰਐਕਟਿਵਿਟੀ ਨਾਲ, ਅਤੇ ਅਜੇਹੇ ਹੋਰ ਟਾਸਕਾਂ ਨਾਲ ਜੋ ਅਸਪਸ਼ਟਤਾ ਨਾਲ ਨਜਿੱਠਣ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ, ਲੰਬੇ ਸਮੇਂ ਦੇ ਲੱਖ ਨਾਲ ਕਿ ਵੱਖ-ਵੱਖ ਗਿਆਨ-ਕੰਮ ਵਿੱਚ ਤਰੱਕੀ ਨੂੰ ਹੋਰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਮਾਪਿਆ ਜਾ ਸਕੇ।

ਸ਼ਾਮਲ ਹੋਵੋ

ਜੇ ਤੁਸੀਂ ਉਦਯੋਗ ਮਾਹਰ ਹੋ ਅਤੇ GDPval ਵਿੱਚ ਯੋਗਦਾਨ ਦੇਣ ਵਿੱਚ ਰੁਚੀ ਰੱਖਦੇ ਹੋ, ਤਾਂ ਕਿਰਪਾ ਕਰਕੇ ਇੱਥੇ ਆਪਣੀ ਦਿਲਚਸਪੀ ਦਰਸਾਓ.
ਜੇ ਤੁਸੀਂ OpenAI ਨਾਲ ਕੰਮ ਕਰਨ ਵਾਲੇ ਗਾਹਕ ਹੋ ਅਤੇ ਤੁਸੀਂ GDPval ਦੇ ਭਵਿੱਖਲੇ ਦੌਰ ਵਿੱਚ ਯੋਗਦਾਨ ਦੇਣਾ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਕਿਰਪਾ ਕਰਕੇ ਇੱਥੇ ਦਿਲਚਸਪੀ ਜਤਾਓ.

ਕਮਿਊਨਿਟੀ ਦੀ ਭਾਗੀਦਾਰੀ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ—ਅਸੀਂ ਖੋਜਕਰਤਿਆਂ, ਪ੍ਰੈਕਟੀਸ਼ਨਰਾਂ ਅਤੇ ਉਹਨਾਂ ਸੰਸਥਾਵਾਂ ਨਾਲ ਮਿਲ ਕੇ GDPval ਬਣਾਉਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਹਾਂ ਜੋ AGI ਨੂੰ ਕੰਮ ਕਰਦੇ ਲੋਕਾਂ ਲਈ ਹੋਰ ਲਾਭਕਾਰੀ ਬਣਾਉਣ ਦੇ ਸਾਡੇ ਲੱਖ ਨੂੰ ਸਾਂਝਾ ਕਰਦੇ ਹਨ।

ਲੇਖਕ

OpenAI

ਪੜ੍ਹਦੇ ਰਹੋ

ਸਭ ਵੇਖੋ

GPT-Red: Unlocking Self-Improvement for Robustness

ਸੁਰੱਖਿਆ15 ਜੁਲਾ 2026

ਕੋਡਿੰਗ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਸੰਕੇਤ ਨੂੰ ਸ਼ੋਰ ਤੋਂ ਵੱਖ ਕਰਨਾ

ਖੋਜ8 ਜੁਲਾ 2026

GeneBench-Pro ਪੇਸ਼ ਹੈ

ਖੋਜ30 ਜੂਨ 2026