ਵਿਗਿਆਨਕ ਖੋਜ ਕਾਰਜ ਕਰਨ ਦੀ AI ਦੀ ਸਮਰੱਥਾ ਦਾ ਮੁਲਾਂਕਣ
ਅਸੀਂ FrontierScience ਪੇਸ਼ ਕਰਦੇ ਹਾਂ, ਇੱਕ ਨਵਾਂ ਬੈਂਚਮਾਰਕ ਜੋ ਭੌਤਿਕ ਵਿਗਿਆਨ, ਰਸਾਇਣ ਵਿਗਿਆਨ ਅਤੇ ਜੀਵ ਵਿਗਿਆਨ ਵਿੱਚ ਮਾਹਿਰ-ਪੱਧਰੀ ਵਿਗਿਆਨਕ ਰੀਜ਼ਨਿੰਗ ਲਈ AI ਸਮਰੱਥਾਵਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ।

ਰੀਜ਼ਨਿੰਗ ਵਿਗਿਆਨਕ ਕੰਮ ਦੇ ਕੇਂਦਰ ਵਿੱਚ ਹੈ। ਤੱਥਾਂ ਨੂੰ ਯਾਦ ਕਰਨ ਤੋਂ ਪਰੇ, ਵਿਗਿਆਨੀ ਅਨੁਮਾਨ ਬਣਾਉਂਦੇ ਹਨ, ਉਨ੍ਹਾਂ ਦੀ ਜਾਂਚ ਅਤੇ ਸੰਵਾਰ ਕਰਦੇ ਹਨ, ਅਤੇ ਖੇਤਰਾਂ ਪਾਰ ਵਿਚਾਰਾਂ ਨੂੰ ਜੋੜਦੇ ਹਨ। ਜਿਵੇਂ ਸਾਡੇ ਮਾਡਲ ਹੋਰ ਸਮਰੱਥ ਬਣਦੇ ਹਨ, ਮੁੱਖ ਸਵਾਲ ਇਹ ਹੈ ਕਿ ਉਹ ਵਿਗਿਆਨਕ ਖੋਜ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਣ ਲਈ ਕਿੰਨੀ ਡੂੰਘਾਈ ਨਾਲ ਰੀਜ਼ਨ ਕਰ ਸਕਦੇ ਹਨ।
ਪਿਛਲੇ ਇੱਕ ਸਾਲ ਵਿੱਚ, ਸਾਡੇ ਮਾਡਲਾਂ ਨੇ ਵੱਡੇ ਮੀਲ ਪੱਥਰ ਹਾਸਲ ਕੀਤੇ ਹਨ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ International Math Olympiad ਅਤੇ International Olympiad in Informatics ਵਿੱਚ ਸੋਨੇ ਦਾ ਤਗਮਾ-ਪੱਧਰ ਪ੍ਰਦਰਸ਼ਨ ਸ਼ਾਮਲ ਹੈ। ਇਸ ਦੇ ਨਾਲ-ਨਾਲ, ਅਸੀਂ ਵੇਖਣਾ ਸ਼ੁਰੂ ਕਰ ਰਹੇ ਹਾਂ ਕਿ ਸਾਡੇ ਸਭ ਤੋਂ ਸਮਰੱਥ ਮਾਡਲ, ਜਿਵੇਂ GPT‑5, ਅਸਲ ਵਿਗਿਆਨਕ ਵਰਕਫ਼ਲੋਜ਼ ਨੂੰ ਅਰਥਪੂਰਣ ਢੰਗ ਨਾਲ ਤੇਜ਼ ਕਰ ਰਹੇ ਹਨ। ਖੋਜਕਰਤਾ ਇਨ੍ਹਾਂ ਸਿਸਟਮਾਂ ਨੂੰ ਅਨੁਸ਼ਾਸਨਾਂ ਅਤੇ ਭਾਸ਼ਾਵਾਂ ਪਾਰ ਸਾਹਿਤ ਖੋਜ ਅਤੇ ਜਟਿਲ ਗਣਿਤਕ ਪ੍ਰਮਾਣਾਂ ਉੱਤੇ ਕੰਮ ਕਰਨ ਵਰਗੇ ਕਾਰਜਾਂ ਲਈ ਵਰਤ ਰਹੇ ਹਨ। ਬਹੁਤ ਸਾਰੇ ਮਾਮਲਿਆਂ ਵਿੱਚ, ਮਾਡਲ ਉਹ ਕੰਮ ਘੰਟਿਆਂ ਵਿੱਚ ਘਟਾ ਦਿੰਦਾ ਹੈ ਜਿਸ ਵਿੱਚ ਦਿਨਾਂ ਜਾਂ ਹਫ਼ਤਿਆਂ ਦਾ ਸਮਾਂ ਲੱਗ ਸਕਦਾ ਸੀ। ਇਹ ਤਰੱਕੀ ਸਾਡੇ ਪੇਪਰ GPT‑5 ਨਾਲ ਸ਼ੁਰੂਆਤੀ ਵਿਗਿਆਨ ਗਤੀਵਰਧਨ ਪ੍ਰਯੋਗ ਵਿੱਚ ਦਰਜ ਹੈ, ਜੋ November 2025 ਵਿੱਚ ਜਾਰੀ ਕੀਤਾ ਗਿਆ ਸੀ ਅਤੇ ਇਹ ਸ਼ੁਰੂਆਤੀ ਸਬੂਤ ਪੇਸ਼ ਕਰਦਾ ਹੈ ਕਿ GPT‑5 ਵਿਗਿਆਨਕ ਵਰਕਫ਼ਲੋਜ਼ ਨੂੰ ਮਾਪਯੋਗ ਢੰਗ ਨਾਲ ਤੇਜ਼ ਕਰ ਸਕਦਾ ਹੈ।
ਕਿਉਂਕਿ ਵਿਗਿਆਨਕ ਤਰੱਕੀ ਨੂੰ ਤੇਜ਼ ਕਰਨਾ ਮਨੁੱਖਤਾ ਦੇ ਹਿੱਤ ਲਈ AI ਦੇ ਸਭ ਤੋਂ ਆਸ਼ਾਵਾਦੀ ਮੌਕਿਆਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ, ਅਸੀਂ ਮੁਸ਼ਕਲ ਗਣਿਤ ਅਤੇ ਵਿਗਿਆਨ ਕਾਰਜਾਂ ਉੱਤੇ ਆਪਣੇ ਮਾਡਲਾਂ ਨੂੰ ਬਿਹਤਰ ਬਣਾ ਰਹੇ ਹਾਂ ਅਤੇ ਉਹ ਟੂਲ ਤਿਆਰ ਕਰ ਰਹੇ ਹਾਂ ਜੋ ਵਿਗਿਆਨੀਆਂ ਨੂੰ ਇਨ੍ਹਾਂ ਤੋਂ ਸਭ ਤੋਂ ਵੱਧ ਲਾਭ ਲੈਣ ਵਿੱਚ ਮਦਦ ਕਰਨਗੇ।
ਜਦੋਂ GPQA(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), PhD ਮਾਹਿਰਾਂ ਦੁਆਰਾ ਲਿਖੇ ਸਵਾਲਾਂ ਦਾ ਇੱਕ “Google-Proof” ਵਿਗਿਆਨ ਬੈਂਚਮਾਰਕ, November 2023 ਵਿੱਚ ਜਾਰੀ ਹੋਇਆ, GPT‑4 ਨੇ 39% ਸਕੋਰ ਕੀਤਾ, ਜੋ 70% ਦੇ ਮਾਹਿਰ ਬੇਸਲਾਈਨ ਤੋਂ ਘੱਟ ਸੀ। ਦੋ ਸਾਲ ਬਾਅਦ, GPT‑5.2 ਨੇ 92% ਸਕੋਰ ਕੀਤਾ। ਜਿਵੇਂ ਮਾਡਲਾਂ ਦੀ ਰੀਜ਼ਨਿੰਗ ਅਤੇ ਗਿਆਨ ਸਮਰੱਥਾਵਾਂ ਵਧਦੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ, ਹੋਰ ਮੁਸ਼ਕਲ ਬੈਂਚਮਾਰਕ ਮਾਡਲਾਂ ਦੀ ਵਿਗਿਆਨਕ ਖੋਜ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਦੀ ਯੋਗਤਾ ਨੂੰ ਮਾਪਣ ਅਤੇ ਅਨੁਮਾਨ ਲਗਾਉਣ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੋਣਗੇ। ਪਹਿਲਾਂ ਦੇ ਵਿਗਿਆਨਕ ਬੈਂਚਮਾਰਕ ਜ਼ਿਆਦਾਤਰ ਬਹੁ-ਵਿਕਲਪੀ ਸਵਾਲਾਂ ਉੱਤੇ ਕੇਂਦਰਿਤ ਹਨ, ਸੰਤ੍ਰਿਪਤ ਹੋ ਚੁੱਕੇ ਹਨ, ਜਾਂ ਵਿਗਿਆਨ ਉੱਤੇ ਕੇਂਦਰੀ ਤੌਰ ਤੇ ਕੇਂਦਰਿਤ ਨਹੀਂ ਹਨ।
ਇਸ ਘਾਟ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ, ਅਸੀਂ FrontierScience ਪੇਸ਼ ਕਰ ਰਹੇ ਹਾਂ: ਮਾਹਿਰ-ਪੱਧਰੀ ਵਿਗਿਆਨਕ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਮਾਪਣ ਲਈ ਬਣਾਇਆ ਗਿਆ ਇੱਕ ਨਵਾਂ ਬੈਂਚਮਾਰਕ। FrontierScience ਭੌਤਿਕ ਵਿਗਿਆਨ, ਰਸਾਇਣ ਵਿਗਿਆਨ ਅਤੇ ਜੀਵ ਵਿਗਿਆਨ ਦੇ ਮਾਹਿਰਾਂ ਦੁਆਰਾ ਲਿਖਿਆ ਅਤੇ ਜਾਂਚਿਆ ਗਿਆ ਹੈ, ਅਤੇ ਇਸ ਵਿੱਚ ਸੈਂਕੜਿਆਂ ਸਵਾਲ ਹਨ ਜੋ ਮੁਸ਼ਕਲ, ਮੌਲਿਕ ਅਤੇ ਅਰਥਪੂਰਨ ਬਣਾਏ ਗਏ ਹਨ। FrontierScience ਵਿੱਚ ਸਵਾਲਾਂ ਦੇ ਦੋ ਟਰੈਕ ਹਨ: Olympiad, ਜੋ Olympiad-ਸ਼ੈਲੀ ਦੀ ਵਿਗਿਆਨਕ ਰੀਜ਼ਨਿੰਗ ਸਮਰੱਥਾ ਮਾਪਦਾ ਹੈ, ਅਤੇ Research, ਜੋ ਅਸਲੀ ਦੁਨੀਆ ਦੀਆਂ ਵਿਗਿਆਨਕ ਖੋਜ ਯੋਗਤਾਵਾਂ ਮਾਪਦਾ ਹੈ। ਮਾਡਲਾਂ ਦੀਆਂ ਵਿਗਿਆਨਕ ਸਮਰੱਥਾਵਾਂ ਬਾਰੇ ਹੋਰ ਸਮਝ ਸਾਨੂੰ ਤਰੱਕੀ ਨੂੰ ਟਰੈਕ ਕਰਨ ਅਤੇ AI-ਤੇਜ਼ ਵਿਗਿਆਨ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ।
ਸਾਡੇ ਸ਼ੁਰੂਆਤੀ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ, GPT‑5.2 FrontierScience-Olympiad ਉੱਤੇ 77% ਅਤੇ Research ਉੱਤੇ 25% ਸਕੋਰ ਨਾਲ ਸਾਡਾ ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲਾ ਮਾਡਲ ਹੈ, ਜੋ ਹੋਰ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਤੋਂ ਅੱਗੇ ਹੈ। ਅਸੀਂ ਮਾਹਿਰ-ਪੱਧਰੀ ਸਵਾਲ ਹੱਲ ਕਰਨ ਵਿੱਚ ਵੱਡੀ ਤਰੱਕੀ ਵੇਖੀ ਹੈ, ਜਦਕਿ ਹੋਰ ਤਰੱਕੀ ਲਈ ਜਗ੍ਹਾ ਹਾਲੇ ਵੀ ਬਾਕੀ ਹੈ, ਖ਼ਾਸ ਕਰਕੇ ਖੁੱਲ੍ਹੇ ਅੰਤ ਵਾਲੇ research-ਸ਼ੈਲੀ ਕਾਰਜਾਂ ਉੱਤੇ। ਵਿਗਿਆਨੀਆਂ ਲਈ, ਇਸ ਦਾ ਸੰਕੇਤ ਹੈ ਕਿ ਮੌਜੂਦਾ ਮਾਡਲ ਪਹਿਲਾਂ ਹੀ ਖੋਜ ਦੇ ਉਹਨਾਂ ਹਿੱਸਿਆਂ ਨੂੰ ਸਮਰਥਨ ਦੇ ਸਕਦੇ ਹਨ ਜਿੱਥੇ ਸੰਰਚਿਤ ਰੀਜ਼ਨਿੰਗ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਨਾਲ ਹੀ ਇਹ ਵੀ ਉਜਾਗਰ ਹੁੰਦਾ ਹੈ ਕਿ ਖੁੱਲ੍ਹੇ ਅੰਤ ਵਾਲੀ ਸੋਚ ਨੂੰ ਅੰਜ਼ਾਮ ਦੇਣ ਦੀ ਉਨ੍ਹਾਂ ਦੀ ਸਮਰੱਥਾ ਸੁਧਾਰਨ ਲਈ ਹਾਲੇ ਕਾਫ਼ੀ ਕੰਮ ਬਾਕੀ ਹੈ। ਇਹ ਨਤੀਜੇ ਇਸ ਗੱਲ ਨਾਲ ਮੇਲ ਖਾਂਦੇ ਹਨ ਕਿ ਵਿਗਿਆਨੀ ਅੱਜ ਦੇ ਮਾਡਲਾਂ ਨੂੰ ਕਿਵੇਂ ਵਰਤ ਰਹੇ ਹਨ: ਖੋਜ ਵਰਕਫ਼ਲੋਜ਼ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਲਈ, ਜਦਕਿ ਸਮੱਸਿਆ ਦੀ ਰਚਨਾ ਅਤੇ ਪ੍ਰਮਾਣੀਕਰਨ ਲਈ ਮਨੁੱਖੀ ਫ਼ੈਸਲੇ ਤੇ ਨਿਰਭਰ ਰਹਿੰਦੇ ਹਨ, ਅਤੇ ਵਧਦੀ ਹੱਦ ਤੱਕ ਉਹ ਵਿਚਾਰ ਅਤੇ ਸੰਬੰਧ ਖੋਜਣ ਲਈ ਜੋ ਨਹੀਂ ਤਾਂ ਸਾਹਮਣੇ ਆਉਣ ਵਿੱਚ ਕਾਫ਼ੀ ਵੱਧ ਸਮਾਂ ਲੈਂਦੇ—ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਕੁਝ ਮਾਮਲਿਆਂ ਵਿੱਚ ਨਵੀਆਂ ਸੂਝਾਂ ਦਾ ਯੋਗਦਾਨ ਵੀ ਸ਼ਾਮਲ ਹੈ ਜਿਨ੍ਹਾਂ ਦਾ ਫਿਰ ਮਾਹਿਰ ਮੁਲਾਂਕਣ ਅਤੇ ਟੈਸਟ ਕਰਦੇ ਹਨ।
ਅੰਤ ਵਿੱਚ, AI ਦੀਆਂ ਵਿਗਿਆਨਕ ਸਮਰੱਥਾਵਾਂ ਲਈ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਬੈਂਚਮਾਰਕ ਉਹ ਨਵੀਆਂ ਖੋਜਾਂ ਹਨ ਜਿਨ੍ਹਾਂ ਨੂੰ ਇਹ ਜਨਮ ਦੇਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ; ਆਖ਼ਿਰਕਾਰ ਵਿਗਿਆਨ ਅਤੇ ਸਮਾਜ ਲਈ ਉਹੀ ਮਾਇਨੇ ਰੱਖਦੀਆਂ ਹਨ। FrontierScience ਇਸ ਤੋਂ ਪਹਿਲਾਂ ਆਉਂਦਾ ਹੈ। ਇਹ ਸਾਨੂੰ ਮਾਹਿਰ-ਪੱਧਰੀ ਵਿਗਿਆਨਕ ਰੀਜ਼ਨਿੰਗ ਲਈ ਇੱਕ ਦਿਸ਼ਾ-ਸੂਚਕ ਦਿੰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਅਸੀਂ ਮਾਡਲਾਂ ਨੂੰ ਮਿਆਰੀਕ੍ਰਿਤ ਸਵਾਲਾਂ ਦੇ ਇੱਕ ਸੈੱਟ ਉੱਤੇ ਜਾਂਚ ਸਕਦੇ ਹਾਂ, ਵੇਖ ਸਕਦੇ ਹਾਂ ਕਿ ਉਹ ਕਿੱਥੇ ਸਫਲ ਜਾਂ ਅਸਫਲ ਹੁੰਦੇ ਹਨ, ਅਤੇ ਪਛਾਣ ਸਕਦੇ ਹਾਂ ਕਿ ਸਾਨੂੰ ਉਨ੍ਹਾਂ ਨੂੰ ਕਿੱਥੇ ਸੁਧਾਰਨ ਦੀ ਲੋੜ ਹੈ। FrontierScience ਸੰਕੁਚਿਤ ਹੈ ਅਤੇ ਕੁਝ ਮਹੱਤਵਪੂਰਨ ਮਾਮਲਿਆਂ ਵਿੱਚ ਇਸ ਦੀਆਂ ਸੀਮਾਵਾਂ ਹਨ, ਉਦਾਹਰਨ ਵਜੋਂ, ਸੀਮਿਤ, ਮਾਹਿਰ-ਲਿਖਤ ਸਮੱਸਿਆਵਾਂ ਉੱਤੇ ਕੇਂਦਰਿਤ ਹੋਣਾ, ਅਤੇ ਇਹ ਉਹ ਸਭ ਕੁਝ ਨਹੀਂ ਫੜਦਾ ਜੋ ਵਿਗਿਆਨੀ ਆਪਣੇ ਰੋਜ਼ਾਨਾ ਕੰਮ ਵਿੱਚ ਕਰਦੇ ਹਨ। ਪਰ ਖੇਤਰ ਨੂੰ ਹੋਰ ਮੁਸ਼ਕਲ, ਮੌਲਿਕ ਅਤੇ ਅਰਥਪੂਰਨ ਵਿਗਿਆਨ ਬੈਂਚਮਾਰਕਾਂ ਦੀ ਲੋੜ ਹੈ, ਅਤੇ FrontierScience ਇਸ ਦਿਸ਼ਾ ਵਿੱਚ ਇੱਕ ਕਦਮ ਅੱਗੇ ਹੈ।
ਪੂਰਾ FrontierScience ਮੁਲਾਂਕਣ 700 ਤੋਂ ਵੱਧ ਪਾਠ-ਆਧਾਰਿਤ ਸਵਾਲਾਂ 'ਤੇ ਫੈਲਿਆ ਹੈ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ 160 ਗੋਲਡ ਸੈੱਟ ਵਿੱਚ ਹਨ, ਅਤੇ ਇਹ ਭੌਤਿਕ ਵਿਗਿਆਨ, ਰਸਾਇਣ ਵਿਗਿਆਨ ਅਤੇ ਜੀਵ ਵਿਗਿਆਨ ਦੇ ਉਪਖੇਤਰਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ। ਇਹ ਬੈਂਚਮਾਰਕ Olympiad ਅਤੇ Research ਵੰਡਾਂ ਤੋਂ ਬਣਿਆ ਹੈ। FrontierScience-Olympiad ਵਿੱਚ 100 ਸਵਾਲ ਹਨ ਜੋ ਅੰਤਰਰਾਸ਼ਟਰੀ ਓਲੰਪਿਆਡ ਤਮਗਾ-ਵਿਜੇਤਿਆਂ ਦੁਆਰਾ ਇੱਕ ਸੀਮਿਤ, ਛੋਟੇ ਜਵਾਬ ਫਾਰਮੈਟ ਵਿੱਚ ਵਿਗਿਆਨਕ ਰੀਜ਼ਨਿੰਗ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਹਨ। Olympiad ਸੈੱਟ ਇਸ ਤਰ੍ਹਾਂ ਡਿਜ਼ਾਇਨ ਕੀਤਾ ਗਿਆ ਕਿ ਇਸ ਵਿੱਚ ਉਹ ਸਿਧਾਂਤਕ ਸਵਾਲ ਹੋਣ ਜੋ ਘੱਟੋ-ਘੱਟ ਅੰਤਰਰਾਸ਼ਟਰੀ ਓਲੰਪਿਆਡ ਮੁਕਾਬਲਿਆਂ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਜਿੰਨੇ ਮੁਸ਼ਕਲ ਹੋਣ। FrontierScience-Research ਵਿੱਚ 60 ਮੂਲ research ਉਪ-ਕਾਰਜ ਹਨ ਜੋ PhD ਵਿਗਿਆਨੀਆਂ, ਜਿਵੇਂ ਡਾਕਟਰੇਟ ਉਮੀਦਵਾਰਾਂ, ਪ੍ਰੋਫੈਸਰਾਂ ਜਾਂ ਪੋਸਟਡਾਕਟੋਰਲ ਖੋਜਕਰਤਿਆਂ ਦੁਆਰਾ ਡਿਜ਼ਾਇਨ ਕੀਤੇ ਗਏ ਹਨ ਅਤੇ ਜਿਨ੍ਹਾਂ ਦੀ ਗ੍ਰੇਡਿੰਗ 10-ਅੰਕ ਰੂਬਰਿਕ ਨਾਲ ਹੁੰਦੀ ਹੈ। Research ਸੈੱਟ ਇਸ ਤਰ੍ਹਾਂ ਬਣਾਇਆ ਗਿਆ ਸੀ ਕਿ ਇਸ ਵਿੱਚ ਖੁਦ-ਸੰਪੂਰਨ, ਬਹੁ-ਕਦਮੀ ਉਪ-ਕਾਰਜ ਹੋਣ ਜਿਨ੍ਹਾਂ ਦੀ ਮੁਸ਼ਕਲਤਾ ਉਹੋ ਜਿਹੀ ਹੋਵੇ ਜਿਹੜੀ ਇੱਕ PhD ਵਿਗਿਆਨੀ ਆਪਣੀ ਖੋਜ ਦੌਰਾਨ ਵੇਖ ਸਕਦਾ ਹੈ।
FrontierScience ਵਿੱਚ ਹਰ ਕੰਮ ਭੌਤਿਕ ਵਿਗਿਆਨ, ਰਸਾਇਣ ਵਿਗਿਆਨ ਜਾਂ ਜੀਵ ਵਿਗਿਆਨ ਦੇ ਇੱਕ ਡੋਮੇਨ ਮਾਹਿਰ ਦੁਆਰਾ ਲਿਖਿਆ ਅਤੇ ਜਾਂਚਿਆ ਜਾਂਦਾ ਹੈ। ਓਲੰਪਿਆਡ ਸੈੱਟ ਲਈ, ਸਾਰੇ ਮਾਹਿਰਾਂ ਨੂੰ ਘੱਟੋ-ਘੱਟ ਇੱਕ ਅਤੇ ਅਕਸਰ ਕਈ ਅੰਤਰਰਾਸ਼ਟਰੀ ਓਲੰਪਿਆਡ ਮੁਕਾਬਲਿਆਂ ਵਿੱਚ ਤਮਗਾ ਮਿਲਿਆ ਸੀ। ਰਿਸਰਚ ਸੈੱਟ ਲਈ, ਸਾਰੇ ਮਾਹਿਰਾਂ ਕੋਲ ਸੰਬੰਧਿਤ PhD ਡਿਗਰੀ ਹੈ।
Olympiad ਸਵਾਲ 42 ਸਾਬਕਾ ਅੰਤਰਰਾਸ਼ਟਰੀ ਤਮਗਾ-ਵਿਜੇਤਿਆਂ ਜਾਂ ਸੰਬੰਧਤ ਖੇਤਰਾਂ ਦੇ ਰਾਸ਼ਟਰੀ ਟੀਮ ਕੋਚਾਂ ਦੇ ਸਹਿਯੋਗ ਨਾਲ ਬਣਾਏ ਗਏ, ਜਿਨ੍ਹਾਂ ਕੋਲ ਮਿਲਾਕੇ 109 ਓਲੰਪਿਆਡ ਤਮਗੇ ਸਨ। Research ਸਵਾਲ 45 ਯੋਗ ਵਿਗਿਆਨੀਆਂ ਅਤੇ ਡੋਮੇਨ ਮਾਹਿਰਾਂ ਦੇ ਸਹਿਯੋਗ ਨਾਲ ਬਣਾਏ ਗਏ। ਸਾਰੇ ਵਿਗਿਆਨੀ ਜਾਂ ਤਾਂ ਡਾਕਟਰੇਟ ਉਮੀਦਵਾਰ, ਪੋਸਟ-ਡਾਕਟੋਰਲ ਖੋਜਕਰਤਾ ਜਾਂ ਪ੍ਰੋਫੈਸਰ ਸਨ। ਉਨ੍ਹਾਂ ਦੀ ਮਾਹਰਤਾ ਦੇ ਖੇਤਰ ਬਹੁਤ ਵੱਖ-ਵੱਖ ਅਤੇ ਮਹੱਤਵਪੂਰਨ ਵਿਗਿਆਨਕ ਵਿਸ਼ਿਆਂ 'ਤੇ ਫੈਲੇ ਹੋਏ ਸਨ, quantum electrodynamics ਤੋਂ synthetic organic chemistry ਤੋਂ evolutionary biology ਤੱਕ।
ਦੋਹਾਂ ਸੈੱਟਾਂ ਲਈ ਟਾਸਕ ਬਣਾਉਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ OpenAI ਦੇ ਅੰਦਰੂਨੀ ਮਾਡਲਾਂ ਦੇ ਵਿਰੁੱਧ ਕੁਝ ਚੋਣ ਵੀ ਸ਼ਾਮਲ ਸੀ, ਉਦਾਹਰਨ ਵਜੋਂ, ਉਹ ਕੰਮ ਹਟਾਉਣਾ ਜਿਨ੍ਹਾਂ ਦਾ ਮਾਡਲਾਂ ਨੇ ਸਫਲਤਾਪੂਰਵਕ ਸਹੀ ਜਵਾਬ ਦੇ ਦਿੱਤਾ ਸੀ, ਇਸ ਲਈ ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ ਇਹ ਮੁਲਾਂਕਣ ਹੋਰ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਦੇ ਵਿਰੁੱਧ ਕੁਝ ਹੱਦ ਤੱਕ ਪੱਖਪਾਤੀ ਹੋਵੇਗਾ। ਅਸੀਂ 100 ਸਵਾਲਾਂ ਵਾਲਾ Olympiad ਗੋਲਡ ਸੈੱਟ ਅਤੇ 60 ਸਵਾਲਾਂ ਵਾਲਾ Research ਗੋਲਡ ਸੈੱਟ ਓਪਨ-ਸੋਰਸ ਕਰਦੇ ਹਾਂ, ਜਦਕਿ ਹੋਰ ਸਵਾਲਾਂ ਨੂੰ contamination ਟਰੈਕ ਕਰਨ ਲਈ ਰੋਕ ਕੇ ਰੱਖਦੇ ਹਾਂ।

ਕੰਮ ਚਾਰ ਪੜਾਅਾਂ ਵਿਚੋਂ ਲੰਘਦੇ ਹਨ: Creation, Review, Resolution, Revision। ਸੁਤੰਤਰ ਮਾਹਿਰ ਇਕ-ਦੂਜੇ ਦੇ ਕੰਮਾਂ ਦੀ ਸਮੀਖਿਆ ਕਰਦੇ ਹਨ ਤਾਂ ਜੋ ਇਹ ਪੱਕਾ ਹੋ ਸਕੇ ਕਿ ਉਹ ਮਾਪਦੰਡਾਂ ਨਾਲ ਮਿਲਦਾ ਹੈ।
Olympiad ਸੈੱਟ ਦਾ ਮੁਲਾਂਕਣ ਛੋਟੇ ਜਵਾਬ ਨਾਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ: ਜਾਂ ਤਾਂ ਕਿਸੇ ਸੰਖਿਆ, ਪ੍ਰਗਟਾਵੇ ਜਾਂ fuzzy string match ਨਾਲ, ਜੋ ਸਹੀਪਣ ਦੀ ਜਾਂਚ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ। ਪਰ ਇਹ ਜਾਂਚ ਅਕਸਰ ਸਮੱਸਿਆ ਦੀ ਅਭਿਵੈਕਤੀਸ਼ੀਲਤਾ ਅਤੇ ਖੁੱਲ੍ਹੇਪਣ ਨਾਲ ਸਮਝੌਤਾ ਕਰਦੀ ਹੈ। Research ਸੈੱਟ ਲਈ, ਅਸੀਂ ਹੋਰ ਖੁੱਲ੍ਹੇ ਅੰਤ ਵਾਲੇ ਕਾਰਜਾਂ ਦੀ ਗ੍ਰੇਡਿੰਗ ਲਈ ਰੂਬਰਿਕ-ਆਧਾਰਿਤ ਆਰਕੀਟੈਕਚਰ ਪੇਸ਼ ਕਰਦੇ ਹਾਂ। ਹਰ ਸਵਾਲ ਵਿੱਚ ਕਈ ਸੁਤੰਤਰ ਅਤੇ ਵਸਤੁਨਿਸ਼ਠ ਤੌਰ 'ਤੇ ਆਂਕਣਯੋਗ ਆਈਟਮਾਂ ਵਾਲਾ ਸਕੋਰਿੰਗ ਰੂਬਰਿਕ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ, ਕੁੱਲ 10 ਅੰਕ। ਗ੍ਰੇਡਿੰਗ ਰੂਬਰਿਕ ਸਿਰਫ਼ ਅੰਤਿਮ ਜਵਾਬ ਦੀ ਸ਼ੁੱਧਤਾ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਵਿਚਕਾਰਲੇ ਰੀਜ਼ਨਿੰਗ ਕਦਮਾਂ ਦੀ ਸਹੀਪਣ ਦਾ ਵੀ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਅਸਫਲਤਾ ਦਾ ਸੁਖਮ ਵਿਸ਼ਲੇਸ਼ਣ ਸੰਭਵ ਹੁੰਦਾ ਹੈ। ਜੇ ਕਿਸੇ ਹੱਲ ਨੂੰ ਘੱਟੋ-ਘੱਟ 7/10 ਰੂਬਰਿਕ ਅੰਕ ਮਿਲਦੇ ਹਨ ਤਾਂ ਉਸਨੂੰ “ਸਹੀ” ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ।
ਜਵਾਬਾਂ ਦਾ ਮੁਲਾਂਕਣ ਇੱਕ ਮਾਡਲ-ਆਧਾਰਿਤ ਗ੍ਰੇਡਰ GPT‑5 ਦੁਆਰਾ ਜਾਂ ਤਾਂ ਛੋਟੇ ਜਵਾਬ ਜਾਂ ਰੂਬਰਿਕ ਮਾਪਦੰਡਾਂ ਦੇ ਖ਼ਿਲਾਫ਼ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਹਾਲਾਂਕਿ ਆਦਰਸ਼ ਤੌਰ ਤੇ ਅਸੀਂ ਹਰ ਜਵਾਬ ਦੀ ਗ੍ਰੇਡਿੰਗ ਲਈ ਮਾਹਿਰ ਮਨੁੱਖ ਵਰਤਣਾ ਚਾਹੁੰਦੇ ਹਾਂ, ਇਹ ਪਹੁੰਚ ਸਕੇਲਯੋਗ ਨਹੀਂ ਹੈ, ਇਸ ਲਈ ਅਸੀਂ ਰੂਬਰਿਕ ਇਸ ਤਰ੍ਹਾਂ ਤਿਆਰ ਕੀਤਾ ਕਿ ਮਾਡਲ ਗ੍ਰੇਡਰ ਨਾਲ ਇਸ ਦੀ ਜਾਂਚ ਹੋ ਸਕੇ। ਅਸੀਂ ਇੱਕ ਵੈਰੀਫਿਕੇਸ਼ਨ ਪਾਈਪਲਾਈਨ ਵਿਕਸਿਤ ਕੀਤੀ ਤਾਂ ਜੋ ਇਹ ਯਕੀਨੀ ਬਣਾਇਆ ਜਾ ਸਕੇ ਕਿ ਰੂਬਰਿਕਾਂ ਅਤੇ ਸਵਾਲ ਮੁਸ਼ਕਲਤਾ ਅਤੇ ਸਹੀਪਣ ਦੇ ਹਿਸਾਬ ਨਾਲ ਚੰਗੀ ਤਰ੍ਹਾਂ ਕੈਲੀਬਰੇਟ ਕੀਤੇ ਗਏ ਹਨ।
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
ਅਸਫਲ 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
ਪਾਸ 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
ਪਾਸ 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
ਪਾਸ 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
ਅਸਫਲ 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
ਰਿਸਰਚ ਸੈੱਟ ਵਿੱਚ ਹਰ ਕੰਮ ਦੀ ਗ੍ਰੇਡਿੰਗ 10 ਅੰਕਾਂ ਦੇ ਰੂਬਰਿਕ ਨਾਲ ਕੀਤੀ ਜਾਂਦੀ ਹੈ ਜਿਸਦਾ ਵਰਤੋਂ ਕੋਈ ਮਾਹਿਰ ਜਾਂ ਮਾਡਲ ਗ੍ਰੇਡਰ ਕਰ ਸਕਦਾ ਹੈ। ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਦੀ ਆਪਣੀ ਸਮਰੱਥਾ ਨੂੰ ਵਧਾਉਣ ਲਈ, ਅਸੀਂ ਜਵਾਬਾਂ ਦੀ ਗ੍ਰੇਡਿੰਗ ਲਈ ਇੱਕ ਹੋਰ ਮਾਡਲ ਵਰਤਦੇ ਹਾਂ।
ਅਸੀਂ ਕਈ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ: GPT‑5.2, Claude Opus 4.5, ਅਤੇ Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, ਅਤੇ OpenAI o3 ਨੂੰ FrontierScience-Olympiad ਅਤੇ FrontierScience-Research ਉੱਤੇ। ਸਾਰੇ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ “high” ਰੀਜ਼ਨਿੰਗ effort 'ਤੇ ਕੀਤਾ ਗਿਆ, ਸਿਵਾਏ GPT‑5.2 ਦੇ, ਜਿਸਦਾ ਮੁਲਾਂਕਣ “xhigh” 'ਤੇ ਕੀਤਾ ਗਿਆ। ਸਾਡੇ ਸ਼ੁਰੂਆਤੀ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ, GPT‑5.2 FrontierScience-Olympiad ਉੱਤੇ 77% ਅਤੇ Research ਉੱਤੇ 25% ਸਕੋਰ ਨਾਲ ਸਾਡਾ ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲਾ ਮਾਡਲ ਹੈ, ਜੋ ਹੋਰ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਤੋਂ ਅੱਗੇ ਹੈ। Gemini 3 Pro Olympiad ਸੈੱਟ 'ਤੇ GPT‑5.2 ਦੇ ਤੁੱਲ ਹੈ, ਜਿਸਨੇ 76% ਸਕੋਰ ਕੀਤਾ।
ਅਸੀਂ ਮਾਹਿਰ-ਪੱਧਰੀ ਸਵਾਲ ਹੱਲ ਕਰਨ ਵਿੱਚ ਵੱਡੀ ਤਰੱਕੀ ਵੇਖੀ ਹੈ, ਖ਼ਾਸ ਕਰਕੇ ਖੁੱਲ੍ਹੇ ਅੰਤ ਵਾਲੇ research-ਸ਼ੈਲੀ ਕਾਰਜਾਂ ਉੱਤੇ। ਹਾਲੇ ਵੀ ਵਧਣ ਲਈ ਜਗ੍ਹਾ ਮੌਜੂਦ ਹੈ: ਅਸਫਲਤਾਵਾਂ ਵਾਲੇ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟਾਂ ਦੇ ਵਿਸ਼ਲੇਸ਼ਣ ਤੋਂ ਪਤਾ ਲੱਗਿਆ ਕਿ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਕਈ ਵਾਰ ਰੀਜ਼ਨਿੰਗ, ਲਾਜਿਕ ਅਤੇ ਗਣਨਾ ਦੀਆਂ ਗ਼ਲਤੀਆਂ ਕਰਦੇ ਸਨ, ਖਾਸ ਵਿਗਿਆਨਕ ਧਾਰਣਾਵਾਂ ਨੂੰ ਨਹੀਂ ਸਮਝਦੇ ਸਨ, ਅਤੇ ਤੱਥਕ ਅਸੁੱਧਤਾਵਾਂ ਕਰਦੇ ਸਨ।
ਅਸੀਂ ਕਈ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਵਿੱਚ ਸ਼ੁੱਧਤਾਵਾਂ ਦੀ ਤੁਲਨਾ ਕਰਦੇ ਹਾਂ। GPT‑5.2 FrontierScience-Research ਅਤੇ Olympiad ਸੈੱਟ ਉੱਤੇ ਸਾਡਾ ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲਾ ਮਾਡਲ ਹੈ।
ਅਸੀਂ GPT‑5.2 ਅਤੇ o3 ਲਈ ਰੀਜ਼ਨਿੰਗ effort ਅਨੁਸਾਰ ਸ਼ੁੱਧਤਾਵਾਂ ਦੀ ਤੁਲਨਾ ਕਰਦੇ ਹਾਂ। ਵੱਧ ਲੰਮਾ ਸੋਚਣ ਦਾ ਸਮਾਂ ਸ਼ੁੱਧਤਾ ਵਿੱਚ ਸੁਧਾਰ ਲਿਆਉਂਦਾ ਹੈ।
ਹਾਲਾਂਕਿ FrontierScience ਵਿਗਿਆਨਕ ਬੈਂਚਮਾਰਕਾਂ ਦੀ ਮੁਸ਼ਕਲਤਾ ਵਿੱਚ ਇੱਕ ਕਦਮ ਅੱਗੇ ਦਰਸਾਉਂਦਾ ਹੈ, ਫਿਰ ਵੀ ਕਈ ਸੀਮਾਵਾਂ ਹਨ। FrontierScience ਸੀਮਿਤ problem statement ਵਾਲੇ ਸਵਾਲਾਂ ਤੋਂ ਬਣਿਆ ਹੈ, ਜੋ ਅੰਤਿਮ ਜਵਾਬ ਦੇ ਮੁਲਾਂਕਣ Olympiad ਜਾਂ ਕਿਸੇ research ਕੰਮ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਰੀਜ਼ਨਿੰਗ ਦੇ ਮੁਲਾਂਕਣ Research ਉੱਤੇ ਕੇਂਦਰਿਤ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਲੰਬੇ ਕਾਰਜਾਂ ਉੱਤੇ ਕਈ ਹਿੱਸਿਆਂ ਵਾਲੀਆਂ ਰੂਬਰਿਕਾਂ ਦੀ ਵਰਤੋਂ ਅੰਤਿਮ ਜਵਾਬ ਦੀ ਜਾਂਚ ਨਾਲੋਂ ਘੱਟ ਵਸਤੁਨਿਸ਼ਠ ਹੈ।
FrontierScience ਮੁਸ਼ਕਲ, ਮਾਹਿਰ-ਲਿਖਤ ਸਵਾਲਾਂ ਉੱਤੇ ਮਾਡਲਾਂ ਦੀ ਰੀਜ਼ਨਿੰਗ ਦਾ ਹੋਰ ਉੱਚ-ਰੈਜ਼ੋਲੂਸ਼ਨ ਸਨੈਪਸ਼ਾਟ ਦਿੰਦਾ ਹੈ, ਪਰ ਇਹ ਇਸ ਗੱਲ ਦੀ ਪੂਰੀ ਤਸਵੀਰ ਨਹੀਂ ਦਿੰਦਾ ਕਿ ਅਮਲ ਵਿੱਚ ਵਿਗਿਆਨ ਕਿਵੇਂ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਖ਼ਾਸ ਤੌਰ ਤੇ, ਇਹ ਵਿਗਿਆਨਕ ਖੋਜ ਦੇ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਹਿੱਸੇ ਦਾ ਮੁਲਾਂਕਣ ਨਹੀਂ ਕਰਦਾ: ਮਾਡਲ ਅਸਲ ਵਿੱਚ ਨਵੇਂ ਅਨੁਮਾਨ ਕਿਵੇਂ ਬਣਾਉਂਦੇ ਹਨ, ਜਾਂ ਕਈ modalityਆਂ ਨਾਲ ਕਿਵੇਂ ਅੰਤਰਕਿਰਿਆ ਕਰਦੇ ਹਨ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਵੀਡੀਓ ਡਾਟਾ ਅਤੇ ਭੌਤਿਕ ਸੰਸਾਰ ਦੇ ਅਸਲ ਪ੍ਰਯੋਗਾਤਮਕ ਸਿਸਟਮ ਸ਼ਾਮਲ ਹਨ।
ਅੱਗੇ ਵੇਖਦੇ ਹੋਏ, ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ ਵਿਗਿਆਨਕ ਰੀਜ਼ਨਿੰਗ ਵਿੱਚ ਤਰੱਕੀ ਬਿਹਤਰ ਜਨਰਲ-ਪਰਪਜ਼ ਰੀਜ਼ਨਿੰਗ ਸਿਸਟਮਾਂ ਅਤੇ ਵਿਗਿਆਨਕ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਸੁਧਾਰਨ ਲਈ ਕੇਂਦਰਿਤ ਯਤਨਾਂ ਦੋਹਾਂ ਤੋਂ ਆਏਗੀ। FrontierScience ਕਈ ਟੂਲਾਂ ਵਿੱਚੋਂ ਇੱਕ ਟੂਲ ਹੈ, ਅਤੇ ਜਿਵੇਂ ਮਾਡਲ ਸੁਧਰਦੇ ਹਨ, ਅਸੀਂ ਇਸ ਬੈਂਚਮਾਰਕ ਨੂੰ ਦੌਰਾਵਾਰ ਬਿਹਤਰ ਬਣਾਉਣ, ਇਸਨੂੰ ਨਵੇਂ ਖੇਤਰਾਂ ਤੱਕ ਵਧਾਉਣ, ਅਤੇ ਇਸਨੂੰ ਹੋਰ ਅਸਲ-ਦੁਨੀਆ ਮੁਲਾਂਕਣਾਂ ਨਾਲ ਜੋੜਨ ਦੀ ਯੋਜਨਾ ਰੱਖਦੇ ਹਾਂ ਜੋ ਵੇਖਣ ਕਿ ਇਹ ਸਿਸਟਮ ਅਸਲ ਵਿੱਚ ਵਿਗਿਆਨੀਆਂ ਨੂੰ ਕੀ ਕਰਨ ਯੋਗ ਬਣਾਉਂਦੇ ਹਨ। FrontierScience ਵਰਗੇ ਬੈਂਚਮਾਰਕ ਸਾਨੂੰ ਅੱਜ ਦੇ AI ਸਿਸਟਮਾਂ ਦੀਆਂ ਕਮਜ਼ੋਰੀਆਂ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ ਤਾਂ ਜੋ ਅਸੀਂ ਆਪਣੇ ਕੰਮ ਨੂੰ ਮਾਡਲਾਂ ਨੂੰ ਵਿਗਿਆਨਕ ਖੋਜ ਵਿੱਚ ਭਰੋਸੇਯੋਗ ਸਾਥੀ ਬਣਾਉਣ ਉੱਤੇ ਕੇਂਦਰਿਤ ਕਰ ਸਕੀਏ।


