20 ਫ਼ਰਵਰੀ 2026

ਸਾਡੀਆਂ First Proof ਜਮ੍ਹਾਂਕਾਰੀਆਂ

ਅਸੀਂ First Proof ਲਈ ਆਪਣੇ ਪ੍ਰੂਫ਼ ਯਤਨ ਸਾਂਝੇ ਕਰ ਰਹੇ ਹਾਂ, ਜੋ ਇੱਕ ਗਣਿਤ ਚੁਣੌਤੀ ਹੈ ਜੋ ਜਾਂਚਦੀ ਹੈ ਕਿ AI ਡੋਮੇਨ-ਖਾਸ ਸਮੱਸਿਆਵਾਂ ਲਈ ਜਾਂਚਯੋਗ ਪ੍ਰੂਫ਼ ਦੇ ਸਕਦੀ ਹੈ ਜਾਂ ਨਹੀਂ.

ਸਾਡੇ ਪ੍ਰੂਫ਼ ਯਤਨਾਂ ਦਾ ਸੈੱਟ ਵੇਖੋ

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ਅਸੀਂ ਸਾਰੇ 10 First Proof⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਪ੍ਰਸ਼ਨਾਂ ਉੱਤੇ ਇੱਕ ਅੰਦਰੂਨੀ ਮਾਡਲ ਚਲਾਇਆ, ਜੋ ਖੋਜ-ਪੱਧਰੀ ਗਣਿਤ ਚੁਣੌਤੀ ਹੈ ਅਤੇ ਇਹ ਜਾਂਚਣ ਲਈ ਬਣਾਈ ਗਈ ਹੈ ਕਿ ਕੀ AI ਸਿਸਟਮ ਸਹੀ, ਜਾਂਚਯੋਗ ਪ੍ਰੂਫ਼ ਯਤਨ ਪੈਦਾ ਕਰ ਸਕਦੇ ਹਨ। ਛੋਟੇ-ਉੱਤਰ ਜਾਂ ਮੁਕਾਬਲਾ-ਸ਼ੈਲੀ ਗਣਿਤ ਤੋਂ ਵੱਖਰਾ, ਇਨ੍ਹਾਂ ਪ੍ਰਸ਼ਨਾਂ ਲਈ ਵਿਸ਼ੇਸ਼ ਖੇਤਰਾਂ ਵਿੱਚ ਸ਼ੁਰੂ ਤੋਂ ਅੰਤ ਤੱਕ ਤਰਕ ਬਣਾਉਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਅਤੇ ਵਿਸ਼ੇਸ਼ਗਿਆ ਸਮੀਖਿਆ ਤੋਂ ਬਿਨਾਂ ਸਹੀਪਣ ਸਥਾਪਤ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੁੰਦਾ ਹੈ। First Proof ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਲੇਖਕ ਆਪਣੇ-ਆਪਣੇ ਖੇਤਰਾਂ ਦੇ ਅਗੇਤੀ ਵਿਸ਼ੇਸ਼ਗਿਆ ਹਨ, ਅਤੇ ਘੱਟੋ-ਘੱਟ ਕੁਝ ਪ੍ਰਸ਼ਨ ਲੇਖਕਾਂ ਨੂੰ ਹੱਲ ਮਿਲਣ ਤੋਂ ਪਹਿਲਾਂ ਸਾਲਾਂ ਤੱਕ ਖੁੱਲ੍ਹੇ ਰਹੇ। ਉਹ ਅਕਾਦਮਿਕ ਵਿਭਾਗ ਜਿਸਦਾ ਵਿਸ਼ਿਆਂ ਨਾਲ ਕਾਫ਼ੀ ਓਵਰਲੈਪ ਹੋਵੇ, ਸੰਭਵ ਤੌਰ ਤੇ ਇੱਕ ਹਫ਼ਤੇ ਵਿੱਚ ਕਈ ਪ੍ਰਸ਼ਨ ਹੱਲ ਕਰ ਸਕਦਾ ਹੈ।

ਅਸੀਂ ਸ਼ਨੀਵਾਰ, 14 ਫ਼ਰਵਰੀ 2026 ਨੂੰ 12:00 AM PT ਤੇ ਆਪਣੇ ਪ੍ਰੂਫ਼ ਯਤਨ ਸਾਂਝੇ ਕੀਤੇ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)। ਵਿਸ਼ੇਸ਼ਗਿਆ ਫੀਡਬੈਕ ਦੇ ਆਧਾਰ ਤੇ, ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਮਾਡਲ ਦੇ ਘੱਟੋ-ਘੱਟ ਪੰਜ ਪ੍ਰੂਫ਼ ਯਤਨਾਂ (ਪ੍ਰਸ਼ਨ 4, 5, 6, 9 ਅਤੇ 10) ਦੇ ਸਹੀ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਉੱਚੀ ਹੈ, ਅਤੇ ਹੋਰ ਕਈ ਅਜੇ ਸਮੀਖਿਆ ਹੇਠ ਹਨ। ਸ਼ੁਰੂ ਵਿੱਚ ਅਸੀਂ ਮੰਨਿਆ ਸੀ ਕਿ ਪ੍ਰਸ਼ਨ 2 ਲਈ ਸਾਡਾ ਯਤਨ ਸੰਭਵਤ: ਸਹੀ ਸੀ। ਅਧਿਕਾਰਕ First Proof ਟਿੱਪਣੀ ਅਤੇ ਭਾਈਚਾਰੇ ਦੇ ਹੋਰ ਵਿਸ਼ਲੇਸ਼ਣ ਦੇ ਆਧਾਰ ਤੇ, ਹੁਣ ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਇਹ ਗਲਤ ਹੈ। ਅਸੀਂ ਭਾਗੀਦਾਰੀ ਲਈ ਆਭਾਰੀ ਹਾਂ ਅਤੇ ਅੱਗੇ ਵੀ ਸਮੀਖਿਆ ਦੀ ਉਮੀਦ ਕਰਦੇ ਹਾਂ। ਸਾਡੇ ਪ੍ਰੂਫ਼ ਯਤਨਾਂ ਦਾ ਪੂਰਾ ਸੈੱਟ ਇੱਥੇ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਮਿਲ ਸਕਦਾ ਹੈ। ਪ੍ਰੀਪ੍ਰਿੰਟ ਵਿੱਚ ਸਾਰੇ ਦਸ ਪ੍ਰੂਫ਼ ਯਤਨ ਸ਼ਾਮਲ ਹਨ, ਨਾਲ ਹੀ ਨਵਾਂ ਜੋੜਿਆ ਐਪੈਂਡਿਕਸ ਵੀ ਹੈ ਜਿਸ ਵਿੱਚ ਪ੍ਰੌੰਪਟ ਪੈਟਰਨ ਅਤੇ ਉਦਾਹਰਨਾਂ ਹਨ ਜੋ ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ ਮਾਡਲਾਂ ਨਾਲ ਸਾਡੀਆਂ ਹੱਥੋਂ ਹੋਈਆਂ ਗੱਲਬਾਤਾਂ ਦੀ ਨਕਲ ਕਰਨ ਦਾ ਉਦੇਸ਼ ਰੱਖਦੀਆਂ ਹਨ।

ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਨਵੀਂ ਅਤਿ-ਆਧੁਨਿਕ ਖੋਜ ਸ਼ਾਇਦ ਅਗਲੀ ਪੀੜ੍ਹੀ ਦੇ AI ਮਾਡਲਾਂ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਦਾ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਣ ਤਰੀਕਾ ਹੈ। ਬੈਂਚਮਾਰਕ ਲਾਭਕਾਰੀ ਹਨ, ਪਰ ਉਹ ਖੋਜ ਦੇ ਕੁਝ ਸਭ ਤੋਂ ਔਖੇ ਹਿੱਸੇ ਛੱਡ ਸਕਦੇ ਹਨ: ਲੰਬੀਆਂ ਰੀਜ਼ਨਿੰਗ ਲੜੀਆਂ ਕਾਇਮ ਰੱਖਣਾ, ਸਹੀ ਅਮੂਰਤ ਚੋਣਨਾ, ਸਮੱਸਿਆ ਬਿਆਨਾਂ ਵਿੱਚ ਅਸਪਸ਼ਟਤਾ ਸੰਭਾਲਣਾ, ਅਤੇ ਅਜਿਹੇ ਤਰਕ ਪੈਦਾ ਕਰਨਾ ਜੋ ਵਿਸ਼ੇਸ਼ਗਿਆ ਜਾਂਚ ਵਿੱਚ ਟਿਕ ਸਕਣ। First Proof ਵਰਗੀਆਂ ਅਤਿ-ਆਧੁਨਿਕ ਚੁਣੌਤੀਆਂ ਸਾਨੂੰ ਉਹ ਸਮਰੱਥਾਵਾਂ ਅਜਿਹੀਆਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਸਟਰੈੱਸ-ਟੈਸਟ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੀਆਂ ਹਨ ਜਿੱਥੇ ਸਹੀਪਣ ਦੀ ਪੁਸ਼ਟੀ ਕਰਨਾ ਸੌਖਾ ਨਹੀਂ ਹੁੰਦਾ ਅਤੇ ਅਸਫਲਤਾ ਦੇ ਢੰਗ ਜਾਣਕਾਰੀਪੂਰਣ ਹੁੰਦੇ ਹਨ।

“ਅਸੀਂ ਇਸ ਵੇਲੇ ਇੱਕ ਨਵਾਂ ਮਾਡਲ ਟ੍ਰੇਨ ਕਰ ਰਹੇ ਹਾਂ ਜਿਸਦਾ ਇੱਕ ਮੁੱਖ ਕੇਂਦਰ ਇਸਦੀ ਸੋਚ ਵਿੱਚ ਸਖ਼ਤੀ ਦਾ ਪੱਧਰ ਵਧਾਉਣਾ ਹੈ, ਇਸ ਲਕਸ਼ ਨਾਲ ਕਿ ਮਾਡਲ ਕਈ ਘੰਟਿਆਂ ਤੱਕ ਲਗਾਤਾਰ ਸੋਚ ਸਕੇ ਅਤੇ ਆਪਣੇ ਨਤੀਜਿਆਂ ਵਿੱਚ ਬਹੁਤ ਉੱਚੇ ਵਿਸ਼ਵਾਸ ਨਾਲ ਕਾਇਮ ਰਹੇ। ਜਦੋਂ First Proof ਪ੍ਰਸ਼ਨਾਂ ਦੀ ਘੋਸ਼ਣਾ ਹੋਈ, ਇਹ ਬਿਲਕੁਲ ਉਚਿਤ ਟੈਸਟਬੈਡ ਜਿਹਾ ਲੱਗਿਆ, ਇਸ ਲਈ ਮੈਂ ਵੀਕਐਂਡ ਦੌਰਾਨ ਇਸਨੂੰ ਅਜ਼ਮਾਇਆ। ਪਹਿਲਾਂ ਹੀ ਇਹ ਦੋ ਪ੍ਰਸ਼ਨ (#9 ਅਤੇ #10) ਹੱਲ ਕਰਨ ਯੋਗ ਸੀ। ਜਿਵੇਂ-ਜਿਵੇਂ ਇਸਦੀ ਟ੍ਰੇਨਿੰਗ ਹੋਈ, ਇਹ ਵਧਦੀ ਸਮਰੱਥਾ ਵਾਲਾ ਹੁੰਦਾ ਗਿਆ ਅਤੇ ਆਖ਼ਿਰਕਾਰ, ਸਾਡੇ ਅੰਦਾਜ਼ੇ ਅਨੁਸਾਰ, ਘੱਟੋ-ਘੱਟ ਹੋਰ ਤਿੰਨ ਹੱਲ ਕਰ ਗਿਆ। ਸਾਨੂੰ ਖ਼ਾਸ ਖੁਸ਼ੀ ਹੋਈ ਜਦੋਂ ਇਸਨੇ #6 ਹੱਲ ਕੀਤਾ ਅਤੇ ਫਿਰ ਦੋ ਦਿਨ ਬਾਅਦ #4 ਵੀ, ਕਿਉਂਕਿ ਉਹ ਪ੍ਰਸ਼ਨ ਅਜਿਹੇ ਖੇਤਰਾਂ ਤੋਂ ਸਨ ਜੋ ਸਾਡੇ ਕਈ ਲੋਕਾਂ ਲਈ ਜਾਣ-ਪਛਾਣ ਵਾਲੇ ਹਨ। ਹਰ ਦਿਨ ਮਾਡਲ ਨੂੰ ਛੁਹਣਯੋਗ ਢੰਗ ਨਾਲ ਹੋਰ ਸਮਝਦਾਰ ਬਣਦਾ ਦੇਖਣਾ ਕਾਫ਼ੀ ਅਦਭੁਤ ਹੈ।”

– James R. Lee (OpenAI ਖੋਜਕਰਤਾ, ਰੀਜ਼ਨਿੰਗ)

ਅਸੀਂ ਮਾਡਲ ਨੂੰ ਸੀਮਿਤ ਮਨੁੱਖੀ ਨਿਗਰਾਨੀ ਨਾਲ ਚਲਾਇਆ। ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਮਾਡਲ ਦੇ ਵਰਜਨਾਂ ਨੂੰ ਪ੍ਰੌੰਪਟ ਕਰਦੇ ਸਮੇਂ, ਅਸੀਂ ਕਈ ਵਾਰ ਉਹ ਰਣਨੀਤੀਆਂ ਮੁੜ ਅਜ਼ਮਾਉਣ ਦੀ ਸਲਾਹ ਦਿੱਤੀ ਜੋ ਪਹਿਲਾਂ ਦੇ ਯਤਨਾਂ ਵਿੱਚ ਫਲਦਾਇਕ ਲੱਗੀਆਂ ਸਨ। ਕੁਝ ਯਤਨਾਂ ਲਈ, ਵਿਸ਼ੇਸ਼ਗਿਆ ਫੀਡਬੈਕ ਮਿਲਣ ਤੋਂ ਬਾਅਦ ਅਸੀਂ ਮਾਡਲ ਨੂੰ ਪ੍ਰੂਫ਼ ਦੇ ਹਿੱਸੇ ਫੈਲਾਉਣ ਜਾਂ ਸਪਸ਼ਟ ਕਰਨ ਲਈ ਕਿਹਾ, ਤਾਂ ਜੋ ਰੀਜ਼ਨਿੰਗ ਦੀ ਜਾਂਚ ਕਰਨਾ ਆਸਾਨ ਹੋ ਜਾਵੇ। ਅਸੀਂ ਤਸਦੀਕ, ਫਾਰਮੈਟਿੰਗ ਅਤੇ ਸ਼ੈਲੀ ਲਈ ਇਸ ਮਾਡਲ ਅਤੇ ChatGPT ਵਿਚਕਾਰ ਆਗੇ-ਪਿੱਛੇ ਗੱਲਬਾਤ ਵੀ ਸੁਗਮ ਬਣਾਈ। ਕੁਝ ਪ੍ਰਸ਼ਨਾਂ ਲਈ, ਅਸੀਂ ਮਨੁੱਖੀ ਨਿਰਣੇ ਨਾਲ ਚੁਣੇ ਕੁਝ ਯਤਨਾਂ ਵਿੱਚੋਂ ਸਭ ਤੋਂ ਵਧੀਆ ਪੇਸ਼ ਕਰਦੇ ਹਾਂ। ਇਹ ਇੱਕ ਤੇਜ਼ ਦੌੜ ਸੀ, ਅਤੇ ਸਾਡੀ ਪ੍ਰਕਿਰਿਆ ਉਤਨੀ ਸੁਚੱਜੀ ਨਹੀਂ ਸੀ ਜਿੰਨੀ ਅਸੀਂ ਢੰਗ ਨਾਲ ਨਿਯੰਤਰਿਤ ਮੁਲਾਂਕਣ ਵਿੱਚ ਚਾਹੁੰਦੇ ਹਾਂ। ਅਸੀਂ ਭਵਿੱਖ ਦੇ ਸੰਸਕਰਣਾਂ ਲਈ ਹੋਰ ਸਖ਼ਤ ਪ੍ਰਯੋਗ ਅਤੇ ਮੁਲਾਂਕਣ ਢਾਂਚੇ ਬਾਰੇ First Proof ਆਯੋਜਕਾਂ ਨਾਲ ਚਰਚਾਵਾਂ ਦੀ ਉਡੀਕ ਕਰ ਰਹੇ ਹਾਂ।

ਇਹ ਕੰਮ ਗਣਿਤ ਅਤੇ ਵਿਗਿਆਨ ਵਿੱਚ ਅਤਿ-ਆਧੁਨਿਕ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਦੇ ਪਹਿਲਾਂ ਦੇ ਨਤੀਜਿਆਂ ਉੱਤੇ ਅਧਾਰਿਤ ਹੈ। ਜੁਲਾਈ 2025 ਵਿੱਚ, ਅਸੀਂ ਇੱਕ ਆਮ-ਉਦੇਸ਼ੀ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਨਾਲ International Mathematical Olympiad ਵਿੱਚ ਸੋਨੇ ਦੇ ਤਮਗੇ-ਪੱਧਰ ਦਾ ਪ੍ਰਦਰਸ਼ਨ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਹਾਸਲ ਕੀਤਾ (35/42 ਅੰਕ)। ਨਵੰਬਰ 2025 ਵਿੱਚ, ਅਸੀਂ “GPT‑5 ਨਾਲ ਵਿਗਿਆਨ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਦੇ ਸ਼ੁਰੂਆਤੀ ਪ੍ਰਯੋਗ” ਸਾਂਝੇ ਕੀਤੇ, ਜੋ ਕੇਸ ਅਧਿਐਨਾਂ ਦਾ ਇੱਕ ਸੈੱਟ ਸੀ ਜਿੱਥੇ GPT‑5 ਨੇ ਖੋਜਕਰਤਿਆਂ ਨੂੰ ਗਣਿਤ, ਭੌਤਿਕੀ, ਜੀਵ ਵਿਗਿਆਨ ਅਤੇ ਹੋਰ ਖੇਤਰਾਂ ਵਿੱਚ ਠੋਸ ਤਰੱਕੀ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕੀਤੀ, ਨਾਲ ਹੀ ਉਹ ਸੀਮਾਵਾਂ ਜਿਹੜੀਆਂ ਅਸੀਂ ਵੇਖੀਆਂ। ਅਤੇ ਸਭ ਤੋਂ ਹਾਲ ਹੀ ਵਿੱਚ, ਅਸੀਂ ਇੱਕ ਭੌਤਿਕੀ ਸਹਿਯੋਗ ਦੀ ਰਿਪੋਰਟ ਕੀਤੀ ਜਿੱਥੇ GPT‑5.2 ਨੇ ਇੱਕ gluon-amplitude formula ਲਈ ਉਮੀਦਵਾਰ ਸਮੀਕਰਨ ਸੁਝਾਇਆ ਜਿਸਨੂੰ ਬਾਅਦ ਵਿੱਚ ਇੱਕ ਅੰਦਰੂਨੀ ਮਾਡਲ ਨੇ ਔਪਚਾਰਿਕ ਤੌਰ ਤੇ ਸਾਬਤ ਕੀਤਾ ਅਤੇ ਲੇਖਕਾਂ ਨੇ ਤਸਦੀਕ ਕੀਤਾ।

ਅਸੀਂ ਭਾਈਚਾਰੇ ਨਾਲ ਹੋਰ ਡੂੰਘੀ ਭਾਗੀਦਾਰੀ ਦੀ ਉਡੀਕ ਕਰਦੇ ਹਾਂ ਕਿ ਖੋਜ-ਪੱਧਰੀ ਰੀਜ਼ਨਿੰਗ ਦਾ ਮੁਲਾਂਕਣ ਕਿਵੇਂ ਕੀਤਾ ਜਾਵੇ, ਜਿਸ ਵਿੱਚ ਇਨ੍ਹਾਂ ਯਤਨਾਂ ਉੱਤੇ ਵਿਸ਼ੇਸ਼ਗਿਆ ਫੀਡਬੈਕ ਵੀ ਸ਼ਾਮਲ ਹੈ, ਅਤੇ ਅਸੀਂ ਉਤਸ਼ਾਹਿਤ ਹਾਂ ਕਿ ਇਹ ਨਵੀਆਂ ਸਮਰੱਥਾਵਾਂ ਭਵਿੱਖ ਦੇ ਜਨਤਕ ਮਾਡਲਾਂ ਵਿੱਚ ਉਪਲਬਧ ਕਰਵਾਈਆਂ ਜਾਣ।

2026

ਲੇਖਕ

OpenAI

ਪੜ੍ਹਦੇ ਰਹੋ

ਸਭ ਵੇਖੋ

ਦੋ ਸੈਟਿੰਗਾਂ ਨੂੰ ਸਮਰੱਥ ਕਰਨ ਨਾਲ ARC-AGI-3 ਬੈਂਚਮਾਰਕ ਸਕੋਰ ਤਿੰਨ ਗੁਣਾ ਕਿਵੇਂ ਹੋ ਗਏ

ਖੋਜ29 ਜੁਲਾ 2026

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

ਕੰਪਨੀ29 ਜੁਲਾ 2026

Scientific computing agentic AI card image (1x1)

ਏਜੰਟਿਕ AI ਦੇ ਯੁੱਗ ਵਿੱਚ ਵਿਗਿਆਨਕ ਕੰਪਿਊਟਿੰਗ

ਪ੍ਰਕਾਸ਼ਨ28 ਜੁਲਾ 2026