ਸਾਡੀਆਂ First Proof ਜਮ੍ਹਾਂਕਾਰੀਆਂ
ਅਸੀਂ First Proof ਲਈ ਆਪਣੇ ਪ੍ਰੂਫ਼ ਯਤਨ ਸਾਂਝੇ ਕਰ ਰਹੇ ਹਾਂ, ਜੋ ਇੱਕ ਗਣਿਤ ਚੁਣੌਤੀ ਹੈ ਜੋ ਜਾਂਚਦੀ ਹੈ ਕਿ AI ਡੋਮੇਨ-ਖਾਸ ਸਮੱਸਿਆਵਾਂ ਲਈ ਜਾਂਚਯੋਗ ਪ੍ਰੂਫ਼ ਦੇ ਸਕਦੀ ਹੈ ਜਾਂ ਨਹੀਂ.
ਅਸੀਂ ਸਾਰੇ 10 First Proof(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਪ੍ਰਸ਼ਨਾਂ ਉੱਤੇ ਇੱਕ ਅੰਦਰੂਨੀ ਮਾਡਲ ਚਲਾਇਆ, ਜੋ ਖੋਜ-ਪੱਧਰੀ ਗਣਿਤ ਚੁਣੌਤੀ ਹੈ ਅਤੇ ਇਹ ਜਾਂਚਣ ਲਈ ਬਣਾਈ ਗਈ ਹੈ ਕਿ ਕੀ AI ਸਿਸਟਮ ਸਹੀ, ਜਾਂਚਯੋਗ ਪ੍ਰੂਫ਼ ਯਤਨ ਪੈਦਾ ਕਰ ਸਕਦੇ ਹਨ। ਛੋਟੇ-ਉੱਤਰ ਜਾਂ ਮੁਕਾਬਲਾ-ਸ਼ੈਲੀ ਗਣਿਤ ਤੋਂ ਵੱਖਰਾ, ਇਨ੍ਹਾਂ ਪ੍ਰਸ਼ਨਾਂ ਲਈ ਵਿਸ਼ੇਸ਼ ਖੇਤਰਾਂ ਵਿੱਚ ਸ਼ੁਰੂ ਤੋਂ ਅੰਤ ਤੱਕ ਤਰਕ ਬਣਾਉਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਅਤੇ ਵਿਸ਼ੇਸ਼ਗਿਆ ਸਮੀਖਿਆ ਤੋਂ ਬਿਨਾਂ ਸਹੀਪਣ ਸਥਾਪਤ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੁੰਦਾ ਹੈ। First Proof ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਲੇਖਕ ਆਪਣੇ-ਆਪਣੇ ਖੇਤਰਾਂ ਦੇ ਅਗੇਤੀ ਵਿਸ਼ੇਸ਼ਗਿਆ ਹਨ, ਅਤੇ ਘੱਟੋ-ਘੱਟ ਕੁਝ ਪ੍ਰਸ਼ਨ ਲੇਖਕਾਂ ਨੂੰ ਹੱਲ ਮਿਲਣ ਤੋਂ ਪਹਿਲਾਂ ਸਾਲਾਂ ਤੱਕ ਖੁੱਲ੍ਹੇ ਰਹੇ। ਉਹ ਅਕਾਦਮਿਕ ਵਿਭਾਗ ਜਿਸਦਾ ਵਿਸ਼ਿਆਂ ਨਾਲ ਕਾਫ਼ੀ ਓਵਰਲੈਪ ਹੋਵੇ, ਸੰਭਵ ਤੌਰ ਤੇ ਇੱਕ ਹਫ਼ਤੇ ਵਿੱਚ ਕਈ ਪ੍ਰਸ਼ਨ ਹੱਲ ਕਰ ਸਕਦਾ ਹੈ।
ਅਸੀਂ ਸ਼ਨੀਵਾਰ, 14 ਫ਼ਰਵਰੀ 2026 ਨੂੰ 12:00 AM PT ਤੇ ਆਪਣੇ ਪ੍ਰੂਫ਼ ਯਤਨ ਸਾਂਝੇ ਕੀਤੇ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)। ਵਿਸ਼ੇਸ਼ਗਿਆ ਫੀਡਬੈਕ ਦੇ ਆਧਾਰ ਤੇ, ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਮਾਡਲ ਦੇ ਘੱਟੋ-ਘੱਟ ਪੰਜ ਪ੍ਰੂਫ਼ ਯਤਨਾਂ (ਪ੍ਰਸ਼ਨ 4, 5, 6, 9 ਅਤੇ 10) ਦੇ ਸਹੀ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਉੱਚੀ ਹੈ, ਅਤੇ ਹੋਰ ਕਈ ਅਜੇ ਸਮੀਖਿਆ ਹੇਠ ਹਨ। ਸ਼ੁਰੂ ਵਿੱਚ ਅਸੀਂ ਮੰਨਿਆ ਸੀ ਕਿ ਪ੍ਰਸ਼ਨ 2 ਲਈ ਸਾਡਾ ਯਤਨ ਸੰਭਵਤ: ਸਹੀ ਸੀ। ਅਧਿਕਾਰਕ First Proof ਟਿੱਪਣੀ ਅਤੇ ਭਾਈਚਾਰੇ ਦੇ ਹੋਰ ਵਿਸ਼ਲੇਸ਼ਣ ਦੇ ਆਧਾਰ ਤੇ, ਹੁਣ ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਇਹ ਗਲਤ ਹੈ। ਅਸੀਂ ਭਾਗੀਦਾਰੀ ਲਈ ਆਭਾਰੀ ਹਾਂ ਅਤੇ ਅੱਗੇ ਵੀ ਸਮੀਖਿਆ ਦੀ ਉਮੀਦ ਕਰਦੇ ਹਾਂ। ਸਾਡੇ ਪ੍ਰੂਫ਼ ਯਤਨਾਂ ਦਾ ਪੂਰਾ ਸੈੱਟ ਇੱਥੇ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਮਿਲ ਸਕਦਾ ਹੈ। ਪ੍ਰੀਪ੍ਰਿੰਟ ਵਿੱਚ ਸਾਰੇ ਦਸ ਪ੍ਰੂਫ਼ ਯਤਨ ਸ਼ਾਮਲ ਹਨ, ਨਾਲ ਹੀ ਨਵਾਂ ਜੋੜਿਆ ਐਪੈਂਡਿਕਸ ਵੀ ਹੈ ਜਿਸ ਵਿੱਚ ਪ੍ਰੌੰਪਟ ਪੈਟਰਨ ਅਤੇ ਉਦਾਹਰਨਾਂ ਹਨ ਜੋ ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ ਮਾਡਲਾਂ ਨਾਲ ਸਾਡੀਆਂ ਹੱਥੋਂ ਹੋਈਆਂ ਗੱਲਬਾਤਾਂ ਦੀ ਨਕਲ ਕਰਨ ਦਾ ਉਦੇਸ਼ ਰੱਖਦੀਆਂ ਹਨ।
ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਨਵੀਂ ਅਤਿ-ਆਧੁਨਿਕ ਖੋਜ ਸ਼ਾਇਦ ਅਗਲੀ ਪੀੜ੍ਹੀ ਦੇ AI ਮਾਡਲਾਂ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਦਾ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਣ ਤਰੀਕਾ ਹੈ। ਬੈਂਚਮਾਰਕ ਲਾਭਕਾਰੀ ਹਨ, ਪਰ ਉਹ ਖੋਜ ਦੇ ਕੁਝ ਸਭ ਤੋਂ ਔਖੇ ਹਿੱਸੇ ਛੱਡ ਸਕਦੇ ਹਨ: ਲੰਬੀਆਂ ਰੀਜ਼ਨਿੰਗ ਲੜੀਆਂ ਕਾਇਮ ਰੱਖਣਾ, ਸਹੀ ਅਮੂਰਤ ਚੋਣਨਾ, ਸਮੱਸਿਆ ਬਿਆਨਾਂ ਵਿੱਚ ਅਸਪਸ਼ਟਤਾ ਸੰਭਾਲਣਾ, ਅਤੇ ਅਜਿਹੇ ਤਰਕ ਪੈਦਾ ਕਰਨਾ ਜੋ ਵਿਸ਼ੇਸ਼ਗਿਆ ਜਾਂਚ ਵਿੱਚ ਟਿਕ ਸਕਣ। First Proof ਵਰਗੀਆਂ ਅਤਿ-ਆਧੁਨਿਕ ਚੁਣੌਤੀਆਂ ਸਾਨੂੰ ਉਹ ਸਮਰੱਥਾਵਾਂ ਅਜਿਹੀਆਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਸਟਰੈੱਸ-ਟੈਸਟ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੀਆਂ ਹਨ ਜਿੱਥੇ ਸਹੀਪਣ ਦੀ ਪੁਸ਼ਟੀ ਕਰਨਾ ਸੌਖਾ ਨਹੀਂ ਹੁੰਦਾ ਅਤੇ ਅਸਫਲਤਾ ਦੇ ਢੰਗ ਜਾਣਕਾਰੀਪੂਰਣ ਹੁੰਦੇ ਹਨ।
“ਅਸੀਂ ਇਸ ਵੇਲੇ ਇੱਕ ਨਵਾਂ ਮਾਡਲ ਟ੍ਰੇਨ ਕਰ ਰਹੇ ਹਾਂ ਜਿਸਦਾ ਇੱਕ ਮੁੱਖ ਕੇਂਦਰ ਇਸਦੀ ਸੋਚ ਵਿੱਚ ਸਖ਼ਤੀ ਦਾ ਪੱਧਰ ਵਧਾਉਣਾ ਹੈ, ਇਸ ਲਕਸ਼ ਨਾਲ ਕਿ ਮਾਡਲ ਕਈ ਘੰਟਿਆਂ ਤੱਕ ਲਗਾਤਾਰ ਸੋਚ ਸਕੇ ਅਤੇ ਆਪਣੇ ਨਤੀਜਿਆਂ ਵਿੱਚ ਬਹੁਤ ਉੱਚੇ ਵਿਸ਼ਵਾਸ ਨਾਲ ਕਾਇਮ ਰਹੇ। ਜਦੋਂ First Proof ਪ੍ਰਸ਼ਨਾਂ ਦੀ ਘੋਸ਼ਣਾ ਹੋਈ, ਇਹ ਬਿਲਕੁਲ ਉਚਿਤ ਟੈਸਟਬੈਡ ਜਿਹਾ ਲੱਗਿਆ, ਇਸ ਲਈ ਮੈਂ ਵੀਕਐਂਡ ਦੌਰਾਨ ਇਸਨੂੰ ਅਜ਼ਮਾਇਆ। ਪਹਿਲਾਂ ਹੀ ਇਹ ਦੋ ਪ੍ਰਸ਼ਨ (#9 ਅਤੇ #10) ਹੱਲ ਕਰਨ ਯੋਗ ਸੀ। ਜਿਵੇਂ-ਜਿਵੇਂ ਇਸਦੀ ਟ੍ਰੇਨਿੰਗ ਹੋਈ, ਇਹ ਵਧਦੀ ਸਮਰੱਥਾ ਵਾਲਾ ਹੁੰਦਾ ਗਿਆ ਅਤੇ ਆਖ਼ਿਰਕਾਰ, ਸਾਡੇ ਅੰਦਾਜ਼ੇ ਅਨੁਸਾਰ, ਘੱਟੋ-ਘੱਟ ਹੋਰ ਤਿੰਨ ਹੱਲ ਕਰ ਗਿਆ। ਸਾਨੂੰ ਖ਼ਾਸ ਖੁਸ਼ੀ ਹੋਈ ਜਦੋਂ ਇਸਨੇ #6 ਹੱਲ ਕੀਤਾ ਅਤੇ ਫਿਰ ਦੋ ਦਿਨ ਬਾਅਦ #4 ਵੀ, ਕਿਉਂਕਿ ਉਹ ਪ੍ਰਸ਼ਨ ਅਜਿਹੇ ਖੇਤਰਾਂ ਤੋਂ ਸਨ ਜੋ ਸਾਡੇ ਕਈ ਲੋਕਾਂ ਲਈ ਜਾਣ-ਪਛਾਣ ਵਾਲੇ ਹਨ। ਹਰ ਦਿਨ ਮਾਡਲ ਨੂੰ ਛੁਹਣਯੋਗ ਢੰਗ ਨਾਲ ਹੋਰ ਸਮਝਦਾਰ ਬਣਦਾ ਦੇਖਣਾ ਕਾਫ਼ੀ ਅਦਭੁਤ ਹੈ।”
– James R. Lee (OpenAI ਖੋਜਕਰਤਾ, ਰੀਜ਼ਨਿੰਗ)
ਅਸੀਂ ਮਾਡਲ ਨੂੰ ਸੀਮਿਤ ਮਨੁੱਖੀ ਨਿਗਰਾਨੀ ਨਾਲ ਚਲਾਇਆ। ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਮਾਡਲ ਦੇ ਵਰਜਨਾਂ ਨੂੰ ਪ੍ਰੌੰਪਟ ਕਰਦੇ ਸਮੇਂ, ਅਸੀਂ ਕਈ ਵਾਰ ਉਹ ਰਣਨੀਤੀਆਂ ਮੁੜ ਅਜ਼ਮਾਉਣ ਦੀ ਸਲਾਹ ਦਿੱਤੀ ਜੋ ਪਹਿਲਾਂ ਦੇ ਯਤਨਾਂ ਵਿੱਚ ਫਲਦਾਇਕ ਲੱਗੀਆਂ ਸਨ। ਕੁਝ ਯਤਨਾਂ ਲਈ, ਵਿਸ਼ੇਸ਼ਗਿਆ ਫੀਡਬੈਕ ਮਿਲਣ ਤੋਂ ਬਾਅਦ ਅਸੀਂ ਮਾਡਲ ਨੂੰ ਪ੍ਰੂਫ਼ ਦੇ ਹਿੱਸੇ ਫੈਲਾਉਣ ਜਾਂ ਸਪਸ਼ਟ ਕਰਨ ਲਈ ਕਿਹਾ, ਤਾਂ ਜੋ ਰੀਜ਼ਨਿੰਗ ਦੀ ਜਾਂਚ ਕਰਨਾ ਆਸਾਨ ਹੋ ਜਾਵੇ। ਅਸੀਂ ਤਸਦੀਕ, ਫਾਰਮੈਟਿੰਗ ਅਤੇ ਸ਼ੈਲੀ ਲਈ ਇਸ ਮਾਡਲ ਅਤੇ ChatGPT ਵਿਚਕਾਰ ਆਗੇ-ਪਿੱਛੇ ਗੱਲਬਾਤ ਵੀ ਸੁਗਮ ਬਣਾਈ। ਕੁਝ ਪ੍ਰਸ਼ਨਾਂ ਲਈ, ਅਸੀਂ ਮਨੁੱਖੀ ਨਿਰਣੇ ਨਾਲ ਚੁਣੇ ਕੁਝ ਯਤਨਾਂ ਵਿੱਚੋਂ ਸਭ ਤੋਂ ਵਧੀਆ ਪੇਸ਼ ਕਰਦੇ ਹਾਂ। ਇਹ ਇੱਕ ਤੇਜ਼ ਦੌੜ ਸੀ, ਅਤੇ ਸਾਡੀ ਪ੍ਰਕਿਰਿਆ ਉਤਨੀ ਸੁਚੱਜੀ ਨਹੀਂ ਸੀ ਜਿੰਨੀ ਅਸੀਂ ਢੰਗ ਨਾਲ ਨਿਯੰਤਰਿਤ ਮੁਲਾਂਕਣ ਵਿੱਚ ਚਾਹੁੰਦੇ ਹਾਂ। ਅਸੀਂ ਭਵਿੱਖ ਦੇ ਸੰਸਕਰਣਾਂ ਲਈ ਹੋਰ ਸਖ਼ਤ ਪ੍ਰਯੋਗ ਅਤੇ ਮੁਲਾਂਕਣ ਢਾਂਚੇ ਬਾਰੇ First Proof ਆਯੋਜਕਾਂ ਨਾਲ ਚਰਚਾਵਾਂ ਦੀ ਉਡੀਕ ਕਰ ਰਹੇ ਹਾਂ।
ਇਹ ਕੰਮ ਗਣਿਤ ਅਤੇ ਵਿਗਿਆਨ ਵਿੱਚ ਅਤਿ-ਆਧੁਨਿਕ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਦੇ ਪਹਿਲਾਂ ਦੇ ਨਤੀਜਿਆਂ ਉੱਤੇ ਅਧਾਰਿਤ ਹੈ। ਜੁਲਾਈ 2025 ਵਿੱਚ, ਅਸੀਂ ਇੱਕ ਆਮ-ਉਦੇਸ਼ੀ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਨਾਲ International Mathematical Olympiad ਵਿੱਚ ਸੋਨੇ ਦੇ ਤਮਗੇ-ਪੱਧਰ ਦਾ ਪ੍ਰਦਰਸ਼ਨ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਹਾਸਲ ਕੀਤਾ (35/42 ਅੰਕ)। ਨਵੰਬਰ 2025 ਵਿੱਚ, ਅਸੀਂ “GPT‑5 ਨਾਲ ਵਿਗਿਆਨ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਦੇ ਸ਼ੁਰੂਆਤੀ ਪ੍ਰਯੋਗ” ਸਾਂਝੇ ਕੀਤੇ, ਜੋ ਕੇਸ ਅਧਿਐਨਾਂ ਦਾ ਇੱਕ ਸੈੱਟ ਸੀ ਜਿੱਥੇ GPT‑5 ਨੇ ਖੋਜਕਰਤਿਆਂ ਨੂੰ ਗਣਿਤ, ਭੌਤਿਕੀ, ਜੀਵ ਵਿਗਿਆਨ ਅਤੇ ਹੋਰ ਖੇਤਰਾਂ ਵਿੱਚ ਠੋਸ ਤਰੱਕੀ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕੀਤੀ, ਨਾਲ ਹੀ ਉਹ ਸੀਮਾਵਾਂ ਜਿਹੜੀਆਂ ਅਸੀਂ ਵੇਖੀਆਂ। ਅਤੇ ਸਭ ਤੋਂ ਹਾਲ ਹੀ ਵਿੱਚ, ਅਸੀਂ ਇੱਕ ਭੌਤਿਕੀ ਸਹਿਯੋਗ ਦੀ ਰਿਪੋਰਟ ਕੀਤੀ ਜਿੱਥੇ GPT‑5.2 ਨੇ ਇੱਕ gluon-amplitude formula ਲਈ ਉਮੀਦਵਾਰ ਸਮੀਕਰਨ ਸੁਝਾਇਆ ਜਿਸਨੂੰ ਬਾਅਦ ਵਿੱਚ ਇੱਕ ਅੰਦਰੂਨੀ ਮਾਡਲ ਨੇ ਔਪਚਾਰਿਕ ਤੌਰ ਤੇ ਸਾਬਤ ਕੀਤਾ ਅਤੇ ਲੇਖਕਾਂ ਨੇ ਤਸਦੀਕ ਕੀਤਾ।
ਅਸੀਂ ਭਾਈਚਾਰੇ ਨਾਲ ਹੋਰ ਡੂੰਘੀ ਭਾਗੀਦਾਰੀ ਦੀ ਉਡੀਕ ਕਰਦੇ ਹਾਂ ਕਿ ਖੋਜ-ਪੱਧਰੀ ਰੀਜ਼ਨਿੰਗ ਦਾ ਮੁਲਾਂਕਣ ਕਿਵੇਂ ਕੀਤਾ ਜਾਵੇ, ਜਿਸ ਵਿੱਚ ਇਨ੍ਹਾਂ ਯਤਨਾਂ ਉੱਤੇ ਵਿਸ਼ੇਸ਼ਗਿਆ ਫੀਡਬੈਕ ਵੀ ਸ਼ਾਮਲ ਹੈ, ਅਤੇ ਅਸੀਂ ਉਤਸ਼ਾਹਿਤ ਹਾਂ ਕਿ ਇਹ ਨਵੀਆਂ ਸਮਰੱਥਾਵਾਂ ਭਵਿੱਖ ਦੇ ਜਨਤਕ ਮਾਡਲਾਂ ਵਿੱਚ ਉਪਲਬਧ ਕਰਵਾਈਆਂ ਜਾਣ।


