24 ਅਪ੍ਰੈਲ, 2026 ਨੂੰ ਅਪਡੇਟ: GPT‑5.5 ਅਤੇ GPT‑5.5 Pro ਹੁਣ API ਵਿੱਚ ਉਪਲਬਧ ਹਨ। ਸਿਸਟਮ ਕਾਰਡ ਨੂੰ ਵੀ ਲਾਗੂ ਹੋਣ ਵਾਲੀਆਂ ਵਾਧੂ ਸੁਰੱਖਿਆਵਾਂ ਦਾ ਵੇਰਵਾ ਦੇਣ ਲਈ ਅਪਡੇਟ ਕੀਤਾ ਗਿਆ ਹੈ।
ਅਸੀਂ GPT‑5.5 ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ, ਜੋ ਅਜੇ ਤੱਕ ਦਾ ਸਾਡਾ ਸਭ ਤੋਂ ਸਮਾਰਟ ਅਤੇ ਵਰਤਣ ਵਿੱਚ ਸਭ ਤੋਂ ਸਹਿਜ ਮਾਡਲ ਹੈ, ਅਤੇ ਕੰਪਿਊਟਰ 'ਤੇ ਕੰਮ ਕਰਵਾਉਣ ਦੇ ਇਕ ਨਵੇਂ ਤਰੀਕੇ ਵੱਲ ਅਗਲਾ ਕਦਮ ਹੈ।
GPT‑5.5 ਇਹ ਤੇਜ਼ੀ ਨਾਲ ਸਮਝ ਲੈਂਦਾ ਹੈ ਕਿ ਤੁਸੀਂ ਕੀ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੇ ਹੋ ਅਤੇ ਕੰਮ ਦਾ ਹੋਰ ਵੱਡਾ ਹਿੱਸਾ ਖੁਦ ਸੰਭਾਲ ਸਕਦਾ ਹੈ। ਇਹ ਕੋਡ ਲਿਖਣ ਅਤੇ ਡੀਬੱਗ ਕਰਨ, ਆਨਲਾਈਨ ਖੋਜ ਕਰਨ, ਡਾਟਾ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ, ਦਸਤਾਵੇਜ਼ ਅਤੇ ਸਪ੍ਰੈਡਸ਼ੀਟ ਬਣਾਉਣ, ਸੌਫਟਵੇਅਰ ਚਲਾਉਣ, ਅਤੇ ਟੂਲਾਂ ਵਿਚਕਾਰ ਜਾ ਕੇ ਕੰਮ ਪੂਰਾ ਹੋਣ ਤੱਕ ਅੱਗੇ ਵਧਣ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਹੈ। ਹਰ ਕਦਮ ਨੂੰ ਧਿਆਨ ਨਾਲ ਸੰਭਾਲਣ ਦੀ ਬਜਾਏ, ਤੁਸੀਂ GPT‑5.5 ਨੂੰ ਇਕ ਉਲਝਿਆ ਹੋਇਆ, ਕਈ ਹਿੱਸਿਆਂ ਵਾਲਾ ਕੰਮ ਦੇ ਸਕਦੇ ਹੋ ਅਤੇ ਇਸ 'ਤੇ ਭਰੋਸਾ ਕਰ ਸਕਦੇ ਹੋ ਕਿ ਇਹ ਯੋਜਨਾ ਬਣਾਏਗਾ, ਟੂਲ ਵਰਤੇਗਾ, ਆਪਣੇ ਕੰਮ ਦੀ ਜਾਂਚ ਕਰੇਗਾ, ਅਸਪਸ਼ਟਤਾ ਵਿੱਚੋਂ ਰਸਤਾ ਕੱਢੇਗਾ, ਅਤੇ ਲਗਾਤਾਰ ਅੱਗੇ ਵਧੇਗਾ।
ਤਰੱਕੀ ਖਾਸ ਤੌਰ 'ਤੇ ਏਜੰਟਿਕ ਕੋਡਿੰਗ, ਕੰਪਿਊਟਰ ਵਰਤੋਂ, ਗਿਆਨ-ਆਧਾਰਿਤ ਕੰਮ, ਅਤੇ ਸ਼ੁਰੂਆਤੀ ਵਿਗਿਆਨਕ ਖੋਜ ਵਿੱਚ ਮਜ਼ਬੂਤ ਹੈ—ਉਹ ਖੇਤਰ ਜਿੱਥੇ ਤਰੱਕੀ ਸੰਦਰਭ ਦੇ ਪਾਰ ਰੀਜ਼ਨਿੰਗ ਕਰਨ ਅਤੇ ਸਮੇਂ ਦੇ ਨਾਲ ਕਾਰਵਾਈ ਕਰਨ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ। GPT‑5.5 ਬੁੱਧੀਮਾਨੀ ਵਿੱਚ ਇਹ ਵਾਧਾ ਗਤੀ ਨਾਲ ਕੋਈ ਸਮਝੌਤਾ ਕੀਤੇ ਬਿਨਾਂ ਦਿੰਦਾ ਹੈ: ਵੱਡੇ, ਹੋਰ ਸਮਰੱਥ ਮਾਡਲ ਅਕਸਰ ਸੇਵਾ ਦੇਣ ਵਿੱਚ ਹੌਲੇ ਹੁੰਦੇ ਹਨ, ਪਰ GPT‑5.5 ਅਸਲ-ਦੁਨੀਆ ਦੀ ਸਰਵਿੰਗ ਵਿੱਚ GPT‑5.4 ਦੇ ਪ੍ਰਤੀ-ਟੋਕਨ ਲੇਟੈਂਸੀ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ, ਜਦਕਿ ਬੁੱਧੀਮਾਨੀ ਦੇ ਕਾਫ਼ੀ ਉੱਚ ਪੱਧਰ 'ਤੇ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਉਹੀ Codex ਕੰਮ ਪੂਰੇ ਕਰਨ ਲਈ ਕਾਫ਼ੀ ਘੱਟ ਟੋਕਨ ਵੀ ਵਰਤਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ ਹੋਰ ਸਮਰੱਥ ਹੋਣ ਦੇ ਨਾਲ ਹੋਰ ਕੁਸ਼ਲ ਵੀ ਬਣਦਾ ਹੈ।
ਅਸੀਂ GPT‑5.5 ਨੂੰ ਅਜੇ ਤੱਕ ਦੀਆਂ ਆਪਣੀਆਂ ਸਭ ਤੋਂ ਮਜ਼ਬੂਤ ਸੁਰੱਖਿਆਵਾਂ ਦੇ ਸੈੱਟ ਨਾਲ ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ, ਜਿਨ੍ਹਾਂ ਦਾ ਉਦੇਸ਼ ਲਾਭਕਾਰੀ ਕੰਮ ਲਈ ਪਹੁੰਚ ਬਰਕਰਾਰ ਰੱਖਦਿਆਂ ਦੁਰਵਰਤੋਂ ਨੂੰ ਘਟਾਉਣਾ ਹੈ। ਅਸੀਂ ਇਸ ਮਾਡਲ ਦਾ ਆਪਣੇ ਸੁਰੱਖਿਆ ਅਤੇ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕਸ ਦੇ ਪੂਰੇ ਸੈੱਟ ਵਿੱਚ ਮੁਲਾਂਕਣ ਕੀਤਾ, ਅੰਦਰੂਨੀ ਅਤੇ ਬਾਹਰੀ ਰੈੱਡਟੀਮਰਾਂ ਨਾਲ ਕੰਮ ਕੀਤਾ, ਅਗੇਤਰੀ ਸਾਈਬਰਸੁਰੱਖਿਆ ਅਤੇ ਜੀਵ ਵਿਗਿਆਨ ਸਮਰੱਥਾਵਾਂ ਲਈ ਨਿਸ਼ਾਨਾਬੱਧ ਟੈਸਟਿੰਗ ਜੋੜੀ, ਅਤੇ ਜਾਰੀ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਲਗਭਗ 200 ਭਰੋਸੇਯੋਗ ਸ਼ੁਰੂਆਤੀ-ਪਹੁੰਚ ਭਾਗੀਦਾਰਾਂ ਤੋਂ ਅਸਲ ਵਰਤੋਂ ਕੇਸਾਂ ਬਾਰੇ ਫੀਡਬੈਕ ਇਕੱਠੀ ਕੀਤੀ।
ਅੱਜ, GPT‑5.5 ChatGPT ਅਤੇ Codex ਵਿੱਚ Plus, Pro, Business, ਅਤੇ Enterprise ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਰੋਲ ਆਉਟ ਹੋ ਰਿਹਾ ਹੈ, ਅਤੇ GPT‑5.5 Pro ChatGPT ਵਿੱਚ Pro, Business, ਅਤੇ Enterprise ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਰੋਲ ਆਉਟ ਹੋ ਰਿਹਾ ਹੈ। API ਡਿਪਲੋਇਮੈਂਟਾਂ ਲਈ ਵੱਖਰੀਆਂ ਸੁਰੱਖਿਆਵਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਅਤੇ ਅਸੀਂ ਇਸ ਨੂੰ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਸੇਵਾ ਦੇਣ ਲਈ ਭਾਗੀਦਾਰਾਂ ਅਤੇ ਗਾਹਕਾਂ ਨਾਲ ਸੁਰੱਖਿਆ ਅਤੇ ਸਿਕਿਊਰਟੀ ਦੀਆਂ ਲੋੜਾਂ 'ਤੇ ਨੇੜੇ ਤੋਂ ਕੰਮ ਕਰ ਰਹੇ ਹਾਂ। ਅਸੀਂ GPT‑5.5 ਅਤੇ GPT‑5.5 Pro ਨੂੰ ਬਹੁਤ ਜਲਦੀ API ਵਿੱਚ ਲਿਆਵਾਂਗੇ।
GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro | |
Terminal-Bench 2.0 | 82.7% | 75.1% | - | - | 69.4% | 68.5% |
Expert-SWE (Internal) | 73.1% | 68.5% | - | - | - | - |
GDPval (wins or ties) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
OSWorld-Verified | 78.7% | 75.0% | - | - | 78.0% | - |
Toolathlon | 55.6% | 54.6% | - | - | - | 48.8% |
BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
FrontierMath Tier 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
CyberGym | 81.8% | 79.0% | - | - | 73.1% | - |
OpenAI ਏਜੰਟਿਕ AI ਲਈ ਵਿਸ਼ਵ ਪੱਧਰੀ ਇੰਫ੍ਰਾਸਟ੍ਰਕਚਰ ਤਿਆਰ ਕਰ ਰਹੀ ਹੈ, ਜਿਸ ਨਾਲ ਦੁਨੀਆ ਭਰ ਦੇ ਲੋਕਾਂ ਅਤੇ ਕਾਰੋਬਾਰਾਂ ਲਈ AI ਨਾਲ ਕੰਮ ਕਰਵਾਉਣਾ ਸੰਭਵ ਬਣਦਾ ਹੈ। ਪਿਛਲੇ ਇੱਕ ਸਾਲ ਦੌਰਾਨ, ਅਸੀਂ ਵੇਖਿਆ ਹੈ ਕਿ AI ਨੇ ਸੌਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਨੂੰ ਨਾਟਕੀ ਢੰਗ ਨਾਲ ਤੇਜ਼ ਕੀਤਾ ਹੈ। Codex ਅਤੇ ChatGPT ਵਿੱਚ GPT‑5.5 ਨਾਲ, ਉਹੀ ਬਦਲਾਅ ਹੁਣ ਵਿਗਿਆਨਕ ਖੋਜ ਅਤੇ ਕੰਪਿਊਟਰਾਂ 'ਤੇ ਲੋਕਾਂ ਦੁਆਰਾ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਵਿਆਪਕ ਕੰਮ ਤੱਕ ਫੈਲਣਾ ਸ਼ੁਰੂ ਹੋ ਰਿਹਾ ਹੈ।
ਇਨ੍ਹਾਂ ਸਭ ਖੇਤਰਾਂ ਵਿੱਚ, GPT‑5.5 ਸਿਰਫ ਹੋਰ ਬੁੱਧੀਮਾਨ ਨਹੀਂ ਹੈ; ਇਹ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦੇ ਆਪਣੇ ਢੰਗ ਵਿੱਚ ਹੋਰ ਕੁਸ਼ਲ ਵੀ ਹੈ, ਅਤੇ ਅਕਸਰ ਘੱਟ ਟੋਕਨਾਂ ਅਤੇ ਘੱਟ ਰੀਟ੍ਰਾਈਜ਼ ਨਾਲ ਹੋਰ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਨਤੀਜੇ ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ। Artificial Analysis ਦੇ Coding Index 'ਤੇ, GPT‑5.5 ਮੁਕਾਬਲਾਤੀ ਅਤਿ-ਆਧੁਨਿਕ ਕੋਡਿੰਗ ਮਾਡਲਾਂ ਦੀ ਅੱਧੀ ਲਾਗਤ 'ਤੇ state-of-the-art ਬੁੱਧੀਮਾਨੀ ਦਿੰਦਾ ਹੈ।
Artificial Analysis Intelligence Index(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਇੱਕ ਬਾਹਰੀ ਪੱਖ ਵੱਲੋਂ ਚਲਾਏ ਗਏ 10 evals ਦਾ weighted average ਹੈ: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.
GPT‑5.5 ਅਜੇ ਤੱਕ ਦਾ ਸਾਡਾ ਸਭ ਤੋਂ ਮਜ਼ਬੂਤ ਏਜੰਟਿਕ ਕੋਡਿੰਗ ਮਾਡਲ ਹੈ। Terminal-Bench 2.0 'ਤੇ, ਜੋ ਯੋਜਨਾ, ਦੁਹਰਾਵਟ, ਅਤੇ ਟੂਲ ਸਮਨਵਯ ਦੀ ਲੋੜ ਵਾਲੇ ਜਟਿਲ command-line workflows ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ, ਇਹ 82.7% ਦੀ state-of-the-art ਸ਼ੁੱਧਤਾ ਹਾਸਲ ਕਰਦਾ ਹੈ। SWE-Bench Pro 'ਤੇ, ਜੋ ਅਸਲ-ਦੁਨੀਆ ਦੇ GitHub issue resolution ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ, ਇਹ 58.6% ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ, ਅਤੇ ਪਿਛਲੇ ਮਾਡਲਾਂ ਨਾਲੋਂ ਇਕੋ ਪਾਸ ਵਿੱਚ ਹੋਰ ਵੱਧ ਕੰਮ end-to-end ਹੱਲ ਕਰਦਾ ਹੈ। Expert-SWE 'ਤੇ, ਜੋ ਲੰਬੇ ਸਮੇਂ ਵਾਲੇ ਕੋਡਿੰਗ ਕੰਮਾਂ ਲਈ ਸਾਡਾ ਅੰਦਰੂਨੀ ਅਤਿ-ਆਧੁਨਿਕ eval ਹੈ ਅਤੇ ਜਿਸ ਵਿੱਚ ਮਨੁੱਖੀ ਪੂਰਨਤਾ ਸਮਾਂ ਦਾ median ਅਨੁਮਾਨ 20 ਘੰਟੇ ਹੈ, GPT‑5.5 GPT‑5.4 ਤੋਂ ਵੀ ਬਿਹਤਰ ਹੈ।
ਤਿੰਨਾਂ evals ਵਿੱਚ, GPT‑5.5 ਘੱਟ ਟੋਕਨ ਵਰਤਦਿਆਂ GPT‑5.4 ਦੇ ਸਕੋਰਾਂ ਤੋਂ ਬਿਹਤਰ ਨਤੀਜੇ ਦਿੰਦਾ ਹੈ।
ਮਾਡਲ ਦੀਆਂ ਕੋਡਿੰਗ ਤਾਕਤਾਂ Codex ਵਿੱਚ ਖਾਸ ਤੌਰ 'ਤੇ ਸਾਫ਼ ਦਿਖਾਈ ਦਿੰਦੀਆਂ ਹਨ, ਜਿੱਥੇ ਇਹ implementation ਅਤੇ refactors ਤੋਂ ਲੈ ਕੇ debugging, testing, ਅਤੇ validation ਤੱਕ ਦੇ ਇੰਜੀਨੀਅਰਿੰਗ ਕੰਮ ਸੰਭਾਲ ਸਕਦਾ ਹੈ। ਸ਼ੁਰੂਆਤੀ ਟੈਸਟਿੰਗ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ GPT‑5.5 ਉਨ੍ਹਾਂ ਵਰਤਾਰਿਆਂ ਵਿੱਚ ਹੋਰ ਵਧੀਆ ਹੈ ਜਿਨ੍ਹਾਂ 'ਤੇ ਅਸਲੀ ਇੰਜੀਨੀਅਰਿੰਗ ਕੰਮ ਨਿਰਭਰ ਕਰਦਾ ਹੈ, ਜਿਵੇਂ ਵੱਡੇ ਸਿਸਟਮਾਂ ਵਿੱਚ ਸੰਦਰਭ ਕਾਇਮ ਰੱਖਣਾ, ਅਸਪਸ਼ਟ ਫੇਲ੍ਹਰਾਂ ਰਾਹੀਂ ਰੀਜ਼ਨਿੰਗ ਕਰਨਾ, ਟੂਲਾਂ ਨਾਲ ਧਾਰਣਾਵਾਂ ਦੀ ਜਾਂਚ ਕਰਨਾ, ਅਤੇ ਆਲੇ-ਦੁਆਲੇ ਦੇ ਕੋਡਬੇਸ ਵਿੱਚ ਬਦਲਾਅ ਨੂੰ ਅੱਗੇ ਲਿਜਾਣਾ।
ਰੈਂਡਰ ਕੀਤੀ ਗਈ ਟ੍ਰੈਜੈਕਟਰੀ Orion, Moon ਅਤੇ Sun ਲਈ NASA/JPL Horizons ਵੇਕਟਰ ਡਾਟਾ ਵਰਤਦੀ ਹੈ, ਅਤੇ ਪੜ੍ਹਨਯੋਗਤਾ ਲਈ ਡਿਸਪਲੇ ਸਕੇਲਿੰਗ ਲਾਗੂ ਕੀਤੀ ਗਈ ਹੈ.
ਪ੍ਰੌੰਪਟ: [attached image] ਇਸਨੂੰ webgl ਅਤੇ vite ਦੀ ਵਰਤੋਂ ਨਾਲ ਇੱਕ ਨਵੇਂ ਐਪ ਵਜੋਂ ਲਾਗੂ ਕਰੋ, ਜਿਸ ਵਿੱਚ artemis II mission ਦਾ ਅਸਲੀ ਡਾਟਾ ਵਰਤਿਆ ਗਿਆ ਹੋਵੇ. ਯਕੀਨੀ ਬਣਾਓ ਕਿ ਐਪ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਟੈਸਟ ਕੀਤਾ ਜਾਵੇ ਜਦ ਤੱਕ ਇਹ ਪੂਰੀ ਤਰ੍ਹਾਂ ਕਾਰਗਰ ਨਾ ਹੋ ਜਾਵੇ ਅਤੇ ਤਸਵੀਰ ਵਾਲੇ ਐਪ ਵਰਗਾ ਨਾ ਲੱਗੇ. ਗ੍ਰਹਿਆਂ ਅਤੇ ਉਡਾਨ ਪਾਥਾਂ ਦੀ ਰੈਂਡਰਿੰਗ ਉੱਤੇ ਖ਼ਾਸ ਧਿਆਨ ਦਿਓ. ਮੈਂ 3D ਰੈਂਡਰਿੰਗ ਨਾਲ ਇੰਟਰੈਕਟ ਕਰਨ ਦੇ ਯੋਗ ਹੋਣਾ ਚਾਹੁੰਦਾ ਹਾਂ. ਯਕੀਨੀ ਬਣਾਓ ਕਿ ਇਸ ਵਿੱਚ ਹਕੀਕਤਨੁਮਾ orbital mechanics ਹੋਣ.
ਬੈਂਚਮਾਰਕਾਂ ਤੋਂ ਪਰੇ, ਸ਼ੁਰੂਆਤੀ ਟੈਸਟਰਾਂ ਨੇ ਕਿਹਾ ਕਿ GPT‑5.5 ਸਿਸਟਮ ਦੀ ਬਣਤਰ ਨੂੰ ਸਮਝਣ ਦੀ ਹੋਰ ਮਜ਼ਬੂਤ ਸਮਰੱਥਾ ਦਿਖਾਉਂਦਾ ਹੈ: ਕੁਝ ਕਿਉਂ ਫੇਲ੍ਹ ਹੋ ਰਿਹਾ ਹੈ, ਫਿਕਸ ਕਿੱਥੇ ਲਾਗੂ ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ, ਅਤੇ ਕੋਡਬੇਸ ਵਿੱਚ ਹੋਰ ਕੀ ਪ੍ਰਭਾਵਿਤ ਹੋਵੇਗਾ।

“ਮੇਰੇ ਵੱਲੋਂ ਵਰਤਿਆ ਪਹਿਲਾ coding model ਜਿਸ ਵਿੱਚ ਗੰਭੀਰ ਧਾਰਣਾਤਮਕ ਸਪਸ਼ਟਤਾ ਹੈ.”
Dan Shipper, Every ਦੇ Founder ਅਤੇ CEO, ਨੇ GPT‑5.5 ਨੂੰ “ਮੇਰੇ ਵੱਲੋਂ ਵਰਤਿਆ ਪਹਿਲਾ coding model ਜਿਸ ਵਿੱਚ ਗੰਭੀਰ ਧਾਰਣਾਤਮਕ ਸਪਸ਼ਟਤਾ ਹੈ” ਵਜੋਂ ਵਰਣਨ ਕੀਤਾ.
ਇੱਕ ਐਪ ਲਾਂਚ ਕਰਨ ਤੋਂ ਬਾਅਦ, ਉਸਨੇ post-launch issue ਨੂੰ ਡੀਬੱਗ ਕਰਨ ਵਿੱਚ ਕਈ ਦਿਨ ਲਗਾ ਦਿੱਤੇ, ਫਿਰ ਆਪਣੇ ਸਭ ਤੋਂ ਵਧੀਆ ਇੰਜੀਨੀਅਰਾਂ ਵਿੱਚੋਂ ਇੱਕ ਨੂੰ ਸਿਸਟਮ ਦਾ ਇੱਕ ਹਿੱਸਾ ਮੁੜ ਲਿਖਣ ਲਈ ਲਿਆਂਦਾ। GPT‑5.5 ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ, ਉਸਨੇ ਅਸਲ ਵਿੱਚ ਸਮਾਂ ਪਿੱਛੇ ਘੁਮਾ ਦਿੱਤਾ: ਕੀ ਮਾਡਲ broken state ਨੂੰ ਦੇਖ ਕੇ ਉਹੀ ਕਿਸਮ ਦੀ rewrite ਕਰ ਸਕਦਾ ਸੀ ਜਿਸ 'ਤੇ ਇੰਜੀਨੀਅਰ ਆਖ਼ਰਕਾਰ ਪਹੁੰਚਿਆ ਸੀ? GPT‑5.4 ਨਹੀਂ ਕਰ ਸਕਿਆ। GPT‑5.5 ਕਰ ਸਕਿਆ।

“ਇਹ ਸੱਚਮੁੱਚ ਐਸਾ ਲੱਗਦਾ ਹੈ ਜਿਵੇਂ ਮੈਂ ਇੱਕ ਉੱਚੀ ਬੁੱਧੀ ਨਾਲ ਕੰਮ ਕਰ ਰਿਹਾ ਹਾਂ, ਅਤੇ ਲਗਭਗ ਸਤਿਕਾਰ ਜਿਹਾ ਅਹਿਸਾਸ ਹੁੰਦਾ ਹੈ.”
Pietro Schirano, MagicPath ਦੇ CEO, ਨੇ ਵੀ ਇਸੇ ਤਰ੍ਹਾਂ ਦਾ ਇੱਕ ਵੱਡਾ ਬਦਲਾਅ ਦੇਖਿਆ ਜਦੋਂ GPT‑5.5 ਨੇ frontend ਅਤੇ refactor ਵਿੱਚ ਸੈਂਕੜਿਆਂ ਤਬਦੀਲੀਆਂ ਵਾਲੀ ਇੱਕ branch ਨੂੰ ਇੱਕ main branch ਵਿੱਚ merge ਕੀਤਾ ਜੋ ਖੁਦ ਵੀ ਕਾਫ਼ੀ ਬਦਲ ਚੁੱਕੀ ਸੀ, ਅਤੇ ਲਗਭਗ 20 ਮਿੰਟ ਵਿੱਚ ਇੱਕੋ ਵਾਰ ਵਿੱਚ ਕੰਮ ਸੁਲਝਾ ਦਿੱਤਾ.
ਮਾਡਲ ਦੀ ਜਾਂਚ ਕਰਨ ਵਾਲੇ ਸੀਨੀਅਰ ਇੰਜੀਨੀਅਰਾਂ ਨੇ ਕਿਹਾ ਕਿ GPT‑5.5 ਰੀਜ਼ਨਿੰਗ ਅਤੇ autonomy ਵਿੱਚ GPT‑5.4 ਅਤੇ Claude Opus 4.7 ਨਾਲੋਂ ਕਾਫ਼ੀ ਮਜ਼ਬੂਤ ਸੀ, ਅਤੇ ਬਿਨਾਂ ਸਪਸ਼ਟ ਪ੍ਰੌੰਪਟਿੰਗ ਦੇ ਪਹਿਲਾਂ ਹੀ ਮੁੱਦੇ ਪਕੜ ਲੈਂਦਾ ਸੀ ਅਤੇ ਟੈਸਟਿੰਗ ਅਤੇ review ਦੀਆਂ ਲੋੜਾਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰ ਲੈਂਦਾ ਸੀ। ਇੱਕ ਮਾਮਲੇ ਵਿੱਚ, ਇਕ ਇੰਜੀਨੀਅਰ ਨੇ ਇਸ ਨੂੰ collaborative markdown editor ਵਿੱਚ comment system ਦੀ ਮੁੜ-ਵਾਸਤੂਕਲਾ ਕਰਨ ਲਈ ਕਿਹਾ ਅਤੇ ਵਾਪਸ ਆ ਕੇ 12-diff stack ਦੇਖਿਆ ਜੋ ਲਗਭਗ ਪੂਰਾ ਸੀ। ਹੋਰਾਂ ਨੇ ਕਿਹਾ ਕਿ ਉਨ੍ਹਾਂ ਨੂੰ ਹੈਰਾਨੀਜਨਕ ਤੌਰ 'ਤੇ ਬਹੁਤ ਘੱਟ implementation correction ਦੀ ਲੋੜ ਪਈ ਅਤੇ GPT‑5.4 ਨਾਲੋਂ GPT‑5.5 ਦੀਆਂ ਯੋਜਨਾਵਾਂ 'ਤੇ ਹੋਰ ਭਰੋਸਾ ਮਹਿਸੂਸ ਹੋਇਆ।
NVIDIA ਦੇ ਇੱਕ ਇੰਜੀਨੀਅਰ, ਜਿਸ ਨੂੰ ਮਾਡਲ ਦੀ ਸ਼ੁਰੂਆਤੀ ਪਹੁੰਚ ਮਿਲੀ ਸੀ, ਨੇ ਤਾਂ ਇਹ ਵੀ ਕਿਹਾ: "GPT‑5.5 ਦੀ ਪਹੁੰਚ ਖੋਣਾ ਇਸ ਤਰ੍ਹਾਂ ਲੱਗਦਾ ਹੈ ਜਿਵੇਂ ਮੇਰਾ ਕੋਈ ਅੰਗ ਕੱਟ ਦਿੱਤਾ ਗਿਆ ਹੋਵੇ।”
“GPT-5.5, GPT-5.4 ਨਾਲੋਂ ਸਪਸ਼ਟ ਤੌਰ ਉੱਤੇ ਹੋਰ ਸਮਾਰਟ ਅਤੇ ਹੋਰ ਡੱਟਾ ਹੋਇਆ ਹੈ, ਹੋਰ ਮਜ਼ਬੂਤ coding performance ਅਤੇ ਹੋਰ ਭਰੋਸੇਯੋਗ tool use ਦੇ ਨਾਲ. ਇਹ ਕੰਮ ਉੱਤੇ ਕਾਫ਼ੀ ਹੋਰ ਲੰਮੇ ਸਮੇਂ ਤੱਕ ਟਿਕਿਆ ਰਹਿੰਦਾ ਹੈ ਬਿਨਾਂ ਜਲਦੀ ਰੁਕਣ ਦੇ, ਜੋ ਸਾਡੇ ਯੂਜ਼ਰਾਂ ਵੱਲੋਂ Cursor ਨੂੰ ਸੌਂਪੇ ਜਾਣ ਵਾਲੇ ਜਟਿਲ, ਲੰਬੇ ਸਮੇਂ ਚੱਲਣ ਵਾਲੇ ਕੰਮ ਲਈ ਸਭ ਤੋਂ ਵੱਧ ਮਾਇਨੇ ਰੱਖਦਾ ਹੈ.”
ਉਹੀ ਤਾਕਤਾਂ ਜੋ GPT‑5.5 ਨੂੰ ਕੋਡਿੰਗ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਬਣਾਉਂਦੀਆਂ ਹਨ, ਇਸ ਨੂੰ ਕੰਪਿਊਟਰ 'ਤੇ ਰੋਜ਼ਾਨਾ ਦੇ ਕੰਮ ਲਈ ਵੀ ਬਹੁਤ ਤਾਕਤਵਰ ਬਣਾਉਂਦੀਆਂ ਹਨ। ਕਿਉਂਕਿ ਮਾਡਲ ਮਨਸ਼ਾ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਹੋਰ ਵਧੀਆ ਹੈ, ਇਹ ਗਿਆਨ-ਆਧਾਰਿਤ ਕੰਮ ਦੇ ਪੂਰੇ ਚੱਕਰ ਵਿੱਚ ਹੋਰ ਕੁਦਰਤੀ ਢੰਗ ਨਾਲ ਅੱਗੇ ਵਧ ਸਕਦਾ ਹੈ: ਜਾਣਕਾਰੀ ਲੱਭਣਾ, ਕੀ ਮਹੱਤਵਪੂਰਨ ਹੈ ਇਹ ਸਮਝਣਾ, ਟੂਲ ਵਰਤਣਾ, ਆਉਟਪੁੱਟ ਦੀ ਜਾਂਚ ਕਰਨਾ, ਅਤੇ ਕੱਚੇ ਮਾਲ ਨੂੰ ਕਿਸੇ ਲਾਭਦਾਇਕ ਚੀਜ਼ ਵਿੱਚ ਬਦਲਣਾ।
Codex ਵਿੱਚ, GPT‑5.5 ਦਸਤਾਵੇਜ਼, ਸਪ੍ਰੈਡਸ਼ੀਟ, ਅਤੇ slide presentations ਬਣਾਉਣ ਵਿੱਚ GPT‑5.4 ਤੋਂ ਬਿਹਤਰ ਹੈ। ਅਲਫ਼ਾ ਟੈਸਟਰਾਂ ਨੇ ਕਿਹਾ ਕਿ ਇਸ ਨੇ operational research, spreadsheet modeling, ਅਤੇ ਗੁੰਝਲਦਾਰ ਕਾਰੋਬਾਰੀ inputs ਨੂੰ ਯੋਜਨਾਵਾਂ ਵਿੱਚ ਬਦਲਣ ਵਰਗੇ ਕੰਮਾਂ ਵਿੱਚ ਪਿਛਲੇ ਮਾਡਲਾਂ ਤੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਜਦੋਂ Codex ਦੀਆਂ computer use ਹੁਨਰਾਂ ਨਾਲ ਜੋੜਿਆ ਜਾਂਦਾ ਹੈ, GPT‑5.5 ਸਾਨੂੰ ਇਸ ਅਹਿਸਾਸ ਦੇ ਹੋਰ ਨੇੜੇ ਲਿਆਉਂਦਾ ਹੈ ਕਿ ਮਾਡਲ ਤੁਹਾਡੇ ਨਾਲ ਕੰਪਿਊਟਰ ਨੂੰ ਵਾਸਤਵ ਵਿੱਚ ਵਰਤ ਸਕਦਾ ਹੈ: ਸਕ੍ਰੀਨ 'ਤੇ ਕੀ ਹੈ ਇਹ ਦੇਖਣਾ, ਕਲਿੱਕ ਕਰਨਾ, ਟਾਈਪ ਕਰਨਾ, interfaces ਵਿੱਚ navigate ਕਰਨਾ, ਅਤੇ ਟੂਲਾਂ ਵਿਚਕਾਰ ਸੁਚੋਕਤਾ ਨਾਲ ਅੱਗੇ ਵਧਣਾ।
OpenAI ਦੀਆਂ ਟੀਮਾਂ ਪਹਿਲਾਂ ਹੀ ਇਨ੍ਹਾਂ ਤਾਕਤਾਂ ਨੂੰ ਅਸਲੀ workflows ਵਿੱਚ ਵਰਤ ਰਹੀਆਂ ਹਨ। ਅੱਜ, ਕੰਪਨੀ ਦੇ 85% ਤੋਂ ਵੱਧ ਲੋਕ software engineering, finance, communications, marketing, data science, ਅਤੇ product management ਸਮੇਤ ਕਈ functions ਵਿੱਚ ਹਰ ਹਫ਼ਤੇ Codex ਵਰਤਦੇ ਹਨ। Comms ਵਿੱਚ, ਟੀਮ ਨੇ Codex ਵਿੱਚ GPT‑5.5 ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਛੇ ਮਹੀਨਿਆਂ ਦੇ speaking request data ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ, scoring ਅਤੇ risk framework ਬਣਾਇਆ, ਅਤੇ ਇੱਕ automated Slack ਏਜੰਟ ਨੂੰ validate ਕੀਤਾ ਤਾਂ ਜੋ ਘੱਟ-ਜੋਖਮ ਬੇਨਤੀਆਂ ਨੂੰ ਆਪੇ ਸੰਭਾਲਿਆ ਜਾ ਸਕੇ ਜਦਕਿ ਉੱਚ-ਜੋਖਮ ਬੇਨਤੀਆਂ ਹਾਲੇ ਵੀ ਮਨੁੱਖੀ review ਵੱਲ ਭੇਜੀਆਂ ਜਾਣ। Finance ਵਿੱਚ, ਟੀਮ ਨੇ Codex ਦੀ ਵਰਤੋਂ 24,771 K-1 tax forms ਦੀ ਸਮੀਖਿਆ ਲਈ ਕੀਤੀ, ਜੋ ਕੁੱਲ 71,637 ਪੰਨਿਆਂ ਦੇ ਸਨ, ਅਤੇ ਇੱਕ workflow ਵਰਤਿਆ ਜਿਸ ਨੇ ਨਿੱਜੀ ਜਾਣਕਾਰੀ ਨੂੰ ਬਾਹਰ ਰੱਖਿਆ ਅਤੇ ਟੀਮ ਨੂੰ ਪਿਛਲੇ ਸਾਲ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਇਹ ਕੰਮ ਦੋ ਹਫ਼ਤੇ ਤੇਜ਼ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕੀਤੀ। Go-to-Market ਟੀਮ ਵਿੱਚ, ਇਕ ਕਰਮਚਾਰੀ ਨੇ ਹਫ਼ਤਾਵਾਰੀ ਕਾਰੋਬਾਰੀ ਰਿਪੋਰਟਾਂ ਦਾ ਨਿਰਮਾਣ automate ਕਰ ਦਿੱਤਾ, ਜਿਸ ਨਾਲ ਹਫ਼ਤੇ ਦੇ 5-10 ਘੰਟੇ ਬਚੇ।
ChatGPT ਵਿੱਚ, GPT‑5.5 Thinking ਮੁਸ਼ਕਲ ਸਮੱਸਿਆਵਾਂ ਲਈ ਹੋਰ ਤੇਜ਼ ਮਦਦ ਖੋਲ੍ਹਦਾ ਹੈ, ਹੋਰ ਸਮਾਰਟ ਅਤੇ ਹੋਰ ਸੰਖੇਪ ਜਵਾਬਾਂ ਨਾਲ, ਤਾਂ ਜੋ ਤੁਸੀਂ ਜਟਿਲ ਕੰਮ ਵਿੱਚ ਹੋਰ ਕੁਸ਼ਲਤਾ ਨਾਲ ਅੱਗੇ ਵਧ ਸਕੋ। ਇਹ ਕੋਡਿੰਗ, ਖੋਜ, ਜਾਣਕਾਰੀ ਸੰਸ਼ਲੇਸ਼ਣ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ, ਅਤੇ ਦਸਤਾਵੇਜ਼-ਕੇਂਦਰਿਤ ਕੰਮਾਂ ਵਰਗੇ ਪੇਸ਼ਾਵਰ ਕੰਮ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਹੈ, ਖਾਸ ਕਰਕੇ ਜਦੋਂ plugins ਵਰਤੇ ਜਾਣ।
GPT‑5.5 Pro ਵਿੱਚ, ਸ਼ੁਰੂਆਤੀ ਟੈਸਟਰ ChatGPT ਦੁਆਰਾ ਸੰਭਾਲੇ ਜਾ ਸਕਣ ਵਾਲੇ ਕੰਮ ਦੀ ਮੁਸ਼ਕਲਤਾ ਅਤੇ ਗੁਣਵੱਤਾ ਦੋਵਾਂ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਵਾਧਾ ਦੇਖ ਰਹੇ ਹਨ, ਅਤੇ latency improvements ਇਸ ਨੂੰ demanding tasks ਲਈ ਕਾਫ਼ੀ ਹੋਰ ਵਿਹਾਰਿਕ ਬਣਾਉਂਦੀਆਂ ਹਨ। GPT‑5.4 Pro ਦੇ ਮੁਕਾਬਲੇ, ਟੈਸਟਰਾਂ ਨੇ GPT‑5.5 Pro ਦੇ ਜਵਾਬ ਕਾਫ਼ੀ ਹੋਰ ਵਿਸਤ੍ਰਿਤ, ਚੰਗੀ ਤਰ੍ਹਾਂ ਸੰਰਚਿਤ, ਸਹੀ, ਸਬੰਧਿਤ, ਅਤੇ ਲਾਭਦਾਇਕ ਪਾਏ, ਅਤੇ business, legal, education, ਅਤੇ data science ਵਿੱਚ ਖਾਸ ਤੌਰ 'ਤੇ ਮਜ਼ਬੂਤ ਪ੍ਰਦਰਸ਼ਨ ਦੇਖਿਆ।
GPT‑5.5 ਕਈ ਬੈਂਚਮਾਰਕਾਂ 'ਤੇ state-of-the-art ਪ੍ਰਦਰਸ਼ਨ ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ ਜੋ ਇਸ ਕਿਸਮ ਦੇ ਕੰਮ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। On GDPval, ਜੋ 44 occupations ਵਿੱਚ ਚੰਗੀ ਤਰ੍ਹਾਂ ਨਿਰਧਾਰਤ ਗਿਆਨ-ਆਧਾਰਿਤ ਕੰਮ ਪੈਦਾ ਕਰਨ ਦੀ ਏਜੰਟਾਂ ਦੀ ਸਮਰੱਥਾ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ, GPT‑5.5 84.9% ਸਕੋਰ ਕਰਦਾ ਹੈ। OSWorld-Verified 'ਤੇ, ਜੋ ਇਹ ਮਾਪਦਾ ਹੈ ਕਿ ਕੀ ਮਾਡਲ ਆਪਣੇ ਬਲਬੂਤੇ ਅਸਲ ਕੰਪਿਊਟਰ environments ਚਲਾ ਸਕਦਾ ਹੈ, ਇਹ 78.7% ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ। ਅਤੇ Tau2-bench Telecom 'ਤੇ, ਜੋ ਜਟਿਲ customer-service workflows ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ, ਇਹ ਬਿਨਾਂ prompt tuning ਦੇ 98.0% ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ। GPT‑5.5 ਹੋਰ ਗਿਆਨ-ਆਧਾਰਿਤ ਕੰਮ benchmarks ਵਿੱਚ ਵੀ ਮਜ਼ਬੂਤ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ: FinanceAgent 'ਤੇ 60.0%, internal investment-banking modeling tasks 'ਤੇ 88.5%, ਅਤੇ OfficeQA Pro 'ਤੇ 54.1%।
Tau2-bench Telecom ਬਿਨਾਂ prompt tuning ਦੇ ਚਲਾਇਆ ਗਿਆ ਸੀ (ਅਤੇ GPT‑4.1 ਨੂੰ user model ਵਜੋਂ ਵਰਤਿਆ ਗਿਆ). GPT‑5.5 ਕੰਮ ਦੇ ਇਰਾਦੇ ਨੂੰ ਹੋਰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸਮਝਦਾ ਹੈ ਅਤੇ ਆਪਣੇ ਪੂਰਵਜਾਂ ਨਾਲੋਂ ਹੋਰ token efficient ਹੈ.
“GPT-5.5 execution-heavy ਕੰਮ ਲਈ ਲੋੜੀਂਦੀ ਲਗਾਤਾਰ ਕਾਰਗੁਜ਼ਾਰੀ ਦਿੰਦਾ ਹੈ. NVIDIA GB200 NVL72 systems ਉੱਤੇ ਬਣਾਇਆ ਅਤੇ ਸਰਵ ਕੀਤਾ ਗਿਆ ਇਹ ਮਾਡਲ ਸਾਡੀਆਂ ਟੀਮਾਂ ਨੂੰ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੌੰਪਟਾਂ ਤੋਂ end-to-end features ship ਕਰਨ, debug ਸਮਾਂ ਦਿਨਾਂ ਤੋਂ ਘੰਟਿਆਂ ਤੱਕ ਘਟਾਉਣ, ਅਤੇ ਜਟਿਲ codebases ਵਿੱਚ ਹਫ਼ਤਿਆਂ ਦੇ experimentation ਨੂੰ ਰਾਤੋਂ-ਰਾਤ ਪ੍ਰਗਤੀ ਵਿੱਚ ਬਦਲਣ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ. ਇਹ ਸਿਰਫ਼ ਤੇਜ਼ ਕੋਡਿੰਗ ਤੋਂ ਵੱਧ ਹੈ. ਇਹ ਕੰਮ ਕਰਨ ਦਾ ਇੱਕ ਨਵਾਂ ਢੰਗ ਹੈ ਜੋ ਲੋਕਾਂ ਨੂੰ ਬੁਨਿਆਦੀ ਤੌਰ ਉੱਤੇ ਵੱਖਰੀ ਗਤੀ ਨਾਲ ਕੰਮ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ.”
GPT‑5.5 ਵਿਗਿਆਨਕ ਅਤੇ ਤਕਨੀਕੀ ਖੋਜ workflows ਵਿੱਚ ਵੀ ਸੁਧਾਰ ਦਿਖਾਉਂਦਾ ਹੈ, ਜਿਨ੍ਹਾਂ ਲਈ ਸਿਰਫ਼ ਇੱਕ ਔਖੇ ਸਵਾਲ ਦਾ ਜਵਾਬ ਦੇਣਾ ਕਾਫ਼ੀ ਨਹੀਂ ਹੁੰਦਾ। ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਇੱਕ ਵਿਚਾਰ ਦੀ ਖੋਜ ਕਰਨੀ, ਸਬੂਤ ਇਕੱਠੇ ਕਰਨੇ, ਧਾਰਣਾਵਾਂ ਦੀ ਜਾਂਚ ਕਰਨੀ, ਨਤੀਜਿਆਂ ਦੀ ਵਿਆਖਿਆ ਕਰਨੀ, ਅਤੇ ਫਿਰ ਇਹ ਫੈਸਲਾ ਕਰਨਾ ਹੁੰਦਾ ਹੈ ਕਿ ਅਗਲਾ ਕੀ ਅਜ਼ਮਾਉਣਾ ਹੈ। GPT‑5.5 ਹੋਰ ਮਾਡਲਾਂ ਨਾਲੋਂ ਇਸ ਚੱਕਰ ਵਿੱਚ ਬਣੇ ਰਹਿਣ ਵਿੱਚ ਹੋਰ ਵਧੀਆ ਹੈ।
ਖਾਸ ਤੌਰ 'ਤੇ, GPT‑5.5 GeneBench(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) 'ਤੇ GPT‑5.4 ਦੇ ਮੁਕਾਬਲੇ ਸਪਸ਼ਟ ਸੁਧਾਰ ਦਿਖਾਉਂਦਾ ਹੈ, ਜੋ genetics ਅਤੇ quantitative biology ਵਿੱਚ multi-stage scientific data analysis 'ਤੇ ਕੇਂਦਰਿਤ ਇੱਕ ਨਵਾਂ eval ਹੈ। ਇਹ ਸਮੱਸਿਆਵਾਂ ਮਾਡਲਾਂ ਤੋਂ ਘੱਟ ਤੋਂ ਘੱਟ supervisory guidance ਨਾਲ ਸੰਭਾਵਿਤ ਤੌਰ 'ਤੇ ਅਸਪਸ਼ਟ ਜਾਂ ਗਲਤੀਪੂਰਨ ਡਾਟਾ ਬਾਰੇ ਰੀਜ਼ਨਿੰਗ ਕਰਨ, ਲੁਕੇ ਹੋਏ confounders ਜਾਂ QC failures ਵਰਗੀਆਂ ਹਕੀਕਤੀ ਰੁਕਾਵਟਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨ, ਅਤੇ ਆਧੁਨਿਕ statistical methods ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਲਾਗੂ ਅਤੇ ਵਿਆਖਿਆ ਕਰਨ ਦੀ ਮੰਗ ਕਰਦੀਆਂ ਹਨ। ਮਾਡਲ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਇਸ ਗੱਲ ਦੇ ਮੱਦੇਨਜ਼ਰ ਧਿਆਨ ਖਿੱਚਦਾ ਹੈ ਕਿ ਇੱਥੇ ਦੇ ਕੰਮ ਅਕਸਰ ਵਿਗਿਆਨਕ ਮਾਹਿਰਾਂ ਲਈ ਕਈ ਦਿਨਾਂ ਦੇ ਪ੍ਰੋਜੈਕਟਾਂ ਦੇ ਬਰਾਬਰ ਹੁੰਦੇ ਹਨ।
ਇਸੇ ਤਰ੍ਹਾਂ, BixBench(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) 'ਤੇ, ਜੋ ਅਸਲ-ਦੁਨੀਆ ਦੀ bioinformatics ਅਤੇ data analysis ਦੇ ਆਧਾਰ 'ਤੇ ਬਣਾਇਆ ਗਿਆ benchmark ਹੈ, GPT‑5.5 ਨੇ ਪ੍ਰਕਾਸ਼ਿਤ ਸਕੋਰਾਂ ਵਾਲੇ ਮਾਡਲਾਂ ਵਿੱਚ ਅਗਵਾਈ ਵਾਲਾ ਪ੍ਰਦਰਸ਼ਨ ਹਾਸਲ ਕੀਤਾ। ਮਾਡਲ ਦੀਆਂ ਵਿਗਿਆਨਕ ਸਮਰੱਥਾਵਾਂ ਹੁਣ ਇੰਨੀ ਮਜ਼ਬੂਤ ਹਨ ਕਿ ਇਹ ਇੱਕ ਅਸਲ ਸਹਿ-ਵਿਗਿਆਨੀ ਵਜੋਂ ਜੈਵ-ਚਿਕਿਤਸਕ ਖੋਜ ਦੀਆਂ ਸਰਹੱਦਾਂ 'ਤੇ ਤਰੱਕੀ ਨੂੰ ਅਰਥਪੂਰਨ ਤੌਰ 'ਤੇ ਤੇਜ਼ ਕਰ ਸਕੇ।
ਇੱਕ ਹੋਰ ਉਦਾਹਰਨ ਵਿੱਚ, custom harness ਵਾਲੇ GPT‑5.5 ਦੇ ਇਕ ਅੰਦਰੂਨੀ ਸੰਸਕਰਣ ਨੇ combinatorics ਦੇ ਕੇਂਦਰੀ ਵਿਸ਼ਿਆਂ ਵਿੱਚੋਂ ਇੱਕ, Ramsey numbers, ਬਾਰੇ ਇੱਕ ਨਵਾਂ ਸਬੂਤ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਲੱਭਣ ਵਿੱਚ ਮਦਦ ਕੀਤੀ। Combinatorics ਇਹ ਅਧਿਐਨ ਕਰਦੀ ਹੈ ਕਿ discrete objects ਇਕੱਠੇ ਕਿਵੇਂ ਫਿੱਟ ਹੁੰਦੇ ਹਨ: graphs, networks, sets, ਅਤੇ patterns। Ramsey numbers ਲਗਭਗ ਇਹ ਪੁੱਛਦੇ ਹਨ ਕਿ ਕਿਸੇ ਨਾ ਕਿਸੇ ਤਰ੍ਹਾਂ ਦਾ ਕ੍ਰਮ ਨਿਸ਼ਚਿਤ ਤੌਰ 'ਤੇ ਪ੍ਰਗਟ ਹੋਣ ਤੋਂ ਪਹਿਲਾਂ ਇੱਕ network ਕਿੰਨਾ ਵੱਡਾ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ। ਇਸ ਖੇਤਰ ਵਿੱਚ ਨਤੀਜੇ ਵਿਰਲੇ ਹੁੰਦੇ ਹਨ ਅਤੇ ਅਕਸਰ ਤਕਨੀਕੀ ਤੌਰ 'ਤੇ ਔਖੇ ਹੁੰਦੇ ਹਨ। ਇੱਥੇ, GPT‑5.5 ਨੇ off-diagonal Ramsey numbers ਬਾਰੇ ਲੰਬੇ ਸਮੇਂ ਤੋਂ ਜਾਣੇ ਜਾਂਦੇ asymptotic fact ਦਾ ਸਬੂਤ ਲੱਭਿਆ, ਜਿਸ ਦੀ ਬਾਅਦ ਵਿੱਚ Lean ਵਿੱਚ ਪੁਸ਼ਟੀ ਕੀਤੀ ਗਈ। ਇਹ ਨਤੀਜਾ GPT‑5.5 ਦੁਆਰਾ ਸਿਰਫ ਕੋਡ ਜਾਂ ਵਿਆਖਿਆ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਇਕ ਮੁੱਖ ਖੋਜ ਖੇਤਰ ਵਿੱਚ ਹੈਰਾਨੀਜਨਕ ਅਤੇ ਲਾਭਦਾਇਕ ਗਣਿਤੀ ਤਰਕ ਦੇ ਯੋਗਦਾਨ ਦਾ ਠੋਸ ਉਦਾਹਰਨ ਹੈ।
ਸ਼ੁਰੂਆਤੀ ਟੈਸਟਰਾਂ ਨੇ ChatGPT ਵਿੱਚ GPT‑5.5 Pro ਨੂੰ ਵਨ-ਸ਼ਾਟ ਜਵਾਬ ਇੰਜਣ ਵਾਂਗ ਘੱਟ ਅਤੇ ਖੋਜ ਸਾਥੀ ਵਾਂਗ ਵੱਧ ਵਰਤਿਆ: ਕਈ ਪਾਸਾਂ ਵਿੱਚ manuscripts ਦੀ ਸਮੀਖਿਆ ਕਰਨਾ, ਤਕਨੀਕੀ ਤਰਕਾਂ ਦੀ stress-testing ਕਰਨਾ, analyses ਸੁਝਾਉਣਾ, ਅਤੇ code, notes, ਅਤੇ PDF context ਨਾਲ ਕੰਮ ਕਰਨਾ। ਸਾਂਝੀ ਲਕੀਰ ਇਹ ਹੈ ਕਿ GPT‑5.5 ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਸਵਾਲ ਤੋਂ ਪ੍ਰਯੋਗ ਅਤੇ ਫਿਰ ਆਉਟਪੁੱਟ ਤੱਕ ਲਿਜਾਣ ਵਿੱਚ ਹੋਰ ਵਧੀਆ ਮਦਦ ਕਰਦਾ ਹੈ।
Derya Unutmaz, Jackson Laboratory for Genomic Medicine ਵਿੱਚ immunology ਦੇ professor ਅਤੇ researcher, ਨੇ GPT‑5.5 Pro ਦੀ ਵਰਤੋਂ ਕਰਕੇ 62 samples ਅਤੇ ਲਗਭਗ 28,000 genes ਵਾਲੇ gene-expression dataset ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ, ਅਤੇ ਇੱਕ ਵਿਸਤ੍ਰਿਤ research report ਤਿਆਰ ਕੀਤੀ ਜਿਸ ਨੇ ਨਾ ਸਿਰਫ਼ ਨਤੀਜਿਆਂ ਦਾ ਸਾਰ ਦਿੱਤਾ ਸਗੋਂ ਮੁੱਖ ਪ੍ਰਸ਼ਨ ਅਤੇ insights ਵੀ ਸਾਹਮਣੇ ਲਿਆਂਦੇ—ਉਹ ਕੰਮ ਜੋ ਉਸਨੇ ਕਿਹਾ ਕਿ ਉਸਦੀ ਟੀਮ ਨੂੰ ਮਹੀਨੇ ਲੱਗ ਜਾਂਦੇ.
Bartosz Naskręcki, ਪੋਲੈਂਡ ਦੇ Poznań ਵਿੱਚ Adam Mickiewicz University ਵਿੱਚ ਗਣਿਤ ਦੇ assistant professor, ਨੇ Codex ਵਿੱਚ GPT‑5.5 ਦੀ ਵਰਤੋਂ ਕਰਕੇ 11 ਮਿੰਟ ਵਿੱਚ ਇੱਕੋ ਪ੍ਰੌੰਪਟ ਤੋਂ algebraic-geometry ਐਪ ਬਣਾਈ, ਜਿਸ ਨੇ quadratic surfaces ਦੇ intersection ਨੂੰ visualize ਕੀਤਾ ਅਤੇ ਨਤੀਜੇ ਵਜੋਂ ਬਣੀ curve ਨੂੰ Weierstrass model ਵਿੱਚ ਬਦਲਿਆ.
ਬਾਅਦ ਵਿੱਚ ਉਸਨੇ ਐਪ ਨੂੰ ਹੋਰ stable singularity visualization ਅਤੇ exact coefficients ਨਾਲ ਵਿਸਤਾਰਿਆ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਅੱਗੇ ਦੇ ਕੰਮ ਵਿੱਚ ਦੁਬਾਰਾ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ. ਉਸ ਲਈ ਵੱਡਾ ਬਦਲਾਅ ਇਹ ਹੈ ਕਿ Codex ਹੁਣ custom mathematical visualization ਅਤੇ computer-algebra workflows ਲਾਗੂ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ, ਜਿਨ੍ਹਾਂ ਲਈ ਪਹਿਲਾਂ dedicated tools ਦੀ ਲੋੜ ਹੁੰਦੀ ਸੀ. ਇਕੱਠੇ ਮਿਲ ਕੇ, ਇਹ ਉਦਾਹਰਨਾਂ ਦਿਖਾਉਂਦੀਆਂ ਹਨ ਕਿ GPT‑5.5 expert intent ਨੂੰ ਕੰਮ ਕਰਨ ਵਾਲੇ research tools ਅਤੇ analyses ਵਿੱਚ ਬਦਲ ਰਿਹਾ ਹੈ.

ਸ਼੍ਰੇਯ: Bartosz Naskręcki(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)
ਪ੍ਰੌੰਪਟ: # Algebraic geometry surface intersection
ਇੱਕ ਐਪ ਬਣਾਓ ਜੋ ਦੋ quadratic surfaces ਡ੍ਰਾ ਕਰੇ ਅਤੇ intersection curve ਨੂੰ ਲਾਲ ਰੰਗ ਵਿੱਚ ਦਰਸਾਏ. ਇਸਨੂੰ Weierstrass curve ਵਿੱਚ ਬਦਲਣ ਲਈ computational Riemann-Roch theorem ਵਰਤੋ.
## ਮੁੱਖ ਵਿੰਡੋ
ਦੋ tinted surfaces ਹਲਕੀ transparent shading ਨਾਲ, ਉੱਚ ਗੁਣਵੱਤਾ rendering ਇੱਕ ਲਾਲ ਰੰਗੀ algebraic curve ਦੇ ਨਾਲ intersect ਕਰਦੀਆਂ ਹਨ
ਦੋਵੇਂ ਦਿਸ਼ਾਵਾਂ ਵਿੱਚ mouse ਨਾਲ rotation, zoom ਲਈ ਪੂਰਾ pinch mechanism, haptic press ਨਾਲ ਛੋਟਾ menu ਦਿਖੇ ਜਿਸ ਵਿੱਚ ਹਰ surface ਦੇ coefficients ਬਦਲਣ ਲਈ sliders ਹੋਣ; detection Z-buffor level ਰਾਹੀਂ
## ਸੱਜੇ ਪਾਸੇ ਦੀ ਵਿੰਡੋ
Short Weierstrass equation (Q ਉੱਤੇ ਜਾਂ quadratic field extension ਉੱਤੇ) effective Riemann-Roch theorem formulas ਰਾਹੀਂ ਤੁਰੰਤ ਗਣਨਾ ਕੀਤੀ ਜਾਵੇ
## Ambient mode ਜਿੱਥੇ ਸਾਰੇ controls ਲੁਕਾਏ ਹੋਣ ਅਤੇ ਯੂਜ਼ਰ shapes ਦੀ ਸੁੰਦਰਤਾ ਦਾ ਆਨੰਦ ਲੈ ਸਕੇ
## Specs
ਐਪ browser ਵਿੱਚ ਚਲਦੀ ਹੋਵੇ, light-weight implementation ਹੋਵੇ, full stack newest libraries ਨਾਲ, portable, deployable
## Docs
Git repo, journal, plan (Markdown files)
“ਸਾਡੇ harness ਵਿੱਚ OpenAI ਦਾ ਨਵਾਂ GPT-5.5 ਮਾਡਲ ਵਰਤਣਾ, ਇਸਨੂੰ ਵੱਡੇ ਬਾਇਓਕੈਮੀਕਲ ਡਾਟਾਸੈੱਟਾਂ ਉੱਤੇ ਰੀਜ਼ਨ ਕਰਵਾ ਕੇ ਮਨੁੱਖੀ ਦਵਾਈ ਨਤੀਜਿਆਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨਾ, ਅਤੇ ਫਿਰ ਸਾਡੇ ਸਭ ਤੋਂ ਔਖੇ drug discovery evals ਉੱਤੇ ਇਸ ਵੱਲੋਂ ਮਹੱਤਵਪੂਰਨ ਸ਼ੁੱਧਤਾ ਵਾਧੇ ਦੇਣਾ ਦੇਖਣਾ ਬੇਹੱਦ ਉਤਸ਼ਾਹਜਨਕ ਹੈ. ਜੇ OpenAI ਇਸੇ ਤਰ੍ਹਾਂ ਕਮਾਲ ਕਰਦਾ ਰਿਹਾ, ਤਾਂ ਸਾਲ ਦੇ ਅੰਤ ਤੱਕ drug discovery ਦੀਆਂ ਬੁਨਿਆਦਾਂ ਬਦਲ ਜਾਣਗੀਆਂ.”
GPT‑5.5 ਨੂੰ GPT‑5.4 ਦੀ latency 'ਤੇ serve ਕਰਨ ਲਈ inference ਨੂੰ ਵੱਖ-ਵੱਖ optimizations ਦੇ ਸੈੱਟ ਵਜੋਂ ਨਹੀਂ, ਸਗੋਂ ਇਕ ਇੰਟੀਗ੍ਰੇਟਡ ਸਿਸਟਮ ਵਜੋਂ ਦੁਬਾਰਾ ਸੋਚਣ ਦੀ ਲੋੜ ਪਈ। GPT‑5.5 ਨੂੰ NVIDIA GB200 ਅਤੇ GB300 NVL72 systems ਲਈ co-design ਕੀਤਾ ਗਿਆ, ਉਨ੍ਹਾਂ ਨਾਲ train ਕੀਤਾ ਗਿਆ, ਅਤੇ ਉਨ੍ਹਾਂ 'ਤੇ serve ਕੀਤਾ ਗਿਆ। Codex ਅਤੇ GPT‑5.5 ਸਾਡੇ performance targets ਹਾਸਲ ਕਰਨ ਦੇ ਢੰਗ ਵਿੱਚ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਸਨ। Codex ਨੇ ਟੀਮ ਨੂੰ ਵਿਚਾਰ ਤੋਂ benchmarkable implementation ਤੱਕ ਹੋਰ ਤੇਜ਼ੀ ਨਾਲ ਪਹੁੰਚਣ ਵਿੱਚ ਮਦਦ ਕੀਤੀ, approaches sketch ਕੀਤੀਆਂ, experiments ਜੋੜੇ, ਅਤੇ ਇਹ ਪਛਾਣਣ ਵਿੱਚ ਮਦਦ ਕੀਤੀ ਕਿ ਕਿਹੜੀਆਂ optimizations ਵਿੱਚ ਹੋਰ ਡੂੰਘਾ ਨਿਵੇਸ਼ ਕਰਨ ਜੋਗ ਸੀ। GPT‑5.5 ਨੇ stack ਵਿੱਚ ਹੀ ਮੁੱਖ ਸੁਧਾਰ ਲੱਭਣ ਅਤੇ ਲਾਗੂ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕੀਤੀ। ਸਧਾਰਣ ਤੌਰ 'ਤੇ ਕਹੀਏ, ਮਾਡਲ ਨੇ ਉਸ ਇੰਫ੍ਰਾਸਟ੍ਰਕਚਰ ਨੂੰ ਸੁਧਾਰਣ ਵਿੱਚ ਮਦਦ ਕੀਤੀ ਜੋ ਇਸ ਨੂੰ ਸੇਵਾ ਦਿੰਦਾ ਹੈ।
ਐਸੇ ਹੀ ਇਕ ਸੁਧਾਰ ਵਿੱਚ load balancing ਅਤੇ partitioning heuristics ਸ਼ਾਮਲ ਸਨ। GPT‑5.5 ਤੋਂ ਪਹਿਲਾਂ, ਅਸੀਂ ਕੰਮ ਨੂੰ computing cores ਵਿੱਚ ਸੰਤੁਲਿਤ ਕਰਨ ਲਈ accelerator ਉੱਤੇ ਬੇਨਤੀਆਂ ਨੂੰ ਨਿਸ਼ਚਿਤ ਗਿਣਤੀ ਵਾਲੇ chunks ਵਿੱਚ ਵੰਡ ਦਿੰਦੇ ਸੀ, ਤਾਂ ਜੋ ਵੱਡੀਆਂ ਅਤੇ ਛੋਟੀਆਂ ਬੇਨਤੀਆਂ ਇੱਕੋ GPU 'ਤੇ ਚੱਲ ਸਕਣ। ਹਾਲਾਂਕਿ, ਪਹਿਲਾਂ ਤੋਂ ਤੈਅ ਕੀਤੀ ਗਈ static chunks ਦੀ ਗਿਣਤੀ ਹਰ traffic shape ਲਈ ਉਤਕ੍ਰਿਸ਼ਟ ਨਹੀਂ ਹੁੰਦੀ। GPUs ਦਾ ਬਿਹਤਰ ਇਸਤੇਮਾਲ ਕਰਨ ਲਈ, Codex ਨੇ ਕਈ ਹਫ਼ਤਿਆਂ ਦੇ production traffic patterns ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ ਅਤੇ ਕੰਮ ਨੂੰ ਉਤਕ੍ਰਿਸ਼ਟ ਢੰਗ ਨਾਲ partition ਅਤੇ balance ਕਰਨ ਲਈ custom heuristic algorithms ਲਿਖੀਆਂ। ਇਸ ਯਤਨ ਦਾ ਅਸਧਾਰਣ ਪ੍ਰਭਾਵ ਪਿਆ, ਅਤੇ token generation speeds 20% ਤੋਂ ਵੱਧ ਵਧ ਗਈਆਂ।
ਦੁਨੀਆ ਨੂੰ ਉਹਨਾਂ ਮਾਡਲਾਂ ਲਈ ਤਿਆਰ ਕਰਨਾ ਜੋ ਸੁਰੱਖਿਆ ਕਮਜ਼ੋਰੀਆਂ ਲੱਭਣ ਅਤੇ patch ਕਰਨ ਵਿੱਚ ਬਹੁਤ ਵਧੀਆ ਹਨ, ਇੱਕ ਸਾਂਝਾ ਯਤਨ ਹੈ ਅਤੇ ਇਸ ਲਈ ਪੂਰੇ ecosystem ਨੂੰ resilience ਬਣਾਉਣ ਲਈ ਕੜੀ ਮਿਹਨਤ ਕਰਨੀ ਪਵੇਗੀ, ਜਿਸ ਵਿੱਚ model access ਦਾ ਲੋਕਤੰਤਰਿਕਰਨ ਅਤੇ ਸਾਈਬਰ ਰੱਖਿਆ ਦੇ ਅਗਲੇ ਦੌਰ ਲਈ iterative deployment ਸ਼ਾਮਲ ਹੈ।
ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਸਾਈਬਰਸੁਰੱਖਿਆ ਵਿੱਚ ਲਗਾਤਾਰ ਹੋਰ ਸਮਰੱਥ ਬਣ ਰਹੇ ਹਨ। ਇਹ ਸਮਰੱਥਾਵਾਂ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਵੰਡੀਆਂ ਜਾਣਗੀਆਂ ਅਤੇ ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਸਭ ਤੋਂ ਵਧੀਆ ਰਸਤਾ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣਾ ਹੈ ਕਿ ਉਨ੍ਹਾਂ ਨੂੰ ਸਾਈਬਰ ਰੱਖਿਆ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਅਤੇ ecosystem ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕੇ।
GPT‑5.5 AI ਵੱਲ ਇੱਕ ਕ੍ਰਮਿਕ ਪਰ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਹੈ ਜੋ ਸਾਈਬਰਸੁਰੱਖਿਆ ਵਰਗੀਆਂ ਦੁਨੀਆ ਦੀਆਂ ਕੁਝ ਸਭ ਤੋਂ ਔਖੀਆਂ ਚੁਣੌਤੀਆਂ ਨੂੰ ਹੱਲ ਕਰ ਸਕਦੀ ਹੈ। ਦਸੰਬਰ ਵਿੱਚ GPT‑5.2 ਦੇ ਨਾਲ, ਅਸੀਂ ਆਪਣੇ ਮਾਡਲਾਂ ਨਾਲ ਸੰਭਾਵਿਤ ਸਾਈਬਰ ਦੁਰਵਰਤੋਂ ਨੂੰ ਸੀਮਿਤ ਕਰਨ ਲਈ ਲੋੜੀਂਦੀਆਂ ਸਾਈਬਰ ਸੁਰੱਖਿਆਵਾਂ ਨੂੰ ਪਹਿਲਾਂ ਹੀ ਡਿਪਲੋਇ ਕੀਤਾ ਸੀ; ਹੁਣ GPT‑5.5 ਨਾਲ, ਅਸੀਂ ਸੰਭਾਵਿਤ ਸਾਈਬਰ ਜੋਖਮ ਲਈ ਹੋਰ ਸਖ਼ਤ classifiers ਡਿਪਲੋਇ ਕਰ ਰਹੇ ਹਾਂ, ਜੋ ਕੁਝ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਸ਼ੁਰੂ ਵਿੱਚ ਪਰੇਸ਼ਾਨ ਕਰ ਸਕਦੇ ਹਨ, ਕਿਉਂਕਿ ਅਸੀਂ ਸਮੇਂ ਦੇ ਨਾਲ ਉਨ੍ਹਾਂ ਨੂੰ tune ਕਰਦੇ ਰਹਾਂਗੇ।
ਅਸੀਂ ਸਾਲਾਂ ਤੋਂ ਸਾਈਬਰਸੁਰੱਖਿਆ ਨੂੰ ਆਪਣੇ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਇੱਕ ਸ਼੍ਰੇਣੀ ਵਜੋਂ ਦਰਜ ਕੀਤਾ ਹੈ, ਜਦਕਿ ਸਾਡੇ ਮਾਡਲ ਕ੍ਰਮਿਕ ਤੌਰ 'ਤੇ ਸੁਧਰੇ ਹਨ, ਅਤੇ ਅਸੀਂ meaningful cybersecurity capabilities ਵਾਲੇ ਮਾਡਲਾਂ ਨੂੰ ਜ਼ਿੰਮੇਵਾਰੀ ਨਾਲ ਜਾਰੀ ਕਰਨ ਦੇ ਯੋਗ ਬਣਨ ਲਈ mitigations ਨੂੰ iteratively ਵਿਕਸਿਤ ਅਤੇ calibrate ਕਰਦੇ ਰਹੇ ਹਾਂ।
- ਅਸੀਂ ਇਸ ਪੱਧਰ ਦੀ ਸਾਈਬਰ ਸਮਰੱਥਾ ਲਈ ਉਦਯੋਗ-ਅਗੇਤੀ ਸੁਰੱਖਿਆਵਾਂ ਡਿਪਲੋਇ ਕਰ ਰਹੇ ਹਾਂ। ਅਸੀਂ ਪਹਿਲੀ ਵਾਰ ਪਿਛਲੇ ਸਾਲ GPT‑5.2(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਨਾਲ ਸਾਈਬਰ-ਖ਼ਾਸ ਸੁਰੱਖਿਆਵਾਂ ਪੇਸ਼ ਕੀਤੀਆਂ ਸਨ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਅਸੀਂ ਅਗਲੇ deploymentਾਂ ਵਿੱਚ ਲਗਾਤਾਰ test, refine, ਅਤੇ build ਕਰਦੇ ਆ ਰਹੇ ਹਾਂ। GPT‑5.5 ਲਈ, ਅਸੀਂ ਉੱਚ-ਜੋਖਮ ਗਤੀਵਿਧੀ, ਸੰਵੇਦਨਸ਼ੀਲ ਸਾਈਬਰ ਬੇਨਤੀਆਂ, ਅਤੇ ਵਾਰੰਵਾਰ ਦੁਰਵਰਤੋਂ ਲਈ ਜੋੜੀਆਂ ਸੁਰੱਖਿਆਵਾਂ ਦੇ ਆਲੇ ਦੁਆਲੇ ਹੋਰ ਕੱਸੇ ਹੋਏ controls ਡਿਜ਼ਾਈਨ ਕੀਤੇ ਹਨ। ਵਿਆਪਕ ਪਹੁੰਚ model safety, authenticated usage, ਅਤੇ impermissible use ਦੀ monitoring ਵਿੱਚ ਸਾਡੇ ਨਿਵੇਸ਼ਾਂ ਰਾਹੀਂ ਸੰਭਵ ਬਣਦੀ ਹੈ। ਅਸੀਂ ਬਾਹਰੀ ਮਾਹਿਰਾਂ ਨਾਲ ਕਈ ਮਹੀਨਿਆਂ ਤੋਂ ਇਨ੍ਹਾਂ ਸੁਰੱਖਿਆਵਾਂ ਦੀ robustness ਨੂੰ ਵਿਕਸਿਤ, test ਅਤੇ iterate ਕਰਨ ਲਈ ਕੰਮ ਕਰ ਰਹੇ ਹਾਂ। GPT‑5.5 ਨਾਲ, ਅਸੀਂ ਇਹ ਯਕੀਨੀ ਬਣਾ ਰਹੇ ਹਾਂ ਕਿ developers ਆਪਣਾ code ਆਸਾਨੀ ਨਾਲ ਸੁਰੱਖਿਅਤ ਕਰ ਸਕਣ, ਅਤੇ ਨਾਲ ਹੀ ਉਹਨਾਂ ਸਾਈਬਰ workflows 'ਤੇ ਹੋਰ ਮਜ਼ਬੂਤ controls ਲਗਾਏ ਜਾ ਰਹੇ ਹਨ ਜਿਨ੍ਹਾਂ ਨਾਲ ਖ਼ਰਾਬ ਇਰਾਦੇ ਵਾਲੇ ਤੱਤਾਂ ਦੁਆਰਾ ਨੁਕਸਾਨ ਪਹੁੰਚਣ ਦੀ ਸਭ ਤੋਂ ਵੱਧ ਸੰਭਾਵਨਾ ਹੈ।
- ਅਸੀਂ ਹਰ ਪੱਧਰ 'ਤੇ ਸਾਈਬਰ ਰੱਖਿਆ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਲਈ ਪਹੁੰਚ ਵਧਾ ਰਹੇ ਹਾਂ। ਅਸੀਂ ਆਪਣੇ cyber-permissive ਮਾਡਲ Trusted Access for Cyber ਰਾਹੀਂ ਉਪਲਬਧ ਕਰਵਾ ਰਹੇ ਹਾਂ, Codex ਤੋਂ ਸ਼ੁਰੂ ਕਰਕੇ, ਜਿਸ ਵਿੱਚ launch ਵੇਲੇ ਕੁਝ trust signals(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਪੂਰੇ ਕਰਨ ਵਾਲੇ verified users ਲਈ GPT‑5.5 ਦੀਆਂ advanced cybersecurity capabilities ਤੱਕ ਘੱਟ ਪਾਬੰਦੀਆਂ ਨਾਲ ਵਧੀ ਹੋਈ ਪਹੁੰਚ ਸ਼ਾਮਲ ਹੈ। ਉਹ ਸੰਸਥਾਵਾਂ ਜੋ ਅਹਿਮ ਇੰਫ੍ਰਾਸਟ੍ਰਕਚਰ ਦੀ ਰੱਖਿਆ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਹਨ, GPT‑5.4‑Cyber ਵਰਗੇ cyber-permissive ਮਾਡਲਾਂ ਦੀ ਪਹੁੰਚ ਲਈ ਅਰਜ਼ੀ ਦੇ ਸਕਦੀਆਂ ਹਨ, ਅਤੇ ਆਪਣੀਆਂ ਅੰਦਰੂਨੀ ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਸੁਰੱਖਿਅਤ ਕਰਨ ਲਈ ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਸਮੇਂ ਸਖ਼ਤ ਸੁਰੱਖਿਆ ਲੋੜਾਂ ਪੂਰੀਆਂ ਕਰਨਗੀਆਂ। ਇਸ ਨਾਲ verified defenders ਦੀ ਵਿਆਪਕ ਸ਼੍ਰੇਣੀ ਨੂੰ ਜਾਇਜ਼ ਸੁਰੱਖਿਆ ਕੰਮ ਲਈ ਹੋਰ ਸਮਰੱਥ ਟੂਲ ਘੱਟ ਗੈਰ-ਜ਼ਰੂਰੀ friction ਨਾਲ ਮਿਲਦੇ ਹਨ, ਤਾਂ ਜੋ ਅਸੀਂ ਮਹੱਤਵਪੂਰਨ ਰੱਖਿਆਤਮਕ ਸਮਰੱਥਾਵਾਂ ਤੱਕ ਪਹੁੰਚ ਦਾ ਲੋਕਤੰਤਰਿਕਰਨ ਕਰ ਸਕੀਏ। ਉਪਭੋਗਤਾ verified defensive work ਲਈ GPT‑5.5 ਵਰਤਦਿਆਂ ਗੈਰ-ਜ਼ਰੂਰੀ refusals ਘਟਾਉਣ ਵਾਸਤੇ chatgpt.com/cyber(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) 'ਤੇ trusted access ਲਈ ਅਰਜ਼ੀ ਦੇ ਸਕਦੇ ਹਨ।
- ਅਸੀਂ ਜਨਤਾ ਲਈ ਅਹਿਮ ਇੰਫ੍ਰਾਸਟ੍ਰਕਚਰ ਦੀ ਰੱਖਿਆ ਵਿੱਚ ਮਦਦ ਕਰਨ ਲਈ ਸਰਕਾਰੀ ਭਾਗੀਦਾਰਾਂ ਨਾਲ ਕੰਮ ਕਰ ਰਹੇ ਹਾਂ। ਇਕੱਠੇ, ਅਸੀਂ ਖੋਜ ਰਹੇ ਹਾਂ ਕਿ advanced AI ਉਹਨਾਂ ਭਰੋਸੇਯੋਗ ਅਧਿਕਾਰੀਆਂ ਦੇ ਰੱਖਿਆਤਮਕ ਕੰਮ ਵਿੱਚ ਕਿਵੇਂ ਸਹਾਇਤਾ ਕਰ ਸਕਦੀ ਹੈ ਜੋ ਉਹਨਾਂ ਪ੍ਰਣਾਲੀਆਂ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਹਨ ਜਿਨ੍ਹਾਂ 'ਤੇ ਲੋਕ ਨਿਰਭਰ ਕਰਦੇ ਹਨ, ਮਹੱਤਵਪੂਰਨ ਕਰਦਾਤਾ ਡਾਟਾ ਦੀ ਸੁਰੱਖਿਆ ਕਰਨ ਵਾਲੀਆਂ ਡਿਜ਼ਿਟਲ ਪ੍ਰਣਾਲੀਆਂ ਤੋਂ ਲੈ ਕੇ ਸਥਾਨਕ ਭਾਈਚਾਰਿਆਂ ਦੇ power grid ਅਤੇ ਪਾਣੀ ਸਪਲਾਈਆਂ ਤੱਕ।
ਅਸੀਂ ਆਪਣੇ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਅਧੀਨ GPT‑5.5 ਦੀਆਂ ਜੈਵਿਕ/ਰਸਾਇਣਕ ਅਤੇ ਸਾਈਬਰਸੁਰੱਖਿਆ ਸਮਰੱਥਾਵਾਂ ਨੂੰ High ਮੰਨ ਰਹੇ ਹਾਂ। ਹਾਲਾਂਕਿ GPT‑5.5 Critical cybersecurity capability ਪੱਧਰ ਤੱਕ ਨਹੀਂ ਪਹੁੰਚਿਆ, ਸਾਡੇ ਮੁਲਾਂਕਣਾਂ ਅਤੇ ਟੈਸਟਿੰਗ ਨੇ ਦਿਖਾਇਆ ਕਿ ਇਸ ਦੀਆਂ ਸਾਈਬਰਸੁਰੱਖਿਆ ਸਮਰੱਥਾਵਾਂ GPT‑5.4 ਦੇ ਮੁਕਾਬਲੇ ਇਕ ਕਦਮ ਅੱਗੇ ਹਨ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, GPT‑5.5 ਰਿਲੀਜ਼ ਤੋਂ ਪਹਿਲਾਂ ਸਾਡੀ ਪੂਰੀ ਸੁਰੱਖਿਆ ਅਤੇ governance ਪ੍ਰਕਿਰਿਆ ਵਿੱਚੋਂ ਲੰਘਿਆ, ਜਿਸ ਵਿੱਚ preparedness evaluations, domain-specific testing, advanced biology ਅਤੇ cybersecurity capabilities ਲਈ ਨਵੇਂ targeted evaluations, ਅਤੇ ਬਾਹਰੀ ਮਾਹਿਰਾਂ ਨਾਲ ਮਜ਼ਬੂਤ ਟੈਸਟਿੰਗ ਸ਼ਾਮਲ ਸੀ। ਅਸੀਂ GPT‑5.5 ਦੇ ਸਿਸਟਮ ਕਾਰਡ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਹੋਰ ਵੇਰਵੇ ਸਾਂਝੇ ਕਰਦੇ ਹਾਂ।
ਇਹ ਕੰਮ ਸਾਡੀ ਵਿਆਪਕ AI resilience ਪਹੁੰਚ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਜਿਸ ਦੀ ਸਾਨੂੰ ਲੋੜ ਹੈ ਜਿਵੇਂ-जਿਵੇਂ ਮਾਡਲ ਸਮਰੱਥਾਵਾਂ ਅੱਗੇ ਵਧਦੀਆਂ ਹਨ। ਅਸੀਂ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ ਸ਼ਕਤੀਸ਼ਾਲੀ AI ਉਨ੍ਹਾਂ ਲੋਕਾਂ ਲਈ ਉਪਲਬਧ ਹੋਵੇ ਜੋ ਇਸ ਨੂੰ ਸਿਸਟਮਾਂ, ਸੰਸਥਾਵਾਂ, ਅਤੇ ਜਨਤਾ ਦੀ ਰੱਖਿਆ ਲਈ ਵਰਤ ਰਹੇ ਹਨ। ਕਾਰਗਰ ਰਸਤਾ trusted access, ਮਜ਼ਬੂਤ safeguards ਜੋ capability ਨਾਲ scale ਕਰਦੀਆਂ ਹਨ, ਅਤੇ ਗੰਭੀਰ ਦੁਰਵਰਤੋਂ ਨੂੰ ਪਛਾਣਣ ਅਤੇ ਉਸਦਾ ਜਵਾਬ ਦੇਣ ਦੀ operational capacity ਹੈ।
ਅੱਜ, GPT‑5.5 ChatGPT ਅਤੇ Codex ਵਿੱਚ Plus, Pro, Business, ਅਤੇ Enterprise ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਰੋਲ ਆਉਟ ਹੋ ਰਿਹਾ ਹੈ, ਅਤੇ GPT‑5.5 Pro ChatGPT ਵਿੱਚ Pro, Business, ਅਤੇ Enterprise ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਰੋਲ ਆਉਟ ਹੋ ਰਿਹਾ ਹੈ। ਅਸੀਂ GPT‑5.5 ਅਤੇ GPT‑5.5 Pro ਨੂੰ ਬਹੁਤ ਜਲਦੀ API ਵਿੱਚ ਲਿਆਵਾਂਗੇ।
ChatGPT ਵਿੱਚ, GPT‑5.5 Thinking Plus, Pro, Business, ਅਤੇ Enterprise ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਉਪਲਬਧ ਹੈ। GPT‑5.5 Pro, ਜੋ ਹੋਰ ਵੀ ਔਖੇ ਸਵਾਲਾਂ ਅਤੇ ਉੱਚ-ਸ਼ੁੱਧਤਾ ਵਾਲੇ ਕੰਮ ਲਈ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਗਿਆ ਹੈ, Pro, Business, ਅਤੇ Enterprise ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਉਪਲਬਧ ਹੈ।
Codex ਵਿੱਚ, GPT‑5.5 Plus, Pro, Business, Enterprise, Edu, ਅਤੇ Go plans ਲਈ 400K context window ਨਾਲ ਉਪਲਬਧ ਹੈ। GPT‑5.5 Fast mode ਵਿੱਚ ਵੀ ਉਪਲਬਧ ਹੈ, ਜੋ 2.5x ਲਾਗਤ 'ਤੇ 1.5x ਤੇਜ਼ੀ ਨਾਲ ਟੋਕਨ ਬਣਾਉਂਦਾ ਹੈ।
API developers ਲਈ, gpt-5.5 ਜਲਦੀ ਹੀ Responses ਅਤੇ ਚੈਟ ਕੰਪਲੀਸ਼ਨਜ਼ APIs ਵਿੱਚ $5 ਪ੍ਰਤੀ 1M input tokens ਅਤੇ $30 ਪ੍ਰਤੀ 1M output tokens 'ਤੇ, 1M context window ਦੇ ਨਾਲ ਉਪਲਬਧ ਹੋਵੇਗਾ। Batch ਅਤੇ Flex pricing ਮਿਆਰੀ API ਦਰ ਦੇ ਅੱਧੇ 'ਤੇ ਉਪਲਬਧ ਹਨ, ਜਦਕਿ Priority processing ਮਿਆਰੀ ਦਰ ਦੀ 2.5x 'ਤੇ ਉਪਲਬਧ ਹੈ। ਅਸੀਂ API ਵਿੱਚ gpt-5.5-pro ਵੀ ਜਾਰੀ ਕਰਾਂਗੇ ਜੋ ਹੋਰ ਵੀ ਉੱਚ ਸ਼ੁੱਧਤਾ ਲਈ ਹੋਵੇਗਾ, ਜਿਸ ਦੀ ਕੀਮਤ $30 ਪ੍ਰਤੀ 1M input tokens ਅਤੇ $180 ਪ੍ਰਤੀ 1M output tokens ਹੋਵੇਗੀ। ਪੂਰੇ ਵੇਰਵਿਆਂ ਲਈ pricing page ਵੇਖੋ।
ਹਾਲਾਂਕਿ GPT‑5.5 ਦੀ ਕੀਮਤ GPT‑5.4 ਨਾਲੋਂ ਵੱਧ ਹੈ, ਇਹ ਦੋਵੇਂ ਹੋਰ ਬੁੱਧੀਮਾਨ ਅਤੇ ਟੋਕਨ ਪੱਖੋਂ ਕਾਫ਼ੀ ਹੋਰ ਕੁਸ਼ਲ ਹੈ। Codex ਵਿੱਚ, ਅਸੀਂ ਅਨੁਭਵ ਨੂੰ ਧਿਆਨ ਨਾਲ tune ਕੀਤਾ ਹੈ ਤਾਂ ਜੋ GPT‑5.5 ਜ਼ਿਆਦਾਤਰ ਉਪਭੋਗਤਾਵਾਂ ਲਈ GPT‑5.4 ਨਾਲੋਂ ਘੱਟ ਟੋਕਨਾਂ ਨਾਲ ਵਧੀਆ ਨਤੀਜੇ ਦੇਵੇ, ਅਤੇ ਨਾਲ ਹੀ subscription levels ਵਿੱਚ ਉਦਾਰ usage ਜਾਰੀ ਰਹੇ।
ਕੋਡਿੰਗ
ਮੁਲਾਂਕਣ | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
SWE-Bench Pro (Public) * | 58.6% | 57.7% | - | - | 64.3% | 54.2% |
Terminal-Bench 2.0 | 82.7% | 75.1% | - | - | 69.4% | 68.5% |
Expert-SWE (Internal) | 73.1% | 68.5% | - | - | - | - |
*ਲੈਬਜ਼ ਨੇ ਇਸ eval 'ਤੇ ਯਾਦ ਕਰ ਲੈਣ ਦੇ ਸਬੂਤ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਨੋਟ ਕੀਤੇ ਹਨ
ਪੇਸ਼ੇਵਰ
ਮੁਲਾਂਕਣ | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GDPval (wins or ties) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
FinanceAgent v1.1 | 60.0% | 56.0% | - | 61.5% | 64.4% | 59.7% |
Investment Banking Modeling Tasks (Internal) | 88.5% | 87.3% | 88.6% | 83.6% | - | - |
OfficeQA Pro | 54.1% | 53.2% | - | - | 43.6% | 18.1% |
ਕੰਪਿਊਟਰ ਵਰਤੋਂ ਅਤੇ ਵਿਜ਼ਨ
ਮੁਲਾਂਕਣ | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
OSWorld-Verified | 78.7% | 75.0% | - | - | 78.0% | - |
MMMU Pro (ਬਿਨਾਂ ਟੂਲਾਂ) | 81.2% | 81.2% | - | - | - | 80.5% |
MMMU Pro (ਟੂਲਾਂ ਨਾਲ) | 83.2% | 82.1% | - | - | - | - |
ਟੂਲ ਵਰਤੋਂ
ਮੁਲਾਂਕਣ | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
MCP Atlas** | 75.3% | 70.6% | - | - | 79.1% | 78.2% |
Toolathlon | 55.6% | 54.6% | - | - | - | 48.8% |
Tau2-bench Telecom*** | 98.0% | 92.8% | - | - | - | - |
** MCP Atlas: 2026 ਅਪ੍ਰੈਲ ਦੇ ਤਾਜ਼ਾ update ਤੋਂ ਬਾਅਦ Scale AI ਦੇ ਨਤੀਜੇ.
*** Tau2-bench telecom: 5.5 ਅਤੇ 5.4 ਲਈ ਮੂਲ ਪ੍ਰੌੰਪਟਾਂ ਨਾਲ ਨਤੀਜੇ, ਯਾਨੀ ਕੋਈ prompt adjustment ਨਹੀਂ. ਇਸ ਵਿੱਚ ਉਹ ਨਤੀਜੇ ਸ਼ਾਮਲ ਨਹੀਂ ਹਨ ਜੋ ਹੋਰ labs ਨੇ prompt adjustments ਨਾਲ ਮੁਲਾਂਕਿਤ ਕੀਤੇ ਸਨ.
ਅਕਾਦਮਿਕ
ਮੁਲਾਂਕਣ | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GeneBench | 25.0% | 19.0% | 33.2% | 25.6% | - | - |
FrontierMath Tier 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
BixBench | 80.5% | 74.0% | - | - | - | - |
GPQA Diamond | 93.6% | 92.8% | - | 94.4% | 94.2% | 94.3% |
Humanity's Last Exam (ਬਿਨਾਂ ਟੂਲਾਂ) | 41.4% | 39.8% | 43.1% | 42.7% | 46.9% | 44.4% |
Humanity's Last Exam (ਟੂਲਾਂ ਨਾਲ) | 52.2% | 52.1% | 57.2% | 58.7% | 54.7% | 51.4% |
ਸਾਇਬਰਸੁਰੱਖਿਆ
ਮੁਲਾਂਕਣ | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Capture-the-Flags challenge tasks (Internal)**** | 88.1% | 83.7% | - | - | - | - |
CyberGym | 81.8% | 79.0% | - | - | 73.1% | - |
**** system cards ਵਿੱਚ ਵਰਤੇ ਗਏ ਸਭ ਤੋਂ ਔਖੇ CTFs ਦਾ ਇੱਕ ਵਿਸਤਾਰ, ਜਿਸ ਵਿੱਚ ਵਾਧੂ ਔਖੀਆਂ ਚੁਣੌਤੀਆਂ ਸ਼ਾਮਲ ਹਨ.
ਲੰਮਾ ਕਾਂਟੈਕਸਟ
ਮੁਲਾਂਕਣ | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Graphwalks BFS 256k f1 | 73.7% | 62.5% | - | - | 76.9% | - |
Graphwalks BFS 1mil f1 | 45.4% | 9.4% | - | - | 41.2% (Opus 4.6) | - |
Graphwalks parents 256k f1 | 90.1% | 82.8% | - | - | 93.6% | - |
Graphwalks parents 1mil f1 | 58.5% | 44.4% | - | - | 72.0% (Opus 4.6) | - |
OpenAI MRCR v2 8-needle 4K-8K | 98.1% | 97.3% | - | - | - | - |
OpenAI MRCR v2 8-needle 8K-16K | 93.0% | 91.4% | - | - | - | - |
OpenAI MRCR v2 8-needle 16K-32K | 96.5% | 97.2% | - | - | - | - |
OpenAI MRCR v2 8-needle 32K-64K | 90.0% | 90.5% | - | - | - | - |
OpenAI MRCR v2 8-needle 64K-128K | 83.1% | 86.0% | - | - | - | - |
OpenAI MRCR v2 8-needle 128K-256K | 87.5% | 79.3% | - | - | 59.2% | - |
OpenAI MRCR v2 8-needle 256K-512K | 81.5% | 57.5% | - | - | - | - |
OpenAI MRCR v2 8-needle 512K-1M | 74.0% | 36.6% | - | - | 32.2% | - |
ਅਮੂਰਤ ਰੀਜ਼ਨਿੰਗ
ਮੁਲਾਂਕਣ | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
ARC-AGI-1 (Verified) | 95.0% | 93.7% | - | 94.5% | 93.5% | 98.0% |
ARC-AGI-2 (Verified) | 85.0% | 73.3% | - | 83.3% | 75.8% | 77.1% |
GPT ਦੇ evals xhigh 'ਤੇ set ਕੀਤੀ ਗਈ reasoning effort ਨਾਲ ਚਲਾਏ ਗਏ ਸਨ ਅਤੇ ਇਹ ਇੱਕ research environment ਵਿੱਚ ਕਰਵਾਏ ਗਏ ਸਨ, ਜੋ ਕੁਝ ਮਾਮਲਿਆਂ ਵਿੱਚ production ChatGPT ਨਾਲੋਂ ਥੋੜ੍ਹਾ ਵੱਖਰਾ ਆਉਟਪੁੱਟ ਦੇ ਸਕਦਾ ਹੈ।








