ਮੁੱਖ ਸਮੱਗਰੀ 'ਤੇ ਜਾਓ
OpenAI

23 ਅਪ੍ਰੈਲ 2026

ਉਤਪਾਦਰਿਲੀਜ਼

GPT‑5.5 ਦੀ ਪੇਸ਼ਕਸ਼

ਅਸਲੀ ਕੰਮ ਲਈ ਬੁੱਧੀ ਦੀ ਇੱਕ ਨਵੀਂ ਸ਼੍ਰੇਣੀ

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

24 ਅਪ੍ਰੈਲ, 2026 ਨੂੰ ਅਪਡੇਟ: GPT‑5.5 ਅਤੇ GPT‑5.5 Pro ਹੁਣ API ਵਿੱਚ ਉਪਲਬਧ ਹਨ। ਸਿਸਟਮ ਕਾਰਡ ਨੂੰ ਵੀ ਲਾਗੂ ਹੋਣ ਵਾਲੀਆਂ ਵਾਧੂ ਸੁਰੱਖਿਆਵਾਂ ਦਾ ਵੇਰਵਾ ਦੇਣ ਲਈ ਅਪਡੇਟ ਕੀਤਾ ਗਿਆ ਹੈ।


ਅਸੀਂ GPT‑5.5 ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ, ਜੋ ਅਜੇ ਤੱਕ ਦਾ ਸਾਡਾ ਸਭ ਤੋਂ ਸਮਾਰਟ ਅਤੇ ਵਰਤਣ ਵਿੱਚ ਸਭ ਤੋਂ ਸਹਿਜ ਮਾਡਲ ਹੈ, ਅਤੇ ਕੰਪਿਊਟਰ 'ਤੇ ਕੰਮ ਕਰਵਾਉਣ ਦੇ ਇਕ ਨਵੇਂ ਤਰੀਕੇ ਵੱਲ ਅਗਲਾ ਕਦਮ ਹੈ।

GPT‑5.5 ਇਹ ਤੇਜ਼ੀ ਨਾਲ ਸਮਝ ਲੈਂਦਾ ਹੈ ਕਿ ਤੁਸੀਂ ਕੀ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੇ ਹੋ ਅਤੇ ਕੰਮ ਦਾ ਹੋਰ ਵੱਡਾ ਹਿੱਸਾ ਖੁਦ ਸੰਭਾਲ ਸਕਦਾ ਹੈ। ਇਹ ਕੋਡ ਲਿਖਣ ਅਤੇ ਡੀਬੱਗ ਕਰਨ, ਆਨਲਾਈਨ ਖੋਜ ਕਰਨ, ਡਾਟਾ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ, ਦਸਤਾਵੇਜ਼ ਅਤੇ ਸਪ੍ਰੈਡਸ਼ੀਟ ਬਣਾਉਣ, ਸੌਫਟਵੇਅਰ ਚਲਾਉਣ, ਅਤੇ ਟੂਲਾਂ ਵਿਚਕਾਰ ਜਾ ਕੇ ਕੰਮ ਪੂਰਾ ਹੋਣ ਤੱਕ ਅੱਗੇ ਵਧਣ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਹੈ। ਹਰ ਕਦਮ ਨੂੰ ਧਿਆਨ ਨਾਲ ਸੰਭਾਲਣ ਦੀ ਬਜਾਏ, ਤੁਸੀਂ GPT‑5.5 ਨੂੰ ਇਕ ਉਲਝਿਆ ਹੋਇਆ, ਕਈ ਹਿੱਸਿਆਂ ਵਾਲਾ ਕੰਮ ਦੇ ਸਕਦੇ ਹੋ ਅਤੇ ਇਸ 'ਤੇ ਭਰੋਸਾ ਕਰ ਸਕਦੇ ਹੋ ਕਿ ਇਹ ਯੋਜਨਾ ਬਣਾਏਗਾ, ਟੂਲ ਵਰਤੇਗਾ, ਆਪਣੇ ਕੰਮ ਦੀ ਜਾਂਚ ਕਰੇਗਾ, ਅਸਪਸ਼ਟਤਾ ਵਿੱਚੋਂ ਰਸਤਾ ਕੱਢੇਗਾ, ਅਤੇ ਲਗਾਤਾਰ ਅੱਗੇ ਵਧੇਗਾ।

ਤਰੱਕੀ ਖਾਸ ਤੌਰ 'ਤੇ ਏਜੰਟਿਕ ਕੋਡਿੰਗ, ਕੰਪਿਊਟਰ ਵਰਤੋਂ, ਗਿਆਨ-ਆਧਾਰਿਤ ਕੰਮ, ਅਤੇ ਸ਼ੁਰੂਆਤੀ ਵਿਗਿਆਨਕ ਖੋਜ ਵਿੱਚ ਮਜ਼ਬੂਤ ਹੈ—ਉਹ ਖੇਤਰ ਜਿੱਥੇ ਤਰੱਕੀ ਸੰਦਰਭ ਦੇ ਪਾਰ ਰੀਜ਼ਨਿੰਗ ਕਰਨ ਅਤੇ ਸਮੇਂ ਦੇ ਨਾਲ ਕਾਰਵਾਈ ਕਰਨ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ। GPT‑5.5 ਬੁੱਧੀਮਾਨੀ ਵਿੱਚ ਇਹ ਵਾਧਾ ਗਤੀ ਨਾਲ ਕੋਈ ਸਮਝੌਤਾ ਕੀਤੇ ਬਿਨਾਂ ਦਿੰਦਾ ਹੈ: ਵੱਡੇ, ਹੋਰ ਸਮਰੱਥ ਮਾਡਲ ਅਕਸਰ ਸੇਵਾ ਦੇਣ ਵਿੱਚ ਹੌਲੇ ਹੁੰਦੇ ਹਨ, ਪਰ GPT‑5.5 ਅਸਲ-ਦੁਨੀਆ ਦੀ ਸਰਵਿੰਗ ਵਿੱਚ GPT‑5.4 ਦੇ ਪ੍ਰਤੀ-ਟੋਕਨ ਲੇਟੈਂਸੀ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ, ਜਦਕਿ ਬੁੱਧੀਮਾਨੀ ਦੇ ਕਾਫ਼ੀ ਉੱਚ ਪੱਧਰ 'ਤੇ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਉਹੀ Codex ਕੰਮ ਪੂਰੇ ਕਰਨ ਲਈ ਕਾਫ਼ੀ ਘੱਟ ਟੋਕਨ ਵੀ ਵਰਤਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ ਹੋਰ ਸਮਰੱਥ ਹੋਣ ਦੇ ਨਾਲ ਹੋਰ ਕੁਸ਼ਲ ਵੀ ਬਣਦਾ ਹੈ।

ਅਸੀਂ GPT‑5.5 ਨੂੰ ਅਜੇ ਤੱਕ ਦੀਆਂ ਆਪਣੀਆਂ ਸਭ ਤੋਂ ਮਜ਼ਬੂਤ ਸੁਰੱਖਿਆਵਾਂ ਦੇ ਸੈੱਟ ਨਾਲ ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ, ਜਿਨ੍ਹਾਂ ਦਾ ਉਦੇਸ਼ ਲਾਭਕਾਰੀ ਕੰਮ ਲਈ ਪਹੁੰਚ ਬਰਕਰਾਰ ਰੱਖਦਿਆਂ ਦੁਰਵਰਤੋਂ ਨੂੰ ਘਟਾਉਣਾ ਹੈ। ਅਸੀਂ ਇਸ ਮਾਡਲ ਦਾ ਆਪਣੇ ਸੁਰੱਖਿਆ ਅਤੇ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕਸ ਦੇ ਪੂਰੇ ਸੈੱਟ ਵਿੱਚ ਮੁਲਾਂਕਣ ਕੀਤਾ, ਅੰਦਰੂਨੀ ਅਤੇ ਬਾਹਰੀ ਰੈੱਡਟੀਮਰਾਂ ਨਾਲ ਕੰਮ ਕੀਤਾ, ਅਗੇਤਰੀ ਸਾਈਬਰਸੁਰੱਖਿਆ ਅਤੇ ਜੀਵ ਵਿਗਿਆਨ ਸਮਰੱਥਾਵਾਂ ਲਈ ਨਿਸ਼ਾਨਾਬੱਧ ਟੈਸਟਿੰਗ ਜੋੜੀ, ਅਤੇ ਜਾਰੀ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਲਗਭਗ 200 ਭਰੋਸੇਯੋਗ ਸ਼ੁਰੂਆਤੀ-ਪਹੁੰਚ ਭਾਗੀਦਾਰਾਂ ਤੋਂ ਅਸਲ ਵਰਤੋਂ ਕੇਸਾਂ ਬਾਰੇ ਫੀਡਬੈਕ ਇਕੱਠੀ ਕੀਤੀ।

ਅੱਜ, GPT‑5.5 ChatGPT ਅਤੇ Codex ਵਿੱਚ Plus, Pro, Business, ਅਤੇ Enterprise ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਰੋਲ ਆਉਟ ਹੋ ਰਿਹਾ ਹੈ, ਅਤੇ GPT‑5.5 Pro ChatGPT ਵਿੱਚ Pro, Business, ਅਤੇ Enterprise ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਰੋਲ ਆਉਟ ਹੋ ਰਿਹਾ ਹੈ। API ਡਿਪਲੋਇਮੈਂਟਾਂ ਲਈ ਵੱਖਰੀਆਂ ਸੁਰੱਖਿਆਵਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਅਤੇ ਅਸੀਂ ਇਸ ਨੂੰ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਸੇਵਾ ਦੇਣ ਲਈ ਭਾਗੀਦਾਰਾਂ ਅਤੇ ਗਾਹਕਾਂ ਨਾਲ ਸੁਰੱਖਿਆ ਅਤੇ ਸਿਕਿਊਰਟੀ ਦੀਆਂ ਲੋੜਾਂ 'ਤੇ ਨੇੜੇ ਤੋਂ ਕੰਮ ਕਰ ਰਹੇ ਹਾਂ। ਅਸੀਂ GPT‑5.5 ਅਤੇ GPT‑5.5 Pro ਨੂੰ ਬਹੁਤ ਜਲਦੀ API ਵਿੱਚ ਲਿਆਵਾਂਗੇ।

GPT‑5.5

GPT‑5.4 

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Terminal-Bench 2.0

82.7%

75.1%

-

-

69.4%

68.5%

Expert-SWE (Internal)

73.1%

68.5%

-

-

-

-

GDPval (wins or ties)

84.9%

83.0%

82.3%

82.0%

80.3%

67.3%

OSWorld-Verified

78.7%

75.0%

-

-

78.0%

-

Toolathlon

55.6%

54.6%

-

-

-

48.8%

BrowseComp

84.4%

82.7%

90.1%

89.3%

79.3%

85.9%

FrontierMath Tier 1–3

51.7%

47.6%

52.4%

50.0%

43.8%

36.9%

FrontierMath Tier 4

35.4%

27.1%

39.6%

38.0%

22.9%

16.7%

CyberGym

81.8%

79.0%

-

-

73.1%

-

ਮਾਡਲ ਸਮਰੱਥਾਵਾਂ

OpenAI ਏਜੰਟਿਕ AI ਲਈ ਵਿਸ਼ਵ ਪੱਧਰੀ ਇੰਫ੍ਰਾਸਟ੍ਰਕਚਰ ਤਿਆਰ ਕਰ ਰਹੀ ਹੈ, ਜਿਸ ਨਾਲ ਦੁਨੀਆ ਭਰ ਦੇ ਲੋਕਾਂ ਅਤੇ ਕਾਰੋਬਾਰਾਂ ਲਈ AI ਨਾਲ ਕੰਮ ਕਰਵਾਉਣਾ ਸੰਭਵ ਬਣਦਾ ਹੈ। ਪਿਛਲੇ ਇੱਕ ਸਾਲ ਦੌਰਾਨ, ਅਸੀਂ ਵੇਖਿਆ ਹੈ ਕਿ AI ਨੇ ਸੌਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਨੂੰ ਨਾਟਕੀ ਢੰਗ ਨਾਲ ਤੇਜ਼ ਕੀਤਾ ਹੈ। Codex ਅਤੇ ChatGPT ਵਿੱਚ GPT‑5.5 ਨਾਲ, ਉਹੀ ਬਦਲਾਅ ਹੁਣ ਵਿਗਿਆਨਕ ਖੋਜ ਅਤੇ ਕੰਪਿਊਟਰਾਂ 'ਤੇ ਲੋਕਾਂ ਦੁਆਰਾ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਵਿਆਪਕ ਕੰਮ ਤੱਕ ਫੈਲਣਾ ਸ਼ੁਰੂ ਹੋ ਰਿਹਾ ਹੈ।

ਇਨ੍ਹਾਂ ਸਭ ਖੇਤਰਾਂ ਵਿੱਚ, GPT‑5.5 ਸਿਰਫ ਹੋਰ ਬੁੱਧੀਮਾਨ ਨਹੀਂ ਹੈ; ਇਹ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦੇ ਆਪਣੇ ਢੰਗ ਵਿੱਚ ਹੋਰ ਕੁਸ਼ਲ ਵੀ ਹੈ, ਅਤੇ ਅਕਸਰ ਘੱਟ ਟੋਕਨਾਂ ਅਤੇ ਘੱਟ ਰੀਟ੍ਰਾਈਜ਼ ਨਾਲ ਹੋਰ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਨਤੀਜੇ ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ। Artificial Analysis ਦੇ Coding Index 'ਤੇ, GPT‑5.5 ਮੁਕਾਬਲਾਤੀ ਅਤਿ-ਆਧੁਨਿਕ ਕੋਡਿੰਗ ਮਾਡਲਾਂ ਦੀ ਅੱਧੀ ਲਾਗਤ 'ਤੇ state-of-the-art ਬੁੱਧੀਮਾਨੀ ਦਿੰਦਾ ਹੈ।

Artificial Analysis Intelligence Index(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਇੱਕ ਬਾਹਰੀ ਪੱਖ ਵੱਲੋਂ ਚਲਾਏ ਗਏ 10 evals ਦਾ weighted average ਹੈ: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.

ਏਜੰਟਿਕ ਕੋਡਿੰਗ

GPT‑5.5 ਅਜੇ ਤੱਕ ਦਾ ਸਾਡਾ ਸਭ ਤੋਂ ਮਜ਼ਬੂਤ ਏਜੰਟਿਕ ਕੋਡਿੰਗ ਮਾਡਲ ਹੈ। Terminal-Bench 2.0 'ਤੇ, ਜੋ ਯੋਜਨਾ, ਦੁਹਰਾਵਟ, ਅਤੇ ਟੂਲ ਸਮਨਵਯ ਦੀ ਲੋੜ ਵਾਲੇ ਜਟਿਲ command-line workflows ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ, ਇਹ 82.7% ਦੀ state-of-the-art ਸ਼ੁੱਧਤਾ ਹਾਸਲ ਕਰਦਾ ਹੈ। SWE-Bench Pro 'ਤੇ, ਜੋ ਅਸਲ-ਦੁਨੀਆ ਦੇ GitHub issue resolution ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ, ਇਹ 58.6% ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ, ਅਤੇ ਪਿਛਲੇ ਮਾਡਲਾਂ ਨਾਲੋਂ ਇਕੋ ਪਾਸ ਵਿੱਚ ਹੋਰ ਵੱਧ ਕੰਮ end-to-end ਹੱਲ ਕਰਦਾ ਹੈ। Expert-SWE 'ਤੇ, ਜੋ ਲੰਬੇ ਸਮੇਂ ਵਾਲੇ ਕੋਡਿੰਗ ਕੰਮਾਂ ਲਈ ਸਾਡਾ ਅੰਦਰੂਨੀ ਅਤਿ-ਆਧੁਨਿਕ eval ਹੈ ਅਤੇ ਜਿਸ ਵਿੱਚ ਮਨੁੱਖੀ ਪੂਰਨਤਾ ਸਮਾਂ ਦਾ median ਅਨੁਮਾਨ 20 ਘੰਟੇ ਹੈ, GPT‑5.5 GPT‑5.4 ਤੋਂ ਵੀ ਬਿਹਤਰ ਹੈ।

ਤਿੰਨਾਂ evals ਵਿੱਚ, GPT‑5.5 ਘੱਟ ਟੋਕਨ ਵਰਤਦਿਆਂ GPT‑5.4 ਦੇ ਸਕੋਰਾਂ ਤੋਂ ਬਿਹਤਰ ਨਤੀਜੇ ਦਿੰਦਾ ਹੈ।

ਮਾਡਲ ਦੀਆਂ ਕੋਡਿੰਗ ਤਾਕਤਾਂ Codex ਵਿੱਚ ਖਾਸ ਤੌਰ 'ਤੇ ਸਾਫ਼ ਦਿਖਾਈ ਦਿੰਦੀਆਂ ਹਨ, ਜਿੱਥੇ ਇਹ implementation ਅਤੇ refactors ਤੋਂ ਲੈ ਕੇ debugging, testing, ਅਤੇ validation ਤੱਕ ਦੇ ਇੰਜੀਨੀਅਰਿੰਗ ਕੰਮ ਸੰਭਾਲ ਸਕਦਾ ਹੈ। ਸ਼ੁਰੂਆਤੀ ਟੈਸਟਿੰਗ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ GPT‑5.5 ਉਨ੍ਹਾਂ ਵਰਤਾਰਿਆਂ ਵਿੱਚ ਹੋਰ ਵਧੀਆ ਹੈ ਜਿਨ੍ਹਾਂ 'ਤੇ ਅਸਲੀ ਇੰਜੀਨੀਅਰਿੰਗ ਕੰਮ ਨਿਰਭਰ ਕਰਦਾ ਹੈ, ਜਿਵੇਂ ਵੱਡੇ ਸਿਸਟਮਾਂ ਵਿੱਚ ਸੰਦਰਭ ਕਾਇਮ ਰੱਖਣਾ, ਅਸਪਸ਼ਟ ਫੇਲ੍ਹਰਾਂ ਰਾਹੀਂ ਰੀਜ਼ਨਿੰਗ ਕਰਨਾ, ਟੂਲਾਂ ਨਾਲ ਧਾਰਣਾਵਾਂ ਦੀ ਜਾਂਚ ਕਰਨਾ, ਅਤੇ ਆਲੇ-ਦੁਆਲੇ ਦੇ ਕੋਡਬੇਸ ਵਿੱਚ ਬਦਲਾਅ ਨੂੰ ਅੱਗੇ ਲਿਜਾਣਾ।

ਰੈਂਡਰ ਕੀਤੀ ਗਈ ਟ੍ਰੈਜੈਕਟਰੀ Orion, Moon ਅਤੇ Sun ਲਈ NASA/JPL Horizons ਵੇਕਟਰ ਡਾਟਾ ਵਰਤਦੀ ਹੈ, ਅਤੇ ਪੜ੍ਹਨਯੋਗਤਾ ਲਈ ਡਿਸਪਲੇ ਸਕੇਲਿੰਗ ਲਾਗੂ ਕੀਤੀ ਗਈ ਹੈ.

ਪ੍ਰੌੰਪਟ: [attached image] ਇਸਨੂੰ webgl ਅਤੇ vite ਦੀ ਵਰਤੋਂ ਨਾਲ ਇੱਕ ਨਵੇਂ ਐਪ ਵਜੋਂ ਲਾਗੂ ਕਰੋ, ਜਿਸ ਵਿੱਚ artemis II mission ਦਾ ਅਸਲੀ ਡਾਟਾ ਵਰਤਿਆ ਗਿਆ ਹੋਵੇ. ਯਕੀਨੀ ਬਣਾਓ ਕਿ ਐਪ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਟੈਸਟ ਕੀਤਾ ਜਾਵੇ ਜਦ ਤੱਕ ਇਹ ਪੂਰੀ ਤਰ੍ਹਾਂ ਕਾਰਗਰ ਨਾ ਹੋ ਜਾਵੇ ਅਤੇ ਤਸਵੀਰ ਵਾਲੇ ਐਪ ਵਰਗਾ ਨਾ ਲੱਗੇ. ਗ੍ਰਹਿਆਂ ਅਤੇ ਉਡਾਨ ਪਾਥਾਂ ਦੀ ਰੈਂਡਰਿੰਗ ਉੱਤੇ ਖ਼ਾਸ ਧਿਆਨ ਦਿਓ. ਮੈਂ 3D ਰੈਂਡਰਿੰਗ ਨਾਲ ਇੰਟਰੈਕਟ ਕਰਨ ਦੇ ਯੋਗ ਹੋਣਾ ਚਾਹੁੰਦਾ ਹਾਂ. ਯਕੀਨੀ ਬਣਾਓ ਕਿ ਇਸ ਵਿੱਚ ਹਕੀਕਤਨੁਮਾ orbital mechanics ਹੋਣ.

ਬੈਂਚਮਾਰਕਾਂ ਤੋਂ ਪਰੇ, ਸ਼ੁਰੂਆਤੀ ਟੈਸਟਰਾਂ ਨੇ ਕਿਹਾ ਕਿ GPT‑5.5 ਸਿਸਟਮ ਦੀ ਬਣਤਰ ਨੂੰ ਸਮਝਣ ਦੀ ਹੋਰ ਮਜ਼ਬੂਤ ਸਮਰੱਥਾ ਦਿਖਾਉਂਦਾ ਹੈ: ਕੁਝ ਕਿਉਂ ਫੇਲ੍ਹ ਹੋ ਰਿਹਾ ਹੈ, ਫਿਕਸ ਕਿੱਥੇ ਲਾਗੂ ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ, ਅਤੇ ਕੋਡਬੇਸ ਵਿੱਚ ਹੋਰ ਕੀ ਪ੍ਰਭਾਵਿਤ ਹੋਵੇਗਾ।

ਵਿਕਲਪਿਕ ਪਾਠ

“ਮੇਰੇ ਵੱਲੋਂ ਵਰਤਿਆ ਪਹਿਲਾ coding model ਜਿਸ ਵਿੱਚ ਗੰਭੀਰ ਧਾਰਣਾਤਮਕ ਸਪਸ਼ਟਤਾ ਹੈ.”

Dan Shipper, Every ਦੇ Founder ਅਤੇ CEO, ਨੇ GPT‑5.5 ਨੂੰ “ਮੇਰੇ ਵੱਲੋਂ ਵਰਤਿਆ ਪਹਿਲਾ coding model ਜਿਸ ਵਿੱਚ ਗੰਭੀਰ ਧਾਰਣਾਤਮਕ ਸਪਸ਼ਟਤਾ ਹੈ” ਵਜੋਂ ਵਰਣਨ ਕੀਤਾ.

ਇੱਕ ਐਪ ਲਾਂਚ ਕਰਨ ਤੋਂ ਬਾਅਦ, ਉਸਨੇ post-launch issue ਨੂੰ ਡੀਬੱਗ ਕਰਨ ਵਿੱਚ ਕਈ ਦਿਨ ਲਗਾ ਦਿੱਤੇ, ਫਿਰ ਆਪਣੇ ਸਭ ਤੋਂ ਵਧੀਆ ਇੰਜੀਨੀਅਰਾਂ ਵਿੱਚੋਂ ਇੱਕ ਨੂੰ ਸਿਸਟਮ ਦਾ ਇੱਕ ਹਿੱਸਾ ਮੁੜ ਲਿਖਣ ਲਈ ਲਿਆਂਦਾ। GPT‑5.5 ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ, ਉਸਨੇ ਅਸਲ ਵਿੱਚ ਸਮਾਂ ਪਿੱਛੇ ਘੁਮਾ ਦਿੱਤਾ: ਕੀ ਮਾਡਲ broken state ਨੂੰ ਦੇਖ ਕੇ ਉਹੀ ਕਿਸਮ ਦੀ rewrite ਕਰ ਸਕਦਾ ਸੀ ਜਿਸ 'ਤੇ ਇੰਜੀਨੀਅਰ ਆਖ਼ਰਕਾਰ ਪਹੁੰਚਿਆ ਸੀ? GPT‑5.4 ਨਹੀਂ ਕਰ ਸਕਿਆ। GPT‑5.5 ਕਰ ਸਕਿਆ।

ਵਿਕਲਪਿਕ ਪਾਠ

“ਇਹ ਸੱਚਮੁੱਚ ਐਸਾ ਲੱਗਦਾ ਹੈ ਜਿਵੇਂ ਮੈਂ ਇੱਕ ਉੱਚੀ ਬੁੱਧੀ ਨਾਲ ਕੰਮ ਕਰ ਰਿਹਾ ਹਾਂ, ਅਤੇ ਲਗਭਗ ਸਤਿਕਾਰ ਜਿਹਾ ਅਹਿਸਾਸ ਹੁੰਦਾ ਹੈ.”

Pietro Schirano, MagicPath ਦੇ CEO, ਨੇ ਵੀ ਇਸੇ ਤਰ੍ਹਾਂ ਦਾ ਇੱਕ ਵੱਡਾ ਬਦਲਾਅ ਦੇਖਿਆ ਜਦੋਂ GPT‑5.5 ਨੇ frontend ਅਤੇ refactor ਵਿੱਚ ਸੈਂਕੜਿਆਂ ਤਬਦੀਲੀਆਂ ਵਾਲੀ ਇੱਕ branch ਨੂੰ ਇੱਕ main branch ਵਿੱਚ merge ਕੀਤਾ ਜੋ ਖੁਦ ਵੀ ਕਾਫ਼ੀ ਬਦਲ ਚੁੱਕੀ ਸੀ, ਅਤੇ ਲਗਭਗ 20 ਮਿੰਟ ਵਿੱਚ ਇੱਕੋ ਵਾਰ ਵਿੱਚ ਕੰਮ ਸੁਲਝਾ ਦਿੱਤਾ.

ਮਾਡਲ ਦੀ ਜਾਂਚ ਕਰਨ ਵਾਲੇ ਸੀਨੀਅਰ ਇੰਜੀਨੀਅਰਾਂ ਨੇ ਕਿਹਾ ਕਿ GPT‑5.5 ਰੀਜ਼ਨਿੰਗ ਅਤੇ autonomy ਵਿੱਚ GPT‑5.4 ਅਤੇ Claude Opus 4.7 ਨਾਲੋਂ ਕਾਫ਼ੀ ਮਜ਼ਬੂਤ ਸੀ, ਅਤੇ ਬਿਨਾਂ ਸਪਸ਼ਟ ਪ੍ਰੌੰਪਟਿੰਗ ਦੇ ਪਹਿਲਾਂ ਹੀ ਮੁੱਦੇ ਪਕੜ ਲੈਂਦਾ ਸੀ ਅਤੇ ਟੈਸਟਿੰਗ ਅਤੇ review ਦੀਆਂ ਲੋੜਾਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰ ਲੈਂਦਾ ਸੀ। ਇੱਕ ਮਾਮਲੇ ਵਿੱਚ, ਇਕ ਇੰਜੀਨੀਅਰ ਨੇ ਇਸ ਨੂੰ collaborative markdown editor ਵਿੱਚ comment system ਦੀ ਮੁੜ-ਵਾਸਤੂਕਲਾ ਕਰਨ ਲਈ ਕਿਹਾ ਅਤੇ ਵਾਪਸ ਆ ਕੇ 12-diff stack ਦੇਖਿਆ ਜੋ ਲਗਭਗ ਪੂਰਾ ਸੀ। ਹੋਰਾਂ ਨੇ ਕਿਹਾ ਕਿ ਉਨ੍ਹਾਂ ਨੂੰ ਹੈਰਾਨੀਜਨਕ ਤੌਰ 'ਤੇ ਬਹੁਤ ਘੱਟ implementation correction ਦੀ ਲੋੜ ਪਈ ਅਤੇ GPT‑5.4 ਨਾਲੋਂ GPT‑5.5 ਦੀਆਂ ਯੋਜਨਾਵਾਂ 'ਤੇ ਹੋਰ ਭਰੋਸਾ ਮਹਿਸੂਸ ਹੋਇਆ।

NVIDIA ਦੇ ਇੱਕ ਇੰਜੀਨੀਅਰ, ਜਿਸ ਨੂੰ ਮਾਡਲ ਦੀ ਸ਼ੁਰੂਆਤੀ ਪਹੁੰਚ ਮਿਲੀ ਸੀ, ਨੇ ਤਾਂ ਇਹ ਵੀ ਕਿਹਾ: "GPT‑5.5 ਦੀ ਪਹੁੰਚ ਖੋਣਾ ਇਸ ਤਰ੍ਹਾਂ ਲੱਗਦਾ ਹੈ ਜਿਵੇਂ ਮੇਰਾ ਕੋਈ ਅੰਗ ਕੱਟ ਦਿੱਤਾ ਗਿਆ ਹੋਵੇ।”

“GPT-5.5, GPT-5.4 ਨਾਲੋਂ ਸਪਸ਼ਟ ਤੌਰ ਉੱਤੇ ਹੋਰ ਸਮਾਰਟ ਅਤੇ ਹੋਰ ਡੱਟਾ ਹੋਇਆ ਹੈ, ਹੋਰ ਮਜ਼ਬੂਤ coding performance ਅਤੇ ਹੋਰ ਭਰੋਸੇਯੋਗ tool use ਦੇ ਨਾਲ. ਇਹ ਕੰਮ ਉੱਤੇ ਕਾਫ਼ੀ ਹੋਰ ਲੰਮੇ ਸਮੇਂ ਤੱਕ ਟਿਕਿਆ ਰਹਿੰਦਾ ਹੈ ਬਿਨਾਂ ਜਲਦੀ ਰੁਕਣ ਦੇ, ਜੋ ਸਾਡੇ ਯੂਜ਼ਰਾਂ ਵੱਲੋਂ Cursor ਨੂੰ ਸੌਂਪੇ ਜਾਣ ਵਾਲੇ ਜਟਿਲ, ਲੰਬੇ ਸਮੇਂ ਚੱਲਣ ਵਾਲੇ ਕੰਮ ਲਈ ਸਭ ਤੋਂ ਵੱਧ ਮਾਇਨੇ ਰੱਖਦਾ ਹੈ.”
— Michael Truell, Cursor ਵਿੱਚ Co-founder ਅਤੇ CEO

ਗਿਆਨ-ਆਧਾਰਿਤ ਕੰਮ

ਉਹੀ ਤਾਕਤਾਂ ਜੋ GPT‑5.5 ਨੂੰ ਕੋਡਿੰਗ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਬਣਾਉਂਦੀਆਂ ਹਨ, ਇਸ ਨੂੰ ਕੰਪਿਊਟਰ 'ਤੇ ਰੋਜ਼ਾਨਾ ਦੇ ਕੰਮ ਲਈ ਵੀ ਬਹੁਤ ਤਾਕਤਵਰ ਬਣਾਉਂਦੀਆਂ ਹਨ। ਕਿਉਂਕਿ ਮਾਡਲ ਮਨਸ਼ਾ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਹੋਰ ਵਧੀਆ ਹੈ, ਇਹ ਗਿਆਨ-ਆਧਾਰਿਤ ਕੰਮ ਦੇ ਪੂਰੇ ਚੱਕਰ ਵਿੱਚ ਹੋਰ ਕੁਦਰਤੀ ਢੰਗ ਨਾਲ ਅੱਗੇ ਵਧ ਸਕਦਾ ਹੈ: ਜਾਣਕਾਰੀ ਲੱਭਣਾ, ਕੀ ਮਹੱਤਵਪੂਰਨ ਹੈ ਇਹ ਸਮਝਣਾ, ਟੂਲ ਵਰਤਣਾ, ਆਉਟਪੁੱਟ ਦੀ ਜਾਂਚ ਕਰਨਾ, ਅਤੇ ਕੱਚੇ ਮਾਲ ਨੂੰ ਕਿਸੇ ਲਾਭਦਾਇਕ ਚੀਜ਼ ਵਿੱਚ ਬਦਲਣਾ।

Codex ਵਿੱਚ, GPT‑5.5 ਦਸਤਾਵੇਜ਼, ਸਪ੍ਰੈਡਸ਼ੀਟ, ਅਤੇ slide presentations ਬਣਾਉਣ ਵਿੱਚ GPT‑5.4 ਤੋਂ ਬਿਹਤਰ ਹੈ। ਅਲਫ਼ਾ ਟੈਸਟਰਾਂ ਨੇ ਕਿਹਾ ਕਿ ਇਸ ਨੇ operational research, spreadsheet modeling, ਅਤੇ ਗੁੰਝਲਦਾਰ ਕਾਰੋਬਾਰੀ inputs ਨੂੰ ਯੋਜਨਾਵਾਂ ਵਿੱਚ ਬਦਲਣ ਵਰਗੇ ਕੰਮਾਂ ਵਿੱਚ ਪਿਛਲੇ ਮਾਡਲਾਂ ਤੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਜਦੋਂ Codex ਦੀਆਂ computer use ਹੁਨਰਾਂ ਨਾਲ ਜੋੜਿਆ ਜਾਂਦਾ ਹੈ, GPT‑5.5 ਸਾਨੂੰ ਇਸ ਅਹਿਸਾਸ ਦੇ ਹੋਰ ਨੇੜੇ ਲਿਆਉਂਦਾ ਹੈ ਕਿ ਮਾਡਲ ਤੁਹਾਡੇ ਨਾਲ ਕੰਪਿਊਟਰ ਨੂੰ ਵਾਸਤਵ ਵਿੱਚ ਵਰਤ ਸਕਦਾ ਹੈ: ਸਕ੍ਰੀਨ 'ਤੇ ਕੀ ਹੈ ਇਹ ਦੇਖਣਾ, ਕਲਿੱਕ ਕਰਨਾ, ਟਾਈਪ ਕਰਨਾ, interfaces ਵਿੱਚ navigate ਕਰਨਾ, ਅਤੇ ਟੂਲਾਂ ਵਿਚਕਾਰ ਸੁਚੋਕਤਾ ਨਾਲ ਅੱਗੇ ਵਧਣਾ।

OpenAI ਦੀਆਂ ਟੀਮਾਂ ਪਹਿਲਾਂ ਹੀ ਇਨ੍ਹਾਂ ਤਾਕਤਾਂ ਨੂੰ ਅਸਲੀ workflows ਵਿੱਚ ਵਰਤ ਰਹੀਆਂ ਹਨ। ਅੱਜ, ਕੰਪਨੀ ਦੇ 85% ਤੋਂ ਵੱਧ ਲੋਕ software engineering, finance, communications, marketing, data science, ਅਤੇ product management ਸਮੇਤ ਕਈ functions ਵਿੱਚ ਹਰ ਹਫ਼ਤੇ Codex ਵਰਤਦੇ ਹਨ। Comms ਵਿੱਚ, ਟੀਮ ਨੇ Codex ਵਿੱਚ GPT‑5.5 ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਛੇ ਮਹੀਨਿਆਂ ਦੇ speaking request data ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ, scoring ਅਤੇ risk framework ਬਣਾਇਆ, ਅਤੇ ਇੱਕ automated Slack ਏਜੰਟ ਨੂੰ validate ਕੀਤਾ ਤਾਂ ਜੋ ਘੱਟ-ਜੋਖਮ ਬੇਨਤੀਆਂ ਨੂੰ ਆਪੇ ਸੰਭਾਲਿਆ ਜਾ ਸਕੇ ਜਦਕਿ ਉੱਚ-ਜੋਖਮ ਬੇਨਤੀਆਂ ਹਾਲੇ ਵੀ ਮਨੁੱਖੀ review ਵੱਲ ਭੇਜੀਆਂ ਜਾਣ। Finance ਵਿੱਚ, ਟੀਮ ਨੇ Codex ਦੀ ਵਰਤੋਂ 24,771 K-1 tax forms ਦੀ ਸਮੀਖਿਆ ਲਈ ਕੀਤੀ, ਜੋ ਕੁੱਲ 71,637 ਪੰਨਿਆਂ ਦੇ ਸਨ, ਅਤੇ ਇੱਕ workflow ਵਰਤਿਆ ਜਿਸ ਨੇ ਨਿੱਜੀ ਜਾਣਕਾਰੀ ਨੂੰ ਬਾਹਰ ਰੱਖਿਆ ਅਤੇ ਟੀਮ ਨੂੰ ਪਿਛਲੇ ਸਾਲ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਇਹ ਕੰਮ ਦੋ ਹਫ਼ਤੇ ਤੇਜ਼ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕੀਤੀ। Go-to-Market ਟੀਮ ਵਿੱਚ, ਇਕ ਕਰਮਚਾਰੀ ਨੇ ਹਫ਼ਤਾਵਾਰੀ ਕਾਰੋਬਾਰੀ ਰਿਪੋਰਟਾਂ ਦਾ ਨਿਰਮਾਣ automate ਕਰ ਦਿੱਤਾ, ਜਿਸ ਨਾਲ ਹਫ਼ਤੇ ਦੇ 5-10 ਘੰਟੇ ਬਚੇ।

ChatGPT ਵਿੱਚ, GPT‑5.5 Thinking ਮੁਸ਼ਕਲ ਸਮੱਸਿਆਵਾਂ ਲਈ ਹੋਰ ਤੇਜ਼ ਮਦਦ ਖੋਲ੍ਹਦਾ ਹੈ, ਹੋਰ ਸਮਾਰਟ ਅਤੇ ਹੋਰ ਸੰਖੇਪ ਜਵਾਬਾਂ ਨਾਲ, ਤਾਂ ਜੋ ਤੁਸੀਂ ਜਟਿਲ ਕੰਮ ਵਿੱਚ ਹੋਰ ਕੁਸ਼ਲਤਾ ਨਾਲ ਅੱਗੇ ਵਧ ਸਕੋ। ਇਹ ਕੋਡਿੰਗ, ਖੋਜ, ਜਾਣਕਾਰੀ ਸੰਸ਼ਲੇਸ਼ਣ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ, ਅਤੇ ਦਸਤਾਵੇਜ਼-ਕੇਂਦਰਿਤ ਕੰਮਾਂ ਵਰਗੇ ਪੇਸ਼ਾਵਰ ਕੰਮ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਹੈ, ਖਾਸ ਕਰਕੇ ਜਦੋਂ plugins ਵਰਤੇ ਜਾਣ।

GPT‑5.5 Pro ਵਿੱਚ, ਸ਼ੁਰੂਆਤੀ ਟੈਸਟਰ ChatGPT ਦੁਆਰਾ ਸੰਭਾਲੇ ਜਾ ਸਕਣ ਵਾਲੇ ਕੰਮ ਦੀ ਮੁਸ਼ਕਲਤਾ ਅਤੇ ਗੁਣਵੱਤਾ ਦੋਵਾਂ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਵਾਧਾ ਦੇਖ ਰਹੇ ਹਨ, ਅਤੇ latency improvements ਇਸ ਨੂੰ demanding tasks ਲਈ ਕਾਫ਼ੀ ਹੋਰ ਵਿਹਾਰਿਕ ਬਣਾਉਂਦੀਆਂ ਹਨ। GPT‑5.4 Pro ਦੇ ਮੁਕਾਬਲੇ, ਟੈਸਟਰਾਂ ਨੇ GPT‑5.5 Pro ਦੇ ਜਵਾਬ ਕਾਫ਼ੀ ਹੋਰ ਵਿਸਤ੍ਰਿਤ, ਚੰਗੀ ਤਰ੍ਹਾਂ ਸੰਰਚਿਤ, ਸਹੀ, ਸਬੰਧਿਤ, ਅਤੇ ਲਾਭਦਾਇਕ ਪਾਏ, ਅਤੇ business, legal, education, ਅਤੇ data science ਵਿੱਚ ਖਾਸ ਤੌਰ 'ਤੇ ਮਜ਼ਬੂਤ ਪ੍ਰਦਰਸ਼ਨ ਦੇਖਿਆ।

GPT‑5.5 ਕਈ ਬੈਂਚਮਾਰਕਾਂ 'ਤੇ state-of-the-art ਪ੍ਰਦਰਸ਼ਨ ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ ਜੋ ਇਸ ਕਿਸਮ ਦੇ ਕੰਮ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। On GDPval⁠, ਜੋ 44 occupations ਵਿੱਚ ਚੰਗੀ ਤਰ੍ਹਾਂ ਨਿਰਧਾਰਤ ਗਿਆਨ-ਆਧਾਰਿਤ ਕੰਮ ਪੈਦਾ ਕਰਨ ਦੀ ਏਜੰਟਾਂ ਦੀ ਸਮਰੱਥਾ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ, GPT‑5.5 84.9% ਸਕੋਰ ਕਰਦਾ ਹੈ। OSWorld-Verified 'ਤੇ, ਜੋ ਇਹ ਮਾਪਦਾ ਹੈ ਕਿ ਕੀ ਮਾਡਲ ਆਪਣੇ ਬਲਬੂਤੇ ਅਸਲ ਕੰਪਿਊਟਰ environments ਚਲਾ ਸਕਦਾ ਹੈ, ਇਹ 78.7% ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ। ਅਤੇ Tau2-bench Telecom 'ਤੇ, ਜੋ ਜਟਿਲ customer-service workflows ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ, ਇਹ ਬਿਨਾਂ prompt tuning ਦੇ 98.0% ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ। GPT‑5.5 ਹੋਰ ਗਿਆਨ-ਆਧਾਰਿਤ ਕੰਮ benchmarks ਵਿੱਚ ਵੀ ਮਜ਼ਬੂਤ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ: FinanceAgent 'ਤੇ 60.0%, internal investment-banking modeling tasks 'ਤੇ 88.5%, ਅਤੇ OfficeQA Pro 'ਤੇ 54.1%।

Tau2-bench Telecom ਬਿਨਾਂ prompt tuning ਦੇ ਚਲਾਇਆ ਗਿਆ ਸੀ (ਅਤੇ GPT‑4.1 ਨੂੰ user model ਵਜੋਂ ਵਰਤਿਆ ਗਿਆ). GPT‑5.5 ਕੰਮ ਦੇ ਇਰਾਦੇ ਨੂੰ ਹੋਰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸਮਝਦਾ ਹੈ ਅਤੇ ਆਪਣੇ ਪੂਰਵਜਾਂ ਨਾਲੋਂ ਹੋਰ token efficient ਹੈ.

“GPT-5.5 execution-heavy ਕੰਮ ਲਈ ਲੋੜੀਂਦੀ ਲਗਾਤਾਰ ਕਾਰਗੁਜ਼ਾਰੀ ਦਿੰਦਾ ਹੈ. NVIDIA GB200 NVL72 systems ਉੱਤੇ ਬਣਾਇਆ ਅਤੇ ਸਰਵ ਕੀਤਾ ਗਿਆ ਇਹ ਮਾਡਲ ਸਾਡੀਆਂ ਟੀਮਾਂ ਨੂੰ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੌੰਪਟਾਂ ਤੋਂ end-to-end features ship ਕਰਨ, debug ਸਮਾਂ ਦਿਨਾਂ ਤੋਂ ਘੰਟਿਆਂ ਤੱਕ ਘਟਾਉਣ, ਅਤੇ ਜਟਿਲ codebases ਵਿੱਚ ਹਫ਼ਤਿਆਂ ਦੇ experimentation ਨੂੰ ਰਾਤੋਂ-ਰਾਤ ਪ੍ਰਗਤੀ ਵਿੱਚ ਬਦਲਣ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ. ਇਹ ਸਿਰਫ਼ ਤੇਜ਼ ਕੋਡਿੰਗ ਤੋਂ ਵੱਧ ਹੈ. ਇਹ ਕੰਮ ਕਰਨ ਦਾ ਇੱਕ ਨਵਾਂ ਢੰਗ ਹੈ ਜੋ ਲੋਕਾਂ ਨੂੰ ਬੁਨਿਆਦੀ ਤੌਰ ਉੱਤੇ ਵੱਖਰੀ ਗਤੀ ਨਾਲ ਕੰਮ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ.”
— Justin Boitano, NVIDIA ਵਿੱਚ Enterprise AI ਦੇ VP

ਵਿਗਿਆਨਕ ਖੋਜ

GPT‑5.5 ਵਿਗਿਆਨਕ ਅਤੇ ਤਕਨੀਕੀ ਖੋਜ workflows ਵਿੱਚ ਵੀ ਸੁਧਾਰ ਦਿਖਾਉਂਦਾ ਹੈ, ਜਿਨ੍ਹਾਂ ਲਈ ਸਿਰਫ਼ ਇੱਕ ਔਖੇ ਸਵਾਲ ਦਾ ਜਵਾਬ ਦੇਣਾ ਕਾਫ਼ੀ ਨਹੀਂ ਹੁੰਦਾ। ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਇੱਕ ਵਿਚਾਰ ਦੀ ਖੋਜ ਕਰਨੀ, ਸਬੂਤ ਇਕੱਠੇ ਕਰਨੇ, ਧਾਰਣਾਵਾਂ ਦੀ ਜਾਂਚ ਕਰਨੀ, ਨਤੀਜਿਆਂ ਦੀ ਵਿਆਖਿਆ ਕਰਨੀ, ਅਤੇ ਫਿਰ ਇਹ ਫੈਸਲਾ ਕਰਨਾ ਹੁੰਦਾ ਹੈ ਕਿ ਅਗਲਾ ਕੀ ਅਜ਼ਮਾਉਣਾ ਹੈ। GPT‑5.5 ਹੋਰ ਮਾਡਲਾਂ ਨਾਲੋਂ ਇਸ ਚੱਕਰ ਵਿੱਚ ਬਣੇ ਰਹਿਣ ਵਿੱਚ ਹੋਰ ਵਧੀਆ ਹੈ।

ਖਾਸ ਤੌਰ 'ਤੇ, GPT‑5.5 GeneBench(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) 'ਤੇ GPT‑5.4 ਦੇ ਮੁਕਾਬਲੇ ਸਪਸ਼ਟ ਸੁਧਾਰ ਦਿਖਾਉਂਦਾ ਹੈ, ਜੋ genetics ਅਤੇ quantitative biology ਵਿੱਚ multi-stage scientific data analysis 'ਤੇ ਕੇਂਦਰਿਤ ਇੱਕ ਨਵਾਂ eval ਹੈ। ਇਹ ਸਮੱਸਿਆਵਾਂ ਮਾਡਲਾਂ ਤੋਂ ਘੱਟ ਤੋਂ ਘੱਟ supervisory guidance ਨਾਲ ਸੰਭਾਵਿਤ ਤੌਰ 'ਤੇ ਅਸਪਸ਼ਟ ਜਾਂ ਗਲਤੀਪੂਰਨ ਡਾਟਾ ਬਾਰੇ ਰੀਜ਼ਨਿੰਗ ਕਰਨ, ਲੁਕੇ ਹੋਏ confounders ਜਾਂ QC failures ਵਰਗੀਆਂ ਹਕੀਕਤੀ ਰੁਕਾਵਟਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨ, ਅਤੇ ਆਧੁਨਿਕ statistical methods ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਲਾਗੂ ਅਤੇ ਵਿਆਖਿਆ ਕਰਨ ਦੀ ਮੰਗ ਕਰਦੀਆਂ ਹਨ। ਮਾਡਲ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਇਸ ਗੱਲ ਦੇ ਮੱਦੇਨਜ਼ਰ ਧਿਆਨ ਖਿੱਚਦਾ ਹੈ ਕਿ ਇੱਥੇ ਦੇ ਕੰਮ ਅਕਸਰ ਵਿਗਿਆਨਕ ਮਾਹਿਰਾਂ ਲਈ ਕਈ ਦਿਨਾਂ ਦੇ ਪ੍ਰੋਜੈਕਟਾਂ ਦੇ ਬਰਾਬਰ ਹੁੰਦੇ ਹਨ।

ਇਸੇ ਤਰ੍ਹਾਂ, BixBench(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) 'ਤੇ, ਜੋ ਅਸਲ-ਦੁਨੀਆ ਦੀ bioinformatics ਅਤੇ data analysis ਦੇ ਆਧਾਰ 'ਤੇ ਬਣਾਇਆ ਗਿਆ benchmark ਹੈ, GPT‑5.5 ਨੇ ਪ੍ਰਕਾਸ਼ਿਤ ਸਕੋਰਾਂ ਵਾਲੇ ਮਾਡਲਾਂ ਵਿੱਚ ਅਗਵਾਈ ਵਾਲਾ ਪ੍ਰਦਰਸ਼ਨ ਹਾਸਲ ਕੀਤਾ। ਮਾਡਲ ਦੀਆਂ ਵਿਗਿਆਨਕ ਸਮਰੱਥਾਵਾਂ ਹੁਣ ਇੰਨੀ ਮਜ਼ਬੂਤ ਹਨ ਕਿ ਇਹ ਇੱਕ ਅਸਲ ਸਹਿ-ਵਿਗਿਆਨੀ ਵਜੋਂ ਜੈਵ-ਚਿਕਿਤਸਕ ਖੋਜ ਦੀਆਂ ਸਰਹੱਦਾਂ 'ਤੇ ਤਰੱਕੀ ਨੂੰ ਅਰਥਪੂਰਨ ਤੌਰ 'ਤੇ ਤੇਜ਼ ਕਰ ਸਕੇ।

ਇੱਕ ਹੋਰ ਉਦਾਹਰਨ ਵਿੱਚ, custom harness ਵਾਲੇ GPT‑5.5 ਦੇ ਇਕ ਅੰਦਰੂਨੀ ਸੰਸਕਰਣ ਨੇ combinatorics ਦੇ ਕੇਂਦਰੀ ਵਿਸ਼ਿਆਂ ਵਿੱਚੋਂ ਇੱਕ, Ramsey numbers, ਬਾਰੇ ਇੱਕ ਨਵਾਂ ਸਬੂਤ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਲੱਭਣ ਵਿੱਚ ਮਦਦ ਕੀਤੀ। Combinatorics ਇਹ ਅਧਿਐਨ ਕਰਦੀ ਹੈ ਕਿ discrete objects ਇਕੱਠੇ ਕਿਵੇਂ ਫਿੱਟ ਹੁੰਦੇ ਹਨ: graphs, networks, sets, ਅਤੇ patterns। Ramsey numbers ਲਗਭਗ ਇਹ ਪੁੱਛਦੇ ਹਨ ਕਿ ਕਿਸੇ ਨਾ ਕਿਸੇ ਤਰ੍ਹਾਂ ਦਾ ਕ੍ਰਮ ਨਿਸ਼ਚਿਤ ਤੌਰ 'ਤੇ ਪ੍ਰਗਟ ਹੋਣ ਤੋਂ ਪਹਿਲਾਂ ਇੱਕ network ਕਿੰਨਾ ਵੱਡਾ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ। ਇਸ ਖੇਤਰ ਵਿੱਚ ਨਤੀਜੇ ਵਿਰਲੇ ਹੁੰਦੇ ਹਨ ਅਤੇ ਅਕਸਰ ਤਕਨੀਕੀ ਤੌਰ 'ਤੇ ਔਖੇ ਹੁੰਦੇ ਹਨ। ਇੱਥੇ, GPT‑5.5 ਨੇ off-diagonal Ramsey numbers ਬਾਰੇ ਲੰਬੇ ਸਮੇਂ ਤੋਂ ਜਾਣੇ ਜਾਂਦੇ asymptotic fact ਦਾ ਸਬੂਤ ਲੱਭਿਆ, ਜਿਸ ਦੀ ਬਾਅਦ ਵਿੱਚ Lean ਵਿੱਚ ਪੁਸ਼ਟੀ ਕੀਤੀ ਗਈ। ਇਹ ਨਤੀਜਾ GPT‑5.5 ਦੁਆਰਾ ਸਿਰਫ ਕੋਡ ਜਾਂ ਵਿਆਖਿਆ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਇਕ ਮੁੱਖ ਖੋਜ ਖੇਤਰ ਵਿੱਚ ਹੈਰਾਨੀਜਨਕ ਅਤੇ ਲਾਭਦਾਇਕ ਗਣਿਤੀ ਤਰਕ ਦੇ ਯੋਗਦਾਨ ਦਾ ਠੋਸ ਉਦਾਹਰਨ ਹੈ।

ਸ਼ੁਰੂਆਤੀ ਟੈਸਟਰਾਂ ਨੇ ChatGPT ਵਿੱਚ GPT‑5.5 Pro ਨੂੰ ਵਨ-ਸ਼ਾਟ ਜਵਾਬ ਇੰਜਣ ਵਾਂਗ ਘੱਟ ਅਤੇ ਖੋਜ ਸਾਥੀ ਵਾਂਗ ਵੱਧ ਵਰਤਿਆ: ਕਈ ਪਾਸਾਂ ਵਿੱਚ manuscripts ਦੀ ਸਮੀਖਿਆ ਕਰਨਾ, ਤਕਨੀਕੀ ਤਰਕਾਂ ਦੀ stress-testing ਕਰਨਾ, analyses ਸੁਝਾਉਣਾ, ਅਤੇ code, notes, ਅਤੇ PDF context ਨਾਲ ਕੰਮ ਕਰਨਾ। ਸਾਂਝੀ ਲਕੀਰ ਇਹ ਹੈ ਕਿ GPT‑5.5 ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਸਵਾਲ ਤੋਂ ਪ੍ਰਯੋਗ ਅਤੇ ਫਿਰ ਆਉਟਪੁੱਟ ਤੱਕ ਲਿਜਾਣ ਵਿੱਚ ਹੋਰ ਵਧੀਆ ਮਦਦ ਕਰਦਾ ਹੈ।

Derya Unutmaz, Jackson Laboratory for Genomic Medicine ਵਿੱਚ immunology ਦੇ professor ਅਤੇ researcher, ਨੇ GPT‑5.5 Pro ਦੀ ਵਰਤੋਂ ਕਰਕੇ 62 samples ਅਤੇ ਲਗਭਗ 28,000 genes ਵਾਲੇ gene-expression dataset ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ, ਅਤੇ ਇੱਕ ਵਿਸਤ੍ਰਿਤ research report ਤਿਆਰ ਕੀਤੀ ਜਿਸ ਨੇ ਨਾ ਸਿਰਫ਼ ਨਤੀਜਿਆਂ ਦਾ ਸਾਰ ਦਿੱਤਾ ਸਗੋਂ ਮੁੱਖ ਪ੍ਰਸ਼ਨ ਅਤੇ insights ਵੀ ਸਾਹਮਣੇ ਲਿਆਂਦੇ—ਉਹ ਕੰਮ ਜੋ ਉਸਨੇ ਕਿਹਾ ਕਿ ਉਸਦੀ ਟੀਮ ਨੂੰ ਮਹੀਨੇ ਲੱਗ ਜਾਂਦੇ.

Bartosz Naskręcki, ਪੋਲੈਂਡ ਦੇ Poznań ਵਿੱਚ Adam Mickiewicz University ਵਿੱਚ ਗਣਿਤ ਦੇ assistant professor, ਨੇ Codex ਵਿੱਚ GPT‑5.5 ਦੀ ਵਰਤੋਂ ਕਰਕੇ 11 ਮਿੰਟ ਵਿੱਚ ਇੱਕੋ ਪ੍ਰੌੰਪਟ ਤੋਂ algebraic-geometry ਐਪ ਬਣਾਈ, ਜਿਸ ਨੇ quadratic surfaces ਦੇ intersection ਨੂੰ visualize ਕੀਤਾ ਅਤੇ ਨਤੀਜੇ ਵਜੋਂ ਬਣੀ curve ਨੂੰ Weierstrass model ਵਿੱਚ ਬਦਲਿਆ.

ਬਾਅਦ ਵਿੱਚ ਉਸਨੇ ਐਪ ਨੂੰ ਹੋਰ stable singularity visualization ਅਤੇ exact coefficients ਨਾਲ ਵਿਸਤਾਰਿਆ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਅੱਗੇ ਦੇ ਕੰਮ ਵਿੱਚ ਦੁਬਾਰਾ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ. ਉਸ ਲਈ ਵੱਡਾ ਬਦਲਾਅ ਇਹ ਹੈ ਕਿ Codex ਹੁਣ custom mathematical visualization ਅਤੇ computer-algebra workflows ਲਾਗੂ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ, ਜਿਨ੍ਹਾਂ ਲਈ ਪਹਿਲਾਂ dedicated tools ਦੀ ਲੋੜ ਹੁੰਦੀ ਸੀ. ਇਕੱਠੇ ਮਿਲ ਕੇ, ਇਹ ਉਦਾਹਰਨਾਂ ਦਿਖਾਉਂਦੀਆਂ ਹਨ ਕਿ GPT‑5.5 expert intent ਨੂੰ ਕੰਮ ਕਰਨ ਵਾਲੇ research tools ਅਤੇ analyses ਵਿੱਚ ਬਦਲ ਰਿਹਾ ਹੈ.

“”

ਸ਼੍ਰੇਯ: Bartosz Naskręcki(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)

ਪ੍ਰੌੰਪਟ: # Algebraic geometry surface intersection

ਇੱਕ ਐਪ ਬਣਾਓ ਜੋ ਦੋ quadratic surfaces ਡ੍ਰਾ ਕਰੇ ਅਤੇ intersection curve ਨੂੰ ਲਾਲ ਰੰਗ ਵਿੱਚ ਦਰਸਾਏ. ਇਸਨੂੰ Weierstrass curve ਵਿੱਚ ਬਦਲਣ ਲਈ computational Riemann-Roch theorem ਵਰਤੋ.

## ਮੁੱਖ ਵਿੰਡੋ

ਦੋ tinted surfaces ਹਲਕੀ transparent shading ਨਾਲ, ਉੱਚ ਗੁਣਵੱਤਾ rendering ਇੱਕ ਲਾਲ ਰੰਗੀ algebraic curve ਦੇ ਨਾਲ intersect ਕਰਦੀਆਂ ਹਨ

ਦੋਵੇਂ ਦਿਸ਼ਾਵਾਂ ਵਿੱਚ mouse ਨਾਲ rotation, zoom ਲਈ ਪੂਰਾ pinch mechanism, haptic press ਨਾਲ ਛੋਟਾ menu ਦਿਖੇ ਜਿਸ ਵਿੱਚ ਹਰ surface ਦੇ coefficients ਬਦਲਣ ਲਈ sliders ਹੋਣ; detection Z-buffor level ਰਾਹੀਂ

## ਸੱਜੇ ਪਾਸੇ ਦੀ ਵਿੰਡੋ

Short Weierstrass equation (Q ਉੱਤੇ ਜਾਂ quadratic field extension ਉੱਤੇ) effective Riemann-Roch theorem formulas ਰਾਹੀਂ ਤੁਰੰਤ ਗਣਨਾ ਕੀਤੀ ਜਾਵੇ

## Ambient mode ਜਿੱਥੇ ਸਾਰੇ controls ਲੁਕਾਏ ਹੋਣ ਅਤੇ ਯੂਜ਼ਰ shapes ਦੀ ਸੁੰਦਰਤਾ ਦਾ ਆਨੰਦ ਲੈ ਸਕੇ

## Specs

ਐਪ browser ਵਿੱਚ ਚਲਦੀ ਹੋਵੇ, light-weight implementation ਹੋਵੇ, full stack newest libraries ਨਾਲ, portable, deployable

## Docs

Git repo, journal, plan (Markdown files)

“ਸਾਡੇ harness ਵਿੱਚ OpenAI ਦਾ ਨਵਾਂ GPT-5.5 ਮਾਡਲ ਵਰਤਣਾ, ਇਸਨੂੰ ਵੱਡੇ ਬਾਇਓਕੈਮੀਕਲ ਡਾਟਾਸੈੱਟਾਂ ਉੱਤੇ ਰੀਜ਼ਨ ਕਰਵਾ ਕੇ ਮਨੁੱਖੀ ਦਵਾਈ ਨਤੀਜਿਆਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨਾ, ਅਤੇ ਫਿਰ ਸਾਡੇ ਸਭ ਤੋਂ ਔਖੇ drug discovery evals ਉੱਤੇ ਇਸ ਵੱਲੋਂ ਮਹੱਤਵਪੂਰਨ ਸ਼ੁੱਧਤਾ ਵਾਧੇ ਦੇਣਾ ਦੇਖਣਾ ਬੇਹੱਦ ਉਤਸ਼ਾਹਜਨਕ ਹੈ. ਜੇ OpenAI ਇਸੇ ਤਰ੍ਹਾਂ ਕਮਾਲ ਕਰਦਾ ਰਿਹਾ, ਤਾਂ ਸਾਲ ਦੇ ਅੰਤ ਤੱਕ drug discovery ਦੀਆਂ ਬੁਨਿਆਦਾਂ ਬਦਲ ਜਾਣਗੀਆਂ.”
— Brandon White, Axiom Bio ਵਿੱਚ Co-Founder ਅਤੇ CEO

ਅਗਲੀ ਪੀੜ੍ਹੀ ਦੀ inference ਕੁਸ਼ਲਤਾ

GPT‑5.5 ਨੂੰ GPT‑5.4 ਦੀ latency 'ਤੇ serve ਕਰਨ ਲਈ inference ਨੂੰ ਵੱਖ-ਵੱਖ optimizations ਦੇ ਸੈੱਟ ਵਜੋਂ ਨਹੀਂ, ਸਗੋਂ ਇਕ ਇੰਟੀਗ੍ਰੇਟਡ ਸਿਸਟਮ ਵਜੋਂ ਦੁਬਾਰਾ ਸੋਚਣ ਦੀ ਲੋੜ ਪਈ। GPT‑5.5 ਨੂੰ NVIDIA GB200 ਅਤੇ GB300 NVL72 systems ਲਈ co-design ਕੀਤਾ ਗਿਆ, ਉਨ੍ਹਾਂ ਨਾਲ train ਕੀਤਾ ਗਿਆ, ਅਤੇ ਉਨ੍ਹਾਂ 'ਤੇ serve ਕੀਤਾ ਗਿਆ। Codex ਅਤੇ GPT‑5.5 ਸਾਡੇ performance targets ਹਾਸਲ ਕਰਨ ਦੇ ਢੰਗ ਵਿੱਚ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਸਨ। Codex ਨੇ ਟੀਮ ਨੂੰ ਵਿਚਾਰ ਤੋਂ benchmarkable implementation ਤੱਕ ਹੋਰ ਤੇਜ਼ੀ ਨਾਲ ਪਹੁੰਚਣ ਵਿੱਚ ਮਦਦ ਕੀਤੀ, approaches sketch ਕੀਤੀਆਂ, experiments ਜੋੜੇ, ਅਤੇ ਇਹ ਪਛਾਣਣ ਵਿੱਚ ਮਦਦ ਕੀਤੀ ਕਿ ਕਿਹੜੀਆਂ optimizations ਵਿੱਚ ਹੋਰ ਡੂੰਘਾ ਨਿਵੇਸ਼ ਕਰਨ ਜੋਗ ਸੀ। GPT‑5.5 ਨੇ stack ਵਿੱਚ ਹੀ ਮੁੱਖ ਸੁਧਾਰ ਲੱਭਣ ਅਤੇ ਲਾਗੂ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕੀਤੀ। ਸਧਾਰਣ ਤੌਰ 'ਤੇ ਕਹੀਏ, ਮਾਡਲ ਨੇ ਉਸ ਇੰਫ੍ਰਾਸਟ੍ਰਕਚਰ ਨੂੰ ਸੁਧਾਰਣ ਵਿੱਚ ਮਦਦ ਕੀਤੀ ਜੋ ਇਸ ਨੂੰ ਸੇਵਾ ਦਿੰਦਾ ਹੈ।

ਐਸੇ ਹੀ ਇਕ ਸੁਧਾਰ ਵਿੱਚ load balancing ਅਤੇ partitioning heuristics ਸ਼ਾਮਲ ਸਨ। GPT‑5.5 ਤੋਂ ਪਹਿਲਾਂ, ਅਸੀਂ ਕੰਮ ਨੂੰ computing cores ਵਿੱਚ ਸੰਤੁਲਿਤ ਕਰਨ ਲਈ accelerator ਉੱਤੇ ਬੇਨਤੀਆਂ ਨੂੰ ਨਿਸ਼ਚਿਤ ਗਿਣਤੀ ਵਾਲੇ chunks ਵਿੱਚ ਵੰਡ ਦਿੰਦੇ ਸੀ, ਤਾਂ ਜੋ ਵੱਡੀਆਂ ਅਤੇ ਛੋਟੀਆਂ ਬੇਨਤੀਆਂ ਇੱਕੋ GPU 'ਤੇ ਚੱਲ ਸਕਣ। ਹਾਲਾਂਕਿ, ਪਹਿਲਾਂ ਤੋਂ ਤੈਅ ਕੀਤੀ ਗਈ static chunks ਦੀ ਗਿਣਤੀ ਹਰ traffic shape ਲਈ ਉਤਕ੍ਰਿਸ਼ਟ ਨਹੀਂ ਹੁੰਦੀ। GPUs ਦਾ ਬਿਹਤਰ ਇਸਤੇਮਾਲ ਕਰਨ ਲਈ, Codex ਨੇ ਕਈ ਹਫ਼ਤਿਆਂ ਦੇ production traffic patterns ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ ਅਤੇ ਕੰਮ ਨੂੰ ਉਤਕ੍ਰਿਸ਼ਟ ਢੰਗ ਨਾਲ partition ਅਤੇ balance ਕਰਨ ਲਈ custom heuristic algorithms ਲਿਖੀਆਂ। ਇਸ ਯਤਨ ਦਾ ਅਸਧਾਰਣ ਪ੍ਰਭਾਵ ਪਿਆ, ਅਤੇ token generation speeds 20% ਤੋਂ ਵੱਧ ਵਧ ਗਈਆਂ।

ਸਭ ਦੀ ਸੁਰੱਖਿਆ ਲਈ ਸਾਈਬਰਸੁਰੱਖਿਆ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣਾ

ਦੁਨੀਆ ਨੂੰ ਉਹਨਾਂ ਮਾਡਲਾਂ ਲਈ ਤਿਆਰ ਕਰਨਾ ਜੋ ਸੁਰੱਖਿਆ ਕਮਜ਼ੋਰੀਆਂ ਲੱਭਣ ਅਤੇ patch ਕਰਨ ਵਿੱਚ ਬਹੁਤ ਵਧੀਆ ਹਨ, ਇੱਕ ਸਾਂਝਾ ਯਤਨ ਹੈ ਅਤੇ ਇਸ ਲਈ ਪੂਰੇ ecosystem ਨੂੰ resilience ਬਣਾਉਣ ਲਈ ਕੜੀ ਮਿਹਨਤ ਕਰਨੀ ਪਵੇਗੀ, ਜਿਸ ਵਿੱਚ model access ਦਾ ਲੋਕਤੰਤਰਿਕਰਨ ਅਤੇ ਸਾਈਬਰ ਰੱਖਿਆ ਦੇ ਅਗਲੇ ਦੌਰ ਲਈ iterative deployment ਸ਼ਾਮਲ ਹੈ।

ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਸਾਈਬਰਸੁਰੱਖਿਆ ਵਿੱਚ ਲਗਾਤਾਰ ਹੋਰ ਸਮਰੱਥ ਬਣ ਰਹੇ ਹਨ। ਇਹ ਸਮਰੱਥਾਵਾਂ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਵੰਡੀਆਂ ਜਾਣਗੀਆਂ ਅਤੇ ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਸਭ ਤੋਂ ਵਧੀਆ ਰਸਤਾ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣਾ ਹੈ ਕਿ ਉਨ੍ਹਾਂ ਨੂੰ ਸਾਈਬਰ ਰੱਖਿਆ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਅਤੇ ecosystem ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕੇ।

GPT‑5.5 AI ਵੱਲ ਇੱਕ ਕ੍ਰਮਿਕ ਪਰ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਹੈ ਜੋ ਸਾਈਬਰਸੁਰੱਖਿਆ ਵਰਗੀਆਂ ਦੁਨੀਆ ਦੀਆਂ ਕੁਝ ਸਭ ਤੋਂ ਔਖੀਆਂ ਚੁਣੌਤੀਆਂ ਨੂੰ ਹੱਲ ਕਰ ਸਕਦੀ ਹੈ। ਦਸੰਬਰ ਵਿੱਚ GPT‑5.2 ਦੇ ਨਾਲ, ਅਸੀਂ ਆਪਣੇ ਮਾਡਲਾਂ ਨਾਲ ਸੰਭਾਵਿਤ ਸਾਈਬਰ ਦੁਰਵਰਤੋਂ ਨੂੰ ਸੀਮਿਤ ਕਰਨ ਲਈ ਲੋੜੀਂਦੀਆਂ ਸਾਈਬਰ ਸੁਰੱਖਿਆਵਾਂ ਨੂੰ ਪਹਿਲਾਂ ਹੀ ਡਿਪਲੋਇ ਕੀਤਾ ਸੀ; ਹੁਣ GPT‑5.5 ਨਾਲ, ਅਸੀਂ ਸੰਭਾਵਿਤ ਸਾਈਬਰ ਜੋਖਮ ਲਈ ਹੋਰ ਸਖ਼ਤ classifiers ਡਿਪਲੋਇ ਕਰ ਰਹੇ ਹਾਂ, ਜੋ ਕੁਝ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਸ਼ੁਰੂ ਵਿੱਚ ਪਰੇਸ਼ਾਨ ਕਰ ਸਕਦੇ ਹਨ, ਕਿਉਂਕਿ ਅਸੀਂ ਸਮੇਂ ਦੇ ਨਾਲ ਉਨ੍ਹਾਂ ਨੂੰ tune ਕਰਦੇ ਰਹਾਂਗੇ।

ਅਸੀਂ ਸਾਲਾਂ ਤੋਂ ਸਾਈਬਰਸੁਰੱਖਿਆ ਨੂੰ ਆਪਣੇ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਇੱਕ ਸ਼੍ਰੇਣੀ ਵਜੋਂ ਦਰਜ ਕੀਤਾ ਹੈ, ਜਦਕਿ ਸਾਡੇ ਮਾਡਲ ਕ੍ਰਮਿਕ ਤੌਰ 'ਤੇ ਸੁਧਰੇ ਹਨ, ਅਤੇ ਅਸੀਂ meaningful cybersecurity capabilities ਵਾਲੇ ਮਾਡਲਾਂ ਨੂੰ ਜ਼ਿੰਮੇਵਾਰੀ ਨਾਲ ਜਾਰੀ ਕਰਨ ਦੇ ਯੋਗ ਬਣਨ ਲਈ mitigations ਨੂੰ iteratively ਵਿਕਸਿਤ ਅਤੇ calibrate ਕਰਦੇ ਰਹੇ ਹਾਂ।

  • ਅਸੀਂ ਇਸ ਪੱਧਰ ਦੀ ਸਾਈਬਰ ਸਮਰੱਥਾ ਲਈ ਉਦਯੋਗ-ਅਗੇਤੀ ਸੁਰੱਖਿਆਵਾਂ ਡਿਪਲੋਇ ਕਰ ਰਹੇ ਹਾਂ। ਅਸੀਂ ਪਹਿਲੀ ਵਾਰ ਪਿਛਲੇ ਸਾਲ GPT‑5.2(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਨਾਲ ਸਾਈਬਰ-ਖ਼ਾਸ ਸੁਰੱਖਿਆਵਾਂ ਪੇਸ਼ ਕੀਤੀਆਂ ਸਨ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਅਸੀਂ ਅਗਲੇ deploymentਾਂ ਵਿੱਚ ਲਗਾਤਾਰ test, refine, ਅਤੇ build ਕਰਦੇ ਆ ਰਹੇ ਹਾਂ। GPT‑5.5 ਲਈ, ਅਸੀਂ ਉੱਚ-ਜੋਖਮ ਗਤੀਵਿਧੀ, ਸੰਵੇਦਨਸ਼ੀਲ ਸਾਈਬਰ ਬੇਨਤੀਆਂ, ਅਤੇ ਵਾਰੰਵਾਰ ਦੁਰਵਰਤੋਂ ਲਈ ਜੋੜੀਆਂ ਸੁਰੱਖਿਆਵਾਂ ਦੇ ਆਲੇ ਦੁਆਲੇ ਹੋਰ ਕੱਸੇ ਹੋਏ controls ਡਿਜ਼ਾਈਨ ਕੀਤੇ ਹਨ। ਵਿਆਪਕ ਪਹੁੰਚ model safety, authenticated usage, ਅਤੇ impermissible use ਦੀ monitoring ਵਿੱਚ ਸਾਡੇ ਨਿਵੇਸ਼ਾਂ ਰਾਹੀਂ ਸੰਭਵ ਬਣਦੀ ਹੈ। ਅਸੀਂ ਬਾਹਰੀ ਮਾਹਿਰਾਂ ਨਾਲ ਕਈ ਮਹੀਨਿਆਂ ਤੋਂ ਇਨ੍ਹਾਂ ਸੁਰੱਖਿਆਵਾਂ ਦੀ robustness ਨੂੰ ਵਿਕਸਿਤ, test ਅਤੇ iterate ਕਰਨ ਲਈ ਕੰਮ ਕਰ ਰਹੇ ਹਾਂ। GPT‑5.5 ਨਾਲ, ਅਸੀਂ ਇਹ ਯਕੀਨੀ ਬਣਾ ਰਹੇ ਹਾਂ ਕਿ developers ਆਪਣਾ code ਆਸਾਨੀ ਨਾਲ ਸੁਰੱਖਿਅਤ ਕਰ ਸਕਣ, ਅਤੇ ਨਾਲ ਹੀ ਉਹਨਾਂ ਸਾਈਬਰ workflows 'ਤੇ ਹੋਰ ਮਜ਼ਬੂਤ controls ਲਗਾਏ ਜਾ ਰਹੇ ਹਨ ਜਿਨ੍ਹਾਂ ਨਾਲ ਖ਼ਰਾਬ ਇਰਾਦੇ ਵਾਲੇ ਤੱਤਾਂ ਦੁਆਰਾ ਨੁਕਸਾਨ ਪਹੁੰਚਣ ਦੀ ਸਭ ਤੋਂ ਵੱਧ ਸੰਭਾਵਨਾ ਹੈ।
  • ਅਸੀਂ ਹਰ ਪੱਧਰ 'ਤੇ ਸਾਈਬਰ ਰੱਖਿਆ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਲਈ ਪਹੁੰਚ ਵਧਾ ਰਹੇ ਹਾਂ। ਅਸੀਂ ਆਪਣੇ cyber-permissive ਮਾਡਲ Trusted Access for Cyber ਰਾਹੀਂ ਉਪਲਬਧ ਕਰਵਾ ਰਹੇ ਹਾਂ, Codex ਤੋਂ ਸ਼ੁਰੂ ਕਰਕੇ, ਜਿਸ ਵਿੱਚ launch ਵੇਲੇ ਕੁਝ trust signals(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਪੂਰੇ ਕਰਨ ਵਾਲੇ verified users ਲਈ GPT‑5.5 ਦੀਆਂ advanced cybersecurity capabilities ਤੱਕ ਘੱਟ ਪਾਬੰਦੀਆਂ ਨਾਲ ਵਧੀ ਹੋਈ ਪਹੁੰਚ ਸ਼ਾਮਲ ਹੈ। ਉਹ ਸੰਸਥਾਵਾਂ ਜੋ ਅਹਿਮ ਇੰਫ੍ਰਾਸਟ੍ਰਕਚਰ ਦੀ ਰੱਖਿਆ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਹਨ, GPT‑5.4‑Cyber ਵਰਗੇ cyber-permissive ਮਾਡਲਾਂ ਦੀ ਪਹੁੰਚ ਲਈ ਅਰਜ਼ੀ ਦੇ ਸਕਦੀਆਂ ਹਨ, ਅਤੇ ਆਪਣੀਆਂ ਅੰਦਰੂਨੀ ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਸੁਰੱਖਿਅਤ ਕਰਨ ਲਈ ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਸਮੇਂ ਸਖ਼ਤ ਸੁਰੱਖਿਆ ਲੋੜਾਂ ਪੂਰੀਆਂ ਕਰਨਗੀਆਂ। ਇਸ ਨਾਲ verified defenders ਦੀ ਵਿਆਪਕ ਸ਼੍ਰੇਣੀ ਨੂੰ ਜਾਇਜ਼ ਸੁਰੱਖਿਆ ਕੰਮ ਲਈ ਹੋਰ ਸਮਰੱਥ ਟੂਲ ਘੱਟ ਗੈਰ-ਜ਼ਰੂਰੀ friction ਨਾਲ ਮਿਲਦੇ ਹਨ, ਤਾਂ ਜੋ ਅਸੀਂ ਮਹੱਤਵਪੂਰਨ ਰੱਖਿਆਤਮਕ ਸਮਰੱਥਾਵਾਂ ਤੱਕ ਪਹੁੰਚ ਦਾ ਲੋਕਤੰਤਰਿਕਰਨ ਕਰ ਸਕੀਏ। ਉਪਭੋਗਤਾ verified defensive work ਲਈ GPT‑5.5 ਵਰਤਦਿਆਂ ਗੈਰ-ਜ਼ਰੂਰੀ refusals ਘਟਾਉਣ ਵਾਸਤੇ chatgpt.com/cyber(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) 'ਤੇ trusted access ਲਈ ਅਰਜ਼ੀ ਦੇ ਸਕਦੇ ਹਨ।
  • ਅਸੀਂ ਜਨਤਾ ਲਈ ਅਹਿਮ ਇੰਫ੍ਰਾਸਟ੍ਰਕਚਰ ਦੀ ਰੱਖਿਆ ਵਿੱਚ ਮਦਦ ਕਰਨ ਲਈ ਸਰਕਾਰੀ ਭਾਗੀਦਾਰਾਂ ਨਾਲ ਕੰਮ ਕਰ ਰਹੇ ਹਾਂ। ਇਕੱਠੇ, ਅਸੀਂ ਖੋਜ ਰਹੇ ਹਾਂ ਕਿ advanced AI ਉਹਨਾਂ ਭਰੋਸੇਯੋਗ ਅਧਿਕਾਰੀਆਂ ਦੇ ਰੱਖਿਆਤਮਕ ਕੰਮ ਵਿੱਚ ਕਿਵੇਂ ਸਹਾਇਤਾ ਕਰ ਸਕਦੀ ਹੈ ਜੋ ਉਹਨਾਂ ਪ੍ਰਣਾਲੀਆਂ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਹਨ ਜਿਨ੍ਹਾਂ 'ਤੇ ਲੋਕ ਨਿਰਭਰ ਕਰਦੇ ਹਨ, ਮਹੱਤਵਪੂਰਨ ਕਰਦਾਤਾ ਡਾਟਾ ਦੀ ਸੁਰੱਖਿਆ ਕਰਨ ਵਾਲੀਆਂ ਡਿਜ਼ਿਟਲ ਪ੍ਰਣਾਲੀਆਂ ਤੋਂ ਲੈ ਕੇ ਸਥਾਨਕ ਭਾਈਚਾਰਿਆਂ ਦੇ power grid ਅਤੇ ਪਾਣੀ ਸਪਲਾਈਆਂ ਤੱਕ।

ਅਸੀਂ ਆਪਣੇ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਅਧੀਨ GPT‑5.5 ਦੀਆਂ ਜੈਵਿਕ/ਰਸਾਇਣਕ ਅਤੇ ਸਾਈਬਰਸੁਰੱਖਿਆ ਸਮਰੱਥਾਵਾਂ ਨੂੰ High ਮੰਨ ਰਹੇ ਹਾਂ। ਹਾਲਾਂਕਿ GPT‑5.5 Critical cybersecurity capability ਪੱਧਰ ਤੱਕ ਨਹੀਂ ਪਹੁੰਚਿਆ, ਸਾਡੇ ਮੁਲਾਂਕਣਾਂ ਅਤੇ ਟੈਸਟਿੰਗ ਨੇ ਦਿਖਾਇਆ ਕਿ ਇਸ ਦੀਆਂ ਸਾਈਬਰਸੁਰੱਖਿਆ ਸਮਰੱਥਾਵਾਂ GPT‑5.4 ਦੇ ਮੁਕਾਬਲੇ ਇਕ ਕਦਮ ਅੱਗੇ ਹਨ।

ਇਸ ਤੋਂ ਇਲਾਵਾ, GPT‑5.5 ਰਿਲੀਜ਼ ਤੋਂ ਪਹਿਲਾਂ ਸਾਡੀ ਪੂਰੀ ਸੁਰੱਖਿਆ ਅਤੇ governance ਪ੍ਰਕਿਰਿਆ ਵਿੱਚੋਂ ਲੰਘਿਆ, ਜਿਸ ਵਿੱਚ preparedness evaluations, domain-specific testing, advanced biology ਅਤੇ cybersecurity capabilities ਲਈ ਨਵੇਂ targeted evaluations, ਅਤੇ ਬਾਹਰੀ ਮਾਹਿਰਾਂ ਨਾਲ ਮਜ਼ਬੂਤ ਟੈਸਟਿੰਗ ਸ਼ਾਮਲ ਸੀ। ਅਸੀਂ GPT‑5.5 ਦੇ ਸਿਸਟਮ ਕਾਰਡ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਹੋਰ ਵੇਰਵੇ ਸਾਂਝੇ ਕਰਦੇ ਹਾਂ।

ਇਹ ਕੰਮ ਸਾਡੀ ਵਿਆਪਕ AI resilience ਪਹੁੰਚ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਜਿਸ ਦੀ ਸਾਨੂੰ ਲੋੜ ਹੈ ਜਿਵੇਂ-जਿਵੇਂ ਮਾਡਲ ਸਮਰੱਥਾਵਾਂ ਅੱਗੇ ਵਧਦੀਆਂ ਹਨ। ਅਸੀਂ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ ਸ਼ਕਤੀਸ਼ਾਲੀ AI ਉਨ੍ਹਾਂ ਲੋਕਾਂ ਲਈ ਉਪਲਬਧ ਹੋਵੇ ਜੋ ਇਸ ਨੂੰ ਸਿਸਟਮਾਂ, ਸੰਸਥਾਵਾਂ, ਅਤੇ ਜਨਤਾ ਦੀ ਰੱਖਿਆ ਲਈ ਵਰਤ ਰਹੇ ਹਨ। ਕਾਰਗਰ ਰਸਤਾ trusted access, ਮਜ਼ਬੂਤ safeguards ਜੋ capability ਨਾਲ scale ਕਰਦੀਆਂ ਹਨ, ਅਤੇ ਗੰਭੀਰ ਦੁਰਵਰਤੋਂ ਨੂੰ ਪਛਾਣਣ ਅਤੇ ਉਸਦਾ ਜਵਾਬ ਦੇਣ ਦੀ operational capacity ਹੈ।

ਉਪਲਬਧਤਾ ਅਤੇ ਕੀਮਤ

ਅੱਜ, GPT‑5.5 ChatGPT ਅਤੇ Codex ਵਿੱਚ Plus, Pro, Business, ਅਤੇ Enterprise ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਰੋਲ ਆਉਟ ਹੋ ਰਿਹਾ ਹੈ, ਅਤੇ GPT‑5.5 Pro ChatGPT ਵਿੱਚ Pro, Business, ਅਤੇ Enterprise ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਰੋਲ ਆਉਟ ਹੋ ਰਿਹਾ ਹੈ। ਅਸੀਂ GPT‑5.5 ਅਤੇ GPT‑5.5 Pro ਨੂੰ ਬਹੁਤ ਜਲਦੀ API ਵਿੱਚ ਲਿਆਵਾਂਗੇ।

ChatGPT ਵਿੱਚ, GPT‑5.5 Thinking Plus, Pro, Business, ਅਤੇ Enterprise ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਉਪਲਬਧ ਹੈ। GPT‑5.5 Pro, ਜੋ ਹੋਰ ਵੀ ਔਖੇ ਸਵਾਲਾਂ ਅਤੇ ਉੱਚ-ਸ਼ੁੱਧਤਾ ਵਾਲੇ ਕੰਮ ਲਈ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਗਿਆ ਹੈ, Pro, Business, ਅਤੇ Enterprise ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਉਪਲਬਧ ਹੈ।

Codex ਵਿੱਚ, GPT‑5.5 Plus, Pro, Business, Enterprise, Edu, ਅਤੇ Go plans ਲਈ 400K context window ਨਾਲ ਉਪਲਬਧ ਹੈ। GPT‑5.5 Fast mode ਵਿੱਚ ਵੀ ਉਪਲਬਧ ਹੈ, ਜੋ 2.5x ਲਾਗਤ 'ਤੇ 1.5x ਤੇਜ਼ੀ ਨਾਲ ਟੋਕਨ ਬਣਾਉਂਦਾ ਹੈ।

API developers ਲਈ, gpt-5.5 ਜਲਦੀ ਹੀ Responses ਅਤੇ ਚੈਟ ਕੰਪਲੀਸ਼ਨਜ਼ APIs ਵਿੱਚ $5 ਪ੍ਰਤੀ 1M input tokens ਅਤੇ $30 ਪ੍ਰਤੀ 1M output tokens 'ਤੇ, 1M context window ਦੇ ਨਾਲ ਉਪਲਬਧ ਹੋਵੇਗਾ। Batch ਅਤੇ Flex pricing ਮਿਆਰੀ API ਦਰ ਦੇ ਅੱਧੇ 'ਤੇ ਉਪਲਬਧ ਹਨ, ਜਦਕਿ Priority processing ਮਿਆਰੀ ਦਰ ਦੀ 2.5x 'ਤੇ ਉਪਲਬਧ ਹੈ। ਅਸੀਂ API ਵਿੱਚ gpt-5.5-pro ਵੀ ਜਾਰੀ ਕਰਾਂਗੇ ਜੋ ਹੋਰ ਵੀ ਉੱਚ ਸ਼ੁੱਧਤਾ ਲਈ ਹੋਵੇਗਾ, ਜਿਸ ਦੀ ਕੀਮਤ $30 ਪ੍ਰਤੀ 1M input tokens ਅਤੇ $180 ਪ੍ਰਤੀ 1M output tokens ਹੋਵੇਗੀ। ਪੂਰੇ ਵੇਰਵਿਆਂ ਲਈ pricing page ਵੇਖੋ।

ਹਾਲਾਂਕਿ GPT‑5.5 ਦੀ ਕੀਮਤ GPT‑5.4 ਨਾਲੋਂ ਵੱਧ ਹੈ, ਇਹ ਦੋਵੇਂ ਹੋਰ ਬੁੱਧੀਮਾਨ ਅਤੇ ਟੋਕਨ ਪੱਖੋਂ ਕਾਫ਼ੀ ਹੋਰ ਕੁਸ਼ਲ ਹੈ। Codex ਵਿੱਚ, ਅਸੀਂ ਅਨੁਭਵ ਨੂੰ ਧਿਆਨ ਨਾਲ tune ਕੀਤਾ ਹੈ ਤਾਂ ਜੋ GPT‑5.5 ਜ਼ਿਆਦਾਤਰ ਉਪਭੋਗਤਾਵਾਂ ਲਈ GPT‑5.4 ਨਾਲੋਂ ਘੱਟ ਟੋਕਨਾਂ ਨਾਲ ਵਧੀਆ ਨਤੀਜੇ ਦੇਵੇ, ਅਤੇ ਨਾਲ ਹੀ subscription levels ਵਿੱਚ ਉਦਾਰ usage ਜਾਰੀ ਰਹੇ।

ਮੁਲਾਂਕਣ

ਕੋਡਿੰਗ

ਮੁਲਾਂਕਣ

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

SWE-Bench Pro (Public) *

58.6%

57.7%

-

-

64.3%

54.2%

Terminal-Bench 2.0

82.7%

75.1%

-

-

69.4%

68.5%

Expert-SWE (Internal)

73.1%

68.5%

-

-

-

-

ਪੇਸ਼ੇਵਰ

ਮੁਲਾਂਕਣ

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

GDPval (wins or ties)

84.9%

83.0%

82.3%

82.0%

80.3%

67.3%

FinanceAgent v1.1

60.0%

56.0%

-

61.5%

64.4%

59.7%

Investment Banking Modeling Tasks (Internal)

88.5%

87.3%

88.6%

83.6%

-

-

OfficeQA Pro

54.1%

53.2%

-

-

43.6%

18.1%

ਕੰਪਿਊਟਰ ਵਰਤੋਂ ਅਤੇ ਵਿਜ਼ਨ

ਮੁਲਾਂਕਣ

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

OSWorld-Verified

78.7%

75.0%

-

-

78.0%

-

MMMU Pro (ਬਿਨਾਂ ਟੂਲਾਂ)

81.2%

81.2%

-

-

-

80.5%

MMMU Pro (ਟੂਲਾਂ ਨਾਲ)

83.2%

82.1%

-

-

-

-

ਟੂਲ ਵਰਤੋਂ

ਮੁਲਾਂਕਣ

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

BrowseComp

84.4%

82.7%

90.1%

89.3%

79.3%

85.9%

MCP Atlas**

75.3%

70.6%

-

-

79.1%

78.2%

Toolathlon

55.6%

54.6%

-

-

-

48.8%

Tau2-bench Telecom***
(original prompts)

98.0%

92.8%

-

-

-

-

** MCP Atlas: 2026 ਅਪ੍ਰੈਲ ਦੇ ਤਾਜ਼ਾ update ਤੋਂ ਬਾਅਦ Scale AI ਦੇ ਨਤੀਜੇ. 
*** Tau2-bench telecom: 5.5 ਅਤੇ 5.4 ਲਈ ਮੂਲ ਪ੍ਰੌੰਪਟਾਂ ਨਾਲ ਨਤੀਜੇ, ਯਾਨੀ ਕੋਈ prompt adjustment ਨਹੀਂ. ਇਸ ਵਿੱਚ ਉਹ ਨਤੀਜੇ ਸ਼ਾਮਲ ਨਹੀਂ ਹਨ ਜੋ ਹੋਰ labs ਨੇ prompt adjustments ਨਾਲ ਮੁਲਾਂਕਿਤ ਕੀਤੇ ਸਨ.

ਅਕਾਦਮਿਕ

ਮੁਲਾਂਕਣ

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

GeneBench

25.0%

19.0%

33.2%

25.6%

-

-

FrontierMath Tier 1–3

51.7%

47.6%

52.4%

50.0%

43.8%

36.9%

FrontierMath Tier 4

35.4%

27.1%

39.6%

38.0%

22.9%

16.7%

BixBench

80.5%

74.0%

-

-

-

-

GPQA Diamond

93.6%

92.8%

-

94.4%

94.2%

94.3%

Humanity's Last Exam (ਬਿਨਾਂ ਟੂਲਾਂ)

41.4%

39.8%

43.1%

42.7%

46.9%

44.4%

Humanity's Last Exam (ਟੂਲਾਂ ਨਾਲ)

52.2%

52.1%

57.2%

58.7%

54.7%

51.4%

ਸਾਇਬਰਸੁਰੱਖਿਆ

ਮੁਲਾਂਕਣ

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Capture-the-Flags challenge tasks (Internal)****

88.1%

83.7%

-

-

-

-

CyberGym

81.8%

79.0%

-

-

73.1%

-

**** system cards ਵਿੱਚ ਵਰਤੇ ਗਏ ਸਭ ਤੋਂ ਔਖੇ CTFs ਦਾ ਇੱਕ ਵਿਸਤਾਰ, ਜਿਸ ਵਿੱਚ ਵਾਧੂ ਔਖੀਆਂ ਚੁਣੌਤੀਆਂ ਸ਼ਾਮਲ ਹਨ.

ਲੰਮਾ ਕਾਂਟੈਕਸਟ

ਮੁਲਾਂਕਣ

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Graphwalks BFS 256k f1

73.7%

62.5%

-

-

76.9%

-

Graphwalks BFS 1mil f1

45.4%

9.4%

-

-

41.2% (Opus 4.6)

-

Graphwalks parents 256k f1

90.1%

82.8%

-

-

93.6%

-

Graphwalks parents 1mil f1

58.5%

44.4%

-

-

72.0% (Opus 4.6)

-

OpenAI MRCR v2 8-needle 4K-8K

98.1%

97.3%

-

-

-

-

OpenAI MRCR v2 8-needle 8K-16K

93.0%

91.4%

-

-

-

-

OpenAI MRCR v2 8-needle 16K-32K

96.5%

97.2%

-

-

-

-

OpenAI MRCR v2 8-needle 32K-64K

90.0%

90.5%

-

-

-

-

OpenAI MRCR v2 8-needle 64K-128K

83.1%

86.0%

-

-

-

-

OpenAI MRCR v2 8-needle 128K-256K

87.5%

79.3%

-

-

59.2%

-

OpenAI MRCR v2 8-needle 256K-512K

81.5%

57.5%

-

-

-

-

OpenAI MRCR v2 8-needle 512K-1M

74.0%

36.6%

-

-

32.2%

-

ਅਮੂਰਤ ਰੀਜ਼ਨਿੰਗ

ਮੁਲਾਂਕਣ

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

ARC-AGI-1 (Verified)

95.0%

93.7%

-

94.5%

93.5%

98.0%

ARC-AGI-2 (Verified)

85.0%

73.3%

-

83.3%

75.8%

77.1%

GPT ਦੇ evals xhigh 'ਤੇ set ਕੀਤੀ ਗਈ reasoning effort ਨਾਲ ਚਲਾਏ ਗਏ ਸਨ ਅਤੇ ਇਹ ਇੱਕ research environment ਵਿੱਚ ਕਰਵਾਏ ਗਏ ਸਨ, ਜੋ ਕੁਝ ਮਾਮਲਿਆਂ ਵਿੱਚ production ChatGPT ਨਾਲੋਂ ਥੋੜ੍ਹਾ ਵੱਖਰਾ ਆਉਟਪੁੱਟ ਦੇ ਸਕਦਾ ਹੈ।

ਲੇਖਕ

OpenAI