ਮੁੱਖ ਸਮੱਗਰੀ 'ਤੇ ਜਾਓ
OpenAI

7 ਅਗਸਤ 2025

ਉਤਪਾਦ

ਡਿਵੈਲਪਰਾਂ ਲਈ GPT‑5 ਪੇਸ਼ ਕਰਦੇ ਹਾਂ

Coding ਅਤੇ ਏਜੰਟਿਕ ਕੰਮਾਂ ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਮਾਡਲ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ਭੂਮਿਕਾ

ਅੱਜ ਅਸੀਂ ਆਪਣੇ API ਪਲੇਟਫਾਰਮ ਵਿੱਚ GPT‑5 ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ—coding ਅਤੇ ਏਜੰਟਿਕ ਕੰਮਾਂ ਲਈ ਹੁਣ ਤੱਕ ਦਾ ਸਾਡਾ ਸਭ ਤੋਂ ਵਧੀਆ ਮਾਡਲ.

GPT‑5 ਮੁੱਖ coding benchmarks ‘ਤੇ state-of-the-art (SOTA) ਹੈ, SWE-bench Verified ‘ਤੇ 74.9% ਅਤੇ Aider polyglot ‘ਤੇ 88% ਸਕੋਰ ਕਰਦਾ ਹੈ. ਅਸੀਂ GPT‑5 ਨੂੰ ਇੱਕ ਅਸਲ coding ਸਹਿਯੋਗੀ ਬਣਾਉਣ ਲਈ train ਕੀਤਾ ਹੈ. ਇਹ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲਾ code ਤਿਆਰ ਕਰਨ ਅਤੇ bugs ਠੀਕ ਕਰਨ, code ਸੋਧਣ ਅਤੇ ਜਟਿਲ codebases ਬਾਰੇ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਵਰਗੇ ਕੰਮਾਂ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਹੈ. ਮਾਡਲ steerable ਅਤੇ collaborative ਹੈ—ਇਹ ਬਹੁਤ ਵਿਸਥਾਰਪੂਰਣ ਹੁਕਮਾਂ ਦੀ ਉੱਚ ਸਹੀਪਣ ਨਾਲ ਪਾਲਣਾ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ tool calls ਤੋਂ ਪਹਿਲਾਂ ਅਤੇ ਦਰਮਿਆਨ ਆਪਣੀਆਂ ਕਾਰਵਾਈਆਂ ਦੀ upfront ਵਿਆਖਿਆ ਦੇ ਸਕਦਾ ਹੈ. ਮਾਡਲ front-end coding ਵਿੱਚ ਵੀ ਸ਼ਾਨਦਾਰ ਹੈ, ਅੰਦਰੂਨੀ ਟੈਸਟਿੰਗ ਵਿੱਚ frontend web development ਲਈ 70% ਮੌਕਿਆਂ ‘ਤੇ OpenAI o3 ਤੋਂ ਬਿਹਤਰ ਰਿਹਾ.

ਅਸੀਂ GPT‑5 ਨੂੰ ਅਸਲ ਦੁਨਿਆ ਦੇ coding ਕੰਮਾਂ ‘ਤੇ startups ਅਤੇ enterprises ਦੇ ਸ਼ੁਰੂਆਤੀ ਟੈਸਟਰਾਂ ਨਾਲ ਮਿਲ ਕੇ train ਕੀਤਾ ਹੈ. Cursor ਕਹਿੰਦਾ ਹੈ ਕਿ GPT‑5 “ਸਭ ਤੋਂ ਸਮਝਦਾਰ ਮਾਡਲ ਹੈ ਜੋ [ਉਨ੍ਹਾਂ ਨੇ] ਵਰਤਿਆ” ਅਤੇ “ਹੈਰਾਨੀਜਨਕ ਤੌਰ ‘ਤੇ ਬੁੱਧੀਮਾਨ, ਆਸਾਨੀ ਨਾਲ steer ਹੋਣ ਵਾਲਾ, ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਐਸੀ personality ਵਾਲਾ ਹੈ ਜੋ [ਉਨ੍ਹਾਂ ਨੇ] ਹੋਰ ਮਾਡਲਾਂ ਵਿੱਚ ਨਹੀਂ ਵੇਖੀ.” Windsurf ਨੇ ਸਾਂਝਾ ਕੀਤਾ ਕਿ GPT‑5 ਉਨ੍ਹਾਂ ਦੇ evals ‘ਤੇ SOTA ਹੈ ਅਤੇ “ਹੋਰ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਨਾਲੋਂ ਇਸ ਦੀ tool calling ਗਲਤੀ ਦਰ ਅੱਧੀ ਹੈ.” Vercel ਕਹਿੰਦਾ ਹੈ “ਇਹ ਸਭ ਤੋਂ ਵਧੀਆ frontend AI ਮਾਡਲ ਹੈ, ਜੋ ਸੁੰਦਰਤਾ ਬੋਧ ਅਤੇ code quality ਦੋਹਾਂ ਵਿੱਚ ਸਰਵੋਤਮ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ ਅਤੇ ਇਸਨੂੰ ਆਪਣੀ ਹੀ ਇੱਕ ਵੱਖਰੀ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਰੱਖਦਾ ਹੈ.”

GPT‑5 ਲੰਬੇ ਸਮੇਂ ਚੱਲਣ ਵਾਲੇ ਏਜੰਟਿਕ ਕੰਮਾਂ ਵਿੱਚ ਵੀ ਸ਼ਾਨਦਾਰ ਹੈ—τ2-bench telecom ‘ਤੇ SOTA ਨਤੀਜੇ ਹਾਸਲ ਕਰਦਾ ਹੋਇਆ (96.7%), ਜੋ ਕੇਵਲ 2 ਮਹੀਨੇ ਪਹਿਲਾਂ ਜਾਰੀ ਕੀਤਾ ਗਿਆ tool-calling benchmark ਹੈ. GPT‑5 ਦੀ ਸੁਧਰੀ tool intelligence ਇਸ ਨੂੰ ਦਰਜਨਾਂ tool calls ਨੂੰ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ—ਕ੍ਰਮਵਾਰ ਅਤੇ parallel ਦੋਹਾਂ ਰੂਪਾਂ ਵਿੱਚ—ਜੋੜਨ ਦੀ ਸਮਰੱਥਾ ਦਿੰਦੀ ਹੈ ਬਿਨਾਂ ਰਾਹ ਭੁੱਲੇ, ਜਿਸ ਨਾਲ ਇਹ ਜਟਿਲ, ਅਸਲ ਦੁਨਿਆ ਦੇ ਕੰਮਾਂ ਨੂੰ end to end ਚਲਾਉਣ ਵਿੱਚ ਕਾਫ਼ੀ ਬਿਹਤਰ ਬਣਦਾ ਹੈ. ਇਹ tool instructions ਦੀ ਹੋਰ ਸਹੀ ਪਾਲਣਾ ਕਰਦਾ ਹੈ, tool errors ਨੂੰ ਸੰਭਾਲਣ ਵਿੱਚ ਬਿਹਤਰ ਹੈ ਅਤੇ long-context content retrieval ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਹੈ. Manus ਕਹਿੰਦਾ ਹੈ ਕਿ GPT‑5 ਨੇ “[ਉਨ੍ਹਾਂ ਦੇ] ਅੰਦਰੂਨੀ benchmarks ‘ਤੇ ਇੱਕੋ ਮਾਡਲ ਤੋਂ ਕਦੇ ਵੀ ਵੇਖੀ ਸਭ ਤੋਂ ਵਧੀਆ performance ਹਾਸਲ ਕੀਤੀ.” Notion ਕਹਿੰਦਾ ਹੈ ਕਿ “[ਮਾਡਲ ਦੇ] ਤੇਜ਼ ਜਵਾਬ, ਖ਼ਾਸ ਕਰਕੇ low reasoning mode ਵਿੱਚ, GPT‑5 ਨੂੰ ਉਸ ਵੇਲੇ ਆਦਰਸ਼ ਮਾਡਲ ਬਣਾਉਂਦੇ ਹਨ ਜਦੋਂ ਤੁਹਾਨੂੰ ਜਟਿਲ ਕੰਮ ਵਨ-ਸ਼ਾਟ ਵਿੱਚ ਹੱਲ ਕਰਨੇ ਹੋਣ.” Inditex ਨੇ ਸਾਂਝਾ ਕੀਤਾ ਕਿ “ਜੋ ਗੱਲ [GPT‑5] ਨੂੰ ਸੱਚਮੁੱਚ ਵੱਖਰਾ ਬਣਾਉਂਦੀ ਹੈ, ਉਹ ਇਸ ਦੀ reasoning ਦੀ ਡੂੰਘਾਈ ਹੈ: ਸੁਖਮ, ਬਹੁ-ਪੜਾਅ ਜਵਾਬ ਜੋ ਵਿਸ਼ੇ ਦੀ ਅਸਲ ਸਮਝ ਦਰਸਾਉਂਦੇ ਹਨ.”

ਅਸੀਂ ਆਪਣੀ API ਵਿੱਚ ਨਵੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਲਿਆ ਰਹੇ ਹਾਂ ਤਾਂ ਜੋ ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਮਾਡਲ ਜਵਾਬਾਂ ‘ਤੇ ਹੋਰ ਕੰਟਰੋਲ ਮਿਲੇ. GPT‑5 ਇੱਕ ਨਵੇਂ verbosity parameter ਨੂੰ support ਕਰਦਾ ਹੈ (values: low, medium, high) ਤਾਂ ਜੋ ਇਹ ਕੰਟਰੋਲ ਕੀਤਾ ਜਾ ਸਕੇ ਕਿ ਜਵਾਬ ਛੋਟੇ ਅਤੇ ਸਿੱਧੇ ਹੋਣ ਜਾਂ ਲੰਮੇ ਅਤੇ ਵਿਸਤ੍ਰਿਤ. GPT‑5 ਦਾ reasoning_effort parameter ਹੁਣ ਇੱਕ minimal value ਵੀ ਲੈ ਸਕਦਾ ਹੈ, ਤਾਂ ਜੋ ਬਿਨਾਂ ਵਿਆਪਕ reasoning ਦੇ ਪਹਿਲਾਂ ਹੀ ਜਵਾਬ ਤੇਜ਼ੀ ਨਾਲ ਮਿਲ ਸਕੇ. ਅਸੀਂ ਇੱਕ ਨਵਾਂ tool type—custom tools—ਵੀ ਸ਼ਾਮਲ ਕੀਤਾ ਹੈ, ਜਿਸ ਨਾਲ GPT‑5 JSON ਦੀ ਥਾਂ plaintext ਨਾਲ tools call ਕਰ ਸਕਦਾ ਹੈ. Custom tools developer ਵੱਲੋਂ ਦਿੱਤੀਆਂ context-free grammars ਰਾਹੀਂ constraints ਨੂੰ support ਕਰਦੇ ਹਨ.

ਅਸੀਂ API ਵਿੱਚ GPT‑5 ਨੂੰ ਤਿੰਨ ਆਕਾਰਾਂ ਵਿੱਚ ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ—gpt-5, gpt-5-mini, ਅਤੇ gpt-5-nano—ਤਾਂ ਜੋ ਡਿਵੈਲਪਰ performance, cost ਅਤੇ latency ਵਿੱਚ ਵਧੇਰੇ ਲਚਕੀਲੇ ਤੌਰ ‘ਤੇ ਸੰਤੁਲਨ ਕਰ ਸਕਣ. ਜਦਕਿ ChatGPT ਵਿੱਚ GPT‑5 reasoning, non-reasoning ਅਤੇ router ਮਾਡਲਾਂ ਦਾ ਇੱਕ system ਹੈ, API ਪਲੇਟਫਾਰਮ ਵਿੱਚ GPT‑5 ਉਹ reasoning ਮਾਡਲ ਹੈ ਜੋ ChatGPT ਵਿੱਚ maximum performance ਦਿੰਦਾ ਹੈ. ਖ਼ਾਸ ਤੌਰ ‘ਤੇ, minimal reasoning ਵਾਲਾ GPT‑5, ChatGPT ਦੇ non-reasoning ਮਾਡਲ ਤੋਂ ਵੱਖਰਾ ਮਾਡਲ ਹੈ ਅਤੇ ਡਿਵੈਲਪਰਾਂ ਲਈ ਹੋਰ ਚੰਗੀ ਤਰ੍ਹਾਂ tuned ਹੈ. ChatGPT ਵਿੱਚ ਵਰਤਿਆ ਜਾਣ ਵਾਲਾ non-reasoning ਮਾਡਲ gpt-5-chat-latest ਵਜੋਂ ਉਪਲਬਧ ਹੈ.

ChatGPT ਵਿੱਚ GPT‑5 ਬਾਰੇ ਪੜ੍ਹਨ ਅਤੇ ਹੋਰ ChatGPT ਸੁਧਾਰਾਂ ਬਾਰੇ ਜਾਣਨ ਲਈ, ਸਾਡਾ research blog ਵੇਖੋ. Enterprises GPT‑5 ਨੂੰ ਵਰਤਣ ਲਈ ਕਿਵੇਂ ਉਤਸ਼ਾਹਿਤ ਹਨ, ਇਸ ਬਾਰੇ ਹੋਰ ਜਾਣਨ ਲਈ ਸਾਡਾ enterprise blog ਵੇਖੋ.

Coding

GPT‑5 ਸਭ ਤੋਂ ਮਜ਼ਬੂਤ coding ਮਾਡਲ ਹੈ ਜੋ ਅਸੀਂ ਕਦੇ ਜਾਰੀ ਕੀਤਾ ਹੈ. ਇਹ coding benchmarks ਅਤੇ ਅਸਲ ਦੁਨਿਆ ਦੇ use cases ਵਿੱਚ o3 ਤੋਂ ਬਿਹਤਰ ਹੈ, ਅਤੇ Cursor, Windsurf, GitHub Copilot ਅਤੇ Codex CLI ਵਰਗੇ ਏਜੰਟਿਕ coding products ਵਿੱਚ ਚਮਕਣ ਲਈ fine-tune ਕੀਤਾ ਗਿਆ ਹੈ. GPT‑5 ਨੇ ਸਾਡੇ alpha testers ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕੀਤਾ, ਉਨ੍ਹਾਂ ਦੇ ਕਈ private internal evals ‘ਤੇ ਨਵੇਂ ਰਿਕਾਰਡ ਬਣਾਏ.

ਅਸਲ ਦੁਨਿਆ ਦੇ coding ਕੰਮਾਂ ਲਈ GPT‑5 ‘ਤੇ ਸ਼ੁਰੂਆਤੀ ਫੀਡਬੈਕ

“GPT-5 ਸਭ ਤੋਂ ਸਮਝਦਾਰ coding ਮਾਡਲ ਹੈ ਜੋ ਅਸੀਂ ਵਰਤਿਆ ਹੈ. ਸਾਡੀ ਟੀਮ ਨੇ GPT-5 ਨੂੰ ਹੈਰਾਨੀਜਨਕ ਤੌਰ ‘ਤੇ ਬੁੱਧੀਮਾਨ, ਆਸਾਨੀ ਨਾਲ steer ਹੋਣ ਵਾਲਾ, ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਐਸੀ personality ਵਾਲਾ ਪਾਇਆ ਹੈ ਜੋ ਅਸੀਂ ਕਿਸੇ ਹੋਰ ਮਾਡਲ ਵਿੱਚ ਨਹੀਂ ਵੇਖੀ. ਇਹ ਨਾ ਸਿਰਫ਼ ਔਖੇ, ਗਹਿਰੇ ਲੁਕੇ bugs ਫੜਦਾ ਹੈ, ਸਗੋਂ ਜਟਿਲ ਕੰਮਾਂ ਨੂੰ ਅੰਤ ਤੱਕ ਪਹੁੰਚਾਉਣ ਲਈ ਲੰਬੇ, multi-turn background agents ਵੀ ਚਲਾ ਸਕਦਾ ਹੈ, ਐਸੀਆਂ ਸਮੱਸਿਆਵਾਂ ਜਿਨ੍ਹਾਂ ‘ਤੇ ਹੋਰ ਮਾਡਲ ਅਟਕ ਜਾਂਦੇ ਸਨ. ਇਹ scoping ਅਤੇ PRs ਦੀ planning ਤੋਂ ਲੈ ਕੇ end-to-end builds ਪੂਰੇ ਕਰਨ ਤੱਕ ਹਰ ਚੀਜ਼ ਲਈ ਸਾਡਾ ਰੋਜ਼ਾਨਾ default ਬਣ ਗਿਆ ਹੈ.”
Michael Truell, Cursor ਵਿੱਚ Co-Founder ਅਤੇ CEO

SWE-bench Verified ‘ਤੇ, ਜੋ ਅਸਲ ਦੁਨਿਆ ਦੇ software engineering ਕੰਮਾਂ ‘ਤੇ ਆਧਾਰਿਤ ਇੱਕ ਮੁਲਾਂਕਣ ਹੈ, GPT‑5 74.9% ਸਕੋਰ ਕਰਦਾ ਹੈ, ਜੋ o3 ਦੇ 69.1% ਤੋਂ ਵੱਧ ਹੈ. ਖ਼ਾਸ ਗੱਲ ਇਹ ਹੈ ਕਿ GPT‑5 ਆਪਣਾ ਉੱਚ ਸਕੋਰ ਵੱਧ efficiency ਅਤੇ speed ਨਾਲ ਹਾਸਲ ਕਰਦਾ ਹੈ: ਉੱਚ reasoning effort ‘ਤੇ o3 ਦੇ ਮੁਕਾਬਲੇ, GPT‑5 22% ਘੱਟ output tokens ਅਤੇ 45% ਘੱਟ tool calls ਵਰਤਦਾ ਹੈ.

SWE-bench Verified ਵਿੱਚ, ਇੱਕ ਮਾਡਲ ਨੂੰ ਇੱਕ code repository ਅਤੇ issue description ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਉਸ ਨੂੰ issue ਹੱਲ ਕਰਨ ਲਈ ਇੱਕ patch ਬਣਾਉਣਾ ਹੁੰਦਾ ਹੈ. ਲਿਖਤੀ labels reasoning effort ਦਰਸਾਉਂਦੇ ਹਨ. ਸਾਡੇ ਸਕੋਰ 500 ਵਿੱਚੋਂ 23 ਉਹ ਸਮੱਸਿਆਵਾਂ ਛੱਡਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਦੇ ਹੱਲ ਸਾਡੇ infrastructure ‘ਤੇ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ pass ਨਹੀਂ ਹੋਏ. GPT‑5 ਨੂੰ ਇੱਕ ਛੋਟਾ ਪ੍ਰੌੰਪਟ ਦਿੱਤਾ ਗਿਆ ਸੀ ਜਿਸ ਵਿੱਚ solutions ਦੀ ਪੂਰੀ ਤਰ੍ਹਾਂ ਪੁਸ਼ਟੀ ਕਰਨ ‘ਤੇ ਜ਼ੋਰ ਦਿੱਤਾ ਗਿਆ; ਉਹੀ ਪ੍ਰੌੰਪਟ o3 ਲਈ ਲਾਭਕਾਰੀ ਨਹੀਂ ਸੀ.

Aider polyglot ‘ਤੇ, ਜੋ code editing ਦਾ ਮੁਲਾਂਕਣ ਹੈ, GPT‑5 88% ਦਾ ਨਵਾਂ ਰਿਕਾਰਡ ਬਣਾਉਂਦਾ ਹੈ, ਜੋ o3 ਨਾਲੋਂ error rate ਵਿੱਚ ਇੱਕ-ਤਿਹਾਈ ਘਟਾਅ ਹੈ.

Aider polygot(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) (diff) ਵਿੱਚ, ਇੱਕ ਮਾਡਲ ਨੂੰ Exercism ਤੋਂ ਇੱਕ coding ਅਭਿਆਸ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਉਸ ਨੂੰ ਆਪਣਾ ਹੱਲ code diff ਵਜੋਂ ਲਿਖਣਾ ਹੁੰਦਾ ਹੈ. ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਨੂੰ ਉੱਚ reasoning effort ਨਾਲ ਚਲਾਇਆ ਗਿਆ ਸੀ.

ਅਸੀਂ ਇਹ ਵੀ ਪਾਇਆ ਹੈ ਕਿ GPT‑5 codebases ਵਿੱਚ ਡੂੰਘਾਈ ਨਾਲ ਜਾ ਕੇ ਇਹ ਸਮਝਣ ਲਈ ਬਹੁਤ ਵਧੀਆ ਹੈ ਕਿ ਵੱਖ-ਵੱਖ ਹਿੱਸੇ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ ਜਾਂ ਇਕੱਠੇ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ. OpenAI ਦੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ stack ਜਿਹੇ ਜਟਿਲ codebase ਵਿੱਚ, ਅਸੀਂ ਪਾ ਰਹੇ ਹਾਂ ਕਿ GPT‑5 ਸਾਡੇ code ਬਾਰੇ reasoning ਕਰਨ ਅਤੇ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਸਾਡਾ ਰੋਜ਼ਾਨਾ ਕੰਮ ਤੇਜ਼ ਹੁੰਦਾ ਹੈ.

Frontend engineering

Web apps ਲਈ frontend code ਬਣਾਉਣ ਵੇਲੇ, GPT‑5 ਸੁੰਦਰਤਾ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਹੋਰ ਸੰਵੇਦਨਸ਼ੀਲ, ਹੋਰ ਮਹੱਤਵਾਕਾਂਕਸ਼ੀ ਅਤੇ ਹੋਰ ਸਹੀ ਹੈ. o3 ਨਾਲ side-by-side ਤੁਲਨਾਵਾਂ ਵਿੱਚ, ਸਾਡੇ ਟੈਸਟਰਾਂ ਨੇ 70% ਵਾਰ GPT‑5 ਨੂੰ ਤਰਜੀਹ ਦਿੱਤੀ.

ਇਹ ਕੁਝ ਮਜ਼ੇਦਾਰ, ਚੁਣੇ ਹੋਏ ਉਦਾਹਰਨ ਹਨ ਕਿ GPT‑5 ਇੱਕੋ ਪ੍ਰੌੰਪਟ ਨਾਲ ਕੀ ਕਰ ਸਕਦਾ ਹੈ:

ਪ੍ਰੌੰਪਟ: ਕਿਰਪਾ ਕਰਕੇ ਇੱਕ ਐਸੀ ਸੇਵਾ ਲਈ ਸੁੰਦਰ, ਹਕੀਕਤੀ landing page ਬਣਾਓ ਜੋ coffee enthusiasts ਨੂੰ $200/ਮਹੀਨਾ subscription ਦਿੰਦੀ ਹੋਵੇ, ਜਿਸ ਵਿੱਚ equipment rental ਅਤੇ coffee roasting ਅਤੇ ਸਭ ਤੋਂ ਵਧੀਆ espresso ਬਣਾਉਣ ਲਈ coaching ਮਿਲਦੀ ਹੋਵੇ. Target audience bay area ਦਾ ਮੱਧ-ਉਮਰ ਵਿਅਕਤੀ ਹੈ ਜੋ ਸ਼ਾਇਦ tech ਵਿੱਚ ਕੰਮ ਕਰਦਾ ਹੋਵੇ, ਪੜ੍ਹਿਆ-ਲਿਖਿਆ ਹੋਵੇ, disposable income ਰੱਖਦਾ ਹੋਵੇ ਅਤੇ coffee ਦੀ ਕਲਾ ਅਤੇ ਵਿਗਿਆਨ ਲਈ ਉਤਸ਼ਾਹੀ ਹੋਵੇ. 6 ਮਹੀਨੇ ਦੀ signup ਲਈ conversion optimize ਕਰੋ.

GPT‑5 ਦੇ ਹੋਰ ਉਦਾਹਰਨ ਸਾਡੀ gallery ਵਿੱਚ ਇੱਥੇ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵੇਖੋ.

Coding collaboration

GPT‑5 ਹੋਰ ਵਧੀਆ ਸਹਿਯੋਗੀ ਹੈ, ਖ਼ਾਸ ਕਰਕੇ Cursor, Windsurf, GitHub Copilot ਅਤੇ Codex CLI ਵਰਗੇ ਏਜੰਟਿਕ coding products ਵਿੱਚ. ਕੰਮ ਕਰਦੇ ਸਮੇਂ, GPT‑5 tool calls ਦੇ ਦਰਮਿਆਨ plans, updates ਅਤੇ recaps output ਕਰ ਸਕਦਾ ਹੈ. ਸਾਡੇ ਪੁਰਾਣੇ ਮਾਡਲਾਂ ਨਾਲੋਂ, GPT‑5 ਮਹੱਤਵਾਕਾਂਕਸ਼ੀ ਕੰਮ ਤੁਹਾਡੀ ਮਨਜ਼ੂਰੀ ਲਈ ਰੁਕੇ ਬਿਨਾਂ ਜਾਂ ਵੱਧ complexity ਦੇ ਕਾਰਨ ਹਿਚਕਿਚਾਏ ਬਿਨਾਂ ਪੂਰੇ ਕਰਨ ਵਿੱਚ ਹੋਰ proactive ਹੈ.

ਇੱਥੇ ਇੱਕ ਉਦਾਹਰਨ ਹੈ ਕਿ GPT‑5 ਕਿਸ ਤਰ੍ਹਾਂ ਦਿਖ ਸਕਦਾ ਹੈ ਜਦੋਂ ਇਹ ਇੱਕ ਜਟਿਲ ਕੰਮ ਸੰਭਾਲ ਰਿਹਾ ਹੋਵੇ (ਇਸ ਮਾਮਲੇ ਵਿੱਚ, ਇੱਕ ਰੈਸਟੋਰੈਂਟ ਲਈ ਵੈੱਬਸਾਈਟ ਬਣਾਉਣਾ):

ਜਦੋਂ ਯੂਜ਼ਰ ਆਪਣੇ ਰੈਸਟੋਰੈਂਟ ਲਈ ਵੈੱਬਸਾਈਟ ਮੰਗਦਾ ਹੈ, GPT‑5 ਇੱਕ ਤੇਜ਼ ਯੋਜਨਾ ਸਾਂਝੀ ਕਰਦਾ ਹੈ, ਐਪ ਦਾ ਢਾਂਚਾ ਤਿਆਰ ਕਰਦਾ ਹੈ, dependencies ਇੰਸਟਾਲ ਕਰਦਾ ਹੈ, ਸਾਈਟ ਦੀ ਸਮੱਗਰੀ ਬਣਾਉਂਦਾ ਹੈ, compilation ਗਲਤੀਆਂ ਚੈਕ ਕਰਨ ਲਈ build ਚਲਾਉਂਦਾ ਹੈ, ਆਪਣੇ ਕੰਮ ਦਾ ਸਾਰ ਦਿੰਦਾ ਹੈ ਅਤੇ ਅਗਲੇ ਸੰਭਾਵੀ ਕਦਮ ਸੁਝਾਉਂਦਾ ਹੈ. ਤੁਹਾਡਾ ਇੰਤਜ਼ਾਰ ਬਚਾਉਣ ਲਈ ਇਹ ਵੀਡੀਓ ਲਗਭਗ ~3x ਤੇਜ਼ ਕੀਤੀ ਗਈ ਹੈ; ਵੈੱਬਸਾਈਟ ਬਣਾਉਣ ਦਾ ਕੁੱਲ ਸਮਾਂ ਲਗਭਗ ਤਿੰਨ ਮਿੰਟ ਸੀ.

Agentic tasks

ਏਜੰਟਿਕ coding ਤੋਂ ਇਲਾਵਾ, GPT‑5 ਆਮ ਤੌਰ ‘ਤੇ ਏਜੰਟਿਕ ਕੰਮਾਂ ਵਿੱਚ ਵੀ ਹੋਰ ਵਧੀਆ ਹੈ. GPT‑5 instruction following (Scale MultiChallenge ‘ਤੇ 69.6%, o3‑mini ਦੁਆਰਾ graded) ਅਤੇ tool calling (τ2-bench telecom ‘ਤੇ 96.7%) ਦੇ benchmarks ‘ਤੇ ਨਵੇਂ ਰਿਕਾਰਡ ਬਣਾਉਂਦਾ ਹੈ. ਸੁਧਰੀ tool intelligence GPT‑5 ਨੂੰ ਅਸਲ ਦੁਨਿਆ ਦੇ ਕੰਮ ਪੂਰੇ ਕਰਨ ਲਈ actions ਨੂੰ ਹੋਰ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ ਜੋੜਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੀ ਹੈ.

ਏਜੰਟਿਕ ਕੰਮਾਂ ਲਈ GPT‑5 ‘ਤੇ ਸ਼ੁਰੂਆਤੀ ਫੀਡਬੈਕ

“GPT-5 ਇੱਕ ਵੱਡੀ ਛਾਲ ਹੈ. ਇਸ ਨੇ ਸਾਡੇ ਅੰਦਰੂਨੀ benchmarks ‘ਤੇ ਇੱਕੋ ਮਾਡਲ ਤੋਂ ਕਦੇ ਵੀ ਵੇਖੀ ਸਭ ਤੋਂ ਵਧੀਆ performance ਹਾਸਲ ਕੀਤੀ. GPT-5 ਵੱਖ-ਵੱਖ ਏਜੰਟਿਕ ਕੰਮਾਂ ਵਿੱਚ ਕਮਾਲ ਕਰ ਗਿਆ, ਉਹ ਵੀ ਇਸ ਤੋਂ ਪਹਿਲਾਂ ਕਿ ਅਸੀਂ code ਦੀ ਇੱਕ ਲਾਈਨ ਤਬਦੀਲ ਕਰੀਏ ਜਾਂ ਪ੍ਰੌੰਪਟ ਨੂੰ ਖਾਸ ਬਣਾਈਏ. ਨਵੇਂ preambles ਅਤੇ tool use ‘ਤੇ ਹੋਰ ਸਹੀ control ਨੇ ਸਾਡੇ ਏਜੰਟਸ ਦੀ stability ਅਤੇ steerability ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਛਾਲ ਯੋਗ ਬਣਾਈ.”
Yichao ‘Peak’ Ji, Manus ਵਿੱਚ Co-Founder ਅਤੇ Chief Scientist

Instruction following

GPT‑5 ਆਪਣੇ ਕਿਸੇ ਵੀ ਪੁਰਾਣੇ ਮਾਡਲ ਨਾਲੋਂ instructions ਦੀ ਹੋਰ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ ਪਾਲਣਾ ਕਰਦਾ ਹੈ, COLLIE, Scale MultiChallenge ਅਤੇ ਸਾਡੇ ਅੰਦਰੂਨੀ instruction following eval ‘ਤੇ ਉੱਚ ਸਕੋਰ ਕਰਦਾ ਹੈ.

COLLIE(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ, ਮਾਡਲਾਂ ਨੂੰ ਐਸਾ ਲਿਖਤ ਲਿਖਣਾ ਹੁੰਦਾ ਹੈ ਜੋ ਵੱਖ-ਵੱਖ constraints ਪੂਰੇ ਕਰੇ. Scale MultiChallenge(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ, ਮਾਡਲਾਂ ਨੂੰ multi-turn conversations ਵਿੱਚ ਪਿਛਲੇ messages ਤੋਂ ਚਾਰ ਕਿਸਮਾਂ ਦੀ ਜਾਣਕਾਰੀ ਠੀਕ ਤਰੀਕੇ ਨਾਲ ਵਰਤਣ ਦੀ ਚੁਣੌਤੀ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ. ਸਾਡੇ ਸਕੋਰ o3‑mini ਨੂੰ grader ਵਜੋਂ ਵਰਤ ਕੇ ਮਿਲੇ ਹਨ, ਜੋ GPT‑4o ਨਾਲੋਂ ਵਧੇਰੇ ਸਹੀ ਸੀ. ਸਾਡੇ ਅੰਦਰੂਨੀ OpenAI API instruction following eval ਵਿੱਚ, ਮਾਡਲਾਂ ਨੂੰ ਅਸਲ developer feedback ਤੋਂ ਨਿਕਲੀਆਂ ਔਖੀਆਂ ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨੀ ਹੁੰਦੀ ਹੈ. ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਨੂੰ ਉੱਚ reasoning effort ਨਾਲ ਚਲਾਇਆ ਗਿਆ ਸੀ.

Tool calling

ਅਸੀਂ tool calling ਨੂੰ ਉਹਨਾਂ ਤਰੀਕਿਆਂ ਨਾਲ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਕਾਫ਼ੀ ਮਿਹਨਤ ਕੀਤੀ ਜੋ ਡਿਵੈਲਪਰਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹਨ. GPT‑5 tool instructions ਦੀ ਪਾਲਣਾ ਕਰਨ ਵਿੱਚ ਬਿਹਤਰ ਹੈ, tool errors ਨਾਲ ਨਿਪਟਣ ਵਿੱਚ ਬਿਹਤਰ ਹੈ ਅਤੇ proactively ਕਈ tool calls ਨੂੰ ਕ੍ਰਮਵਾਰ ਜਾਂ parallel ਕਰਨ ਵਿੱਚ ਬਿਹਤਰ ਹੈ. ਜਦੋਂ ਹੁਕਮ ਦਿੱਤੇ ਜਾਣ, GPT‑5 ਲੰਬੇ ਏਜੰਟਿਕ ਕੰਮਾਂ ਦੌਰਾਨ ਯੂਜ਼ਰਾਂ ਨੂੰ ਪ੍ਰਗਤੀ ਬਾਰੇ ਅਪਡੇਟ ਕਰਨ ਲਈ tool calls ਤੋਂ ਪਹਿਲਾਂ ਅਤੇ ਦਰਮਿਆਨ preamble messages ਵੀ output ਕਰ ਸਕਦਾ ਹੈ.

ਦੋ ਮਹੀਨੇ ਪਹਿਲਾਂ, τ2-bench telecom ਨੂੰ Sierra.ai ਨੇ ਇੱਕ ਔਖੇ tool use benchmark ਵਜੋਂ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤਾ ਸੀ, ਜਿਸ ਨੇ ਦਰਸਾਇਆ ਕਿ ਜਦੋਂ ਭਾਸ਼ਾ ਮਾਡਲ ਉਸ environment state ਨਾਲ ਇੰਟਰੈਕਟ ਕਰਦੇ ਹਨ ਜਿਸਨੂੰ ਯੂਜ਼ਰ ਬਦਲ ਸਕਦੇ ਹਨ, ਤਾਂ ਉਨ੍ਹਾਂ ਦੀ performance ਕਾਫ਼ੀ ਘਟ ਜਾਂਦੀ ਹੈ. ਉਨ੍ਹਾਂ ਦੀ publication(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ, ਕਿਸੇ ਵੀ ਮਾਡਲ ਦਾ ਸਕੋਰ 49% ਤੋਂ ਉੱਪਰ ਨਹੀਂ ਸੀ. GPT‑5 97% ਸਕੋਰ ਕਰਦਾ ਹੈ.

τ2-bench(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ, ਮਾਡਲ ਨੂੰ customer service ਕੰਮ ਪੂਰਾ ਕਰਨ ਲਈ tools ਵਰਤਣੇ ਪੈਂਦੇ ਹਨ, ਜਿੱਥੇ ਕੋਈ ਯੂਜ਼ਰ ਹੋ ਸਕਦਾ ਹੈ ਜੋ ਸੰਚਾਰ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ world state ‘ਤੇ actions ਲੈ ਸਕਦਾ ਹੈ. ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਨੂੰ ਉੱਚ reasoning effort ਨਾਲ ਚਲਾਇਆ ਗਿਆ ਸੀ.

GPT‑5 long-context performance ਵਿੱਚ ਵੀ ਮਜ਼ਬੂਤ ਸੁਧਾਰ ਦਿਖਾਉਂਦਾ ਹੈ. OpenAI-MRCR ‘ਤੇ, ਜੋ long-context information retrieval ਦੀ ਇੱਕ ਮਾਪ ਹੈ, GPT‑5 o3 ਅਤੇ GPT‑4.1 ਤੋਂ ਬਿਹਤਰ ਹੈ, ਅਤੇ ਇਹ ਫ਼ਰਕ ਹੋਰ ਲੰਬੀਆਂ input lengths ‘ਤੇ ਕਾਫ਼ੀ ਵਧ ਜਾਂਦਾ ਹੈ.

OpenAI-MRCR(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) (multi-round co-reference resolution) ਵਿੱਚ, ਕਈ ਇਕੋ ਜਿਹੀਆਂ “needle” user requests ਨੂੰ ਇਕੋ ਤਰ੍ਹਾਂ ਦੀਆਂ requests ਅਤੇ responses ਵਾਲੀਆਂ ਲੰਬੀਆਂ “haystacks” ਵਿੱਚ ਸ਼ਾਮਲ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਮਾਡਲ ਨੂੰ i-th needle ਦੇ response ਨੂੰ ਦੁਹਰਾਉਣ ਲਈ ਕਿਹਾ ਜਾਂਦਾ ਹੈ. Mean match ratio ਮਾਡਲ ਦੇ response ਅਤੇ ਸਹੀ answer ਵਿਚਕਾਰ ਔਸਤ string match ratio ਮਾਪਦਾ ਹੈ. 256k max input tokens ਵਾਲੇ points 128k–256k input tokens ਦੇ averages ਦਰਸਾਉਂਦੇ ਹਨ, ਅਤੇ ਇਸੇ ਤਰ੍ਹਾਂ ਅੱਗੇ. ਇੱਥੇ, 256k ਦਾ ਅਰਥ 256 * 1,024 = 262,114 tokens ਹੈ. ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਨੂੰ ਉੱਚ reasoning effort ਨਾਲ ਚਲਾਇਆ ਗਿਆ ਸੀ.

ਅਸੀਂ BrowseComp Long Context(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਨੂੰ ਵੀ open source ਕਰ ਰਹੇ ਹਾਂ, ਜੋ long-context Q&A ਦੇ ਮੁਲਾਂਕਣ ਲਈ ਇੱਕ ਨਵਾਂ benchmark ਹੈ. ਇਸ benchmark ਵਿੱਚ, ਮਾਡਲ ਨੂੰ ਇੱਕ user query, ਸੰਬੰਧਿਤ search results ਦੀ ਇੱਕ ਲੰਬੀ ਸੂਚੀ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ ਅਤੇ ਉਸ ਨੂੰ search results ਦੇ ਆਧਾਰ ‘ਤੇ ਸਵਾਲ ਦਾ ਜਵਾਬ ਦੇਣਾ ਹੁੰਦਾ ਹੈ. ਅਸੀਂ BrowseComp Long Context ਨੂੰ ਹਕੀਕਤੀ, ਔਖਾ ਅਤੇ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ ਸਹੀ ground truth answers ਵਾਲਾ ਬਣਾਇਆ ਹੈ. ਜਦੋਂ inputs 128K–256K tokens ਦੇ ਹੁੰਦੇ ਹਨ, GPT‑5 89% ਵਾਰ ਸਹੀ ਜਵਾਬ ਦਿੰਦਾ ਹੈ.

API ਵਿੱਚ, ਸਾਰੇ GPT‑5 ਮਾਡਲ ਵੱਧ ਤੋਂ ਵੱਧ 272,000 input tokens ਲੈ ਸਕਦੇ ਹਨ ਅਤੇ ਵੱਧ ਤੋਂ ਵੱਧ 128,000 reasoning & output tokens ਜਾਰੀ ਕਰ ਸਕਦੇ ਹਨ, ਕੁੱਲ context length 400,000 tokens ਬਣਦੀ ਹੈ.

Factuality

GPT‑5 ਸਾਡੇ ਪਿਛਲੇ ਮਾਡਲਾਂ ਨਾਲੋਂ ਹੋਰ ਭਰੋਸੇਯੋਗ ਹੈ. LongFact ਅਤੇ FactScore benchmarks ਦੇ prompts ‘ਤੇ, GPT‑5 o3 ਨਾਲੋਂ ਲਗਭਗ ~80% ਘੱਟ factual errors ਕਰਦਾ ਹੈ. ਇਸ ਨਾਲ ਇਹ ਉਹਨਾਂ ਏਜੰਟਿਕ use cases ਲਈ ਹੋਰ ਉਚਿਤ ਬਣਦਾ ਹੈ ਜਿੱਥੇ ਸਹੀਪਣ ਮਹੱਤਵ ਰੱਖਦਾ ਹੈ—ਖ਼ਾਸ ਕਰਕੇ code, data ਅਤੇ decision-making ਵਿੱਚ.

ਉੱਚ ਸਕੋਰ ਹੋਰ ਮਾੜੇ ਹੁੰਦੇ ਹਨ. LongFact(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਅਤੇ FActScore(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ open-ended fact-seeking ਸਵਾਲ ਹੁੰਦੇ ਹਨ. ਅਸੀਂ ਇਨ੍ਹਾਂ benchmarks ਦੇ prompts ‘ਤੇ responses ਦੀ fact-checking ਕਰਨ ਲਈ browsing ਵਾਲਾ LLM-ਆਧਾਰਿਤ grader ਵਰਤਦੇ ਹਾਂ ਅਤੇ ਤੱਥਕਤ ਰੂਪ ਵਿੱਚ ਗਲਤ claims ਦਾ ਹਿੱਸਾ ਮਾਪਦੇ ਹਾਂ. Implementation ਅਤੇ grading ਦੇ ਵੇਰਵੇ ਸਿਸਟਮ ਕਾਰਡ ਵਿੱਚ ਮਿਲ ਸਕਦੇ ਹਨ. ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਨੇ ਉੱਚ reasoning effort ਵਰਤੀ. Search enabled ਨਹੀਂ ਸੀ.

ਆਮ ਤੌਰ ‘ਤੇ, GPT‑5 ਨੂੰ ਆਪਣੀਆਂ ਸੀਮਾਵਾਂ ਬਾਰੇ ਹੋਰ self-aware ਹੋਣ ਅਤੇ ਅਣਅਪੇਖਿਤ ਮੁਸ਼ਕਲ ਹਾਲਾਤਾਂ ਨੂੰ ਹੋਰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸੰਭਾਲਣ ਲਈ train ਕੀਤਾ ਗਿਆ ਹੈ. ਅਸੀਂ GPT‑5 ਨੂੰ ਸਿਹਤ ਸੰਬੰਧੀ ਸਵਾਲਾਂ ‘ਤੇ ਵੀ ਕਾਫ਼ੀ ਹੋਰ ਸਹੀ ਹੋਣ ਲਈ train ਕੀਤਾ ਹੈ (ਹੋਰ ਪੜ੍ਹੋ ਸਾਡੇ research blog) ਵਿੱਚ. ਜਿਵੇਂ ਸਾਰੇ language models ਨਾਲ ਹੁੰਦਾ ਹੈ, ਜਦੋਂ ਦਾਅ ਵੱਡਾ ਹੋਵੇ ਤਾਂ ਅਸੀਂ ਸਿਫ਼ਾਰਸ਼ ਕਰਦੇ ਹਾਂ ਕਿ ਤੁਸੀਂ GPT‑5 ਦੇ ਕੰਮ ਦੀ ਪੁਸ਼ਟੀ ਕਰੋ.

ਨਵੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ

Minimal reasoning effort

ਡਿਵੈਲਪਰ API ਵਿੱਚ reasoning_effort parameter ਰਾਹੀਂ GPT‑5 ਦੇ thinking time ਨੂੰ ਕੰਟਰੋਲ ਕਰ ਸਕਦੇ ਹਨ. ਪਹਿਲਾਂ ਵਾਲੀਆਂ values—low, medium (default), ਅਤੇ high—ਦੇ ਨਾਲ ਨਾਲ, GPT‑5 minimal ਨੂੰ ਵੀ support ਕਰਦਾ ਹੈ, ਜੋ GPT‑5 ਦੀ reasoning ਨੂੰ ਘੱਟ ਤੋਂ ਘੱਟ ਕਰਕੇ ਜਵਾਬ ਤੇਜ਼ੀ ਨਾਲ ਵਾਪਸ ਦਿੰਦਾ ਹੈ.

ਉੱਚ reasoning_effort values quality ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਦੀਆਂ ਹਨ ਅਤੇ ਘੱਟ values speed ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਦੀਆਂ ਹਨ. ਸਾਰੇ ਕੰਮ ਵਾਧੂ reasoning ਤੋਂ ਇਕਸਾਰ ਫ਼ਾਇਦਾ ਨਹੀਂ ਲੈਂਦੇ, ਇਸ ਲਈ ਅਸੀਂ ਸਿਫ਼ਾਰਸ਼ ਕਰਦੇ ਹਾਂ ਕਿ ਤੁਸੀਂ ਤਜਰਬਾ ਕਰਕੇ ਵੇਖੋ ਕਿ ਤੁਹਾਡੇ use cases ਲਈ ਕਿਹੜਾ ਵਿਕਲਪ ਸਭ ਤੋਂ ਵਧੀਆ ਕੰਮ ਕਰਦਾ ਹੈ.

ਉਦਾਹਰਨ ਲਈ, low ਤੋਂ ਉੱਪਰ ਦੀ reasoning ਨਿਸ਼ਚਿਤ ਤੌਰ ‘ਤੇ ਸਧਾਰਣ long-context retrieval ਵਿੱਚ ਘੱਟ ਫ਼ਰਕ ਪਾਂਦੀ ਹੈ, ਪਰ CharXiv Reasoning(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ, ਜੋ ਇੱਕ visual reasoning benchmark ਹੈ, ਕਾਫ਼ੀ percentage points ਵਧਾ ਦਿੰਦੀ ਹੈ.

GPT‑5 ਦਾ reasoning effort ਵੱਖ-ਵੱਖ ਕੰਮਾਂ ‘ਤੇ ਵੱਖਰੇ ਲਾਭ ਦਿੰਦਾ ਹੈ. CharXiv Reasoning ਲਈ, GPT‑5 ਨੂੰ ਇੱਕ python tool ਦੀ ਪਹੁੰਚ ਦਿੱਤੀ ਗਈ ਸੀ.

Verbosity

GPT‑5 ਦੇ ਜਵਾਬਾਂ ਦੀ default ਲੰਬਾਈ ਨੂੰ steer ਕਰਨ ਵਿੱਚ ਮਦਦ ਲਈ, ਅਸੀਂ ਇੱਕ ਨਵਾਂ API parameter verbosity ਪੇਸ਼ ਕੀਤਾ ਹੈ, ਜੋ low, medium (default), ਅਤੇ high values ਲੈਂਦਾ ਹੈ. ਜੇਕਰ explicit instructions verbosity parameters ਨਾਲ ਟਕਰਾਏਂ, ਤਾਂ explicit instructions ਨੂੰ ਤਰਜੀਹ ਮਿਲੇਗੀ. ਉਦਾਹਰਨ ਲਈ, ਜੇ ਤੁਸੀਂ GPT‑5 ਨੂੰ “5 paragraph ਦਾ essay ਲਿਖੋ” ਕਹੋ, ਤਾਂ verbosity level ਕੋਈ ਵੀ ਹੋਵੇ, ਮਾਡਲ ਦਾ ਜਵਾਬ ਹਮੇਸ਼ਾਂ 5 paragraphs ਦਾ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ (ਹਾਲਾਂਕਿ paragraphs ਆਪਣੇ ਆਪ ਵਿੱਚ ਲੰਮੇ ਜਾਂ ਛੋਟੇ ਹੋ ਸਕਦੇ ਹਨ).

Verbosity=ਘੱਟ

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=ਮੱਧਮ

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=ਉੱਚ

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Tool calls ਤੋਂ ਪਹਿਲਾਂ preamble messages

ਜੇ ਹੁਕਮ ਦਿੱਤਾ ਜਾਵੇ, GPT‑5 tool calls ਤੋਂ ਪਹਿਲਾਂ ਅਤੇ ਦਰਮਿਆਨ user-visible preamble messages output ਕਰੇਗਾ. Hidden reasoning messages ਤੋਂ ਵੱਖਰੇ, ਇਹ visible messages GPT‑5 ਨੂੰ plans ਅਤੇ progress ਯੂਜ਼ਰ ਤੱਕ ਪਹੁੰਚਾਉਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੇ ਹਨ, ਜਿਸ ਨਾਲ end users ਇਸ ਦੇ approach ਅਤੇ tool calls ਦੇ ਪਿੱਛੇ ਦੇ intent ਨੂੰ ਸਮਝ ਸਕਦੇ ਹਨ.

Custom tools

ਅਸੀਂ ਇੱਕ ਨਵਾਂ tool type—custom tools—ਪੇਸ਼ ਕਰ ਰਹੇ ਹਾਂ, ਜੋ GPT‑5 ਨੂੰ JSON ਦੀ ਥਾਂ plaintext ਨਾਲ tool call ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ. GPT‑5 ਨੂੰ custom tool formats ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ constrain ਕਰਨ ਵਾਸਤੇ, ਡਿਵੈਲਪਰ ਇੱਕ regex ਜਾਂ ਹੋਰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਿਰਧਾਰਤ context-free grammar(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਮੁਹੱਈਆ ਕਰ ਸਕਦੇ ਹਨ.

ਪਹਿਲਾਂ, developer-defined tools ਲਈ ਸਾਡਾ interface ਇਹ ਲਾਜ਼ਮੀ ਕਰਦਾ ਸੀ ਕਿ ਉਹ JSON ਨਾਲ call ਕੀਤੇ ਜਾਣ, ਜੋ web APIs ਅਤੇ ਆਮ ਤੌਰ ‘ਤੇ ਡਿਵੈਲਪਰਾਂ ਦੁਆਰਾ ਵਰਤਿਆ ਜਾਣ ਵਾਲਾ ਇੱਕ ਆਮ format ਹੈ. ਪਰ, valid JSON output ਕਰਨ ਲਈ ਮਾਡਲ ਨੂੰ ਸਾਰੇ quotation marks, backslashes, newlines ਅਤੇ ਹੋਰ control characters ਨੂੰ ਬਿਲਕੁਲ ਸਹੀ ਤਰੀਕੇ ਨਾਲ escape ਕਰਨਾ ਪੈਂਦਾ ਹੈ. ਭਾਵੇਂ ਸਾਡੇ ਮਾਡਲ JSON output ਕਰਨ ਲਈ ਚੰਗੀ ਤਰ੍ਹਾਂ trained ਹਨ, ਪਰ code ਦੀਆਂ ਸੈਂਕੜਿਆਂ lines ਜਾਂ 5-page report ਵਰਗੇ ਲੰਮੇ inputs ‘ਤੇ ਗਲਤੀ ਦੀ ਸੰਭਾਵਨਾ ਵੱਧ ਜਾਂਦੀ ਹੈ. Custom tools ਨਾਲ, GPT‑5 ਉਹਨਾਂ ਸਾਰੇ characters ਨੂੰ escape ਕੀਤੇ ਬਿਨਾਂ tool inputs ਨੂੰ plaintext ਵਜੋਂ ਲਿਖ ਸਕਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਲਈ escaping ਲੋੜੀਂਦੀ ਹੁੰਦੀ ਹੈ.

JSON tools ਦੀ ਥਾਂ custom tools ਵਰਤ ਕੇ SWE-bench Verified ‘ਤੇ, GPT‑5 ਲਗਭਗ ਉਹੀ ਸਕੋਰ ਕਰਦਾ ਹੈ.

ਸੁਰੱਖਿਆ

GPT‑5 ਸੁਰੱਖਿਆ ਦੇ ਅਤਿ-ਆਧੁਨਿਕ ਪੱਧਰ ਨੂੰ ਅੱਗੇ ਵਧਾਉਂਦਾ ਹੈ ਅਤੇ ਹੋਰ ਮਜ਼ਬੂਤ, ਭਰੋਸੇਯੋਗ ਅਤੇ ਮਦਦਗਾਰ ਮਾਡਲ ਹੈ. GPT‑5 ਸਾਡੇ ਪਿਛਲੇ ਮਾਡਲਾਂ ਨਾਲੋਂ ਕਾਫ਼ੀ ਘੱਟ ਭਰਮਿਤ ਜਵਾਬ ਦਿੰਦਾ ਹੈ, ਯੂਜ਼ਰ ਨਾਲ ਆਪਣੀਆਂ ਕਾਰਵਾਈਆਂ ਅਤੇ ਸਮਰੱਥਾਵਾਂ ਬਾਰੇ ਹੋਰ ਇਮਾਨਦਾਰੀ ਨਾਲ ਸੰਚਾਰ ਕਰਦਾ ਹੈ ਅਤੇ ਸੁਰੱਖਿਆ ਸੀਮਾਵਾਂ ਅੰਦਰ ਰਹਿੰਦੇ ਹੋਏ ਸੰਭਵ ਹੋਣ ‘ਤੇ ਸਭ ਤੋਂ ਮਦਦਗਾਰ ਜਵਾਬ ਦਿੰਦਾ ਹੈ. ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ ਸਾਡਾ research blog ਪੜ੍ਹੋ.

ਉਪਲਬਧਤਾ & ਕੀਮਤ

GPT‑5 ਹੁਣ API ਪਲੇਟਫਾਰਮ ਵਿੱਚ ਤਿੰਨ ਆਕਾਰਾਂ ਵਿੱਚ ਉਪਲਬਧ ਹੈ: gpt-5, gpt-5-mini, ਅਤੇ gpt-5-nano. ਇਹ Responses API, ਚੈਟ ਕੰਪਲੀਸ਼ਨਜ਼ API ‘ਤੇ ਉਪਲਬਧ ਹੈ, ਅਤੇ Codex CLI ਵਿੱਚ default ਹੈ. GPT‑5 ਦੀ ਕੀਮਤ $1.25/1M input tokens ਅਤੇ $10/1M output tokens ਹੈ, GPT‑5 mini ਦੀ ਕੀਮਤ $0.25/1M input tokens ਅਤੇ $2/1M output tokens ਹੈ, ਅਤੇ GPT‑5 nano ਦੀ ਕੀਮਤ $0.05/1M input tokens ਅਤੇ $0.40/1M output tokens ਹੈ.

ਇਹ ਮਾਡਲ reasoning_effort ਅਤੇ verbosity API parameters ਦੇ ਨਾਲ ਨਾਲ custom tools ਨੂੰ ਵੀ support ਕਰਦੇ ਹਨ. ਇਹ parallel tool calling, built-in tools (web search, file search, ਇਮੇਜ ਜਨਰੇਸ਼ਨ, ਅਤੇ ਹੋਰ), core API features (streaming, ਸਟਰੱਕਚਰਡ ਆਉਟਪੁੱਟਸ, ਅਤੇ ਹੋਰ), ਅਤੇ cost-saving features ਜਿਵੇਂ prompt caching ਅਤੇ Batch API ਨੂੰ ਵੀ support ਕਰਦੇ ਹਨ.

ChatGPT ਵਿੱਚ ਵਰਤਿਆ ਜਾਣ ਵਾਲਾ GPT‑5 ਦਾ non-reasoning ਵਰਜਨ API ਵਿੱਚ gpt-5-chat-latest ਵਜੋਂ ਉਪਲਬਧ ਹੈ, ਜਿਸ ਦੀ ਕੀਮਤ ਵੀ $1.25/1M input tokens ਅਤੇ $10/1M output tokens ਹੈ.

GPT‑5 Microsoft ਪਲੇਟਫਾਰਮਾਂ ‘ਤੇ ਵੀ launch ਹੋ ਰਿਹਾ ਹੈ, ਜਿਸ ਵਿੱਚ Microsoft 365 Copilot, Copilot, GitHub Copilot, ਅਤੇ Azure AI Foundry ਸ਼ਾਮਲ ਹਨ.

ਵਿਸਥਾਰਪੂਰਣ benchmarks

ਬੁੱਧੀਮਤਾ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94.6%91.1%85.2%88.9%92.7%46.4%40.2%-
FrontierMath(with python tool only)26.3%22.1%9.6%15.8%15.4%---
GPQA diamond(no tools)85.7%82.3%71.2%83.3%81.4%66.3%65.0%50.3%
HLE[1](no tools)24.8%16.7%8.7%20.2%14.7%5.4%3.7%-
HMMT 2025(no tools)93.3%87.8%75.6%81.7%85.0%28.9%35.0%-

[1] ਸਾਡੇ ਪਿਛਲੇ blog post ਵਿੱਚ ਦਿੱਤੇ ਨੰਬਰਾਂ ਨਾਲ ਥੋੜ੍ਹਾ ਫ਼ਰਕ ਹੈ, ਕਿਉਂਕਿ ਉਹ HLE ਦੇ ਪਹਿਲਾਂ ਦੇ ਵਰਜਨ ‘ਤੇ ਚਲਾਏ ਗਏ ਸਨ.

ਮਲਟੀਮੋਡਲ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84.2%81.6%75.6%82.9%81.6%74.8%72.7%55.4%
MMMU-Pro(avg across standard and vision sets)78.4%74.1%62.6%76.4%73.4%60.3%58.9%33.0%
CharXiv reasoning(python enabled)81.1%75.5%62.7%78.6%72.0%56.7%56.8%40.5%
VideoMMMU, max frame 25684.6%82.5%66.8%83.3%79.4%60.9%55.1%30.2%
ERQA65.7%62.9%50.1%64.0%56.5%44.3%42.3%26.5%
Coding
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding TasksUS$1.1 ਲੱਖUS$75 ਹਜ਼ਾਰUS$49 ਹਜ਼ਾਰUS$86 ਹਜ਼ਾਰUS$66 ਹਜ਼ਾਰUS$34 ਹਜ਼ਾਰUS$31 ਹਜ਼ਾਰUS$9 ਹਜ਼ਾਰ
SWE-bench Verified[2]74.9%71.0%54.7%69.1%68.1%54.6%23.6%-
Aider polyglot(diff)88.0%71.6%48.4%79.6%58.2%52.9%31.6%6.2%

[2] ਅਸੀਂ 23/500 ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਛੱਡ ਦਿੰਦੇ ਹਾਂ ਜੋ ਸਾਡੇ infrastructure ‘ਤੇ ਨਹੀਂ ਚੱਲ ਸਕੀਆਂ. ਛੱਡੀਆਂ ਗਈਆਂ 23 ਟਾਸਕਾਂ ਦੀ ਪੂਰੀ ਸੂਚੀ ‘astropy__astropy-7606’, ‘astropy__astropy-8707’, ‘astropy__astropy-8872’, ‘django__django-10097’, ‘django__django-7530’, ‘matplotlib__matplotlib-20488’, ‘matplotlib__matplotlib-20676’, ‘matplotlib__matplotlib-20826’, ‘matplotlib__matplotlib-23299’, ‘matplotlib__matplotlib-24970’, ‘matplotlib__matplotlib-25479’, ‘matplotlib__matplotlib-26342’, ‘psf__requests-6028’, ‘pylint-dev__pylint-6528’, ‘pylint-dev__pylint-7080’, ‘pylint-dev__pylint-7277’, ‘pytest-dev__pytest-5262’, ‘pytest-dev__pytest-7521’, ‘scikit-learn__scikit-learn-12973’, ‘sphinx-doc__sphinx-10466’, ‘sphinx-doc__sphinx-7462’, ‘sphinx-doc__sphinx-8265’, ਅਤੇ ‘sphinx-doc__sphinx-9367’ ਹਨ.

Instruction Following
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69.6%62.3%54.9%60.4%57.5%46.2%42.2%31.1%
Internal API instruction following eval(hard)64.0%65.8%56.1%47.4%44.7%49.1%45.1%31.6%
COLLIE99.0%98.5%96.9%98.4%96.1%65.8%54.6%42.5%

[3] ਨੋਟ: ਅਸੀਂ ਵੇਖਦੇ ਹਾਂ ਕਿ MultiChallenge ਵਿੱਚ default grader (GPT-4o) ਅਕਸਰ ਮਾਡਲ responses ਨੂੰ ਗਲਤ ਸਕੋਰ ਕਰਦਾ ਹੈ. ਅਸੀਂ ਪਾਇਆ ਹੈ ਕਿ grader ਨੂੰ o3-mini ਵਰਗੇ reasoning ਮਾਡਲ ਨਾਲ ਬਦਲਣ ਨਾਲ, ਜਿਨ੍ਹਾਂ samples ਦੀ ਅਸੀਂ ਜਾਂਚ ਕੀਤੀ, ਉਨ੍ਹਾਂ ਵਿੱਚ grading ਦੀ ਸਹੀਪਣ ਕਾਫ਼ੀ ਸੁਧਰਦੀ ਹੈ.

ਫੰਕਸ਼ਨ ਕਾਲਿੰਗ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62.6%60.0%41.0%64.8%60.2%56.0%51.0%14.0%
Tau2-bench retail81.1%78.3%62.3%80.2%70.5%74.0%66.0%21.5%
Tau2-bench telecom96.7%74.1%35.5%58.2%40.5%34.0%44.0%12.1%
ਲੰਮਾ ਸੰਦਰਭ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95.2%84.3%43.2%55.0%56.4%57.2%47.2%36.6%
OpenAI-MRCR: 2 needle 256k86.8%58.8%34.9%--56.2%45.5%22.6%
Graphwalks bfs <128k78.3%73.4%64.0%77.3%62.3%61.7%61.7%25.0%
Graphwalks parents <128k73.3%64.3%43.8%72.9%51.1%58.0%60.5%9.4%
BrowseComp Long Context 128k90.0%89.4%80.4%88.3%80.0%85.9%89.0%89.4%
BrowseComp Long Context 256k88.8%86.0%68.4%--75.5%81.6%19.1%
VideoMME(long, with subtitle category)86.7%78.5%65.7%84.9%79.5%78.7%68.4%55.2%
ਭਰਮਿਤ ਜਵਾਬ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1.0%0.7%1.0%5.2%3.0%0.7%1.1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1.2%1.3%2.8%6.8%8.9%1.1%1.8%-
FActScore hallucination rate(no tools)[lower is better]2.8%3.5%7.3%23.5%38.7%6.7%10.9%-

ਲੇਖਕ

OpenAI