মূল কনটেন্টে যান
OpenAI

৭ আগস্ট, ২০২৫

প্রোডাক্ট

ডেভেলপারদের জন্য GPT‑5 পরিচিতি

কোডিং এবং এজেন্টিক কাজের জন্য সেরা মডেল.

লোডিং…

ভূমিকা

আজ আমরা আমাদের API প্ল্যাটফর্মে GPT‑5 রিলিজ করছি—কোডিং এবং এজেন্টিক কাজের জন্য এখন পর্যন্ত আমাদের সেরা মডেল.

GPT‑5 মূল কোডিং বেঞ্চমার্কগুলোতে স্টেট-অফ-দ্য-আর্ট (SOTA), যেখানে এটি SWE-বেঞ্চ ভেরিফায়েড-এ 74.9% এবং Aider polyglot-এ 88% স্কোর করেছে. আমরা GPT‑5‑কে একটি সত্যিকারের কোডিং সহযোগী হিসেবে ট্রেইন করেছি. এটি উচ্চমানের কোড তৈরি করতে দক্ষ এবং বাগ ফিক্স করা, কোড এডিট করা, এবং জটিল কোডবেস নিয়ে প্রশ্নের উত্তর দেওয়ার মতো কাজগুলো সহজে হ্যান্ডেল করতে পারে. মডেলটি নিয়ন্ত্রণযোগ্য এবং সহযোগী - এটি উচ্চ নির্ভুলতার সাথে খুব বিশদ নির্দেশাবলী অনুসরণ করতে পারে এবং সরঞ্জাম কলের আগে এবং মধ্যে তার ক্রিয়াকলাপের প্রাথমিক ব্যাখ্যা প্রদান করতে পারে.  মডেলটি ফ্রন্ট-এন্ড কোডিংয়েও দক্ষ, যেখানে ইন্টারনাল টেস্টিংয়ে এটি 70% ক্ষেত্রে ফ্রন্টএন্ড ওয়েব ডেভেলপমেন্টে OpenAI o3‑কে হারিয়েছে.

আমরা স্টার্টআপ এবং এন্টারপ্রাইজের আর্লি টেস্টারদের সহযোগিতায় বাস্তব কোডিং টাস্কের উপর GPT‑5‑কে ট্রেইন করেছি. কার্সর বলেছেন যে GPT‑5 হল "সবচেয়ে স্মার্ট মডেল [তারা] ব্যবহার করেছেন" এবং "অসাধারণ বুদ্ধিমান, পরিচালনা করা সহজ, এবং এমনকি এমন একটি ব্যক্তিত্ব রয়েছে যা তারা অন্য মডেলগুলিতে দেখেননি.” Windsurf শেয়ার করা GPT‑5 তাদের ইভ্যালসে SOTA এবং "অন্যান্য সীমান্ত মডেলের তুলনায় টুল কলিং ত্রুটির হার অর্ধেক." "Vercel বলছে, “এটি সেরা ফ্রন্টএন্ড এআই মডেল, যা নান্দনিক বোধ এবং কোড গুণমান উভয় ক্ষেত্রেই শীর্ষ পারফরম্যান্স প্রদান করে, এটিকে নিজস্ব একটি শ্রেণীতে স্থাপন করে.”

GPT‑5 দীর্ঘমেয়াদী এজেন্টিক টাস্কেও অসাধারণ—মাত্র 2 মাস আগে প্রকাশিত টুল-কলিং বেঞ্চমার্ক τ2-bench telecom-এ (96.7%) SOTA ফলাফল অর্জন করেছে. GPT‑5‑এর উন্নত টুল ইন্টেলিজেন্স এটি সিকোয়েন্সিয়াল এবং প্যারালাল উভয়ভাবে ডজন ডজন টুল কল একসাথে নির্ভরযোগ্যভাবে যুক্ত করতে পারে, কোনোভাবে পথ হারায় না—ফলে জটিল বাস্তব কাজ এন্ড-টু-এন্ড এক্সিকিউট করতে অনেক বেশি সক্ষম. এটি টুল নির্দেশনা আরও নির্ভুলভাবে অনুসরণ করে, টুল এরর ভালোভাবে হ্যান্ডেল করতে পারে, এবং লং-কনটেক্সট কনটেন্ট রিট্রিভাল-এও দক্ষ. Manus বলেন, GPT‑5 "[তাদের] অভ্যন্তরীণ বেঞ্চমার্কে একটি একক মডেল থেকে দেখা সেরা পারফরম্যান্স অর্জন করেছে." Notion বলেছে, “[মডেলের] দ্রুত রেসপন্স, বিশেষ করে লো রিজনিং মোডে, GPT‑5‑কে আদর্শ মডেল বানিয়েছে যখন জটিল কাজ একবারেই সমাধান করতে হয়.” Inditex শেয়ার করেছে “যা সত্যিই [GPT‑5]‑কে আলাদা করে তা হলো এর রিজনিং-এর গভীরতা: সূক্ষ্ম, বহুস্তরীয় উত্তর যা প্রকৃত বিষয়বস্তুর বোঝাপড়া প্রতিফলিত করে.”

আমরা আমাদের API-তে নতুন ফিচার নিয়ে আসছি যাতে ডেভেলপাররা মডেলের রেসপন্সের উপর আরও নিয়ন্ত্রণ পায়. GPT‑5 উত্তরগুলি সংক্ষিপ্ত এবং বিন্দু বা দীর্ঘ এবং ব্যাপক কিনা তা নিয়ন্ত্রণ করতে সহায়তা করার জন্য একটি নতুন ভার্বো সিটিপ্যারামিটার (মান: কম, মাঝারি, উচ্চ) সমর্থন করে. GPT‑5 এর যুক্তি reasoning_effort প্যারামিটারটি এখন বিস্তৃত যুক্তি ছাড়াই দ্রুত উত্তরগুলি ফিরে পেতে ন্যূনতম মান নিতে পারে. আমরা আরও একটি নতুন টুল টাইপ—কাস্টম টুলস—যোগ করেছি, যাতে GPT‑5 JSON-এর বদলে plaintext দিয়ে টুল কল করতে পারে. কাস্টম টুলস ডেভেলপার প্রদত্ত context-free grammars দ্বারা কনস্ট্রেইন সাপোর্ট করে.

আমরা নির্মাতাদের পারফরম্যান্স, ব্যয় এবং বিলম্ব থেকে বাণিজ্য করার জন্য আরও নমনীয়তা দেওয়ার জন্য এপিআই-তে তিন আকারে GPT‑5 প্রকাশ করছি—gpt-5, gpt-5-mini, এবং gpt-5-nano. যেখানে ChatGPT‑তে GPT‑5 হলো reasoning, non-reasoning, এবং router মডেলের একটি সিস্টেম, সেখানে API প্ল্যাটফর্মে GPT‑5 হলো reasoning মডেল যা ChatGPT‑তে সর্বোচ্চ পারফরম্যান্স চালিত করে. উল্লেখযোগ্যভাবে, মিনিমাল রিজনিংসহ GPT‑5 হলো ChatGPT‑র নন-রিজনিং মডেল থেকে ভিন্ন, এবং এটি ডেভেলপারদের জন্য আরও ভালোভাবে টিউন করা. ChatGPT‑তে ব্যবহৃত নন-যুক্তিযুক্ত মডেলটি gpt-5-chat-latest হিসাবে উপলভ্য.

ChatGPT‑তে GPT‑5 সম্পর্কে পড়তে এবং অন্যান্য ChatGPT উন্নতি সম্পর্কে আরও জানতে, আমাদের গবেষণা ব্লগ দেখুন. GPT‑5 ব্যবহারে এন্টারপ্রাইজগুলি কীভাবে উত্তেজিত, সে সম্পর্কে আরও জানতে, আমাদের এন্টারপ্রাইজ ব্লগ দেখুন.

কোডিং

GPT‑5 হলো এ পর্যন্ত আমাদের রিলিজ করা সবচেয়ে শক্তিশালী কোডিং মডেল. এটি কোডিং বেঞ্চমার্ক এবং বাস্তব ব্যবহার ক্ষেত্রে o3‑কে ছাড়িয়ে গেছে, এবং Cursor, Windsurf, GitHub Copilot, এবং Codex CLI-এর মতো agentic coding পণ্যে উজ্জ্বল পারফরম্যান্সের জন্য ফাইন-টিউন করা হয়েছে. GPT‑5 আমাদের আলফা পরীক্ষকদের মুগ্ধ করেছে, তাদের অনেক ব্যক্তিগত অভ্যন্তরীণ মূল্যায়নে রেকর্ড স্থাপন করেছে. 

বাস্তব কোডিং টাস্কের জন্য GPT‑5 নিয়ে প্রাথমিক ফিডব্যাক।

“GPT-5 হলো সবচেয়ে স্মার্ট কোডিং মডেল যা আমরা ব্যবহার করেছি. আমাদের টিম GPT-5-কে অসাধারণ বুদ্ধিমান, সহজে স্টিয়ারযোগ্য, এমনকি এমন এক ব্যক্তিত্বসম্পন্ন পেয়েছে যা আমরা অন্য কোনো মডেলে দেখিনি. এটি শুধু জটিল, গভীরে লুকানো বাগই ধরতে পারে না, বরং লং, মাল্টি-টার্ন ব্যাকগ্রাউন্ড এজেন্ট চালিয়ে জটিল টাস্ক সম্পূর্ণ করতেও সক্ষম—যে ধরনের সমস্যায় অন্য মডেলগুলো আগে আটকে যেত. এটি আমাদের ডেইলি ড্রাইভার হয়ে উঠেছে—PR স্কোপিং ও প্ল্যানিং থেকে শুরু করে এন্ড-টু-এন্ড বিল্ডস সম্পূর্ণ করা পর্যন্ত সবকিছুর জন্য.
Michael Truell, কো-ফাউন্ডার ও CEO, Cursor.

বাস্তব সফটওয়্যার ইঞ্জিনিয়ারিং টাস্ক-ভিত্তিক ইভ্যালুয়েশন SWE-bench Verified-এ GPT‑5 স্কোর করেছে 74.9%, যা o3‑এর 69.1% থেকে বৃদ্ধি পেয়েছে. উল্লেখযোগ্যভাবে, GPT‑5 এই উচ্চ স্কোর অর্জন করেছে আরও দক্ষতা ও গতি দিয়ে: উচ্চ রিজনিং এফর্ট-এ o3‑এর তুলনায় GPT‑5 22% কম আউটপুট টোকেন এবং 45% কম টুল কল ব্যবহার করেছে.

SWE-bench ভেরিফায়েড-এ, একটি মডেলকে কোড রিপোজিটরি এবং ইস্যুর বর্ণনা দেওয়া হয় এবং তাকে সমস্যার সমাধানে একটি প্যাচ তৈরি করতে হয়। টেক্সট লেবেলগুলো রিজনিং এফর্ট নির্দেশ করে। আমাদের স্কোর 500 সমস্যার মধ্যে ২৩টি বাদ দেয়, যেগুলোর সমাধান আমাদের ইনফ্রাস্ট্রাকচারে নির্ভরযোগ্যভাবে পাস করেনি। GPT‑5‑কে একটি ছোট প্রম্পট দেওয়া হয়েছিল যা সলিউশন ভেরিফিকেশনে জোর দিয়েছিল; একই প্রম্পট o3‑কে কোনো উপকার দেয়নি।

Aider polyglot-এ কোড এডিটিং মূল্যায়নে GPT‑5 নতুন রেকর্ড 88% স্থাপন করেছে, যা o3‑এর তুলনায় ত্রুটি হার এক-তৃতীয়াংশ কমিয়েছে.

Aider polygot(একটি নতুন উইন্ডোতে খোলে) (diff) এ, একটি মডেলকে Exercism থেকে কোডিং অনুশীলন দেওয়া হয় এবং এর সমাধান অবশ্যই কোড ডিফ হিসাবে লিখতে হবে. রিজনিং মডেলগুলো হাই রিজনিং এফর্ট দিয়ে চালানো হয়েছিল.

আমরা দেখেছি GPT‑5 কোডবেসে গভীরে গিয়ে বিভিন্ন অংশ কীভাবে কাজ করে বা একসঙ্গে কাজ করে সে সম্পর্কে প্রশ্নের উত্তর দিতে দারুণ সক্ষম. OpenAI-এর রিইনফোর্সমেন্ট লার্নিং স্ট্যাকের মতো জটিল একটি কোডবেসে, আমরা দেখছি GPT‑5 আমাদের কোড সম্পর্কে যুক্তি গঠন করতে এবং প্রশ্নের উত্তর দিতে সাহায্য করছে, যা আমাদের দৈনন্দিন কাজের গতি বাড়াচ্ছে. 

ফ্রন্টএন্ড ইঞ্জিনিয়ারিং

ওয়েব অ্যাপের জন্য ফ্রন্টএন্ড কোড তৈরি করার সময়, GPT‑5 আরও নান্দনিকভাবে সচেতন, উচ্চাভিলাষী এবং নির্ভুল. o3‑এর সঙ্গে পাশাপাশি তুলনায় আমাদের টেস্টাররা 70% সময় GPT‑5‑কে পছন্দ করেছে.

একটি প্রম্পটেই GPT‑5 কী করতে পারে তার কিছু চেরি-পিক করা মজার উদাহরণ নিচে দেওয়া হলো।

নির্দেশ: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup

কোডিং কলাবোরেশন

GPT‑5 একটি ভালো কলাবোরেটর, বিশেষ করে Cursor, Windsurf, GitHub Copilot এবং Codex CLI-এর মতো এজেন্টিক কোডিং প্রোডাক্টে. কাজ করার সময় GPT‑5 টুল কলের মাঝে প্ল্যান, আপডেটস এবং রিক্যাপস আউটপুট দিতে পারে. আমাদের আগের মডেলগুলোর তুলনায়, GPT‑5 বেশি প্রোঅ্যাকটিভ—এটি আপনার অনুমতির জন্য অপেক্ষা না করে বা উচ্চ জটিলতায় হোঁচট খাওয়া ছাড়াই উচ্চাভিলাষী কাজগুলো সম্পন্ন করে.

এখানে একটি উদাহরণ দেওয়া হলো, যেখানে GPT‑5 একটি জটিল কাজ (এই ক্ষেত্রে, একটি রেস্টুরেন্টের জন্য ওয়েবসাইট তৈরি) সম্পাদন করার সময় কেমন হতে পারে তা দেখানো হয়েছে:

ইউজার যখন তাদের রেস্টুরেন্টের জন্য ওয়েবসাইট চায়, GPT‑5 দ্রুত একটি প্ল্যান শেয়ার করে, অ্যাপ স্ক্যাফোল্ড করে, ডিপেনডেন্সি ইনস্টল করে, সাইট কনটেন্ট তৈরি করে, কমপাইলেশন এরর চেক করতে একটি বিল্ড রান করে, নিজের কাজ সামারাইজ করে, এবং সম্ভাব্য নেক্সট স্টেপস প্রস্তাব করে. এই ভিডিওটি ~3x স্পিডে করা হয়েছে যাতে আপনার অপেক্ষা বাঁচে; পুরো ওয়েবসাইট তৈরি করতে সময় লেগেছিল প্রায় তিন মিনিট.

এজেন্টিক কাজ

এজেন্টিক কোডিং-এর বাইরেও GPT‑5 সাধারণভাবে এজেন্টিক কাজে আরও দক্ষ. GPT‑5 ইনস্ট্রাকশন ফলোয়িং বেঞ্চমার্কে (Scale MultiChallenge-এ 69.6%, o3‑mini দ্বারা গ্রেডেড) এবং টুল কলিং-এ (τ2-বেঞ্চ টেলিকম-এ 96.7%) নতুন রেকর্ড স্থাপন করেছে. উন্নত টুল ইন্টেলিজেন্স GPT‑5‑কে বাস্তব কাজ সম্পন্ন করতে আরও নির্ভরযোগ্যভাবে অ্যাকশনগুলো একসঙ্গে চেইন করতে সাহায্য করে.

এজেন্টিক কাজের জন্য GPT‑5 নিয়ে প্রাথমিক ফিডব্যাক।

“GPT-5 একটি বড় অগ্রগতি. এটি আমাদের ইন্টারনাল বেঞ্চমার্কসে একক মডেল থেকে দেখা সেরা পারফরম্যান্স অর্জন করেছে. GPT-5 বিভিন্ন এজেন্টিক টাস্কে অসাধারণ পারফর্ম করেছে—এমনকি আমরা এক লাইন কোডও পরিবর্তন বা কোনো প্রম্পট টেইলার করার আগেই. নতুন প্রিম্যাম্বলস এবং টুল ইউজের ওপর আরও নির্ভুল নিয়ন্ত্রণ আমাদের এজেন্টদের স্থায়িত্ব ও স্টিয়ারেবিলিটিতে উল্লেখযোগ্য উন্নতি এনেছে.”
Yichao ‘Peak’ Ji, কো-ফাউন্ডার ও চিফ সায়েন্টিস্ট Manus

নির্দেশনা অনুসরণ

GPT‑5 তার পূর্বসূরিদের তুলনায় আরও নির্ভরযোগ্যভাবে নির্দেশনা অনুসরণ করে, COLLIE, Scale MultiChallenge, এবং আমাদের ইন্টারনাল ইনস্ট্রাকশন ফলোয়িং ইভ্যাল-এ উচ্চ স্কোর করেছে.

COLLIE(একটি নতুন উইন্ডোতে খোলে)-এ, মডেলগুলোকে বিভিন্ন কনস্ট্রেইন্টস মেট করে এমন টেক্সট লিখতে হয়। Scale MultiChallenge(একটি নতুন উইন্ডোতে খোলে)-এ, মডেলগুলোকে মাল্টি-টার্ন কনভার্সেশনে আগের মেসেজগুলো থেকে চার ধরনের ইনফরমেশন সঠিকভাবে ব্যবহার করার চ্যালেঞ্জ দেওয়া হয়। আমাদের স্কোরগুলো এসেছে o3‑mini‑কে গ্রেডার হিসেবে ব্যবহার করে, যা GPT‑4o‑এর চেয়ে বেশি নির্ভুল ছিল। আমাদের অভ্যন্তরীণ OpenAI API নির্দেশনা অনুসরণ ইভ্যালুয়েশনে, মডেলগুলোকে বাস্তব ডেভেলপার ফিডব্যাক থেকে প্রাপ্ত কঠিন নির্দেশনাগুলো অনুসরণ করতে হয়। রিজনিং মডেলগুলো হাই রিজনিং এফর্ট দিয়ে চালানো হয়েছিল।

টুল কলিং

আমরা টুল কলিং ডেভেলপারদের জন্য গুরুত্বপূর্ণ উপায়ে উন্নত করতে কঠোর পরিশ্রম করেছি. GPT‑5 টুল নির্দেশনা অনুসরণ করতে আরও ভালো, টুল ত্রুটি মোকাবেলা করতে আরও ভালো এবং সিকোয়েন্স বা প্যারালালে প্রোঅ্যাকটিভলি অনেকগুলো টুল কল একসাথে বা ধারাবাহিকভাবে করতে আরও ভালো. নির্দেশনা দেওয়া হলে, GPT‑5 দীর্ঘ এজেন্টিক কাজ চলাকালে ব্যবহারকারীদের অগ্রগতি সম্পর্কে আপডেট দিতে টুল কলের আগে এবং মাঝে প্রিম্যাম্বল মেসেজ আউটপুট করতে পারে.

দুই মাস আগে, τ2-bench টেলিকম Sierra.ai দ্বারা একটি চ্যালেঞ্জিং টুল ব্যবহারের বেঞ্চমার্ক হিসাবে প্রকাশিত হয়েছিল যা দেখিয়েছে যে ব্যবহারকারীদের দ্বারা পরিবর্তনযোগ্য পরিবেশের অবস্থার সাথে ইন্টারঅ্যাক্ট করার সময় ভাষার মডেলের কর্মক্ষমতা উল্লেখযোগ্যভাবে কমে যায়. তাদের প্রকাশনায়(একটি নতুন উইন্ডোতে খোলে), কোনো মডেল 49% এর উপরে স্কোর করেনি. GPT‑5 স্কোর করেছে 97%.

τ2-বেঞ্চে(একটি নতুন উইন্ডোতে খোলে), একটি মডেলকে গ্রাহক পরিষেবার কাজ সম্পন্ন করতে সরঞ্জাম ব্যবহার করতে হবে, যেখানে এমন একজন ব্যবহারকারী থাকতে পারেন যিনি যোগাযোগ করতে পারেন এবং বিশ্ব পরিস্থিতির উপর পদক্ষেপ নিতে পারেন। রিজনিং মডেলগুলো হাই রিজনিং এফর্ট দিয়ে চালানো হয়েছিল।

GPT‑5 লং-কনটেক্সট পারফরম্যান্সেও শক্তিশালী উন্নতি দেখিয়েছে. OpenAI-MRCR-এ, যা লং-কনটেক্সট ইনফরমেশন রিট্রিভালের একটি মাপকাঠি, GPT‑5 o3 এবং GPT‑4.1‑কে ছাড়িয়ে গেছে, এবং ইনপুট লেন্থ বাড়লে এই ব্যবধান উল্লেখযোগ্যভাবে বৃদ্ধি পায়.

OpenAI-MRCR(একটি নতুন উইন্ডোতে খোলে) (মাল্টি-রাউন্ড কো-রেফারেন্স রেজোলিউশন)-এ, একাধিক অভিন্ন "সুই" ব্যবহারকারীর অনুরোধ দীর্ঘ "খড়ের গাদা"-এর মধ্যে ঢোকানো হয়, যা একই ধরনের অনুরোধ এবং প্রতিক্রিয়ার সমন্বয়ে গঠিত, এবং মডেলকে i-তম সুইয়ের প্রতিক্রিয়া পুনরুৎপাদন করতে বলা হয়। মিন ম্যাচ রেশিও মডেলের রেসপন্স এবং সঠিক উত্তরের মধ্যে গড় স্ট্রিং ম্যাচ রেশিও মাপে। 256k ম্যাক্স ইনপুট টোকেনস-এ থাকা পয়েন্টগুলো 128k–256k ইনপুট টোকেনসের উপর গড় মান নির্দেশ করে, এবং এভাবে চলতে থাকে। এখানে, 256k মানে 256 * 1,024 = 262,114 টোকেনস। রিজনিং মডেলগুলো হাই রিজনিং এফর্ট দিয়ে চালানো হয়েছিল।

আমরা ওপেন সোর্সিং ব্রাউসকম্প লং কনটেক্সট(একটি নতুন উইন্ডোতে খোলে), দীর্ঘ-প্রসঙ্গ মূল্যায়নের জন্য একটি নতুন মানদণ্ড Q&A. এই বেঞ্চমার্কে, মডেলকে একটি ইউজার কোয়েরি এবং প্রাসঙ্গিক সার্চ রেজাল্টের একটি বড় লিস্ট দেওয়া হয় এবং তাকে ঐ সার্চ রেজাল্টের উপর ভিত্তি করে প্রশ্নের উত্তর দিতে হয়. আমরা BrowseComp Long Context-কে বাস্তবসম্মত, কঠিন, এবং নির্ভরযোগ্য সঠিক গ্রাউন্ড ট্রুথ উত্তরসহ ডিজাইন করেছি. 128K–256K টোকেন ইনপুটে, GPT‑5 89% সময় সঠিক উত্তর দেয়.

API-তে, সব GPT‑5 মডেল সর্বোচ্চ ২৭২,০০০ ইনপুট টোকেন গ্রহণ করতে পারে এবং সর্বোচ্চ ১২৮,০০০ রিজনিং ও আউটপুট টোকেনকেন ইমিট করতে পারে, মোট প্রসঙ্গ দৈর্ঘ্য ৪০০,০০০ টোকেন.

ফ্যাকচুয়ালিটি

GPT‑5 আমাদের আগের মডেলগুলোর তুলনায় আরও বিশ্বস্ত. LongFact এবং FactScore বেঞ্চমার্কের প্রম্পটে, GPT‑5 o3‑এর তুলনায় প্রায় 80% কম ফ্যাকচুয়াল এরর করে. এটি এজেন্টিক ইউজ কেসের জন্য আরও উপযোগী করে তোলে যেখানে সঠিকতা গুরুত্বপূর্ণ—বিশেষত কোড, ডেটা, এবং সিদ্ধান্ত গ্রহণে.

উচ্চতর স্কোর মানে খারাপ ফলাফল. LongFact(একটি নতুন উইন্ডোতে খোলে) এবং FActScore(একটি নতুন উইন্ডোতে খোলে) ওপেন-এন্ডেড তথ্য-অনুসন্ধানমূলক প্রশ্ন নিয়ে গঠিত. আমরা ব্রাউজিং সহ LLM-ভিত্তিক গ্রেডার ব্যবহার করি এই বেঞ্চমার্কগুলোর প্রম্পট থেকে প্রাপ্ত উত্তরগুলো ফ্যাক্ট-চেক করার জন্য এবং ফ্যাকচুয়ালি ভুল দাবির অংশ মাপার জন্য. বাস্তবায়ন এবং গ্রেডিং এর বিশদ বিবরণ system card এ পাওয়া যাবে. রিজনিং মডেলগুলো হাই রিজনিং এফর্ট ইউজ করেছে. সার্চ এনেবল করা হয়নি.

সাধারণভাবে, GPT‑5‑কে আরও স্ব-সচেতন করে ট্রেইন করা হয়েছে যাতে এটি নিজের সীমাবদ্ধতা বুঝতে পারে এবং অপ্রত্যাশিত চ্যালেঞ্জ ভালোভাবে সামলাতে পারে. আমরাও GPT‑5‑কে স্বাস্থ্য সংক্রান্ত প্রশ্নগুলিতে আরও নির্ভুল হতে প্রশিক্ষণ দিয়েছি (আমাদের গবেষণা ব্লগে আরও পড়ুন). সব ভাষা মডেলের মতো, আমরা সুপারিশ করি যখন ঝুঁকি বেশি তখন GPT‑5‑এর কাজ ভেরিফাই করুন.

নতুন ফিচারস

ন্যূনতম যুক্তি প্রয়োগের প্রচেষ্টা

নির্মাতারা API-তে reasoning_effort প্যারামিটারের মাধ্যমে GPT‑5‑এর চিন্তাভাবনার সময় নিয়ন্ত্রণ করতে পারেন. পূর্ববর্তী মানগুলির পাশাপাশি—কম, মাঝারি (ডিফল্ট), এবং উচ্চ—GPT‑5 minimal সহায়তা করে, যা দ্রুত উত্তর প্রদানের জন্য GPT‑5 এর যুক্তি প্রয়োগকে ন্যূনতম করে.

উচ্চতর reasoning_effort মান গুণমানকে সর্বাধিক করে এবং নিম্ন মান গতি বাড়ায়. সব কাজ অতিরিক্ত রিজনিং থেকে সমানভাবে উপকৃত হয় না, তাই আমরা পরীক্ষা করার পরামর্শ দিচ্ছি কোনটা আপনার ইউজ কেসে সবচেয়ে ভালো কাজ করে তা বোঝার জন্য.

উদাহরণস্বরূপ, low এর উপরের রিজনিং তুলনামূলকভাবে সহজ লং-কনটেক্সট রিট্রিভালে তেমন কিছু যোগ করে না, কিন্তু চার্জিভ রিজনিং(একটি নতুন উইন্ডোতে খোলে), একটি ভিজ্যুয়াল রিজনিং বেঞ্চমার্ক, এ বেশ কয়েক শতাংশ পয়েন্ট যোগ করে.

GPT‑5‑এর রিজনিং এফর্ট ভিন্ন ভিন্ন কাজে ভিন্ন বেনিফিট দেয়. CharXiv রিজনিং-এর জন্য, GPT‑5‑কে একটি python টুলের অ্যাক্সেস দেওয়া হয়েছিল.

ভার্বোসিটি

GPT‑5 এর উত্তরগুলির ডিফল্ট দৈর্ঘ্য নির্ধারণ করতে সহায়তা করার জন্য, আমরা একটি নতুন API প্যারামিটার verbosity চালু করেছি, যা কম, মাঝারি (ডিফল্ট), এবং উচ্চ মান গ্রহণ করে. যদি এক্সপ্লিসিট ইনস্ট্রাকশন ভার্বোসিটি প্যারামিটারের সাথে কনফ্লিক্ট করে, তবে এক্সপ্লিসিট ইনস্ট্রাকশন অগ্রাধিকার পাবে. উদাহরণস্বরূপ, আপনি যদি GPT‑5‑কে বলেন “5 প্যারাগ্রাফের এসেই লিখতে”, তবে মডেলের রেসপন্স সবসময় 5 প্যারাগ্রাফ হবে ভার্বোসিটি লেভেল যাই হোক না কেন (তবে প্যারাগ্রাফগুলো বড় বা ছোট হতে পারে).

ভার্বোসিটি=লো

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

ভার্বোসিটি=মিডিয়াম

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

ভার্বোসিটি=হাই

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

টুল কলিং-এর আগে প্রিম্যাম্বল মেসেজেস

নির্দেশনা দেওয়া হলে, GPT‑5 টুল কলের আগে এবং মাঝে ইউজার-ভিজিবল প্রিম্যাম্বল মেসেজ আউটপুট করবে. হিডেন রিজনিং মেসেজের বিপরীতে, এই ভিজিবল মেসেজগুলো GPT‑5‑কে ইউজারের সাথে প্ল্যান ও প্রগ্রেস কমিউনিকেট করতে দেয়, যা এন্ড ইউজারদের টুল কলিং-এর পেছনের অ্যাপ্রোচ ও উদ্দেশ্য বোঝাতে সাহায্য করে.

কাস্টম টুলস

আমরা একটি নতুন টুল টাইপ আনছি—কাস্টম টুলস—যা GPT‑5‑কে JSON-এর বদলে plaintext দিয়ে টুল কল করার সুযোগ দেয়. GPT‑5 কে কাস্টম টুল ফর্ম্যাট অনুসরণ করতে বাধ্য করতে, নির্মাতারা একটি রেজেক্স, অথবা আরও সম্পূর্ণরূপে নির্দিষ্ট প্রসঙ্গ-মুক্ত ব্যাকরণ(একটি নতুন উইন্ডোতে খোলে) সরবরাহ করতে পারেন.

পূর্বে, ডেভেলপার-ডিফাইন্ড টুলের জন্য আমাদের ইন্টারফেসে JSON ব্যবহার করে কল করতে হতো, যা ওয়েব API এবং সাধারণত ডেভেলপাররা ব্যবহৃত একটি প্রচলিত ফরম্যাট. তবে, সঠিক JSON আউটপুট দিতে মডেলকে সব কোটেশন মার্ক, ব্যাকস্ল্যাশ, নিউলাইন এবং অন্যান্য কন্ট্রোল ক্যারেক্টার নিখুঁতভাবে এস্কেপ করতে হয়. যদিও আমাদের মডেলগুলো JSON আউটপুট দিতে ভালোভাবে ট্রেইন করা, শত শত লাইন কোড বা 5-পৃষ্ঠার রিপোর্টের মতো দীর্ঘ ইনপুটে এরর হওয়ার সম্ভাবনা বেড়ে যায়. কাস্টম টুলস ব্যবহার করে, GPT‑5 টুল ইনপুট প্লেইনটেক্সট আকারে লিখতে পারে, যেখানে প্রয়োজনীয় সব ক্যারেক্টার এস্কেপ করার দরকার হয় না.

SWE-বেঞ্চ ভেরিফায়েড-এ JSON টুলের বদলে কাস্টম টুলস ব্যবহার করে GPT‑5 প্রায় একই স্কোর করেছে.

সেফটি

GPT‑5 সেফটির সীমা এগিয়ে নিয়েছে এবং এটি একটি আরও রোবাস্ট, নির্ভরযোগ্য এবং সহায়ক মডেল. GPT‑5 আমাদের আগের মডেলগুলোর তুলনায় উল্লেখযোগ্যভাবে কম হ্যালুসিনেট করে, ব্যবহারকারীর সাথে তার কার্যকলাপ ও ক্ষমতা আরও সৎভাবে জানায় এবং সম্ভব হলে সবচেয়ে সহায়ক উত্তর প্রদান করে, তবুও সেফটির সীমার মধ্যে থাকে. আপনি আমাদের গবেষণা ব্লগে আরও পড়তে পারেন.

উপলব্ধতা ও মূল্য নির্ধারণ

GPT‑5 এখন API প্ল্যাটফর্মে তিনটি আকারে উপলব্ধ: gpt-5, gpt-5-mini এবং gpt-5-nano. এটি Responses API, Chat Completions API-তে উপলভ্য, এবং Codex CLI-তে ডিফল্ট হিসেবে রয়েছে. GPT‑5‑এর দাম $1.25 প্রতি 1M ইনপুট টোকেন এবং $10 প্রতি 1M আউটপুট টোকেন, GPT‑5 mini-এর দাম $0.25 প্রতি 1M ইনপুট টোকেন এবং $2 প্রতি 1M আউটপুট টোকেন, আর GPT‑5 nano-এর দাম $0.05 প্রতি 1M ইনপুট টোকেন এবং $0.40 প্রতি 1M আউটপুট টোকেন.

এই মডেলগুলি এবং এপিআই verbosity প্যারামিটারগুলির পাশাপাশি কাস্টম সরঞ্জামগুলি সমর্থন করে reasoning_effort . এগুলো প্যারালাল টুল কলিং, বিল্ট-ইন টুলস (ওয়েব সার্চ, ফাইল সার্চ, ইমেজ জেনারেশন ইত্যাদি), কোর API ফিচারস (স্ট্রিমিং, স্ট্রাকচার্ড আউটপুটস ইত্যাদি), এবং খরচ বাঁচানোর ফিচার যেমন প্রম্পট ক্যাশিং ও Batch API সাপোর্ট করে.

ChatGPT‑তে ব্যবহৃত GPT‑5‑এর নন-রিজনিং ভার্সন API-তে gpt-5-chat-latest নামে উপলভ্য, যার দাম $1.25 প্রতি 1M ইনপুট টোকেন এবং $10 প্রতি 1M আউটপুট টোকেন.

GPT‑5 Microsoft প্ল্যাটফর্মগুলোতেও লঞ্চ হচ্ছে, যার মধ্যে রয়েছে Microsoft 365 Copilot, Copilot, GitHub Copilot, এবং Azure AI Foundry.

ডিটেইলড বেঞ্চমার্কস

বুদ্ধিমত্তা
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)৯৪.৬%৯১.১%৮৫.২%৮৮.৯%৯২.৭%৪৬.৪%৪০.২%-
FrontierMath(with python tool only)২৬.৩%২২.১%৯.৬%১৫.৮%১৫.৪%---
GPQA diamond(no tools)৮৫.৭%৮২.৩%৭১.২%৮৩.৩%৮১.৪%৬৬.৩%৬৫.০%৫০.৩%
HLE[1](no tools)২৪.৮%১৬.৭%৮.৭%২০.২%১৪.৭%৫.৪%৩.৭%-
HMMT 2025(no tools)৯৩.৩%৮৭.৮%৭৫.৬%৮১.৭%৮৫.০%২৮.৯%৩৫.০%-

[1] আমাদের আগের ব্লগ পোস্টে রিপোর্ট করা সংখ্যার সঙ্গে সামান্য অমিল রয়েছে, কারণ সেগুলো HLE-এর আগের ভার্সনে চালানো হয়েছিল.

মাল্টিমোডাল
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU৮৪.২%৮১.৬%৭৫.৬%৮২.৯%৮১.৬%৭৪.৮%৭২.৭%৫৫.৪%
MMMU-Pro(avg across standard and vision sets)৭৮.৪%৭৪.১%৬২.৬%৭৬.৪%৭৩.৪%৬০.৩%৫৮.৯%৩৩.০%
CharXiv reasoning(python enabled)৮১.১%৭৫.৫%৬২.৭%৭৮.৬%৭২.০%৫৬.৭%৫৬.৮%৪০.৫%
VideoMMMU, max frame 256৮৪.৬%৮২.৫%৬৬.৮%৮৩.৩%৭৯.৪%৬০.৯%৫৫.১%৩০.২%
ERQA৬৫.৭%৬২.৯%৫০.১%৬৪.০%৫৬.৫%৪৪.৩%৪২.৩%২৬.৫%
কোডিং
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks১.১ লাUS$৭৫ হাUS$৪৯ হাUS$৮৬ হাUS$৬৬ হাUS$৩৪ হাUS$৩১ হাUS$৯ হাUS$
SWE-bench Verified[2]৭৪.৯%৭১.০%৫৪.৭%৬৯.১%৬৮.১%৫৪.৬%২৩.৬%-
Aider polyglot(diff)৮৮.০%৭১.৬%৪৮.৪%৭৯.৬%৫৮.২%৫২.৯%৩১.৬%৬.২%

[2] আমাদের ইনফ্রাস্ট্রাকচারে রান করতে না পারা ২৩/৫০০ প্রোবলেম আমরা বাদ দিয়েছি. বাদ দেওয়া 23টি টাস্কের পুরো লিস্ট হলো 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', এবং 'sphinx-doc__sphinx-9367'.

নির্দেশনা অনুসরণ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)৬৯.৬%৬২.৩%৫৪.৯%৬০.৪%৫৭.৫%৪৬.২%৪২.২%৩১.১%
Internal API instruction following eval(hard)৬৪.০%৬৫.৮%৫৬.১%৪৭.৪%৪৪.৭%৪৯.১%৪৫.১%৩১.৬%
COLLIE৯৯.০%৯৮.৫%৯৬.৯%৯৮.৪%৯৬.১%৬৫.৮%৫৪.৬%৪২.৫%

[3] নোট: আমরা দেখেছি, MultiChallenge (GPT-4o)-এর ডিফল্ট গ্রেডার প্রায়ই মডেল রেসপন্স ভুলভাবে স্কোর করে. আমরা দেখেছি যে গ্রেডারকে একটি রিজনিং মডেল, যেমন o3-mini-তে পরিবর্তন করলে, আমাদের মূল্যায়ন করা নমুনাগুলিতে গ্রেডিংয়ের নির্ভুলতা উল্লেখযোগ্যভাবে বৃদ্ধি পায়.

ফাংশন কলিং
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline৬২.৬%৬০.০%৪১.০%৬৪.৮%৬০.২%৫৬.০%৫১.০%১৪.০%
Tau2-bench retail৮১.১%৭৮.৩%৬২.৩%৮০.২%৭০.৫%৭৪.০%৬৬.০%২১.৫%
Tau2-bench telecom৯৬.৭%৭৪.১%৩৫.৫%৫৮.২%৪০.৫%৩৪.০%৪৪.০%১২.১%
লং কনটেক্সট
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k৯৫.২%৮৪.৩%৪৩.২%৫৫.০%৫৬.৪%৫৭.২%৪৭.২%৩৬.৬%
OpenAI-MRCR: 2 needle 256k৮৬.৮%৫৮.৮%৩৪.৯%--৫৬.২%৪৫.৫%২২.৬%
Graphwalks bfs <128k৭৮.৩%৭৩.৪%৬৪.০%৭৭.৩%৬২.৩%৬১.৭%৬১.৭%২৫.০%
Graphwalks parents <128k৭৩.৩%৬৪.৩%৪৩.৮%৭২.৯%৫১.১%৫৮.০%৬০.৫%৯.৪%
BrowseComp Long Context 128k৯০.০%৮৯.৪%৮০.৪%৮৮.৩%৮০.০%৮৫.৯%৮৯.০%৮৯.৪%
BrowseComp Long Context 256k৮৮.৮%৮৬.০%৬৮.৪%--৭৫.৫%৮১.৬%১৯.১%
VideoMME(long, with subtitle category)৮৬.৭%৭৮.৫%৬৫.৭%৮৪.৯%৭৯.৫%৭৮.৭%৬৮.৪%৫৫.২%
হ্যালুসিনেশন
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]১.০%০.৭%১.০%৫.২%৩.০%০.৭%১.১%-
LongFact-Objects hallucination rate(no tools)[lower is better]১.২%১.৩%২.৮%৬.৮%৮.৯%১.১%১.৮%-
FActScore hallucination rate(no tools)[lower is better]২.৮%৩.৫%৭.৩%২৩.৫%৩৮.৭%৬.৭%১০.৯%-

লেখক

OpenAI