আজ আমরা আমাদের API প্ল্যাটফর্মে GPT‑5 রিলিজ করছি—কোডিং এবং এজেন্টিক কাজের জন্য এখন পর্যন্ত আমাদের সেরা মডেল.
GPT‑5 মূল কোডিং বেঞ্চমার্কগুলোতে স্টেট-অফ-দ্য-আর্ট (SOTA), যেখানে এটি SWE-বেঞ্চ ভেরিফায়েড-এ 74.9% এবং Aider polyglot-এ 88% স্কোর করেছে. আমরা GPT‑5‑কে একটি সত্যিকারের কোডিং সহযোগী হিসেবে ট্রেইন করেছি. এটি উচ্চমানের কোড তৈরি করতে দক্ষ এবং বাগ ফিক্স করা, কোড এডিট করা, এবং জটিল কোডবেস নিয়ে প্রশ্নের উত্তর দেওয়ার মতো কাজগুলো সহজে হ্যান্ডেল করতে পারে. মডেলটি নিয়ন্ত্রণযোগ্য এবং সহযোগী - এটি উচ্চ নির্ভুলতার সাথে খুব বিশদ নির্দেশাবলী অনুসরণ করতে পারে এবং সরঞ্জাম কলের আগে এবং মধ্যে তার ক্রিয়াকলাপের প্রাথমিক ব্যাখ্যা প্রদান করতে পারে. মডেলটি ফ্রন্ট-এন্ড কোডিংয়েও দক্ষ, যেখানে ইন্টারনাল টেস্টিংয়ে এটি 70% ক্ষেত্রে ফ্রন্টএন্ড ওয়েব ডেভেলপমেন্টে OpenAI o3‑কে হারিয়েছে.
আমরা স্টার্টআপ এবং এন্টারপ্রাইজের আর্লি টেস্টারদের সহযোগিতায় বাস্তব কোডিং টাস্কের উপর GPT‑5‑কে ট্রেইন করেছি. কার্সর বলেছেন যে GPT‑5 হল "সবচেয়ে স্মার্ট মডেল [তারা] ব্যবহার করেছেন" এবং "অসাধারণ বুদ্ধিমান, পরিচালনা করা সহজ, এবং এমনকি এমন একটি ব্যক্তিত্ব রয়েছে যা তারা অন্য মডেলগুলিতে দেখেননি.” Windsurf শেয়ার করা GPT‑5 তাদের ইভ্যালসে SOTA এবং "অন্যান্য সীমান্ত মডেলের তুলনায় টুল কলিং ত্রুটির হার অর্ধেক." "Vercel বলছে, “এটি সেরা ফ্রন্টএন্ড এআই মডেল, যা নান্দনিক বোধ এবং কোড গুণমান উভয় ক্ষেত্রেই শীর্ষ পারফরম্যান্স প্রদান করে, এটিকে নিজস্ব একটি শ্রেণীতে স্থাপন করে.”
GPT‑5 দীর্ঘমেয়াদী এজেন্টিক টাস্কেও অসাধারণ—মাত্র 2 মাস আগে প্রকাশিত টুল-কলিং বেঞ্চমার্ক τ2-bench telecom-এ (96.7%) SOTA ফলাফল অর্জন করেছে. GPT‑5‑এর উন্নত টুল ইন্টেলিজেন্স এটি সিকোয়েন্সিয়াল এবং প্যারালাল উভয়ভাবে ডজন ডজন টুল কল একসাথে নির্ভরযোগ্যভাবে যুক্ত করতে পারে, কোনোভাবে পথ হারায় না—ফলে জটিল বাস্তব কাজ এন্ড-টু-এন্ড এক্সিকিউট করতে অনেক বেশি সক্ষম. এটি টুল নির্দেশনা আরও নির্ভুলভাবে অনুসরণ করে, টুল এরর ভালোভাবে হ্যান্ডেল করতে পারে, এবং লং-কনটেক্সট কনটেন্ট রিট্রিভাল-এও দক্ষ. Manus বলেন, GPT‑5 "[তাদের] অভ্যন্তরীণ বেঞ্চমার্কে একটি একক মডেল থেকে দেখা সেরা পারফরম্যান্স অর্জন করেছে." Notion বলেছে, “[মডেলের] দ্রুত রেসপন্স, বিশেষ করে লো রিজনিং মোডে, GPT‑5‑কে আদর্শ মডেল বানিয়েছে যখন জটিল কাজ একবারেই সমাধান করতে হয়.” Inditex শেয়ার করেছে “যা সত্যিই [GPT‑5]‑কে আলাদা করে তা হলো এর রিজনিং-এর গভীরতা: সূক্ষ্ম, বহুস্তরীয় উত্তর যা প্রকৃত বিষয়বস্তুর বোঝাপড়া প্রতিফলিত করে.”
আমরা আমাদের API-তে নতুন ফিচার নিয়ে আসছি যাতে ডেভেলপাররা মডেলের রেসপন্সের উপর আরও নিয়ন্ত্রণ পায়. GPT‑5 উত্তরগুলি সংক্ষিপ্ত এবং বিন্দু বা দীর্ঘ এবং ব্যাপক কিনা তা নিয়ন্ত্রণ করতে সহায়তা করার জন্য একটি নতুন ভার্বো সিটিপ্যারামিটার (মান: কম, মাঝারি, উচ্চ) সমর্থন করে. GPT‑5 এর যুক্তি reasoning_effort প্যারামিটারটি এখন বিস্তৃত যুক্তি ছাড়াই দ্রুত উত্তরগুলি ফিরে পেতে ন্যূনতম মান নিতে পারে. আমরা আরও একটি নতুন টুল টাইপ—কাস্টম টুলস—যোগ করেছি, যাতে GPT‑5 JSON-এর বদলে plaintext দিয়ে টুল কল করতে পারে. কাস্টম টুলস ডেভেলপার প্রদত্ত context-free grammars দ্বারা কনস্ট্রেইন সাপোর্ট করে.
আমরা নির্মাতাদের পারফরম্যান্স, ব্যয় এবং বিলম্ব থেকে বাণিজ্য করার জন্য আরও নমনীয়তা দেওয়ার জন্য এপিআই-তে তিন আকারে GPT‑5 প্রকাশ করছি—gpt-5, gpt-5-mini, এবং gpt-5-nano. যেখানে ChatGPT‑তে GPT‑5 হলো reasoning, non-reasoning, এবং router মডেলের একটি সিস্টেম, সেখানে API প্ল্যাটফর্মে GPT‑5 হলো reasoning মডেল যা ChatGPT‑তে সর্বোচ্চ পারফরম্যান্স চালিত করে. উল্লেখযোগ্যভাবে, মিনিমাল রিজনিংসহ GPT‑5 হলো ChatGPT‑র নন-রিজনিং মডেল থেকে ভিন্ন, এবং এটি ডেভেলপারদের জন্য আরও ভালোভাবে টিউন করা. ChatGPT‑তে ব্যবহৃত নন-যুক্তিযুক্ত মডেলটি gpt-5-chat-latest হিসাবে উপলভ্য.
ChatGPT‑তে GPT‑5 সম্পর্কে পড়তে এবং অন্যান্য ChatGPT উন্নতি সম্পর্কে আরও জানতে, আমাদের গবেষণা ব্লগ দেখুন. GPT‑5 ব্যবহারে এন্টারপ্রাইজগুলি কীভাবে উত্তেজিত, সে সম্পর্কে আরও জানতে, আমাদের এন্টারপ্রাইজ ব্লগ দেখুন.
GPT‑5 হলো এ পর্যন্ত আমাদের রিলিজ করা সবচেয়ে শক্তিশালী কোডিং মডেল. এটি কোডিং বেঞ্চমার্ক এবং বাস্তব ব্যবহার ক্ষেত্রে o3‑কে ছাড়িয়ে গেছে, এবং Cursor, Windsurf, GitHub Copilot, এবং Codex CLI-এর মতো agentic coding পণ্যে উজ্জ্বল পারফরম্যান্সের জন্য ফাইন-টিউন করা হয়েছে. GPT‑5 আমাদের আলফা পরীক্ষকদের মুগ্ধ করেছে, তাদের অনেক ব্যক্তিগত অভ্যন্তরীণ মূল্যায়নে রেকর্ড স্থাপন করেছে.
বাস্তব কোডিং টাস্কের জন্য GPT‑5 নিয়ে প্রাথমিক ফিডব্যাক।
“GPT-5 হলো সবচেয়ে স্মার্ট কোডিং মডেল যা আমরা ব্যবহার করেছি. আমাদের টিম GPT-5-কে অসাধারণ বুদ্ধিমান, সহজে স্টিয়ারযোগ্য, এমনকি এমন এক ব্যক্তিত্বসম্পন্ন পেয়েছে যা আমরা অন্য কোনো মডেলে দেখিনি. এটি শুধু জটিল, গভীরে লুকানো বাগই ধরতে পারে না, বরং লং, মাল্টি-টার্ন ব্যাকগ্রাউন্ড এজেন্ট চালিয়ে জটিল টাস্ক সম্পূর্ণ করতেও সক্ষম—যে ধরনের সমস্যায় অন্য মডেলগুলো আগে আটকে যেত. এটি আমাদের ডেইলি ড্রাইভার হয়ে উঠেছে—PR স্কোপিং ও প্ল্যানিং থেকে শুরু করে এন্ড-টু-এন্ড বিল্ডস সম্পূর্ণ করা পর্যন্ত সবকিছুর জন্য.
বাস্তব সফটওয়্যার ইঞ্জিনিয়ারিং টাস্ক-ভিত্তিক ইভ্যালুয়েশন SWE-bench Verified-এ GPT‑5 স্কোর করেছে 74.9%, যা o3‑এর 69.1% থেকে বৃদ্ধি পেয়েছে. উল্লেখযোগ্যভাবে, GPT‑5 এই উচ্চ স্কোর অর্জন করেছে আরও দক্ষতা ও গতি দিয়ে: উচ্চ রিজনিং এফর্ট-এ o3‑এর তুলনায় GPT‑5 22% কম আউটপুট টোকেন এবং 45% কম টুল কল ব্যবহার করেছে.
SWE-bench ভেরিফায়েড-এ, একটি মডেলকে কোড রিপোজিটরি এবং ইস্যুর বর্ণনা দেওয়া হয় এবং তাকে সমস্যার সমাধানে একটি প্যাচ তৈরি করতে হয়। টেক্সট লেবেলগুলো রিজনিং এফর্ট নির্দেশ করে। আমাদের স্কোর 500 সমস্যার মধ্যে ২৩টি বাদ দেয়, যেগুলোর সমাধান আমাদের ইনফ্রাস্ট্রাকচারে নির্ভরযোগ্যভাবে পাস করেনি। GPT‑5‑কে একটি ছোট প্রম্পট দেওয়া হয়েছিল যা সলিউশন ভেরিফিকেশনে জোর দিয়েছিল; একই প্রম্পট o3‑কে কোনো উপকার দেয়নি।
Aider polyglot-এ কোড এডিটিং মূল্যায়নে GPT‑5 নতুন রেকর্ড 88% স্থাপন করেছে, যা o3‑এর তুলনায় ত্রুটি হার এক-তৃতীয়াংশ কমিয়েছে.
Aider polygot(একটি নতুন উইন্ডোতে খোলে) (diff) এ, একটি মডেলকে Exercism থেকে কোডিং অনুশীলন দেওয়া হয় এবং এর সমাধান অবশ্যই কোড ডিফ হিসাবে লিখতে হবে. রিজনিং মডেলগুলো হাই রিজনিং এফর্ট দিয়ে চালানো হয়েছিল.
আমরা দেখেছি GPT‑5 কোডবেসে গভীরে গিয়ে বিভিন্ন অংশ কীভাবে কাজ করে বা একসঙ্গে কাজ করে সে সম্পর্কে প্রশ্নের উত্তর দিতে দারুণ সক্ষম. OpenAI-এর রিইনফোর্সমেন্ট লার্নিং স্ট্যাকের মতো জটিল একটি কোডবেসে, আমরা দেখছি GPT‑5 আমাদের কোড সম্পর্কে যুক্তি গঠন করতে এবং প্রশ্নের উত্তর দিতে সাহায্য করছে, যা আমাদের দৈনন্দিন কাজের গতি বাড়াচ্ছে.
ওয়েব অ্যাপের জন্য ফ্রন্টএন্ড কোড তৈরি করার সময়, GPT‑5 আরও নান্দনিকভাবে সচেতন, উচ্চাভিলাষী এবং নির্ভুল. o3‑এর সঙ্গে পাশাপাশি তুলনায় আমাদের টেস্টাররা 70% সময় GPT‑5‑কে পছন্দ করেছে.
একটি প্রম্পটেই GPT‑5 কী করতে পারে তার কিছু চেরি-পিক করা মজার উদাহরণ নিচে দেওয়া হলো।
নির্দেশ: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup
GPT‑5 একটি ভালো কলাবোরেটর, বিশেষ করে Cursor, Windsurf, GitHub Copilot এবং Codex CLI-এর মতো এজেন্টিক কোডিং প্রোডাক্টে. কাজ করার সময় GPT‑5 টুল কলের মাঝে প্ল্যান, আপডেটস এবং রিক্যাপস আউটপুট দিতে পারে. আমাদের আগের মডেলগুলোর তুলনায়, GPT‑5 বেশি প্রোঅ্যাকটিভ—এটি আপনার অনুমতির জন্য অপেক্ষা না করে বা উচ্চ জটিলতায় হোঁচট খাওয়া ছাড়াই উচ্চাভিলাষী কাজগুলো সম্পন্ন করে.
এখানে একটি উদাহরণ দেওয়া হলো, যেখানে GPT‑5 একটি জটিল কাজ (এই ক্ষেত্রে, একটি রেস্টুরেন্টের জন্য ওয়েবসাইট তৈরি) সম্পাদন করার সময় কেমন হতে পারে তা দেখানো হয়েছে:
ইউজার যখন তাদের রেস্টুরেন্টের জন্য ওয়েবসাইট চায়, GPT‑5 দ্রুত একটি প্ল্যান শেয়ার করে, অ্যাপ স্ক্যাফোল্ড করে, ডিপেনডেন্সি ইনস্টল করে, সাইট কনটেন্ট তৈরি করে, কমপাইলেশন এরর চেক করতে একটি বিল্ড রান করে, নিজের কাজ সামারাইজ করে, এবং সম্ভাব্য নেক্সট স্টেপস প্রস্তাব করে. এই ভিডিওটি ~3x স্পিডে করা হয়েছে যাতে আপনার অপেক্ষা বাঁচে; পুরো ওয়েবসাইট তৈরি করতে সময় লেগেছিল প্রায় তিন মিনিট.
এজেন্টিক কোডিং-এর বাইরেও GPT‑5 সাধারণভাবে এজেন্টিক কাজে আরও দক্ষ. GPT‑5 ইনস্ট্রাকশন ফলোয়িং বেঞ্চমার্কে (Scale MultiChallenge-এ 69.6%, o3‑mini দ্বারা গ্রেডেড) এবং টুল কলিং-এ (τ2-বেঞ্চ টেলিকম-এ 96.7%) নতুন রেকর্ড স্থাপন করেছে. উন্নত টুল ইন্টেলিজেন্স GPT‑5‑কে বাস্তব কাজ সম্পন্ন করতে আরও নির্ভরযোগ্যভাবে অ্যাকশনগুলো একসঙ্গে চেইন করতে সাহায্য করে.
এজেন্টিক কাজের জন্য GPT‑5 নিয়ে প্রাথমিক ফিডব্যাক।
“GPT-5 একটি বড় অগ্রগতি. এটি আমাদের ইন্টারনাল বেঞ্চমার্কসে একক মডেল থেকে দেখা সেরা পারফরম্যান্স অর্জন করেছে. GPT-5 বিভিন্ন এজেন্টিক টাস্কে অসাধারণ পারফর্ম করেছে—এমনকি আমরা এক লাইন কোডও পরিবর্তন বা কোনো প্রম্পট টেইলার করার আগেই. নতুন প্রিম্যাম্বলস এবং টুল ইউজের ওপর আরও নির্ভুল নিয়ন্ত্রণ আমাদের এজেন্টদের স্থায়িত্ব ও স্টিয়ারেবিলিটিতে উল্লেখযোগ্য উন্নতি এনেছে.”
GPT‑5 তার পূর্বসূরিদের তুলনায় আরও নির্ভরযোগ্যভাবে নির্দেশনা অনুসরণ করে, COLLIE, Scale MultiChallenge, এবং আমাদের ইন্টারনাল ইনস্ট্রাকশন ফলোয়িং ইভ্যাল-এ উচ্চ স্কোর করেছে.
COLLIE(একটি নতুন উইন্ডোতে খোলে)-এ, মডেলগুলোকে বিভিন্ন কনস্ট্রেইন্টস মেট করে এমন টেক্সট লিখতে হয়। Scale MultiChallenge(একটি নতুন উইন্ডোতে খোলে)-এ, মডেলগুলোকে মাল্টি-টার্ন কনভার্সেশনে আগের মেসেজগুলো থেকে চার ধরনের ইনফরমেশন সঠিকভাবে ব্যবহার করার চ্যালেঞ্জ দেওয়া হয়। আমাদের স্কোরগুলো এসেছে o3‑mini‑কে গ্রেডার হিসেবে ব্যবহার করে, যা GPT‑4o‑এর চেয়ে বেশি নির্ভুল ছিল। আমাদের অভ্যন্তরীণ OpenAI API নির্দেশনা অনুসরণ ইভ্যালুয়েশনে, মডেলগুলোকে বাস্তব ডেভেলপার ফিডব্যাক থেকে প্রাপ্ত কঠিন নির্দেশনাগুলো অনুসরণ করতে হয়। রিজনিং মডেলগুলো হাই রিজনিং এফর্ট দিয়ে চালানো হয়েছিল।
আমরা টুল কলিং ডেভেলপারদের জন্য গুরুত্বপূর্ণ উপায়ে উন্নত করতে কঠোর পরিশ্রম করেছি. GPT‑5 টুল নির্দেশনা অনুসরণ করতে আরও ভালো, টুল ত্রুটি মোকাবেলা করতে আরও ভালো এবং সিকোয়েন্স বা প্যারালালে প্রোঅ্যাকটিভলি অনেকগুলো টুল কল একসাথে বা ধারাবাহিকভাবে করতে আরও ভালো. নির্দেশনা দেওয়া হলে, GPT‑5 দীর্ঘ এজেন্টিক কাজ চলাকালে ব্যবহারকারীদের অগ্রগতি সম্পর্কে আপডেট দিতে টুল কলের আগে এবং মাঝে প্রিম্যাম্বল মেসেজ আউটপুট করতে পারে.
দুই মাস আগে, τ2-bench টেলিকম Sierra.ai দ্বারা একটি চ্যালেঞ্জিং টুল ব্যবহারের বেঞ্চমার্ক হিসাবে প্রকাশিত হয়েছিল যা দেখিয়েছে যে ব্যবহারকারীদের দ্বারা পরিবর্তনযোগ্য পরিবেশের অবস্থার সাথে ইন্টারঅ্যাক্ট করার সময় ভাষার মডেলের কর্মক্ষমতা উল্লেখযোগ্যভাবে কমে যায়. তাদের প্রকাশনায়(একটি নতুন উইন্ডোতে খোলে), কোনো মডেল 49% এর উপরে স্কোর করেনি. GPT‑5 স্কোর করেছে 97%.
τ2-বেঞ্চে(একটি নতুন উইন্ডোতে খোলে), একটি মডেলকে গ্রাহক পরিষেবার কাজ সম্পন্ন করতে সরঞ্জাম ব্যবহার করতে হবে, যেখানে এমন একজন ব্যবহারকারী থাকতে পারেন যিনি যোগাযোগ করতে পারেন এবং বিশ্ব পরিস্থিতির উপর পদক্ষেপ নিতে পারেন। রিজনিং মডেলগুলো হাই রিজনিং এফর্ট দিয়ে চালানো হয়েছিল।
GPT‑5 লং-কনটেক্সট পারফরম্যান্সেও শক্তিশালী উন্নতি দেখিয়েছে. OpenAI-MRCR-এ, যা লং-কনটেক্সট ইনফরমেশন রিট্রিভালের একটি মাপকাঠি, GPT‑5 o3 এবং GPT‑4.1‑কে ছাড়িয়ে গেছে, এবং ইনপুট লেন্থ বাড়লে এই ব্যবধান উল্লেখযোগ্যভাবে বৃদ্ধি পায়.
OpenAI-MRCR(একটি নতুন উইন্ডোতে খোলে) (মাল্টি-রাউন্ড কো-রেফারেন্স রেজোলিউশন)-এ, একাধিক অভিন্ন "সুই" ব্যবহারকারীর অনুরোধ দীর্ঘ "খড়ের গাদা"-এর মধ্যে ঢোকানো হয়, যা একই ধরনের অনুরোধ এবং প্রতিক্রিয়ার সমন্বয়ে গঠিত, এবং মডেলকে i-তম সুইয়ের প্রতিক্রিয়া পুনরুৎপাদন করতে বলা হয়। মিন ম্যাচ রেশিও মডেলের রেসপন্স এবং সঠিক উত্তরের মধ্যে গড় স্ট্রিং ম্যাচ রেশিও মাপে। 256k ম্যাক্স ইনপুট টোকেনস-এ থাকা পয়েন্টগুলো 128k–256k ইনপুট টোকেনসের উপর গড় মান নির্দেশ করে, এবং এভাবে চলতে থাকে। এখানে, 256k মানে 256 * 1,024 = 262,114 টোকেনস। রিজনিং মডেলগুলো হাই রিজনিং এফর্ট দিয়ে চালানো হয়েছিল।
আমরা ওপেন সোর্সিং ব্রাউসকম্প লং কনটেক্সট(একটি নতুন উইন্ডোতে খোলে), দীর্ঘ-প্রসঙ্গ মূল্যায়নের জন্য একটি নতুন মানদণ্ড Q&A. এই বেঞ্চমার্কে, মডেলকে একটি ইউজার কোয়েরি এবং প্রাসঙ্গিক সার্চ রেজাল্টের একটি বড় লিস্ট দেওয়া হয় এবং তাকে ঐ সার্চ রেজাল্টের উপর ভিত্তি করে প্রশ্নের উত্তর দিতে হয়. আমরা BrowseComp Long Context-কে বাস্তবসম্মত, কঠিন, এবং নির্ভরযোগ্য সঠিক গ্রাউন্ড ট্রুথ উত্তরসহ ডিজাইন করেছি. 128K–256K টোকেন ইনপুটে, GPT‑5 89% সময় সঠিক উত্তর দেয়.
API-তে, সব GPT‑5 মডেল সর্বোচ্চ ২৭২,০০০ ইনপুট টোকেন গ্রহণ করতে পারে এবং সর্বোচ্চ ১২৮,০০০ রিজনিং ও আউটপুট টোকেনকেন ইমিট করতে পারে, মোট প্রসঙ্গ দৈর্ঘ্য ৪০০,০০০ টোকেন.
GPT‑5 আমাদের আগের মডেলগুলোর তুলনায় আরও বিশ্বস্ত. LongFact এবং FactScore বেঞ্চমার্কের প্রম্পটে, GPT‑5 o3‑এর তুলনায় প্রায় 80% কম ফ্যাকচুয়াল এরর করে. এটি এজেন্টিক ইউজ কেসের জন্য আরও উপযোগী করে তোলে যেখানে সঠিকতা গুরুত্বপূর্ণ—বিশেষত কোড, ডেটা, এবং সিদ্ধান্ত গ্রহণে.
উচ্চতর স্কোর মানে খারাপ ফলাফল. LongFact(একটি নতুন উইন্ডোতে খোলে) এবং FActScore(একটি নতুন উইন্ডোতে খোলে) ওপেন-এন্ডেড তথ্য-অনুসন্ধানমূলক প্রশ্ন নিয়ে গঠিত. আমরা ব্রাউজিং সহ LLM-ভিত্তিক গ্রেডার ব্যবহার করি এই বেঞ্চমার্কগুলোর প্রম্পট থেকে প্রাপ্ত উত্তরগুলো ফ্যাক্ট-চেক করার জন্য এবং ফ্যাকচুয়ালি ভুল দাবির অংশ মাপার জন্য. বাস্তবায়ন এবং গ্রেডিং এর বিশদ বিবরণ system card এ পাওয়া যাবে. রিজনিং মডেলগুলো হাই রিজনিং এফর্ট ইউজ করেছে. সার্চ এনেবল করা হয়নি.
সাধারণভাবে, GPT‑5‑কে আরও স্ব-সচেতন করে ট্রেইন করা হয়েছে যাতে এটি নিজের সীমাবদ্ধতা বুঝতে পারে এবং অপ্রত্যাশিত চ্যালেঞ্জ ভালোভাবে সামলাতে পারে. আমরাও GPT‑5‑কে স্বাস্থ্য সংক্রান্ত প্রশ্নগুলিতে আরও নির্ভুল হতে প্রশিক্ষণ দিয়েছি (আমাদের গবেষণা ব্লগে আরও পড়ুন). সব ভাষা মডেলের মতো, আমরা সুপারিশ করি যখন ঝুঁকি বেশি তখন GPT‑5‑এর কাজ ভেরিফাই করুন.
নির্মাতারা API-তে reasoning_effort প্যারামিটারের মাধ্যমে GPT‑5‑এর চিন্তাভাবনার সময় নিয়ন্ত্রণ করতে পারেন. পূর্ববর্তী মানগুলির পাশাপাশি—কম, মাঝারি (ডিফল্ট), এবং উচ্চ—GPT‑5 minimal সহায়তা করে, যা দ্রুত উত্তর প্রদানের জন্য GPT‑5 এর যুক্তি প্রয়োগকে ন্যূনতম করে.
উচ্চতর reasoning_effort মান গুণমানকে সর্বাধিক করে এবং নিম্ন মান গতি বাড়ায়. সব কাজ অতিরিক্ত রিজনিং থেকে সমানভাবে উপকৃত হয় না, তাই আমরা পরীক্ষা করার পরামর্শ দিচ্ছি কোনটা আপনার ইউজ কেসে সবচেয়ে ভালো কাজ করে তা বোঝার জন্য.
উদাহরণস্বরূপ, low এর উপরের রিজনিং তুলনামূলকভাবে সহজ লং-কনটেক্সট রিট্রিভালে তেমন কিছু যোগ করে না, কিন্তু চার্জিভ রিজনিং(একটি নতুন উইন্ডোতে খোলে), একটি ভিজ্যুয়াল রিজনিং বেঞ্চমার্ক, এ বেশ কয়েক শতাংশ পয়েন্ট যোগ করে.
GPT‑5‑এর রিজনিং এফর্ট ভিন্ন ভিন্ন কাজে ভিন্ন বেনিফিট দেয়. CharXiv রিজনিং-এর জন্য, GPT‑5‑কে একটি python টুলের অ্যাক্সেস দেওয়া হয়েছিল.
GPT‑5 এর উত্তরগুলির ডিফল্ট দৈর্ঘ্য নির্ধারণ করতে সহায়তা করার জন্য, আমরা একটি নতুন API প্যারামিটার verbosity চালু করেছি, যা কম, মাঝারি (ডিফল্ট), এবং উচ্চ মান গ্রহণ করে. যদি এক্সপ্লিসিট ইনস্ট্রাকশন ভার্বোসিটি প্যারামিটারের সাথে কনফ্লিক্ট করে, তবে এক্সপ্লিসিট ইনস্ট্রাকশন অগ্রাধিকার পাবে. উদাহরণস্বরূপ, আপনি যদি GPT‑5‑কে বলেন “5 প্যারাগ্রাফের এসেই লিখতে”, তবে মডেলের রেসপন্স সবসময় 5 প্যারাগ্রাফ হবে ভার্বোসিটি লেভেল যাই হোক না কেন (তবে প্যারাগ্রাফগুলো বড় বা ছোট হতে পারে).
ভার্বোসিটি=লো
ভার্বোসিটি=মিডিয়াম
ভার্বোসিটি=হাই
নির্দেশনা দেওয়া হলে, GPT‑5 টুল কলের আগে এবং মাঝে ইউজার-ভিজিবল প্রিম্যাম্বল মেসেজ আউটপুট করবে. হিডেন রিজনিং মেসেজের বিপরীতে, এই ভিজিবল মেসেজগুলো GPT‑5‑কে ইউজারের সাথে প্ল্যান ও প্রগ্রেস কমিউনিকেট করতে দেয়, যা এন্ড ইউজারদের টুল কলিং-এর পেছনের অ্যাপ্রোচ ও উদ্দেশ্য বোঝাতে সাহায্য করে.
আমরা একটি নতুন টুল টাইপ আনছি—কাস্টম টুলস—যা GPT‑5‑কে JSON-এর বদলে plaintext দিয়ে টুল কল করার সুযোগ দেয়. GPT‑5 কে কাস্টম টুল ফর্ম্যাট অনুসরণ করতে বাধ্য করতে, নির্মাতারা একটি রেজেক্স, অথবা আরও সম্পূর্ণরূপে নির্দিষ্ট প্রসঙ্গ-মুক্ত ব্যাকরণ(একটি নতুন উইন্ডোতে খোলে) সরবরাহ করতে পারেন.
পূর্বে, ডেভেলপার-ডিফাইন্ড টুলের জন্য আমাদের ইন্টারফেসে JSON ব্যবহার করে কল করতে হতো, যা ওয়েব API এবং সাধারণত ডেভেলপাররা ব্যবহৃত একটি প্রচলিত ফরম্যাট. তবে, সঠিক JSON আউটপুট দিতে মডেলকে সব কোটেশন মার্ক, ব্যাকস্ল্যাশ, নিউলাইন এবং অন্যান্য কন্ট্রোল ক্যারেক্টার নিখুঁতভাবে এস্কেপ করতে হয়. যদিও আমাদের মডেলগুলো JSON আউটপুট দিতে ভালোভাবে ট্রেইন করা, শত শত লাইন কোড বা 5-পৃষ্ঠার রিপোর্টের মতো দীর্ঘ ইনপুটে এরর হওয়ার সম্ভাবনা বেড়ে যায়. কাস্টম টুলস ব্যবহার করে, GPT‑5 টুল ইনপুট প্লেইনটেক্সট আকারে লিখতে পারে, যেখানে প্রয়োজনীয় সব ক্যারেক্টার এস্কেপ করার দরকার হয় না.
SWE-বেঞ্চ ভেরিফায়েড-এ JSON টুলের বদলে কাস্টম টুলস ব্যবহার করে GPT‑5 প্রায় একই স্কোর করেছে.
GPT‑5 সেফটির সীমা এগিয়ে নিয়েছে এবং এটি একটি আরও রোবাস্ট, নির্ভরযোগ্য এবং সহায়ক মডেল. GPT‑5 আমাদের আগের মডেলগুলোর তুলনায় উল্লেখযোগ্যভাবে কম হ্যালুসিনেট করে, ব্যবহারকারীর সাথে তার কার্যকলাপ ও ক্ষমতা আরও সৎভাবে জানায় এবং সম্ভব হলে সবচেয়ে সহায়ক উত্তর প্রদান করে, তবুও সেফটির সীমার মধ্যে থাকে. আপনি আমাদের গবেষণা ব্লগে আরও পড়তে পারেন.
GPT‑5 এখন API প্ল্যাটফর্মে তিনটি আকারে উপলব্ধ: gpt-5, gpt-5-mini এবং gpt-5-nano. এটি Responses API, Chat Completions API-তে উপলভ্য, এবং Codex CLI-তে ডিফল্ট হিসেবে রয়েছে. GPT‑5‑এর দাম $1.25 প্রতি 1M ইনপুট টোকেন এবং $10 প্রতি 1M আউটপুট টোকেন, GPT‑5 mini-এর দাম $0.25 প্রতি 1M ইনপুট টোকেন এবং $2 প্রতি 1M আউটপুট টোকেন, আর GPT‑5 nano-এর দাম $0.05 প্রতি 1M ইনপুট টোকেন এবং $0.40 প্রতি 1M আউটপুট টোকেন.
এই মডেলগুলি এবং এপিআই verbosity প্যারামিটারগুলির পাশাপাশি কাস্টম সরঞ্জামগুলি সমর্থন করে reasoning_effort . এগুলো প্যারালাল টুল কলিং, বিল্ট-ইন টুলস (ওয়েব সার্চ, ফাইল সার্চ, ইমেজ জেনারেশন ইত্যাদি), কোর API ফিচারস (স্ট্রিমিং, স্ট্রাকচার্ড আউটপুটস ইত্যাদি), এবং খরচ বাঁচানোর ফিচার যেমন প্রম্পট ক্যাশিং ও Batch API সাপোর্ট করে.
ChatGPT‑তে ব্যবহৃত GPT‑5‑এর নন-রিজনিং ভার্সন API-তে gpt-5-chat-latest নামে উপলভ্য, যার দাম $1.25 প্রতি 1M ইনপুট টোকেন এবং $10 প্রতি 1M আউটপুট টোকেন.
GPT‑5 Microsoft প্ল্যাটফর্মগুলোতেও লঞ্চ হচ্ছে, যার মধ্যে রয়েছে Microsoft 365 Copilot, Copilot, GitHub Copilot, এবং Azure AI Foundry.
শুরু করার জন্য GPT‑5 ডকুমেন্টেশন(একটি নতুন উইন্ডোতে খোলে), মূল্যনির্ধারণের বিবরণ(একটি নতুন উইন্ডোতে খোলে), এবং প্রম্পটিং গাইড(একটি নতুন উইন্ডোতে খোলে) দেখুন.
বুদ্ধিমত্তা
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | ৯৪.৬% | ৯১.১% | ৮৫.২% | ৮৮.৯% | ৯২.৭% | ৪৬.৪% | ৪০.২% | - |
| FrontierMath(with python tool only) | ২৬.৩% | ২২.১% | ৯.৬% | ১৫.৮% | ১৫.৪% | - | - | - |
| GPQA diamond(no tools) | ৮৫.৭% | ৮২.৩% | ৭১.২% | ৮৩.৩% | ৮১.৪% | ৬৬.৩% | ৬৫.০% | ৫০.৩% |
| HLE[1](no tools) | ২৪.৮% | ১৬.৭% | ৮.৭% | ২০.২% | ১৪.৭% | ৫.৪% | ৩.৭% | - |
| HMMT 2025(no tools) | ৯৩.৩% | ৮৭.৮% | ৭৫.৬% | ৮১.৭% | ৮৫.০% | ২৮.৯% | ৩৫.০% | - |
[1] আমাদের আগের ব্লগ পোস্টে রিপোর্ট করা সংখ্যার সঙ্গে সামান্য অমিল রয়েছে, কারণ সেগুলো HLE-এর আগের ভার্সনে চালানো হয়েছিল.
মাল্টিমোডাল
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | ৮৪.২% | ৮১.৬% | ৭৫.৬% | ৮২.৯% | ৮১.৬% | ৭৪.৮% | ৭২.৭% | ৫৫.৪% |
| MMMU-Pro(avg across standard and vision sets) | ৭৮.৪% | ৭৪.১% | ৬২.৬% | ৭৬.৪% | ৭৩.৪% | ৬০.৩% | ৫৮.৯% | ৩৩.০% |
| CharXiv reasoning(python enabled) | ৮১.১% | ৭৫.৫% | ৬২.৭% | ৭৮.৬% | ৭২.০% | ৫৬.৭% | ৫৬.৮% | ৪০.৫% |
| VideoMMMU, max frame 256 | ৮৪.৬% | ৮২.৫% | ৬৬.৮% | ৮৩.৩% | ৭৯.৪% | ৬০.৯% | ৫৫.১% | ৩০.২% |
| ERQA | ৬৫.৭% | ৬২.৯% | ৫০.১% | ৬৪.০% | ৫৬.৫% | ৪৪.৩% | ৪২.৩% | ২৬.৫% |
কোডিং
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | ১.১ লাUS$ | ৭৫ হাUS$ | ৪৯ হাUS$ | ৮৬ হাUS$ | ৬৬ হাUS$ | ৩৪ হাUS$ | ৩১ হাUS$ | ৯ হাUS$ |
| SWE-bench Verified[2] | ৭৪.৯% | ৭১.০% | ৫৪.৭% | ৬৯.১% | ৬৮.১% | ৫৪.৬% | ২৩.৬% | - |
| Aider polyglot(diff) | ৮৮.০% | ৭১.৬% | ৪৮.৪% | ৭৯.৬% | ৫৮.২% | ৫২.৯% | ৩১.৬% | ৬.২% |
[2] আমাদের ইনফ্রাস্ট্রাকচারে রান করতে না পারা ২৩/৫০০ প্রোবলেম আমরা বাদ দিয়েছি. বাদ দেওয়া 23টি টাস্কের পুরো লিস্ট হলো 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', এবং 'sphinx-doc__sphinx-9367'.
নির্দেশনা অনুসরণ
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | ৬৯.৬% | ৬২.৩% | ৫৪.৯% | ৬০.৪% | ৫৭.৫% | ৪৬.২% | ৪২.২% | ৩১.১% |
| Internal API instruction following eval(hard) | ৬৪.০% | ৬৫.৮% | ৫৬.১% | ৪৭.৪% | ৪৪.৭% | ৪৯.১% | ৪৫.১% | ৩১.৬% |
| COLLIE | ৯৯.০% | ৯৮.৫% | ৯৬.৯% | ৯৮.৪% | ৯৬.১% | ৬৫.৮% | ৫৪.৬% | ৪২.৫% |
[3] নোট: আমরা দেখেছি, MultiChallenge (GPT-4o)-এর ডিফল্ট গ্রেডার প্রায়ই মডেল রেসপন্স ভুলভাবে স্কোর করে. আমরা দেখেছি যে গ্রেডারকে একটি রিজনিং মডেল, যেমন o3-mini-তে পরিবর্তন করলে, আমাদের মূল্যায়ন করা নমুনাগুলিতে গ্রেডিংয়ের নির্ভুলতা উল্লেখযোগ্যভাবে বৃদ্ধি পায়.
ফাংশন কলিং
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | ৬২.৬% | ৬০.০% | ৪১.০% | ৬৪.৮% | ৬০.২% | ৫৬.০% | ৫১.০% | ১৪.০% |
| Tau2-bench retail | ৮১.১% | ৭৮.৩% | ৬২.৩% | ৮০.২% | ৭০.৫% | ৭৪.০% | ৬৬.০% | ২১.৫% |
| Tau2-bench telecom | ৯৬.৭% | ৭৪.১% | ৩৫.৫% | ৫৮.২% | ৪০.৫% | ৩৪.০% | ৪৪.০% | ১২.১% |
লং কনটেক্সট
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | ৯৫.২% | ৮৪.৩% | ৪৩.২% | ৫৫.০% | ৫৬.৪% | ৫৭.২% | ৪৭.২% | ৩৬.৬% |
| OpenAI-MRCR: 2 needle 256k | ৮৬.৮% | ৫৮.৮% | ৩৪.৯% | - | - | ৫৬.২% | ৪৫.৫% | ২২.৬% |
| Graphwalks bfs <128k | ৭৮.৩% | ৭৩.৪% | ৬৪.০% | ৭৭.৩% | ৬২.৩% | ৬১.৭% | ৬১.৭% | ২৫.০% |
| Graphwalks parents <128k | ৭৩.৩% | ৬৪.৩% | ৪৩.৮% | ৭২.৯% | ৫১.১% | ৫৮.০% | ৬০.৫% | ৯.৪% |
| BrowseComp Long Context 128k | ৯০.০% | ৮৯.৪% | ৮০.৪% | ৮৮.৩% | ৮০.০% | ৮৫.৯% | ৮৯.০% | ৮৯.৪% |
| BrowseComp Long Context 256k | ৮৮.৮% | ৮৬.০% | ৬৮.৪% | - | - | ৭৫.৫% | ৮১.৬% | ১৯.১% |
| VideoMME(long, with subtitle category) | ৮৬.৭% | ৭৮.৫% | ৬৫.৭% | ৮৪.৯% | ৭৯.৫% | ৭৮.৭% | ৬৮.৪% | ৫৫.২% |
হ্যালুসিনেশন
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | ১.০% | ০.৭% | ১.০% | ৫.২% | ৩.০% | ০.৭% | ১.১% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | ১.২% | ১.৩% | ২.৮% | ৬.৮% | ৮.৯% | ১.১% | ১.৮% | - |
| FActScore hallucination rate(no tools)[lower is better] | ২.৮% | ৩.৫% | ৭.৩% | ২৩.৫% | ৩৮.৭% | ৬.৭% | ১০.৯% | - |


