৫ মার্চ, ২০২৬

GPT‑5.4 পরিচিতি

পেশাদার কাজের জন্য ডিজাইন করা হয়েছে

লোডিং…

আজ, আমরা ChatGPT‑এ GPT‑5.4 প্রকাশ করছি (GPT‑5.4 Thinking), API এবং Codex. পেশাদার কাজের জন্য এটি আমাদের সবচেয়ে সক্ষম এবং দক্ষ অত্যাধুনিক মডেল. আমরা ChatGPT এবং API-তেও GPT‑5.4 Pro রিলিজ করছি, যারা জটিল টাস্কে সর্বোচ্চ পারফরম্যান্স চান তাদের জন্য.

GPT‑5.4 যুক্তিপ্রয়োগ, কোডিং এবং এজেন্টিক ওয়ার্কফ্লোতে আমাদের সাম্প্রতিক অগ্রগতির সেরাগুলোকে একত্রিত করে একটি একক অত্যাধুনিক মডেলে নিয়ে এসেছে. এটি GPT‑5.3‑Codex⁠ -এর ইন্ডাস্ট্রি-লিডিং কোডিং সক্ষমতাগুলোকে অন্তর্ভুক্ত করে, পাশাপাশি স্প্রেডশিট, প্রেজেন্টেশন এবং ডকুমেন্ট-সম্পর্কিত পেশাদার টাস্কে টুল, সফটওয়্যার এনভায়রনমেন্ট এবং বিভিন্ন কাজের ক্ষেত্রে মডেল কিভাবে কাজ করে তা আরও উন্নত করে. এর ফলাফল হলো এমন একটি মডেল, যা জটিল ও বাস্তবধর্মী কাজগুলোকে নির্ভুলভাবে, কার্যকরভাবে এবং দক্ষতার সাথে সম্পন্ন করতে পারে—অর্থাৎ, বাড়তি আলাপচারিতা বা বারবার সংশোধনের প্রয়োজন ছাড়াই আপনি যা চেয়েছেন, এটি তা নিখুঁতভাবে প্রদান করে.

ChatGPT‑এ GPT‑5.4 Thinking এখন তার চিন্তাভাবনার একটি আগাম পরিকল্পনা দিতে পারে, যাতে আপনি কাজ চলাকালীনই প্রতিক্রিয়ার মাঝপথে দিক পরিবর্তন করতে পারেন যখন এটি কাজ করছে, এবং অতিরিক্ত টার্ন ছাড়াই আপনার প্রয়োজনের সঙ্গে আরও ঘনিষ্ঠভাবে সামঞ্জস্যপূর্ণ একটি চূড়ান্ত আউটপুটে পৌঁছাতে পারেন. GPT‑5.4 Thinking ডিপ রিসার্চ, বিশেষ করে অত্যন্ত নির্দিষ্ট কুয়েরির ক্ষেত্রে, উন্নত করে, পাশাপাশি কন্টেক্সট আরও ভালোভাবে বজায় রাখে এমন প্রশ্নগুলোর জন্য যেগুলোর ক্ষেত্রে দীর্ঘ সময় ধরে চিন্তা করা প্রয়োজন. একসাথে, এই উন্নতিগুলো মানে আরও উচ্চমানের উত্তর, যা আরও দ্রুত আসে এবং হাতে থাকা কাজটির সাথে প্রাসঙ্গিক থাকে.

Codex এবং API-তে, GPT‑5.4 হলো আমাদের প্রকাশিত প্রথম জেনারেল-পারপাস মডেল, যাতে নেটিভ, স্টেট-অব-দ্য-আর্ট কম্পিউটার ব্যবহারের ক্ষমতা রয়েছে, যা এজেন্টদের কম্পিউটার পরিচালনা করতে এবং অ্যাপ্লিকেশন জুড়ে জটিল ওয়ার্কফ্লো সম্পন্ন করতে সক্ষম করে. এটি কন্টেক্সটের এক মিলিয়ন টোকেন পর্যন্ত সমর্থন করে, যা এজেন্টদের দীর্ঘ সময়সীমা জুড়ে টাস্ক পরিকল্পনা, সম্পাদন এবং যাচাই করতে সক্ষম করে. GPT‑5.4 টুল সার্চ সহ টুল ও কানেক্টরের বৃহৎ ইকোসিস্টেম জুড়ে মডেলগুলো কিভাবে কাজ করে তাও উন্নত করে, ফলে এজেন্টরা বুদ্ধিমত্তা বিসর্জন না দিয়ে আরও দক্ষভাবে সঠিক টুল খুঁজে পেতে এবং ব্যবহার করতে পারে. অবশেষে, এখন পর্যন্ত GPT‑5.4 হলো আমাদের সবচেয়ে টোকেন দক্ষ রিজনিং মডেল, GPT‑5.2‑এর তুলনায় সমস্যা সমাধানে উল্লেখযোগ্যভাবে কম টোকেন ব্যবহার করে—ফলে টোকেন ব্যবহার কমে এবং গতি আরও বাড়ে.

সাধারণ যুক্তি, কোডিং এবং পেশাদার জ্ঞানভিত্তিক কাজের অগ্রগতির পাশাপাশি, GPT‑5.4 ChatGPT, API এবং Codex জুড়ে আরও নির্ভরযোগ্য এজেন্ট, দ্রুততর ডেভেলপার ওয়ার্কফ্লো এবং উচ্চ-মানের আউটপুট সক্ষম করে.

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (জয় বা সমান ফলাফল)	83.0%	70.9%	70.9%
SWE-Bench Pro (Public)	57.7%	56.8%	55.6%
OSWorld-ভেরিফায়েড	75.0%	74.0%*	47.3%
Toolathlon	54.6%	51.9%	46.3%
BrowseComp	82.7%	77.3%	65.8%

*পূর্বে 64.7% হিসেবে রিপোর্ট করা হয়েছিল. GPT‑5.3‑Codex মূল ইমেজ রেজোলিউশন সংরক্ষণ করে এমন নতুনভাবে প্রবর্তিত একটি API প্যারামিটারের মাধ্যমে 74.0% অর্জন করে.

জ্ঞান সংক্রান্ত কাজ

GPT‑5.2‑এর উপর ভিত্তি করে সাধারণ যুক্তি-ক্ষমতার পাশাপাশি, GPT‑5.4 পেশাদারদের জন্য গুরুত্বপূর্ণ বাস্তব-জগতের টাস্কে আরও বেশি ধারাবাহিক এবং পরিশীলিত ফলাফল প্রদান করে.

GDPval⁠-এ, যা 44-টি পেশা জুড়ে সু-নির্দিষ্ট জ্ঞানকাজ তৈরি করার ক্ষেত্রে এজেন্টদের সক্ষমতা পরীক্ষা করে, GPT‑5.4 একটি নতুন অত্যাধুনিক মানদণ্ড অর্জন করেছে, 83.0% তুলনায় শিল্প পেশাদারদের সঙ্গে সমান বা তাদের ছাড়িয়ে গেছে, যেখানে GPT‑5.2‑এর ক্ষেত্রে ছিল 71.0%.

GDPval-এ, মডেলগুলি মার্কিন GDP-তে অবদান রাখা শীর্ষ 9-টি শিল্পের 44-টি পেশা জুড়ে সু-নির্দিষ্ট জ্ঞানকাজের চেষ্টা করে. কাজগুলো বাস্তব কাজের পণ্য চায়, যেমন বিক্রয় উপস্থাপনা, হিসাবরক্ষণ স্প্রেডশীট, জরুরি যত্নের সময়সূচী, উৎপাদন ডায়াগ্রাম বা ছোট ভিডিও. GPT‑5.4‑এর জন্য রিজনিং এফর্ট xhigh এবং GPT‑5.2‑এর জন্য heavy নির্ধারণ করা হয়েছিল (ChatGPT‑এ সামান্য কম স্তর).

“GPT-5.4 হলো আমাদের দেখা বা ব্যবহার করা এখন পর্যন্ত সেরা মডেল. এটি এখন আমাদের APEX-Agents বেঞ্চমার্কের লিডারবোর্ডের শীর্ষে রয়েছে, যা পেশাদার সেবা-সংক্রান্ত কাজের জন্য মডেলের পারফরম্যান্স পরিমাপ করে. এটি স্লাইড ডেক, আর্থিক মডেল এবং আইনি বিশ্লেষণের মতো দীর্ঘ-হরাইজন ডেলিভারেবল তৈরি করতে বিশেষভাবে দক্ষ, প্রতিযোগী অত্যাধুনিক মডেলগুলোর তুলনায় দ্রুততর এবং কম খরচে চলেও শীর্ষ পারফরম্যান্স প্রদান করে.”

— ব্রেন্ডন ফুডি, Mercor-এর CEO

আমরা GPT‑5.4‑এর উন্নতি সাধনে বিশেষভাবে গুরুত্ব দিয়েছি স্প্রেডশিট, উপস্থাপনা এবং নথি তৈরি ও সম্পাদনা করার ক্ষমতা. জুনিয়র ইনভেস্টমেন্ট ব্যাংকিং অ্যানালিস্ট যে ধরনের স্প্রেডশীট মডেলিং কাজ করতে পারে, সেসবের একটি অভ্যন্তরীণ বেঞ্চমার্কে GPT‑5.4 গড়ে 87.5% স্কোর অর্জন করে, যেখানে GPT‑5.2‑এর জন্য এটি 68.4% . প্রেজেন্টেশন মূল্যায়ন প্রম্পটের একটি সেটে, মানব রেটাররা GPT‑5.2‑এর তুলনায় GPT‑5.4‑এর প্রেজেন্টেশনকে 68.0% সময় বেশি পছন্দ করেছেন, কারণ এতে আরও শক্তিশালী নান্দনিকতা, বেশি ভিজ্যুয়াল বৈচিত্র্য এবং ইমেজ জেনারেশনের আরও কার্যকর ব্যবহার ছিল.

GPT-5.2 বনাম GPT-5.4 থেকে স্প্রেডশীট আউটপুটের পাশাপাশি উদাহরণ

ডকুমেন্টগুলো যুক্তিপ্রয়োগ প্রচেষ্টা xhigh-এ সেট করে তৈরি করা হয়েছিল

আপনি GPT‑5.4 Thinking অথবা Pro ব্যবহার করে ChatGPT‑তে এই সক্ষমতাগুলো ব্যবহার করে দেখতে পারেন. আপনি যদি একজন এন্টারপ্রাইজ গ্রাহক হন, আমরা আজই চালু হওয়া আমাদের সদ্য প্রকাশিত Excel এবং Google Sheets-এর জন্য ChatGPT প্লাগইন⁠(একটি নতুন উইন্ডোতে খোলে) ব্যবহার করার পরামর্শ দিই. আমরা Codex এবং API-তে উপলব্ধ আমাদের স্প্রেডশিট⁠(একটি নতুন উইন্ডোতে খোলে) এবং প্রেজেন্টেশন স্কিল⁠(একটি নতুন উইন্ডোতে খোলে) ও আপডেট করেছি.

বাস্তব জীবনের কাজগুলোতে GPT‑5.4‑কে আরও দক্ষ করে তোলার লক্ষ্যে, আমরা এর হ্যালুসিনেশন (ভ্রান্ত তথ্য প্রদান) এবং অন্যান্য ত্রুটি কমিয়ে আনার ধারাবাহিক অগ্রগতি বজায় রেখেছি. GPT‑5.4 এখন পর্যন্ত আমাদের সবচেয়ে তথ্যভিত্তিক মডেল: ডি-আইডেন্টিফাইড প্রম্পটগুলির একটি সেটে যেখানে ব্যবহারকারীরা তথ্যগত ত্রুটি ফ্ল্যাগ করেছেন, GPT‑5.4‑এর তুলনায়, GPT‑5.2‑এর স্বতন্ত্র দাবিগুলো ভুল হওয়ার সম্ভাবনা 33% কম এবং এর সম্পূর্ণ উত্তরগুলোতে কোনো ভুল থাকার সম্ভাবনা 18% কম.

“GPT-5.4 নথি-নির্ভর আইনি কাজে একটি নতুন মানদণ্ড স্থাপন করে. আমাদের BigLaw Bench ইভ্যালে, এটি 91% স্কোর করেছে. অন্যান্য মডেলের তুলনায়, GPT-5.4 বর্তমানে জটিল লেনদেনভিত্তিক বিশ্লেষণকে কাঠামোবদ্ধ করতে, দীর্ঘ চুক্তিজুড়ে নির্ভুলতা বজায় রাখতে, এবং আইন পেশাজীবীদের প্রয়োজনীয় উচ্চমাত্রার বিস্তারিত তথ্য প্রদান করতে আরও ভালো.”

— নিকো গ্রুপেন, Harvey-এর ফলিত গবেষণা প্রধান

কম্পিউটার ব্যবহার এবং ভিশন

GPT‑5.4 হলো আমাদের প্রথম সাধারণ-উদ্দেশ্য মডেল, যার নেটিভ কম্পিউটার ব্যবহারের ক্ষমতা রয়েছে এবং এটি ডেভেলপার ও এজেন্ট উভয়ের জন্য একটি বড় অগ্রগতির মাইলফলক. ওয়েবসাইট এবং সফটওয়্যার সিস্টেম জুড়ে বাস্তব কাজ সম্পন্ন করে এমন এজেন্ট তৈরি করার জন্য ডেভেলপারদের জন্য এটি বর্তমানে উপলব্ধ সেরা মডেল.

আমরা GPT‑5.4‑কে এমনভাবে ডিজাইন করেছি যাতে এটি কম্পিউটার ব্যবহারের বিস্তৃত পরিসরের ওয়ার্কলোডে কার্যকরভাবে কাজ করে. Playwright-এর মতো লাইব্রেরির মাধ্যমে কম্পিউটার পরিচালনা করতে কোড লেখা এবং স্ক্রিনশটের প্রতিক্রিয়ায় মাউস ও কীবোর্ড কমান্ড ইস্যু করতে এটি অসাধারণ. এর আচরণ ডেভেলপার মেসেজের মাধ্যমে নিয়ন্ত্রণযোগ্য অর্থাৎ ডেভেলপাররা নির্দিষ্ট ব্যবহারক্ষেত্রের উপযোগী করে আচরণ সামঞ্জস্য করতে পারেন. ডেভেলপাররা কাস্টম কনফার্মেশন নীতিমালা নির্দিষ্ট করে বিভিন্ন স্তরের রিস্ক টলারেন্স অনুযায়ী মডেলের সেফটি আচরণ কনফিগার করতে পারেন.

মডেলের পারফরম্যান্স এবং নমনীয়তা বিভিন্ন সেটিংস জুড়ে কম্পিউটার ব্যবহার পরীক্ষা করে এমন বেঞ্চমার্ক জুড়ে প্রতিফলিত হয়. OSWorld-Verified-এ, যা স্ক্রিনশট এবং কিবোর্ড/মাউস অ্যাকশনের মাধ্যমে একটি মডেলের ডেস্কটপ এনভায়রনমেন্টে নেভিগেট করার ক্ষমতা পরিমাপ করে, GPT‑5.4 75.0% সাফল্যের হার অর্জন করেছে. এটি GPT‑5.2‑এর 47.3%, এবং 72.4%¹হারে মানুষের পারফরম্যান্সকে ছাড়িয়ে গেছে.

WebArena-Verified-এ, যা ব্রাউজার ব্যবহারের পরীক্ষা করে, DOM এবং স্ক্রিনশট-চালিত ইন্টারঅ্যাকশন উভয় ব্যবহার করলে GPT‑5.4 67.3% সাফল্যের হার অর্জন করে, যা GPT‑5.2‑এর 65.4%-এর তুলনায় বেশি. Online-Mind2Web-এ, যা ব্রাউজার ব্যবহারেরও পরীক্ষা করে, GPT‑5.4 শুধুমাত্র স্ক্রিনশট-ভিত্তিক পর্যবেক্ষণ ব্যবহার করে 92.8% সাফল্যের হার অর্জন করে, যা ChatGPT Atlas-এর Agent Mode-এর তুলনায় উন্নত, যেখানে 70.9% সাফল্যের হার অর্জিত হয়.

টুল yield হলো যখন কোনো অ্যাসিস্ট্যান্ট টুলের প্রতিক্রিয়ার জন্য অপেক্ষা করতে yield করে. যদি তিনটি টুল প্যারালালি (সমান্তরালে) কল করা হয় এবং এর পরপরই আরও তিনটি টুল প্যারালালি কল করা হয়, তবে 'yield'-এর সংখ্যা হবে দুই. টুল কল-এর তুলনায় টুল 'yield' ল্যাটেন্সি পরিমাপের জন্য অধিকতর নির্ভরযোগ্য সূচক, কারণ এটি প্যারালাইজেশনের (সমান্তরাল কার্যপদ্ধতি) সুবিধাসমূহকে সঠিকভাবে প্রতিফলিত করে.

GPT‑5.4 একটি ব্রাউজার ইন্টারফেসের স্ক্রিনশট ব্যাখ্যা করে এবং ইমেল পাঠাতে ও একটি ক্যালেন্ডার ইভেন্ট নির্ধারণ করতে কোঅর্ডিনেট-ভিত্তিক ক্লিকিংয়ের মাধ্যমে UI উপাদানগুলোর সাথে ইন্টারঅ্যাক্ট করে.

GPT‑5.4‑এর উন্নত কম্পিউটার ব্যবহার মডেলের উন্নত সাধারণ ভিজ্যুয়াল উপলব্ধি সক্ষমতার উপর ভিত্তি করে তৈরি. MMMU-Pro-এ, যা একটি মডেলের দৃশ্যগত বোধগম্যতা এবং যুক্তি করার ক্ষমতার পরীক্ষা, তাতে GPT‑5.4 টুল ব্যবহার ছাড়াই 81.2% সাফল্যের হার অর্জন করেছে, যা GPT‑5.2‑এর 79.5% সাফল্যের হারের তুলনায় একটি উন্নতি. উন্নত ভিজ্যুয়াল উপলব্ধি আরও ভালো ডকুমেন্ট পার্সিং সক্ষমতায়ও রূপান্তরিত হয়. OmniDocBench-এ, রিজনিং এফর্ট ছাড়াই GPT‑5.4 গড় ত্রুটি (মডেল পূর্বাভাস এবং গ্রাউন্ড ট্রুথের মধ্যে স্বাভাবিকীকৃত এডিট দূরত্ব দ্বারা পরিমাপিত) 0.109 অর্জন করেছে, যা GPT‑5.2‑এর 0.140 থেকে উন্নত.

MMMUPro-কে যুক্তিপ্রয়োগ প্রচেষ্টা xhigh-এ সেট করে চালানো হয়েছিল. OmniDocBench চালানো হয়েছিল রিজনিং এফর্ট none সেট করে, যাতে লো-কস্ট, লো-ল্যাটেন্সি পারফরম্যান্স প্রতিফলিত হয়.

আমরা ঘন, উচ্চ-রেজোলিউশনের ছবিগুলোর জন্যও ভিজ্যুয়াল বোঝাপড়া উন্নত করছি, যেখানে পূর্ণ বিশ্বস্ততা গুরুত্বপূর্ণ. GPT‑5.4 থেকে শুরু করে, আমরা একটি original ইমেজ ইনপুট ডিটেইল⁠(একটি নতুন উইন্ডোতে খোলে) লেভেল চালু করছি, যা 10.24 মিলিয়ন মোট পিক্সেল বা 6000-পিক্সেল সর্বোচ্চ ডাইমেনশন (যেটি কম) পর্যন্ত পূর্ণ বিশ্বস্ততা সাপোর্ট করে; high ইমেজ ইনপুট ডিটেইল লেভেল এখন 2.56 মিলিয়ন মোট পিক্সেল বা 2048-পিক্সেল সর্বোচ্চ ডাইমেনশন (যেটি কম) পর্যন্ত সাপোর্ট করে. API ব্যবহারকারীদের সাথে প্রাথমিক পরীক্ষায়, আমরা লক্ষ্য করেছি যে original বা high বিস্তারিত ব্যবহার করলে লোকালাইজেশন দক্ষতা, ইমেজ বোঝাপড়া এবং ক্লিক নির্ভুলতায় উল্লেখযোগ্য উন্নতি হয়.

“~30হাজার HOA এবং প্রপার্টি ট্যাক্স পোর্টাল জুড়ে কম্পিউটার ব্যবহারের পারফরম্যান্স মাপা আমাদের ইভ্যালুয়েশনগুলোতে, GPT-5.4 প্রথম চেষ্টায় 95% সাফল্যের হার এবং তিনটি চেষ্টার মধ্যে 100% অর্জন করেছে, যেখানে পূর্ববর্তী CUA মডেলগুলোর ক্ষেত্রে তা ছিল ~73–79%. এটি ~3x দ্রুত সেশন সম্পন্ন করেছে এবং ~70% কম টোকেন ব্যবহার করেছে, ফলে বৃহৎ পরিসরে রিলায়েবিলিটি এবং খরচ দক্ষতা উল্লেখযোগ্যভাবে উন্নত হয়েছে."

— ডড ফ্রেজার, Mainstay-এর CEO

API-তে ডেভেলপাররা আপডেটেড কম্পিউটার টুল ব্যবহার করে এই সক্ষমতাগুলোতে অ্যাক্সেস করতে পারবেন. সুপারিশকৃত সেরা অনুশীলনের জন্য অনুগ্রহ করে আমাদের আপডেটেড ডকুমেন্টেশন⁠(একটি নতুন উইন্ডোতে খোলে) দেখুন.

কোডিং

GPT‑5.3‑Codex‑এর কোডিং শক্তিকে GPT‑5.4 শীর্ষস্থানীয় জ্ঞানমূলক কাজ এবং কম্পিউটার ব্যবহারের সক্ষমতার সঙ্গে একত্রিত করে, যা দীর্ঘমেয়াদী টাস্কে সবচেয়ে বেশি গুরুত্বপূর্ণ—যেখানে মডেল টুল ব্যবহার করতে পারে, পুনরাবৃত্তি করতে পারে এবং কম ম্যানুয়াল হস্তক্ষেপে কাজকে আরও এগিয়ে নিতে পারে. এটি SWE-Bench Pro-এ GPT‑5.3‑Codex‑এর সমতুল্য বা তার চেয়েও ভালো পারফর্ম করে, পাশাপাশি রিজনিং প্রচেষ্টাজুড়ে কম লেটেন্সি বজায় রাখে.

আমরা আমাদের মডেলগুলির প্রোডাকশন আচরণ দেখে লেটেন্সি অনুমান করি এবং এটি অফলাইনে সিমুলেট করি. লেটেন্সি অনুমান টুল কলের সময়কাল (কোড নির্বাহ সময়), স্যাম্পল করা টোকেন এবং ইনপুট টোকেনকে বিবেচনায় নেয়. বাস্তব জগতের লেটেন্সি ব্যাপকভাবে পরিবর্তিত হতে পারে এবং আমাদের সিমুলেশনে ধরা পড়েনি এমন অনেক বিষয়ের উপর নির্ভর করে. যৌক্তিক বিশ্লেষণের সক্ষমতাকে একেবারেই না থাকা অবস্থা থেকে সর্বোচ্চ পর্যায়ে (xhigh) উন্নীত করা হয়েছে.

টগল করে চালু করলে, Codex-এ /fast mode GPT‑5.4‑এর সাথে সর্বোচ্চ 1.5x দ্রুততর টোকেন ভেলোসিটি দেয়. এটি একই মডেল এবং একই বুদ্ধিমত্তা, শুধু আরও দ্রুত. এর মানে ব্যবহারকারীরা ফ্লো-তে থেকে কোডিং টাস্ক, পুনরাবৃত্তি এবং ডিবাগিং-এর মধ্য দিয়ে এগোতে পারেন. নির্মাতারা অগ্রাধিকার প্রক্রিয়াকরণ⁠(একটি নতুন উইন্ডোতে খোলে) ব্যবহার করে API-এর মাধ্যমে একই দ্রুত গতিতে GPT‑5.4 অ্যাক্সেস করতে পারেন.

মূল্যায়ন এবং ইন্টারনাল টেস্টিংয়ে আমরা দেখেছি যে GPT‑5.4 জটিল ফ্রন্টএন্ড টাস্কে উৎকৃষ্ট এবং আমরা আগে যে কোনো মডেল লঞ্চ করেছি তার তুলনায় ফলাফলগুলো স্পষ্টভাবে আরও নান্দনিক এবং আরও কার্যকর.

মডেলের উন্নত কম্পিউটার-ব্যবহার এবং কোডিং সক্ষমতাগুলো একসঙ্গে কাজ করার একটি প্রদর্শনী হিসেবে, আমরা “Playwright (Interactive)⁠(একটি নতুন উইন্ডোতে খোলে)” নামে একটি পরীক্ষামূলক Codex স্কিল ও প্রকাশ করছি. এটি Codex-কে ওয়েব এবং Electron অ্যাপগুলো ভিজ্যুয়ালি ডিবাগ করতে দেয়; এমনকি এটি যে অ্যাপটি তৈরি করছে, তৈরি করার সময়ই সেটি টেস্ট করতেও ব্যবহার করা যেতে পারে.

GPT‑5.4 দিয়ে তৈরি থিম পার্ক সিমুলেশন গেম, একটি একক হালকাভাবে নির্দিষ্ট প্রম্পট থেকে, ব্রাউজার প্লেটেস্টিংয়ের জন্য Playwright Interactive এবং আইসোমেট্রিক অ্যাসেট সেটের জন্য ইমেজ জেনারেশন ব্যবহার করে. সিমুলেশনটিতে টাইল-ভিত্তিক পথ স্থাপন, রাইড ও দৃশ্যসজ্জা নির্মাণ, অতিথিদের পথনির্ণয়, সারিবদ্ধ হওয়া এবং রাইড চক্র অন্তর্ভুক্ত থাকে, আর পার্কের মেট্রিক্স যেমন টাকা, অতিথির সংখ্যা, সুখ, পরিচ্ছন্নতা এবং রেটিং—লেআউট কতটা ভালো কাজ করে এবং অতিথিরা এতে কিভাবে সাড়া দেয় তার ভিত্তিতে বাড়ে বা কমে. Playwright ব্যবহার করা হয়েছিল ব্রাউজার প্লেটেস্ট অটোমেট করতে—পার্ক তৈরি ও সম্প্রসারণ করা, পথ ও আকর্ষণ স্থাপন ও অপসারণ করা, ক্যামেরা ন্যাভিগেশন পরীক্ষা করা এবং একাধিক রাউন্ড প্লের জুড়ে অতিথি, কিউ, রাইড স্টেট এবং UI মেট্রিক্স সঠিকভাবে আপডেট হয়েছে কিনা যাচাই করতে.

প্রম্পট: $playwright-interactive এবং $imagegen ব্যবহার করুন. ব্রাউজারে আমি যাতে তৈরি করতে এবং নেভিগেট করতে পারি এমন একটি ইন্টারঅ্যাকটিভ আইসোমেট্রিক থিম পার্ক সিমুলেশন গেম তৈরি করুন. সামগ্রিক ভিজ্যুয়াল ভিশন স্থির করতে এবং গেমের অ্যাসেট তৈরি করতে imagegen ব্যবহার করুন, যার মধ্যে রাইড, পথ, টেরেইন, গাছ, পানি, খাবারের স্টল, ডেকোরেশন, বিল্ডিং, আইকন এবং UI ইলাস্ট্রেশন অন্তর্ভুক্ত থাকবে. বিশ্বটি যেন সঙ্গতিপূর্ণ, পালিশড, এবং ভিজ্যুয়ালি সমৃদ্ধ মনে হয়, এমন একটি প্রিমিয়াম আর্ট ডিরেকশনসহ যা আইসোমেট্রিক দৃষ্টিকোণ থেকে ভালো কাজ করে. আমাকে পথ বসাতে ও সরাতে দিন, আকর্ষণ যোগ করতে দিন, দৃশ্যসজ্জা অবস্থান নির্ধারণ করতে দিন, এবং অতিথিদের কার্যকলাপ, রাইডের অবস্থা, এবং পার্কের বৃদ্ধি পর্যবেক্ষণ করতে করতে পার্কের ভেতর মসৃণভাবে চলাফেরা করতে দিন. বিশ্বাসযোগ্য অতিথি চলাচল, টাকা, পরিচ্ছন্নতা, কিউ করা, এবং সুখের মতো সহজ পার্ক ম্যানেজমেন্ট সিস্টেম অন্তর্ভুক্ত করুন, এবং অভিজ্ঞতাটি যেন রাফ প্রোটোটাইপের মতো না হয়ে খেলাধুলাপূর্ণ, স্পষ্ট, এবং সম্পূর্ণ মনে হয়. বাস্তবতার চেয়ে আকর্ষণ, পাঠযোগ্যতা, এবং শক্তিশালী গেম ফিলকে অগ্রাধিকার দিন.

প্লে টেস্টিং করার সময়, কয়েক রাউন্ড প্লের মাধ্যমে একটি পার্ক তৈরি ও সম্প্রসারণ করতে ভুলবেন না. প্লেসমেন্ট এবং ন্যাভিগেশন মসৃণভাবে কাজ করছে কিনা যাচাই করুন. অতিথিরা পার্কের লেআউট এবং আকর্ষণগুলোর প্রতি প্রতিক্রিয়া দেখাচ্ছে কিনা নিশ্চিত করুন. ভিজ্যুয়াল, UI এবং ইন্টারঅ্যাকশনগুলো স্থিতিশীল ও সামঞ্জস্যপূর্ণ মনে হচ্ছে কিনা নিশ্চিত করুন.

“আমাদের প্রকৌশলীরা GPT-5.4-কে আগের মডেলগুলোর তুলনায় আরও বেশি স্বাভাবিক এবং আত্মবিশ্বাসী বলে মনে করছেন. এটি দ্ব্যর্থক সমস্যাগুলো নিজেকে দ্বিতীয়বার সন্দেহ না করেই সমাধান করে এবং কাজকে সমান্তরালে শেয়ার করে নেওয়ার ক্ষেত্রে এটি প্রোঅ্যাকটিভ থাকে যাতে সবকিছু এগিয়ে চলতে পারে.”

— লি রবিনসন, Cursor-এ ডেভেলপার এডুকেশনের VP

টুল ব্যবহার

GPT‑5.4 দিয়ে, আমরা এক্সটার্নাল টুলের সাথে মডেলগুলো কিভাবে কাজ করে তা উল্লেখযোগ্যভাবে উন্নত করেছি. এজেন্টরা এখন আরও বৃহৎ টুল ইকোসিস্টেম জুড়ে কাজ করতে পারে, আরও নির্ভরযোগ্যভাবে সঠিক টুল বেছে নিতে পারে এবং কম খরচ ও লেটেন্সিতে বহু-ধাপের ওয়ার্কফ্লো সম্পন্ন করতে পারে.

টুল সার্চ

API-তে, GPT‑5.4 টুল সার্চ⁠(একটি নতুন উইন্ডোতে খোলে) চালু করছে, যা অনেক টুল দেওয়া হলে মডেলগুলোকে দক্ষভাবে কাজ করতে দেয়.

পূর্বে, যখন কোনো মডেলকে টুলস দেওয়া হতো, তখন সব টুলের সংজ্ঞা আগেই প্রম্পটে অন্তর্ভুক্ত করা হতো. অনেক টুল থাকা সিস্টেমগুলির ক্ষেত্রে, এটি প্রতিটি অনুরোধে হাজার হাজার—অথবা এমনকি দশ হাজারেরও বেশি—টোকেন যোগ করতে পারে, খরচ বাড়ায়, প্রতিক্রিয়া ধীর করে এবং মডেল কখনও ব্যবহার নাও করতে পারে এমন তথ্য দিয়ে প্রসঙ্গকে ভিড় করে তোলে.

টুল সার্চের মাধ্যমে, GPT‑5.4 এর পরিবর্তে উপলব্ধ টুলগুলোর একটি হালকা তালিকা এবং টুল সার্চ সক্ষমতা পায়. যখন মডেলকে কোনো টুল ব্যবহার করতে হয়, তখন এটি সেই টুলের সংজ্ঞা খুঁজে দেখতে পারে এবং সেই মুহূর্তে কথোপকথনে সেটি যোগ করতে পারে.

এই পদ্ধতিটি টুল-হেভি ওয়ার্কফ্লোগুলোর জন্য প্রয়োজনীয় টোকেনের সংখ্যা নাটকীয়ভাবে কমায় এবং ক্যাশ সংরক্ষণ করে, ফলে অনুরোধগুলো আরও দ্রুত এবং সস্তা হয়. এটি এজেন্টদের আরও বৃহৎ টুল ইকোসিস্টেমের সাথে নির্ভরযোগ্যভাবে কাজ করতে সক্ষম করে. টুল ডেফিনিশনের দশ হাজারেরও বেশি টোকেন থাকতে পারে এমন MCP সার্ভারগুলোর ক্ষেত্রে, দক্ষতা বৃদ্ধির লাভ উল্লেখযোগ্য হতে পারে.

দক্ষতা বৃদ্ধির প্রমাণ দেখাতে, আমরা Scale-এর MCP Atlas⁠(একটি নতুন উইন্ডোতে খোলে) বেঞ্চমার্ক থেকে 250-টি টাস্ক মূল্যায়ন করেছি, যেখানে 36-টি MCP সার্ভারই দুইটি মোডে সক্রিয় ছিল: (1) মডেল কনটেক্সটে প্রতিটি MCP ফাংশন সরাসরি এক্সপোজ করা, এবং (2) টুল সার্চের আড়ালে সব MCP সার্ভার রাখা. টুল-সার্চ কনফিগারেশন একই নির্ভুলতা অর্জন করার পাশাপাশি মোট টোকেন ব্যবহার 47% কমিয়েছে.

উদাহরণ টোকেন গণনা MCP-Atlas পাবলিক ডেটাসেটে 250-টি টাস্কের গড় থেকে নেওয়া হয়েছে.

এজেন্টিক টুল কলিং

GPT‑5.4 টুল কলিংও উন্নত করে, বিশেষ করে API-তে যুক্তিবিচারের সময় কখন এবং কিভাবে টুল ব্যবহার করতে হবে তা নির্ধারণে এটিকে আরও সঠিক ও দক্ষ করে তোলে. GPT‑5.2‑এর তুলনায়, এটি Toolathlon-এ কম সংখ্যক টার্নে আরও বেশি নির্ভুলতা অর্জন করে; Toolathlon হলো এমন একটি বেঞ্চমার্ক যা পরীক্ষা করে AI এজেন্টরা বাস্তব-জগতের টুল এবং API ব্যবহার করে বহু-ধাপের কাজ সম্পন্ন করতে কতটা ভালো পারে. উদাহরণস্বরূপ, একজন এজেন্টকে ইমেইল পড়তে, অ্যাসাইনমেন্টের সংযুক্তি বের করতে, সেগুলো আপলোড করতে, গ্রেড দিতে এবং একটি স্প্রেডশিটে ফলাফল রেকর্ড করতে হয়.

ল্যাটেন্সি-সংবেদনশীল ব্যবহারের ক্ষেত্রে যেখানে None-এর রিজনিং এফোর্ট পছন্দনীয়, GPT‑5.4 তার পূর্বসূরিদের তুলনায় আরও উন্নতি করেছে.

τ2-bench⁠⁠(একটি নতুন উইন্ডোতে খোলে)-এ, একটি মডেলকে গ্রাহক পরিষেবার কাজ সম্পন্ন করতে টুল ব্যবহার করতে হবে, যেখানে এমন একজন সিমুলেটেড ব্যবহারকারী থাকতে পারেন যিনি যোগাযোগ করতে পারেন এবং বিশ্ব পরিস্থিতির উপর পদক্ষেপ নিতে পারেন. রিজনিং এফর্ট None হিসেবে সেট করা হয়েছিল.

উন্নত ওয়েব সার্চ

GPT‑5.4 এজেন্টিক ওয়েব সার্চে আরও দক্ষ. BrowseComp-এ, AI এজেন্টরা কতটা অবিচলভাবে ওয়েব ব্রাউজ করে খুঁজে পাওয়া কঠিন তথ্য খুঁজে বের করতে পারে তার একটি পরিমাপে, GPT‑5.4, GPT‑5.2‑এর তুলনায় 17%_abs এগিয়ে যায়, এবং GPT‑5.4 Pro 89.3% একটি নতুন অত্যাধুনিক অবস্থা (স্টেট-অফ-দ্য-আর্ট) স্থাপন করেছে.

বাস্তবে, এর মানে GPT‑5.4 Thinking এমন সব প্রশ্নের উত্তর দেওয়ার ক্ষেত্রে আরও বেশি শক্তিশালী, যেগুলোর জন্য ওয়েবের বিভিন্ন উৎস থেকে তথ্য একত্রিত করার প্রয়োজন হয়. এটি একাধিক রাউন্ড জুড়ে আরও ধারাবাহিকভাবে অনুসন্ধান করে সবচেয়ে প্রাসঙ্গিক উৎসগুলো শনাক্ত করতে পারে, বিশেষ করে “খড়ের গাদায় সুই” ধরনের প্রশ্নের ক্ষেত্রে এবং সেগুলোকে একত্র করে একটি স্পষ্ট, সুযুক্তিসংগত উত্তর তৈরি করতে পারে.

BrowseComp-এ, আমরা মূল্যায়ন থেকে বেঞ্চমার্ক উত্তরসমূহ ধারণকারী ওয়েবসাইটগুলো বাদ দিয়ে একটি সার্চ ব্লকলিস্ট ব্যবহার করেছি, যাতে দূষণ প্রতিরোধ করা যায় এবং কর্মক্ষমতার একটি ন্যায্য পরিমাপ নিশ্চিত করা যায়. GPT‑5.4‑কে GPT‑5.2‑এর তুলনায় পরবর্তী তারিখে পরিমাপ করা হয়েছিল, যাতে স্কোরগুলি মডেল, আমাদের সার্চ সিস্টেম এবং ইন্টারনেটের অবস্থার পরিবর্তন প্রতিফলিত করে. GPT‑5.4‑কে আরও দীর্ঘ, আপডেট করা ব্লকলিস্ট দিয়ে পরীক্ষা করা হয়েছিল. মডেলগুলি ChatGPT সার্চ টুল ব্যবহার করে, যা API সার্চ থেকে সামান্য ভিন্ন হতে পারে.

“GPT-5.4 xhigh বহু-ধাপের টুল ব্যবহারের জন্য নতুন স্টেট-অফ-দ্য-আর্ট. Zapier ইন্ডাস্ট্রির সবচেয়ে কঠোর টুল ব্যবহারের বেঞ্চমার্কগুলোর কিছু পরিচালনা করে, শত শত উন্নত বাস্তব-জগতের ওয়ার্কফ্লো জুড়ে মডেলগুলো পরীক্ষা করে. GPT-5.4 সেই কাজটি সম্পন্ন করেছে যেখানে আগের মডেলগুলো হাল ছেড়ে দিয়েছিল—এটি এখন পর্যন্ত সবচেয়ে অটল মডেল.”

— ওয়েড, Zapier-এর CEO

নিয়ন্ত্রণযোগ্যতা

Codex যেভাবে কাজ শুরুর সময় তার কর্মপন্থা তুলে ধরে, ঠিক একইভাবে ChatGPT‑এর GPT‑5.4 Thinking এখন দীর্ঘ এবং জটিল প্রশ্নগুলোর ক্ষেত্রে কাজের শুরুতে একটি প্রারম্ভিক আলোচনা বা 'প্রিম্বল' প্রদান করবে. আপনি ইনস্ট্রাকশনও যোগ করতে পারেন বা প্রতিক্রিয়ার মাঝপথে এর দিকনির্দেশনা সমন্বয় করতে পারেন. এটি আপনাকে নতুন করে শুরু না করেই বা একাধিক অতিরিক্ত টার্নের প্রয়োজন ছাড়াই, মডেলকে আপনার কাঙ্ক্ষিত সুনির্দিষ্ট ফলাফলের দিকে নির্দেশনা দেওয়া আরও সহজ করে তোলে. এই ফিচারটি এখন chatgpt.com⁠(একটি নতুন উইন্ডোতে খোলে) এবং অ্যান্ড্রয়েড অ্যাপে উপলব্ধ, iOS অ্যাপে শীঘ্রই আসছে.

মডেলটি কঠিন কাজের ক্ষেত্রে আরও বেশি সময় ধরে চিন্তা করতে পারে, পাশাপাশি কথোপকথনের আগের ধাপগুলো সম্পর্কেও শক্তিশালী সচেতনতা বজায় রাখে. এটি দীর্ঘতর ওয়ার্কফ্লো এবং আরও জটিল প্রম্পট সামলাতে সক্ষম করে, একই সঙ্গে পুরো সময়জুড়ে উত্তরগুলোকে সুসংগত ও প্রাসঙ্গিক রাখে.

এই ভিডিওটি ব্যাখ্যামূলক উদ্দেশ্যে গতি বাড়ানো হয়েছে.

সেফটি

সাম্প্রতিক মাসগুলোতে, আমরা GPT‑5.3‑Codex‑এর সাথে প্রবর্তিত সুরক্ষাব্যবস্থাগুলো উন্নত করেছি এবং GPT‑5.4‑কে ডিপ্লয়মেন্টের জন্য প্রস্তুত করেছি. GPT‑5.3‑Codex‑এর মতোই, আমরা আমাদের প্রিপেয়ার্ডনেস ফ্রেমওয়ার্কের অধীনে GPT‑5.4‑কে উচ্চ সাইবার সক্ষমতা হিসেবে বিবেচনা করছি এবং আমরা সিস্টেম কার্ড⁠-এ নথিভুক্ত সংশ্লিষ্ট সুরক্ষাগুলোর সাথে এটি স্থাপন করছি. এর মধ্যে রয়েছে একটি সম্প্রসারিত সাইবার নিরাপত্তা স্ট্যাক, যার মধ্যে মনিটরিং সিস্টেম, বিশ্বস্ত অ্যাক্সেস নিয়ন্ত্রণ এবং জিরো ডাটা রিটেনশন (ZDR) সারফেসে থাকা গ্রাহকদের জন্য উচ্চ-ঝুঁকিপূর্ণ অনুরোধগুলোর ক্ষেত্রে অ্যাসিঙ্ক্রোনাস ব্লকিং অন্তর্ভুক্ত, পাশাপাশি বৃহত্তর নিরাপত্তা ইকোসিস্টেমে চলমান বিনিয়োগ.

সাইবারসিকিউরিটি সক্ষমতাগুলি স্বভাবগতভাবে দ্বৈত-ব্যবহারযোগ্য হওয়ায়, আমরা আমাদের নীতি এবং শ্রেণীবিন্যাসকারীগুলি সামঞ্জস্য করা অব্যাহত রাখার পাশাপাশি মোতায়েনের ক্ষেত্রে একটি সতর্কতামূলক পন্থা বজায় রাখি. ZDR সারফেসে নির্দিষ্ট কিছু গ্রাহকের ক্ষেত্রে, রিকোয়েস্ট-লেভেল ব্লকিং আমাদের সাইবার ঝুঁকি প্রশমন স্ট্যাকের অংশ হিসেবেই থাকে; ক্লাসিফায়ারগুলো এখনও উন্নত হচ্ছে বলে, আমরা এই সুরক্ষা ব্যবস্থাগুলো আরও পরিমার্জন করতে থাকায় কিছু ফলস পজিটিভ ঘটতে পারে. এই আপডেটগুলোর লক্ষ্য হলো প্রয়োগক্ষেত্রে সুরক্ষাব্যবস্থা কিভাবে কাজ করে তা উন্নত করা—এর মধ্যে অপ্রয়োজনীয় প্রত্যাখ্যান এবং অতিরিক্ত সতর্কতামূলক শর্তযুক্ত উত্তর কমানো অন্তর্ভুক্ত—একই সঙ্গে অপব্যবহারের বিরুদ্ধে শক্ত সুরক্ষা বজায় রাখা.

চেইন-অফ-থট (CoT) মনিটরেবিলিটি নিয়ে আমরা আমাদের সেফটি গবেষণা চালিয়ে গেছি, যাতে মডেলগুলো কিভাবে রিজন করে তা আরও ভালোভাবে বোঝা যায় এবং সম্ভাব্য মিসবিহেভিয়ার শনাক্ত করতে সহায়তা করে. এই কাজের অংশ হিসেবে, আমরা একটি নতুন ওপেন-সোর্স মূল্যায়ন, CoT নিয়ন্ত্রণযোগ্যতা⁠, উপস্থাপন করছি, যা পরিমাপ করে মডেলগুলো পর্যবেক্ষণ এড়াতে ইচ্ছাকৃতভাবে তাদের যুক্তি প্রক্রিয়া অস্পষ্ট করতে পারে কিনা. আমরা দেখতে পাই যে GPT‑5.4 Thinking-এর CoT নিয়ন্ত্রণ করার সক্ষমতা কম, যা নিরাপত্তার জন্য একটি ইতিবাচক বৈশিষ্ট্য; এটি ইঙ্গিত করে যে মডেলের তার যুক্তি লুকানোর সক্ষমতা নেই এবং CoT পর্যবেক্ষণ একটি কার্যকর নিরাপত্তা টুল হিসেবে রয়ে যায়.

উপলব্ধতা ও মূল্য নির্ধারণ

GPT‑5.4 আজ থেকে ChatGPT এবং Codex জুড়ে ধীরে ধীরে রোল আউট শুরু হচ্ছে. API-তে, GPT‑5.4 এখন gpt-5.4 হিসেবে উপলব্ধ. GPT‑5.4 Pro API-তে gpt-5.4-pro হিসেবে উপলব্ধ যা সেই সব ডেভেলপারদের জন্য উপযোগী যাদের সবচেয়ে জটিল কাজগুলোর ক্ষেত্রে সর্বোচ্চ পারফরম্যান্স প্রয়োজন.

ChatGPT‑এ আজ থেকে Plus, Team এবং Pro ব্যবহারকারীদের জন্য GPT‑5.4 Thinking সুবিধাটি চালু হয়েছে, যা GPT‑5.2 Thinking-এর স্থলাভিষিক্ত হয়েছে. GPT‑5.2 Thinking মডেলটি পেইড ব্যবহারকারীদের জন্য মডেল পিকারে Legacy Models বিভাগে তিন মাস উপলব্ধ থাকবে, এরপর 5 জুন, 2026 তারিখে এটি বন্ধ করে দেওয়া হবে. Enterprise এবং Edu প্ল্যানে থাকা ব্যবহারকারীরা অ্যাডমিন সেটিংসের মাধ্যমে আগাম অ্যাক্সেস সক্ষম করতে পারেন. GPT‑5.4 Pro শুধুমাত্র Pro এবং Enterprise প্ল্যানে উপলব্ধ. ChatGPT‑তে GPT‑5.4 Thinking-এর কনটেক্সট উইন্ডো⁠(একটি নতুন উইন্ডোতে খোলে) GPT‑5.2 Thinking-এর তুলনায় অপরিবর্তিত রয়েছে.

GPT‑5.4 হলো আমাদের প্রথম মূলধারার রিজনিং মডেল, যা GPT‑5.3‑codex‑এর অত্যাধুনিক কোডিং সক্ষমতাগুলোকে অন্তর্ভুক্ত করে এবং এটি ChatGPT, API এবং Codex জুড়ে রোল আউট হচ্ছে. সেই উল্লম্ফনকে (উল্লেখযোগ্য অগ্রগতি) প্রতিফলিত করতে এবং Codex ব্যবহারের সময় মডেল নির্বাচনের বিষয়টি সহজতর করার জন্য আমরা একে GPT‑5.4 বলছি. সময়ের সাথে সাথে, আপনি আশা করতে পারেন যে আমাদের Instant মডেলগুলো এবং Thinking মডেলগুলো ভিন্ন গতিতে বিকশিত হবে.

Codex-এ GPT‑5.4‑এ এক মিলিয়ন কনটেক্সট উইন্ডোর জন্য পরীক্ষামূলক সমর্থন অন্তর্ভুক্ত রয়েছে. ডেভেলপাররা model_context_window এবং model_auto_compact_token_limit কনফিগার করে এটি ব্যবহার করতে পারেন. স্ট্যান্ডার্ড 272 হাজার কন্টেক্সট উইন্ডো অতিক্রম করে এমন অনুরোধগুলি ব্যবহারের সীমার বিরুদ্ধে স্বাভাবিক হারের 2x হারে গণনা করা হয়.

API-তে, GPT‑5.4‑এর প্রতি টোকেন মূল্য GPT‑5.2‑এর তুলনায় বেশি, যাতে এর উন্নত সক্ষমতাগুলি প্রতিফলিত হয়, আর এর বেশি টোকেন দক্ষতা অনেক কাজের জন্য প্রয়োজনীয় মোট টোকেনের সংখ্যা কমাতে সাহায্য করে. Batch এবং Flex প্রাইসিং স্ট্যান্ডার্ড API রেটের অর্ধেকে উপলব্ধ, আর অগ্রাধিকার প্রক্রিয়াকরণ স্ট্যান্ডার্ড API রেটের দ্বিগুণে উপলব্ধ.

API মডেল	ইনপুট মূল্য	ক্যাশড ইনপুটের মূল্য	আউটপুট মূল্য
gpt-5.2	1.75 ডলার / মিলিয়ন টোকেন	0.175 ডলার / মিলিয়ন টোকেন	14 ডলার / মিলিয়ন টোকেন
gpt-5.4	2.50 ডলার / মিলিয়ন টোকেন	0.25 ডলার / মিলিয়ন টোকেন	15 ডলার / মিলিয়ন টোকেন
gpt-5.2-pro	21 ডলার / মিলিয়ন টোকেন	-	168 ডলার / মিলিয়ন টোকেন
gpt-5.4-pro	30 ডলার / মিলিয়ন টোকেন	-	180 ডলার / মিলিয়ন টোকেন

ইভ্যালুয়েশন

পেশাদার

ইভ্যাল	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83.0%	82.0%	70.9%	70.9%	74.1%
FinanceAgent v1.1	56.0%	61.5%	54.0%	59.5%	—
ইনভেস্টমেন্ট ব্যাংকিং মডেলিং কাজসমূহ (অভ্যন্তরীণ)	87.3%	83.6%	79.3%	68.4%	71.7%
OfficeQA	68.1%	—	65.1%	63.1%	—

কোডিং

ইভ্যাল	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (Public)	57.7%	—	56.8%	55.6%	—
টার্মিনাল-বেঞ্চ 2.0	75.1%	—	77.3%	62.2%	—

কম্পিউটার ব্যবহার এবং ভিশন

ইভ্যাল	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld-ভেরিফায়েড	75.0%	—	74.0%	47.3%	—
MMMU Pro (টুলস নেই)	81.2%	—	—	79.5%	—
MMMU Pro (টুলস সহ)	82.1%	—	—	80.4%	—

টুল ব্যবহার

ইভ্যাল	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82.7%	89.3%	77.3%	65.8%	77.9%
MCP Atlas	67.2%	—	—	60.6%	—
Toolathlon	54.6%	—	51.9%	45.7%	—
Tau2-bench Telecom	98.9%	—	—	98.7%	—

একাডেমিক

ইভ্যাল	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
অত্যাধুনিক বিজ্ঞান গবেষণা	33.0%	36.7%	—	25.2%	—
FrontierMath স্তর এক–তিন	47.6%	—	—	40.7%	—
FrontierMath স্তর চার	27.1%	38.0%	—	18.8%	31.3%
GPQA ডায়মন্ড	92.8%	94.4%	92.6%	92.4%	93.2%
মানবতার শেষ পরীক্ষা (কোনো টুল নেই)	39.8%	42.7%	—	34.5%	36.6%
মানবতার শেষ পরীক্ষা (টুলসহ)	52.1%	58.7%	—	45.5%	50.0%

লং-কনটেক্সট

ইভ্যাল	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0 হাজার–128 হাজার	93.0%	—	—	94.0%	—
Graphwalks BFS 256 হাজার–এক মিলিয়ন	21.4%	—	—	—	—
Graphwalks প্যারেন্টস 0–128 হাজার (নির্ভুলতা)	89.8%	—	—	89.0%	—
Graphwalks প্যারেন্টস 256 হাজার–এক মিলিয়ন (নির্ভুলতা)	32.4%	—	—	—	—
OpenAI MRCR v2 8-needle চার হাজার–আট হাজার	97.3%	—	—	98.2%	—
OpenAI MRCR v2 8-needle আট হাজার–16 হাজার	91.4%	—	—	89.3%	—
OpenAI MRCR v2 8-needle 16 হাজার–32 হাজার	97.2%	—	—	95.3%	—
OpenAI MRCR v2 8-needle 32 হাজার–64 হাজার	90.5%	—	—	92.0%	—
OpenAI MRCR v2 8-needle 64 হাজার–128 হাজার	86.0%	—	—	85.6%	—
OpenAI MRCR v2 8-needle 128 হাজার–256 হাজার	79.3%	—	—	77.0%	—
OpenAI MRCR v2 8-নিডল 256 হাজার–512 হাজার	57.5%	—	—	—	—
OpenAI MRCR v2 8-needle 512 হাজার–এক মিলিয়ন	36.6%	—	—	—	—

অবস্থানগত যুক্তি

ইভ্যাল	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGI-1 (Verified)	93.7%	94.5%	—	86.2%	90.5%
ARC-AGI-2 (Verified)	73.3%	83.3%	—	52.9%	54.2% (high)

যুক্তি ছাড়াই মূল্যায়ন

ইভ্যাল	GPT‑5.4 (none)	GPT‑5.2 (none)	GPT‑4.1
OmniDocBench (স্বাভাবিকীকৃত এডিট দূরত্ব)	0.109	0.140	—
Tau2-bench Telecom	64.3%	57.2%	43.6%

Evals চালানো হয়েছিল যুক্তিপ্রয়োগ প্রচেষ্টা xhigh-এ সেট করে, অন্যথায় নির্দিষ্ট করা না থাকলে. গবেষণার পরিবেশে বেঞ্চমার্কগুলি পরিচালিত হয়েছিল, যা কিছু ক্ষেত্রে প্রোডাকশন ChatGPT থেকে সামান্য ভিন্ন ফলাফল দিতে পারে.