5 மார்ச், 2026

GPT‑5.4 அறிமுகம்

தொழில்முறை பணிகளுக்காக வடிவமைக்கப்பட்டது

ஏற்றுகிறது…

இன்று, ChatGPT இல் GPT‑5.4 ஐ வெளியிடுகிறோம் (GPT‑5.4 Thinking), API, மற்றும் Codex. தொழில்முறை பணிகளுக்கான எங்களின் மிகவும் திறமையான மற்றும் திறன் மிகுந்த அதிநவீன மாடல். சிக்கலான பணிகளில் அதிகபட்ச செயல்திறனை விரும்பும் மக்களுக்காக, ChatGPT மற்றும் API-யில் GPT‑5.4 Pro ஐயும் நாங்கள் வெளியிடுகிறோம்.

GPT‑5.4 எங்களின் சமீபத்திய ரீஸனிங், கோடிங், மற்றும் ஏஜென்டிக் வொர்க்ஃப்ளோக்களில் உள்ள சிறந்த முன்னேற்றங்களை ஒரே அதிநவீன மாடலாக ஒன்றிணைக்கிறது. இது GPT‑5.3‑Codex⁠ இன் தொழில்துறையில் முன்னணி கோடிங் திறன்களை இணைத்துக்கொண்டு, கருவிகள், மென்பொருள் சூழல்கள், மற்றும் ஸ்பிரெட்ஷீட்கள், பிரெசென்டேஷன்கள், மற்றும் ஆவணங்களை உள்ளடக்கிய தொழில்முறை பணிகளிலெல்லாம் மாடல் செயல்படும் முறையை மேம்படுத்துகிறது. இதன் விளைவாக, சிக்கலான உண்மையான வேலைகளை துல்லியமாக, திறம்பட, மற்றும் செயல்திறனுடன் செய்து முடிக்கும் ஒரு மாடல் கிடைக்கிறது—குறைந்த முன்-பின் உரையாடலுடன் நீங்கள் கேட்டதை வழங்குகிறது.

ChatGPT இல், GPT‑5.4 Thinking இப்போது அதன் சிந்தனைக்கான முன்கூட்டிய திட்டத்தை வழங்க முடியும், அதனால் அது செயல்படும் போதே நீங்கள் பதிலின் நடுவில் பாதையைச் சரிசெய்யலாம் அது செயல்படும் போதே, மேலும் கூடுதல் சுற்றுகள் இல்லாமல் உங்களுக்கு தேவையானதுடன் மேலும் நெருக்கமாக ஒத்துப்போகும் இறுதி வெளியீட்டை பெறலாம். GPT‑5.4 சிந்தனை டீப் வெப் ரிசர்ச் ஐயும் மேம்படுத்துகிறது, குறிப்பாக மிகச் சிறப்பான கேள்விகளுக்காக, மேலும் நீண்ட சிந்தனை தேவைப்படும் கேள்விகளுக்கான சூழலை சிறப்பாகப் பராமரிக்கிறது. ஒன்றாக, இந்த மேம்பாடுகள் வேகமாக வந்து, கையிலுள்ள பணிக்குத் தொடர்புடையதாகத் தொடரும் உயர்தரப் பதில்களை வழங்குகின்றன.

Codex மற்றும் API இல், GPT‑5.4 என்பது நாங்கள் வெளியிட்ட முதல் பொதுவான பயன்பாட்டுக்கான மாடல்; இதில் நேட்டிவ், முன்னணி கணினி பயன்பாட்டு திறன்கள் உள்ளன, இதனால் ஏஜென்ட்கள் கணினிகளை இயக்கவும், பயன்பாடுகள் முழுவதும் சிக்கலான பணிப்பாய்வுகளை நிறைவேற்றவும் முடிகிறது. இது 1M டோக்கன்கள் வரை உள்ள சூழல் ஆதரிக்கிறது, இதனால் ஏஜென்ட்கள் நீண்ட கால வரம்புகளுக்கு அப்பால் பணிகளை திட்டமிட, செயல்படுத்த, மற்றும் சரிபார்க்க முடியும். GPT‑5.4, tool search உடன், கருவிகள் மற்றும் கனெக்டர்கள் கொண்ட பெரிய எகோசிஸ்டம்கள் முழுவதும் மாடல்கள் செயல்படும் முறையையும் மேம்படுத்துகிறது; இதனால் ஏஜென்ட்கள் புத்திசாலித்தனத்தை இழக்காமல் சரியான கருவிகளை மேலும் செயல்திறனுடன் கண்டுபிடித்து பயன்படுத்த உதவுகிறது. இறுதியாக, GPT‑5.4 என்பது எங்களின் மிக டோக்கன் செயல்திறன் கொண்ட ரீஸனிங் மாடல் இதுவரை; GPT‑5.2 உடன் ஒப்பிடும்போது, பிரச்சினைகளைத் தீர்க்க குறிப்பிடத்தக்க அளவில் குறைவான டோக்கன்களைப் பயன்படுத்துகிறது—இதன் விளைவாக டோக்கன் பயன்பாடு குறைந்து வேகம் அதிகரிக்கிறது.

பொது ரீஸனிங், கோடிங், மற்றும் தொழில்முறை அறிவுப் பணிகளில் ஏற்பட்ட முன்னேற்றங்களுடன் சேர்ந்து, GPT‑5.4 அதிக நம்பகமான ஏஜென்ட்கள், வேகமான டெவலப்பர் வொர்க்ஃப்ளோக்கள், மற்றும் ChatGPT, API, மற்றும் Codex முழுவதும் உயர்தரமான வெளியீடுகளை சாத்தியமாக்குகிறது.

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (வெற்றி அல்லது சமநிலை)	83.0%	70.9%	70.9%
SWE-Bench Pro (Public)	57.7%	56.8%	55.6%
OSWorld சரிபாரிக்கப்பட்டது	75.0%	74.0%*	47.3%
Toolathlon	54.6%	51.9%	46.3%
BrowseComp	82.7%	77.3%	65.8%

*முன்பு 64.7% என அறிக்கையிடப்பட்டது. GPT‑5.3‑Codex அசல் படத் தீர்மானத்தைப் பாதுகாக்கும் புதிதாக அறிமுகப்படுத்தப்பட்ட API அளவுருவுடன் 74.0% ஐ அடைகிறது.

அறிவு வேலை

GPT‑5.2’s அடிப்படையில் உருவாக்கப்பட்டது பொதுவான ரீஸனிங் திறன்களுடன், GPT‑5.4 தொழில்முனைவோருக்கு முக்கியமான நிஜ உலக பணிகளில் மேலும் ஒருமைத்தன்மை கொண்ட மற்றும் மேம்பட்ட முடிவுகளை வழங்குகிறது.

On GDPval⁠, 44 தொழில்களில் நன்கு வரையறுக்கப்பட்ட அறிவுப் பணிகளை உருவாக்க ஏஜென்ட்களின் திறன்களை சோதிக்கும் இதில், GPT‑5.4 ஒரு புதிய ஸ்டேட்-ஆஃப்-தி-ஆர்ட்டை அடைகிறது; ஒப்பீடுகளில் 83.0% -இல் தொழில்துறை நிபுணர்களுக்கு இணையாக அல்லது அவர்களை மீறி செயல்படுகிறது, GPT‑5.2‑க்கு 71.0% என்பதுடன் ஒப்பிடுகையில்.

GDPval இல், மாடல்கள் U.S. GDP-க்கு பங்களிக்கும் முன்னணி 9 தொழில்துறைகளிலிருந்து 44 தொழில்களை உள்ளடக்கிய நன்கு வரையறுக்கப்பட்ட அறிவுப் பணிகளை முயற்சிக்கின்றன. டாஸ்க்கள் விற்பனை பிரெசென்டேஷன்கள், கணக்கியல் ஸ்பிரெட்ஷீட்கள், அவசர பராமரிப்பு அட்டவணைகள், உற்பத்தி வரைபடங்கள், அல்லது குறுகிய வீடியோக்கள் போன்ற உண்மையான வேலை பொருட்களை கோருகின்றன. GPT‑5.4 க்கு ரீஸனிங் முயற்சி xhigh ஆகவும் GPT‑5.2 க்கு heavy ஆகவும் அமைக்கப்பட்டது (ChatGPT இல் சற்று குறைந்த நிலை).

“GPT-5.4 நாங்கள் இதுவரை முயற்சித்த மிகச் சிறந்த மாடல். தொழில்முறை சேவைகள் பணிகளுக்கான மாடல் செயல்திறனை அளவிடும் எங்கள் APEX-Agents பெஞ்ச்மார்க்கில் இது இப்போது லீடர்போர்டின் உச்சியில் உள்ளது. இது ஸ்லைடு டெக்குகள், நிதி மாடல்கள், மற்றும் சட்ட பகுப்பாய்வு போன்ற நீண்டகால வழங்கல்களை உருவாக்குவதில் சிறந்து விளங்குகிறது; போட்டியாளர்களின் அதிநவீன மாடல்களை விடவும் வேகமாகவும் மற்றும் குறைந்த செலவிலும் இயங்கிக்கொண்டே, உச்ச செயல்திறனை வழங்குகிறது.”

— பிரெண்டன் ஃபூடி, தலைமை நிர்வாக அதிகாரி, Mercor

GPT‑5.4 இன் மேம்பாட்டில் நாங்கள் குறிப்பிட்ட கவனம் செலுத்தினோம். விரிதாள்கள், விளக்கக்காட்சிகள் மற்றும் ஆவணங்களை உருவாக்கவும் திருத்தவும் உள்ள திறன். ஜூனியர் முதலீட்டு வங்கி ஆய்வாளர் செய்யக்கூடிய ஸ்பிரெட்ஷீட் மாடலிங் பணிகளுக்கான எங்கள் உள் அளவுகோலில், GPT‑5.4 87.5% என்ற சராசரி ஸ்கோரை அடைகிறது; GPT‑5.2‑க்கு 68.4% உடன் ஒப்பிடுகையில். விளக்கக்காட்சி மதிப்பீட்டு ப்ராம்ப்ட்களின் ஒரு தொகுப்பில், சிறந்த கலைநுணுக்கம், அதிகமான காட்சி பல்வகைமை, மற்றும் இமேஜ் ஜெனரேஷனை மேலும் திறம்பட பயன்படுத்துதல் ஆகிய காரணங்களால், மனித மதிப்பீட்டாளர்கள் GPT‑5.2‑இன் விளக்கக்காட்சிகளை விட GPT‑5.4‑இன் விளக்கக்காட்சிகளை 68.0% நேரங்களில் விரும்பினர்.

GPT-5.2 மற்றும் GPT-5.4 இலிருந்து விரிதாள் வெளியீடுகளின் பக்கப்பக்கமாக எடுத்துக்காட்டு

ஆவணங்கள் ரீஸனிங் முயற்சி xhigh ஆக அமைக்கப்பட்ட நிலையில் உருவாக்கப்பட்டன

ChatGPT இல் GPT‑5.4 ஐ பயன்படுத்தி இந்த திறன்களை நீங்கள் முயற்சி செய்யலாம் Thinking அல்லது Pro. நீங்கள் Enterprise வாடிக்கையாளராக இருந்தால், இன்று அறிமுகப்படுத்தப்பட்ட, புதிதாக வெளியிடப்பட்ட எங்கள் Excel மற்றும் Google Sheets க்கான ChatGPT பிளக்கின்களைப்⁠(புதிய சாளரத்தில் திறக்கும்) பயன்படுத்த பரிந்துரைக்கிறோம். Codex மற்றும் API-யில் கிடைக்கும் எங்கள் ஸ்பிரெட்ஷீட்⁠(புதிய சாளரத்தில் திறக்கும்) மற்றும் பிரெசென்டேஷன் திறன்களையும்⁠(புதிய சாளரத்தில் திறக்கும்) நாங்கள் புதுப்பித்துள்ளோம்.

GPT‑5.4 ஐ உருவாக்க நிஜ உலகப் பணியில் சிறப்பாக செயல்பட, மாயத்தோற்றங்கள் மற்றும் தவறுகளை குறைப்பதில் எங்கள் முன்னேற்றத்தைத் தொடர்ந்து மேற்கொண்டோம். GPT‑5.4 எங்களின் இதுவரையிலான மிக உண்மைத்தன்மை கொண்ட மாடல்: பயனர்கள் உண்மைப் பிழைகளை குறித்த அடையாளம் நீக்கப்பட்ட ப்ராம்ப்ட் தொகுப்பில், GPT‑5.4’s தனிப்பட்ட கோரிக்கைகள் 33% அளவில் தவறானதாக இருக்கக் குறைவான வாய்ப்புள்ளது, மேலும் GPT‑5.2‑ஐ ஒப்பிடும்போது அதன் முழுப் பதில்களில் எந்தப் பிழைகளும் இருக்க 18% அளவில் குறைவான வாய்ப்புள்ளது.

“GPT-5.4 ஆவணங்கள் அதிகமாக உள்ள சட்டப் பணிக்கான புதிய தரநிலையை அமைக்கிறது. எங்களின் BigLaw Bench eval இல், இது 91% மதிப்பெண் பெற்றது. மற்ற மாடல்களுடன் ஒப்பிடுகையில், GPT-5.4 தற்போது சிக்கலான பரிவர்த்தனை பகுப்பாய்வை கட்டமைப்பதில், நீளமான ஒப்பந்தங்களெங்கும் துல்லியத்தை பராமரிப்பதில், மேலும் சட்ட நிபுணர்கள் தேவைப்படும் உயர்ந்த அளவிலான விவரங்களை வழங்குவதிலும் சிறந்ததாக உள்ளது.

— Niko Grupen, Harvey-இல் பயன்பாட்டு ஆராய்ச்சித் தலைவர்

கணினி பயன்பாடு மற்றும் காட்சி

GPT‑5.4 என்பது இயல்பாக கணினி பயன்பாட்டு திறன்கள் கொண்ட எங்களின் முதல் பொதுப் பயன்பாட்டு மாடல் ஆகும்; மேலும் இது டெவலப்பர்கள் மற்றும் ஏஜென்ட்கள் இருவருக்கும் ஒரு முக்கிய முன்னேற்றத்தை குறிக்கிறது. வலைத்தளங்கள் மற்றும் மென்பொருள் அமைப்புகள் முழுவதும் உண்மையான பணிகளை முடிக்கும் ஏஜென்ட்களை உருவாக்கும் டெவலப்பர்களுக்காக தற்போது கிடைக்கக்கூடிய சிறந்த மாடல் இதுவே.

பல்வேறு வகையான கணினி-பயன்பாட்டு பணிச்சுமைகளில் சிறந்த செயல்திறன் வழங்கும் வகையில் GPT‑5.4 ஐ நாங்கள் வடிவமைத்துள்ளோம். Playwright போன்ற நூலகங்கள் மூலம் கணினிகளை இயக்குவதற்கான கோடிங் எழுதுவதிலும், ஸ்கிரீன்ஷாட்களுக்கு பதிலாக மவுஸ் மற்றும் கீபோர்டு கட்டளைகளை வழங்குவதிலும் இது சிறந்து விளங்குகிறது. இதன் நடத்தை டெவலப்பர் மெசேஜ்கள் மூலம் கட்டுப்படுத்தக்கூடியது; அதாவது, குறிப்பிட்ட பயன்பாட்டு நிலைகளுக்கு ஏற்ப நடத்தை மாற்ற டெவலப்பர்கள் அதைச் சரிசெய்யலாம். டெவலப்பர்கள், தனிப்பயன் உறுதிப்படுத்தல் கொள்கைகளை குறிப்பிடுவதன் மூலம், வெவ்வேறு அளவிலான ஆபத்து சகிப்புத்தன்மைக்கு ஏற்ப மாடலின் பாதுகாப்பு நடத்தையை கூட கட்டமைக்கலாம்.

மாடலின் செயல்திறனும் நெகிழ்வுத்தன்மையும், வெவ்வேறு சூழல்களில் கணினி பயன்பாட்டைச் சோதிக்கும் பெஞ்ச்மார்க்கள் முழுவதும் பிரதிபலிக்கின்றன. OSWorld-Verified ல், ஸ்கிரீன்ஷாட்கள் மற்றும் கீபோர்டு/மவுஸ் செயல்கள் மூலம் ஒரு டெஸ்க்டாப் சூழலில் வழிசெலுத்தும் ஒரு மாடலின் திறனை அளக்கும் இதில், GPT‑5.4 ஒரு ஸ்டேட்-ஆஃப்-தி-ஆர்ட் 75.0% அடைகிறது வெற்றி விகிதம், GPT‑5.2’s ஐ விட மிக அதிகமாக 47.3%, மேலும் 72.4%¹இல் மனித செயல்திறனை மிஞ்சுகிறது.

உலாவி பயன்பாட்டை சோதிக்கும் WebArena-Verified இல், DOM- மற்றும் ஸ்கிரீன்ஷாட்-அடிப்படையிலான தொடர்பாடலை இரண்டையும் பயன்படுத்தும் போது GPT‑5.4 முன்னணியான 67.3% வெற்றி விகிதத்தை அடைகிறது; இது GPT‑5.2 இன் 65.4% உடன் ஒப்பிடுகையில். Online-Mind2Web இல், இது உலாவி பயன்பாட்டையும் சோதிக்கிறது, GPT‑5.4 ஸ்கிரீன்ஷாட்-அடிப்படையிலான கவனிப்புகளை மட்டும் பயன்படுத்தி 92.8% வெற்றிவிகிதத்தை அடைகிறது; இது 70.9% வெற்றிவிகிதத்தை அடையும் ChatGPT Atlas’s Agent Mode-ஐ விட மேம்பட்டதாகும்.

கருவி மகசூல் என்பது ஒரு உதவியாளர் கருவி பதில்களுக்காகக் காத்திருக்கும்போது ஏற்படும் விளைவு ஆகும். 3 கருவிகள் இணையாக அழைக்கப்பட்டு, அதைத் தொடர்ந்து 3 கருவிகள் இணையாக அழைக்கப்பட்டால், விளைச்சல்களின் எண்ணிக்கை 2 ஆக இருக்கும். கருவி அழைப்புகளை விட கருவி விளைச்சல்கள் தாமதத்தின் சிறந்த ப்ராக்ஸி ஆகும், ஏனெனில் அவை இணைப்படுத்தலின் நன்மைகளைப் பிரதிபலிக்கின்றன.

GPT‑5.4 உலாவி இடைமுகத்தின் ஸ்கிரீன்ஷாட்களை விளக்கி, ஒருங்கிணைப்பு-அடிப்படையிலான கிளிக்கிங் மூலம் UI கூறுகளுடன் தொடர்பு கொண்டு மின்னஞ்சல்களை அனுப்பவும் ஒரு காலண்டர் நிகழ்வை திட்டமிடவும் செய்கிறது.

GPT‑5.4‑இன் மேம்படுத்தப்பட்ட கணினி பயன்பாடு, மாடலின் மேம்படுத்தப்பட்ட பொது காட்சி உணர்திறன் திறன்களை அடிப்படையாகக் கொண்டது. MMMU-Pro இல், ஒரு மாடலின் காட்சி புரிதல் மற்றும் ரீஸனிங் சோதனையில், GPT‑5.4 கருவி பயன்பாடின்றி 81.2% வெற்றி விகிதத்தை அடைகிறது, இது GPT‑5.2‑இன் 79.5%. மேம்படுத்தப்பட்ட காட்சி உணர்திறன் மேலும் சிறந்த ஆவண பகுப்பாய்வு திறன்களாகவும் மாறுகிறது. OmniDocBench-இல், ரீஸனிங் முயற்சியின்றி GPT‑5.4 சராசரி பிழை (மாடல் கணிப்பு மற்றும் ground truth இடையிலான normalized edit distance மூலம் அளவிடப்பட்டது) 0.109 என்பதை அடைகிறது; இது GPT‑5.2‑இன் 0.140 இலிருந்து மேம்பட்டது.

MMMUPro ரீஸனிங் முயற்சி xhigh ஆக அமைக்கப்பட்ட நிலையில் இயக்கப்பட்டது. குறைந்த செலவு, குறைந்த தாமத செயல்திறனை பிரதிபலிக்க, OmniDocBench ரீஸனிங் முயற்சி none என அமைக்கப்பட்ட நிலையில் இயக்கப்பட்டது.

முழு துல்லியத்தன்மை முக்கியமான அடர்த்தியான, உயர்-தீர்மானப் படங்களுக்கான காட்சி புரிதலையும் நாங்கள் மேம்படுத்தி வருகிறோம். GPT‑5.4 முதல், மொத்தம் 10.24M பிக்சல்கள் அல்லது 6000-pixel அதிகபட்ச பரிமாணம் (இவற்றில் எது குறைவோ) வரை முழுத் துல்லியமான உணர்திறனை ஆதரிக்கும் original பட input detail⁠(புதிய சாளரத்தில் திறக்கும்) நிலையை நாங்கள் அறிமுகப்படுத்துகிறோம்; high பட input detail நிலை இப்போது மொத்தம் 2.56M பிக்சல்கள் அல்லது 2048-pixel அதிகபட்ச பரிமாணம் (இவற்றில் எது குறைவோ) வரை ஆதரிக்கிறது. API பயனர்களுடன் ஆரம்பகட்ட சோதனைகளில், original அல்லது high detail பயன்படுத்தும்போது localization திறன், படப் புரிதல், மற்றும் click துல்லியம் ஆகியவற்றில் வலுவான முன்னேற்றங்களை நாங்கள் கவனித்தோம்.

“~30K HOA மற்றும் சொத்து வரி போர்டல்களில் கணினி பயன்பாட்டு செயல்திறனை அளவிடும் எங்கள் evals-இல், முந்தைய CUA மாடல்களுடன் ~73–79% இருந்ததை ஒப்பிடும்போது, GPT-5.4 முதல் முயற்சியிலேயே 95% வெற்றி விகிதத்தையும், மூன்று முயற்சிகளுக்குள் 100% வெற்றி விகிதத்தையும் அடைந்தது. மேலும், இது ~3x வேகமாக செஷன்களை முடித்ததுடன், ~70% குறைவான டோக்கன்களைப் பயன்படுத்தி, அளவிலான நம்பகத்தன்மை மற்றும் செலவு செயல்திறனை கணிசமாக மேம்படுத்தியது."

— Dod Fraser, Mainstay நிறுவனத்தின் தலைமை நிர்வாக அதிகாரி

API-யில், டெவலப்பர்கள் புதுப்பிக்கப்பட்ட computer கருவியை பயன்படுத்தி இந்த திறன்களை அணுகலாம். பரிந்துரைக்கப்படும் சிறந்த நடைமுறைகளுக்காக எங்கள் புதுப்பிக்கப்பட்ட ஆவணங்களை⁠(புதிய சாளரத்தில் திறக்கும்) பார்க்கவும்.

குறியீடாக்கம்

GPT‑5.4, GPT‑5.3‑Codex இன் கோடிங் பலங்களை முன்னணி அறிவுப் பணி மற்றும் கணினி பயன்பாட்டுத் திறன்களுடன் இணைக்கிறது; இவை, மாடல் கருவிகளைப் பயன்படுத்தி, மீண்டும் மீண்டும் முயன்று, குறைந்த கைமுறை தலையீட்டுடன் பணியை மேலும் முன்னெடுக்க முடியும் நீண்டகாலப் பணிகளில் மிக முக்கியமாகும். ரீஸனிங் முயற்சிகள் முழுவதிலும் குறைந்த லேட்டென்சியுடன் இருக்கும் போதே, SWE-Bench Pro இல் GPT‑5.3‑Codex ஐ ஒத்ததாக அல்லது அதைவிட சிறப்பாக செயல்படுகிறது.

எங்கள் மாடல்கள் புரொடக்ஷன் நடத்தையைப் பார்த்து, இதை ஆஃப்லைனில் சிமுலேட் செய்து, தாமதத்தை நாங்கள் மதிப்பீடு செய்கிறோம். தாமத மதிப்பீடு கருவி அழைப்பு கால அளவு (குறியீடு செயல்படுத்தும் நேரம்), மாதிரி எடுக்கப்பட்ட டோக்கன்கள் மற்றும் உள்ளீட்டு டோக்கன்களை கணக்கில் எடுத்துக்கொள்கிறது. நிஜ உலக தாமதம் கணிசமாக மாறலாம், மேலும் எங்கள் சிமுலேஷனில் பிடிக்கப்படாத பல காரணிகளின் மீது அது சார்ந்துள்ளது. ரீஸனிங் முயற்சிகள் none இலிருந்து xhigh வரை உயர்த்தப்பட்டன.

Codex -ல் /ஃபாஸ்ட் பயன்முறையை மாற்றும்போது, GPT‑5.4 உடன் 1.5 மடங்கு வேகமான டோக்கன் வேகத்தை வழங்குகிறது. அதே மாடலும் அதே நுண்ணறிவும் தான், ஆனால் இன்னும் வேகமாக. அதாவது, பயனர்கள் செயல்பாட்டில் இருக்கும்போதே குறியீட்டுப் பணிகள், மீண்டும் மீண்டும் செயல்படுத்தல், மற்றும் பிழை திருத்தம் ஆகியவற்றை மேற்கொண்டு செல்ல முடியும். டெவலப்பர்கள் API மூலம் பிரையாரிட்டி பிராசசிங்⁠(புதிய சாளரத்தில் திறக்கும்) ஐப் பயன்படுத்தி அதே வேகமான வேகங்களில் GPT‑5.4 ஐ அணுகலாம்.

மதிப்பீடு மற்றும் உள் சோதனைகளில், GPT‑5.4 சிக்கலான ஃப்ரண்ட்-எண்ட் பணிகளில் சிறந்து விளங்குகிறது; நாங்கள் முன்பு வெளியிட்ட எந்த மாடல்களையும் விட குறிப்பிடத்தக்க அளவில் அதிக அழகியல் மற்றும் அதிக செயல்பாட்டுத் திறன் கொண்ட முடிவுகளை வழங்குகிறது.

மாடலின் மேம்படுத்தப்பட்ட கணினி பயன்பாடு மற்றும் குறியீட்டு திறன்கள் இணைந்து செயல்படுவதை ஒரு டெமோவாக காட்டுவதற்காக, “Playwright (Interactive)⁠(புதிய சாளரத்தில் திறக்கும்)” எனப்படும் ஒரு பரிசோதனை Codex திறனையும் நாங்கள் வெளியிடுகிறோம். இது Codex-க்கு வலை மற்றும் Electron செயலிகளை காட்சிப்பூர்வமாக பிழைத்திருத்த அனுமதிக்கிறது; அது உருவாக்கிக்கொண்டிருக்கும் போதே, அது உருவாக்கும் செயலியையே சோதிக்கவும் இதைப் பயன்படுத்தலாம்.

GPT‑5.4 மூலம் உருவாக்கப்பட்ட தீம் பார்க் சிமுலேஷன் கேம்; ஒரே ஒரு லேசாக விவரிக்கப்பட்ட ப்ராம்ப்ட்டிலிருந்து உருவாக்கப்பட்டது, உலாவி பிளேடெஸ்டிங்கிற்காக பிளேரைட்இன்டர்ஐடிவ்-ஐவும், ஐசோமெட்ரிக் அசெட் செட்டிற்காக இமேஜ் ஜெனரேஷன் பயன்படுத்தி. இந்த உருவகப்படுத்துதலில் ஓடு அடிப்படையிலான பாதை இடம், சவாரி மற்றும் காட்சியமைப்பு கட்டுமானம், விருந்தினர் பாதை கண்டறிதல், வரிசைப்படுத்துதல் மற்றும் சவாரி சுழற்சிகள் ஆகியவை அடங்கும், அதே நேரத்தில் பணம், விருந்தினர் எண்ணிக்கை, மகிழ்ச்சி, தூய்மை மற்றும் மதிப்பீடு உயர்வு அல்லது வீழ்ச்சி போன்ற பூங்கா அளவீடுகள் தளவமைப்பு எவ்வாறு செயல்படுகிறது மற்றும் விருந்தினர்கள் அதற்கு எவ்வாறு பிரதிபலிக்கிறார்கள் என்பதைப் பொறுத்தது. Playwright ஆனது, பூங்காவை கட்டி விரிவுபடுத்துதல், பாதைகள் மற்றும் ஈர்ப்புகளை அமைத்தல் மற்றும் அகற்றுதல், கேமரா வழிசெலுத்தலைச் சரிபார்த்தல், மேலும் பல சுற்று விளையாட்டுகளின் போது விருந்தினர்கள், வரிசைகள், ரைடு நிலைகள், மற்றும் UI அளவுகோல்கள் சரியாக புதுப்பிக்கப்பட்டனவா என்பதை உறுதிப்படுத்துதல் ஆகியவற்றின் மூலம் உலாவி பிளேடெஸ்ட்களை தானியக்கமாக்க பயன்படுத்தப்பட்டது.

ப்ராம்ப்ட்: $playwright-interactive மற்றும் $imagegen ஐ பயன்படுத்துங்கள். உலாவியில் நான் உருவாக்கவும் வழிசெலுத்தவும் முடியும் வகையில் ஒரு இன்டராக்டிவ் ஐசோமெட்ரிக் தீம் பார்க் சிமுலேஷன் கேமை உருவாக்குங்கள். மொத்த காட்சி நோக்கத்தை நிறுவவும், ரைட்கள், பாதைகள், நிலப்பரப்பு, மரங்கள், நீர், உணவு ஸ்டால்கள், அலங்காரங்கள், கட்டிடங்கள், ஐகான்கள், மற்றும் UI விளக்கப்படங்கள் உள்ளிட்ட கேமின் அசெட்களை உருவாக்கவும் imagegen ஐ பயன்படுத்துங்கள். உலகம் ஒருங்கிணைந்ததாகவும், பளிச்சென்றதாகவும், காட்சியளவில் செழுமையாகவும் உணரப்பட வேண்டும்; ஐசோமெட்ரிக் பார்வையில் நன்றாக வேலை செய்யும் பிரீமியம் ஆர்ட் டைரெக்ஷனுடன். நான் பாதைகளை வைக்கவும் அகற்றவும், ஈர்ப்புகளைச் சேர்க்கவும், காட்சிப் பொருட்களை இடமமைக்கவும், விருந்தினர் செயல்பாடு, ரைடு நிலை, மற்றும் பார்க் வளர்ச்சி ஆகியவற்றை கண்காணித்தபடி பார்க் முழுவதும் மென்மையாக நகரவும் அனுமதியுங்கள். நம்பத்தகுந்த விருந்தினர் இயக்கம், பணம், சுத்தம், வரிசையில் நிற்குதல், மற்றும் மகிழ்ச்சி போன்ற எளிய பார்க் மேலாண்மை அமைப்புகளைச் சேர்க்கவும், மேலும் அனுபவம் ஒரு கரடுமுரடான புரோட்டோடைப் போல அல்லாமல் விளையாட்டுத்தனமாகவும், தெளிவாகவும், முழுமையாகவும் உணரப்பட வேண்டும். யதார்த்தத்தை விட கவர்ச்சி, வாசிப்புத் தெளிவு, மற்றும் வலுவான கேம் ஃபீல் ஆகியவற்றுக்கு முன்னுரிமை கொடுங்கள்.

ப்ளே டெஸ்டிங் செய்யும்போது, பல சுற்றுகள் விளையாட்டின் மூலம் ஒரு பூங்காவை கட்டி விரிவுபடுத்துவதை உறுதிசெய்யவும், இடமமைப்பு மற்றும் வழிசெலுத்தல் சீராக செயல்படுகிறதா என்பதைச் சரிபார்க்கவும், விருந்தினர்கள் பூங்கா அமைப்பு மற்றும் ஈர்ப்புகளுக்கு எப்படி எதிர்வினையளிக்கிறார்கள் என்பதை உறுதிப்படுத்தவும், மேலும் காட்சிகள், UI, மற்றும் தொடர்புகள் நிலையானதாகவும் ஒருமைப்பாட்டுடனும் உணரப்படுவதை உறுதிசெய்யவும்.

“எங்கள் பொறியாளர்கள் GPT-5.4 ஐ கண்டறிகிறார்கள் முந்தைய மாடல்களை விட இயல்பாகவும் உறுதியானதாகவும் உள்ளது. இது தெளிவற்ற சிக்கல்களைத் தீர்க்கிறது, எந்த சந்தேகமும் இல்லாமல் செயல்படுகிறது, மேலும் விஷயங்களை நகர்த்துவதற்கு இணையான வேலையைச் செய்வதில் இது முனைப்புடன் செயல்படுகிறது.

— Lee Robinson, Cursor-இல் டெவலப்பர் கல்வி துணை தலைவர்

கருவி பயன்பாடு

GPT‑5.4 உடன், வெளியுறு கருவிகளுடன் மாடல்கள் செயல்படும் முறையை நாங்கள் குறிப்பிடத்தக்க அளவில் மேம்படுத்தியுள்ளோம். ஏஜென்ட்கள் இப்போது பெரிய டூல் ஈகோசிஸ்டம்களுக்குள் செயல்படவும், சரியான டூல்களை மேலும் நம்பகமாகத் தேர்வு செய்யவும், மேலும் குறைந்த செலவும் லேட்டென்சியுடனும் மல்டி-ஸ்டெப் வேலைப்போக்குகளை நிறைவேற்றவும் முடியும்.

கருவி தேடல்

APIயில், GPT‑5.4 கருவி தேடல்⁠(புதிய சாளரத்தில் திறக்கும்) ஐ அறிமுகப்படுத்துகிறது, இது பல கருவிகள் வழங்கப்பட்டால் மாடல்கள் திறம்பட வேலை செய்ய அனுமதிக்கிறது.

முன்னதாக, ஒரு மாடலுக்கு டூல்ஸ் வழங்கப்பட்டபோது, அனைத்து டூல் வரையறைகளும் ப்ராம்ப்ட்டில் முன்கூட்டியே சேர்க்கப்பட்டிருந்தன. பல கருவிகள் உள்ள அமைப்புகளுக்கு, இது ஒவ்வொரு கோரிக்கைக்கும் ஆயிரக்கணக்கான அல்லது பத்தாயிரக்கணக்கான டோக்கன்களைச் சேர்க்கக்கூடும்; இதனால் செலவு அதிகரித்து, பதில்கள் மெதுவாகி, மாடல் ஒருபோதும் பயன்படுத்தாமல் இருக்கக்கூடிய தகவல்களால் சூழல் நிரம்பிவிடும்.

கருவி தேடலுடன், GPT‑5.4 அதற்கு பதிலாக கிடைக்கக்கூடிய கருவிகளின் இலகுவான பட்டியலையும் கருவி தேடல் திறனையும் பெறுகிறது. மாடல் ஒரு கருவியைப் பயன்படுத்த வேண்டியிருக்கும் போது, அந்த கருவியின் வரையறையைத் தேடிப் பார்த்து, அந்த நேரத்தில் அதை உரையாடலுடன் இணைக்கலாம்.

இந்த அணுகுமுறை கருவி-அதிகமான பணிப்பாய்வுகளுக்கு தேவையான டோக்கன்களின் எண்ணிக்கையை கணிசமாகக் குறைத்து, தற்காலிக சேமிப்பை பாதுகாக்கிறது; இதனால் கோரிக்கைகள் மேலும் வேகமாகவும் குறைந்த செலவிலும் அமைகின்றன. இது ஏஜென்ட்கள் மிகப் பெரிய கருவி சூழலமைப்புகளுடன் நம்பகமாக வேலை செய்யவும் உதவுகிறது. பத்தாயிரக்கணக்கான கருவி வரையறை டோக்கன்களை கொண்டிருக்கக்கூடிய MCP சர்வர்களுக்கு, திறன் மேம்பாட்டால் கிடைக்கும் பலன்கள் கணிசமாக இருக்கலாம்.

திறன் மேம்பாடுகளை காட்டுவதற்காக, Scale’s MCP Atlas⁠(புதிய சாளரத்தில் திறக்கும்) பெஞ்ச்மார்க்கிலிருந்து 250 பணிகளை, அனைத்து 36 MCP சர்வர்களும் இயக்கப்பட்ட நிலையில், இரண்டு முறைகளில் மதிப்பீடு செய்தோம்: (1) ஒவ்வொரு MCP செயல்பாட்டையும் மாடல் சூழலில் நேரடியாக வெளிப்படுத்துவது, மற்றும் (2) அனைத்து MCP சர்வர்களையும் கருவி தேடலின் பின்னால் வைப்பது. கருவி தேடல் கட்டமைப்பு, அதே துல்லியத்தைப் பெறும் நிலையில் மொத்த டோக்கன் பயன்பாட்டை 47% குறைத்தது.

உதாரண டோக்கன் எண்ணிக்கைகள் MCP-Atlas பொது தரவுத்தொகுப்பில் உள்ள 250 பணிகளின் சராசரியிலிருந்து பெறப்பட்டவை.

ஏஜென்டிக் கருவி அழைப்பு

GPT‑5.4 மேலும் tool calling ஐ மேம்படுத்துகிறது; குறிப்பாக API-யில், ரீஸனிங் செய்யும் போது கருவிகளை எப்போது மற்றும் எவ்வாறு பயன்படுத்த வேண்டும் என்பதை முடிவு செய்வதில் இதை மேலும் துல்லியமாகவும் திறமையாகவும் ஆக்குகிறது. GPT‑5.2 உடன் ஒப்பிடுகையில், இது Toolathlon இல் குறைந்த திருப்பங்களில் அதிக துல்லியத்தை அடைகிறது; இது AI ஏஜன்ட்கள் நிஜ உலக கருவிகள் மற்றும் APIகளைப் பயன்படுத்தி பல-படி பணிகளை முடிக்க எவ்வளவு நன்றாக முடியும் என்பதை சோதிக்கும் ஒரு அளவுகோல். உதாரணமாக, ஒரு ஏஜென்ட் மின்னஞ்சல்களைப் படிக்க, பணிக்கான இணைப்புகளைப் பிரித்தெடுக்க, அவற்றைப் பதிவேற்ற, அவற்றுக்கு மதிப்பெண் அளிக்க மற்றும் முடிவுகளை ஒரு விரிதாளில் பதிவு செய்ய வேண்டும்.

லேட்டன்சி-சென்ஸிடிவ் பயன்பாட்டு நிகழ்வுகளுக்காக ரீஸனிங் முயற்சி எதுவும் இல்லாமல் இருப்பது விரும்பப்படும் போது, GPT‑5.4 அதன் முன்னோடிகளை விட மேலும் மேம்படுத்துகிறது.

In τ2-bench⁠⁠(புதிய சாளரத்தில் திறக்கும்) இல், ஒரு மாடல் வாடிக்கையாளர் சேவை பணியை நிறைவேற்ற கருவிகளைப் பயன்படுத்த வேண்டும்; அங்கு தொடர்பு கொள்ளக்கூடிய மற்றும் உலக நிலைமையில் நடவடிக்கைகள் எடுக்கக்கூடிய ஒரு உருவக பயனர் இருக்கலாம். ரீஸனிங் முயற்சி None ஆக அமைக்கப்பட்டது.

மேம்படுத்தப்பட்ட வெப் தேடல்

GPT‑5.4 ஏஜென்ட் இணைய தேடலில் சிறந்தது. BrowseComp இல், AI ஏஜென்ட்கள் கடினமாகக் கண்டுபிடிக்கக்கூடிய தகவலைத் தேட வலைத்தளத்தை தொடர்ந்து உலாவுவதில் எவ்வளவு நன்றாக செயல்படுகின்றன என்பதற்கான ஒரு அளவீட்டில், GPT‑5.4, GPT‑5.2 ஐ விட 17%_abs உயர்ந்து முன்னேறுகிறது, மற்றும் GPT‑5.4 Pro 89.3% என்ற புதிய கலை நிலையை அமைக்கிறது.

நடைமுறையில், இதன் பொருள் GPT‑5.4 Thinking என்பது இணையத்தில் உள்ள பல மூலங்களிலிருந்து தகவல்களை ஒன்றிணைக்க வேண்டிய கேள்விகளுக்கு பதிலளிப்பதில் மேலும் வலுவாக உள்ளது. பல சுற்றுகளாக தொடர்ந்து தேடலை மேற்கொண்டு மிகத் தொடர்புடைய ஆதாரங்களை அடையாளம் காணவும், குறிப்பாக “needle-in-a-haystack” வகை கேள்விகளுக்கு, அவற்றைத் தெளிவான, நன்றாக காரணமூட்டப்பட்ட பதிலாக ஒருங்கிணைக்கவும் இது முடியும்.

BrowseComp இல், செயல்திறனின் நியாயமான அளவீட்டை உறுதி செய்யவும், மாசுபாட்டைத் தடுக்கவும், மதிப்பீட்டிலிருந்து பெஞ்ச்மார்க் பதில்களை கொண்டுள்ள வலைத்தளங்களை விலக்கும் ஒரு தேடல் தடைப்பட்டியலை நாங்கள் பயன்படுத்தினோம். GPT‑5.4, GPT‑5.2 விட பின்னர் தேதியில் அளவிடப்பட்டது. எனவே மதிப்பெண்கள் மாடல், எங்கள் தேடல் அமைப்பு, மற்றும் இணையத்தின் நிலை ஆகியவற்றில் ஏற்படும் மாற்றங்களை பிரதிபலிக்கின்றன. GPT‑5.4 ஒரு நீளமான, புதுப்பிக்கப்பட்ட தடைப் பட்டியலுடன் சோதிக்கப்பட்டது. மாடல்கள் ChatGPT தேடல் கருவியைப் பயன்படுத்துகின்றன, இது API தேடலிலிருந்து சிறிய வேறுபாடுகளை கொண்டிருக்கலாம்.

“GPT-5.4 xhigh பல-படிக் கருவி பயன்பாட்டிற்கான புதிய கலை நிலை. Zapier தொழில்துறையில் மிகக் கடுமையான கருவி பயன்பாட்டு பெஞ்ச்மார்க்களில் சிலவற்றை நடத்துகிறது; நூற்றுக்கணக்கான மேம்பட்ட நிஜ உலக வேலைப்பாய்வுகள் முழுவதும் மாடல்களைச் சோதிக்கிறது. GPT-5.4 முந்தைய மாடல்கள் கைவிட்ட இடத்தில் பணியை முடித்தது - இன்றுவரை மிக விடாமுயற்சியான மாடல்.”

— Wade, Zapier நிறுவனத்தின் தலைமை நிர்வாக அதிகாரி

வழிநடத்தும் திறன்

Codex தனது வேலை தொடங்கும் போது தனது அணுகுமுறையை எவ்வாறு விளக்குகிறதோ அதேபோல், GPT‑5.4 தனது செயல்பாட்டை விளக்குகிறது ChatGPT இல் சிந்தனை இப்போது நீளமான மற்றும் சிக்கலான கேள்விகளுக்கு முன்குறிப்புடன் தனது பணியை விளக்கமாகக் காட்டும். நீங்கள் வழிமுறைகளையும் சேர்க்கலாம் அல்லது பதிலின் நடுவில் அதன் திசையை மாற்றலாம். இது, மீண்டும் தொடங்காமல் அல்லது பல கூடுதல் முயற்சிகள் தேவையில்லாமல், நீங்கள் விரும்பும் துல்லியமான முடிவை நோக்கி மாடலை வழிநடத்த எளிதாக்குகிறது. இந்த அம்சம் தற்போது chatgpt.com⁠(புதிய சாளரத்தில் திறக்கும்) மற்றும் ஆண்ட்ராய்டு செயலியில் கிடைக்கிறது, iOS செயலிக்கு விரைவில் கிடைக்கும்.

மாடல், உரையாடலில் முந்தைய படிகளின் மீது வலுவான விழிப்புணர்வை பராமரித்தபடியே, கடினமான பணிகளில் மேலும் நீண்ட நேரம் சிந்திக்கவும் முடியும். இது நீண்ட பணிப்பாய்வுகளையும் மேலும் சிக்கலான ப்ராம்ப்ட்களையும் கையாள அனுமதிக்கிறது; அதே நேரத்தில் முழுவதும் பதில்கள் ஒற்றுமையாகவும் தொடர்புடையதாகவும் இருக்கச் செய்கிறது.

இந்த வீடியோ விளக்க நோக்கங்களுக்காக வேகமாக்கப்பட்டது.

பாதுகாப்பு

கடந்த சில மாதங்களில், GPT‑5.3‑Codex உடன் நாங்கள் அறிமுகப்படுத்திய பாதுகாப்பு நடவடிக்கைகளை தொடர்ந்து மேம்படுத்தியுள்ளோம்; அதே நேரத்தில் GPT‑5.4 ஐ வெளியீட்டிற்காக தயாரித்து வருகிறோம். GPT‑5.3‑Codex போல, பிரிபேர்ட்நெஸ் ஃப்ரேம்வொர்க்-இல், GPT‑5.4 ஐ உயர் சைபர் திறன் கொண்டதாக நாங்கள் கருதுகிறோம், மேலும் சிஸ்டம் கார்ட்⁠-இல் ஆவணப்படுத்தப்பட்டுள்ள தொடர்புடைய பாதுகாப்புகளுடன் அதை நாங்கள் பயன்படுத்துகிறோம். இவற்றில் விரிவாக்கப்பட்ட சைபர் பாதுகாப்பு ஸ்டாக், கண்காணிப்பு அமைப்புகள், நம்பகமான அணுகல் கட்டுப்பாடுகள், மேலும் ஜீரோ டேட்டா ரிடென்ஷன் (ZDR) மேற்பரப்புகளில் உள்ள வாடிக்கையாளர்களுக்கான அதிக ஆபத்துள்ள கோரிக்கைகளுக்கு அசிங்க்ரோனஸ் தடை செய்தல் ஆகியவை அடங்கும்; இதனுடன், பரந்த பாதுகாப்பு சூழலமைப்பில் தொடர்ச்சியான முதலீடும் இடம்பெறுகிறது.

சைபர் பாதுகாப்பு திறன்கள் இயல்பாகவே இரட்டை பயன்பாட்டுக்குரியவை என்பதால், எங்கள் கொள்கைகள் மற்றும் வகைப்படுத்திகளை தொடர்ந்து சரிசெய்து வரும் போது, செயல்படுத்துவதில் முன்னெச்சரிக்கை அணுகுமுறையை நாங்கள் பின்பற்றுகிறோம். ZDR surfaces இல் உள்ள சில வாடிக்கையாளர்களுக்கு, கோரிக்கை-நிலை தடை எங்கள் சைபர் ஆபத்து குறைப்பு அடுக்கின் ஒரு பகுதியாகவே உள்ளது; வகைப்படுத்திகள் இன்னும் மேம்பட்டு வருவதால், இந்த பாதுகாப்பு ஏற்பாடுகளை மேம்படுத்துவதைத் தொடர்ந்து மேற்கொள்ளும் போது சில தவறான நேர்மறைகள் ஏற்படலாம். இந்த புதுப்பிப்புகள், தவறாகப் பயன்படுத்துவதற்கு எதிரான வலுவான பாதுகாப்புகளைப் பேணிக்கொண்டே, நடைமுறையில் பாதுகாப்பு நடவடிக்கைகள் செயல்படும் முறையை மேம்படுத்துவதை நோக்கமாகக் கொண்டுள்ளன; இதில் தேவையற்ற மறுப்புகள் மற்றும் அளவுக்கு மீறிய எச்சரிக்கைகள் கொண்ட பதில்களை குறைப்பதும் அடங்கும்.

நாங்கள் செயின்-ஆஃப்-தாட் (CoT) கண்காணிப்புத்திறனைப் பற்றிய எங்கள் பாதுகாப்பு ஆராய்ச்சியைத் தொடர்ந்துள்ளோம், மாடல்கள் எவ்வாறு பகுத்தறிவு செய்கின்றன என்பதை நன்கு புரிந்துகொள்வதற்கும், சாத்தியமான தவறான நடத்தையைக் கண்டறிய உதவுவதற்கும். இந்தப் பணியின் ஒரு பகுதியாக, கண்காணிப்பைத் தவிர்க்க மாடல்கள் தங்களின் ரீஸனிங்கை திட்டமிட்டு மறைக்க முடியுமா என்பதை அளவிடும் புதிய ஓபன்-சோர்ஸ் மதிப்பீடான CoT controllability⁠, ஐ நாங்கள் அறிமுகப்படுத்துகிறோம். நாங்கள் கண்டறிவது என்னவென்றால் GPT‑5.4 Thinking-ன் ரீஸனிங்-ஐ கட்டுப்படுத்தும் திறன் குறைவாக உள்ளது, இது பாதுகாப்புக்கான ஒரு நேர்மறை பண்பாகும்; இதன் மூலம் அந்த மாடலுக்கு தனது ரீஸனிங்-ஐ மறைக்கும் திறன் இல்லை என்பதையும், ரீஸனிங் கண்காணிப்பு இன்னும் ஒரு பயனுள்ள பாதுகாப்பு கருவியாகவே உள்ளது என்பதையும் சுட்டிக்காட்டுகிறது.

கிடைக்கும் நிலை மற்றும் விலை விவரங்கள்

GPT‑5.4 இன்று ChatGPT மற்றும் Codex முழுவதும் படிப்படியாக வெளியிடப்படுகிறது. API இல், GPT‑5.4 இப்போது gpt-5.4 எனக் கிடைக்கிறது. GPT‑5.4 Pro என்பது API இல் gpt-5.4-pro எனவும் கிடைக்கிறது மிகவும் சிக்கலான பணிகளில் அதிகபட்ச செயல்திறன் தேவைப்படும் டெவலப்பர்களுக்காக.

ChatGPT இல், GPT‑5.4 Thinking இன்று முதல் ChatGPT Plus, Team, மற்றும் Pro பயனர்களுக்கு கிடைக்கிறது, GPT‑5.2 ஐ மாற்றி Thinking. GPT‑5.2 Thinking கட்டண பயனர்களுக்காக மாடல் பிக்கரில் Legacy Models பிரிவின் கீழ் மூன்று மாதங்களுக்கு கிடைக்கக்கூடியதாகவே இருக்கும், அதன் பிறகு அது June 5, 2026 அன்று நிறுத்தப்படும். Enterprise மற்றும் Edu திட்டங்களில் உள்ளவர்கள் நிர்வாகி அமைப்புகள் மூலம் முன்கூட்டிய அணுகலை இயக்கலாம். GPT‑5.4 Pro மற்றும் Enterprise திட்டங்களில் கிடைக்கிறது. சூழல் சாளரங்கள்⁠(புதிய சாளரத்தில் திறக்கும்) ChatGPT இல் GPT‑5.4 க்காக Thinking, GPT‑5.2 Thinking-இலிருந்து மாற்றமின்றி இருக்கும்.

GPT‑5.4 என்பது GPT‑5.3‑codex இன் அதிநவீன கோடிங் திறன்களை ஒருங்கிணைக்கும் எங்களின் முதல் மெயின்லைன் ரீஸனிங் மாடல் ஆகும், மேலும் அது ChatGPT, API மற்றும் Codex முழுவதும் வெளியிடப்படுகிறது. அந்த முன்னேற்றத்தை பிரதிபலிக்கவும், Codex ஐப் பயன்படுத்தும்போது மாடல்களுக்கிடையிலான தேர்வை எளிமைப்படுத்தவும், இதை GPT‑5.4 என்று அழைக்கிறோம். காலப்போக்கில், எங்கள் Instant மாடல்கள் மற்றும் Thinking மாடல்கள் வெவ்வேறு வேகங்களில் வளர்ச்சி அடையும் என்று நீங்கள் எதிர்பார்க்கலாம்.

Codex இல் உள்ள GPT‑5.4, 1M சூழல் சாளரத்திற்கு பரிசோதனை ஆதரவை உள்ளடக்கியுள்ளது. டெவலப்பர்கள் model_context_window மற்றும் model_auto_compact_token_limit உள்ளமைப்பதன் மூலம் இதை முயற்சிக்கலாம். நிலையான 272K சூழல் சாளரத்தை மீறும் கோரிக்கைகள், சாதாரண விகிதத்தின் 2x அளவில் பயன்பாட்டு வரம்புகளுக்கு எதிராகக் கணக்கிடப்படும்.

API இல், GPT‑5.4‑க்கு GPT‑5.2‑ஐ விட ஒவ்வொரு டோக்கனுக்கும் அதிக விலை நிர்ணயிக்கப்பட்டுள்ளது; இது அதன் மேம்பட்ட திறன்களை பிரதிபலிக்கிறது, அதே நேரத்தில் அதன் அதிக டோக்கன் திறன் பல பணிகளுக்கு தேவையான மொத்த டோக்கன்களின் எண்ணிக்கையை குறைக்க உதவுகிறது. பேட்ச் மற்றும் ஃப்ளெக்ஸ் பிரைசிங், ஸ்டாண்டர்ட் API விகிதத்தின் பாதி கட்டணத்தில் கிடைக்கிறது; அதே நேரத்தில் பிரையாரிட்டி பிராசசிங், ஸ்டாண்டர்ட் API விகிதத்தின் இரட்டிப்பு கட்டணத்தில் கிடைக்கிறது.

API மாடல்	உள்ளீடு விலை	தற்காலிக சேமிப்பு உள்ளீடு விலை	வெளியீடு விலை
gpt-5.2	$1.75 / M டோக்கன்கள்	$0.175 / M டோக்கன்கள்	$14 / M டோக்கன்கள்
gpt-5.4	$2.50 / M டோக்கன்கள்	$0.25 / M டோக்கன்கள்	$15 / M டோக்கன்கள்
gpt-5.2-pro	$21 / M டோக்கன்கள்	-	$168 / M டோக்கன்கள்
gpt-5.4-pro	$30 / M டோக்கன்கள்	-	$180 / M டோக்கன்கள்

மதிப்பீடுகள்

புரொஃபெஷனல்

எவல்	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83.0%	82.0%	70.9%	70.9%	74.1%
FinanceAgent v1.1	56.0%	61.5%	54.0%	59.5%	—
முதலீட்டு வங்கி மாதிரியாக்கப் பணிகள் (உள்)	87.3%	83.6%	79.3%	68.4%	71.7%
OfficeQA	68.1%	—	65.1%	63.1%	—

கோடிங்

எவல்	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (Public)	57.7%	—	56.8%	55.6%	—
டெர்மினல்-பெஞ்ச் 2.0	75.1%	—	77.3%	62.2%	—

கணினி பயன்பாடு மற்றும் காட்சி

எவல்	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld சரிபாரிக்கப்பட்டது	75.0%	—	74.0%	47.3%	—
MMMU Pro (கருவிகள் இல்லை)	81.2%	—	—	79.5%	—
MMMU Pro (கருவிகளுடன்)	82.1%	—	—	80.4%	—

கருவி பயன்பாடு

எவல்	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82.7%	89.3%	77.3%	65.8%	77.9%
MCP Atlas	67.2%	—	—	60.6%	—
Toolathlon	54.6%	—	51.9%	45.7%	—
Tau2-bench Telecom	98.9%	—	—	98.7%	—

அகாடமிக் (கல்விசார்)

எவல்	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
அதிநவீன அறிவியல் ஆராய்ச்சி	33.0%	36.7%	—	25.2%	—
FrontierMath அடுக்கு 1–3	47.6%	—	—	40.7%	—
FrontierMath அடுக்கு 4	27.1%	38.0%	—	18.8%	31.3%
GPQA Diamond	92.8%	94.4%	92.6%	92.4%	93.2%
மனிதகுலத்தின் கடைசித் தேர்வு (கருவிகள் இல்லை)	39.8%	42.7%	—	34.5%	36.6%
மனிதகுலத்தின் கடைசித் தேர்வு (கருவிகளுடன்)	52.1%	58.7%	—	45.5%	50.0%

நீண்ட சூழல்

எவல்	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0K–128K	93.0%	—	—	94.0%	—
கிராஃப் வாக்ஸ் BFS 256K–1M	21.4%	—	—	—	—
Graphwalks பெற்றோர் 0–128K (துல்லியம்)	89.8%	—	—	89.0%	—
Graphwalks பெற்றோர் 256K–1M (துல்லியம்)	32.4%	—	—	—	—
OpenAI MRCR v2 8-நீடில் 4K–8K	97.3%	—	—	98.2%	—
OpenAI MRCR v2 8-நீடில் 8K–16K	91.4%	—	—	89.3%	—
OpenAI MRCR v2 8-நீடில்கள் 16K–32K	97.2%	—	—	95.3%	—
OpenAI MRCR v2 8-நீடில்கள் 32K–64K	90.5%	—	—	92.0%	—
OpenAI MRCR v2 8-நீடில் 64K–128K	86.0%	—	—	85.6%	—
OpenAI MRCR v2 8-நீடில் 128K–256K	79.3%	—	—	77.0%	—
OpenAI MRCR v2 8-நீடில் 256K–512K	57.5%	—	—	—	—
OpenAI MRCR v2 8-நீடில் 512K–1M	36.6%	—	—	—	—

காரணவிளக்கமளித்தல் சிந்தனை

எவல்	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGI-1 (சரிபார்க்கப்பட்டது)	93.7%	94.5%	—	86.2%	90.5%
ARC-AGI-2 (சரிபார்க்கவும்)	73.3%	83.3%	—	52.9%	54.2% (அதிகம்)

ரீஸனிங் இல்லாத Evals

எவல்	GPT‑5.4 (எதுவும் இல்லை)	GPT‑5.2 (none)	GPT‑4.1
OmniDocBench (இயல்பாக்கப்பட்ட திருத்தத் தூரம்)	0.109	0.140	—
Tau2-bench Telecom	64.3%	57.2%	43.6%

ரீஸனிங் effort xhigh ஆக அமைக்கப்பட்ட நிலையில் Evals இயக்கப்பட்டன, வேறுவிதமாக குறிப்பிடப்பட்ட இடங்களைத் தவிர. பெஞ்ச்மார்க் மதிப்பீடுகள் ஒரு ஆராய்ச்சி சூழலில் நடத்தப்பட்டன; சில சூழல்களில் இது ப்ரொடக்ஷன் ChatGPT‑இலிருந்து சிறிது வித்தியாசமான அவுட்புட் தரக்கூடும்.