இன்று, ChatGPT இல் GPT‑5.4 ஐ வெளியிடுகிறோம் (GPT‑5.4 Thinking), API, மற்றும் Codex. தொழில்முறை பணிகளுக்கான எங்களின் மிகவும் திறமையான மற்றும் திறன் மிகுந்த அதிநவீன மாடல். சிக்கலான பணிகளில் அதிகபட்ச செயல்திறனை விரும்பும் மக்களுக்காக, ChatGPT மற்றும் API-யில் GPT‑5.4 Pro ஐயும் நாங்கள் வெளியிடுகிறோம்.
GPT‑5.4 எங்களின் சமீபத்திய ரீஸனிங், கோடிங், மற்றும் ஏஜென்டிக் வொர்க்ஃப்ளோக்களில் உள்ள சிறந்த முன்னேற்றங்களை ஒரே அதிநவீன மாடலாக ஒன்றிணைக்கிறது. இது GPT‑5.3‑Codex இன் தொழில்துறையில் முன்னணி கோடிங் திறன்களை இணைத்துக்கொண்டு, கருவிகள், மென்பொருள் சூழல்கள், மற்றும் ஸ்பிரெட்ஷீட்கள், பிரெசென்டேஷன்கள், மற்றும் ஆவணங்களை உள்ளடக்கிய தொழில்முறை பணிகளிலெல்லாம் மாடல் செயல்படும் முறையை மேம்படுத்துகிறது. இதன் விளைவாக, சிக்கலான உண்மையான வேலைகளை துல்லியமாக, திறம்பட, மற்றும் செயல்திறனுடன் செய்து முடிக்கும் ஒரு மாடல் கிடைக்கிறது—குறைந்த முன்-பின் உரையாடலுடன் நீங்கள் கேட்டதை வழங்குகிறது.
ChatGPT இல், GPT‑5.4 Thinking இப்போது அதன் சிந்தனைக்கான முன்கூட்டிய திட்டத்தை வழங்க முடியும், அதனால் அது செயல்படும் போதே நீங்கள் பதிலின் நடுவில் பாதையைச் சரிசெய்யலாம் அது செயல்படும் போதே, மேலும் கூடுதல் சுற்றுகள் இல்லாமல் உங்களுக்கு தேவையானதுடன் மேலும் நெருக்கமாக ஒத்துப்போகும் இறுதி வெளியீட்டை பெறலாம். GPT‑5.4 சிந்தனை டீப் வெப் ரிசர்ச் ஐயும் மேம்படுத்துகிறது, குறிப்பாக மிகச் சிறப்பான கேள்விகளுக்காக, மேலும் நீண்ட சிந்தனை தேவைப்படும் கேள்விகளுக்கான சூழலை சிறப்பாகப் பராமரிக்கிறது. ஒன்றாக, இந்த மேம்பாடுகள் வேகமாக வந்து, கையிலுள்ள பணிக்குத் தொடர்புடையதாகத் தொடரும் உயர்தரப் பதில்களை வழங்குகின்றன.
Codex மற்றும் API இல், GPT‑5.4 என்பது நாங்கள் வெளியிட்ட முதல் பொதுவான பயன்பாட்டுக்கான மாடல்; இதில் நேட்டிவ், முன்னணி கணினி பயன்பாட்டு திறன்கள் உள்ளன, இதனால் ஏஜென்ட்கள் கணினிகளை இயக்கவும், பயன்பாடுகள் முழுவதும் சிக்கலான பணிப்பாய்வுகளை நிறைவேற்றவும் முடிகிறது. இது 1M டோக்கன்கள் வரை உள்ள சூழல் ஆதரிக்கிறது, இதனால் ஏஜென்ட்கள் நீண்ட கால வரம்புகளுக்கு அப்பால் பணிகளை திட்டமிட, செயல்படுத்த, மற்றும் சரிபார்க்க முடியும். GPT‑5.4, tool search உடன், கருவிகள் மற்றும் கனெக்டர்கள் கொண்ட பெரிய எகோசிஸ்டம்கள் முழுவதும் மாடல்கள் செயல்படும் முறையையும் மேம்படுத்துகிறது; இதனால் ஏஜென்ட்கள் புத்திசாலித்தனத்தை இழக்காமல் சரியான கருவிகளை மேலும் செயல்திறனுடன் கண்டுபிடித்து பயன்படுத்த உதவுகிறது. இறுதியாக, GPT‑5.4 என்பது எங்களின் மிக டோக்கன் செயல்திறன் கொண்ட ரீஸனிங் மாடல் இதுவரை; GPT‑5.2 உடன் ஒப்பிடும்போது, பிரச்சினைகளைத் தீர்க்க குறிப்பிடத்தக்க அளவில் குறைவான டோக்கன்களைப் பயன்படுத்துகிறது—இதன் விளைவாக டோக்கன் பயன்பாடு குறைந்து வேகம் அதிகரிக்கிறது.
பொது ரீஸனிங், கோடிங், மற்றும் தொழில்முறை அறிவுப் பணிகளில் ஏற்பட்ட முன்னேற்றங்களுடன் சேர்ந்து, GPT‑5.4 அதிக நம்பகமான ஏஜென்ட்கள், வேகமான டெவலப்பர் வொர்க்ஃப்ளோக்கள், மற்றும் ChatGPT, API, மற்றும் Codex முழுவதும் உயர்தரமான வெளியீடுகளை சாத்தியமாக்குகிறது.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (வெற்றி அல்லது சமநிலை) | 83.0% | 70.9% | 70.9% |
SWE-Bench Pro (Public) | 57.7% | 56.8% | 55.6% |
OSWorld சரிபாரிக்கப்பட்டது | 75.0% | 74.0%* | 47.3% |
Toolathlon | 54.6% | 51.9% | 46.3% |
BrowseComp | 82.7% | 77.3% | 65.8% |
*முன்பு 64.7% என அறிக்கையிடப்பட்டது. GPT‑5.3‑Codex அசல் படத் தீர்மானத்தைப் பாதுகாக்கும் புதிதாக அறிமுகப்படுத்தப்பட்ட API அளவுருவுடன் 74.0% ஐ அடைகிறது.
GPT‑5.2’s அடிப்படையில் உருவாக்கப்பட்டது பொதுவான ரீஸனிங் திறன்களுடன், GPT‑5.4 தொழில்முனைவோருக்கு முக்கியமான நிஜ உலக பணிகளில் மேலும் ஒருமைத்தன்மை கொண்ட மற்றும் மேம்பட்ட முடிவுகளை வழங்குகிறது.
On GDPval, 44 தொழில்களில் நன்கு வரையறுக்கப்பட்ட அறிவுப் பணிகளை உருவாக்க ஏஜென்ட்களின் திறன்களை சோதிக்கும் இதில், GPT‑5.4 ஒரு புதிய ஸ்டேட்-ஆஃப்-தி-ஆர்ட்டை அடைகிறது; ஒப்பீடுகளில் 83.0% -இல் தொழில்துறை நிபுணர்களுக்கு இணையாக அல்லது அவர்களை மீறி செயல்படுகிறது, GPT‑5.2‑க்கு 71.0% என்பதுடன் ஒப்பிடுகையில்.
GDPval இல், மாடல்கள் U.S. GDP-க்கு பங்களிக்கும் முன்னணி 9 தொழில்துறைகளிலிருந்து 44 தொழில்களை உள்ளடக்கிய நன்கு வரையறுக்கப்பட்ட அறிவுப் பணிகளை முயற்சிக்கின்றன. டாஸ்க்கள் விற்பனை பிரெசென்டேஷன்கள், கணக்கியல் ஸ்பிரெட்ஷீட்கள், அவசர பராமரிப்பு அட்டவணைகள், உற்பத்தி வரைபடங்கள், அல்லது குறுகிய வீடியோக்கள் போன்ற உண்மையான வேலை பொருட்களை கோருகின்றன. GPT‑5.4 க்கு ரீஸனிங் முயற்சி xhigh ஆகவும் GPT‑5.2 க்கு heavy ஆகவும் அமைக்கப்பட்டது (ChatGPT இல் சற்று குறைந்த நிலை).
“GPT-5.4 நாங்கள் இதுவரை முயற்சித்த மிகச் சிறந்த மாடல். தொழில்முறை சேவைகள் பணிகளுக்கான மாடல் செயல்திறனை அளவிடும் எங்கள் APEX-Agents பெஞ்ச்மார்க்கில் இது இப்போது லீடர்போர்டின் உச்சியில் உள்ளது. இது ஸ்லைடு டெக்குகள், நிதி மாடல்கள், மற்றும் சட்ட பகுப்பாய்வு போன்ற நீண்டகால வழங்கல்களை உருவாக்குவதில் சிறந்து விளங்குகிறது; போட்டியாளர்களின் அதிநவீன மாடல்களை விடவும் வேகமாகவும் மற்றும் குறைந்த செலவிலும் இயங்கிக்கொண்டே, உச்ச செயல்திறனை வழங்குகிறது.”
GPT‑5.4 இன் மேம்பாட்டில் நாங்கள் குறிப்பிட்ட கவனம் செலுத்தினோம். விரிதாள்கள், விளக்கக்காட்சிகள் மற்றும் ஆவணங்களை உருவாக்கவும் திருத்தவும் உள்ள திறன். ஜூனியர் முதலீட்டு வங்கி ஆய்வாளர் செய்யக்கூடிய ஸ்பிரெட்ஷீட் மாடலிங் பணிகளுக்கான எங்கள் உள் அளவுகோலில், GPT‑5.4 87.5% என்ற சராசரி ஸ்கோரை அடைகிறது; GPT‑5.2‑க்கு 68.4% உடன் ஒப்பிடுகையில். விளக்கக்காட்சி மதிப்பீட்டு ப்ராம்ப்ட்களின் ஒரு தொகுப்பில், சிறந்த கலைநுணுக்கம், அதிகமான காட்சி பல்வகைமை, மற்றும் இமேஜ் ஜெனரேஷனை மேலும் திறம்பட பயன்படுத்துதல் ஆகிய காரணங்களால், மனித மதிப்பீட்டாளர்கள் GPT‑5.2‑இன் விளக்கக்காட்சிகளை விட GPT‑5.4‑இன் விளக்கக்காட்சிகளை 68.0% நேரங்களில் விரும்பினர்.

ஆவணங்கள் ரீஸனிங் முயற்சி xhigh ஆக அமைக்கப்பட்ட நிலையில் உருவாக்கப்பட்டன
ChatGPT இல் GPT‑5.4 ஐ பயன்படுத்தி இந்த திறன்களை நீங்கள் முயற்சி செய்யலாம் Thinking அல்லது Pro. நீங்கள் Enterprise வாடிக்கையாளராக இருந்தால், இன்று அறிமுகப்படுத்தப்பட்ட, புதிதாக வெளியிடப்பட்ட எங்கள் Excel மற்றும் Google Sheets க்கான ChatGPT பிளக்கின்களைப்(புதிய சாளரத்தில் திறக்கும்) பயன்படுத்த பரிந்துரைக்கிறோம். Codex மற்றும் API-யில் கிடைக்கும் எங்கள் ஸ்பிரெட்ஷீட்(புதிய சாளரத்தில் திறக்கும்) மற்றும் பிரெசென்டேஷன் திறன்களையும்(புதிய சாளரத்தில் திறக்கும்) நாங்கள் புதுப்பித்துள்ளோம்.
GPT‑5.4 ஐ உருவாக்க நிஜ உலகப் பணியில் சிறப்பாக செயல்பட, மாயத்தோற்றங்கள் மற்றும் தவறுகளை குறைப்பதில் எங்கள் முன்னேற்றத்தைத் தொடர்ந்து மேற்கொண்டோம். GPT‑5.4 எங்களின் இதுவரையிலான மிக உண்மைத்தன்மை கொண்ட மாடல்: பயனர்கள் உண்மைப் பிழைகளை குறித்த அடையாளம் நீக்கப்பட்ட ப்ராம்ப்ட் தொகுப்பில், GPT‑5.4’s தனிப்பட்ட கோரிக்கைகள் 33% அளவில் தவறானதாக இருக்கக் குறைவான வாய்ப்புள்ளது, மேலும் GPT‑5.2‑ஐ ஒப்பிடும்போது அதன் முழுப் பதில்களில் எந்தப் பிழைகளும் இருக்க 18% அளவில் குறைவான வாய்ப்புள்ளது.
“GPT-5.4 ஆவணங்கள் அதிகமாக உள்ள சட்டப் பணிக்கான புதிய தரநிலையை அமைக்கிறது. எங்களின் BigLaw Bench eval இல், இது 91% மதிப்பெண் பெற்றது. மற்ற மாடல்களுடன் ஒப்பிடுகையில், GPT-5.4 தற்போது சிக்கலான பரிவர்த்தனை பகுப்பாய்வை கட்டமைப்பதில், நீளமான ஒப்பந்தங்களெங்கும் துல்லியத்தை பராமரிப்பதில், மேலும் சட்ட நிபுணர்கள் தேவைப்படும் உயர்ந்த அளவிலான விவரங்களை வழங்குவதிலும் சிறந்ததாக உள்ளது.
GPT‑5.4 என்பது இயல்பாக கணினி பயன்பாட்டு திறன்கள் கொண்ட எங்களின் முதல் பொதுப் பயன்பாட்டு மாடல் ஆகும்; மேலும் இது டெவலப்பர்கள் மற்றும் ஏஜென்ட்கள் இருவருக்கும் ஒரு முக்கிய முன்னேற்றத்தை குறிக்கிறது. வலைத்தளங்கள் மற்றும் மென்பொருள் அமைப்புகள் முழுவதும் உண்மையான பணிகளை முடிக்கும் ஏஜென்ட்களை உருவாக்கும் டெவலப்பர்களுக்காக தற்போது கிடைக்கக்கூடிய சிறந்த மாடல் இதுவே.
பல்வேறு வகையான கணினி-பயன்பாட்டு பணிச்சுமைகளில் சிறந்த செயல்திறன் வழங்கும் வகையில் GPT‑5.4 ஐ நாங்கள் வடிவமைத்துள்ளோம். Playwright போன்ற நூலகங்கள் மூலம் கணினிகளை இயக்குவதற்கான கோடிங் எழுதுவதிலும், ஸ்கிரீன்ஷாட்களுக்கு பதிலாக மவுஸ் மற்றும் கீபோர்டு கட்டளைகளை வழங்குவதிலும் இது சிறந்து விளங்குகிறது. இதன் நடத்தை டெவலப்பர் மெசேஜ்கள் மூலம் கட்டுப்படுத்தக்கூடியது; அதாவது, குறிப்பிட்ட பயன்பாட்டு நிலைகளுக்கு ஏற்ப நடத்தை மாற்ற டெவலப்பர்கள் அதைச் சரிசெய்யலாம். டெவலப்பர்கள், தனிப்பயன் உறுதிப்படுத்தல் கொள்கைகளை குறிப்பிடுவதன் மூலம், வெவ்வேறு அளவிலான ஆபத்து சகிப்புத்தன்மைக்கு ஏற்ப மாடலின் பாதுகாப்பு நடத்தையை கூட கட்டமைக்கலாம்.
மாடலின் செயல்திறனும் நெகிழ்வுத்தன்மையும், வெவ்வேறு சூழல்களில் கணினி பயன்பாட்டைச் சோதிக்கும் பெஞ்ச்மார்க்கள் முழுவதும் பிரதிபலிக்கின்றன. OSWorld-Verified ல், ஸ்கிரீன்ஷாட்கள் மற்றும் கீபோர்டு/மவுஸ் செயல்கள் மூலம் ஒரு டெஸ்க்டாப் சூழலில் வழிசெலுத்தும் ஒரு மாடலின் திறனை அளக்கும் இதில், GPT‑5.4 ஒரு ஸ்டேட்-ஆஃப்-தி-ஆர்ட் 75.0% அடைகிறது வெற்றி விகிதம், GPT‑5.2’s ஐ விட மிக அதிகமாக 47.3%, மேலும் 72.4%1இல் மனித செயல்திறனை மிஞ்சுகிறது.
உலாவி பயன்பாட்டை சோதிக்கும் WebArena-Verified இல், DOM- மற்றும் ஸ்கிரீன்ஷாட்-அடிப்படையிலான தொடர்பாடலை இரண்டையும் பயன்படுத்தும் போது GPT‑5.4 முன்னணியான 67.3% வெற்றி விகிதத்தை அடைகிறது; இது GPT‑5.2 இன் 65.4% உடன் ஒப்பிடுகையில். Online-Mind2Web இல், இது உலாவி பயன்பாட்டையும் சோதிக்கிறது, GPT‑5.4 ஸ்கிரீன்ஷாட்-அடிப்படையிலான கவனிப்புகளை மட்டும் பயன்படுத்தி 92.8% வெற்றிவிகிதத்தை அடைகிறது; இது 70.9% வெற்றிவிகிதத்தை அடையும் ChatGPT Atlas’s Agent Mode-ஐ விட மேம்பட்டதாகும்.
கருவி மகசூல் என்பது ஒரு உதவியாளர் கருவி பதில்களுக்காகக் காத்திருக்கும்போது ஏற்படும் விளைவு ஆகும். 3 கருவிகள் இணையாக அழைக்கப்பட்டு, அதைத் தொடர்ந்து 3 கருவிகள் இணையாக அழைக்கப்பட்டால், விளைச்சல்களின் எண்ணிக்கை 2 ஆக இருக்கும். கருவி அழைப்புகளை விட கருவி விளைச்சல்கள் தாமதத்தின் சிறந்த ப்ராக்ஸி ஆகும், ஏனெனில் அவை இணைப்படுத்தலின் நன்மைகளைப் பிரதிபலிக்கின்றன.
GPT‑5.4 உலாவி இடைமுகத்தின் ஸ்கிரீன்ஷாட்களை விளக்கி, ஒருங்கிணைப்பு-அடிப்படையிலான கிளிக்கிங் மூலம் UI கூறுகளுடன் தொடர்பு கொண்டு மின்னஞ்சல்களை அனுப்பவும் ஒரு காலண்டர் நிகழ்வை திட்டமிடவும் செய்கிறது.
GPT‑5.4‑இன் மேம்படுத்தப்பட்ட கணினி பயன்பாடு, மாடலின் மேம்படுத்தப்பட்ட பொது காட்சி உணர்திறன் திறன்களை அடிப்படையாகக் கொண்டது. MMMU-Pro இல், ஒரு மாடலின் காட்சி புரிதல் மற்றும் ரீஸனிங் சோதனையில், GPT‑5.4 கருவி பயன்பாடின்றி 81.2% வெற்றி விகிதத்தை அடைகிறது, இது GPT‑5.2‑இன் 79.5%. மேம்படுத்தப்பட்ட காட்சி உணர்திறன் மேலும் சிறந்த ஆவண பகுப்பாய்வு திறன்களாகவும் மாறுகிறது. OmniDocBench-இல், ரீஸனிங் முயற்சியின்றி GPT‑5.4 சராசரி பிழை (மாடல் கணிப்பு மற்றும் ground truth இடையிலான normalized edit distance மூலம் அளவிடப்பட்டது) 0.109 என்பதை அடைகிறது; இது GPT‑5.2‑இன் 0.140 இலிருந்து மேம்பட்டது.
MMMUPro ரீஸனிங் முயற்சி xhigh ஆக அமைக்கப்பட்ட நிலையில் இயக்கப்பட்டது. குறைந்த செலவு, குறைந்த தாமத செயல்திறனை பிரதிபலிக்க, OmniDocBench ரீஸனிங் முயற்சி none என அமைக்கப்பட்ட நிலையில் இயக்கப்பட்டது.
முழு துல்லியத்தன்மை முக்கியமான அடர்த்தியான, உயர்-தீர்மானப் படங்களுக்கான காட்சி புரிதலையும் நாங்கள் மேம்படுத்தி வருகிறோம். GPT‑5.4 முதல், மொத்தம் 10.24M பிக்சல்கள் அல்லது 6000-pixel அதிகபட்ச பரிமாணம் (இவற்றில் எது குறைவோ) வரை முழுத் துல்லியமான உணர்திறனை ஆதரிக்கும் original பட input detail(புதிய சாளரத்தில் திறக்கும்) நிலையை நாங்கள் அறிமுகப்படுத்துகிறோம்; high பட input detail நிலை இப்போது மொத்தம் 2.56M பிக்சல்கள் அல்லது 2048-pixel அதிகபட்ச பரிமாணம் (இவற்றில் எது குறைவோ) வரை ஆதரிக்கிறது. API பயனர்களுடன் ஆரம்பகட்ட சோதனைகளில், original அல்லது high detail பயன்படுத்தும்போது localization திறன், படப் புரிதல், மற்றும் click துல்லியம் ஆகியவற்றில் வலுவான முன்னேற்றங்களை நாங்கள் கவனித்தோம்.
“~30K HOA மற்றும் சொத்து வரி போர்டல்களில் கணினி பயன்பாட்டு செயல்திறனை அளவிடும் எங்கள் evals-இல், முந்தைய CUA மாடல்களுடன் ~73–79% இருந்ததை ஒப்பிடும்போது, GPT-5.4 முதல் முயற்சியிலேயே 95% வெற்றி விகிதத்தையும், மூன்று முயற்சிகளுக்குள் 100% வெற்றி விகிதத்தையும் அடைந்தது. மேலும், இது ~3x வேகமாக செஷன்களை முடித்ததுடன், ~70% குறைவான டோக்கன்களைப் பயன்படுத்தி, அளவிலான நம்பகத்தன்மை மற்றும் செலவு செயல்திறனை கணிசமாக மேம்படுத்தியது."
API-யில், டெவலப்பர்கள் புதுப்பிக்கப்பட்ட computer கருவியை பயன்படுத்தி இந்த திறன்களை அணுகலாம். பரிந்துரைக்கப்படும் சிறந்த நடைமுறைகளுக்காக எங்கள் புதுப்பிக்கப்பட்ட ஆவணங்களை(புதிய சாளரத்தில் திறக்கும்) பார்க்கவும்.
GPT‑5.4, GPT‑5.3‑Codex இன் கோடிங் பலங்களை முன்னணி அறிவுப் பணி மற்றும் கணினி பயன்பாட்டுத் திறன்களுடன் இணைக்கிறது; இவை, மாடல் கருவிகளைப் பயன்படுத்தி, மீண்டும் மீண்டும் முயன்று, குறைந்த கைமுறை தலையீட்டுடன் பணியை மேலும் முன்னெடுக்க முடியும் நீண்டகாலப் பணிகளில் மிக முக்கியமாகும். ரீஸனிங் முயற்சிகள் முழுவதிலும் குறைந்த லேட்டென்சியுடன் இருக்கும் போதே, SWE-Bench Pro இல் GPT‑5.3‑Codex ஐ ஒத்ததாக அல்லது அதைவிட சிறப்பாக செயல்படுகிறது.
எங்கள் மாடல்கள் புரொடக்ஷன் நடத்தையைப் பார்த்து, இதை ஆஃப்லைனில் சிமுலேட் செய்து, தாமதத்தை நாங்கள் மதிப்பீடு செய்கிறோம். தாமத மதிப்பீடு கருவி அழைப்பு கால அளவு (குறியீடு செயல்படுத்தும் நேரம்), மாதிரி எடுக்கப்பட்ட டோக்கன்கள் மற்றும் உள்ளீட்டு டோக்கன்களை கணக்கில் எடுத்துக்கொள்கிறது. நிஜ உலக தாமதம் கணிசமாக மாறலாம், மேலும் எங்கள் சிமுலேஷனில் பிடிக்கப்படாத பல காரணிகளின் மீது அது சார்ந்துள்ளது. ரீஸனிங் முயற்சிகள் none இலிருந்து xhigh வரை உயர்த்தப்பட்டன.
Codex -ல் /ஃபாஸ்ட் பயன்முறையை மாற்றும்போது, GPT‑5.4 உடன் 1.5 மடங்கு வேகமான டோக்கன் வேகத்தை வழங்குகிறது. அதே மாடலும் அதே நுண்ணறிவும் தான், ஆனால் இன்னும் வேகமாக. அதாவது, பயனர்கள் செயல்பாட்டில் இருக்கும்போதே குறியீட்டுப் பணிகள், மீண்டும் மீண்டும் செயல்படுத்தல், மற்றும் பிழை திருத்தம் ஆகியவற்றை மேற்கொண்டு செல்ல முடியும். டெவலப்பர்கள் API மூலம் பிரையாரிட்டி பிராசசிங்(புதிய சாளரத்தில் திறக்கும்) ஐப் பயன்படுத்தி அதே வேகமான வேகங்களில் GPT‑5.4 ஐ அணுகலாம்.
மதிப்பீடு மற்றும் உள் சோதனைகளில், GPT‑5.4 சிக்கலான ஃப்ரண்ட்-எண்ட் பணிகளில் சிறந்து விளங்குகிறது; நாங்கள் முன்பு வெளியிட்ட எந்த மாடல்களையும் விட குறிப்பிடத்தக்க அளவில் அதிக அழகியல் மற்றும் அதிக செயல்பாட்டுத் திறன் கொண்ட முடிவுகளை வழங்குகிறது.
மாடலின் மேம்படுத்தப்பட்ட கணினி பயன்பாடு மற்றும் குறியீட்டு திறன்கள் இணைந்து செயல்படுவதை ஒரு டெமோவாக காட்டுவதற்காக, “Playwright (Interactive)(புதிய சாளரத்தில் திறக்கும்)” எனப்படும் ஒரு பரிசோதனை Codex திறனையும் நாங்கள் வெளியிடுகிறோம். இது Codex-க்கு வலை மற்றும் Electron செயலிகளை காட்சிப்பூர்வமாக பிழைத்திருத்த அனுமதிக்கிறது; அது உருவாக்கிக்கொண்டிருக்கும் போதே, அது உருவாக்கும் செயலியையே சோதிக்கவும் இதைப் பயன்படுத்தலாம்.
GPT‑5.4 மூலம் உருவாக்கப்பட்ட தீம் பார்க் சிமுலேஷன் கேம்; ஒரே ஒரு லேசாக விவரிக்கப்பட்ட ப்ராம்ப்ட்டிலிருந்து உருவாக்கப்பட்டது, உலாவி பிளேடெஸ்டிங்கிற்காக பிளேரைட்இன்டர்ஐடிவ்-ஐவும், ஐசோமெட்ரிக் அசெட் செட்டிற்காக இமேஜ் ஜெனரேஷன் பயன்படுத்தி. இந்த உருவகப்படுத்துதலில் ஓடு அடிப்படையிலான பாதை இடம், சவாரி மற்றும் காட்சியமைப்பு கட்டுமானம், விருந்தினர் பாதை கண்டறிதல், வரிசைப்படுத்துதல் மற்றும் சவாரி சுழற்சிகள் ஆகியவை அடங்கும், அதே நேரத்தில் பணம், விருந்தினர் எண்ணிக்கை, மகிழ்ச்சி, தூய்மை மற்றும் மதிப்பீடு உயர்வு அல்லது வீழ்ச்சி போன்ற பூங்கா அளவீடுகள் தளவமைப்பு எவ்வாறு செயல்படுகிறது மற்றும் விருந்தினர்கள் அதற்கு எவ்வாறு பிரதிபலிக்கிறார்கள் என்பதைப் பொறுத்தது. Playwright ஆனது, பூங்காவை கட்டி விரிவுபடுத்துதல், பாதைகள் மற்றும் ஈர்ப்புகளை அமைத்தல் மற்றும் அகற்றுதல், கேமரா வழிசெலுத்தலைச் சரிபார்த்தல், மேலும் பல சுற்று விளையாட்டுகளின் போது விருந்தினர்கள், வரிசைகள், ரைடு நிலைகள், மற்றும் UI அளவுகோல்கள் சரியாக புதுப்பிக்கப்பட்டனவா என்பதை உறுதிப்படுத்துதல் ஆகியவற்றின் மூலம் உலாவி பிளேடெஸ்ட்களை தானியக்கமாக்க பயன்படுத்தப்பட்டது.
ப்ராம்ப்ட்: $playwright-interactive மற்றும் $imagegen ஐ பயன்படுத்துங்கள். உலாவியில் நான் உருவாக்கவும் வழிசெலுத்தவும் முடியும் வகையில் ஒரு இன்டராக்டிவ் ஐசோமெட்ரிக் தீம் பார்க் சிமுலேஷன் கேமை உருவாக்குங்கள். மொத்த காட்சி நோக்கத்தை நிறுவவும், ரைட்கள், பாதைகள், நிலப்பரப்பு, மரங்கள், நீர், உணவு ஸ்டால்கள், அலங்காரங்கள், கட்டிடங்கள், ஐகான்கள், மற்றும் UI விளக்கப்படங்கள் உள்ளிட்ட கேமின் அசெட்களை உருவாக்கவும் imagegen ஐ பயன்படுத்துங்கள். உலகம் ஒருங்கிணைந்ததாகவும், பளிச்சென்றதாகவும், காட்சியளவில் செழுமையாகவும் உணரப்பட வேண்டும்; ஐசோமெட்ரிக் பார்வையில் நன்றாக வேலை செய்யும் பிரீமியம் ஆர்ட் டைரெக்ஷனுடன். நான் பாதைகளை வைக்கவும் அகற்றவும், ஈர்ப்புகளைச் சேர்க்கவும், காட்சிப் பொருட்களை இடமமைக்கவும், விருந்தினர் செயல்பாடு, ரைடு நிலை, மற்றும் பார்க் வளர்ச்சி ஆகியவற்றை கண்காணித்தபடி பார்க் முழுவதும் மென்மையாக நகரவும் அனுமதியுங்கள். நம்பத்தகுந்த விருந்தினர் இயக்கம், பணம், சுத்தம், வரிசையில் நிற்குதல், மற்றும் மகிழ்ச்சி போன்ற எளிய பார்க் மேலாண்மை அமைப்புகளைச் சேர்க்கவும், மேலும் அனுபவம் ஒரு கரடுமுரடான புரோட்டோடைப் போல அல்லாமல் விளையாட்டுத்தனமாகவும், தெளிவாகவும், முழுமையாகவும் உணரப்பட வேண்டும். யதார்த்தத்தை விட கவர்ச்சி, வாசிப்புத் தெளிவு, மற்றும் வலுவான கேம் ஃபீல் ஆகியவற்றுக்கு முன்னுரிமை கொடுங்கள்.
ப்ளே டெஸ்டிங் செய்யும்போது, பல சுற்றுகள் விளையாட்டின் மூலம் ஒரு பூங்காவை கட்டி விரிவுபடுத்துவதை உறுதிசெய்யவும், இடமமைப்பு மற்றும் வழிசெலுத்தல் சீராக செயல்படுகிறதா என்பதைச் சரிபார்க்கவும், விருந்தினர்கள் பூங்கா அமைப்பு மற்றும் ஈர்ப்புகளுக்கு எப்படி எதிர்வினையளிக்கிறார்கள் என்பதை உறுதிப்படுத்தவும், மேலும் காட்சிகள், UI, மற்றும் தொடர்புகள் நிலையானதாகவும் ஒருமைப்பாட்டுடனும் உணரப்படுவதை உறுதிசெய்யவும்.
“எங்கள் பொறியாளர்கள் GPT-5.4 ஐ கண்டறிகிறார்கள் முந்தைய மாடல்களை விட இயல்பாகவும் உறுதியானதாகவும் உள்ளது. இது தெளிவற்ற சிக்கல்களைத் தீர்க்கிறது, எந்த சந்தேகமும் இல்லாமல் செயல்படுகிறது, மேலும் விஷயங்களை நகர்த்துவதற்கு இணையான வேலையைச் செய்வதில் இது முனைப்புடன் செயல்படுகிறது.
GPT‑5.4 உடன், வெளியுறு கருவிகளுடன் மாடல்கள் செயல்படும் முறையை நாங்கள் குறிப்பிடத்தக்க அளவில் மேம்படுத்தியுள்ளோம். ஏஜென்ட்கள் இப்போது பெரிய டூல் ஈகோசிஸ்டம்களுக்குள் செயல்படவும், சரியான டூல்களை மேலும் நம்பகமாகத் தேர்வு செய்யவும், மேலும் குறைந்த செலவும் லேட்டென்சியுடனும் மல்டி-ஸ்டெப் வேலைப்போக்குகளை நிறைவேற்றவும் முடியும்.
APIயில், GPT‑5.4 கருவி தேடல்(புதிய சாளரத்தில் திறக்கும்) ஐ அறிமுகப்படுத்துகிறது, இது பல கருவிகள் வழங்கப்பட்டால் மாடல்கள் திறம்பட வேலை செய்ய அனுமதிக்கிறது.
முன்னதாக, ஒரு மாடலுக்கு டூல்ஸ் வழங்கப்பட்டபோது, அனைத்து டூல் வரையறைகளும் ப்ராம்ப்ட்டில் முன்கூட்டியே சேர்க்கப்பட்டிருந்தன. பல கருவிகள் உள்ள அமைப்புகளுக்கு, இது ஒவ்வொரு கோரிக்கைக்கும் ஆயிரக்கணக்கான அல்லது பத்தாயிரக்கணக்கான டோக்கன்களைச் சேர்க்கக்கூடும்; இதனால் செலவு அதிகரித்து, பதில்கள் மெதுவாகி, மாடல் ஒருபோதும் பயன்படுத்தாமல் இருக்கக்கூடிய தகவல்களால் சூழல் நிரம்பிவிடும்.
கருவி தேடலுடன், GPT‑5.4 அதற்கு பதிலாக கிடைக்கக்கூடிய கருவிகளின் இலகுவான பட்டியலையும் கருவி தேடல் திறனையும் பெறுகிறது. மாடல் ஒரு கருவியைப் பயன்படுத்த வேண்டியிருக்கும் போது, அந்த கருவியின் வரையறையைத் தேடிப் பார்த்து, அந்த நேரத்தில் அதை உரையாடலுடன் இணைக்கலாம்.
இந்த அணுகுமுறை கருவி-அதிகமான பணிப்பாய்வுகளுக்கு தேவையான டோக்கன்களின் எண்ணிக்கையை கணிசமாகக் குறைத்து, தற்காலிக சேமிப்பை பாதுகாக்கிறது; இதனால் கோரிக்கைகள் மேலும் வேகமாகவும் குறைந்த செலவிலும் அமைகின்றன. இது ஏஜென்ட்கள் மிகப் பெரிய கருவி சூழலமைப்புகளுடன் நம்பகமாக வேலை செய்யவும் உதவுகிறது. பத்தாயிரக்கணக்கான கருவி வரையறை டோக்கன்களை கொண்டிருக்கக்கூடிய MCP சர்வர்களுக்கு, திறன் மேம்பாட்டால் கிடைக்கும் பலன்கள் கணிசமாக இருக்கலாம்.
திறன் மேம்பாடுகளை காட்டுவதற்காக, Scale’s MCP Atlas(புதிய சாளரத்தில் திறக்கும்) பெஞ்ச்மார்க்கிலிருந்து 250 பணிகளை, அனைத்து 36 MCP சர்வர்களும் இயக்கப்பட்ட நிலையில், இரண்டு முறைகளில் மதிப்பீடு செய்தோம்: (1) ஒவ்வொரு MCP செயல்பாட்டையும் மாடல் சூழலில் நேரடியாக வெளிப்படுத்துவது, மற்றும் (2) அனைத்து MCP சர்வர்களையும் கருவி தேடலின் பின்னால் வைப்பது. கருவி தேடல் கட்டமைப்பு, அதே துல்லியத்தைப் பெறும் நிலையில் மொத்த டோக்கன் பயன்பாட்டை 47% குறைத்தது.
உதாரண டோக்கன் எண்ணிக்கைகள் MCP-Atlas பொது தரவுத்தொகுப்பில் உள்ள 250 பணிகளின் சராசரியிலிருந்து பெறப்பட்டவை.
GPT‑5.4 மேலும் tool calling ஐ மேம்படுத்துகிறது; குறிப்பாக API-யில், ரீஸனிங் செய்யும் போது கருவிகளை எப்போது மற்றும் எவ்வாறு பயன்படுத்த வேண்டும் என்பதை முடிவு செய்வதில் இதை மேலும் துல்லியமாகவும் திறமையாகவும் ஆக்குகிறது. GPT‑5.2 உடன் ஒப்பிடுகையில், இது Toolathlon இல் குறைந்த திருப்பங்களில் அதிக துல்லியத்தை அடைகிறது; இது AI ஏஜன்ட்கள் நிஜ உலக கருவிகள் மற்றும் APIகளைப் பயன்படுத்தி பல-படி பணிகளை முடிக்க எவ்வளவு நன்றாக முடியும் என்பதை சோதிக்கும் ஒரு அளவுகோல். உதாரணமாக, ஒரு ஏஜென்ட் மின்னஞ்சல்களைப் படிக்க, பணிக்கான இணைப்புகளைப் பிரித்தெடுக்க, அவற்றைப் பதிவேற்ற, அவற்றுக்கு மதிப்பெண் அளிக்க மற்றும் முடிவுகளை ஒரு விரிதாளில் பதிவு செய்ய வேண்டும்.
கருவி மகசூல் என்பது ஒரு உதவியாளர் கருவி பதில்களுக்காகக் காத்திருக்கும்போது ஏற்படும் விளைவு ஆகும். 3 கருவிகள் இணையாக அழைக்கப்பட்டு, அதைத் தொடர்ந்து 3 கருவிகள் இணையாக அழைக்கப்பட்டால், விளைச்சல்களின் எண்ணிக்கை 2 ஆக இருக்கும். கருவி அழைப்புகளை விட கருவி விளைச்சல்கள் தாமதத்தின் சிறந்த ப்ராக்ஸி ஆகும், ஏனெனில் அவை இணைப்படுத்தலின் நன்மைகளைப் பிரதிபலிக்கின்றன.
லேட்டன்சி-சென்ஸிடிவ் பயன்பாட்டு நிகழ்வுகளுக்காக ரீஸனிங் முயற்சி எதுவும் இல்லாமல் இருப்பது விரும்பப்படும் போது, GPT‑5.4 அதன் முன்னோடிகளை விட மேலும் மேம்படுத்துகிறது.
In τ2-bench(புதிய சாளரத்தில் திறக்கும்) இல், ஒரு மாடல் வாடிக்கையாளர் சேவை பணியை நிறைவேற்ற கருவிகளைப் பயன்படுத்த வேண்டும்; அங்கு தொடர்பு கொள்ளக்கூடிய மற்றும் உலக நிலைமையில் நடவடிக்கைகள் எடுக்கக்கூடிய ஒரு உருவக பயனர் இருக்கலாம். ரீஸனிங் முயற்சி None ஆக அமைக்கப்பட்டது.
GPT‑5.4 ஏஜென்ட் இணைய தேடலில் சிறந்தது. BrowseComp இல், AI ஏஜென்ட்கள் கடினமாகக் கண்டுபிடிக்கக்கூடிய தகவலைத் தேட வலைத்தளத்தை தொடர்ந்து உலாவுவதில் எவ்வளவு நன்றாக செயல்படுகின்றன என்பதற்கான ஒரு அளவீட்டில், GPT‑5.4, GPT‑5.2 ஐ விட 17%abs உயர்ந்து முன்னேறுகிறது, மற்றும் GPT‑5.4 Pro 89.3% என்ற புதிய கலை நிலையை அமைக்கிறது.
நடைமுறையில், இதன் பொருள் GPT‑5.4 Thinking என்பது இணையத்தில் உள்ள பல மூலங்களிலிருந்து தகவல்களை ஒன்றிணைக்க வேண்டிய கேள்விகளுக்கு பதிலளிப்பதில் மேலும் வலுவாக உள்ளது. பல சுற்றுகளாக தொடர்ந்து தேடலை மேற்கொண்டு மிகத் தொடர்புடைய ஆதாரங்களை அடையாளம் காணவும், குறிப்பாக “needle-in-a-haystack” வகை கேள்விகளுக்கு, அவற்றைத் தெளிவான, நன்றாக காரணமூட்டப்பட்ட பதிலாக ஒருங்கிணைக்கவும் இது முடியும்.
BrowseComp இல், செயல்திறனின் நியாயமான அளவீட்டை உறுதி செய்யவும், மாசுபாட்டைத் தடுக்கவும், மதிப்பீட்டிலிருந்து பெஞ்ச்மார்க் பதில்களை கொண்டுள்ள வலைத்தளங்களை விலக்கும் ஒரு தேடல் தடைப்பட்டியலை நாங்கள் பயன்படுத்தினோம். GPT‑5.4, GPT‑5.2 விட பின்னர் தேதியில் அளவிடப்பட்டது. எனவே மதிப்பெண்கள் மாடல், எங்கள் தேடல் அமைப்பு, மற்றும் இணையத்தின் நிலை ஆகியவற்றில் ஏற்படும் மாற்றங்களை பிரதிபலிக்கின்றன. GPT‑5.4 ஒரு நீளமான, புதுப்பிக்கப்பட்ட தடைப் பட்டியலுடன் சோதிக்கப்பட்டது. மாடல்கள் ChatGPT தேடல் கருவியைப் பயன்படுத்துகின்றன, இது API தேடலிலிருந்து சிறிய வேறுபாடுகளை கொண்டிருக்கலாம்.
“GPT-5.4 xhigh பல-படிக் கருவி பயன்பாட்டிற்கான புதிய கலை நிலை. Zapier தொழில்துறையில் மிகக் கடுமையான கருவி பயன்பாட்டு பெஞ்ச்மார்க்களில் சிலவற்றை நடத்துகிறது; நூற்றுக்கணக்கான மேம்பட்ட நிஜ உலக வேலைப்பாய்வுகள் முழுவதும் மாடல்களைச் சோதிக்கிறது. GPT-5.4 முந்தைய மாடல்கள் கைவிட்ட இடத்தில் பணியை முடித்தது - இன்றுவரை மிக விடாமுயற்சியான மாடல்.”
Codex தனது வேலை தொடங்கும் போது தனது அணுகுமுறையை எவ்வாறு விளக்குகிறதோ அதேபோல், GPT‑5.4 தனது செயல்பாட்டை விளக்குகிறது ChatGPT இல் சிந்தனை இப்போது நீளமான மற்றும் சிக்கலான கேள்விகளுக்கு முன்குறிப்புடன் தனது பணியை விளக்கமாகக் காட்டும். நீங்கள் வழிமுறைகளையும் சேர்க்கலாம் அல்லது பதிலின் நடுவில் அதன் திசையை மாற்றலாம். இது, மீண்டும் தொடங்காமல் அல்லது பல கூடுதல் முயற்சிகள் தேவையில்லாமல், நீங்கள் விரும்பும் துல்லியமான முடிவை நோக்கி மாடலை வழிநடத்த எளிதாக்குகிறது. இந்த அம்சம் தற்போது chatgpt.com(புதிய சாளரத்தில் திறக்கும்) மற்றும் ஆண்ட்ராய்டு செயலியில் கிடைக்கிறது, iOS செயலிக்கு விரைவில் கிடைக்கும்.
மாடல், உரையாடலில் முந்தைய படிகளின் மீது வலுவான விழிப்புணர்வை பராமரித்தபடியே, கடினமான பணிகளில் மேலும் நீண்ட நேரம் சிந்திக்கவும் முடியும். இது நீண்ட பணிப்பாய்வுகளையும் மேலும் சிக்கலான ப்ராம்ப்ட்களையும் கையாள அனுமதிக்கிறது; அதே நேரத்தில் முழுவதும் பதில்கள் ஒற்றுமையாகவும் தொடர்புடையதாகவும் இருக்கச் செய்கிறது.
இந்த வீடியோ விளக்க நோக்கங்களுக்காக வேகமாக்கப்பட்டது.
கடந்த சில மாதங்களில், GPT‑5.3‑Codex உடன் நாங்கள் அறிமுகப்படுத்திய பாதுகாப்பு நடவடிக்கைகளை தொடர்ந்து மேம்படுத்தியுள்ளோம்; அதே நேரத்தில் GPT‑5.4 ஐ வெளியீட்டிற்காக தயாரித்து வருகிறோம். GPT‑5.3‑Codex போல, பிரிபேர்ட்நெஸ் ஃப்ரேம்வொர்க்-இல், GPT‑5.4 ஐ உயர் சைபர் திறன் கொண்டதாக நாங்கள் கருதுகிறோம், மேலும் சிஸ்டம் கார்ட்-இல் ஆவணப்படுத்தப்பட்டுள்ள தொடர்புடைய பாதுகாப்புகளுடன் அதை நாங்கள் பயன்படுத்துகிறோம். இவற்றில் விரிவாக்கப்பட்ட சைபர் பாதுகாப்பு ஸ்டாக், கண்காணிப்பு அமைப்புகள், நம்பகமான அணுகல் கட்டுப்பாடுகள், மேலும் ஜீரோ டேட்டா ரிடென்ஷன் (ZDR) மேற்பரப்புகளில் உள்ள வாடிக்கையாளர்களுக்கான அதிக ஆபத்துள்ள கோரிக்கைகளுக்கு அசிங்க்ரோனஸ் தடை செய்தல் ஆகியவை அடங்கும்; இதனுடன், பரந்த பாதுகாப்பு சூழலமைப்பில் தொடர்ச்சியான முதலீடும் இடம்பெறுகிறது.
சைபர் பாதுகாப்பு திறன்கள் இயல்பாகவே இரட்டை பயன்பாட்டுக்குரியவை என்பதால், எங்கள் கொள்கைகள் மற்றும் வகைப்படுத்திகளை தொடர்ந்து சரிசெய்து வரும் போது, செயல்படுத்துவதில் முன்னெச்சரிக்கை அணுகுமுறையை நாங்கள் பின்பற்றுகிறோம். ZDR surfaces இல் உள்ள சில வாடிக்கையாளர்களுக்கு, கோரிக்கை-நிலை தடை எங்கள் சைபர் ஆபத்து குறைப்பு அடுக்கின் ஒரு பகுதியாகவே உள்ளது; வகைப்படுத்திகள் இன்னும் மேம்பட்டு வருவதால், இந்த பாதுகாப்பு ஏற்பாடுகளை மேம்படுத்துவதைத் தொடர்ந்து மேற்கொள்ளும் போது சில தவறான நேர்மறைகள் ஏற்படலாம். இந்த புதுப்பிப்புகள், தவறாகப் பயன்படுத்துவதற்கு எதிரான வலுவான பாதுகாப்புகளைப் பேணிக்கொண்டே, நடைமுறையில் பாதுகாப்பு நடவடிக்கைகள் செயல்படும் முறையை மேம்படுத்துவதை நோக்கமாகக் கொண்டுள்ளன; இதில் தேவையற்ற மறுப்புகள் மற்றும் அளவுக்கு மீறிய எச்சரிக்கைகள் கொண்ட பதில்களை குறைப்பதும் அடங்கும்.
நாங்கள் செயின்-ஆஃப்-தாட் (CoT) கண்காணிப்புத்திறனைப் பற்றிய எங்கள் பாதுகாப்பு ஆராய்ச்சியைத் தொடர்ந்துள்ளோம், மாடல்கள் எவ்வாறு பகுத்தறிவு செய்கின்றன என்பதை நன்கு புரிந்துகொள்வதற்கும், சாத்தியமான தவறான நடத்தையைக் கண்டறிய உதவுவதற்கும். இந்தப் பணியின் ஒரு பகுதியாக, கண்காணிப்பைத் தவிர்க்க மாடல்கள் தங்களின் ரீஸனிங்கை திட்டமிட்டு மறைக்க முடியுமா என்பதை அளவிடும் புதிய ஓபன்-சோர்ஸ் மதிப்பீடான CoT controllability, ஐ நாங்கள் அறிமுகப்படுத்துகிறோம். நாங்கள் கண்டறிவது என்னவென்றால் GPT‑5.4 Thinking-ன் ரீஸனிங்-ஐ கட்டுப்படுத்தும் திறன் குறைவாக உள்ளது, இது பாதுகாப்புக்கான ஒரு நேர்மறை பண்பாகும்; இதன் மூலம் அந்த மாடலுக்கு தனது ரீஸனிங்-ஐ மறைக்கும் திறன் இல்லை என்பதையும், ரீஸனிங் கண்காணிப்பு இன்னும் ஒரு பயனுள்ள பாதுகாப்பு கருவியாகவே உள்ளது என்பதையும் சுட்டிக்காட்டுகிறது.
GPT‑5.4 இன்று ChatGPT மற்றும் Codex முழுவதும் படிப்படியாக வெளியிடப்படுகிறது. API இல், GPT‑5.4 இப்போது gpt-5.4 எனக் கிடைக்கிறது. GPT‑5.4 Pro என்பது API இல் gpt-5.4-pro எனவும் கிடைக்கிறது மிகவும் சிக்கலான பணிகளில் அதிகபட்ச செயல்திறன் தேவைப்படும் டெவலப்பர்களுக்காக.
ChatGPT இல், GPT‑5.4 Thinking இன்று முதல் ChatGPT Plus, Team, மற்றும் Pro பயனர்களுக்கு கிடைக்கிறது, GPT‑5.2 ஐ மாற்றி Thinking. GPT‑5.2 Thinking கட்டண பயனர்களுக்காக மாடல் பிக்கரில் Legacy Models பிரிவின் கீழ் மூன்று மாதங்களுக்கு கிடைக்கக்கூடியதாகவே இருக்கும், அதன் பிறகு அது June 5, 2026 அன்று நிறுத்தப்படும். Enterprise மற்றும் Edu திட்டங்களில் உள்ளவர்கள் நிர்வாகி அமைப்புகள் மூலம் முன்கூட்டிய அணுகலை இயக்கலாம். GPT‑5.4 Pro மற்றும் Enterprise திட்டங்களில் கிடைக்கிறது. சூழல் சாளரங்கள்(புதிய சாளரத்தில் திறக்கும்) ChatGPT இல் GPT‑5.4 க்காக Thinking, GPT‑5.2 Thinking-இலிருந்து மாற்றமின்றி இருக்கும்.
GPT‑5.4 என்பது GPT‑5.3‑codex இன் அதிநவீன கோடிங் திறன்களை ஒருங்கிணைக்கும் எங்களின் முதல் மெயின்லைன் ரீஸனிங் மாடல் ஆகும், மேலும் அது ChatGPT, API மற்றும் Codex முழுவதும் வெளியிடப்படுகிறது. அந்த முன்னேற்றத்தை பிரதிபலிக்கவும், Codex ஐப் பயன்படுத்தும்போது மாடல்களுக்கிடையிலான தேர்வை எளிமைப்படுத்தவும், இதை GPT‑5.4 என்று அழைக்கிறோம். காலப்போக்கில், எங்கள் Instant மாடல்கள் மற்றும் Thinking மாடல்கள் வெவ்வேறு வேகங்களில் வளர்ச்சி அடையும் என்று நீங்கள் எதிர்பார்க்கலாம்.
Codex இல் உள்ள GPT‑5.4, 1M சூழல் சாளரத்திற்கு பரிசோதனை ஆதரவை உள்ளடக்கியுள்ளது. டெவலப்பர்கள் model_context_window மற்றும் model_auto_compact_token_limit உள்ளமைப்பதன் மூலம் இதை முயற்சிக்கலாம். நிலையான 272K சூழல் சாளரத்தை மீறும் கோரிக்கைகள், சாதாரண விகிதத்தின் 2x அளவில் பயன்பாட்டு வரம்புகளுக்கு எதிராகக் கணக்கிடப்படும்.
API இல், GPT‑5.4‑க்கு GPT‑5.2‑ஐ விட ஒவ்வொரு டோக்கனுக்கும் அதிக விலை நிர்ணயிக்கப்பட்டுள்ளது; இது அதன் மேம்பட்ட திறன்களை பிரதிபலிக்கிறது, அதே நேரத்தில் அதன் அதிக டோக்கன் திறன் பல பணிகளுக்கு தேவையான மொத்த டோக்கன்களின் எண்ணிக்கையை குறைக்க உதவுகிறது. பேட்ச் மற்றும் ஃப்ளெக்ஸ் பிரைசிங், ஸ்டாண்டர்ட் API விகிதத்தின் பாதி கட்டணத்தில் கிடைக்கிறது; அதே நேரத்தில் பிரையாரிட்டி பிராசசிங், ஸ்டாண்டர்ட் API விகிதத்தின் இரட்டிப்பு கட்டணத்தில் கிடைக்கிறது.
API மாடல் | உள்ளீடு விலை | தற்காலிக சேமிப்பு உள்ளீடு விலை | வெளியீடு விலை |
gpt-5.2 | $1.75 / M டோக்கன்கள் | $0.175 / M டோக்கன்கள் | $14 / M டோக்கன்கள் |
gpt-5.4 | $2.50 / M டோக்கன்கள் | $0.25 / M டோக்கன்கள் | $15 / M டோக்கன்கள் |
gpt-5.2-pro | $21 / M டோக்கன்கள் | - | $168 / M டோக்கன்கள் |
gpt-5.4-pro | $30 / M டோக்கன்கள் | - | $180 / M டோக்கன்கள் |
புரொஃபெஷனல்
எவல் | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83.0% | 82.0% | 70.9% | 70.9% | 74.1% |
FinanceAgent v1.1 | 56.0% | 61.5% | 54.0% | 59.5% | — |
முதலீட்டு வங்கி மாதிரியாக்கப் பணிகள் (உள்) | 87.3% | 83.6% | 79.3% | 68.4% | 71.7% |
OfficeQA | 68.1% | — | 65.1% | 63.1% | — |
கோடிங்
எவல் | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (Public) | 57.7% | — | 56.8% | 55.6% | — |
டெர்மினல்-பெஞ்ச் 2.0 | 75.1% | — | 77.3% | 62.2% | — |
கணினி பயன்பாடு மற்றும் காட்சி
எவல் | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld சரிபாரிக்கப்பட்டது | 75.0% | — | 74.0% | 47.3% | — |
MMMU Pro (கருவிகள் இல்லை) | 81.2% | — | — | 79.5% | — |
MMMU Pro (கருவிகளுடன்) | 82.1% | — | — | 80.4% | — |
கருவி பயன்பாடு
எவல் | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82.7% | 89.3% | 77.3% | 65.8% | 77.9% |
MCP Atlas | 67.2% | — | — | 60.6% | — |
Toolathlon | 54.6% | — | 51.9% | 45.7% | — |
Tau2-bench Telecom | 98.9% | — | — | 98.7% | — |
அகாடமிக் (கல்விசார்)
எவல் | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
அதிநவீன அறிவியல் ஆராய்ச்சி | 33.0% | 36.7% | — | 25.2% | — |
FrontierMath அடுக்கு 1–3 | 47.6% | — | — | 40.7% | — |
FrontierMath அடுக்கு 4 | 27.1% | 38.0% | — | 18.8% | 31.3% |
GPQA Diamond | 92.8% | 94.4% | 92.6% | 92.4% | 93.2% |
மனிதகுலத்தின் கடைசித் தேர்வு (கருவிகள் இல்லை) | 39.8% | 42.7% | — | 34.5% | 36.6% |
மனிதகுலத்தின் கடைசித் தேர்வு (கருவிகளுடன்) | 52.1% | 58.7% | — | 45.5% | 50.0% |
நீண்ட சூழல்
எவல் | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93.0% | — | — | 94.0% | — |
கிராஃப் வாக்ஸ் BFS 256K–1M | 21.4% | — | — | — | — |
Graphwalks பெற்றோர் 0–128K (துல்லியம்) | 89.8% | — | — | 89.0% | — |
Graphwalks பெற்றோர் 256K–1M (துல்லியம்) | 32.4% | — | — | — | — |
OpenAI MRCR v2 8-நீடில் 4K–8K | 97.3% | — | — | 98.2% | — |
OpenAI MRCR v2 8-நீடில் 8K–16K | 91.4% | — | — | 89.3% | — |
OpenAI MRCR v2 8-நீடில்கள் 16K–32K | 97.2% | — | — | 95.3% | — |
OpenAI MRCR v2 8-நீடில்கள் 32K–64K | 90.5% | — | — | 92.0% | — |
OpenAI MRCR v2 8-நீடில் 64K–128K | 86.0% | — | — | 85.6% | — |
OpenAI MRCR v2 8-நீடில் 128K–256K | 79.3% | — | — | 77.0% | — |
OpenAI MRCR v2 8-நீடில் 256K–512K | 57.5% | — | — | — | — |
OpenAI MRCR v2 8-நீடில் 512K–1M | 36.6% | — | — | — | — |
காரணவிளக்கமளித்தல் சிந்தனை
எவல் | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (சரிபார்க்கப்பட்டது) | 93.7% | 94.5% | — | 86.2% | 90.5% |
ARC-AGI-2 (சரிபார்க்கவும்) | 73.3% | 83.3% | — | 52.9% | 54.2% (அதிகம்) |
ரீஸனிங் இல்லாத Evals
எவல் | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (இயல்பாக்கப்பட்ட திருத்தத் தூரம்) | 0.109 | 0.140 | — |
Tau2-bench Telecom | 64.3% | 57.2% | 43.6% |
ரீஸனிங் effort xhigh ஆக அமைக்கப்பட்ட நிலையில் Evals இயக்கப்பட்டன, வேறுவிதமாக குறிப்பிடப்பட்ட இடங்களைத் தவிர. பெஞ்ச்மார்க் மதிப்பீடுகள் ஒரு ஆராய்ச்சி சூழலில் நடத்தப்பட்டன; சில சூழல்களில் இது ப்ரொடக்ஷன் ChatGPT‑இலிருந்து சிறிது வித்தியாசமான அவுட்புட் தரக்கூடும்.
ஆசிரியர்
அடிக்குறிப்புகள்
1 OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(புதிய சாளரத்தில் திறக்கும்) இல் மனித செயல்திறன் தெரிவிக்கப்பட்டுள்ளது.


