முக்கிய உள்ளடக்கத்திற்கு செல்க
OpenAI

GPT‑5.4 அறிமுகம்

தொழில்முறை பணிகளுக்காக வடிவமைக்கப்பட்டது

ஏற்றுகிறது…

இன்று, ChatGPT இல் GPT‑5.4 ஐ வெளியிடுகிறோம் (GPT‑5.4 Thinking), API, மற்றும் Codex. தொழில்முறை பணிகளுக்கான எங்களின் மிகவும் திறமையான மற்றும் திறன் மிகுந்த அதிநவீன மாடல். சிக்கலான பணிகளில் அதிகபட்ச செயல்திறனை விரும்பும் மக்களுக்காக, ChatGPT மற்றும் API-யில் GPT‑5.4 Pro ஐயும் நாங்கள் வெளியிடுகிறோம்.

GPT‑5.4 எங்களின் சமீபத்திய ரீஸனிங், கோடிங், மற்றும் ஏஜென்டிக் வொர்க்ஃப்ளோக்களில் உள்ள சிறந்த முன்னேற்றங்களை ஒரே அதிநவீன மாடலாக ஒன்றிணைக்கிறது. இது GPT‑5.3‑Codex இன் தொழில்துறையில் முன்னணி கோடிங் திறன்களை இணைத்துக்கொண்டு, கருவிகள், மென்பொருள் சூழல்கள், மற்றும் ஸ்பிரெட்ஷீட்கள், பிரெசென்டேஷன்கள், மற்றும் ஆவணங்களை உள்ளடக்கிய தொழில்முறை பணிகளிலெல்லாம் மாடல் செயல்படும் முறையை மேம்படுத்துகிறது. இதன் விளைவாக, சிக்கலான உண்மையான வேலைகளை துல்லியமாக, திறம்பட, மற்றும் செயல்திறனுடன் செய்து முடிக்கும் ஒரு மாடல் கிடைக்கிறது—குறைந்த முன்-பின் உரையாடலுடன் நீங்கள் கேட்டதை வழங்குகிறது.

ChatGPT இல், GPT‑5.4 Thinking இப்போது அதன் சிந்தனைக்கான முன்கூட்டிய திட்டத்தை வழங்க முடியும், அதனால் அது செயல்படும் போதே நீங்கள் பதிலின் நடுவில் பாதையைச் சரிசெய்யலாம் அது செயல்படும் போதே, மேலும் கூடுதல் சுற்றுகள் இல்லாமல் உங்களுக்கு தேவையானதுடன் மேலும் நெருக்கமாக ஒத்துப்போகும் இறுதி வெளியீட்டை பெறலாம். GPT‑5.4 சிந்தனை டீப் வெப் ரிசர்ச் ஐயும் மேம்படுத்துகிறது, குறிப்பாக மிகச் சிறப்பான கேள்விகளுக்காக, மேலும் நீண்ட சிந்தனை தேவைப்படும் கேள்விகளுக்கான சூழலை சிறப்பாகப் பராமரிக்கிறது. ஒன்றாக, இந்த மேம்பாடுகள் வேகமாக வந்து, கையிலுள்ள பணிக்குத் தொடர்புடையதாகத் தொடரும் உயர்தரப் பதில்களை வழங்குகின்றன.

Codex மற்றும் API இல், GPT‑5.4 என்பது நாங்கள் வெளியிட்ட முதல் பொதுவான பயன்பாட்டுக்கான மாடல்; இதில் நேட்டிவ், முன்னணி கணினி பயன்பாட்டு திறன்கள் உள்ளன, இதனால் ஏஜென்ட்கள் கணினிகளை இயக்கவும், பயன்பாடுகள் முழுவதும் சிக்கலான பணிப்பாய்வுகளை நிறைவேற்றவும் முடிகிறது. இது 1M டோக்கன்கள் வரை உள்ள சூழல் ஆதரிக்கிறது, இதனால் ஏஜென்ட்கள் நீண்ட கால வரம்புகளுக்கு அப்பால் பணிகளை திட்டமிட, செயல்படுத்த, மற்றும் சரிபார்க்க முடியும். GPT‑5.4, tool search உடன், கருவிகள் மற்றும் கனெக்டர்கள் கொண்ட பெரிய எகோசிஸ்டம்கள் முழுவதும் மாடல்கள் செயல்படும் முறையையும் மேம்படுத்துகிறது; இதனால் ஏஜென்ட்கள் புத்திசாலித்தனத்தை இழக்காமல் சரியான கருவிகளை மேலும் செயல்திறனுடன் கண்டுபிடித்து பயன்படுத்த உதவுகிறது. இறுதியாக, GPT‑5.4 என்பது எங்களின் மிக டோக்கன் செயல்திறன் கொண்ட ரீஸனிங் மாடல் இதுவரை; GPT‑5.2 உடன் ஒப்பிடும்போது, பிரச்சினைகளைத் தீர்க்க குறிப்பிடத்தக்க அளவில் குறைவான டோக்கன்களைப் பயன்படுத்துகிறது—இதன் விளைவாக டோக்கன் பயன்பாடு குறைந்து வேகம் அதிகரிக்கிறது.

பொது ரீஸனிங், கோடிங், மற்றும் தொழில்முறை அறிவுப் பணிகளில் ஏற்பட்ட முன்னேற்றங்களுடன் சேர்ந்து, GPT‑5.4 அதிக நம்பகமான ஏஜென்ட்கள், வேகமான டெவலப்பர் வொர்க்ஃப்ளோக்கள், மற்றும் ChatGPT, API, மற்றும் Codex முழுவதும் உயர்தரமான வெளியீடுகளை சாத்தியமாக்குகிறது.


GPT‑5.4 

GPT‑5.3‑Codex

GPT‑5.2

GDPval (வெற்றி அல்லது சமநிலை)

83.0%

70.9%

70.9%

SWE-Bench Pro (Public)

57.7%

56.8%

55.6%

OSWorld சரிபாரிக்கப்பட்டது

75.0%

74.0%* 

47.3%

Toolathlon

54.6%

51.9%

46.3%

BrowseComp

82.7%

77.3%

65.8%

*முன்பு 64.7% என அறிக்கையிடப்பட்டது. GPT‑5.3‑Codex அசல் படத் தீர்மானத்தைப் பாதுகாக்கும் புதிதாக அறிமுகப்படுத்தப்பட்ட API அளவுருவுடன் 74.0% ஐ அடைகிறது.

அறிவு வேலை

GPT‑5.2’s அடிப்படையில் உருவாக்கப்பட்டது பொதுவான ரீஸனிங் திறன்களுடன், GPT‑5.4 தொழில்முனைவோருக்கு முக்கியமான நிஜ உலக பணிகளில் மேலும் ஒருமைத்தன்மை கொண்ட மற்றும் மேம்பட்ட முடிவுகளை வழங்குகிறது.

On GDPval, 44 தொழில்களில் நன்கு வரையறுக்கப்பட்ட அறிவுப் பணிகளை உருவாக்க ஏஜென்ட்களின் திறன்களை சோதிக்கும் இதில், GPT‑5.4 ஒரு புதிய ஸ்டேட்-ஆஃப்-தி-ஆர்ட்டை அடைகிறது; ஒப்பீடுகளில் 83.0% -இல் தொழில்துறை நிபுணர்களுக்கு இணையாக அல்லது அவர்களை மீறி செயல்படுகிறது, GPT‑5.2‑க்கு 71.0% என்பதுடன் ஒப்பிடுகையில்.

GDPval இல், மாடல்கள் U.S. GDP-க்கு பங்களிக்கும் முன்னணி 9 தொழில்துறைகளிலிருந்து 44 தொழில்களை உள்ளடக்கிய நன்கு வரையறுக்கப்பட்ட அறிவுப் பணிகளை முயற்சிக்கின்றன. டாஸ்க்கள் விற்பனை பிரெசென்டேஷன்கள், கணக்கியல் ஸ்பிரெட்ஷீட்கள், அவசர பராமரிப்பு அட்டவணைகள், உற்பத்தி வரைபடங்கள், அல்லது குறுகிய வீடியோக்கள் போன்ற உண்மையான வேலை பொருட்களை கோருகின்றன. GPT‑5.4 க்கு ரீஸனிங் முயற்சி xhigh ஆகவும் GPT‑5.2 க்கு heavy ஆகவும் அமைக்கப்பட்டது (ChatGPT இல் சற்று குறைந்த நிலை).

“GPT-5.4 நாங்கள் இதுவரை முயற்சித்த மிகச் சிறந்த மாடல். தொழில்முறை சேவைகள் பணிகளுக்கான மாடல் செயல்திறனை அளவிடும் எங்கள் APEX-Agents பெஞ்ச்மார்க்கில் இது இப்போது லீடர்போர்டின் உச்சியில் உள்ளது. இது ஸ்லைடு டெக்குகள், நிதி மாடல்கள், மற்றும் சட்ட பகுப்பாய்வு போன்ற நீண்டகால வழங்கல்களை உருவாக்குவதில் சிறந்து விளங்குகிறது; போட்டியாளர்களின் அதிநவீன மாடல்களை விடவும் வேகமாகவும் மற்றும் குறைந்த செலவிலும் இயங்கிக்கொண்டே, உச்ச செயல்திறனை வழங்குகிறது.”
— பிரெண்டன் ஃபூடி, தலைமை நிர்வாக அதிகாரி, Mercor

GPT‑5.4 இன் மேம்பாட்டில் நாங்கள் குறிப்பிட்ட கவனம் செலுத்தினோம். விரிதாள்கள், விளக்கக்காட்சிகள் மற்றும் ஆவணங்களை உருவாக்கவும் திருத்தவும் உள்ள திறன். ஜூனியர் முதலீட்டு வங்கி ஆய்வாளர் செய்யக்கூடிய ஸ்பிரெட்ஷீட் மாடலிங் பணிகளுக்கான எங்கள் உள் அளவுகோலில், GPT‑5.4 87.5% என்ற சராசரி ஸ்கோரை அடைகிறது; GPT‑5.2‑க்கு 68.4% உடன் ஒப்பிடுகையில். விளக்கக்காட்சி மதிப்பீட்டு ப்ராம்ப்ட்களின் ஒரு தொகுப்பில், சிறந்த கலைநுணுக்கம், அதிகமான காட்சி பல்வகைமை, மற்றும் இமேஜ் ஜெனரேஷனை மேலும் திறம்பட பயன்படுத்துதல் ஆகிய காரணங்களால், மனித மதிப்பீட்டாளர்கள் GPT‑5.2‑இன் விளக்கக்காட்சிகளை விட GPT‑5.4‑இன் விளக்கக்காட்சிகளை 68.0% நேரங்களில் விரும்பினர்.

GPT-5.2 மற்றும் GPT-5.4 இலிருந்து விரிதாள் வெளியீடுகளின் பக்கப்பக்கமாக எடுத்துக்காட்டு

ஆவணங்கள் ரீஸனிங் முயற்சி xhigh ஆக அமைக்கப்பட்ட நிலையில் உருவாக்கப்பட்டன

ChatGPT இல் GPT‑5.4 ஐ பயன்படுத்தி இந்த திறன்களை நீங்கள் முயற்சி செய்யலாம் Thinking அல்லது Pro. நீங்கள் Enterprise வாடிக்கையாளராக இருந்தால், இன்று அறிமுகப்படுத்தப்பட்ட, புதிதாக வெளியிடப்பட்ட எங்கள் Excel மற்றும் Google Sheets க்கான ChatGPT பிளக்கின்களைப்(புதிய சாளரத்தில் திறக்கும்) பயன்படுத்த பரிந்துரைக்கிறோம். Codex மற்றும் API-யில் கிடைக்கும் எங்கள் ஸ்பிரெட்ஷீட்(புதிய சாளரத்தில் திறக்கும்) மற்றும் பிரெசென்டேஷன் திறன்களையும்(புதிய சாளரத்தில் திறக்கும்) நாங்கள் புதுப்பித்துள்ளோம்.

GPT‑5.4 ஐ உருவாக்க நிஜ உலகப் பணியில் சிறப்பாக செயல்பட, மாயத்தோற்றங்கள் மற்றும் தவறுகளை குறைப்பதில் எங்கள் முன்னேற்றத்தைத் தொடர்ந்து மேற்கொண்டோம். GPT‑5.4 எங்களின் இதுவரையிலான மிக உண்மைத்தன்மை கொண்ட மாடல்: பயனர்கள் உண்மைப் பிழைகளை குறித்த அடையாளம் நீக்கப்பட்ட ப்ராம்ப்ட் தொகுப்பில், GPT‑5.4’s தனிப்பட்ட கோரிக்கைகள் 33% அளவில் தவறானதாக இருக்கக் குறைவான வாய்ப்புள்ளது, மேலும் GPT‑5.2‑ஐ ஒப்பிடும்போது அதன் முழுப் பதில்களில் எந்தப் பிழைகளும் இருக்க 18% அளவில் குறைவான வாய்ப்புள்ளது.

“GPT-5.4 ஆவணங்கள் அதிகமாக உள்ள சட்டப் பணிக்கான புதிய தரநிலையை அமைக்கிறது. எங்களின் BigLaw Bench eval இல், இது 91% மதிப்பெண் பெற்றது. மற்ற மாடல்களுடன் ஒப்பிடுகையில், GPT-5.4 தற்போது சிக்கலான பரிவர்த்தனை பகுப்பாய்வை கட்டமைப்பதில், நீளமான ஒப்பந்தங்களெங்கும் துல்லியத்தை பராமரிப்பதில், மேலும் சட்ட நிபுணர்கள் தேவைப்படும் உயர்ந்த அளவிலான விவரங்களை வழங்குவதிலும் சிறந்ததாக உள்ளது.
— Niko Grupen, Harvey-இல் பயன்பாட்டு ஆராய்ச்சித் தலைவர்

கணினி பயன்பாடு மற்றும் காட்சி

GPT‑5.4 என்பது இயல்பாக கணினி பயன்பாட்டு திறன்கள் கொண்ட எங்களின் முதல் பொதுப் பயன்பாட்டு மாடல் ஆகும்; மேலும் இது டெவலப்பர்கள் மற்றும் ஏஜென்ட்கள் இருவருக்கும் ஒரு முக்கிய முன்னேற்றத்தை குறிக்கிறது. வலைத்தளங்கள் மற்றும் மென்பொருள் அமைப்புகள் முழுவதும் உண்மையான பணிகளை முடிக்கும் ஏஜென்ட்களை உருவாக்கும் டெவலப்பர்களுக்காக தற்போது கிடைக்கக்கூடிய சிறந்த மாடல் இதுவே.

பல்வேறு வகையான கணினி-பயன்பாட்டு பணிச்சுமைகளில் சிறந்த செயல்திறன் வழங்கும் வகையில் GPT‑5.4 ஐ நாங்கள் வடிவமைத்துள்ளோம். Playwright போன்ற நூலகங்கள் மூலம் கணினிகளை இயக்குவதற்கான கோடிங் எழுதுவதிலும், ஸ்கிரீன்ஷாட்களுக்கு பதிலாக மவுஸ் மற்றும் கீபோர்டு கட்டளைகளை வழங்குவதிலும் இது சிறந்து விளங்குகிறது. இதன் நடத்தை டெவலப்பர் மெசேஜ்கள் மூலம் கட்டுப்படுத்தக்கூடியது; அதாவது, குறிப்பிட்ட பயன்பாட்டு நிலைகளுக்கு ஏற்ப நடத்தை மாற்ற டெவலப்பர்கள் அதைச் சரிசெய்யலாம். டெவலப்பர்கள், தனிப்பயன் உறுதிப்படுத்தல் கொள்கைகளை குறிப்பிடுவதன் மூலம், வெவ்வேறு அளவிலான ஆபத்து சகிப்புத்தன்மைக்கு ஏற்ப மாடலின் பாதுகாப்பு நடத்தையை கூட கட்டமைக்கலாம்.

மாடலின் செயல்திறனும் நெகிழ்வுத்தன்மையும், வெவ்வேறு சூழல்களில் கணினி பயன்பாட்டைச் சோதிக்கும் பெஞ்ச்மார்க்கள் முழுவதும் பிரதிபலிக்கின்றன. OSWorld-Verified ல், ஸ்கிரீன்ஷாட்கள் மற்றும் கீபோர்டு/மவுஸ் செயல்கள் மூலம் ஒரு டெஸ்க்டாப் சூழலில் வழிசெலுத்தும் ஒரு மாடலின் திறனை அளக்கும் இதில், GPT‑5.4 ஒரு ஸ்டேட்-ஆஃப்-தி-ஆர்ட் 75.0% அடைகிறது வெற்றி விகிதம், GPT‑5.2’s ஐ விட மிக அதிகமாக 47.3%, மேலும் 72.4%1இல் மனித செயல்திறனை மிஞ்சுகிறது.

உலாவி பயன்பாட்டை சோதிக்கும் WebArena-Verified இல், DOM- மற்றும் ஸ்கிரீன்ஷாட்-அடிப்படையிலான தொடர்பாடலை இரண்டையும் பயன்படுத்தும் போது GPT‑5.4 முன்னணியான 67.3% வெற்றி விகிதத்தை அடைகிறது; இது GPT‑5.2 இன் 65.4% உடன் ஒப்பிடுகையில். Online-Mind2Web இல், இது உலாவி பயன்பாட்டையும் சோதிக்கிறது, GPT‑5.4 ஸ்கிரீன்ஷாட்-அடிப்படையிலான கவனிப்புகளை மட்டும் பயன்படுத்தி 92.8% வெற்றிவிகிதத்தை அடைகிறது; இது 70.9% வெற்றிவிகிதத்தை அடையும் ChatGPT Atlas’s Agent Mode-ஐ விட மேம்பட்டதாகும்.

கருவி மகசூல் என்பது ஒரு உதவியாளர் கருவி பதில்களுக்காகக் காத்திருக்கும்போது ஏற்படும் விளைவு ஆகும். 3 கருவிகள் இணையாக அழைக்கப்பட்டு, அதைத் தொடர்ந்து 3 கருவிகள் இணையாக அழைக்கப்பட்டால், விளைச்சல்களின் எண்ணிக்கை 2 ஆக இருக்கும். கருவி அழைப்புகளை விட கருவி விளைச்சல்கள் தாமதத்தின் சிறந்த ப்ராக்ஸி ஆகும், ஏனெனில் அவை இணைப்படுத்தலின் நன்மைகளைப் பிரதிபலிக்கின்றன.

GPT‑5.4 உலாவி இடைமுகத்தின் ஸ்கிரீன்ஷாட்களை விளக்கி, ஒருங்கிணைப்பு-அடிப்படையிலான கிளிக்கிங் மூலம் UI கூறுகளுடன் தொடர்பு கொண்டு மின்னஞ்சல்களை அனுப்பவும் ஒரு காலண்டர் நிகழ்வை திட்டமிடவும் செய்கிறது.

GPT‑5.4‑இன் மேம்படுத்தப்பட்ட கணினி பயன்பாடு, மாடலின் மேம்படுத்தப்பட்ட பொது காட்சி உணர்திறன் திறன்களை அடிப்படையாகக் கொண்டது. MMMU-Pro இல், ஒரு மாடலின் காட்சி புரிதல் மற்றும் ரீஸனிங் சோதனையில், GPT‑5.4 கருவி பயன்பாடின்றி 81.2% வெற்றி விகிதத்தை அடைகிறது, இது GPT‑5.2‑இன் 79.5%. மேம்படுத்தப்பட்ட காட்சி உணர்திறன் மேலும் சிறந்த ஆவண பகுப்பாய்வு திறன்களாகவும் மாறுகிறது. OmniDocBench-இல், ரீஸனிங் முயற்சியின்றி GPT‑5.4 சராசரி பிழை (மாடல் கணிப்பு மற்றும் ground truth இடையிலான normalized edit distance மூலம் அளவிடப்பட்டது) 0.109 என்பதை அடைகிறது; இது GPT‑5.2‑இன் 0.140 இலிருந்து மேம்பட்டது.

MMMUPro ரீஸனிங் முயற்சி xhigh ஆக அமைக்கப்பட்ட நிலையில் இயக்கப்பட்டது. குறைந்த செலவு, குறைந்த தாமத செயல்திறனை பிரதிபலிக்க, OmniDocBench ரீஸனிங் முயற்சி none என அமைக்கப்பட்ட நிலையில் இயக்கப்பட்டது.

முழு துல்லியத்தன்மை முக்கியமான அடர்த்தியான, உயர்-தீர்மானப் படங்களுக்கான காட்சி புரிதலையும் நாங்கள் மேம்படுத்தி வருகிறோம். GPT‑5.4 முதல், மொத்தம் 10.24M பிக்சல்கள் அல்லது 6000-pixel அதிகபட்ச பரிமாணம் (இவற்றில் எது குறைவோ) வரை முழுத் துல்லியமான உணர்திறனை ஆதரிக்கும் original பட input detail(புதிய சாளரத்தில் திறக்கும்) நிலையை நாங்கள் அறிமுகப்படுத்துகிறோம்; high பட input detail நிலை இப்போது மொத்தம் 2.56M பிக்சல்கள் அல்லது 2048-pixel அதிகபட்ச பரிமாணம் (இவற்றில் எது குறைவோ) வரை ஆதரிக்கிறது. API பயனர்களுடன் ஆரம்பகட்ட சோதனைகளில், original அல்லது high detail பயன்படுத்தும்போது localization திறன், படப் புரிதல், மற்றும் click துல்லியம் ஆகியவற்றில் வலுவான முன்னேற்றங்களை நாங்கள் கவனித்தோம்.

“~30K HOA மற்றும் சொத்து வரி போர்டல்களில் கணினி பயன்பாட்டு செயல்திறனை அளவிடும் எங்கள் evals-இல், முந்தைய CUA மாடல்களுடன் ~73–79% இருந்ததை ஒப்பிடும்போது, GPT-5.4 முதல் முயற்சியிலேயே 95% வெற்றி விகிதத்தையும், மூன்று முயற்சிகளுக்குள் 100% வெற்றி விகிதத்தையும் அடைந்தது. மேலும், இது ~3x வேகமாக செஷன்களை முடித்ததுடன், ~70% குறைவான டோக்கன்களைப் பயன்படுத்தி, அளவிலான நம்பகத்தன்மை மற்றும் செலவு செயல்திறனை கணிசமாக மேம்படுத்தியது."
— Dod Fraser, Mainstay நிறுவனத்தின் தலைமை நிர்வாக அதிகாரி

API-யில், டெவலப்பர்கள் புதுப்பிக்கப்பட்ட computer கருவியை பயன்படுத்தி இந்த திறன்களை அணுகலாம். பரிந்துரைக்கப்படும் சிறந்த நடைமுறைகளுக்காக எங்கள் புதுப்பிக்கப்பட்ட ஆவணங்களை(புதிய சாளரத்தில் திறக்கும்) பார்க்கவும்.

குறியீடாக்கம்

GPT‑5.4, GPT‑5.3‑Codex இன் கோடிங் பலங்களை முன்னணி அறிவுப் பணி மற்றும் கணினி பயன்பாட்டுத் திறன்களுடன் இணைக்கிறது; இவை, மாடல் கருவிகளைப் பயன்படுத்தி, மீண்டும் மீண்டும் முயன்று, குறைந்த கைமுறை தலையீட்டுடன் பணியை மேலும் முன்னெடுக்க முடியும் நீண்டகாலப் பணிகளில் மிக முக்கியமாகும். ரீஸனிங் முயற்சிகள் முழுவதிலும் குறைந்த லேட்டென்சியுடன் இருக்கும் போதே, SWE-Bench Pro இல் GPT‑5.3‑Codex ஐ ஒத்ததாக அல்லது அதைவிட சிறப்பாக செயல்படுகிறது.

எங்கள் மாடல்கள் புரொடக்ஷன் நடத்தையைப் பார்த்து, இதை ஆஃப்லைனில் சிமுலேட் செய்து, தாமதத்தை நாங்கள் மதிப்பீடு செய்கிறோம். தாமத மதிப்பீடு கருவி அழைப்பு கால அளவு (குறியீடு செயல்படுத்தும் நேரம்), மாதிரி எடுக்கப்பட்ட டோக்கன்கள் மற்றும் உள்ளீட்டு டோக்கன்களை கணக்கில் எடுத்துக்கொள்கிறது. நிஜ உலக தாமதம் கணிசமாக மாறலாம், மேலும் எங்கள் சிமுலேஷனில் பிடிக்கப்படாத பல காரணிகளின் மீது அது சார்ந்துள்ளது. ரீஸனிங் முயற்சிகள் none இலிருந்து xhigh வரை உயர்த்தப்பட்டன.

Codex -ல் /ஃபாஸ்ட் பயன்முறையை மாற்றும்போது, GPT‑5.4 உடன் 1.5 மடங்கு வேகமான டோக்கன் வேகத்தை வழங்குகிறது. அதே மாடலும் அதே நுண்ணறிவும் தான், ஆனால் இன்னும் வேகமாக. அதாவது, பயனர்கள் செயல்பாட்டில் இருக்கும்போதே குறியீட்டுப் பணிகள், மீண்டும் மீண்டும் செயல்படுத்தல், மற்றும் பிழை திருத்தம் ஆகியவற்றை மேற்கொண்டு செல்ல முடியும். டெவலப்பர்கள் API மூலம் பிரையாரிட்டி பிராசசிங்(புதிய சாளரத்தில் திறக்கும்) ஐப் பயன்படுத்தி அதே வேகமான வேகங்களில் GPT‑5.4 ஐ அணுகலாம்.

மதிப்பீடு மற்றும் உள் சோதனைகளில், GPT‑5.4 சிக்கலான ஃப்ரண்ட்-எண்ட் பணிகளில் சிறந்து விளங்குகிறது; நாங்கள் முன்பு வெளியிட்ட எந்த மாடல்களையும் விட குறிப்பிடத்தக்க அளவில் அதிக அழகியல் மற்றும் அதிக செயல்பாட்டுத் திறன் கொண்ட முடிவுகளை வழங்குகிறது.

மாடலின் மேம்படுத்தப்பட்ட கணினி பயன்பாடு மற்றும் குறியீட்டு திறன்கள் இணைந்து செயல்படுவதை ஒரு டெமோவாக காட்டுவதற்காக, “Playwright (Interactive)(புதிய சாளரத்தில் திறக்கும்)” எனப்படும் ஒரு பரிசோதனை Codex திறனையும் நாங்கள் வெளியிடுகிறோம். இது Codex-க்கு வலை மற்றும் Electron செயலிகளை காட்சிப்பூர்வமாக பிழைத்திருத்த அனுமதிக்கிறது; அது உருவாக்கிக்கொண்டிருக்கும் போதே, அது உருவாக்கும் செயலியையே சோதிக்கவும் இதைப் பயன்படுத்தலாம்.

GPT‑5.4 மூலம் உருவாக்கப்பட்ட தீம் பார்க் சிமுலேஷன் கேம்; ஒரே ஒரு லேசாக விவரிக்கப்பட்ட ப்ராம்ப்ட்டிலிருந்து உருவாக்கப்பட்டது, உலாவி பிளேடெஸ்டிங்கிற்காக பிளேரைட்இன்டர்ஐடிவ்-ஐவும், ஐசோமெட்ரிக் அசெட் செட்டிற்காக இமேஜ் ஜெனரேஷன் பயன்படுத்தி. இந்த உருவகப்படுத்துதலில் ஓடு அடிப்படையிலான பாதை இடம், சவாரி மற்றும் காட்சியமைப்பு கட்டுமானம், விருந்தினர் பாதை கண்டறிதல், வரிசைப்படுத்துதல் மற்றும் சவாரி சுழற்சிகள் ஆகியவை அடங்கும், அதே நேரத்தில் பணம், விருந்தினர் எண்ணிக்கை, மகிழ்ச்சி, தூய்மை மற்றும் மதிப்பீடு உயர்வு அல்லது வீழ்ச்சி போன்ற பூங்கா அளவீடுகள் தளவமைப்பு எவ்வாறு செயல்படுகிறது மற்றும் விருந்தினர்கள் அதற்கு எவ்வாறு பிரதிபலிக்கிறார்கள் என்பதைப் பொறுத்தது. Playwright ஆனது, பூங்காவை கட்டி விரிவுபடுத்துதல், பாதைகள் மற்றும் ஈர்ப்புகளை அமைத்தல் மற்றும் அகற்றுதல், கேமரா வழிசெலுத்தலைச் சரிபார்த்தல், மேலும் பல சுற்று விளையாட்டுகளின் போது விருந்தினர்கள், வரிசைகள், ரைடு நிலைகள், மற்றும் UI அளவுகோல்கள் சரியாக புதுப்பிக்கப்பட்டனவா என்பதை உறுதிப்படுத்துதல் ஆகியவற்றின் மூலம் உலாவி பிளேடெஸ்ட்களை தானியக்கமாக்க பயன்படுத்தப்பட்டது.

ப்ராம்ப்ட்: $playwright-interactive மற்றும் $imagegen ஐ பயன்படுத்துங்கள். உலாவியில் நான் உருவாக்கவும் வழிசெலுத்தவும் முடியும் வகையில் ஒரு இன்டராக்டிவ் ஐசோமெட்ரிக் தீம் பார்க் சிமுலேஷன் கேமை உருவாக்குங்கள். மொத்த காட்சி நோக்கத்தை நிறுவவும், ரைட்கள், பாதைகள், நிலப்பரப்பு, மரங்கள், நீர், உணவு ஸ்டால்கள், அலங்காரங்கள், கட்டிடங்கள், ஐகான்கள், மற்றும் UI விளக்கப்படங்கள் உள்ளிட்ட கேமின் அசெட்களை உருவாக்கவும் imagegen ஐ பயன்படுத்துங்கள். உலகம் ஒருங்கிணைந்ததாகவும், பளிச்சென்றதாகவும், காட்சியளவில் செழுமையாகவும் உணரப்பட வேண்டும்; ஐசோமெட்ரிக் பார்வையில் நன்றாக வேலை செய்யும் பிரீமியம் ஆர்ட் டைரெக்ஷனுடன். நான் பாதைகளை வைக்கவும் அகற்றவும், ஈர்ப்புகளைச் சேர்க்கவும், காட்சிப் பொருட்களை இடமமைக்கவும், விருந்தினர் செயல்பாடு, ரைடு நிலை, மற்றும் பார்க் வளர்ச்சி ஆகியவற்றை கண்காணித்தபடி பார்க் முழுவதும் மென்மையாக நகரவும் அனுமதியுங்கள். நம்பத்தகுந்த விருந்தினர் இயக்கம், பணம், சுத்தம், வரிசையில் நிற்குதல், மற்றும் மகிழ்ச்சி போன்ற எளிய பார்க் மேலாண்மை அமைப்புகளைச் சேர்க்கவும், மேலும் அனுபவம் ஒரு கரடுமுரடான புரோட்டோடைப் போல அல்லாமல் விளையாட்டுத்தனமாகவும், தெளிவாகவும், முழுமையாகவும் உணரப்பட வேண்டும். யதார்த்தத்தை விட கவர்ச்சி, வாசிப்புத் தெளிவு, மற்றும் வலுவான கேம் ஃபீல் ஆகியவற்றுக்கு முன்னுரிமை கொடுங்கள். 

ப்ளே டெஸ்டிங் செய்யும்போது, பல சுற்றுகள் விளையாட்டின் மூலம் ஒரு பூங்காவை கட்டி விரிவுபடுத்துவதை உறுதிசெய்யவும், இடமமைப்பு மற்றும் வழிசெலுத்தல் சீராக செயல்படுகிறதா என்பதைச் சரிபார்க்கவும், விருந்தினர்கள் பூங்கா அமைப்பு மற்றும் ஈர்ப்புகளுக்கு எப்படி எதிர்வினையளிக்கிறார்கள் என்பதை உறுதிப்படுத்தவும், மேலும் காட்சிகள், UI, மற்றும் தொடர்புகள் நிலையானதாகவும் ஒருமைப்பாட்டுடனும் உணரப்படுவதை உறுதிசெய்யவும்.

“எங்கள் பொறியாளர்கள் GPT-5.4 ஐ கண்டறிகிறார்கள் முந்தைய மாடல்களை விட இயல்பாகவும் உறுதியானதாகவும் உள்ளது. இது தெளிவற்ற சிக்கல்களைத் தீர்க்கிறது, எந்த சந்தேகமும் இல்லாமல் செயல்படுகிறது, மேலும் விஷயங்களை நகர்த்துவதற்கு இணையான வேலையைச் செய்வதில் இது முனைப்புடன் செயல்படுகிறது.
— Lee Robinson, Cursor-இல் டெவலப்பர் கல்வி துணை தலைவர்

கருவி பயன்பாடு

GPT‑5.4 உடன், வெளியுறு கருவிகளுடன் மாடல்கள் செயல்படும் முறையை நாங்கள் குறிப்பிடத்தக்க அளவில் மேம்படுத்தியுள்ளோம். ஏஜென்ட்கள் இப்போது பெரிய டூல் ஈகோசிஸ்டம்களுக்குள் செயல்படவும், சரியான டூல்களை மேலும் நம்பகமாகத் தேர்வு செய்யவும், மேலும் குறைந்த செலவும் லேட்டென்சியுடனும் மல்டி-ஸ்டெப் வேலைப்போக்குகளை நிறைவேற்றவும் முடியும்.

கருவி தேடல்

APIயில், GPT‑5.4 கருவி தேடல்(புதிய சாளரத்தில் திறக்கும்) ஐ அறிமுகப்படுத்துகிறது, இது பல கருவிகள் வழங்கப்பட்டால் மாடல்கள் திறம்பட வேலை செய்ய அனுமதிக்கிறது.

முன்னதாக, ஒரு மாடலுக்கு டூல்ஸ் வழங்கப்பட்டபோது, அனைத்து டூல் வரையறைகளும் ப்ராம்ப்ட்டில் முன்கூட்டியே சேர்க்கப்பட்டிருந்தன. பல கருவிகள் உள்ள அமைப்புகளுக்கு, இது ஒவ்வொரு கோரிக்கைக்கும் ஆயிரக்கணக்கான அல்லது பத்தாயிரக்கணக்கான டோக்கன்களைச் சேர்க்கக்கூடும்; இதனால் செலவு அதிகரித்து, பதில்கள் மெதுவாகி, மாடல் ஒருபோதும் பயன்படுத்தாமல் இருக்கக்கூடிய தகவல்களால் சூழல் நிரம்பிவிடும்.

கருவி தேடலுடன், GPT‑5.4 அதற்கு பதிலாக கிடைக்கக்கூடிய கருவிகளின் இலகுவான பட்டியலையும் கருவி தேடல் திறனையும் பெறுகிறது. மாடல் ஒரு கருவியைப் பயன்படுத்த வேண்டியிருக்கும் போது, அந்த கருவியின் வரையறையைத் தேடிப் பார்த்து, அந்த நேரத்தில் அதை உரையாடலுடன் இணைக்கலாம்.

இந்த அணுகுமுறை கருவி-அதிகமான பணிப்பாய்வுகளுக்கு தேவையான டோக்கன்களின் எண்ணிக்கையை கணிசமாகக் குறைத்து, தற்காலிக சேமிப்பை பாதுகாக்கிறது; இதனால் கோரிக்கைகள் மேலும் வேகமாகவும் குறைந்த செலவிலும் அமைகின்றன. இது ஏஜென்ட்கள் மிகப் பெரிய கருவி சூழலமைப்புகளுடன் நம்பகமாக வேலை செய்யவும் உதவுகிறது. பத்தாயிரக்கணக்கான கருவி வரையறை டோக்கன்களை கொண்டிருக்கக்கூடிய MCP சர்வர்களுக்கு, திறன் மேம்பாட்டால் கிடைக்கும் பலன்கள் கணிசமாக இருக்கலாம்.

திறன் மேம்பாடுகளை காட்டுவதற்காக, Scale’s MCP Atlas(புதிய சாளரத்தில் திறக்கும்) பெஞ்ச்மார்க்கிலிருந்து 250 பணிகளை, அனைத்து 36 MCP சர்வர்களும் இயக்கப்பட்ட நிலையில், இரண்டு முறைகளில் மதிப்பீடு செய்தோம்: (1) ஒவ்வொரு MCP செயல்பாட்டையும் மாடல் சூழலில் நேரடியாக வெளிப்படுத்துவது, மற்றும் (2) அனைத்து MCP சர்வர்களையும் கருவி தேடலின் பின்னால் வைப்பது. கருவி தேடல் கட்டமைப்பு, அதே துல்லியத்தைப் பெறும் நிலையில் மொத்த டோக்கன் பயன்பாட்டை 47% குறைத்தது.

உதாரண டோக்கன் எண்ணிக்கைகள் MCP-Atlas பொது தரவுத்தொகுப்பில் உள்ள 250 பணிகளின் சராசரியிலிருந்து பெறப்பட்டவை.

ஏஜென்டிக் கருவி அழைப்பு

GPT‑5.4 மேலும் tool calling ஐ மேம்படுத்துகிறது; குறிப்பாக API-யில், ரீஸனிங் செய்யும் போது கருவிகளை எப்போது மற்றும் எவ்வாறு பயன்படுத்த வேண்டும் என்பதை முடிவு செய்வதில் இதை மேலும் துல்லியமாகவும் திறமையாகவும் ஆக்குகிறது.  GPT‑5.2 உடன் ஒப்பிடுகையில், இது Toolathlon இல் குறைந்த திருப்பங்களில் அதிக துல்லியத்தை அடைகிறது; இது AI ஏஜன்ட்கள் நிஜ உலக கருவிகள் மற்றும் APIகளைப் பயன்படுத்தி பல-படி பணிகளை முடிக்க எவ்வளவு நன்றாக முடியும் என்பதை சோதிக்கும் ஒரு அளவுகோல். உதாரணமாக, ஒரு ஏஜென்ட் மின்னஞ்சல்களைப் படிக்க, பணிக்கான இணைப்புகளைப் பிரித்தெடுக்க, அவற்றைப் பதிவேற்ற, அவற்றுக்கு மதிப்பெண் அளிக்க மற்றும் முடிவுகளை ஒரு விரிதாளில் பதிவு செய்ய வேண்டும்.

கருவி மகசூல் என்பது ஒரு உதவியாளர் கருவி பதில்களுக்காகக் காத்திருக்கும்போது ஏற்படும் விளைவு ஆகும். 3 கருவிகள் இணையாக அழைக்கப்பட்டு, அதைத் தொடர்ந்து 3 கருவிகள் இணையாக அழைக்கப்பட்டால், விளைச்சல்களின் எண்ணிக்கை 2 ஆக இருக்கும். கருவி அழைப்புகளை விட கருவி விளைச்சல்கள் தாமதத்தின் சிறந்த ப்ராக்ஸி ஆகும், ஏனெனில் அவை இணைப்படுத்தலின் நன்மைகளைப் பிரதிபலிக்கின்றன.

லேட்டன்சி-சென்ஸிடிவ் பயன்பாட்டு நிகழ்வுகளுக்காக ரீஸனிங் முயற்சி எதுவும் இல்லாமல் இருப்பது விரும்பப்படும் போது, GPT‑5.4 அதன் முன்னோடிகளை விட மேலும் மேம்படுத்துகிறது.

In τ2-bench⁠(புதிய சாளரத்தில் திறக்கும்) இல், ஒரு மாடல் வாடிக்கையாளர் சேவை பணியை நிறைவேற்ற கருவிகளைப் பயன்படுத்த வேண்டும்; அங்கு தொடர்பு கொள்ளக்கூடிய மற்றும் உலக நிலைமையில் நடவடிக்கைகள் எடுக்கக்கூடிய ஒரு உருவக பயனர் இருக்கலாம். ரீஸனிங் முயற்சி None ஆக அமைக்கப்பட்டது.

மேம்படுத்தப்பட்ட வெப் தேடல்

GPT‑5.4 ஏஜென்ட் இணைய தேடலில் சிறந்தது. BrowseComp இல், AI ஏஜென்ட்கள் கடினமாகக் கண்டுபிடிக்கக்கூடிய தகவலைத் தேட வலைத்தளத்தை தொடர்ந்து உலாவுவதில் எவ்வளவு நன்றாக செயல்படுகின்றன என்பதற்கான ஒரு அளவீட்டில், GPT‑5.4, GPT‑5.2 ஐ விட 17%abs உயர்ந்து முன்னேறுகிறது, மற்றும் GPT‑5.4 Pro 89.3% என்ற புதிய கலை நிலையை அமைக்கிறது.

நடைமுறையில், இதன் பொருள் GPT‑5.4 Thinking என்பது இணையத்தில் உள்ள பல மூலங்களிலிருந்து தகவல்களை ஒன்றிணைக்க வேண்டிய கேள்விகளுக்கு பதிலளிப்பதில் மேலும் வலுவாக உள்ளது. பல சுற்றுகளாக தொடர்ந்து தேடலை மேற்கொண்டு மிகத் தொடர்புடைய ஆதாரங்களை அடையாளம் காணவும், குறிப்பாக “needle-in-a-haystack” வகை கேள்விகளுக்கு, அவற்றைத் தெளிவான, நன்றாக காரணமூட்டப்பட்ட பதிலாக ஒருங்கிணைக்கவும் இது முடியும்.

BrowseComp இல், செயல்திறனின் நியாயமான அளவீட்டை உறுதி செய்யவும், மாசுபாட்டைத் தடுக்கவும், மதிப்பீட்டிலிருந்து பெஞ்ச்மார்க் பதில்களை கொண்டுள்ள வலைத்தளங்களை விலக்கும் ஒரு தேடல் தடைப்பட்டியலை நாங்கள் பயன்படுத்தினோம். GPT‑5.4, GPT‑5.2 விட பின்னர் தேதியில் அளவிடப்பட்டது. எனவே மதிப்பெண்கள் மாடல், எங்கள் தேடல் அமைப்பு, மற்றும் இணையத்தின் நிலை ஆகியவற்றில் ஏற்படும் மாற்றங்களை பிரதிபலிக்கின்றன. GPT‑5.4 ஒரு நீளமான, புதுப்பிக்கப்பட்ட தடைப் பட்டியலுடன் சோதிக்கப்பட்டது. மாடல்கள் ChatGPT தேடல் கருவியைப் பயன்படுத்துகின்றன, இது API தேடலிலிருந்து சிறிய வேறுபாடுகளை கொண்டிருக்கலாம்.

“GPT-5.4 xhigh பல-படிக் கருவி பயன்பாட்டிற்கான புதிய கலை நிலை. Zapier தொழில்துறையில் மிகக் கடுமையான கருவி பயன்பாட்டு பெஞ்ச்மார்க்களில் சிலவற்றை நடத்துகிறது; நூற்றுக்கணக்கான மேம்பட்ட நிஜ உலக வேலைப்பாய்வுகள் முழுவதும் மாடல்களைச் சோதிக்கிறது. GPT-5.4 முந்தைய மாடல்கள் கைவிட்ட இடத்தில் பணியை முடித்தது - இன்றுவரை மிக விடாமுயற்சியான மாடல்.”
— Wade, Zapier நிறுவனத்தின் தலைமை நிர்வாக அதிகாரி

வழிநடத்தும் திறன்

Codex தனது வேலை தொடங்கும் போது தனது அணுகுமுறையை எவ்வாறு விளக்குகிறதோ அதேபோல், GPT‑5.4 தனது செயல்பாட்டை விளக்குகிறது ChatGPT இல் சிந்தனை இப்போது நீளமான மற்றும் சிக்கலான கேள்விகளுக்கு முன்குறிப்புடன் தனது பணியை விளக்கமாகக் காட்டும். நீங்கள் வழிமுறைகளையும் சேர்க்கலாம் அல்லது பதிலின் நடுவில் அதன் திசையை மாற்றலாம். இது, மீண்டும் தொடங்காமல் அல்லது பல கூடுதல் முயற்சிகள் தேவையில்லாமல், நீங்கள் விரும்பும் துல்லியமான முடிவை நோக்கி மாடலை வழிநடத்த எளிதாக்குகிறது. இந்த அம்சம் தற்போது chatgpt.com(புதிய சாளரத்தில் திறக்கும்) மற்றும் ஆண்ட்ராய்டு செயலியில் கிடைக்கிறது, iOS செயலிக்கு விரைவில் கிடைக்கும்.

மாடல், உரையாடலில் முந்தைய படிகளின் மீது வலுவான விழிப்புணர்வை பராமரித்தபடியே, கடினமான பணிகளில் மேலும் நீண்ட நேரம் சிந்திக்கவும் முடியும். இது நீண்ட பணிப்பாய்வுகளையும் மேலும் சிக்கலான ப்ராம்ப்ட்களையும் கையாள அனுமதிக்கிறது; அதே நேரத்தில் முழுவதும் பதில்கள் ஒற்றுமையாகவும் தொடர்புடையதாகவும் இருக்கச் செய்கிறது.

இந்த வீடியோ விளக்க நோக்கங்களுக்காக வேகமாக்கப்பட்டது.

பாதுகாப்பு

கடந்த சில மாதங்களில், GPT‑5.3‑Codex உடன் நாங்கள் அறிமுகப்படுத்திய பாதுகாப்பு நடவடிக்கைகளை தொடர்ந்து மேம்படுத்தியுள்ளோம்; அதே நேரத்தில் GPT‑5.4 ஐ வெளியீட்டிற்காக தயாரித்து வருகிறோம். GPT‑5.3‑Codex போல, பிரிபேர்ட்நெஸ் ஃப்ரேம்வொர்க்-இல், GPT‑5.4 ஐ உயர் சைபர் திறன் கொண்டதாக நாங்கள் கருதுகிறோம், மேலும் சிஸ்டம் கார்ட்-இல் ஆவணப்படுத்தப்பட்டுள்ள தொடர்புடைய பாதுகாப்புகளுடன் அதை நாங்கள் பயன்படுத்துகிறோம். இவற்றில் விரிவாக்கப்பட்ட சைபர் பாதுகாப்பு ஸ்டாக், கண்காணிப்பு அமைப்புகள், நம்பகமான அணுகல் கட்டுப்பாடுகள், மேலும் ஜீரோ டேட்டா ரிடென்ஷன் (ZDR) மேற்பரப்புகளில் உள்ள வாடிக்கையாளர்களுக்கான அதிக ஆபத்துள்ள கோரிக்கைகளுக்கு அசிங்க்ரோனஸ் தடை செய்தல் ஆகியவை அடங்கும்; இதனுடன், பரந்த பாதுகாப்பு சூழலமைப்பில் தொடர்ச்சியான முதலீடும் இடம்பெறுகிறது.

சைபர் பாதுகாப்பு திறன்கள் இயல்பாகவே இரட்டை பயன்பாட்டுக்குரியவை என்பதால், எங்கள் கொள்கைகள் மற்றும் வகைப்படுத்திகளை தொடர்ந்து சரிசெய்து வரும் போது, செயல்படுத்துவதில் முன்னெச்சரிக்கை அணுகுமுறையை நாங்கள் பின்பற்றுகிறோம். ZDR surfaces இல் உள்ள சில வாடிக்கையாளர்களுக்கு, கோரிக்கை-நிலை தடை எங்கள் சைபர் ஆபத்து குறைப்பு அடுக்கின் ஒரு பகுதியாகவே உள்ளது; வகைப்படுத்திகள் இன்னும் மேம்பட்டு வருவதால், இந்த பாதுகாப்பு ஏற்பாடுகளை மேம்படுத்துவதைத் தொடர்ந்து மேற்கொள்ளும் போது சில தவறான நேர்மறைகள் ஏற்படலாம். இந்த புதுப்பிப்புகள், தவறாகப் பயன்படுத்துவதற்கு எதிரான வலுவான பாதுகாப்புகளைப் பேணிக்கொண்டே, நடைமுறையில் பாதுகாப்பு நடவடிக்கைகள் செயல்படும் முறையை மேம்படுத்துவதை நோக்கமாகக் கொண்டுள்ளன; இதில் தேவையற்ற மறுப்புகள் மற்றும் அளவுக்கு மீறிய எச்சரிக்கைகள் கொண்ட பதில்களை குறைப்பதும் அடங்கும்.

நாங்கள் செயின்-ஆஃப்-தாட் (CoT) கண்காணிப்புத்திறனைப் பற்றிய எங்கள் பாதுகாப்பு ஆராய்ச்சியைத் தொடர்ந்துள்ளோம், மாடல்கள் எவ்வாறு பகுத்தறிவு செய்கின்றன என்பதை நன்கு புரிந்துகொள்வதற்கும், சாத்தியமான தவறான நடத்தையைக் கண்டறிய உதவுவதற்கும். இந்தப் பணியின் ஒரு பகுதியாக, கண்காணிப்பைத் தவிர்க்க மாடல்கள் தங்களின் ரீஸனிங்கை திட்டமிட்டு மறைக்க முடியுமா என்பதை அளவிடும் புதிய ஓபன்-சோர்ஸ் மதிப்பீடான CoT controllability,  ஐ நாங்கள் அறிமுகப்படுத்துகிறோம். நாங்கள் கண்டறிவது என்னவென்றால் GPT‑5.4 Thinking-ன் ரீஸனிங்-ஐ கட்டுப்படுத்தும் திறன் குறைவாக உள்ளது, இது பாதுகாப்புக்கான ஒரு நேர்மறை பண்பாகும்; இதன் மூலம் அந்த மாடலுக்கு தனது ரீஸனிங்-ஐ மறைக்கும் திறன் இல்லை என்பதையும், ரீஸனிங் கண்காணிப்பு இன்னும் ஒரு பயனுள்ள பாதுகாப்பு கருவியாகவே உள்ளது என்பதையும் சுட்டிக்காட்டுகிறது.

கிடைக்கும் நிலை மற்றும் விலை விவரங்கள்

GPT‑5.4 இன்று ChatGPT மற்றும் Codex முழுவதும் படிப்படியாக வெளியிடப்படுகிறது. API இல், GPT‑5.4 இப்போது gpt-5.4 எனக் கிடைக்கிறது. GPT‑5.4 Pro என்பது API இல் gpt-5.4-pro எனவும் கிடைக்கிறது மிகவும் சிக்கலான பணிகளில் அதிகபட்ச செயல்திறன் தேவைப்படும் டெவலப்பர்களுக்காக.

ChatGPT இல், GPT‑5.4 Thinking இன்று முதல் ChatGPT Plus, Team, மற்றும் Pro பயனர்களுக்கு கிடைக்கிறது, GPT‑5.2 ஐ மாற்றி Thinking. GPT‑5.2 Thinking கட்டண பயனர்களுக்காக மாடல் பிக்கரில் Legacy Models பிரிவின் கீழ் மூன்று மாதங்களுக்கு கிடைக்கக்கூடியதாகவே இருக்கும், அதன் பிறகு அது June 5, 2026 அன்று நிறுத்தப்படும். Enterprise மற்றும் Edu திட்டங்களில் உள்ளவர்கள் நிர்வாகி அமைப்புகள் மூலம் முன்கூட்டிய அணுகலை இயக்கலாம். GPT‑5.4 Pro மற்றும் Enterprise திட்டங்களில் கிடைக்கிறது. சூழல் சாளரங்கள்(புதிய சாளரத்தில் திறக்கும்) ChatGPT இல் GPT‑5.4 க்காக Thinking, GPT‑5.2 Thinking-இலிருந்து மாற்றமின்றி இருக்கும்.

GPT‑5.4 என்பது GPT‑5.3‑codex இன் அதிநவீன கோடிங் திறன்களை ஒருங்கிணைக்கும் எங்களின் முதல் மெயின்லைன் ரீஸனிங் மாடல் ஆகும், மேலும் அது ChatGPT, API மற்றும் Codex முழுவதும் வெளியிடப்படுகிறது. அந்த முன்னேற்றத்தை பிரதிபலிக்கவும், Codex ஐப் பயன்படுத்தும்போது மாடல்களுக்கிடையிலான தேர்வை எளிமைப்படுத்தவும், இதை GPT‑5.4 என்று அழைக்கிறோம். காலப்போக்கில், எங்கள் Instant மாடல்கள் மற்றும் Thinking மாடல்கள் வெவ்வேறு வேகங்களில் வளர்ச்சி அடையும் என்று நீங்கள் எதிர்பார்க்கலாம்.

Codex இல் உள்ள GPT‑5.4, 1M சூழல் சாளரத்திற்கு பரிசோதனை ஆதரவை உள்ளடக்கியுள்ளது. டெவலப்பர்கள் model_context_window மற்றும் model_auto_compact_token_limit உள்ளமைப்பதன் மூலம் இதை முயற்சிக்கலாம். நிலையான 272K சூழல் சாளரத்தை மீறும் கோரிக்கைகள், சாதாரண விகிதத்தின் 2x அளவில் பயன்பாட்டு வரம்புகளுக்கு எதிராகக் கணக்கிடப்படும்.

API இல், GPT‑5.4‑க்கு GPT‑5.2‑ஐ விட ஒவ்வொரு டோக்கனுக்கும் அதிக விலை நிர்ணயிக்கப்பட்டுள்ளது; இது அதன் மேம்பட்ட திறன்களை பிரதிபலிக்கிறது, அதே நேரத்தில் அதன் அதிக டோக்கன் திறன் பல பணிகளுக்கு தேவையான மொத்த டோக்கன்களின் எண்ணிக்கையை குறைக்க உதவுகிறது. பேட்ச் மற்றும் ஃப்ளெக்ஸ் பிரைசிங், ஸ்டாண்டர்ட் API விகிதத்தின் பாதி கட்டணத்தில் கிடைக்கிறது; அதே நேரத்தில் பிரையாரிட்டி பிராசசிங், ஸ்டாண்டர்ட் API விகிதத்தின் இரட்டிப்பு கட்டணத்தில் கிடைக்கிறது.

API மாடல்

உள்ளீடு விலை

தற்காலிக சேமிப்பு உள்ளீடு விலை

வெளியீடு விலை

gpt-5.2

$1.75 / M டோக்கன்கள்

$0.175 / M டோக்கன்கள்

$14 / M டோக்கன்கள்

gpt-5.4

$2.50 / M டோக்கன்கள்

$0.25 / M டோக்கன்கள்

$15 / M டோக்கன்கள்

gpt-5.2-pro

$21 / M டோக்கன்கள்

-

$168 / M டோக்கன்கள்

gpt-5.4-pro

$30 / M டோக்கன்கள்

-

$180 / M டோக்கன்கள்

மதிப்பீடுகள்

புரொஃபெஷனல்

எவல்

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

GDPval

83.0%

82.0%

70.9%

70.9%

74.1%

FinanceAgent v1.1

56.0%

61.5%

54.0%

59.5%

முதலீட்டு வங்கி மாதிரியாக்கப் பணிகள் (உள்)

87.3%

83.6%

79.3%

68.4%

71.7%

OfficeQA

68.1%

65.1%

63.1%

கோடிங்

எவல்

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

SWE-Bench Pro (Public)

57.7%

56.8%

55.6%

டெர்மினல்-பெஞ்ச் 2.0

75.1%

77.3%

62.2%

கணினி பயன்பாடு மற்றும் காட்சி

எவல்

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

OSWorld சரிபாரிக்கப்பட்டது

75.0%

74.0%

47.3%

MMMU Pro (கருவிகள் இல்லை)

81.2%

79.5%

MMMU Pro (கருவிகளுடன்)

82.1%

80.4%

கருவி பயன்பாடு

எவல்

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

BrowseComp

82.7%

89.3%

77.3%

65.8%

77.9%

MCP Atlas

67.2%

60.6%

Toolathlon

54.6%

51.9%

45.7%

Tau2-bench Telecom

98.9%

98.7%

அகாடமிக் (கல்விசார்)

எவல்

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

அதிநவீன அறிவியல் ஆராய்ச்சி

33.0%

36.7%

25.2%

FrontierMath அடுக்கு 1–3

47.6%

40.7%

FrontierMath அடுக்கு 4

27.1%

38.0%

18.8%

31.3%

GPQA Diamond

92.8%

94.4%

92.6%

92.4%

93.2%

மனிதகுலத்தின் கடைசித் தேர்வு (கருவிகள் இல்லை)

39.8%

42.7%

34.5%

36.6%

மனிதகுலத்தின் கடைசித் தேர்வு (கருவிகளுடன்)

52.1%

58.7%

45.5%

50.0%

நீண்ட சூழல்

எவல்

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Graphwalks BFS 0K–128K

93.0%

94.0%

கிராஃப் வாக்ஸ் BFS 256K–1M

21.4%

Graphwalks பெற்றோர் 0–128K (துல்லியம்)

89.8%

89.0%

Graphwalks பெற்றோர் 256K–1M (துல்லியம்)

32.4%

OpenAI MRCR v2 8-நீடில் 4K–8K

97.3%

98.2%

OpenAI MRCR v2 8-நீடில் 8K–16K

91.4%

89.3%

OpenAI MRCR v2 8-நீடில்கள் 16K–32K

97.2%

95.3%

OpenAI MRCR v2 8-நீடில்கள் 32K–64K

90.5%

92.0%

OpenAI MRCR v2 8-நீடில் 64K–128K

86.0%

85.6%

OpenAI MRCR v2 8-நீடில் 128K–256K

79.3%

77.0%

OpenAI MRCR v2 8-நீடில் 256K–512K

57.5%

OpenAI MRCR v2 8-நீடில் 512K–1M

36.6%

காரணவிளக்கமளித்தல் சிந்தனை

எவல்

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

ARC-AGI-1 (சரிபார்க்கப்பட்டது)

93.7%

94.5%

86.2%

90.5%

ARC-AGI-2 (சரிபார்க்கவும்)

73.3%

83.3%

52.9%

54.2% (அதிகம்)

ரீஸனிங் இல்லாத Evals

எவல்

GPT‑5.4
(எதுவும் இல்லை)

GPT‑5.2
(none)

GPT‑4.1

OmniDocBench (இயல்பாக்கப்பட்ட திருத்தத் தூரம்)

0.109

0.140

Tau2-bench Telecom

64.3%

57.2%

43.6%

ரீஸனிங் effort xhigh ஆக அமைக்கப்பட்ட நிலையில் Evals இயக்கப்பட்டன, வேறுவிதமாக குறிப்பிடப்பட்ட இடங்களைத் தவிர. பெஞ்ச்மார்க் மதிப்பீடுகள் ஒரு ஆராய்ச்சி சூழலில் நடத்தப்பட்டன; சில சூழல்களில் இது ப்ரொடக்ஷன் ChatGPT‑இலிருந்து சிறிது வித்தியாசமான அவுட்புட் தரக்கூடும்.

ஆசிரியர்

OpenAI

அடிக்குறிப்புகள்

1 OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(புதிய சாளரத்தில் திறக்கும்) இல் மனித செயல்திறன் தெரிவிக்கப்பட்டுள்ளது.