இன்று, நாங்கள் எங்கள் API இயங்குதளத்தில் GPT‑5 ஐ வெளியிடுகிறோம்— கோடிங் மற்றும் முகவர் பணிகளுக்கான எங்கள் இதுவரை சிறந்த மாதிரி.
GPT‑5 என்பது முக்கிய குறியீட்டு அளவுகோல்களில் அதிநவீன (SOTA) ஆகும், SWE-bench Verified இல் 74.9% மற்றும் Aider polyglot இல் 88% மதிப்பெண்களைப் பெற்றுள்ளது. ஒரு உண்மையான குறியீட்டு ஒத்துழைப்பாளராக GPT‑5 ஐ பயிற்றுவித்தோம். இது உயர்தர குறியீட்டை உருவாக்குவதிலும், பணி போன்ற பிழைகளை சரிசெய்தல், குறியீட்டைத் திருத்துதல் மற்றும் சிக்கலான குறியீட்டு தளங்களைப் பற்றிய கேள்விகளுக்கு பதிலளிப்பதில் சிறந்து விளங்குகிறது. இந்த மாதிரி இயக்கக்கூடியது மற்றும் ஒத்துழைப்புடன் செயல்படுகிறது - இது மிகவும் விரிவான வழிமுறைகளை அதிக துல்லியத்துடன் பின்பற்ற முடியும் மற்றும் கருவி அழைப்புகளுக்கு முன்னும் பின்னும் அதன் செயல்கள் குறித்த வெளிப்படையான விளக்கங்களை வழங்க முடியும். இந்த மாதிரி முன்-முனை குறியீட்டிலும் சிறந்து விளங்குகிறது, உள் சோதனையில் 70% நேரம் முன்-முனை வலை மேம்பாட்டில் OpenAI o3 ஐ முந்துகிறது.
தொடக்க நிறுவனங்கள் மற்றும் நிறுவனங்களில் உள்ள ஆரம்பகால சோதனையாளர்களுடன் இணைந்து நிஜ உலக குறியீட்டு பணிகளில் GPT‑5 க்கு பயிற்சி அளித்தோம். GPT‑5 "[அவர்கள்] பயன்படுத்திய மிகவும் புத்திசாலித்தனமான மாதிரி" என்றும் "குறிப்பிடத்தக்க வகையில் புத்திசாலித்தனமானது, இயக்க எளிதானது, மேலும் [அவர்கள்] மற்ற மாதிரிகளில் பார்த்திராத ஒரு ஆளுமையையும் கொண்டுள்ளது" என்றும் கர்சர் கூறுகிறது. விண்ட்சர்ஃப் பகிர்ந்த GPT‑5 அவர்களின் மதிப்பீட்டில் SOTA ஆகும், மேலும் "மற்ற எல்லைப்புற மாதிரிகளை விட பிழை விகிதத்தை அழைக்கும் கருவியில் பாதியைக் கொண்டுள்ளது." Vercel “இது சிறந்த முன்பக்க AI மாதிரி, அழகியல் உணர்வு மற்றும் குறியீட்டு தரம் இரண்டிலும் சிறந்த செயல்திறனை அடைந்து, அதை தனித்துவமான வகையில் வைக்கிறது” என்று கூறுகிறது.
GPT‑5 நீண்ட கால முகவர் பணிகளில் சிறந்து விளங்குகிறது — 2 மாதங்களுக்கு முன்பு வெளியிடப்பட்ட கருவி அழைப்பு பெஞ்ச்மார்க்கான τ2-பெஞ்ச் டெலிகாம் (96.7%) இல் ஸ்டேட்-ஆஃப்-தி-ஆர்ட் (SOTA) முடிவுகளை அடைந்துள்ளது. GPT‑5 இன் மேம்பட்ட கருவி நுண்ணறிவு டஜன் கணக்கான கருவி அழைப்புகளை நம்பகத்தன்மையுடன் இணைக்க உதவுகிறது - வரிசையாகவும் இணையாகவும் - அதன் வழியை இழக்காமல், சிக்கலான, நிஜ உலக பணிகளை முடிவுக்கு முடிவுக்கு நிறைவேற்றுவதில் மிகவும் சிறப்பாக அமைகிறது. இது கருவி வழிமுறைகளை மிகவும் துல்லியமாகப் பின்பற்றுகிறது, கருவி பிழைகளைக் கையாள்வதில் சிறந்தது, மேலும் நீண்ட சூழல் உள்ளடக்க மீட்டெடுப்பில் சிறந்து விளங்குகிறது. Manus கூறுகிறார் GPT‑5 “[அவர்களின்] உள் பெஞ்ச்மார்க்களில் ஒரு மாதிரியில் இருந்து [அவர்கள்] பார்த்த சிறந்த செயல்திறனை அடைந்தது.” Notion கூறுகிறது, “[மாதிரியின்] விரைவான பதில்கள், குறிப்பாக குறைந்த பகுத்தறிவு முறையில், சிக்கலான பணிகளை ஒரே முயற்சியில் தீர்க்க உங்களுக்கு தேவைப்படும் போது GPT‑5 ஐ ஒரு சிறந்த மாதிரியாக ஆக்குகின்றன.” Inditex பகிர்ந்தது “[GPT‑5] ஐ உண்மையிலேயே வேறுபடுத்துவது அதன் பகுத்தறிவின் ஆழம்: உண்மையான பொருள் புரிதலை பிரதிபலிக்கும் நுணுக்கமான, பல அடுக்கு பதில்கள்.”
எங்கள் API இல் டெவலப்பர்களுக்குமாதிரி பதில்களை மேலும் கட்டுப்படுத்தும் புதிய அம்சங்களை அறிமுகப்படுத்துகிறோம். பதில்கள் குறுகியதாகவும், சரியானதாகவும் உள்ளதா அல்லது நீண்டதாகவும், விரிவானதாகவும் உள்ளதா என்பதைக் கட்டுப்படுத்த உதவும் வகையில், GPT‑5 புதிய verbosity அளவுருவை (மதிப்புகள்: low, medium, high) ஆதரவளி வழங்குகிறது. விரிவான பகுத்தறிவு இல்லாமல், பதில்களை விரைவாகத் திரும்பப் பெற, GPT‑5 இன் reasoning_effort அளவுரு இப்போது குறைந்தபட்ச மதிப்பை எடுக்க முடியும். JSON க்குப் பதிலாக எளிய உரையுடன் GPT‑5 அழைப்பு கருவிகளை அனுமதிக்க, ஒரு புதிய கருவி வகையையும்—தனிப்பயன் கருவிகளையும்—சேர்த்துள்ளோம். தனிப்பயன் கருவிகள் டெவலப்பர் வழங்கிய சூழல் இல்லாத இலக்கணங்களால் கட்டுப்படுத்துவதை ஆதரிக்கின்றன.
செயல்திறன், செலவு மற்றும் தாமதத்தை வர்த்தகம் செய்ய டெவலப்பர்களுக்கு அதிக நெகிழ்வுத்தன்மையை வழங்குவதற்காக API-,GPT‑5 மற்றும் GPT‑5‑mini- GPT‑5‑nanoஇல் மூன்று அளவுகளில் GPT‑5 ஐ வெளியிடுகிறோம். ChatGPT‑யில் உள்ள GPT‑5 என்பது பகுத்தறிவு, பகுத்தறிவு அல்லாத மற்றும் ரூட்டர் மாதிரிகளின் அமைப்பாகும், அதே நேரத்தில் API தளத்தில் உள்ள GPT‑5 என்பது ChatGPT‑யில் அதிகபட்ச செயல்திறனை வழங்கும் பகுத்தறிவு மாதிரியாகும். குறிப்பிடத்தக்க வகையில், குறைந்தபட்ச பகுத்தறிவு கொண்ட GPT‑5, ChatGPT இல் உள்ள பகுத்தறிவு அல்லாத மாதிரியை விட வேறுபட்ட மாதிரியாகும், மேலும் இது டெவலப்பர்களுக்கு சிறப்பாக வடிவமைக்கப்பட்டுள்ளது. ChatGPT இல் பயன்படுத்தப்படும் பகுத்தறிவு அல்லாத மாதிரி GPT‑5‑chat‑latest என்ற பெயரில் கிடைக்கிறது.
ChatGPT‑இல் GPT‑5 பற்றி படிக்க, மற்ற ChatGPT மேம்பாடுகளைப் பற்றி மேலும் அறிய, எங்கள் ஆராய்ச்சி வலைப்பதிவைப் பார்க்கவும். GPT‑5 ஐப் பயன்படுத்த நிறுவனங்கள் எவ்வாறு உற்சாகமாக உள்ளன என்பதைப் பற்றி மேலும் அறிய, எங்கள் நிறுவன வலைப்பதிவைப் பார்க்கவும்.
GPT‑5 என்பது நாங்கள் இதுவரை வெளியிட்டவற்றிலேயே மிகவும் வலிமையான குறியீட்டு மாதிரியாகும். இது கோடிங் பெஞ்ச்மார்க்குகள் மற்றும் நிஜ உலக பயன்பாடுகளில் o3 ஐ விட மேம்பட்டது, மேலும் Cursor, Windsurf, GitHub Copilot, மற்றும் Codex CLI போன்ற ஏஜன்ட்டிக் கோடிங் தயாரிப்புகளில் சிறப்பாக செயல்படும்படி நுணுக்கமாக ட்யூன் செய்யப்பட்டுள்ளது. GPT‑5 எங்கள் ஆல்பா சோதனையாளர்களை கவர்ந்தது, அவர்களின் பல தனிப்பட்ட உள் மதிப்பீடுகளில் சாதனைகளைப் படைத்தது.
நிஜ உலக குறியீட்டு பணிகளுக்கான GPT‑5 பற்றிய ஆரம்பகால கருத்து
“GPT-5 என்பது எங்கள் குழு இதுவரை பயன்படுத்திய மிக புத்திசாலியான குறியீட்டு மாதிரி. எங்கள் குழு GPT-5 குறிப்பிடத்தக்க வகையில் புத்திசாலித்தனமானது, இயக்க எளிதானது, மேலும் வேறு எந்த மாதிரிகளிலும் நாம் காணாத ஆளுமை கொண்டது என்பதைக் கண்டறிந்துள்ளது. இது தந்திரமான, ஆழமாக மறைந்திருக்கும் பிழைகளைப் பிடிப்பது மட்டுமல்லாமல், நீண்ட, பல-திருப்ப பின்னணி முகவர்களை இயக்கி, சிக்கலான பணிகளை இறுதிவரை பார்க்க முடியும் - மற்ற மாதிரிகளை சிக்கிக் கொள்ள வைத்த சிக்கல்கள் போன்றவை. இது PR-களை ஸ்கோப்பிங் மற்றும் திட்டமிடுதல் முதல் முழுமையான எண்ட்-டு-எண்ட் பில்ட்களை முடிப்பதுவரை எங்களின் தினசரி முக்கிய கருவியாக மாறியுள்ளது.”
நிஜ உலக சாப்ட்வேர் இன்ஜினியரிங் பணிகளை அடிப்படையாகக் கொண்ட SWE-bench Verified என்ற மதிப்பீட்டில், GPT‑5 74.9% மதிப்பெண்களைப் பெற்றுள்ளது, இது o3 இன் 69.1% மதிப்பெண்களைவிட அதிகமாகும். குறிப்பிடத்தக்க வகையில், GPT‑5 அதன் அதிக மதிப்பெண்ணை அதிக செயல்திறன் மற்றும் வேகத்துடன் அடைகிறது: அதிக பகுத்தறிவு முயற்சியில் o3 உடன் ஒப்பிடும்போது, GPT‑5 22% குறைவான வெளியீட்டு டோக்கன்களையும் 45% குறைவான கருவி அழைப்புகளையும் பயன்படுத்துகிறது.
SWE-bench Verified இல், ஒரு மாதிரிக்கு குறியீட்டு களஞ்சியமும் சிக்கலின் விளக்கமும் வழங்கப்பட்டு, சிக்கலைத் தீர்க்க ஒரு திருத்தத்தை உருவாக்க வேண்டும். உரை லேபிள்கள் பகுத்தறிவு முயற்சியைக் குறிக்கின்றன. எங்கள் மதிப்பெண்கள், எங்கள் இன்பிராஸ்ட்ரக்சரில் நம்பகமாக கடக்காத 500 பிரச்சினைகளில் 23 ஐ நீக்கியுள்ளன. தீர்வுகளை முழுமையாகச் சரிபார்ப்பதை வலியுறுத்தும் ஒரு குறுகிய தூண்டி GPT‑5 க்கு வழங்கப்பட்டது; அதே ப்ராம்ட் o3 க்கு பயனளிக்கவில்லை.
குறியீடு திருத்தத்தின் மதிப்பீடான Aider polyglot இல், GPT‑5 88% என்ற புதிய சாதனையை படைத்துள்ளது, இது o3 உடன் ஒப்பிடும்போது பிழை விகிதத்தில் மூன்றில் ஒரு பங்கு குறைப்பு ஆகும்.
Aider polygot(புதிய சாளரத்தில் திறக்கும்) (டிஃப்) இல், மாடலுக்கு Exercism இலிருந்து ஒரு கோடிங் பயிற்சி வழங்கப்படுகிறது, மேலும் அதற்கான தீர்வை கோட் டிஃப் வடிவில் எழுத வேண்டும். காரணவிளக்கமளித்தல் மாதிரிகள் அதிக தர்க்க முயற்சியுடன் இயக்கப்பட்டன.
பல்வேறு துண்டுகள் எவ்வாறு செயல்படுகின்றன அல்லது ஒன்றோடொன்று இயங்குகின்றன என்பது குறித்த கேள்விகளுக்கு பதிலளிக்க, குறியீட்டு அடிப்படைகளை ஆழமாக ஆராய்வதில் GPT‑5 சிறந்ததாக இருப்பதையும் நாங்கள் கண்டறிந்துள்ளோம். OpenAI இன் வலுவூட்டல் கற்றல் அடுக்கைப் போன்ற சிக்கலான குறியீட்டுத் தளத்தில், GPT‑5 நமது குறியீட்டைப் பற்றிய கேள்விகளைப் பற்றி சிந்திக்கவும் பதிலளிக்கவும் உதவும் என்பதைக் கண்டறிந்து, நமது அன்றாட வேலையை துரிதப்படுத்துகிறோம்.
வலை பயன்பாடுகளுக்கான முன்பக்க குறியீட்டை உருவாக்கும் போது, GPT‑5 மிகவும் அழகியல் சார்ந்தது, லட்சியமானது மற்றும் துல்லியமானது. o3 உடன் ஒப்பிடுகையில், எங்கள் சோதனையாளர்கள் 70% நேரம் GPT‑5 ஐ விரும்பினர்.
GPT‑5 ஒரே ஒரு தூண்டி மூலம் என்ன செய்ய முடியும் என்பதற்கான சில வேடிக்கையான, சுவாரஸ்யமான தேர்ந்தெடுக்கப்பட்ட எடுத்துக்காட்டுகள் இங்கே:
தூண்டி: உயர் காபி பிரியர்களுக்கு மாதத்திற்கு $200 சந்தா வழங்கும் ஒரு சேவைக்கான அழகான, யதார்த்தமான இறங்கும் பக்கத்தை உருவாக்கவும், இது காபி வறுத்தெடுப்பதற்கும் அல்டிமேட் எஸ்பிரெசோவை உருவாக்குவதற்கும் உபகரணங்களை வாடகைக்கு எடுப்பதற்கும் பயிற்சி அளிப்பதற்கும் உதவுகிறது. இலக்கு பார்வையாளர்கள் தொழில்நுட்பத்தில் பணிபுரியக்கூடிய, படித்த, செலவழிக்கக்கூடிய வருமானம் கொண்ட, காபியின் கலை மற்றும் அறிவியலில் ஆர்வமுள்ள ஒரு விரிகுடா பகுதி நடுத்தர வயது நபர். 6 மாத பதிவுக்காக மாற்றத்திற்கு உகந்ததாக்குங்கள்.
GPT‑5 இன் மேலும் எடுத்துக்காட்டுகளை எங்கள் கேலரியில் இங்கே(புதிய சாளரத்தில் திறக்கும்) பார்க்கவும்.
GPT‑5 ஒரு சிறந்த கூட்டாளி — குறிப்பாக Cursor, Windsurf, GitHub Copilot, மற்றும் Codex CLI போன்ற ஏஜென்டிக் கோடிங் தயாரிப்புகளில். வேலை செய்யும் போது, GPT‑5 டூல் கால்ஸ் நடுவில் பிளான்கள், அப்டேட்கள் மற்றும் ரீகாப்கள் போன்றவற்றை வெளியிட முடியும். முந்தைய மாதிரிகளுடன் ஒப்பிடும்போது, GPT‑5 உங்கள் அனுமதிக்காக நிறுத்தாமல் அல்லது அதிக சிக்கலால் பின்வாங்காமல், பெரும் முனைப்பான டாஸ்க்களை முன்வரிசையாக முடித்து விடுகிறது.
ஒரு சிக்கலான பணியை (இங்கு, ஒரு உணவகத்துக்கான வலைத்தளத்தை உருவாக்குதல்) சமாளிக்கும்போது GPT‑5 எப்படி இருக்கும் என்பதற்கான ஒரு உதாரணம்:
பயனர் தங்கள் உணவகத்திற்கான வலைத்தளத்தை கோரியபின், GPT‑5 ஒரு விரைவான திட்டத்தை பகிர்ந்து, பயன்பாட்டின் அமைப்பை உருவாக்கி, தேவையான தொகுதிகளை நிறுவி, தள உள்ளடக்கத்தை உருவாக்கி, பிழைகள் உள்ளதா என சரிபார்க்க கட்டமைப்பை இயக்கி, தனது பணியை சுருக்கமாக விளக்கி, அடுத்த படிகளுக்கான பரிந்துரைகளையும் வழங்குகிறது. இந்த வீடியோவை நீங்கள் காத்திருப்பதைத் தவிர்க்க சுமார் 3 மடங்கு வேகமாக்கப்பட்டுள்ளது; வலைத்தளத்தை உருவாக்க முழு நேரம் சுமார் மூன்று நிமிடங்கள் ஆகும்.
முகவர் குறியீட்டுக்கு அப்பால், GPT‑5 பொதுவாக முகவர் பணிகளில் சிறந்தது. GPT‑5, அறிவுறுத்தல் பின்பற்றுதலின் அளவுகோல்களில் (o3‑mini ஆல் தரப்படுத்தப்பட்டபடி, அளவுகோல் மல்டிசேஞ்சில் 69.6%) மற்றும் கருவி அழைப்பு (τ2-பெஞ்ச் டெலிகாமில் 96.7%) புதிய சாதனைகளைப் படைத்துள்ளது. மேம்படுத்தப்பட்ட கருவி நுண்ணறிவு, நிஜ உலகப் பணிகளைச் செய்வதற்கு GPT‑5 செயல்களை மிகவும் நம்பகத்தன்மையுடன் ஒன்றாக இணைக்க அனுமதிக்கிறது.
முகவர் பணிகளுக்கான GPT‑5 பற்றிய ஆரம்பகால பின்னூட்டம்
“GPT-5 ஒரு மிகப் பெரிய முன்னேற்றம். எங்கள் உள்துறை அளவுகோள்களில் இதுவரை ஒரே மாதிரியால் காணப்பட்ட சிறந்த செயல்திறனை இது பெற்றுள்ளது. GPT-5 எந்தக் குறியீட்டையும் மாற்றாமலும், எந்தக் கட்டளையையும் மாற்றாமலும் பல தன்னாட்சி பணிகளில் சிறந்த திறனை வெளிப்படுத்தியது. புதிய அறிமுக வழிமுறைகள் மற்றும் கருவிகளின் மேலான கட்டுப்பாடு எங்கள் ஏஜென்ட்களின் நிலைத்தன்மையிலும் வழிநடத்தும் திறனிலும் குறிப்பிடத்தக்க முன்னேற்றத்தை ஏற்படுத்தியது.”
GPT‑5 அதன் முன்னோடிகளை விட மிகவும் நம்பகத்தன்மையுடன் வழிமுறைகளைப் பின்பற்றுகிறது, COLLIE, Scale MultiChallenge மற்றும் மதிப்பீடுகளைத் தொடர்ந்து எங்கள் உள் அறிவுறுத்தலில் அதிக மதிப்பெண்களைப் பெறுகிறது.
COLLIE(புதிய சாளரத்தில் திறக்கும்) இல், மாதிரிகள் பல்வேறு கட்டுப்பாடுகளை பூர்த்தி செய்யும் உரையை எழுத வேண்டும். ஸ்கேல் மல்டி சேலஞ்சில்(புதிய சாளரத்தில் திறக்கும்), முந்தைய செய்திகளிலிருந்து நான்கு வகையான தகவல்களை சரியாகப் பயன்படுத்த பல-முறை உரையாடல்களில் மாதிரிகள் சவாலுக்கு உட்படுத்தப்படுகின்றன. எங்கள் மதிப்பெண்கள் o3‑mini‑யை மதிப்பீட்டாளராக பயன்படுத்தியதில் இருந்து பெறப்பட்டவை; இது GPT‑4o‑வை விட அதிக துல்லியமானதாக இருந்தது. எங்கள் உள்துறை OpenAI API instruction-following மதிப்பீட்டில், மாதிரிகள் உண்மையான டெவலப்பர் கருத்துமறைகளிலிருந்து பெறப்பட்ட கடினமான வழிமுறைகளை தவறாது பின்பற்ற வேண்டும். காரணவிளக்கமளித்தல் மாதிரிகள் அதிக தர்க்க முயற்சியுடன் இயக்கப்பட்டன.
டெவலப்பர்களுக்கு முக்கியமான விதங்களில் டூல் காலிங்கை மேம்படுத்த நாங்கள் கடுமையாக உழைத்தோம். கருவி வழிமுறைகளைப் பின்பற்றுவதில் GPT‑5 சிறந்தது, கருவிப் பிழைகளைச் சமாளிப்பதில் சிறந்தது, மேலும் பல கருவி அழைப்புகளை வரிசையாகவோ அல்லது இணையாகவோ முன்கூட்டியே செய்வதில் சிறந்தது. அறிவுறுத்தப்படும்போது, நீண்ட முகவர் பணிகளின் போது பயனர்களின் முன்னேற்றத்தைப் புதுப்பிக்க, கருவி அழைப்புகளுக்கு முன்னுரை செய்திகளை GPT‑5 வெளியிடும்.
இரண்டு மாதங்களுக்கு முன்பு, τ2-பெஞ்ச் டெலிகாம் Sierra.ai ஆல் ஒரு சவாலான கருவி பயன்பாட்டு அளவுகோலாக வெளியிடப்பட்டது, இது பயனர்களால் மாற்றக்கூடிய சூழ்நிலை மாநிலத்துடன் தொடர்பு கொள்ளும்போது அறிவு மாதிரி செயல்திறன் எவ்வாறு கணிசமாக குறைகிறது என்பதை எடுத்துக்காட்டியது. அவர்களின் வெளியீட்டில்(புதிய சாளரத்தில் திறக்கும்), எந்த மாதிரியும் 49% க்கு மேல் மதிப்பெண் பெறவில்லை. GPT‑5 97% மதிப்பெண் பெற்றுள்ளது.
τ2-bench(புதிய சாளரத்தில் திறக்கும்) இல், ஒரு மாதிரி வாடிக்கையாளர் சேவை பணியை நிறைவேற்ற கருவிகளைப் பயன்படுத்த வேண்டும், அங்கு தொடர்பு கொள்ளக்கூடிய மற்றும் உலக நிலைமையில் நடவடிக்கை எடுக்கக்கூடிய ஒரு பயனர் இருக்கலாம். காரணவிளக்கமளித்தல் மாதிரிகள் அதிக தர்க்க முயற்சியுடன் இயக்கப்பட்டன.
நீண்ட சூழல் செயல்திறனிலும் GPT‑5 வலுவான முன்னேற்றங்களைக் காட்டுகிறது. நீண்ட சூழல் தகவல் மீட்டெடுப்பின் அளவீடான OpenAI-MRCR இல், GPT‑5, o3 மற்றும் GPT‑4.1 ஐ விட சிறப்பாக செயல்படுகிறது, இது நீண்ட உள்ளீட்டு நீளங்களில் கணிசமாக வளரும் வித்தியாசத்தில் உள்ளது.
OpenAI-MRCR(புதிய சாளரத்தில் திறக்கும்) (பல-சுற்று இணை-குறிப்புத் தெளிவுத்திறன்) இல், பல ஒத்த "ஊசி" பயனர் கோரிக்கைகள் ஒத்த கோரிக்கைகள் மற்றும் பதில்களின் நீண்ட "வைக்கோல் அடுக்குகளில்" செருகப்படுகின்றன, மேலும் மாதிரி i-ஆம் ஊசிக்கு பதிலை மீண்டும் உருவாக்கக் கேட்கப்படுகிறது. Mean match ratio என்பது மாதிரியின் பதிலும் சரியான பதிலும் இடையேயான சராசரி உரை பொருந்தும் விகிதத்தை அளவிடுகிறது. 256k அதிகபட்ச உள்ளீட்டு டோக்கன்களில் உள்ள புள்ளிகள், 128k–256k உள்ளீட்டு டோக்கன்களுக்கான சராசரிகளை குறிக்கின்றன, இதேபோல் தொடர்கிறது. இங்கே, 256k என்பது 256 * 1,024 = 262,114 டோக்கன்களை குறிக்கிறது. காரணவிளக்கமளித்தல் மாதிரிகள் அதிக தர்க்க முயற்சியுடன் இயக்கப்பட்டன.
நீண்ட சூழல் கேள்வி பதில்களை மதிப்பிடுவதற்கான புதிய அளவுகோலான BrowseComp Long Context(புதிய சாளரத்தில் திறக்கும்) ஐ நாங்கள் திறந்த மூலப் பொருளாகப் பயன்படுத்துகிறோம். இந்த அளவுகோலில், மாதிரிக்கு பயனர் வினவல், தொடர்புடைய தேடல் முடிவுகளின் நீண்ட பட்டியல் வழங்கப்படுகிறது, மேலும் தேடல் முடிவுகளின் அடிப்படையில் கேள்விக்கு பதிலளிக்க வேண்டும். நாங்கள் BrowseComp நீண்ட சூழலை யதார்த்தமாகவும், கடினமாகவும், நம்பகமான முறையில் சரியான அடிப்படை உண்மை பதில்களைக் கொண்டதாகவும் வடிவமைத்துள்ளோம். 128K — 256K டோக்கன்கள் உள்ளீடுகளில், GPT‑5 சரியான பதிலை 89% நேரத்தில் தருகிறது.
API-யில், அனைத்து GPT‑5 மாடல்களும் அதிகபட்சமாக 272,000 உள்ளீட்டு டோக்கன்களை ஏற்றுக்கொள்ளலாம் மற்றும் அதிகபட்சமாக 128,000 பகுத்தறிவு & வெளியீட்டு டோக்கன்களை வெளியிடலாம், மொத்த சூழல் நீளம் 400,000 டோக்கன்கள்.
GPT‑5 எங்கள் முந்தை மாதிரிகளை விட அதிக நம்பகத்தன்மையுடையது. LongFact மற்றும் FactScore பெஞ்ச்மார்க்க்களில் GPT‑5, o3 மாடலை விட சுமார் 80% குறைவான உண்மைப் பிழைகளைச் செய்கிறது. இது, குறிப்பாக குறியீடு, தரவு மற்றும் முடிவெடுப்பதில் சரியான தன்மை முக்கியத்துவம் வாய்ந்த முகவர் பயன்பாட்டு நிகழ்வுகளுக்கு மிகவும் பொருத்தமானதாக அமைகிறது.
அதிக மதிப்பெண்கள் மோசமான செயல்திறனை குறிக்கின்றன. LongFact(புதிய சாளரத்தில் திறக்கும்) மற்றும் FActScore(புதிய சாளரத்தில் திறக்கும்) திறந்த முடிவில்லா உண்மைத் தேடல் கேள்விகளை கொண்டுள்ளன. இந்த அளவுகோல்களிலிருந்து வரும் அறிவுறுத்தல்களின் பதில்களை உண்மைச் சரிபார்ப்பதற்கும், உண்மைக்கு மாறான கூற்றுகளின் பகுதியை அளவிடுவதற்கும், நாங்கள் ஒரு LLM-அடிப்படையிலான கிரேடரைப் பயன்படுத்தி உலாவல் செய்கிறோம். செயல்படுத்தல் மற்றும் தரப்படுத்தல் விவரங்களை கணினி அட்டையில் காணலாம். தர்க்க மாதிரிகள் அதிக தர்க்க முயற்சியுடன் பயன்படுத்தப்பட்டன. தேடல் இயக்கப்படவில்லை.
பொதுவாக, GPT‑5 தன்னுடைய வரம்புகளைப் பற்றிய விழிப்புணர்வுடன் இருக்கவும், எதிர்பாராத சவால்களை (கர்வ்பால்களை) சிறப்பாக கையாளவும் பயிற்சி அளிக்கப்பட்டுள்ளது. நாங்கள் GPT‑5‑ஐ உடல்நலக் கேள்விகளில் மேலும் துல்லியமாக இருக்க பயிற்சி அளித்தோம் (எங்கள் ஆராய்ச்சி வலைப்பதிவில் மேலும் படிக்கவும்). அனைத்து மொழி மாடல்களிலும் போல், முக்கிய முடிவுகளில் GPT‑5 வழங்கும் பதில்களைச் சரிபார்ப்பது பரிந்துரைக்கப்படுகிறது.
API-யில் உள்ள reasoning_effort அளவுருவின் மூலம் GPT‑5‑ன் சிந்தனை நேரத்தை டெவலப்பர்கள் கட்டுப்படுத்த முடியும். முந்தைய மதிப்புகளுக்கு கூடுதலாக—low, medium (இயல்புநிலை), மற்றும் high—GPT‑5 minimal என்பதையும் ஆதரவளி, இது GPT‑5 இன் பகுத்தறிவை குறைத்து விரைவாக பதிலை அளிக்க உதவுகிறது.
உயர்ந்த reasoning_effort மதிப்புகள் தரத்தை அதிகரிக்கின்றன, மேலும் குறைந்த மதிப்புகள் வேகத்தை அதிகரிக்கின்றன. கூடுதல் பகுத்தறிவால் எல்லாப் பணிகளும் சமமாகப் பயனடைவதில்லை, எனவே நீங்கள் அக்கறை கொள்ளும் பயன்பாட்டு நிகழ்வுகளுக்கு எது சிறப்பாகச் செயல்படுகிறது என்பதைப் பரிசோதித்துப் பார்க்க பரிந்துரைக்கிறோம்.
எடுத்துக்காட்டாக, குறைந்த அளவுக்கு மேலே பகுத்தறிவு ஒப்பீட்டளவில் எளிய நீண்ட சூழல் மீட்டெடுப்பதில் குறைவாகவே சேர்க்கிறது, ஆனால் CharXiv Reasoning(புதிய சாளரத்தில் திறக்கும்), ஒரு காட்சி பகுத்தறிவு அளவுகோலுக்கு சில சதவீத புள்ளிகளைச் சேர்க்கிறது.
GPT‑5 இன் தர்க்க முயற்சி, வெவ்வேறு பணிகளில் வெவ்வேறு நன்மைகளை வழங்குகிறது. CharXiv Reasoning மதிப்பீட்டில், GPT‑5‑க்கு Python கருவியைப் பயன்படுத்தும் அனுமதி வழங்கப்பட்டது.
GPT‑5 இன் பதில்களின் இயல்புநிலை நீளத்தை வழிநடத்த உதவ, low, medium (இயல்புநிலை), மற்றும் high என்ற மதிப்புகளை கொண்ட புதிய API அளவுரு verbosity ஐ அறிமுகப்படுத்தியுள்ளோம். வெளிப்படையான வழிமுறைகள் சொற்களஞ்சிய அளவுருக்களுடன் முரண்பட்டால், வெளிப்படையான வழிமுறைகள் முன்னுதாரணமாகின்றன. உதாரணமாக, நீங்கள் GPT‑5‑ஐ "5 பத்தி கட்டுரை எழுது" என்று கேட்டால், சொற்களஞ்சியத்தின் அளவைப் பொருட்படுத்தாமல் மாதிரியின் பதில் எப்போதும் 5 பத்திகளாக இருக்க வேண்டும் (இருப்பினும், பத்திகள் நீளமாகவோ அல்லது குறைவாகவோ இருக்கலாம்).
Verbosity = குறைந்தது
Verbosity = மிதமானது
Verbosity = அதிகம்
அறிவுறுத்தப்பட்டால், கருவி அழைப்புகளுக்கு முன்னும் பின்னும் பயனர் காணக்கூடிய முன்னுரை செய்திகளை GPT‑5 வெளியிடும். மறைக்கப்பட்ட பகுத்தறிவு செய்திகளைப் போலன்றி, இந்த புலப்படும் செய்திகள் GPT‑5 திட்டங்களையும் முன்னேற்றத்தையும் பயனருக்குத் தெரிவிக்க அனுமதிக்கின்றன, இறுதி பயனர்கள் கருவி அழைப்புகளுக்குப் பின்னால் உள்ள அதன் அணுகுமுறை மற்றும் நோக்கத்தைப் புரிந்துகொள்ள உதவுகின்றன.
நாங்கள் ஒரு புதிய டூல் வகையை — கஸ்டம் டூல்ஸ் (custom tools) — அறிமுகப்படுத்துகிறோம், இது GPT‑5 க்கு JSON க்கு பதிலாக ப்ளெயின்டெக்ஸ்ட் (plaintext) மூலம் டூல் கால் செய்ய அனுமதிக்கிறது. GPT‑5 ஐ தனிப்பயன் கருவி வடிவங்களைப் பின்பற்ற கட்டுப்படுத்த, உருவாக்குபவர்கள் regex அல்லது மேலும் முழுமையாக விவரிக்கப்பட்ட சூழல்-இலவச இலக்கணம்(புதிய சாளரத்தில் திறக்கும்) வழங்கலாம்.
முன்னதாக, டெவலப்பர்-வரையறுத்த கருவிகளுக்கான எங்கள் இடைமுகம், அவற்றை JSON உடன் அழைக்க வேண்டியிருந்தது, இது பொதுவாக வலை APIகள் மற்றும் டெவலப்பர்களால் பயன்படுத்தப்படும் ஒரு பொதுவான வடிவமாகும். இருப்பினும், செல்லுபடியாகும் JSON ஐ வெளியிடுவதற்கு, மாதிரி அனைத்து மேற்கோள் குறிகள், பின்சாய்வுக்கோடுகள், புதிய வரிகள் மற்றும் பிற கட்டுப்பாட்டு எழுத்துக்களிலிருந்து சரியாகத் தப்பிக்க வேண்டும். எங்கள் மாதிரிகள் JSON உருவாக்க நன்றாக பயிற்சி பெற்றிருந்தாலும், நூற்றுக்கணக்கான கோட் வரிகள் அல்லது 5 பக்க ரிப்போர்ட் போன்ற நீளமான உள்ளீடுகளில் பிழை ஏற்படும் வாய்ப்பு அதிகரிக்கிறது. தனிப்பயன் கருவிகள் மூலம், GPT‑5, தப்பிக்க வேண்டிய அனைத்து எழுத்துக்களையும் தப்பிக்காமல், கருவி உள்ளீடுகளை எளிய உரையாக எழுத முடியும்.
SWE-bench Verified இல் JSON டூல்ஸ் க்கு பதிலாக கஸ்டம் டூல்ஸ் பயன்படுத்தியபோதும், GPT‑5 அதே அளவிலான மதிப்பெண்களைப் பெற்றுள்ளது.
GPT‑5 பாதுகாப்பு துறையில் புதிய அளவுகோலை ஏற்படுத்தி, மேலும் வலுவான, நம்பகமான மற்றும் பயனுள்ள மாதிரியாக திகழ்கிறது. GPT‑5, முந்தைய மாதிரிகளைவிட மிகக் குறைவாக தவறான தகவல்களை உருவாக்குகிறது, தன் செயல்கள் மற்றும் திறன்களை பயனரிடம் மேலும் நேர்மையாக வெளிப்படுத்துகிறது மற்றும் பாதுகாப்பு வரம்புக்குள் இருந்தபடியே, சாத்தியமான இடங்களில் மிகப் பயனுள்ள பதிலை வழங்குகிறது. நீங்கள் எங்கள் ஆராய்ச்சி வலைப்பதிவில் மேலும் படிக்கலாம்.
GPT‑5 இப்போது API பிளாட்ஃபார்மில் மூன்று அளவுகளில் கிடைக்கிறது: gpt-5, gpt-5-mini, மற்றும் gpt-5-nano. இது Responses API, Chat Completions API ஆகியவற்றில் கிடைக்கிறது, மேலும் Codex CLI இல் இயல்புநிலை (டீஃபால்ட்) மாடலாக உள்ளது. GPT‑5 விலை $1.25/1M உள்ளீட்டு டோக்கன்கள் மற்றும் $10/1M வெளியீட்டு டோக்கன்கள், GPT‑5 மினி விலை $0.25/1M உள்ளீட்டு டோக்கன்கள் மற்றும் $2/1M வெளியீட்டு டோக்கன்கள், மற்றும் GPT‑5 நானோ விலை $0.05/1M உள்ளீட்டு டோக்கன்கள் மற்றும் $0.40/1M வெளியீட்டு டோக்கன்கள்.
இந்த மாதிரிகள் reasoning_effort மற்றும் verbosity API அளவுருக்களையும், தனிப்பயன் கருவிகளையும் ஆதரவளி செய்கின்றன. அவை இணை கருவி அழைப்பு, உள்ளமைக்கப்பட்ட கருவிகள் (வலை தேடல், கோப்பு தேடல், பட உருவாக்கம் மற்றும் பல), முக்கிய API அம்சங்கள் (ஸ்ட்ரீமிங், கட்டமைக்கப்பட்ட வெளியீடுகள் மற்றும் பல) மற்றும் உடனடி கேச்சிங் மற்றும் தொகுதி API போன்ற செலவு சேமிப்பு அம்சங்களையும் ஆதரிக்கின்றன.
ChatGPT இல் பயன்படுத்தப்படும் GPT‑5 இன் பகுத்தறிவு அல்லாத பதிப்பு API இல் gpt-5-chat-latest என கிடைக்கிறது, மேலும் விலை $1.25/1M உள்ளீட்டு டோக்கன்கள் மற்றும் $10/1M வெளியீட்டு டோக்கன்கள் ஆகும்.
GPT‑5, Microsoft பிளாட்ஃபார்ம்களிலும் அறிமுகமாகிறது — இதில் Microsoft 365 Copilot, Copilot, GitHub Copilot, மற்றும் Azure AI Foundry அடங்கும்.
தொடங்குவதற்கு GPT‑5 ஆவணங்களை(புதிய சாளரத்தில் திறக்கும்), விலையிடல் விவரங்களை(புதிய சாளரத்தில் திறக்கும்), மற்றும் தூண்டல் வழிகாட்டியை(புதிய சாளரத்தில் திறக்கும்) பாருங்கள்.
நுண்ணறிவு
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94.6% | 91.1% | 85.2% | 88.9% | 92.7% | 46.4% | 40.2% | - |
| FrontierMath(with python tool only) | 26.3% | 22.1% | 9.6% | 15.8% | 15.4% | - | - | - |
| GPQA diamond(no tools) | 85.7% | 82.3% | 71.2% | 83.3% | 81.4% | 66.3% | 65.0% | 50.3% |
| HLE[1](no tools) | 24.8% | 16.7% | 8.7% | 20.2% | 14.7% | 5.4% | 3.7% | - |
| HMMT 2025(no tools) | 93.3% | 87.8% | 75.6% | 81.7% | 85.0% | 28.9% | 35.0% | - |
[1] முந்தைய வலைப்பதிவில் தெரிவிக்கப்பட்ட எண்களில் சிறிய வேறுபாடு உள்ளது, ஏனெனில் அவை HLE-யின் முந்தைய பதிப்பில் இயங்கியவை.
பலவகைமை
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84.2% | 81.6% | 75.6% | 82.9% | 81.6% | 74.8% | 72.7% | 55.4% |
| MMMU-Pro(avg across standard and vision sets) | 78.4% | 74.1% | 62.6% | 76.4% | 73.4% | 60.3% | 58.9% | 33.0% |
| CharXiv reasoning(python enabled) | 81.1% | 75.5% | 62.7% | 78.6% | 72.0% | 56.7% | 56.8% | 40.5% |
| VideoMMMU, max frame 256 | 84.6% | 82.5% | 66.8% | 83.3% | 79.4% | 60.9% | 55.1% | 30.2% |
| ERQA | 65.7% | 62.9% | 50.1% | 64.0% | 56.5% | 44.3% | 42.3% | 26.5% |
குறியீடாக்கம்
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | $112ஆ | $75ஆ | $49ஆ | $86ஆ | $66ஆ | $34ஆ | $31ஆ | $9ஆ |
| SWE-bench Verified[2] | 74.9% | 71.0% | 54.7% | 69.1% | 68.1% | 54.6% | 23.6% | - |
| Aider polyglot(diff) | 88.0% | 71.6% | 48.4% | 79.6% | 58.2% | 52.9% | 31.6% | 6.2% |
[2] எங்கள் அமைப்பில் இயங்க முடியாத 500 பிரச்சினைகளில் 23 பிரச்சினைகளை நாம் நீக்கினோம். முழுமையான 23 பணிகளின் பட்டியலில் தவிர்க்கப்பட்டவை 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', மற்றும் 'sphinx-doc__sphinx-9367' ஆகும்.
வழிமுறைகளைப் பின்பற்றுதல்
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69.6% | 62.3% | 54.9% | 60.4% | 57.5% | 46.2% | 42.2% | 31.1% |
| Internal API instruction following eval(hard) | 64.0% | 65.8% | 56.1% | 47.4% | 44.7% | 49.1% | 45.1% | 31.6% |
| COLLIE | 99.0% | 98.5% | 96.9% | 98.4% | 96.1% | 65.8% | 54.6% | 42.5% |
[3] குறிப்பு: MultiChallenge (GPT-4o) இல் உள்ள இயல்புநிலை மதிப்பீட்டாளர் அடிக்கடி மாதிரி பதில்களுக்கு தவறான மதிப்பெண்களை வழங்குவதாக நாங்கள் கண்டறிந்துள்ளோம். மதிப்பிடுபவரை o3-mini போன்ற காரணவிளக்கமளித்தல் மாதிரிகளுக்கு மாற்றுவது, நாங்கள் ஆய்வு செய்த மாதிரிகளில் மதிப்பிடும் துல்லியத்தை குறிப்பிடத்தக்க அளவில் மேம்படுத்துகிறது என்பதை நாங்கள் கண்டறிந்துள்ளோம்.
செயல்பாட்டு அழைப்பு
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62.6% | 60.0% | 41.0% | 64.8% | 60.2% | 56.0% | 51.0% | 14.0% |
| Tau2-bench retail | 81.1% | 78.3% | 62.3% | 80.2% | 70.5% | 74.0% | 66.0% | 21.5% |
| Tau2-bench telecom | 96.7% | 74.1% | 35.5% | 58.2% | 40.5% | 34.0% | 44.0% | 12.1% |
நீளமான கான்டெக்
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95.2% | 84.3% | 43.2% | 55.0% | 56.4% | 57.2% | 47.2% | 36.6% |
| OpenAI-MRCR: 2 needle 256k | 86.8% | 58.8% | 34.9% | - | - | 56.2% | 45.5% | 22.6% |
| Graphwalks bfs <128k | 78.3% | 73.4% | 64.0% | 77.3% | 62.3% | 61.7% | 61.7% | 25.0% |
| Graphwalks parents <128k | 73.3% | 64.3% | 43.8% | 72.9% | 51.1% | 58.0% | 60.5% | 9.4% |
| BrowseComp Long Context 128k | 90.0% | 89.4% | 80.4% | 88.3% | 80.0% | 85.9% | 89.0% | 89.4% |
| BrowseComp Long Context 256k | 88.8% | 86.0% | 68.4% | - | - | 75.5% | 81.6% | 19.1% |
| VideoMME(long, with subtitle category) | 86.7% | 78.5% | 65.7% | 84.9% | 79.5% | 78.7% | 68.4% | 55.2% |
மாயத்தோற்றங்கள்
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1.0% | 0.7% | 1.0% | 5.2% | 3.0% | 0.7% | 1.1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1.2% | 1.3% | 2.8% | 6.8% | 8.9% | 1.1% | 1.8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2.8% | 3.5% | 7.3% | 23.5% | 38.7% | 6.7% | 10.9% | - |


