7 ஆகஸ்ட், 2025

டெவலப்பர்களுக்காக GPT‑5 அறிமுகம்

கோடிங் மற்றும் முகவர் பணிகளுக்கான சிறந்த மாதிரி.

ஏற்றுகிறது…

அறிமுகம்

இன்று, நாங்கள் எங்கள் API இயங்குதளத்தில் GPT‑5 ஐ வெளியிடுகிறோம்— கோடிங் மற்றும் முகவர் பணிகளுக்கான எங்கள் இதுவரை சிறந்த மாதிரி.

GPT‑5 என்பது முக்கிய குறியீட்டு அளவுகோல்களில் அதிநவீன (SOTA) ஆகும், SWE-bench Verified இல் 74.9% மற்றும் Aider polyglot இல் 88% மதிப்பெண்களைப் பெற்றுள்ளது. ஒரு உண்மையான குறியீட்டு ஒத்துழைப்பாளராக GPT‑5 ஐ பயிற்றுவித்தோம். இது உயர்தர குறியீட்டை உருவாக்குவதிலும், பணி போன்ற பிழைகளை சரிசெய்தல், குறியீட்டைத் திருத்துதல் மற்றும் சிக்கலான குறியீட்டு தளங்களைப் பற்றிய கேள்விகளுக்கு பதிலளிப்பதில் சிறந்து விளங்குகிறது. இந்த மாதிரி இயக்கக்கூடியது மற்றும் ஒத்துழைப்புடன் செயல்படுகிறது - இது மிகவும் விரிவான வழிமுறைகளை அதிக துல்லியத்துடன் பின்பற்ற முடியும் மற்றும் கருவி அழைப்புகளுக்கு முன்னும் பின்னும் அதன் செயல்கள் குறித்த வெளிப்படையான விளக்கங்களை வழங்க முடியும். இந்த மாதிரி முன்-முனை குறியீட்டிலும் சிறந்து விளங்குகிறது, உள் சோதனையில் 70% நேரம் முன்-முனை வலை மேம்பாட்டில் OpenAI o3 ஐ முந்துகிறது.

தொடக்க நிறுவனங்கள் மற்றும் நிறுவனங்களில் உள்ள ஆரம்பகால சோதனையாளர்களுடன் இணைந்து நிஜ உலக குறியீட்டு பணிகளில் GPT‑5 க்கு பயிற்சி அளித்தோம். GPT‑5 "[அவர்கள்] பயன்படுத்திய மிகவும் புத்திசாலித்தனமான மாதிரி" என்றும் "குறிப்பிடத்தக்க வகையில் புத்திசாலித்தனமானது, இயக்க எளிதானது, மேலும் [அவர்கள்] மற்ற மாதிரிகளில் பார்த்திராத ஒரு ஆளுமையையும் கொண்டுள்ளது" என்றும் கர்சர் கூறுகிறது. விண்ட்சர்ஃப் பகிர்ந்த GPT‑5 அவர்களின் மதிப்பீட்டில் SOTA ஆகும், மேலும் "மற்ற எல்லைப்புற மாதிரிகளை விட பிழை விகிதத்தை அழைக்கும் கருவியில் பாதியைக் கொண்டுள்ளது." Vercel “இது சிறந்த முன்பக்க AI மாதிரி, அழகியல் உணர்வு மற்றும் குறியீட்டு தரம் இரண்டிலும் சிறந்த செயல்திறனை அடைந்து, அதை தனித்துவமான வகையில் வைக்கிறது” என்று கூறுகிறது.

GPT‑5 நீண்ட கால முகவர் பணிகளில் சிறந்து விளங்குகிறது — 2 மாதங்களுக்கு முன்பு வெளியிடப்பட்ட கருவி அழைப்பு பெஞ்ச்மார்க்கான τ²-பெஞ்ச் டெலிகாம் (96.7%) இல் ஸ்டேட்-ஆஃப்-தி-ஆர்ட் (SOTA) முடிவுகளை அடைந்துள்ளது. GPT‑5 இன் மேம்பட்ட கருவி நுண்ணறிவு டஜன் கணக்கான கருவி அழைப்புகளை நம்பகத்தன்மையுடன் இணைக்க உதவுகிறது - வரிசையாகவும் இணையாகவும் - அதன் வழியை இழக்காமல், சிக்கலான, நிஜ உலக பணிகளை முடிவுக்கு முடிவுக்கு நிறைவேற்றுவதில் மிகவும் சிறப்பாக அமைகிறது. இது கருவி வழிமுறைகளை மிகவும் துல்லியமாகப் பின்பற்றுகிறது, கருவி பிழைகளைக் கையாள்வதில் சிறந்தது, மேலும் நீண்ட சூழல் உள்ளடக்க மீட்டெடுப்பில் சிறந்து விளங்குகிறது. Manus கூறுகிறார் GPT‑5 “[அவர்களின்] உள் பெஞ்ச்மார்க்களில் ஒரு மாதிரியில் இருந்து [அவர்கள்] பார்த்த சிறந்த செயல்திறனை அடைந்தது.” Notion கூறுகிறது, “[மாதிரியின்] விரைவான பதில்கள், குறிப்பாக குறைந்த பகுத்தறிவு முறையில், சிக்கலான பணிகளை ஒரே முயற்சியில் தீர்க்க உங்களுக்கு தேவைப்படும் போது GPT‑5 ஐ ஒரு சிறந்த மாதிரியாக ஆக்குகின்றன.” Inditex பகிர்ந்தது “[GPT‑5] ஐ உண்மையிலேயே வேறுபடுத்துவது அதன் பகுத்தறிவின் ஆழம்: உண்மையான பொருள் புரிதலை பிரதிபலிக்கும் நுணுக்கமான, பல அடுக்கு பதில்கள்.”

எங்கள் API இல் டெவலப்பர்களுக்குமாதிரி பதில்களை மேலும் கட்டுப்படுத்தும் புதிய அம்சங்களை அறிமுகப்படுத்துகிறோம். பதில்கள் குறுகியதாகவும், சரியானதாகவும் உள்ளதா அல்லது நீண்டதாகவும், விரிவானதாகவும் உள்ளதா என்பதைக் கட்டுப்படுத்த உதவும் வகையில், GPT‑5 புதிய verbosity அளவுருவை (மதிப்புகள்: low, medium, high) ஆதரவளி வழங்குகிறது. விரிவான பகுத்தறிவு இல்லாமல், பதில்களை விரைவாகத் திரும்பப் பெற, GPT‑5 இன் reasoning_effort அளவுரு இப்போது குறைந்தபட்ச மதிப்பை எடுக்க முடியும். JSON க்குப் பதிலாக எளிய உரையுடன் GPT‑5 அழைப்பு கருவிகளை அனுமதிக்க, ஒரு புதிய கருவி வகையையும்—தனிப்பயன் கருவிகளையும்—சேர்த்துள்ளோம். தனிப்பயன் கருவிகள் டெவலப்பர் வழங்கிய சூழல் இல்லாத இலக்கணங்களால் கட்டுப்படுத்துவதை ஆதரிக்கின்றன.

செயல்திறன், செலவு மற்றும் தாமதத்தை வர்த்தகம் செய்ய டெவலப்பர்களுக்கு அதிக நெகிழ்வுத்தன்மையை வழங்குவதற்காக API-,GPT‑5 மற்றும் GPT‑5‑mini- GPT‑5‑nanoஇல் மூன்று அளவுகளில் GPT‑5 ஐ வெளியிடுகிறோம். ChatGPT‑யில் உள்ள GPT‑5 என்பது பகுத்தறிவு, பகுத்தறிவு அல்லாத மற்றும் ரூட்டர் மாதிரிகளின் அமைப்பாகும், அதே நேரத்தில் API தளத்தில் உள்ள GPT‑5 என்பது ChatGPT‑யில் அதிகபட்ச செயல்திறனை வழங்கும் பகுத்தறிவு மாதிரியாகும். குறிப்பிடத்தக்க வகையில், குறைந்தபட்ச பகுத்தறிவு கொண்ட GPT‑5, ChatGPT இல் உள்ள பகுத்தறிவு அல்லாத மாதிரியை விட வேறுபட்ட மாதிரியாகும், மேலும் இது டெவலப்பர்களுக்கு சிறப்பாக வடிவமைக்கப்பட்டுள்ளது. ChatGPT இல் பயன்படுத்தப்படும் பகுத்தறிவு அல்லாத மாதிரி GPT‑5‑chat‑latest என்ற பெயரில் கிடைக்கிறது.

ChatGPT‑இல் GPT‑5 பற்றி படிக்க, மற்ற ChatGPT மேம்பாடுகளைப் பற்றி மேலும் அறிய, எங்கள் ஆராய்ச்சி வலைப்பதிவைப் பார்க்கவும். GPT‑5 ஐப் பயன்படுத்த நிறுவனங்கள் எவ்வாறு உற்சாகமாக உள்ளன என்பதைப் பற்றி மேலும் அறிய, எங்கள் நிறுவன வலைப்பதிவைப்⁠ பார்க்கவும்.

குறியீடாக்கம்

GPT‑5 என்பது நாங்கள் இதுவரை வெளியிட்டவற்றிலேயே மிகவும் வலிமையான குறியீட்டு மாதிரியாகும். இது கோடிங் பெஞ்ச்மார்க்குகள் மற்றும் நிஜ உலக பயன்பாடுகளில் o3 ஐ விட மேம்பட்டது, மேலும் Cursor, Windsurf, GitHub Copilot, மற்றும் Codex CLI போன்ற ஏஜன்ட்டிக் கோடிங் தயாரிப்புகளில் சிறப்பாக செயல்படும்படி நுணுக்கமாக ட்யூன் செய்யப்பட்டுள்ளது. GPT‑5 எங்கள் ஆல்பா சோதனையாளர்களை கவர்ந்தது, அவர்களின் பல தனிப்பட்ட உள் மதிப்பீடுகளில் சாதனைகளைப் படைத்தது.

நிஜ உலக குறியீட்டு பணிகளுக்கான GPT‑5 பற்றிய ஆரம்பகால கருத்து

“GPT-5 என்பது எங்கள் குழு இதுவரை பயன்படுத்திய மிக புத்திசாலியான குறியீட்டு மாதிரி. எங்கள் குழு GPT-5 குறிப்பிடத்தக்க வகையில் புத்திசாலித்தனமானது, இயக்க எளிதானது, மேலும் வேறு எந்த மாதிரிகளிலும் நாம் காணாத ஆளுமை கொண்டது என்பதைக் கண்டறிந்துள்ளது. இது தந்திரமான, ஆழமாக மறைந்திருக்கும் பிழைகளைப் பிடிப்பது மட்டுமல்லாமல், நீண்ட, பல-திருப்ப பின்னணி முகவர்களை இயக்கி, சிக்கலான பணிகளை இறுதிவரை பார்க்க முடியும் - மற்ற மாதிரிகளை சிக்கிக் கொள்ள வைத்த சிக்கல்கள் போன்றவை. இது PR-களை ஸ்கோப்பிங் மற்றும் திட்டமிடுதல் முதல் முழுமையான எண்ட்-டு-எண்ட் பில்ட்களை முடிப்பதுவரை எங்களின் தினசரி முக்கிய கருவியாக மாறியுள்ளது.”

Michael Truell, இணை நிறுவனர் & CEO, கர்சர் (Cursor)

நிஜ உலக சாப்ட்வேர் இன்ஜினியரிங் பணிகளை அடிப்படையாகக் கொண்ட SWE-bench Verified என்ற மதிப்பீட்டில், GPT‑5 74.9% மதிப்பெண்களைப் பெற்றுள்ளது, இது o3 இன் 69.1% மதிப்பெண்களைவிட அதிகமாகும். குறிப்பிடத்தக்க வகையில், GPT‑5 அதன் அதிக மதிப்பெண்ணை அதிக செயல்திறன் மற்றும் வேகத்துடன் அடைகிறது: அதிக பகுத்தறிவு முயற்சியில் o3 உடன் ஒப்பிடும்போது, GPT‑5 22% குறைவான வெளியீட்டு டோக்கன்களையும் 45% குறைவான கருவி அழைப்புகளையும் பயன்படுத்துகிறது.

SWE-bench Verified⁠ இல், ஒரு மாதிரிக்கு குறியீட்டு களஞ்சியமும் சிக்கலின் விளக்கமும் வழங்கப்பட்டு, சிக்கலைத் தீர்க்க ஒரு திருத்தத்தை உருவாக்க வேண்டும். உரை லேபிள்கள் பகுத்தறிவு முயற்சியைக் குறிக்கின்றன. எங்கள் மதிப்பெண்கள், எங்கள் இன்பிராஸ்ட்ரக்சரில் நம்பகமாக கடக்காத 500 பிரச்சினைகளில் 23 ஐ நீக்கியுள்ளன. தீர்வுகளை முழுமையாகச் சரிபார்ப்பதை வலியுறுத்தும் ஒரு குறுகிய தூண்டி GPT‑5 க்கு வழங்கப்பட்டது; அதே ப்ராம்ட் o3 க்கு பயனளிக்கவில்லை.

குறியீடு திருத்தத்தின் மதிப்பீடான Aider polyglot இல், GPT‑5 88% என்ற புதிய சாதனையை படைத்துள்ளது, இது o3 உடன் ஒப்பிடும்போது பிழை விகிதத்தில் மூன்றில் ஒரு பங்கு குறைப்பு ஆகும்.

Aider polygot⁠(புதிய சாளரத்தில் திறக்கும்) (டிஃப்) இல், மாடலுக்கு Exercism இலிருந்து ஒரு கோடிங் பயிற்சி வழங்கப்படுகிறது, மேலும் அதற்கான தீர்வை கோட் டிஃப் வடிவில் எழுத வேண்டும். காரணவிளக்கமளித்தல் மாதிரிகள் அதிக தர்க்க முயற்சியுடன் இயக்கப்பட்டன.

பல்வேறு துண்டுகள் எவ்வாறு செயல்படுகின்றன அல்லது ஒன்றோடொன்று இயங்குகின்றன என்பது குறித்த கேள்விகளுக்கு பதிலளிக்க, குறியீட்டு அடிப்படைகளை ஆழமாக ஆராய்வதில் GPT‑5 சிறந்ததாக இருப்பதையும் நாங்கள் கண்டறிந்துள்ளோம். OpenAI இன் வலுவூட்டல் கற்றல் அடுக்கைப் போன்ற சிக்கலான குறியீட்டுத் தளத்தில், GPT‑5 நமது குறியீட்டைப் பற்றிய கேள்விகளைப் பற்றி சிந்திக்கவும் பதிலளிக்கவும் உதவும் என்பதைக் கண்டறிந்து, நமது அன்றாட வேலையை துரிதப்படுத்துகிறோம்.

Frontend engineering

வலை பயன்பாடுகளுக்கான முன்பக்க குறியீட்டை உருவாக்கும் போது, GPT‑5 மிகவும் அழகியல் சார்ந்தது, லட்சியமானது மற்றும் துல்லியமானது. o3 உடன் ஒப்பிடுகையில், எங்கள் சோதனையாளர்கள் 70% நேரம் GPT‑5 ஐ விரும்பினர்.

GPT‑5 ஒரே ஒரு தூண்டி மூலம் என்ன செய்ய முடியும் என்பதற்கான சில வேடிக்கையான, சுவாரஸ்யமான தேர்ந்தெடுக்கப்பட்ட எடுத்துக்காட்டுகள் இங்கே:

தூண்டி: உயர் காபி பிரியர்களுக்கு மாதத்திற்கு $200 சந்தா வழங்கும் ஒரு சேவைக்கான அழகான, யதார்த்தமான இறங்கும் பக்கத்தை உருவாக்கவும், இது காபி வறுத்தெடுப்பதற்கும் அல்டிமேட் எஸ்பிரெசோவை உருவாக்குவதற்கும் உபகரணங்களை வாடகைக்கு எடுப்பதற்கும் பயிற்சி அளிப்பதற்கும் உதவுகிறது. இலக்கு பார்வையாளர்கள் தொழில்நுட்பத்தில் பணிபுரியக்கூடிய, படித்த, செலவழிக்கக்கூடிய வருமானம் கொண்ட, காபியின் கலை மற்றும் அறிவியலில் ஆர்வமுள்ள ஒரு விரிகுடா பகுதி நடுத்தர வயது நபர். 6 மாத பதிவுக்காக மாற்றத்திற்கு உகந்ததாக்குங்கள்.

GPT‑5 இன் மேலும் எடுத்துக்காட்டுகளை எங்கள் கேலரியில் இங்கே⁠(புதிய சாளரத்தில் திறக்கும்) பார்க்கவும்.

Coding collaboration

GPT‑5 ஒரு சிறந்த கூட்டாளி — குறிப்பாக Cursor, Windsurf, GitHub Copilot, மற்றும் Codex CLI போன்ற ஏஜென்டிக் கோடிங் தயாரிப்புகளில். வேலை செய்யும் போது, GPT‑5 டூல் கால்ஸ் நடுவில் பிளான்கள், அப்டேட்கள் மற்றும் ரீகாப்கள் போன்றவற்றை வெளியிட முடியும். முந்தைய மாதிரிகளுடன் ஒப்பிடும்போது, GPT‑5 உங்கள் அனுமதிக்காக நிறுத்தாமல் அல்லது அதிக சிக்கலால் பின்வாங்காமல், பெரும் முனைப்பான டாஸ்க்களை முன்வரிசையாக முடித்து விடுகிறது.

ஒரு சிக்கலான பணியை (இங்கு, ஒரு உணவகத்துக்கான வலைத்தளத்தை உருவாக்குதல்) சமாளிக்கும்போது GPT‑5 எப்படி இருக்கும் என்பதற்கான ஒரு உதாரணம்:

பயனர் தங்கள் உணவகத்திற்கான வலைத்தளத்தை கோரியபின், GPT‑5 ஒரு விரைவான திட்டத்தை பகிர்ந்து, பயன்பாட்டின் அமைப்பை உருவாக்கி, தேவையான தொகுதிகளை நிறுவி, தள உள்ளடக்கத்தை உருவாக்கி, பிழைகள் உள்ளதா என சரிபார்க்க கட்டமைப்பை இயக்கி, தனது பணியை சுருக்கமாக விளக்கி, அடுத்த படிகளுக்கான பரிந்துரைகளையும் வழங்குகிறது. இந்த வீடியோவை நீங்கள் காத்திருப்பதைத் தவிர்க்க சுமார் 3 மடங்கு வேகமாக்கப்பட்டுள்ளது; வலைத்தளத்தை உருவாக்க முழு நேரம் சுமார் மூன்று நிமிடங்கள் ஆகும்.

முகவர் பணிகள்

முகவர் குறியீட்டுக்கு அப்பால், GPT‑5 பொதுவாக முகவர் பணிகளில் சிறந்தது. GPT‑5, அறிவுறுத்தல் பின்பற்றுதலின் அளவுகோல்களில் (o3‑mini ஆல் தரப்படுத்தப்பட்டபடி, அளவுகோல் மல்டிசேஞ்சில் 69.6%) மற்றும் கருவி அழைப்பு (τ²-பெஞ்ச் டெலிகாமில் 96.7%) புதிய சாதனைகளைப் படைத்துள்ளது. மேம்படுத்தப்பட்ட கருவி நுண்ணறிவு, நிஜ உலகப் பணிகளைச் செய்வதற்கு GPT‑5 செயல்களை மிகவும் நம்பகத்தன்மையுடன் ஒன்றாக இணைக்க அனுமதிக்கிறது.

முகவர் பணிகளுக்கான GPT‑5 பற்றிய ஆரம்பகால பின்னூட்டம்

“GPT-5 ஒரு மிகப் பெரிய முன்னேற்றம். எங்கள் உள்துறை அளவுகோள்களில் இதுவரை ஒரே மாதிரியால் காணப்பட்ட சிறந்த செயல்திறனை இது பெற்றுள்ளது. GPT-5 எந்தக் குறியீட்டையும் மாற்றாமலும், எந்தக் கட்டளையையும் மாற்றாமலும் பல தன்னாட்சி பணிகளில் சிறந்த திறனை வெளிப்படுத்தியது. புதிய அறிமுக வழிமுறைகள் மற்றும் கருவிகளின் மேலான கட்டுப்பாடு எங்கள் ஏஜென்ட்களின் நிலைத்தன்மையிலும் வழிநடத்தும் திறனிலும் குறிப்பிடத்தக்க முன்னேற்றத்தை ஏற்படுத்தியது.”

Yichao ‘Peak’ Ji, இணை நிறுவனர் மற்றும் தலைமை அறிவியலாளர், Manus

வழிமுறைகளைப் பின்பற்றுதல்

GPT‑5 அதன் முன்னோடிகளை விட மிகவும் நம்பகத்தன்மையுடன் வழிமுறைகளைப் பின்பற்றுகிறது, COLLIE, Scale MultiChallenge மற்றும் மதிப்பீடுகளைத் தொடர்ந்து எங்கள் உள் அறிவுறுத்தலில் அதிக மதிப்பெண்களைப் பெறுகிறது.

COLLIE⁠(புதிய சாளரத்தில் திறக்கும்) இல், மாதிரிகள் பல்வேறு கட்டுப்பாடுகளை பூர்த்தி செய்யும் உரையை எழுத வேண்டும். ஸ்கேல் மல்டி சேலஞ்சில்⁠(புதிய சாளரத்தில் திறக்கும்), முந்தைய செய்திகளிலிருந்து நான்கு வகையான தகவல்களை சரியாகப் பயன்படுத்த பல-முறை உரையாடல்களில் மாதிரிகள் சவாலுக்கு உட்படுத்தப்படுகின்றன. எங்கள் மதிப்பெண்கள் o3‑mini‑யை மதிப்பீட்டாளராக பயன்படுத்தியதில் இருந்து பெறப்பட்டவை; இது GPT‑4o‑வை விட அதிக துல்லியமானதாக இருந்தது. எங்கள் உள்துறை OpenAI API instruction-following மதிப்பீட்டில், மாதிரிகள் உண்மையான டெவலப்பர் கருத்துமறைகளிலிருந்து பெறப்பட்ட கடினமான வழிமுறைகளை தவறாது பின்பற்ற வேண்டும். காரணவிளக்கமளித்தல் மாதிரிகள் அதிக தர்க்க முயற்சியுடன் இயக்கப்பட்டன.

டூல் காலிங்

டெவலப்பர்களுக்கு முக்கியமான விதங்களில் டூல் காலிங்கை மேம்படுத்த நாங்கள் கடுமையாக உழைத்தோம். கருவி வழிமுறைகளைப் பின்பற்றுவதில் GPT‑5 சிறந்தது, கருவிப் பிழைகளைச் சமாளிப்பதில் சிறந்தது, மேலும் பல கருவி அழைப்புகளை வரிசையாகவோ அல்லது இணையாகவோ முன்கூட்டியே செய்வதில் சிறந்தது. அறிவுறுத்தப்படும்போது, நீண்ட முகவர் பணிகளின் போது பயனர்களின் முன்னேற்றத்தைப் புதுப்பிக்க, கருவி அழைப்புகளுக்கு முன்னுரை செய்திகளை GPT‑5 வெளியிடும்.

இரண்டு மாதங்களுக்கு முன்பு, τ²-பெஞ்ச் டெலிகாம் Sierra.ai ஆல் ஒரு சவாலான கருவி பயன்பாட்டு அளவுகோலாக வெளியிடப்பட்டது, இது பயனர்களால் மாற்றக்கூடிய சூழ்நிலை மாநிலத்துடன் தொடர்பு கொள்ளும்போது அறிவு மாதிரி செயல்திறன் எவ்வாறு கணிசமாக குறைகிறது என்பதை எடுத்துக்காட்டியது. அவர்களின் வெளியீட்டில்⁠(புதிய சாளரத்தில் திறக்கும்), எந்த மாதிரியும் 49% க்கு மேல் மதிப்பெண் பெறவில்லை. GPT‑5 97% மதிப்பெண் பெற்றுள்ளது.

τ2-bench⁠(புதிய சாளரத்தில் திறக்கும்) இல், ஒரு மாதிரி வாடிக்கையாளர் சேவை பணியை நிறைவேற்ற கருவிகளைப் பயன்படுத்த வேண்டும், அங்கு தொடர்பு கொள்ளக்கூடிய மற்றும் உலக நிலைமையில் நடவடிக்கை எடுக்கக்கூடிய ஒரு பயனர் இருக்கலாம். காரணவிளக்கமளித்தல் மாதிரிகள் அதிக தர்க்க முயற்சியுடன் இயக்கப்பட்டன.

நீண்ட சூழல் செயல்திறனிலும் GPT‑5 வலுவான முன்னேற்றங்களைக் காட்டுகிறது. நீண்ட சூழல் தகவல் மீட்டெடுப்பின் அளவீடான OpenAI-MRCR இல், GPT‑5, o3 மற்றும் GPT‑4.1 ஐ விட சிறப்பாக செயல்படுகிறது, இது நீண்ட உள்ளீட்டு நீளங்களில் கணிசமாக வளரும் வித்தியாசத்தில் உள்ளது.

OpenAI-MRCR⁠(புதிய சாளரத்தில் திறக்கும்) (பல-சுற்று இணை-குறிப்புத் தெளிவுத்திறன்) இல், பல ஒத்த "ஊசி" பயனர் கோரிக்கைகள் ஒத்த கோரிக்கைகள் மற்றும் பதில்களின் நீண்ட "வைக்கோல் அடுக்குகளில்" செருகப்படுகின்றன, மேலும் மாதிரி i-ஆம் ஊசிக்கு பதிலை மீண்டும் உருவாக்கக் கேட்கப்படுகிறது. Mean match ratio என்பது மாதிரியின் பதிலும் சரியான பதிலும் இடையேயான சராசரி உரை பொருந்தும் விகிதத்தை அளவிடுகிறது. 256k அதிகபட்ச உள்ளீட்டு டோக்கன்களில் உள்ள புள்ளிகள், 128k–256k உள்ளீட்டு டோக்கன்களுக்கான சராசரிகளை குறிக்கின்றன, இதேபோல் தொடர்கிறது. இங்கே, 256k என்பது 256 * 1,024 = 262,114 டோக்கன்களை குறிக்கிறது. காரணவிளக்கமளித்தல் மாதிரிகள் அதிக தர்க்க முயற்சியுடன் இயக்கப்பட்டன.

நீண்ட சூழல் கேள்வி பதில்களை மதிப்பிடுவதற்கான புதிய அளவுகோலான BrowseComp Long Context⁠(புதிய சாளரத்தில் திறக்கும்) ஐ நாங்கள் திறந்த மூலப் பொருளாகப் பயன்படுத்துகிறோம். இந்த அளவுகோலில், மாதிரிக்கு பயனர் வினவல், தொடர்புடைய தேடல் முடிவுகளின் நீண்ட பட்டியல் வழங்கப்படுகிறது, மேலும் தேடல் முடிவுகளின் அடிப்படையில் கேள்விக்கு பதிலளிக்க வேண்டும். நாங்கள் BrowseComp நீண்ட சூழலை யதார்த்தமாகவும், கடினமாகவும், நம்பகமான முறையில் சரியான அடிப்படை உண்மை பதில்களைக் கொண்டதாகவும் வடிவமைத்துள்ளோம். 128K — 256K டோக்கன்கள் உள்ளீடுகளில், GPT‑5 சரியான பதிலை 89% நேரத்தில் தருகிறது.

API-யில், அனைத்து GPT‑5 மாடல்களும் அதிகபட்சமாக 272,000 உள்ளீட்டு டோக்கன்களை ஏற்றுக்கொள்ளலாம் மற்றும் அதிகபட்சமாக 128,000 பகுத்தறிவு & வெளியீட்டு டோக்கன்களை வெளியிடலாம், மொத்த சூழல் நீளம் 400,000 டோக்கன்கள்.

உண்மைத்தன்மை

GPT‑5 எங்கள் முந்தை மாதிரிகளை விட அதிக நம்பகத்தன்மையுடையது. LongFact மற்றும் FactScore பெஞ்ச்மார்க்க்களில் GPT‑5, o3 மாடலை விட சுமார் 80% குறைவான உண்மைப் பிழைகளைச் செய்கிறது. இது, குறிப்பாக குறியீடு, தரவு மற்றும் முடிவெடுப்பதில் சரியான தன்மை முக்கியத்துவம் வாய்ந்த முகவர் பயன்பாட்டு நிகழ்வுகளுக்கு மிகவும் பொருத்தமானதாக அமைகிறது.

அதிக மதிப்பெண்கள் மோசமான செயல்திறனை குறிக்கின்றன. LongFact⁠(புதிய சாளரத்தில் திறக்கும்) மற்றும் FActScore⁠(புதிய சாளரத்தில் திறக்கும்) திறந்த முடிவில்லா உண்மைத் தேடல் கேள்விகளை கொண்டுள்ளன. இந்த அளவுகோல்களிலிருந்து வரும் அறிவுறுத்தல்களின் பதில்களை உண்மைச் சரிபார்ப்பதற்கும், உண்மைக்கு மாறான கூற்றுகளின் பகுதியை அளவிடுவதற்கும், நாங்கள் ஒரு LLM-அடிப்படையிலான கிரேடரைப் பயன்படுத்தி உலாவல் செய்கிறோம். செயல்படுத்தல் மற்றும் தரப்படுத்தல் விவரங்களை கணினி அட்டையில் காணலாம்.⁠ தர்க்க மாதிரிகள் அதிக தர்க்க முயற்சியுடன் பயன்படுத்தப்பட்டன. தேடல் இயக்கப்படவில்லை.

பொதுவாக, GPT‑5 தன்னுடைய வரம்புகளைப் பற்றிய விழிப்புணர்வுடன் இருக்கவும், எதிர்பாராத சவால்களை (கர்வ்பால்களை) சிறப்பாக கையாளவும் பயிற்சி அளிக்கப்பட்டுள்ளது. நாங்கள் GPT‑5‑ஐ உடல்நலக் கேள்விகளில் மேலும் துல்லியமாக இருக்க பயிற்சி அளித்தோம் (எங்கள் ஆராய்ச்சி வலைப்பதிவில் மேலும் படிக்கவும்). அனைத்து மொழி மாடல்களிலும் போல், முக்கிய முடிவுகளில் GPT‑5 வழங்கும் பதில்களைச் சரிபார்ப்பது பரிந்துரைக்கப்படுகிறது.

புதிய அம்சங்கள்

Minimal reasoning effort

API-யில் உள்ள reasoning_effort அளவுருவின் மூலம் GPT‑5‑ன் சிந்தனை நேரத்தை டெவலப்பர்கள் கட்டுப்படுத்த முடியும். முந்தைய மதிப்புகளுக்கு கூடுதலாக—low, medium (இயல்புநிலை), மற்றும் high—GPT‑5 minimal என்பதையும் ஆதரவளி, இது GPT‑5 இன் பகுத்தறிவை குறைத்து விரைவாக பதிலை அளிக்க உதவுகிறது.

உயர்ந்த reasoning_effort மதிப்புகள் தரத்தை அதிகரிக்கின்றன, மேலும் குறைந்த மதிப்புகள் வேகத்தை அதிகரிக்கின்றன. கூடுதல் பகுத்தறிவால் எல்லாப் பணிகளும் சமமாகப் பயனடைவதில்லை, எனவே நீங்கள் அக்கறை கொள்ளும் பயன்பாட்டு நிகழ்வுகளுக்கு எது சிறப்பாகச் செயல்படுகிறது என்பதைப் பரிசோதித்துப் பார்க்க பரிந்துரைக்கிறோம்.

எடுத்துக்காட்டாக, குறைந்த அளவுக்கு மேலே பகுத்தறிவு ஒப்பீட்டளவில் எளிய நீண்ட சூழல் மீட்டெடுப்பதில் குறைவாகவே சேர்க்கிறது, ஆனால் CharXiv Reasoning⁠(புதிய சாளரத்தில் திறக்கும்), ஒரு காட்சி பகுத்தறிவு அளவுகோலுக்கு சில சதவீத புள்ளிகளைச் சேர்க்கிறது.

GPT‑5 இன் தர்க்க முயற்சி, வெவ்வேறு பணிகளில் வெவ்வேறு நன்மைகளை வழங்குகிறது. CharXiv Reasoning மதிப்பீட்டில், GPT‑5‑க்கு Python கருவியைப் பயன்படுத்தும் அனுமதி வழங்கப்பட்டது.

Verbosity

GPT‑5 இன் பதில்களின் இயல்புநிலை நீளத்தை வழிநடத்த உதவ, low, medium (இயல்புநிலை), மற்றும் high என்ற மதிப்புகளை கொண்ட புதிய API அளவுரு verbosity ஐ அறிமுகப்படுத்தியுள்ளோம். வெளிப்படையான வழிமுறைகள் சொற்களஞ்சிய அளவுருக்களுடன் முரண்பட்டால், வெளிப்படையான வழிமுறைகள் முன்னுதாரணமாகின்றன. உதாரணமாக, நீங்கள் GPT‑5‑ஐ "5 பத்தி கட்டுரை எழுது" என்று கேட்டால், சொற்களஞ்சியத்தின் அளவைப் பொருட்படுத்தாமல் மாதிரியின் பதில் எப்போதும் 5 பத்திகளாக இருக்க வேண்டும் (இருப்பினும், பத்திகள் நீளமாகவோ அல்லது குறைவாகவோ இருக்கலாம்).

Verbosity = குறைந்தது

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity = மிதமானது

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

The Sun emits slightly less violet than blue.
The upper atmosphere absorbs some violet/UV.
Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity = அதிகம்

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

The Sun emits less violet than blue.
Our eyes are less sensitive to violet.
Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

கருவி அழைப்புகளுக்கு முன் முன்னுரை செய்திகள்

அறிவுறுத்தப்பட்டால், கருவி அழைப்புகளுக்கு முன்னும் பின்னும் பயனர் காணக்கூடிய முன்னுரை செய்திகளை GPT‑5 வெளியிடும். மறைக்கப்பட்ட பகுத்தறிவு செய்திகளைப் போலன்றி, இந்த புலப்படும் செய்திகள் GPT‑5 திட்டங்களையும் முன்னேற்றத்தையும் பயனருக்குத் தெரிவிக்க அனுமதிக்கின்றன, இறுதி பயனர்கள் கருவி அழைப்புகளுக்குப் பின்னால் உள்ள அதன் அணுகுமுறை மற்றும் நோக்கத்தைப் புரிந்துகொள்ள உதவுகின்றன.

Custom tools

நாங்கள் ஒரு புதிய டூல் வகையை — கஸ்டம் டூல்ஸ் (custom tools) — அறிமுகப்படுத்துகிறோம், இது GPT‑5 க்கு JSON க்கு பதிலாக ப்ளெயின்டெக்ஸ்ட் (plaintext) மூலம் டூல் கால் செய்ய அனுமதிக்கிறது. GPT‑5 ஐ தனிப்பயன் கருவி வடிவங்களைப் பின்பற்ற கட்டுப்படுத்த, உருவாக்குபவர்கள் regex அல்லது மேலும் முழுமையாக விவரிக்கப்பட்ட சூழல்-இலவச இலக்கணம்⁠(புதிய சாளரத்தில் திறக்கும்) வழங்கலாம்.

முன்னதாக, டெவலப்பர்-வரையறுத்த கருவிகளுக்கான எங்கள் இடைமுகம், அவற்றை JSON உடன் அழைக்க வேண்டியிருந்தது, இது பொதுவாக வலை APIகள் மற்றும் டெவலப்பர்களால் பயன்படுத்தப்படும் ஒரு பொதுவான வடிவமாகும். இருப்பினும், செல்லுபடியாகும் JSON ஐ வெளியிடுவதற்கு, மாதிரி அனைத்து மேற்கோள் குறிகள், பின்சாய்வுக்கோடுகள், புதிய வரிகள் மற்றும் பிற கட்டுப்பாட்டு எழுத்துக்களிலிருந்து சரியாகத் தப்பிக்க வேண்டும். எங்கள் மாதிரிகள் JSON உருவாக்க நன்றாக பயிற்சி பெற்றிருந்தாலும், நூற்றுக்கணக்கான கோட் வரிகள் அல்லது 5 பக்க ரிப்போர்ட் போன்ற நீளமான உள்ளீடுகளில் பிழை ஏற்படும் வாய்ப்பு அதிகரிக்கிறது. தனிப்பயன் கருவிகள் மூலம், GPT‑5, தப்பிக்க வேண்டிய அனைத்து எழுத்துக்களையும் தப்பிக்காமல், கருவி உள்ளீடுகளை எளிய உரையாக எழுத முடியும்.

SWE-bench Verified இல் JSON டூல்ஸ் க்கு பதிலாக கஸ்டம் டூல்ஸ் பயன்படுத்தியபோதும், GPT‑5 அதே அளவிலான மதிப்பெண்களைப் பெற்றுள்ளது.

பாதுகாப்பு

GPT‑5 பாதுகாப்பு துறையில் புதிய அளவுகோலை ஏற்படுத்தி, மேலும் வலுவான, நம்பகமான மற்றும் பயனுள்ள மாதிரியாக திகழ்கிறது. GPT‑5, முந்தைய மாதிரிகளைவிட மிகக் குறைவாக தவறான தகவல்களை உருவாக்குகிறது, தன் செயல்கள் மற்றும் திறன்களை பயனரிடம் மேலும் நேர்மையாக வெளிப்படுத்துகிறது மற்றும் பாதுகாப்பு வரம்புக்குள் இருந்தபடியே, சாத்தியமான இடங்களில் மிகப் பயனுள்ள பதிலை வழங்குகிறது. நீங்கள் எங்கள் ஆராய்ச்சி வலைப்பதிவில் மேலும் படிக்கலாம்.

கிடைக்கும் நிலை மற்றும் விலை விவரங்கள்

GPT‑5 இப்போது API பிளாட்ஃபார்மில் மூன்று அளவுகளில் கிடைக்கிறது: gpt-5, gpt-5-mini, மற்றும் gpt-5-nano. இது Responses API, Chat Completions API ஆகியவற்றில் கிடைக்கிறது, மேலும் Codex CLI இல் இயல்புநிலை (டீஃபால்ட்) மாடலாக உள்ளது. GPT‑5 விலை $1.25/1M உள்ளீட்டு டோக்கன்கள் மற்றும் $10/1M வெளியீட்டு டோக்கன்கள், GPT‑5 மினி விலை $0.25/1M உள்ளீட்டு டோக்கன்கள் மற்றும் $2/1M வெளியீட்டு டோக்கன்கள், மற்றும் GPT‑5 நானோ விலை $0.05/1M உள்ளீட்டு டோக்கன்கள் மற்றும் $0.40/1M வெளியீட்டு டோக்கன்கள்.

இந்த மாதிரிகள் reasoning_effort மற்றும் verbosity API அளவுருக்களையும், தனிப்பயன் கருவிகளையும் ஆதரவளி செய்கின்றன. அவை இணை கருவி அழைப்பு, உள்ளமைக்கப்பட்ட கருவிகள் (வலை தேடல், கோப்பு தேடல், பட உருவாக்கம் மற்றும் பல), முக்கிய API அம்சங்கள் (ஸ்ட்ரீமிங், கட்டமைக்கப்பட்ட வெளியீடுகள் மற்றும் பல) மற்றும் உடனடி கேச்சிங் மற்றும் தொகுதி API போன்ற செலவு சேமிப்பு அம்சங்களையும் ஆதரிக்கின்றன.

ChatGPT இல் பயன்படுத்தப்படும் GPT‑5 இன் பகுத்தறிவு அல்லாத பதிப்பு API இல் gpt-5-chat-latest என கிடைக்கிறது, மேலும் விலை $1.25/1M உள்ளீட்டு டோக்கன்கள் மற்றும் $10/1M வெளியீட்டு டோக்கன்கள் ஆகும்.

GPT‑5, Microsoft பிளாட்ஃபார்ம்களிலும் அறிமுகமாகிறது — இதில் Microsoft 365 Copilot, Copilot, GitHub Copilot, மற்றும் Azure AI Foundry அடங்கும்.

தொடங்குவதற்கு GPT‑5 ஆவணங்களை⁠(புதிய சாளரத்தில் திறக்கும்), விலையிடல் விவரங்களை⁠(புதிய சாளரத்தில் திறக்கும்), மற்றும் தூண்டல் வழிகாட்டியை⁠(புதிய சாளரத்தில் திறக்கும்) பாருங்கள்.

விரிவான பெஞ்ச்மார்க்குகள்

நுண்ணறிவு

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
AIME ’25(no tools)	94.6%	91.1%	85.2%	88.9%	92.7%	46.4%	40.2%	-
FrontierMath(with python tool only)	26.3%	22.1%	9.6%	15.8%	15.4%	-	-	-
GPQA diamond(no tools)	85.7%	82.3%	71.2%	83.3%	81.4%	66.3%	65.0%	50.3%
HLE^[1](no tools)	24.8%	16.7%	8.7%	20.2%	14.7%	5.4%	3.7%	-
HMMT 2025(no tools)	93.3%	87.8%	75.6%	81.7%	85.0%	28.9%	35.0%	-

[1] முந்தைய வலைப்பதிவில் தெரிவிக்கப்பட்ட எண்களில் சிறிய வேறுபாடு உள்ளது, ஏனெனில் அவை HLE-யின் முந்தைய பதிப்பில் இயங்கியவை.

பலவகைமை

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
MMMU	84.2%	81.6%	75.6%	82.9%	81.6%	74.8%	72.7%	55.4%
MMMU-Pro(avg across standard and vision sets)	78.4%	74.1%	62.6%	76.4%	73.4%	60.3%	58.9%	33.0%
CharXiv reasoning(python enabled)	81.1%	75.5%	62.7%	78.6%	72.0%	56.7%	56.8%	40.5%
VideoMMMU, max frame 256	84.6%	82.5%	66.8%	83.3%	79.4%	60.9%	55.1%	30.2%
ERQA	65.7%	62.9%	50.1%	64.0%	56.5%	44.3%	42.3%	26.5%

குறியீடாக்கம்

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks	$112ஆ	$75ஆ	$49ஆ	$86ஆ	$66ஆ	$34ஆ	$31ஆ	$9ஆ
SWE-bench Verified^[2]	74.9%	71.0%	54.7%	69.1%	68.1%	54.6%	23.6%	-
Aider polyglot(diff)	88.0%	71.6%	48.4%	79.6%	58.2%	52.9%	31.6%	6.2%

[2] எங்கள் அமைப்பில் இயங்க முடியாத 500 பிரச்சினைகளில் 23 பிரச்சினைகளை நாம் நீக்கினோம். முழுமையான 23 பணிகளின் பட்டியலில் தவிர்க்கப்பட்டவை 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', மற்றும் 'sphinx-doc__sphinx-9367' ஆகும்.

வழிமுறைகளைப் பின்பற்றுதல்

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
Scale multichallenge^[3](o3-mini grader)	69.6%	62.3%	54.9%	60.4%	57.5%	46.2%	42.2%	31.1%
Internal API instruction following eval(hard)	64.0%	65.8%	56.1%	47.4%	44.7%	49.1%	45.1%	31.6%
COLLIE	99.0%	98.5%	96.9%	98.4%	96.1%	65.8%	54.6%	42.5%

[3] குறிப்பு: MultiChallenge (GPT-4o) இல் உள்ள இயல்புநிலை மதிப்பீட்டாளர் அடிக்கடி மாதிரி பதில்களுக்கு தவறான மதிப்பெண்களை வழங்குவதாக நாங்கள் கண்டறிந்துள்ளோம். மதிப்பிடுபவரை o3-mini போன்ற காரணவிளக்கமளித்தல் மாதிரிகளுக்கு மாற்றுவது, நாங்கள் ஆய்வு செய்த மாதிரிகளில் மதிப்பிடும் துல்லியத்தை குறிப்பிடத்தக்க அளவில் மேம்படுத்துகிறது என்பதை நாங்கள் கண்டறிந்துள்ளோம்.

செயல்பாட்டு அழைப்பு

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
Tau²-bench airline	62.6%	60.0%	41.0%	64.8%	60.2%	56.0%	51.0%	14.0%
Tau²-bench retail	81.1%	78.3%	62.3%	80.2%	70.5%	74.0%	66.0%	21.5%
Tau²-bench telecom	96.7%	74.1%	35.5%	58.2%	40.5%	34.0%	44.0%	12.1%

நீளமான கான்டெக்

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
OpenAI-MRCR: 2 needle 128k	95.2%	84.3%	43.2%	55.0%	56.4%	57.2%	47.2%	36.6%
OpenAI-MRCR: 2 needle 256k	86.8%	58.8%	34.9%	-	-	56.2%	45.5%	22.6%
Graphwalks bfs <128k	78.3%	73.4%	64.0%	77.3%	62.3%	61.7%	61.7%	25.0%
Graphwalks parents <128k	73.3%	64.3%	43.8%	72.9%	51.1%	58.0%	60.5%	9.4%
BrowseComp Long Context 128k	90.0%	89.4%	80.4%	88.3%	80.0%	85.9%	89.0%	89.4%
BrowseComp Long Context 256k	88.8%	86.0%	68.4%	-	-	75.5%	81.6%	19.1%
VideoMME(long, with subtitle category)	86.7%	78.5%	65.7%	84.9%	79.5%	78.7%	68.4%	55.2%

மாயத்தோற்றங்கள்

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]	1.0%	0.7%	1.0%	5.2%	3.0%	0.7%	1.1%	-
LongFact-Objects hallucination rate(no tools)[lower is better]	1.2%	1.3%	2.8%	6.8%	8.9%	1.1%	1.8%	-
FActScore hallucination rate(no tools)[lower is better]	2.8%	3.5%	7.3%	23.5%	38.7%	6.7%	10.9%	-

2025

ஆசிரியர்

OpenAI

தொடர்ந்து படிக்க

அனைத்தையும் பார்க்கவும்

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

Microsoft 365 Copilot-இல் GPT-5.6 இப்போது முன்னுரிமை மாடல் ஆகும்

தயாரிப்பு9 ஜூலை, 2026

GPT-5.6: உங்கள் லட்சியத்திற்கு ஏற்ப விரிவடையும் அதிநவீன நுண்ணறிவு

தயாரிப்பு9 ஜூலை, 2026

உங்கள் மிகப் பெரிய வேலைகளுக்கான கூட்டாளியாக இப்போது ChatGPT உள்ளது

தயாரிப்பு9 ஜூலை, 2026