முக்கிய உள்ளடக்கத்திற்கு செல்க
OpenAI

ChatGPT ஏஜென்ட் அறிமுகம்: ரிசர்ச் மற்றும் ஆக்ஷன் ஐ இணைக்கும் புதுமை.

ChatGPT இப்போது சிந்தித்து செயல்படும், தனது சொந்த கம்ப்யூட்டரில் இருந்து ஏஜென்டிக் ஸ்கில்ஸ் டூல்பாக்ஸ் லிருந்து தேர்வு செய்து உங்கள் பணிகளை முடிக்கிறது.

ஏற்றுகிறது…

ChatGPT இப்போது தனது சொந்த கம்ப்யூட்டரை பயன்படுத்தி ஆரம்பத்திலிருந்து இறுதி வரை சிக்கலான டாஸ்க்ஸ் ஐ மேற்கொள்கிறது.

இப்போது நீங்கள் ChatGPT ஐ “என் காலெண்டர் பார்க்கவும், சமீபத்திய நியூஸ் அடிப்படையில் வரவிருக்கும் கிளையன்ட் மீட்டிங்ஸ் பற்றி பிரீஃப் செய்யவும்,” “நால்வருக்கான ஜப்பானீஸ் பிரேக்பாஸ்ட் செய்ய பிளான் பண்ணி இன்கிரீடியண்ட்ஸ் வாங்கவும்,” அல்லது “மூன்று கம்பிட்டிட்டர்ஸ் ஐ அனலிஸிஸ் பண்ணி ஒரு ஸ்லைட் டெக் உருவாக்கவும்” என்று கேட்கலாம். ChatGPT புத்திசாலித்தனமாக வெப்சைட்ஸ் வழியாக நெவிகேட் செய்து, ரிசல்ட்ஸ் ஃபில்டர் செய்து, தேவையானபோது பாதுகாப்பாக லாகின் செய்யப் ப்ராம்ப்ட் செய்து, கோட் ரன் செய்து, அனலிஸிஸ் நடத்தி, அதன் கண்டுபிடிப்புகளை சுருக்கமாக காட்டும் எடிடபிள் ஸ்லைட்ஷோஸ் மற்றும் ஸ்பிரெட்ஷீட்ஸ் ஐ வழங்கும். 

இந்த புதிய திறனின் மையத்தில் யூனிஃபைடு ஏஜென்டிக் சிஸ்டம் உள்ளது. இது முந்தைய பெரும் புதுமைகளின் மூன்று முக்கிய வலிமைகளை ஒருங்கிணைக்கிறது. வெப்சைட்ஸ் உடன் இன்டராக்ட் செய்யும் ஆபரேட்டர் திறன், தகவலை ஒருங்கிணைக்கும் டீப் ரிசர்ச் ஸ்கில், மற்றும் ChatGPT யின் இன்டெலிஜென்ஸ் மற்றும் கன்வர்சேஷனல் புலமை ஆகியவை.

ChatGPT தனது சொந்த வர்ச்சுவல் கம்ப்யூட்டரை பயன்படுத்தி, உங்கள் இன்ஸ்ட்ரக்ஷன்ஸ் அடிப்படையில் ரீசனிங் மற்றும் ஆக்ஷன் க்கு இடையே மென்மையாக மாறி, ஆரம்பத்திலிருந்து இறுதி வரை சிக்கலான வொர்க்ஃப்ளோஸ் ஐ மேற்கொள்கிறது.

மிக முக்கியமாக, கட்டுப்பாடு எப்போதும் உங்களிடமே இருக்கும். முக்கியமான ஆக்ஷன்ஸ் எடுக்கும்முன் ChatGPT உங்கள் அனுமதி கேட்கும், மேலும் நீங்கள் எளிதாக இடையில் நிறுத்தவோ, ப்ரௌசர் ஐ கைப்பற்றவோ, டாஸ்க்ஸ் ஐ எந்த நேரத்திலும் நிறுத்தவோ முடியும்.

இன்று முதல், Pro, Plus மற்றும் Team யூசர்ஸ், கம்போசர் இல் உள்ள டூல்ஸ் டிராப்டவுன் மூலம் ‘ஏஜென்ட் மோட்’ ஐ தேர்வு செய்து, எந்த கன்வர்சேஷனிலும் ChatGPT யின் புதிய ஏஜென்டிக் திறன்களை நேரடியாக ஆக்டிவேட் செய்யலாம். 

ChatGPT ஏஜென்ட் ஏற்கனவே சிக்கலான டாஸ்க்ஸ் களை கையாளும் சக்திவாய்ந்த டூல் ஆக இருந்தாலும், இன்றைய லாஞ்ச் தொடக்கம் மட்டுமே. நாங்கள் தொடர்ச்சியாக முக்கியமான அப்ரூவ்மெண்ட்ஸ் சேர்த்து, அதை மேலும் திறமையாகவும் பலருக்கும் பயனுள்ளதாகவும் மாற்றி வருவோம்.

ஆபரேட்டர் மற்றும் டீப் ரிசர்ச் ஆகியவற்றின் இயல்பான முன்னேற்றம்.

முந்தையதாக, ஆபரேட்டர் மற்றும் டீப் ரிசர்ச் தலா தனித்தன்மையான வலிமைகளை கொண்டிருந்தன. ஆபரேட்டர் வெபில் ஸ்க்ரோல், கிளிக் மற்றும் டைப் செய்ய முடிந்தது, அதே நேரத்தில் டீப் ரிசர்ச் தகவலை அனலிஸிஸ் செய்து சுருக்கமாக்குவதில் சிறந்தது. ஆனால் அவை வெவ்வேறு சூழ்நிலைகளில் சிறப்பாக செயல்பட்டன. ஆபரேட்டர் ஆழமான அனலிஸிஸ் செய்யவோ, விரிவான ரிப்போர்ட்ஸ் எழுதவோ முடியவில்லை; அதேசமயம், டீப் ரிசர்ச் யூசர் ஆத்தென்டிகேஷன் தேவைப்படும் கன்டென்ட் அணுகவோ, ரிசல்ட்ஸ் ஐ ரிஃபைன் செய்ய வெப்சைட்ஸ் உடன் இன்டராக்ட் செய்யவோ முடியவில்லை. உண்மையில், யூசர்ஸ் ஆபரேட்டர் மூலம் முயன்ற பல க்வெரீஸ் டீப் ரிசர்ச் க்கு அதிகமாக பொருத்தமானவை என நாங்கள் கண்டோம், அதனால் இரண்டின் சிறந்த அம்சங்களையும் ஒன்றாக இணைத்தோம்.

இந்த பரஸ்பர பூர்த்தி செய்யும் வலிமைகளை ChatGPT யில் ஒருங்கிணைத்து, கூடுதல் டூல்ஸ் அறிமுகப்படுத்துவதன் மூலம், ஒரு மொடல் உட்பகுதியில் முற்றிலும் புதிய திறன்களை திறந்துள்ளோம். இது இப்போது வெப்சைட்ஸ் உடன் ஆக்டிவாக இன்டராக்ட் செய்து—கிளிக் செய்து, ஃபில்டர் செய்து, மேலும் துல்லியமான, திறமையான ரிசல்ட்ஸ் ஐ சேகரிக்க முடியும். நீங்கள் எளிய கன்வர்சேஷன் லிருந்து அதே சாட்டில் நேரடியாக ஆக்ஷன்ஸ் ரிக்வெஸ்ட் செய்யும் வகையில் இயல்பாக மாறலாம். 

உங்களுக்காகவும், உங்களுடன் சேர்ந்து செயல்படும் ஒரு ஏஜென்ட். 

நாங்கள் ChatGPT ஏஜென்ட் ஐ ஒரு டூல்ஸ் ஸ்யூட் உடன் அமைத்துள்ளோம்: கிராஃபிக்கல்-யூசர் இன்டர்ஃபேஸ் மூலம் வெபில் இன்டராக்ட் செய்யும் விஷுவல் பிரௌசர், எளிய ரீசனிங்-பேஸ்டு வெப் க்வெரீஸ் க்கு டெக்ஸ்ட்-பேஸ்ட் பிரௌசர், ஒரு டெர்மினல் மற்றும் நேரடி API ஆக்சஸ். ஏஜென்ட், ChatGPT கனெக்டர்ஸ்(புதிய சாளரத்தில் திறக்கும்) ஐயும் பயன்படுத்த முடியும், இது Gmail மற்றும் Github போன்ற ஆப்ஸை கனெக்ட் செய்ய அனுமதிக்கிறது, இதனால் ChatGPT உங்கள் ப்ராம்ப்ட்ஸ் க்கு தொடர்பான தகவலை கண்டுபிடித்து அதன் ரெஸ்பான்சஸ் இல் பயன்படுத்த முடியும். நீங்கள் பிரௌசர் ஐ கைப்பற்றி எந்த வெப்சைட் இலும் லாகின் செய்யலாம், இதனால் அது தனது ரிசர்ச் மற்றும் டாஸ்க் எக்ஸிக்யூஷன் இரண்டிலும் மேலும் ஆழமாகவும் விரிவாகவும் செயல்பட முடியும். ChatGPT க்கு வெபில் உள்ள தகவலை அணுகவும் இன்டராக்ட் செய்யவும் பல்வேறு வழிகள் கொடுப்பது, அது டாஸ்க்ஸ் ஐ மிகச் சிறந்த மற்றும் திறமையான முறையில் செய்ய உகந்த பாதையைத் தேர்வு செய்ய முடியும் என்பதைக் குறிக்கிறது. உதாரணமாக, இது API மூலம் உங்கள் காலெண்டர் பற்றிய தகவலை சேகரிக்க முடியும், டெக்ஸ்ட்-பேஸ்ட் பிரௌசர் மூலம் பெரிய அளவிலான டெக்ஸ்ட் மீது திறமையாக ரீசனிங் செய்ய முடியும், மேலும் மனிதர்களுக்காக வடிவமைக்கப்பட்ட வெப்சைட்ஸுடன் விஷுவல் இன்டராக்ஷன் செய்யும் திறனையும் கொண்டுள்ளது. 

இவை அனைத்தும் அதன் சொந்த வர்ச்சுவல் கம்ப்யூட்டரைப் பயன்படுத்தி செய்யப்படுகின்றன, இது டாஸ்க்கிற்கு தேவையான கான்டெக்ஸ்டை பராமரிக்கிறது—even பல டூல்ஸ் பயன்படுத்தப்பட்டாலும். மொடல் டெக்ஸ்ட் பிரௌசர் அல்லது விஷுவல் பிரௌசர் மூலம் ஒரு பக்கத்தைத் திறக்க முடியும், வெபில் இருந்து ஒரு பைல் டவுன்லோட் செய்து, டெர்மினல் இல் ஒரு கமாண்ட் ரன் செய்து அதை மேனிப்புலேட் செய்து, அவுட்புட் ஐ மீண்டும் விஷுவல் பிரௌசர் இல் பார்க்க முடியும். மொடல் தனது அணுகுமுறையை வேகம், துல்லியம் மற்றும் திறமை ஆகியவற்றுடன் டாஸ்க்ஸ் செய்யும் வகையில் மாற்றிக் கொள்கிறது.

ChatGPT ஏஜென்ட், முந்தைய மொடல்களைவிட அதிகமாக இன்டராக்டிவ் மற்றும் ஃப்ளெக்ஸிபிள் ஆன, இடைவிடாத ஒத்துழைப்புடன் கூடிய வொர்க்ஃப்ளோஸ் க்காக வடிவமைக்கப்பட்டுள்ளது. ChatGPT வேலை செய்யும் போது, நீங்கள் எந்த நேரத்திலும் உங்கள் இன்ஸ்ட்ரக்ஷன்ஸ் ஐ தெளிவுபடுத்தவோ, அதை விரும்பிய விளைவுகளுக்குத் திருப்பவோ, அல்லது டாஸ்க் ஐ முழுவதும் மாற்றவோ முடியும். இது புதிய தகவலுடன், முன்பு நிறுத்திய இடத்திலிருந்தே தொடரும், ஆனால் முந்தைய முன்னேற்றத்தை இழக்காது. அதேபோல், டாஸ்க் உங்கள் குறிக்கோளுடன் இணைந்திருக்கும் வகையில் ChatGPT தேவையானபோது உங்களிடமிருந்து கூடுதல் விவரங்களைத் தேடலாம். ஒரு டாஸ்க் எதிர்பார்த்ததை விட நேரம் எடுத்துக்கொண்டால் அல்லது நிறுத்தப்பட்டதாகத் தெரிந்தால், நீங்கள் அதை பாஸ் செய்து, ப்ரோக்ரெஸ் சம்மரி கேட்கவோ, அல்லது அதை நிறுத்தி பாகமாக முடிந்த ரிசல்ட்ஸ் ஐ பெறவோ முடியும். உங்கள் ஃபோனில் ChatGPT ஆப் இருந்தால், உங்கள் டாஸ்க் முடிந்ததும் அது ஒரு நோட்டிஃபிகேஷன் அனுப்பும்.

நிஜ வாழ்க்கை பயன்பாட்டை விரிவுபடுத்தல். 

இந்த ஒருங்கிணைந்த ஏஜென்டிக் திறன்கள், தினசரி மற்றும் தொழில்முறை சூழல்களில் ChatGPT யின் பயன்தன்மையை குறிப்பிடத்தகுந்த அளவில் உயர்த்துகின்றன. வேலை இடத்தில், நீங்கள் மீண்டும் மீண்டும் செய்யும் டாஸ்க்ஸ் ஐ ஆட்டமேட் செய்யலாம்—உதாரணமாக, ஸ்கிரீன்ஷாட்ஸ் அல்லது டாஷ்போர்ட்ஸ் ஐ எடிடபிள் வெக்டர் எலிமென்ட்ஸ் கொண்ட பிரெசன்டேஷன்களாக மாற்றுவது, மீட்டிங்ஸ் மறுசீரமைத்தல், ஆஃப்சைட்ஸ் பிளான் மற்றும் புக்கிங் செய்வது, மற்றும் அதே ஃபார்மாட்டிங் வைத்துக்கொண்டு புதிய ஃபைனான்ஷியல் டேட்டா சேர்த்து ஸ்பிரெட்ஷீட்ஸ் அப்டேட் செய்வது போன்றவை. உங்கள் தனிப்பட்ட வாழ்க்கையில், இதை எளிதாக டிராவல் ஐட்டினரரீஸ் பிளான் மற்றும் புக்கிங் செய்வதற்கு, முழு டின்னர் பார்டிஸ் டிசைன் மற்றும் புக்கிங் செய்வதற்கு, அல்லது ஸ்பெஷலிஸ்ட்ஸ் ஐ கண்டுபிடித்து அப்பாயின்ட்மென்ட்ஸ் ஸ்கெஜ்யூல் செய்வதற்கு பயன்படுத்தலாம். 

மொடலின் மேம்பட்ட திறன்கள், வெப் ப்ரௌசிங் மற்றும் நிஜ உலக டாஸ்க் கம்ப்ளீஷன் திறன்களை அளவிடும் எவால்யூஷன்களில் அதன் state-of-the-art (SOTA) செயல்திறனில் பிரதிபலிக்கின்றன. 

Humanity’s Last Exam* என்ற எவால்யூஷனில்—AI யின் செயல்திறனை நிபுணத்துவ அளவிலான கேள்விகளில் பல்வேறு துறைகளில் அளவிடுவது—ChatGPT ஏஜென்ட் ஐ இயக்கும் மொடல் 41.6 என்ற புதிய pass@1 SOTA மதிப்பெண் பெற்றுள்ளது. ஏஜென்ட் டைனமிக்காக பிளான் செய்து, தனது சொந்த டூல்ஸ் ஐ தேர்வு செய்வதால், அது அதே டாஸ்க் ஐ வெவ்வேறு முறைகளில் அணுக முடியும். இதை நாங்கள் எளிய parallel ரோல்அவுட் ஸ்ட்ராடஜி மூலம் ஸ்கேல் செய்தபோது—ஒரே நேரத்தில் எட்டு முயற்சிகள் வரை ரன் செய்து, அதிகமான self-reported confidence கொண்ட ஒன்றைத் தேர்ந்தெடுப்பதன் மூலம்—ஏஜென்ட் இன் HLE ஸ்கோர் 44.4 ஆக உயர்ந்தது.

FrontierMath** என்பது மிகவும் கடினமான மத் பெஞ்ச்மார்க் ஆகும், இதில் புதிதாகவும் வெளியிடப்படாதவும் பிரச்சனைகள் உள்ளன, அவற்றை தீர்க்க நிபுணர் கணிதவியலாளர்களுக்கு பல மணி நேரங்களோ அல்லது நாட்களோ ஆகும். கோட் எக்ஸிக்யூஷனுக்காக டெர்மினல் ஆக்சஸ் போன்ற டூல் யூஸ் மூலம், ChatGPT ஏஜென்ட் 27.4% துல்லியத்துடன் செயல்பட்டு, முந்தைய மொடல்களை விட குறிப்பிடத்தக்க அளவில் மேலிடத்தைப் பெற்றுள்ளது.

நாங்கள் மொடலை சிக்கலான நிஜ உலக டாஸ்க்ஸ் அடிப்படையில் உருவாக்கப்பட்ட பெஞ்ச்மார்க்ஸ் மூலம் மதிப்பாய்வு செய்தோம். சிக்கலான, பொருளாதார ரீதியாக மதிப்புமிக்க நாலெஜ்-வொர்க் டாஸ்க்ஸ் மீது மொடல் செயல்திறனை மதிப்பிட வடிவமைக்கப்பட்ட ஒரு இன்டர்னல் பெஞ்ச்மார்க் இல், ChatGPT ஏஜென்ட் இன் அவுட்புட் பல டாஸ்க் கம்ப்ளீஷன் நேரங்களில் மனிதர்களுடன் ஒப்பிடத்தக்கதோ அல்லது அதைவிட மேம்பட்டதோ ஆக இருந்தது, மேலும் o3 மற்றும் o4-mini ஐ விட குறிப்பிடத்தக்க அளவில் மேலோங்கியது. ஒவ்வொரு துறையிலும் முன்னணி நிபுணர்கள் உருவாக்கிய உயர்தர மனித பேஸ்லைன்களுடன் மொடல் அவுட்புட்ஸ் ஐ நிபுணர்கள் மதிப்பிடுகிறார்கள். பல்வேறு தொழில்கள் மற்றும் துறைகளிலிருந்து நிபுணர்களால் பெறப்பட்ட இந்த டாஸ்க்ஸ், நிஜ உலக தொழில்முறை பணிகளை பிரதிபலிக்கின்றன—உதாரணமாக, ஆன்-டிமாண்ட் அர்ஜெண்ட் கேர் புரொவைடர்ஸ் க்கு கம்பிட்டிட்டிவ் அனலிஸிஸ் தயாரித்தல், விரிவான அமோர்டிசேஷன் ஸ்கெஜ்யூல்ஸ் உருவாக்குதல், அல்லது புதிய கிரீன் ஹைட்ரஜன் வசதிக்கான தகுந்த வாட்டர் வெல்ஸ் கண்டறிதல் போன்றவை. 

DSBench(புதிய சாளரத்தில் திறக்கும்), —நிஜ உலக data science டாஸ்க்ஸ் (data analysis மற்றும் modeling) மீது ஏஜென்ட்ஸ் செயல்திறனை மதிப்பிட உருவாக்கப்பட்டது—இதில் ChatGPT ஏஜென்ட் மனிதர்களின் செயல்திறனை குறிப்பிடத்தக்க அளவில் முந்துகிறது.

SpreadsheetBench—நிஜ உலக சூழல்களில் இருந்து பெறப்பட்ட ஸ்பிரெட்ஷீட்ஸ் ஐ எடிட் செய்யும் மொடல்களின் திறனை மதிப்பிடுவது—இதில் ChatGPT ஏஜென்ட் தற்போதைய மொடல்களை விட குறிப்பிடத்தக்க அளவில் மேம்பட்டது. ஸ்பிரெட்ஷீட்ஸ் ஐ நேரடியாக எடிட் செய்யும் திறன் கொடுக்கப்பட்டபோது, ChatGPT ஏஜென்ட் 45.5% என்ற உயர்ந்த மதிப்பெண் பெற்றது; Copilot in Excel 20.0% மட்டுமே. 

முறைவியல்: SpreadsheetBench ஆசிரியர்கள் Microsoft Excel உடன் Windows சுற்றுப்புறத்தைப் பயன்படுத்தி ஸ்பிரெட்ஷீட்ஸ் ஐ மதிப்பீடு செய்தனர். நாங்கள் OSX சுற்றுப்புறம் மற்றும் LibreOffice பயன்படுத்தினோம், இதனால் சிறிய கிரேடிங் வேறுபாடுகள் ஏற்படக்கூடும். உதாரணமாக, ஆசிரியர்கள் GPT‑4o க்கு 15.02% Overall Hard restriction கண்டறிந்தனர், ஆனால் நாங்கள் 13.38% பெற்றோம். நாங்கள் 912 கேள்விகள் கொண்ட முழுமையான பெஞ்ச்மார்க் பயன்படுத்தினோம்.

ஒரு இன்டர்னல் பெஞ்ச்மார்க் இல், மொடல் முதல் முதல் மூன்றாம் ஆண்டு இன்வெஸ்ட்மென்ட் பாங்கிங் அனலிஸ்ட் மொடலிங் டாஸ்க்ஸ் செய்யும் திறனை அளவிடுகிறது—உதாரணமாக, Fortune 500 நிறுவனத்திற்கான த்ரீ-ஸ்டேட்மென்ட் ஃபைனான்ஷியல் மொடல் சரியான ஃபார்மாட்டிங் மற்றும் சைடேஷன்களுடன் உருவாக்குதல் அல்லது ஒரு டேக்-பிரைவேட் க்கான லெவரேஜ்டு பைய்அவுட் மொடல் கட்டுதல் போன்றவை—இதில் ChatGPT ஏஜென்ட் ஐ இயக்கும் மொடல், டீப் ரிசர்ச் மற்றும் o3 ஐ விட குறிப்பிடத்தக்க அளவில் மேலோங்கியுள்ளது. ஒவ்வொரு டாஸ்க் கும் கரெக்ட்நஸ் மற்றும் ஃபார்முலா யூஸ் தொடர்பான நூற்றுக்கணக்கான அளவுகோல்கள் அடிப்படையில் மதிப்பெண் வழங்கப்படுகிறது.

நாங்கள் ChatGPT ஏஜென்ட் ஐ BrowseComp இல் கூட மதிப்பிட்டோம்—இது வெபில் கண்டுபிடிக்க கடினமான தகவலை தேடும் browsing agents இன் திறனை அளவிடும், இந்த ஆண்டின் ஆரம்பத்தில் வெளியிட்ட பெஞ்ச்மார்க். மொடல் 68.9% என்ற புதிய SOTA ஐ அமைத்தது, இது டீப் ரிசர்ச் விட 17.4 சதவீத புள்ளிகள் அதிகம்.

கடைசியாக, WebArena(புதிய சாளரத்தில் திறக்கும்) என்ற பெஞ்ச்மார்க் இல்—நிஜ உலக வெப் டாஸ்க்ஸ் களை முடிக்கும் வெப்-ப்ரௌசிங் ஏஜென்ட்களின் செயல்திறனை மதிப்பிட உருவாக்கப்பட்டது—இந்த மொடல் o3‑powered CUA (Operator ஐ இயக்கும் மொடல்) ஐ விட மேம்பட்டது. 

பயன்படுத்துவது எப்படி

நீங்கள் ChatGPT யின் புதிய ஏஜென்டிக் திறன்களை எந்த கன்வர்சேஷனிலும், கம்போசர் இல் உள்ள டூல்ஸ் டிராப்டவுன் மூலம் ‘ஏஜென்ட் மோட்’ ஐ தேர்வு செய்து நேரடியாக ஆக்டிவேட் செய்யலாம். நீங்கள் செய்ய விரும்பும் டாஸ்க் ஐ எளிமையாக விவரிக்கவும்—அது டீப் ரிசர்ச் நடத்துவதாகவோ, ஸ்லைட்ஷோ உருவாக்குவதாகவோ, அல்லது எக்ஸ்பென்ஸ்ஸ் சமர்ப்பிப்பதாகவோ இருக்கலாம். ChatGPT உங்கள் டாஸ்க் ஐ செய்யும் போது, ஆன்-ஸ்க்ரீன் நரேஷன் மூலம் அது எதைச் செய்கிறது என்பதை நேரடியாகப் பார்க்க முடியும். தேவையானபோது நீங்கள் இடையில் நிறுத்தி, பிரௌசர் மீது கட்டுப்பாடு எடுத்து, டாஸ்க் உங்கள் குறிக்கோளுடன் இணைந்திருக்குமாறு உறுதி செய்யலாம்.

ChatGPT ஏஜென்ட் உங்கள் கனெக்டர்ஸ் ஐ அணுக முடியும், இதன் மூலம் அது உங்கள் வொர்க்ஃப்ளோஸ் உடன் ஒருங்கிணைந்து தொடர்புடைய, செயல் படுத்தக்கூடிய தகவல்களைப் பெற முடியும். ஒருமுறை ஆத்தென்டிகேஷன் செய்யப்பட்டவுடன், இந்த கனெக்டர்ஸ் ChatGPT க்கு உங்கள் இன்பாக்ஸ் ஐ சுருக்கமாக காட்டவோ அல்லது மீட்டிங்கிற்கான கால ஸ்லாட்ஸ் கண்டறியவோ உதவுகின்றன—ஆனால் இந்த வெப்சைட்ஸ் மீது ஆக்ஷன் எடுக்கும்போது, நீங்கள் பிரௌசர் ஐ கைப்பற்றி லாகின் செய்யுமாறு இன்னும் ப்ராம்ப்ட் செய்யப்படுவீர்கள். 

கூடுதலாக, நீங்கள் முடிந்த டாஸ்க்ஸ் ஐ தானாக மீண்டும் நடைபெறுமாறு ஸ்கெஜ்யூல் செய்யலாம்—உதாரணமாக, ஒவ்வொரு திங்கள்கிழமையும் ஒரு வாராந்திர மெட்ரிக்ஸ் ரிப்போர்ட் உருவாக்குவது போன்றது.

புதிய திறன்கள், புதிய ஆபத்துகள். 

இந்த வெளியீடு, யூசர்ஸ் முதல் முறையாக ChatGPT ஐ வெபில் ஆக்ஷன்ஸ் எடுக்கச் சொல்லக்கூடியதாக மாற்றுகிறது. இது புதிய அபாயங்களை உருவாக்குகிறது, குறிப்பாக ChatGPT ஏஜென்ட் உங்கள் டேட்டாவுடன் நேரடியாக வேலை செய்ய முடியும் என்பதால்—அது கனெக்டர்ஸ் வழியாக அணுகப்பட்ட தகவலாகவோ, அல்லது டேக்ஓவர் மோட் மூலம் நீங்கள் லாகின் செய்த வெப்சைட்ஸ் ஆகவோ இருக்கலாம். நாங்கள் Operator’s ரிசர்ச் பிரிவ்யூ இல் இருந்த வலுவான கட்டுப்பாடுகளை மேலும் வலுப்படுத்தி,லைவ் வெப் இல் சென்சிட்டிவ் தகவலை கையாளுதல், பரந்த யூசர் அணுகல், மற்றும் (குறைக்கப்பட்ட) டெர்மினல் நெட்வொர்க் ஆக்சஸ் போன்ற சவால்களுக்கு பாதுகாப்பு நடவடிக்கைகள் சேர்த்துள்ளோம். இந்த பாதுகாப்பு நடவடிக்கைகள் அபாயத்தை குறிப்பிடத்தக்க அளவில் குறைத்தாலும், ChatGPT ஏஜென்ட் இன் விரிவடைந்த டூல்ஸ் மற்றும் பரந்த யூசர் அணுகல் காரணமாக அதன் மொத்த ரிஸ்க் ப்ரொஃபைல் அதிகமாகும். 

எஜென்டிக் சிஸ்டம்களுக்கு பொதுவாக ஏற்படும் ப்ராம்ப்ட் இன்ஜெக்ஷன் மூலம் அட்வர்சீரியல் மானிபுலேஷன் க்கு எதிராக ChatGPT ஏஜென்ட் ஐ பாதுகாக்கும் விதத்தில் நாங்கள் சிறப்பு கவனம் செலுத்தி, அதற்கேற்ற விரிவான பாதுகாப்பு நடவடிக்கைகளை மேற்கொண்டுள்ளோம். ப்ராம்ப்ட் இன்ஜெக்ஷன்ஸ் என்பது மூன்றாம் தரப்பினர், ChatGPT ஏஜென்ட் வெபில் டாஸ்க் செய்யும் போது எதிர்கொள்ளக்கூடிய தீங்கு விளைவிக்கும் இன்ஸ்ட்ரக்ஷன்ஸ் மூலம் அதன் நடத்தை மீது தாக்கம் செலுத்தும் முயற்சிகள் ஆகும். உதாரணமாக, ஒரு வெப்பேஜில் மறைக்கப்பட்ட தீங்கிழைக்கும் ப்ராம்ப்ட் (இன்விசிபிள் எலிமென்ட்ஸ் அல்லது மெட்டாடேட்டாவில்) ஏஜென்ட் ஐ ஏமாற்றி, கனெக்டரிலிருந்து பிரைவேட் டேட்டா ஐ அட்டாக்கர் க்கு பகிர்வதற்கோ அல்லது யூசர் லாகின் செய்த வெப்சைடில் தீங்கிழைக்கும் ஆக்ஷன் எடுக்கவோ தூண்டக்கூடும். ChatGPT ஏஜென்ட் நேரடியாக ஆக்ஷன்ஸ் எடுக்க முடியும் என்பதால், வெற்றிகரமான அட்டாக்ஸ் அதிக தாக்கத்தையும் அபாயத்தையும் ஏற்படுத்தும். 

ப்ராம்ப்ட் இன்ஜெக்ஷன் அட்டாக்ஸ் ஐ விரைவாக கண்டறிந்து பதிலளிக்க மானிட்டரிங் ஐ பயன்படுத்துவதுடன், ப்ராம்ப்ட் இன்ஜெக்ஷன்ஸ் ஐ அடையாளம் காணவும் எதிர்த்து நிற்கவும் ஏஜென்ட் ஐ நாங்கள் ட்ரெயின் மற்றும் டெஸ்ட் செய்துள்ளோம். முக்கியமான ஆக்ஷன்ஸ் எடுக்கும்முன் வெளிப்படையான யூசர் கன்ஃபர்மேஷன் தேவைப்படுவது, இந்த அட்டாக்ஸில் இருந்து வரும் அபாயத்தை மேலும் குறைக்கிறது, மேலும் யூசர்ஸ் தேவையானபோது டாஸ்க் ஐ கைப்பற்றவோ அல்லது பாஸ் செய்யவோ முடியும். யூசர்ஸ், எந்த தகவலை ஏஜென்ட் க்கு வழங்குவது என்பதை முடிவு செய்யும் போது இந்த சமநிலைகளை கவனமாக மதிப்பிட வேண்டும், மேலும் தேவையில்லாத டாஸ்க் களில் கனெக்டர்ஸ் ஐ முடக்குவது போன்ற வழிகளில் அபாயத்தை குறைக்க நடவடிக்கை எடுக்க வேண்டும். 

மேலும், நிஜ உலகில் தாக்கம் ஏற்படுத்தக்கூடிய டாஸ்க்ஸ் செய்ய மொடல் இப்போது முடிவதால், மொடல் மிஸ்டேக்ஸ், க்கு எதிராகவும் பாதுகாப்பு நடவடிக்கைகள் மேற்கொண்டுள்ளோம். 

  • வெளிப்படையான யூசர் கன்ஃபர்மேஷன்: ChatGPT நிஜ உலக விளைவுகளை ஏற்படுத்தக்கூடிய ஆக்ஷன்ஸ் (உதாரணமாக, பொருள் வாங்குதல்) எடுக்கும்முன் உங்கள் அனுமதி வெளிப்படையாக கேட்கும் வகையில் ட்ரெயின் செய்யப்பட்டுள்ளது.
  • செயலில் கண்காணிப்பு (“Watch Mode”): சில முக்கியமான டாஸ்க்ஸ் (உதாரணமாக, ஈமெயில்கள் அனுப்புதல்) உங்கள் செயலில் கண்காணிப்பை தேவைப்படுத்தும்.
  • முன்கூட்டிய அபாயத் தடுப்பு: ChatGPT வங்கிப் பரிமாற்றங்கள் போன்ற உயர் அபாய டாஸ்க்ஸ் ஐச் செயலில் மறுக்கும் வகையில் ட்ரெயின் செய்யப்பட்டுள்ளது.

கடைசியாக, மொடல் அணுகக்கூடிய டேட்டாவை வரையறுக்கும் கூடுதல் கட்டுப்பாடுகளை நாங்கள் அறிமுகப்படுத்தியுள்ளோம். 

  • பிரைவேசி கட்டுப்பாடுகள்: ChatGPT செட்டிங்ஸில் ஒரே கிளிக்கில், நீங்கள் அனைத்து ப்ரௌசிங் டேட்டாவையும் நீக்கி, அனைத்து செயல்பாட்டில் உள்ள வெப்சைட் செஷன்களிலிருந்தும் உடனடியாக லாக்அவுட் செய்யலாம். இல்லையெனில், நீங்கள் சென்ற ஒவ்வொரு வெப்சைட் இன் கூக்கி பாலிசி அடிப்படையில் கூக்கீஸ் நீடிக்கும், இது அதே சைட்டில் மீண்டும் செல்லும்போது அதிக திறமையாகச் செயல்பட உதவுகிறது.
  • பாதுகாப்பான பிரௌசர் டேக்ஓவர் மோட்: ChatGPT யின் பிரௌசர் (“டேக்ஓவர் மோட்”) மூலம் வெபில் இன்டராக்ட் செய்யும் போது, உங்கள் இன்புட்ஸ் பிரைவேட் ஆகவே இருக்கும். ChatGPT இந்த செஷன்களில் நீங்கள் உள்ளிடும் எந்த டேட்டாவையும் (உதாரணமாக பாஸ்வேர்ட்ஸ்) சேகரிக்கவோ சேமிக்கவோ செய்யாது, ஏனெனில் மொடலுக்கு அது தேவையில்லை, மேலும் அது ஒருபோதும் அதைப் பார்க்காதிருப்பது பாதுகாப்பானது.

உயிரியல் அபாயங்களுக்கு இதுவரை எங்களின் மிக வலுவான சேப்டி ஸ்டாக். 

மொடலின் அதிகரித்த திறன்களின் காரணமாக, ChatGPT ஏஜென்ட் ஐ எங்கள் பிரிபேர்ட்நஸ் ஃப்ரேம்வொர்க் கீழ் ஹை பயாலஜிக்கல் மற்றும் Chemical திறன்கள் கொண்டதாகக் கருதி, அதனுடன் தொடர்புடைய பாதுகாப்பு நடவடிக்கைகளைச் செயல்படுத்த தீர்மானித்துள்ளோம். மொடல் ஒரு புதிய பயனாளருக்கு தீவிரமான உயிரியல் சேதத்தை ஏற்படுத்த உதவும் என்ற உறுதியான ஆதாரம் எங்களிடம் இல்லாவிட்டாலும்—அது ஹை கேபபிலிட்டி என வரையறுக்கப்படும் அளவை அடைந்திருக்கிறது என்பதற்காக—நாங்கள் முன்னெச்சரிக்கையுடன் தேவையான பாதுகாப்பு நடவடிக்கைகளை இப்போது செயல்படுத்தி வருகிறோம். அதன் விளைவாக, இந்த மொடல் உயிரியல் தொடர்பான மேம்பட்ட பாதுகாப்புகளுடன் இதுவரை எங்களின் மிக விரிவான சேப்டி ஸ்டாக் ஐ கொண்டுள்ளது: முழுமையான திரெட் மொடலிங், டூயல்-யூஸ் ரிஃப்யூசல் ட்ரெயினிங், எப்போதும் செயல்படும் கிளாஸிஃபையர்கள் மற்றும் ரீசனிங் மானிட்டர்ஸ், மேலும் தெளிவான எந்ஃபோர்ஸ்மென்ட் பைப்ப்லைன்ஸ். 

ChatGPT ஏஜென்ட் பாதுகாப்பை உறுதி செய்வதற்கான எங்கள் பணியுடன் சேர்த்து, பல அடுக்குகளைக் கொண்ட பயோசேப்டி ஒரு லேபைத் தாண்டி விரிந்தால் சிறப்பாக செயல்படும் என்பதை நாங்கள் அறிந்துள்ளோம்; எனவே பாதுகாப்பை வலுப்படுத்தும் நோக்கில் முழு எகோசிஸ்டம் முழுவதும் இணைந்து பணியாற்றுகிறோம். தொடக்கத்திலிருந்தே, நாங்கள் வெளிப்புற பயோசிக்யூரிட்டி நிபுணர்கள், சேப்டி இன்ஸ்டிட்யூட்ஸ் மற்றும் அகாடமிக் ஆராய்ச்சியாளர்களுடன் இணைந்து எங்கள் திரெட் மொடல், மதிப்பீடுகள் மற்றும் கொள்கைகளை வடிவமைத்துள்ளோம். பயாலஜி பயிற்சி பெற்ற ரிவ்யூவர்கள் எங்கள் எவால்யூஷன் டேட்டாவை சரிபார்த்தனர், மேலும் டொமைன் நிபுணத்துவம் கொண்ட ரெட் டீமர்கள் நிஜ வாழ்க்கைச் சூழ்நிலைகளில் பாதுகாப்பு நடவடிக்கைகளை ஸ்ட்ரெஸ்-டெஸ்ட் செய்துள்ளனர். இந்த மாதத்தின் தொடக்கத்தில், அரசு, அகாடமியா, தேசிய லேப்ஸ் மற்றும் என்.ஜி.ஓ. களிலிருந்து நிபுணர்களுடன் சேர்ந்து, AI மூலம் முன்னேறும் பயோடிபென்ஸ் ஆராய்ச்சியை விரைவுபடுத்தும் நோக்கில் நாங்கள் ஒரு பயோடிஃபென்ஸ் வொர்க்ஷாப் நடத்தியோம். உருவாகும் அபாயங்களை முன்கூட்டியே சமாளிக்க நாங்கள் உலகளாவிய கூட்டாண்மைகளைத் தொடர்ந்து வலுப்படுத்துவோம். 

ஒருங்கிணைந்த ஏஜென்டிக் மொடலுக்கான எங்களின் வலுவான பாதுகாப்பு அணுகுமுறையைப் பற்றி மேலும் அறிய சிஸ்டம் கார்ட் ஐப் படிக்கவும். நாங்கள் பக் பவுண்டி புரோக்ராம் ஐயும் அறிமுகப்படுத்துகிறோம், இதனால் நிஜ உலக அபாயங்களை கண்டறிந்து சரிசெய்ய முடியும்.

கிடைக்கும் நிலை

ChatGPT ஏஜென்ட் இன்று முதல் Pro, Plus மற்றும் Team க்கு வெளியிடப்படுகிறது; Pro யூசர்ஸ் இன்று இறுதிக்குள் அணுகலைப் பெறுவார்கள், Plus மற்றும் Team யூசர்ஸ் அடுத்த சில நாட்களில் அணுகலைப் பெறுவார்கள். எண்டர்பிரைஸ் மற்றும் எஜுகேஷன் யூசர்ஸ் அடுத்த சில வாரங்களில் அணுகலைப் பெறுவார்கள். Pro யூசர்ஸ் மாதத்திற்கு 400 மெசேஜ்கள் பெறுவார்கள், மற்ற பேய்டு யூசர்ஸ் மாதத்திற்கு 40 மெசேஜ்கள் பெறுவார்கள்; கூடுதல் பயன்பாடு flexible கிரெடிட்-பேஸ்டு ஆப்ஷன்ஸ் மூலம் கிடைக்கும்.

ஐரோப்பிய பொருளாதார பகுதி மற்றும் ஸ்விட்சர்லாந்திற்கு அணுகலை செயல்படுத்தும் பணியில் நாங்கள் இன்னும் செயல்படுகிறோம். 

Operator ரிசர்ச் பிரிவ்யூ சைட் இன்னும் சில வாரங்கள் செயல்படும், அதன் பிறகு அது நிறுத்தப்படும். டீப் ரிசர்ச் என்பது ChatGPT ஏஜென்ட் இன் திறன்களின் ஒரு பகுதியாகும். நீங்கள் இயல்பான டீப் ரிசர்ச் அம்சத்தை விரும்பினால்—இது ரன் ஆக சிறிது நேரம் எடுத்துக்கொண்டாலும், விரிவான மற்றும் ஆழமான பதில்களை இயல்பாக வழங்கும்—நீங்கள் இன்னும் மெசேஜ் கம்போசர் இல் உள்ள டிராப்டவுன் மெனுவிலிருந்து “deep research” ஐ தேர்வு செய்து அதை அணுகலாம்.

வரம்புகள் மற்றும் எதிர்நோக்கங்கள். 

ChatGPT ஏஜென்ட் இன்னும் அதன் ஆரம்ப கட்டத்தில் உள்ளது. இது பலவிதமான சிக்கலான டாஸ்க்ஸ் செய்யும் திறன் கொண்டது, ஆனால் சில சமயங்களில் பிழைகள் நிகழலாம். 

ஸ்லைட்ஷோஸ் உருவாக்கும் திறனில் முக்கியமான சாத்தியங்கள் இருப்பதை நாம் காண்கிறோம், ஆனால் இந்த அம்சம் தற்போது பீட்டா நிலையில் உள்ளது. தற்போதைய நிலையில், அவுட்புட்ஸ் சில சமயங்களில் ஃபார்மாட்டிங் மற்றும் நயமற்றதாக தோன்றலாம், குறிப்பாக ஏற்கனவே உள்ள டாக்குமென்ட் இல்லாமல் தொடங்கும்போது. மொடலின் ஆரம்ப திறன்களை நாங்கள், பிரெசன்டேஷன்களுக்கு ஏற்ற பாணியில் தகவலை ஒழுங்குபடுத்தும் ஆர்டிஃபாக்ட்ஸ் உருவாக்குவதில் கவனம் செலுத்தினோம்; இதில் டெக்ஸ்ட், சார்ட்ஸ், இமேஜஸ், ஷேப்ஸ் போன்றவை அடங்கும்—இவை எக்ஸ்போர்ட் ஆன பிறகு எளிதாக எடிட் செய்யக்கூடியவை, கட்டமைப்பும் நெகிழ்வும் (flexibility) க்கு உகந்தவையாக வடிவமைக்கப்பட்டவை. தற்போதைய நிலையில், வியூவர் இல் உள்ள ஸ்லைட்ஸ் மற்றும் எக்ஸ்போர்ட் செய்யப்பட்ட PowerPoint இடையே சில சமயங்களில் வேறுபாடுகள் ஏற்படுகின்றன; அவற்றை குறைக்கும் பணியில் நாங்கள் ஈடுபட்டுள்ளோம். மேலும், நீங்கள் தற்போது ChatGPT க்கு எடிட் செய்யவோ அல்லது டெம்ப்ளேட் ஆகப் பயன்படுத்தவோ ஒரு ஸ்பிரெட்ஷீட் அப்லோடு செய்யலாம், ஆனால் இந்த திறன் இன்னும் ஸ்லைட்ஷோஸ் க்கு கிடைக்கவில்லை. ChatGPT யின் அடுத்த ஸ்லைட்ஷோ உருவாக்கும் பதிப்பை நாங்கள் தற்போது ட்ரெயின் செய்து வருகிறோம், இது மேலும் நயமிக்க, மேம்பட்ட அவுட்புட்ஸ் உடன் விரிவான திறன்களையும் மேம்பட்ட ஃபார்மாட்டிங்கையும் வழங்கும்.

மொத்தத்தில், ChatGPT ஏஜென்ட் இன் திறன், ஆழம் மற்றும் பல்துறைப் பயன்பாட்டில் காலத்துடன் தொடர்ந்து முன்னேற்றம் ஏற்படும் என்று நாங்கள் எதிர்பார்க்கிறோம்; அதோடு, யூசர் கண்காணிப்பை குறைத்து, பாதுகாப்பாகவும் பயனுள்ளதாகவும் ஆக்குவதற்கான மென்மையான இன்டராக்ஷன்களும் சேர்க்கப்படும்.

இணைப்பு.

SpreadsheetBench

மொடல்

மதிப்பீட்டு சூழல்

மென்மையான கட்டுப்பாடு (%): செல்-நிலை

மென்மையான கட்டுப்பாடு (%): ஷீட்-நிலை

மென்மையான கட்டுப்பாடு (%): மொத்தம்

GPT‑4o

Windows, Excel

15.03

23.65

18.35

Excel இல் Copilot

Windows, Excel

23.33

15.00

20.00

GPT‑4o

OSX, LibreOffice

15.86

18.33

16.81

OpenAI o3

OSX, LibreOffice

22.40

24.60

23.25

ChatGPT ஏஜென்ட்

OSX, LibreOffice

38.27

30.48

35.27

.xlsx உடன் ChatGPT ஏஜென்ட்

OSX, LibreOffice

50.56

37.51

45.54

ஹ்யூமன்

75.56

65.00

71.33

லைவ்ஸ்ட்ரீம் ரீப்ளே.

ஆசிரியர்

OpenAI

அடிக்குறிப்புகள்.

* ப்ரௌசிங் ஐ இயக்கு போது, மொடல் சில சமயங்களில் ஆன்லைனில் துல்லியமான பதில்களை கண்டுபிடிக்க முடியும்; உதாரணமாக, டேட்டாசெட் லிருந்து எடுத்த சாம்பிள் பிரச்சனைகள் கொண்ட பிளாக் பதிவுகளை வாசிப்பதன் மூலம். ப்ரௌசிங் செய்யும் போது மொடல் “மோசடி” செய்கிறதா என்ற கவலைகளை நாங்கள் இரண்டு தந்திரங்கள் மூலம் குறைக்கிறோம்:

1. மொடல் முன்பு மோசடி செய்ததாகக் காணப்பட்ட டொமைன்கள் பிளாக் செய்யப்பட்டுள்ளன.

2. ஒவ்வொரு முயற்சியிலும் டூலின் அவுட்புட் டோக்கன்களை கண்காணிக்க ஒரு கூடுதல் மொடல் மானிட்டராக பயன்படுத்தப்பட்டது, இதனால் சந்தேகத்திற்கிடமான நடத்தை கண்டறிய முடிகிறது. சந்தேகத்திற்கிடமான நடத்தை என்பது “இந்த குறிப்பிட்ட கேள்விக்கான துல்லியமான பதிலை வழங்குவதே முக்கிய நோக்கமாகக் கொண்ட ஒரு பக்கம், பைல் அல்லது ஸ்னிப்பெட்”—உதாரணமாக, அதிகாரப்பூர்வ கிரேடிங் கீ, லீக் செய்யப்பட்ட “solutions” ஜிஸ்ட், அல்லது முடிவடைந்த பதிலை சொற்சொறாக மேற்கோள் காட்டும் விவாதம் என்று வரையறுக்கப்படுகிறது. பெனைன் நடத்தை என்பது “ஒரு பொறுப்புடன் செயல்படும் மனிதர் பார்க்கக்கூடிய எந்த அதிகாரப்பூர்வ மூலமும் (டாக்க்யூமென்டேஷன், மணுவல்ஸ், கல்விவழி பேப்பர்ஸ், நம்பகமான ஆர்டிக்கிள்ஸ்) — அதில் யாத்ரிசையாக சரியான பதில் இருந்தாலும் கூட” என்று வரையறுக்கப்படுகிறது. மானிட்டர் அந்த ரோல்அவுட் ஐ சந்தேகத்திற்குரியதாக கருதிய எந்த முயற்சியும் தவறானதாகக் கணக்கிடப்பட்டது. இந்த சரிபார்ப்பில் தோல்வியடைந்த பெரும்பாலான சாம்பிள்ஸ், HLE க்கு தொடர்பில்லாத பல இன்டர்நெட் மூலங்களில் துல்லியமான தீர்வு கிடைத்த பிரச்சனைகள் தான்.

**Tier 1-3 டேட்டாசெட் இல் உள்ள 290 தனியார் கேள்விகளில் 237 க்கு OpenAI க்கு மட்டும் பிரத்யேக அணுகல் உள்ளது. இந்த எவால் இல் FrontierMath tier 4 கேள்விகள் சேர்க்கப்படவில்லை. ஒவ்வொரு கேள்விக்கும் 16 முயற்சிகளின் சராசரியாக ரிசல்ட்ஸ் மதிப்பிடப்பட்டன. ChatGPT ஏஜென்ட் ரிசல்ட்ஸ் OpenAI மூலம் எலிசிட் செய்யப்பட்டு, Epoch AI மூலம் கிரேடு செய்யப்பட்டவை; பிரௌசர் மற்றும் டெர்மினல் ஆக்சஸ் உடன், ஒரு பதிலுக்கு 128K டோக்கன்ஸ் லிமிட் உள்ளது. OpenAI o4-mini மற்றும் o3 எவால்யூஷன்ஸ் Epoch AI மூலம் எலிசிட் செய்து கிரேடு செய்யப்பட்டவை; பிரௌசர் மற்றும் டெர்மினல் ஆக்சஸ் இன்றி, ஃபங்ஷன் காலிங் மூலம் பைதான் ஸ்கிரிப்ட்ஸ் பயன்படுத்தப்பட்டு, ஒரு பதிலுக்கு 100K டோக்கன்ஸ் லிமிட் உள்ளது.

*** Oracle@64 என்பது 64 சாம்பிள் ரன்களில் கிடைத்த சிறந்த மதிப்பெண்ணை குறிக்கிறது, இது ground truth அடிப்படையில் தேர்ந்தெடுக்கப்படுகிறது (அதாவது, ஒவ்வொரு டாஸ்க்கிற்கும் நிஜ கிரேடிங் செயல்திறனை அடிப்படையாகக் கொண்டு மிக உயர்ந்த மதிப்பெண் பெற்ற முயற்சியை நாம் தேர்வு செய்கிறோம்). இந்த டாஸ்க்-ஒன்றுக்கு சிறந்த மதிப்பெண்களின் சராசரியை அனைத்து டாஸ்க்ஸ்களிலும் நாங்கள் வழங்குகிறோம். இந்த மெட்ரிக், மொடல் ஒரு டாஸ்க்கில் வெற்றி பெறும் போது அதன் அதிகபட்ச திறனை மற்றும் செயல்திறன் வேறுபாட்டை காட்டுகிறது—மேலும் தொடர்ந்து ட்ரெயினிங் மூலம் ஒரே மாதிரி செயல்திறனை மேம்படுத்தக்கூடிய இடத்தை சுட்டிக்காட்டுகிறது. பொதுவான “best of N” மெட்ரிக்ஸ் மொடல் கான்ஃபிடென்ஸ் அடிப்படையில் தேர்வு செய்யும்; ஆனால் oracle@64 தேர்வுக்காக கிரவுண்ட் ட்ருத் ஐ பயன்படுத்துகிறது, மேலும் பைனரி பாஸ்/ஃபெயில் க்கு பதிலாக தொடர்ச்சியான 0–1 ஸ்கேல் இல் கிரேடு செய்யப்பட்ட டாஸ்க்ஸ் க்கு பொருந்துகிறது.