டெப்ளாய்மென்ட்டை சிமுலேட் செய்து வெளியீட்டுக்கு முன் மாடல் நடத்தையை கணித்தல்
வெளியீட்டுக்கு முன் விரும்பத்தகாத மாடல் நடத்தையை சிறப்பாக மதிப்பிட நிஜத்தன்மை கொண்ட உரையாடல் சூழல்களைப் பயன்படுத்துதல்.
ஒரு புதிய மாடலை வெளியிடுவதற்கு முன், ஆய்வகங்கள் அது என்ன செய்ய முடியும் என்பதைக் காட்டிலும், உண்மையான உலகப் பயன்பாட்டில் அது எவ்வாறு நடக்கக்கூடும் என்பதையும், அது புதிய அபாயங்களை எங்கு அறிமுகப்படுத்தக்கூடும் என்பதையும் புரிந்துகொள்ள வேண்டும். திறன்கள் அதிகரிக்கும்போது இது இன்னும் முக்கியமாகிறது. எங்கள் டெப்ளாய்மென்ட்டிற்கு முந்தைய பாதுகாப்பு மதிப்பாய்வின் ஒரு பகுதியாக, மாடல் நடத்தையைப் புரிந்துகொள்ள இலக்கு மதிப்பீடுகள், ரெட்-டீமிங் மற்றும் பிற சோதனைகளைப் பயன்படுத்துகிறோம். மாடல் டெப்ளாய்மென்ட்கள் நிகழ்வதற்கு முன்பே அவற்றை சிமுலேட் செய்வதற்கான முறையை இப்போது பயன்படுத்தத் தொடங்கியுள்ளோம்; இது ஒரு துணை சிக்னலைச் சேர்க்கிறது: பயனர்களை அடையும் முன், பயன்படுத்துவதற்காக முன்மொழியப்படும் மாடல் எவ்வாறு நடக்கக்கூடும் என்பதற்கான டெப்ளாய்மென்ட் போன்ற முன்னோட்டம்.
டெப்ளாய்மென்ட் சிமுலேஷன் என்பது எதிர்கால டெப்ளாய்மென்ட்டை அது நிகழ்வதற்கு முன்பே சிமுலேட் செய்யும் ஒரு முறை. புதிய பயன்படுத்துவதற்காக முன்மொழியப்படும் மாடலுடன் முந்தைய உரையாடல்களை பிரைவசியை பாதுகாக்கும் முறையில் மீண்டும் இயக்குவதன் மூலம் இதை செய்கிறோம். வெளியீட்டுக்கு முன் நிஜத்தன்மை கொண்ட சூழல்களில் புதிய மாடல் எவ்வாறு பதிலளிக்கிறது, புதிய விரும்பத்தகாத நடத்தைகள் தோன்றுகின்றனவா, அவை எவ்வளவு அடிக்கடி தோன்றலாம் என்பதையும் இது ஆய்வு செய்ய உதவுகிறது.
பல GPT‑5‑தொடர் Thinking டெப்ளாய்மென்ட்களில், விரும்பத்தகாத மாடல் நடத்தை விகிதங்களுக்கான எங்கள் மதிப்பீடுகளை டெப்ளாய்மென்ட் சிமுலேஷன் மேம்படுத்தியது, வெளியீட்டுக்கு முன் பொருத்தமின்மையின் புதிய வடிவங்களை வெளிக்கொணர உதவியது, மேலும் மாடல்கள் தாங்கள் சோதிக்கப்படுவதை அறிந்துகொள்ளும் அபாயத்தை குறைக்க உதவியது. இந்த முறையை சவாலான ஏஜென்டிக் வெளியீடுகளுக்கும் பயன்படுத்தினோம்; கருவி பயன்பாட்டை உள்ளடக்கிய மேலும் சிக்கலான ஏஜென்ட் அமைப்புகளுக்கு இது நிலையான அரட்டையைத் தாண்டி விரிவடைய முடியும் என்பதையும், உள்புற மாடல் டெப்ளாய்மென்ட்களுக்கு முன் அபாய மதிப்பீட்டிற்கும் பயன்படுத்தலாம் என்பதையும் காட்டினோம்.
பாரம்பரிய மதிப்பீடுகளில் உள்ள பலவீனங்களை அடையாளம் காணவும், தணிப்புகள் மற்றும் டெப்ளாய்மென்ட் முடிவுகளைத் தெரிவிக்கவும், மாடல் வளர்ச்சியின்போது டெப்ளாய்மென்ட் சிமுலேஷனில் இருந்து கிடைத்த உள்ளறிவுகளை நாங்கள் ஏற்கனவே பயன்படுத்தியுள்ளோம். இந்த பைப்லைனை இயக்க எளிதாக்கும்போது, எதிர்கால மாடல் வளர்ச்சி செயல்முறையில் இது பெரிய பங்கு வகிக்கும் என்று எதிர்பார்க்கிறோம்.
துறையெங்கும் பயன்படுத்தப்படும் டெப்ளாய்மென்ட்டிற்கு முந்தைய மதிப்பீடுகள் பொதுவாக சிரமமானவை, அதிக தீவிரத்தன்மை கொண்டவை அல்லது எதிர்மறை நோக்கமுடையவை என்று நோக்கத்துடன் தேர்ந்தெடுக்கப்பட்ட செயற்கை, கைமுறையாக எழுதப்பட்ட அல்லது உற்பத்தி ப்ராம்ப்ட்களின் கலவையாக இருக்கும். இந்த மதிப்பீடுகளுக்கு பொதுவாக ஒன்றோடொன்று தொடர்புடைய இரண்டு இலக்குகள் இருந்துள்ளன: டெப்ளாய்மென்ட் டிராஃபிக்கில் நிகழ வாய்ப்பு மிகச் சிறியது ஆகிய சூழல்களில் அழுத்தச் சோதனை செய்யும்போது மாடல் எவ்வாறு பதிலளிக்கிறது என்பதை மதிப்பிடுதல் மற்றும் புதிய விரும்பத்தகாத நடத்தைகளை கண்டறிதல் மற்றும் அவற்றின் டெப்ளாய்மென்ட்-நேர அதிர்வெண்களை கணித்தல் உட்பட விரும்பத்தகாத மாடல் நடத்தைகள் குறித்த பொது புரிதலைப் பெறுதல்.
முதல் இலக்கிற்கு பாரம்பரிய மதிப்பீடுகள் இன்னும் முக்கியமானவையாக இருந்தாலும், இரண்டாவது இலக்கில், சாதாரணமான அபாயங்களுக்கு டெப்ளாய்மென்ட் சிமுலேஷன் ஒரு குறிப்பிடத்தக்க முன்னேற்றமாகும். எங்கள் சோதனைகளில், 200,000 செய்திகளில் 1-க்கும் குறைவான அதிர்வெண்ணில் நிகழும் நடத்தைகளை எங்கள் அணுகுமுறை அளவிடும் என்று எதிர்பார்க்க முடியாது. பாரம்பரிய மதிப்பீடுகளின் சில மையச் சவால்களை தவிர்ப்பதிலிருந்து டெப்ளாய்மென்ட் சிமுலேஷனின் வலிமை வருகிறது:
- கவரேஜ்: விரும்பத்தகாத மாடல் நடத்தையின் எல்லா சாத்தியமான வகைகளையும் மதிப்பீட்டு ப்ராம்ப்ட்கள் உள்ளடக்கும் என்று நம்புவது கடினம். புதிய வகை விரும்பத்தகாத நடத்தைகளை அளவிட புதிய மதிப்பீடுகளை உருவாக்கவும், எந்த தீங்குகளை அளவிட வேண்டும் என்பதை அறியவும் வேண்டும். இது நேரமும் உழைப்பும் அதிகமாக எடுத்துக்கொள்ளலாம்; மேலும் மதிப்பீடுகள் காலப்போக்கில் நிறைவுநிலையை அடையலாம்.
- தேர்வு சார்புகள்: பாரம்பரிய மதிப்பீடுகள் பொதுவாக குறிப்பிட்ட விரும்பத்தகாத மாடல் நடத்தைகளை மனதில் கொண்டு உருவாக்கப்படுகின்றன; மேலும் முன்பு நிகழ்ந்த சூழல்களுக்குச் சார்பை ஏற்படுத்தும் விதத்தில் தேர்ந்தெடுக்கப்படுகின்றன. இது முழு டெப்ளாய்மென்ட் விநியோகத்தின் பரப்பளவில் அத்தகைய நடத்தைகளின் நிகழ்தன்மை பற்றிய அவற்றின் மதிப்பீடுகளை குறைவாக தகவலளிப்பதாக மாற்றலாம்.
- மாடல்களுக்கு சோதனைகள் என்று அடையாளம் காணப்படுதல்: தாங்கள் சோதிக்கப்படுகிறோம் என்பதை மாடல்கள் அதிகமாகத் தீர்மானிக்கக் கூடியதாகி வருகின்றன; இது அவற்றின் நடத்தை மற்றும் அவற்றின் பாதுகாப்பை பற்றிய எங்கள் பிந்தைய அளவீடுகளை சிதைக்கலாம். OpenAI-இல் நாம் பயன்படுத்தும் பல பாரம்பரிய மதிப்பீடுகள், உற்பத்தி டிராஃபிக்கிலிருந்தும் எடுக்கப்படுவதால் இந்த சிக்கலால் பாதிக்கப்படாது; இருப்பினும் துறையெங்கும் பயன்படுத்தப்படும் பல பாரம்பரிய மதிப்பீடுகளுக்கு இது ஒரு பொதுவான கவலை.
டெப்ளாய்மென்ட் சிமுலேஷனுக்குப் பின்னுள்ள முக்கிய நுட்பம் எளிதானது: டெப்ளாய்மென்ட்டிலிருந்து சமீபத்திய உரையாடல்களை எடுத்து, பழைய மாடலின் அசல் உதவியாளர் பதிலை நீக்கி, வெளியிடப்பட உள்ள பயன்படுத்துவதற்கு முன்மொழியப்பட்ட மாடலால் அதை மீண்டும் உருவாக்குகிறோம். புதிய தோல்வி முறைகளைத் தேடி நிறைவுகளை மதிப்பிடுகிறோம்; மேலும் இந்த டெப்ளாய்மென்ட் போன்ற விநியோகத்தில் உள்ள அதிர்வெண்ணின் அடிப்படையில் டெப்ளாய்மென்ட்-நேர விரும்பத்தகாத நடத்தை அதிர்வெண்ணை மதிப்பிடுகிறோம். வெளியீட்டுக்குப் பிறகு உண்மையான டெப்ளாய்மென்ட் டிராஃபிக்கிலும் இதே அளவீடுகளை செய்ய முடியும்; இதனால் எங்கள் டெப்ளாய்மென்ட்டிற்கு முந்தைய முன்னறிவிப்புகளை சரிபார்க்க முடிகிறது.
மேலே பட்டியலிடப்பட்ட மூன்று வரம்புகளையும் டெப்ளாய்மென்ட் சிமுலேஷன் குறிப்பிடத்தக்க அளவில் தணிக்கிறது: சமீபத்திய பயன்பாட்டை பிரதிநிதித்துவப்படுத்தும் மதிப்பீட்டு ப்ராம்ப்ட்களின் விநியோகத்தைப் பயன்படுத்துவதன் மூலம் மாதிரி எடுத்தல் சார்பு கையாளப்படுகிறது. பிரதிநிதித்துவமான ப்ராம்ப்ட்களுடன் டெப்ளாய்மென்ட் சிமுலேஷன் கவரேஜ் பற்றிய கவலைகளையும் தணிக்க முடியும்: அதிக டிராஃபிக்கை சிமுலேட் செய்வதன் மூலம் விரும்பத்தகாத மாடல் நடத்தைகளுக்கான அதிக கவரேஜைப் பெறுகிறோம். கணிப்பொறி வளம் மற்றும் கவரேஜ் இடையிலான இந்த பரிமாற்றம் முக்கியமானது; ஏனெனில் இது அபாய மதிப்பீட்டின் இந்த அச்சின் தரத்தை, மேலும் மதிப்பீடுகளை உருவாக்க தேவையான கைமுறை முயற்சியைவிட, கணிப்பொறி வளத்துடன் அளவிட வைக்கிறது. டெப்ளாய்மென்ட் சிமுலேஷன் மூலம் பெறப்பட்ட உரையாடல்கள் மற்றும் உண்மையான டெப்ளாய்மென்ட் டிராஃபிக் இடையே வேறுபாட்டை மாடல்கள் கண்டறிய முடியாததாகவும் தெரிகிறது.
படம் 1: எங்கள் டெப்ளாய்மென்ட் சிமுலேஷன் பைப்லைனின் மேலோட்டம்
பகுதி | பாரம்பரிய மதிப்பீடுகள் | டெப்ளாய்மென்ட் சிமுலேஷன் |
கவரேஜ் | குறைந்த பரவல் ஆனால் அதிக தீவிரம் கொண்ட அபாயங்களுக்கு, நம்மிடம் காப்பீடு இருப்பதை உறுதி செய்ய விரும்பினால், இது சிறந்தது | வரிசைப்படுத்தல் போக்குவரத்தில் நாம் காணக்கூடிய அபாயங்களின் முழு வீச்சையும் புரிந்துகொள்வதற்கு இது சிறந்தது |
பிரதிநிதித்துவம் / சார்பு | பணியில் ஈடுபடுத்தப்படும்போது மிகக் குறைந்த அளவில் காணப்படும் நடத்தைகளுக்கும்கூட, இலக்கு வைக்கப்பட்ட கடந்தகால அல்லது கணிக்கப்பட்ட அபாயங்களை மதிப்பிடுவதில் கவனம் செலுத்துதல் | தற்போதைய வரிசைப்படுத்தல் போக்குவரத்தில் ஒரு குறிப்பிட்ட பரவலுக்கு மேல் ஏற்படும் அபாயங்களின் பிரதிநிதித்துவம் |
மதிப்பீட்டு விழிப்புணர்வு | வரிசைப்படுத்தல் தரவைக் கொண்டு மதிப்பீடுகள் உருவாக்கப்படாவிட்டால், வெளிப்படையான சோதனைக் குறிப்புகள் (எ.கா., செயற்கைத் தரவுடன்) தோன்றக்கூடும். | பணியமர்த்தல் போன்ற சூழல், மதிப்பீட்டு விழிப்புணர்வை கணிசமாகத் தணிப்பதாகத் தெரிகிறது |
முயற்சி | தனிப்பயன் ப்ராம்ப்ட் விநியோகங்கள் மற்றும் அமைவுகளுக்குக் கணிசமாக அதிக கைமுறை முயற்சி தேவைப்படுகிறது | இதற்கு ஒரு முறை உள்கட்டமைப்புச் செலவு தேவைப்படுகிறது, பின்னர் இது வரிசைப்படுத்தலில் இருந்து முன்னொட்டுகளையும், அறியப்பட்ட விரும்பத்தகாத நடத்தைகளிலிருந்து மதிப்பீட்டாளர்களையும் மீண்டும் பயன்படுத்துகிறது |
பாரம்பரிய மதிப்பீடுகள் மற்றும் டெப்ளாய்மென்ட் சிமுலேஷன் இடையிலான உயர்நிலை ஒப்பீடு
டெப்ளாய்மென்ட் சிமுலேஷனை மதிப்பிட, GPT‑5.4 Thinking-க்கான 20 வகையான விரும்பத்தகாத நடத்தைகளின் டெப்ளாய்மென்ட்-நேர அதிர்வெண்ணுக்கான கணிப்புகளை முன்பதிவு செய்தோம். GPT‑5‑தொடர் Thinking மாடல்களின் பிற டெப்ளாய்மென்ட்களிலும் பின்நோக்கு ஆய்வுகளை நடத்தினோம். நாங்கள் பகுப்பாய்வு செய்யும் மாடல் நடத்தைகள், சிஸ்டம் கார்டுகளில் புகாரளித்து வந்த பொருத்தமின்மை மற்றும் அனுமதிக்கப்படாத உள்ளடக்க வகைகள் இரண்டையும் உள்ளடக்குகின்றன. உதாரணமாக, மாடல் கருவிகளைப் பற்றி பொய் சொல்வது அல்லது அனுமதிக்கப்படாத பாலியல் உள்ளடக்கத்தை வெளியிடுவது. இந்த முடிவுகளுக்காக நாம் விரும்பத்தகாத மாடல் நடத்தையின் 20 வகைகளை மட்டுமே கண்காணித்து, புதிய பொருத்தமற்ற நடத்தைகளை மட்டுமே தேடினாலும், டெப்ளாய்மென்ட் சிமுலேஷன் என்பது எந்த டெப்ளாய்மென்ட்-நேர மாடல் பண்பையும் சிமுலேட் செய்யப் பயன்படுத்தக்கூடிய பொதுவான நுட்பமாகும்.
நாங்கள் பயன்படுத்திய உற்பத்தி டிராஃபிக்கும் GPT‑5‑தொடர் Thinking மாடல்களிலிருந்தே வந்தது. எங்கள் மதிப்பீடுகளை நடத்துவதற்கு முன், கணக்குடன் இணைக்கப்பட்ட அடையாளங்காட்டிகளையும் அடையாளம் காணக்கூடிய தகவல்களையும் தானாக நீக்கினோம். எங்கள் பிரைவசி பாலிசிக்கு ஏற்ப, தங்கள் தரவை மாடல் மேம்பாடுகளுக்குப் பயன்படுத்த அனுமதிக்கும் பயனர்களின் ChatGPT டிராஃபிக்கையே நாங்கள் பகுப்பாய்வு செய்தோம். இந்த மதிப்பீடுகளிலிருந்து திரட்டப்பட்ட கண்டுபிடிப்புகளையே நாங்கள் அறிக்கையிடுகிறோம். மொத்தத்தில், ஆகஸ்ட் 2025 முதல் மார்ச் 2026 வரை பரவிய GPT‑5 Thinking முதல் GPT‑5.4 டெப்ளாய்மென்ட்கள் வரை, அடையாளம் நீக்கப்பட்ட சுமார் 1.3 மில்லியன் உரையாடல்களை நாங்கள் பகுப்பாய்வு செய்தோம்.
டெப்ளாய்மென்ட் சிமுலேஷன் உருவாக்கிய டெப்ளாய்மென்ட்டிற்கு முந்தைய அபாய மதிப்பீட்டின் தரத்தை மூன்று முக்கிய வழிகளில் மதிப்பிடுகிறோம்:
- வகைப்பாட்டு கவரேஜ்: வெளியீட்டிற்குப் பிந்தைய தணிக்கையில், எங்கள் தொடக்கத் தவறான நடத்தை வகைப்பாட்டில் இல்லாத முக்கியமான பொருத்தமற்ற நடத்தைகள் ஏதும் வெளிப்பட்டதா?
- திசைத் துல்லியம்: அறியப்பட்ட நடத்தைகளுக்கு டெப்ளாய்மென்ட் பரவல் அதிகரிக்குமா அல்லது குறையுமா என்பதை சிமுலேஷன் சரியாகக் கணித்ததா?
- விகித ஒத்திசைவு: எங்கள் டெப்ளாய்மென்ட்டிற்கு முந்திய மதிப்பீடுகள் பின்னர் டெப்ளாய்மென்டில் கண்ட விகிதங்களுக்கு நெருக்கமாக இருந்தனவா? திசைத் துல்லியத்தை விட நல்ல விகித ஒத்திசைவை அடைவது அதிகம் தேவையானது; எனவே இதுவே மிக உயர்ந்த தரத் தரநிலை ஆகும்.
டெப்ளாய்மென்ட் சிமுலேஷனின்போது தாங்கள் மதிப்பீட்டில் உள்ளதை மாடல்கள் எவ்வளவு அளவுக்கு அறிய முடிகிறது என்பதையும், வெவ்வேறு வடிவங்களான டெப்ளாய்மென்ட் டிராஃபிக் மற்றும் சவாலான கருவி பயன்பாட்டு அமைப்புகளுக்கு இந்த முறை எவ்வளவு உறுதியானது என்பதையும் அளவிடுகிறோம்.
GPT‑5‑தொடர் Thinking டெப்ளாய்மென்ட்களில், உண்மையான அபாய விகிதத்தை தீர்மானிப்பதில் சவாலான-ப்ராம்ப்ட் அடிப்படைகளை விட டெப்ளாய்மென்ட் சிமுலேஷன் சிறப்பாக செயல்பட்டது; வெளியீட்டுக்கு முன் கால்குலேட்டர் ஹாக்கிங்கை வெளிக்கொணர முடிந்தது; மேலும் மாடலுக்கு டெப்ளாய்மென்டிலிருந்து வேறுபடுத்த முடியாததாகத் தோன்றியது.
எங்கள் கணிப்புகளின் மேலோட்டம். GPT‑5‑தொடர் Thinking மாடல் டெப்ளாய்மென்ட்களுக்கான அனைத்து கணிப்புகளின் காட்சிப்படுத்தலுக்கு படம் 2-ஐப் பார்க்கவும். GPT‑5.4 Thinking-க்கான கணிப்புகள் முன்பதிவு செய்யப்பட்டவை; மற்றவை பின்நோக்கு கணிப்புகள். மொத்தத்தில், எங்கள் கணிப்புகளின் நடுநிலை பெருக்குப் பிழை 1.5x-ஆக இருந்தது. உதாரணமாக, விரும்பத்தகாத நடத்தை விகிதம் 100k-இல் 10 என்றால், இது 100k-இல் 15 அல்லது 6.67 என்ற விகிதத்தை மதிப்பிடுவதற்கு ஒப்பாகும். எங்கள் முறையின் அரிதான பிழைகள் சுமார் 10x அதிகமாக இருக்கலாம் என்றாலும், கீழே விவாதிப்பதுபோல், எங்கள் சிமுலேஷன் பைப்லைனில் மேலும் மேம்பாடுகள் மூலம் அவற்றை குறிப்பிடத்தக்க அளவில் குறைக்கலாம் என்று எதிர்பார்க்கிறோம்.
படம் 2. முந்தைய டெப்ளாய்மென்ட் தரவின் அடிப்படையில், டெப்ளாய்மென்ட் நேர விரும்பத்தகாத நடத்தைக்கான டெப்ளாய்மென்ட் சிமுலேஷன் அதிர்வெண் கணிப்புகள். 5.1 → 5 என்ற குறியீடு, GPT‑5‑இலிருந்து பெறப்பட்ட முன்னொட்டுகளை GPT‑5.1 மூலம் மீள்மாதிரி எடுக்கிறோம் என்பதைக் குறிக்கிறது; அதாவது GPT‑5 தரவின் அடிப்படையில் GPT‑5.1‑இன் டெப்ளாய்மென்ட்டை சிமுலேட் செய்கிறோம். பொருத்தமற்ற நடத்தையின் அதிகபட்ச விகிதம் GPT‑5.1‑இல் “கால்குலேட்டர் ஹாக்கிங்காக” இருந்தது; இதைப் பற்றி நாங்கள் முன்னர்(புதிய சாளரத்தில் திறக்கும்) விவாதித்துள்ளோம்.
டெப்ளாய்மென்ட் சிமுலேஷன் கணிப்புகளை அடிப்படைகளுடன் ஒப்பிடுதல். டெப்ளாய்மென்ட்டிற்கு முந்தைய அபாய மதிப்பீடுகளுக்கு சரியாக மதிப்பிட வேண்டிய மிக முக்கியமான வகைகள், மாடலின் டெப்ளாய்மென்ட்டுக்குப் பிறகு நிகழ்தன்மையில் பெரிய மாற்றங்கள் உள்ளவையாகும். உதாரணமாக, >= 1.5x. இந்த துணைத்தொகுப்பில், ஒரு குறிப்பிட்ட விரும்பத்தகாத நடத்தை மாடலின் டெப்ளாய்மென்ட்டுடன் பரவலில் அதிகரிக்குமா அல்லது குறையுமா என்பதை கணிப்பதிலும் (படம் 3, இடது), அதன் துல்லியமான டெப்ளாய்மென்ட்-நேர நிகழ்தன்மையை மதிப்பிடுவதிலும் (படம் 3, வலது) டெப்ளாய்மென்ட் சிமுலேஷன் அடிப்படைகளை விட குறிப்பிடத்தக்க அளவில் சிறந்தது. நாங்கள் இரண்டு முக்கிய அடிப்படைகளைப் பயன்படுத்துகிறோம்: சிஸ்டம் கார்டுகள் மற்றும் வெளியீட்டு முடிவுகளுக்கு தற்போது பயன்படுத்தும் சவாலான ப்ராம்ப்ட்கள் அடிப்படை, மேலும் புதிய மாடலுக்கான மதிப்பீடுகளாக முந்தைய டெப்ளாய்மென்டின் விகிதங்களைப் பயன்படுத்தும் எளிய அடிப்படை.
படம் 3. டெப்ளாய்மென்ட் சிமுலேஷன், நிலையான மதிப்பீடுகளை விட நிகழ்தன்மை மாற்றங்களின் திசையையும் (இடது), துல்லியமான உற்பத்தி விகிதங்களையும் (வலது) சிறப்பாக கணிக்கிறது.
எங்கள் பைப்லைனில் சிமுலேஷன் பிழையின் மூலங்கள். எங்கள் பைப்லைனில் உள்ள தற்போதைய பிழை மூலங்களையும் ஆய்வு செய்தோம். குறிப்பாக, பெரிய அரிதான பிழைகள் டெப்ளாய்மென்ட் முடிவுகளுக்கு பைப்லைனை குறைவாக நம்பத்தகுந்ததாக மாற்றுகின்றன: உதாரணமாக, ஒரு குறிப்பிட்ட வகை விரும்பத்தகாத நடத்தையில் பெரிய அதிகரிப்பு கணிக்கப்பட்டுள்ளது என்று பார்க்கும்போது, பைப்லைனில் அவ்வப்போது கூட பெரிய பிழைகள் உள்ளன என்பது தெரிந்தால், இது நம்பகமான மதிப்பீடா அல்லது பைப்லைனின் செயற்கை விளைவா என்ற சந்தேகத்தை எழுப்புகிறது. சாத்தியமான பிழைக்கு இரண்டு முக்கிய மூலங்கள் உள்ளன:
- மீள்மாதிரி எடுத்தல் சூழல் நம்பகத்தன்மை பிழை: உற்பத்தி விகிதங்களை துல்லியமாக மதிப்பிட, எங்கள் சிமுலேஷன் பைப்லைன் முடிந்தவரை நிஜத்தன்மையுடன் இருக்க வேண்டும். இது ஒரு பகுதி பொறியியல் பிரச்சினை. அதாவது, உற்பத்தி டிராஃபிக்கிற்கு பயன்படுத்தப்படும் அதே பைப்லைன்களைப் பயன்படுத்தி மாடலிலிருந்து மாதிரெடுப்பது. மேலும் இது தொடர்ந்து மாறிக்கொண்டிருக்கும் வெளிப்புற வளங்களுக்கு வாசிப்பு/எழுத்து அணுகல் தேவைப்படும் கருவிகளுக்கான சுவாரஸ்யமான சவாலும் ஆகும். உதாரணமாக, வலைத் தேடல்கள் அல்லது உள் கோப்புகளுடன் தொடர்பு கொள்வது. உண்மையான டெப்ளாய்மென்ட்டிலிருந்தும் அதன் சிமுலேஷனிலிருந்தும் வரும் கணிப்புகளை ஒப்பிட்டு சிமுலேஷன் நம்பகத்தன்மை பிழையை தனிமைப்படுத்த முடியும். அதாவது, ஏற்கனவே டெப்ளாய் செய்யப்பட்ட மாடலின் டெப்ளாய்மென்ட்டை சிமுலேட் செய்வது.
- ப்ராம்ப்ட் விநியோக மாற்ற பிழை: டெப்ளாய்மென்ட் சிமுலேஷனைப் பற்றிய ஒரு பெரிய கவலை, எந்த மாடலின் டெப்ளாய்மென்ட்டும் உள்ளீடுகளில் விநியோக மாற்றத்தை ஏற்படுத்தும் என்பதே; குறிப்பாக பயனர்கள் புதிய மாடல் வசதிகளுக்கு ஏற்ப மாறினால். சமீபத்திய ப்ராம்ப்ட்களைப் பயன்படுத்தி டெப்ளாய்மென்டை சிமுலேட் செய்யும்போதும், உண்மையில் நடந்த டெப்ளாய்மென்ட்டிலிருந்து வந்த ப்ராம்ப்ட்களைப் பயன்படுத்தும்போதும் கிடைக்கும் மதிப்பீடுகளை ஒப்பிட்டு ப்ராம்ப்ட் விநியோக பிழையை தனிமைப்படுத்துகிறோம்.
படம் 4-இல் காணப்படுவது போல, எங்கள் பைப்லைனில் உள்ள பிழையின் பெரிய பகுதி, குறிப்பாக அரிதான பிழைகளுக்கு, தற்போது சிமுலேஷன் நம்பகத்தன்மையாலேயே ஏற்படுகிறது என்று கண்டறிகிறோம். இது நல்ல செய்தி; ஏனெனில் ப்ராம்ப்ட் விநியோக மாற்றத்தை குறைப்பதைவிட சிமுலேஷன் நம்பகத்தன்மையை மேம்படுத்துவது பொதுவாக எளிதாக இருக்கும் என்று எதிர்பார்க்கிறோம். முந்தைய டெப்ளாய்மென்ட்டிலிருந்து கிடைக்கும் மிகச் சமீபத்திய தரவைப் பயன்படுத்துவதன் மூலம் ப்ராம்ப்ட் விநியோக மாற்ற பிழை குறையலாம் என்றும் கண்டறிகிறோம். மேலும் விவரங்களை ஆய்வுக் கட்டுரையில் காணலாம்.
படம் 4: எங்கள் மதிப்பீடுகளில், குறிப்பாக மிகத் தீவிரமான பிழைகளுக்கு, மீள்மாதிரி எடுத்தல் சூழல் நம்பகத்தன்மையே மிகப்பெரிய பிழை மூலமாகத் தெரிகிறது.
இந்த டெப்ளாய்மென்ட்களில் அறிமுகமான ஒரே புதிய பொருத்தமின்மையை தானியங்கி தணிக்கை கண்டறிந்தது. நாங்கள் ஆய்வு செய்த டெப்ளாய்மென்ட் சாளரத்தில், சிமுலேட் செய்யப்பட்ட டெப்ளாய்மென்ட்களை அடிப்படையாகக் கொண்ட எங்கள் தானியங்கி தணிக்கை பைப்லைன் வெளியீட்டுக்கு முன் ‘கால்குலேட்டர் ஹாக்கிங்கை’ வெளிக்கொணர்ந்திருக்கும்; பகுப்பாய்வு செய்யப்பட்ட ChatGPT டிராஃபிக்கில் நாங்கள் அடையாளம் கண்ட ஒரே புதிய பொருத்தமின்மை அதுதான். கால்குலேட்டர் ஹாக்கிங் என்பது ரிவார்டு ஹாக்கிங்கின் ஒரு வடிவம்; இதில் மாடல் ஒரு பிரௌசர் கருவியை கால்குலேட்டராகப் பயன்படுத்தி, அந்தச் செயலை தேடலாகக் காட்டுகிறது. இதனால் பெரிய அளவிலான தணிக்கை ஒவ்வொரு புதிய தோல்வியையும் கண்டுபிடிக்கும் என்று பொருளல்ல; ஆனால் நிஜத்தன்மை கொண்ட சூழல்கள் ஏன் முக்கியம் என்பதை இது காட்டுகிறது: சிமுலேஷனைத் தொடங்க பயன்படுத்திய அசல் டிராஃபிக்கில் அவை இல்லாவிட்டாலும், குறுகிய மதிப்பீட்டு தொகுப்புகள் நேரடியாக ஒருபோதும் வெளிக்கொணராத நடத்தைகளை அவை தூண்டலாம்.
டெப்ளாய்மென்ட் போன்ற சூழல்களைப் பயன்படுத்துவதன் மற்றொரு நன்மை, தாங்கள் சோதிக்கப்படுவதை மாடல்கள் அடையாளம் காணும்போது ஏற்படும் சிதைவுகளை அவை குறைக்கலாம் என்பதாகும். முந்தைய ஆய்வுகளில், நாங்களும் மற்றவர்களும்(புதிய சாளரத்தில் திறக்கும்) மாடல்கள் தாங்கள் எப்போது சோதிக்கப்படுகின்றன என்பதை அடிக்கடி அறிந்திருப்பதை கண்டறிந்துள்ளோம். உதாரணமாக, மாடல்கள் தாங்கள் எதற்காக சோதிக்கப்படுகின்றன, ஒரு மதிப்பீட்டாளர் எதை விரும்பலாம், மேலும் அவை தவறாக நடக்கின்றன என்றால் பிடிபடுமா என்பதையும் பற்றி தங்கள் செயின்-ஆஃப்-தாட்டில் ரீஸனிங் செய்யலாம். இது ஒழுங்கமைப்பு மதிப்பீடுகளுக்கு ஒரு பிரச்சினையை உருவாக்குகிறது: ஒரு மாடல் தான் சோதிக்கப்படுகிறோம் என்று நினைப்பதாலேயே நன்றாக நடக்கிறது என்றால், அது டெப்ளாய் செய்யப்பட்டதை அறிந்த பிறகு பாதுகாப்பாக நடக்கும் என்ற நம்பிக்கையை எவ்வாறு உருவாக்குவது?
உண்மையான டெப்ளாய்மென்ட் தரவை அடிப்படையாகக் கொள்ளாத பாரம்பரிய மதிப்பீடுகளுடன் ஒப்பிடும்போது, மாடல்கள் காட்டும் மதிப்பீட்டு விழிப்புணர்வு நிலைகளை டெப்ளாய்மென்ட் சிமுலேஷன் குறிப்பிடத்தக்க அளவில் குறைக்கிறது என்பதை காட்டுகிறோம். மதிப்பீட்டு விழிப்புணர்வை மூன்று வழிகளில் அளவிடுகிறோம்: ஒரு பாதை உற்பத்தியிலிருந்ததா அல்லது மதிப்பீட்டிலிருந்ததா என்பதை வகைப்படுத்த ஒரு மாடலைக் கேட்பது; ஒழுங்கமைப்புக்காக மதிப்பிடப்படுவது பற்றிய வெளிப்படையான கூற்றுகளுக்காக செயின்-ஆஃப்-தாட்டைக் கண்காணிப்பது; அத்துடன் மெட்டாகேமிங்க்காகவும்(புதிய சாளரத்தில் திறக்கும்) கண்காணிப்பது: மேற்பார்வை பற்றிய எந்த ரீஸனிங்கும். சிமுலேட் செய்யப்பட்ட டெப்ளாய்மென்ட் டிராஃபிக், மூன்று அளவீடுகளிலும் உண்மையான டெப்ளாய்மென்ட் டிராஃபிக்குடன் நெருக்கமாகப் பொருந்தியது. உதாரணமாக, GPT‑5.2 உண்மையான உற்பத்தி டிராஃபிக்கை 5.4% நேரங்களில் மதிப்பீடு போன்றதாகவும், சிமுலேட் செய்யப்பட்ட டிராஃபிக்கை 5.1% நேரங்களில் மதிப்பீடு போன்றதாகவும் குறித்தது; ஆனால் SWE-Bench அல்லது MonorepoBench போன்ற, பெரும்பாலும் செயற்கை எடுத்துக்காட்டுகளாலான பாரம்பரிய மதிப்பீடுகள் கிட்டத்தட்ட 100% நேரங்களில் மதிப்பீடுகளாக வகைப்படுத்தப்பட்டன.
படம் 5. மதிப்பீட்டு விழிப்புணர்வு ஒப்பீடு: உண்மையான உற்பத்தி டிராஃபிக்கும் சிமுலேட் செய்யப்பட்ட டிராஃபிக்கும் மதிப்பீட்டு கண்டறிதல், வாய்மொழியாக வெளிப்படுத்தப்பட்ட ஒழுங்கமைப்பு மதிப்பீட்டு விழிப்புணர்வு மற்றும் மெட்டாகேமிங் ஆகியவற்றுக்கு ஒத்த விகிதங்களைக் காட்டுகின்றன; பாரம்பரிய மதிப்பீட்டு தரவுத்தொகுப்புகள் மிகவும் அதிக விகிதங்களை தெரிவிக்கின்றன.
நிலையான அரட்டை முறைகளைத் தாண்டி இந்த முறை விரிவடைய முடியுமா என்பதை சோதிக்க, சவாலான ஏஜென்டிக் கோடிங் அமைப்புகளுக்கான டெப்ளாய்மென்ட்களை சிமுலேட் செய்வதையும் ஆய்வு செய்தோம். குறிப்பாக, GPT‑5.4‑இலிருந்து 120,000 உள்புற ஊழியர் ஏஜென்டிக் பாதைகளைப் பயன்படுத்தி, GPT‑5.5 அடிப்படையிலான கோடிங் ஏஜென்ட்களின் உள்புற டெப்ளாய்மென்டை சிமுலேட் செய்கிறோம். இது இரண்டு நோக்கங்களுக்கு பயன்படுகிறது: உள்புற டெப்ளாய்மென்ட்களுக்கு அபாய மதிப்பீட்டிற்கும் டெப்ளாய்மென்ட் சிமுலேஷனைப் பயன்படுத்தலாம் என்பதை இது காட்டுகிறது; மேலும் கவனமான கருவி சிமுலேஷன் மூலம் ஏஜென்டிக் அமைப்புகளிலும் சிமுலேஷன் நம்பகத்தன்மையை உயரமாக்க முடியும் என்பதை நிரூபிக்கிறது.
எங்கள் தற்போதைய பைப்லைனில் பிழையின் முக்கிய மூலங்களில் ஒன்று சிமுலேஷன் நம்பகத்தன்மை என்று மேலே விவாதித்தோம். டெப்ளாய்மென்ட் சிமுலேஷன்களை நிஜத்தன்மையுடன் உருவாக்குவதில் உள்ள சவால்களில் ஒன்று, தொடர்ந்து மாறிக்கொண்டிருக்கும் வெளிப்புற வளங்களுக்கு வாசிப்பு/எழுத்து அணுகல் தேவைப்பட்டாலும், கருவிகள் நிஜத்தன்மையான விதங்களில் செயல்பட வேண்டியிருப்பதே. உதாரணமாக, வலைத் தேடல்கள் அல்லது உள் கோப்புகளுடன் தொடர்புகொள்வது.
ஏஜென்டிக் டெப்ளாய்மென்ட்கள் போன்ற அமைப்புகளுக்கு இது குறிப்பாக சவாலானது: ஓர் ஏஜென்ட் பாதை நூற்றுக்கணக்கான கருவி அழைப்புகள், ரிபாசிட்டரி நிலை, நெட்வொர்க் பதில்கள் அல்லது தற்காலிக தோல்விகளின் மீது சார்ந்திருக்கலாம். இதனால் உண்மையான கருவி அணுகலுடன் மீள்மாதிரி எடுத்தல் சவாலானதுமாகவும் சாத்தியமான ஆபத்தானதுமாகவும் ஆகிறது. இதைக் கருத்தில் கொண்டு, கருவி அழைப்புகளை நேரடி முறைமைகளுக்கு பயன்படுத்துவதற்கு பதிலாக, அவற்றை மற்றொரு LLM மூலம் சிமுலேட் செய்கிறோம். இந்த LLM-க்கு கூடுதல் வசதிகளை வழங்குவது நிஜத்தன்மைக்கும் அதனால் மதிப்பீட்டு தரத்திற்கும் அவசியம் என்பதை காட்டுகிறோம்.
கருவி-சிமுலேட்டர் மாடலுக்கு அசல் இறுதி-டர்ன் வெளியீடு, உரையாடல் நடந்த நேரத்தின் ரிபாசிட்டரி, கருவி-அழைப்பு/பதில் ஜோடிகளின் தரவுத்தளம் மற்றும் வாசிப்பு-மட்டும் கனெக்டர்களை வழங்குகிறோம். சிமுலேட் செய்யப்பட்ட வெளியீடுகளையும் உண்மையான வெளியீடுகளையும் வேறுபடுத்த ஒரு பாகுபடுத்தி முயன்ற சோதனையில், நிஜத்தன்மை 11.6% வெற்றி விகிதத்திலிருந்து 49.5%-ஆக மேம்பட்டது; இது 50% வாய்ப்பு நிலைக்கு அருகில் உள்ளது.
படம் 6: அதிகரிக்கப்பட்ட வசதிகளுடன் கருவி அழைப்புகளை சிமுலேட் செய்யும்போது, கருவிகள் அதிகம் பயன்படுத்தப்படும் அமைப்புகளிலும் மீள்மாதிரி எடுத்தல் நிஜத்தன்மையை உண்மையான மாதிரி எடுத்தலிலிருந்து கிட்டத்தட்ட வேறுபடுத்த முடியாததாக மாற்ற முடியும்.
சிமுலேஷன் நம்பகத்தன்மைக்கான கூடுதல் ஆதாரமாக, GPT‑5.4 Codex சிந்தித்தல் டிராஃபிக்கை GPT‑5.4 மூலம் சிமுலேட் செய்யும்போது, பொருத்தமின்மை விகிதங்கள் சுமார் பிழை வரம்புகளுக்குள் உள்ளன. மாறாக, எங்கள் டெப்ளாய்மென்ட்டிற்கு முந்தைய சோதனையில் GPT‑5.5 பெரும்பாலான வகைகளில் அதிகமாக பொருத்தமற்றதாக இருந்தது.
படம் 7: கருவி சிமுலேஷனுடன், GPT‑5.4 மூலம் மீள்மாதிரி எடுக்கப்பட்ட உரையாடல்களுக்கும் உண்மையான GPT‑5.4 உற்பத்தி டிராஃபிக்கிற்கும் நடத்தை விகிதங்கள் மிகவும் ஒத்துள்ளன; இது உயர்ந்த மீள்மாதிரி எடுத்தல் சூழல் நம்பகத்தன்மையை குறிக்கிறது. வகைகள் குறித்த கூடுதல் சூழலுக்கு GPT‑5.5 சிஸ்டம் கார்டைப்(புதிய சாளரத்தில் திறக்கும்) பார்க்கவும்.
சுற்றியுள்ள கருவி சூழல் போதிய நம்பகத்தன்மையுடன் சிமுலேட் செய்யப்பட்டால், சிக்கலான ஏஜென்ட் அமைப்புகளுக்கும் டெப்ளாய்மென்ட் சிமுலேஷன் விரிவடைய முடியும் என்பதை இந்த முடிவுகள் காட்டுகின்றன.
தனிப்பட்ட உற்பத்தி டிராஃபிக்கிற்கான அணுகல் இல்லாமல், வெளிப்புற தணிக்கையாளர்கள் அதே நன்மைகளில் சிலவற்றைப் பெற முடியுமா என்பது இயல்பான கேள்வி. முன்னொட்டுகளாக பயன்படுத்தப்பட்ட 100,000 வைல்டுச்சேட் உரையாடல்களுடன் இதைச் சோதித்தோம். சமீபத்திய OpenAI உற்பத்தி தரவை விட வைல்டுச்சேட் குறைவாகத் துல்லியமாக இருந்தது, ஆனால் இன்னும் தகவலளிப்பதாக இருந்தது: சமீபத்திய உற்பத்தி தரவுக்கு வைல்டுச்சேட்டை விட குறைந்த சராசரி பெருக்குப் பிழை இருந்தது (1.75× X 2.44×); அதேவேளை வைல்டுச்சேட் பல நேரங்களில் உற்பத்தி விகிதங்களின் சுமார் 3× வரம்புக்குள் இருந்தது மற்றும் வாய்ப்பை விட அதிக விகிதங்களில் சிறந்த மாடலை அடையாளம் கண்டது. வைல்டுச்சேட் பாணி மதிப்பீடுகளை, டெவலப்பர் இயக்கும் டெப்ளாய்மென்ட் சிமுலேஷனுக்கு நம்பிக்கைக்குரிய துணையாகக் காண்கிறோம். இந்தப் புள்ளி குறித்த மேலும் முடிவுகளுக்கு இந்த துணை ஒழுங்கமைப்பு வலைப்பதிவைப்(புதிய சாளரத்தில் திறக்கும்) பார்க்கவும்.
டெப்ளாய்மென்ட் சிமுலேஷன் என்பது எதிர்மறை நோக்கமுடைய மதிப்பீடுகள், ரெட்-டீமிங் மற்றும் இலக்கு அரிதான அபாய பகுப்பாய்வுக்கு மாற்றாக அல்ல; அவற்றுக்கு துணையாகும். சில விரும்பத்தகாத மாடல் நடத்தைகளை கண்டறிவது செயின்-ஆஃப்-தாட் கண்காணிக்கத்தக்க தன்மையை சார்ந்துள்ளது: எதிர்கால மாடல்கள் குறைவாகத் தெளிவாக ரீஸனிங் செய்தால், முக்கிய படிகளைத் தவிர்த்தால் அல்லது நோக்கத்தை மறைக்கக் கற்றுக்கொண்டால், இவ்வகை விரும்பத்தகாத நடத்தைகளை நாங்கள் கண்டறிய முடியாமல் போகலாம். மேலும், உற்பத்தி தரவு தனிப்பட்டது என்பதால், வெளிப்புற தணிக்கையாளர்களை விட டெவலப்பர்களுக்கு தற்போது பிரதிநிதித்துவமான சூழல்களுக்கான வலுவான அணுகல் உள்ளது. சிறந்த பொது தரவுத்தொகுப்புகள் அந்த இடைவெளியை குறைக்கலாம்.
மாதிரி எடுக்கப்பட்ட முன்னொட்டுகளில் தோன்றும் அளவுக்கு அடிக்கடி நிகழும் நடத்தைகளுக்கு டெப்ளாய்மென்ட் சிமுலேஷன் மிகவும் பயனுள்ளதாகும். பத்து மில்லியன் உரையாடல்களில் ஒருமுறை நிகழும் தோல்வி, ஒரு மில்லியன் மாதிரி இயக்கத்தில் கண்டுபிடிக்கப்படுவது சாத்தியமில்லை; எனவே எதிர்மறை நோக்கமுடைய மதிப்பீடுகள், ரெட்-டீமிங் மற்றும் இலக்கு அரிதான அபாய பகுப்பாய்வு இன்னும் தேவையாகவே உள்ளன. தற்போது ஒரு உதவியாளர் பதிலை சிமுலேட் செய்வதிலேயே கவனம் செலுத்துகிறோம்; ஏனெனில் தொடக்கச் சோதனைகளில் பல டர்ன்களை சிமுலேட் செய்வதால் எங்கள் மதிப்பீடுகளில் அர்த்தமுள்ள மேம்பாடுகள் கிடைக்கவில்லை. எதிர்காலத்தில் சிமுலேஷன் நம்பகத்தன்மையை மேம்படுத்த இது ஒரு முக்கியமான பகுதியாக இருக்கலாம்.
இந்த முறை முன்னொட்டு விநியோகத்தையும் சார்ந்துள்ளது; அதாவது மீள்மாதிரி எடுக்கப்படும் உரையாடல்களின் கலவை. ஒரு பெரிய தயாரிப்பு மாற்றம், புதிய கருவி வெளியீடு, உலக நிகழ்வு அல்லது பருவகால மாற்றத்திற்குப் பிறகு, அதிக திறன் கொண்ட மாடலுடன் பயனர்கள் தொடர்புகொள்ளும் விதத்துடன் வரலாற்று டிராஃபிக் பொருந்தாமல் போகலாம். முழு கட்டுரையில் உள்ள பகுப்பாய்வு, கிடைக்கும் மிகச் சமீபத்திய தரவைப் பயன்படுத்துவதன் மூலம் இந்த சிக்கலை தணிக்க முடியும் என்று குறிப்பிடுகிறது.
டெப்ளாய்மென்ட் சிமுலேஷன் என்பது டெப்ளாய்மென்ட்டிற்கு முந்தைய அபாய மதிப்பீட்டிற்கான புதிய அணுகுமுறை; இது அதிநவீன ஆய்வகங்களுக்கும் மதிப்பீட்டாளர்களுக்கும் மொழி மாடல்கள் உண்மையான உலகில் எவ்வாறு நடக்கக்கூடும் என்பதைக் கணிக்கவும், டெப்ளாய்மென்ட்டுக்கு முன் அவை ஏற்படுத்தும் அபாயங்களைப் புரிந்துகொள்ளவும் உதவுகிறது. இது ஏற்கனவே உள்ள பாதுகாப்பு மதிப்பீடுகள், ரெட்-டீமிங் மற்றும் இலக்கு பகுப்பாய்வுக்கு துணையாக, மேலும் உற்பத்தி போன்ற கணிப்பு அடுக்கைச் சேர்க்கிறது; இது டெப்ளாய்மென்ட் நடத்தைக்கான மதிப்பீடுகளை மேம்படுத்தவும், மதிப்பீட்டு விழிப்புணர்வு விளைவுகளை குறைக்கவும், வெளியீட்டுக்குப் பிறகு டெப்ளாய்மென்ட்டிற்கு முந்தைய கணிப்புகளை சரிபார்க்கக்கூடியதாக மாற்றவும் உதவும். பாரம்பரிய மதிப்பீடுகளுடன் சேர்த்து பயன்படுத்தும்போது, மாடல் அபாய மதிப்பீட்டை மேலும் நிஜத்தன்மையுடன், மேலும் அளவுருவாகவும், டெப்ளாய்மென்ட் முடிவுகளுக்கு மேலும் பயனுள்ளதாகவும் மாற்ற டெப்ளாய்மென்ட் சிமுலேஷன் உதவும்.


