22 டிசம்பர், 2025

தூண்டி ஊடுருவல் தாக்குதல்களுக்கு எதிராக ChatGPT Atlas ஐ தொடர்ந்து வலுப்படுத்துதல்

மீளுறுதிக் கற்றலால் இயக்கப்படும் தானியங்கி ரெட் டீமிங், நிஜ உலகில் ஆயுதமாக்கப்படுவதற்கு முன் உண்மையான ஏஜன்ட் பாதிப்புகளை முன்கூட்டியே கண்டறிந்து சரிசெய்ய எங்களுக்கு உதவுகிறது.

ஏற்றுகிறது…

ChatGPT Atlas இல் ஏஜன்ட் பயன்முறை இதுவரை வெளியிடப்பட்ட மிகவும் பொதுவான நோக்கத்திற்கான ஏஜன்ட் அம்சங்களில் ஒன்றாகும். இந்த முறையில், உலாவி ஏஜன்ட் இணையப்பக்கங்களைப் பார்வையிட்டு, உங்களின் உலாவியில் நீங்கள் செய்வதைப் போலவே நடவடிக்கைகள், கிளிக்குகள் மற்றும் விசைப்பலகை அழுத்தங்களைச் செய்கிறது. இது ChatGPT‑ஐ ஒரே இடம், சூழல் மற்றும் தரவைப் பயன்படுத்தி உங்கள் அன்றாட பணிப்பாய்வுகளில் பலவற்றில் நேரடியாக வேலை செய்ய அனுமதிக்கிறது.

உலாவி ஏஜன்ட் உங்களுக்கு மேலும் பலவற்றைச் செய்ய உதவுவதால், அது எதிர்மறை தாக்குதல்களின் உயர்ந்த மதிப்புள்ள இலக்காக மாறுகிறது. இது AI பாதுகாப்பை மிகவும் முக்கியமாக்குகிறது. ChatGPT Atlas-ஐ தொடங்குவதற்கு முந்தைய காலத்திலிருந்தே, இந்த புதிய ‘உலவியில் ஏஜென்ட்’ முறையை குறிக்கின்ற புதிய அச்சுறுத்தல்களுக்காக நாங்கள் தொடர்ச்சியாக பாதுகாப்பு கட்டமைப்புகளை உருவாக்கி, வலுப்படுத்தி வருகிறோம். தூண்டி ஊடுருவல்⁠ என்பது ChatGPT Atlas உங்கள் சார்பாக பாதுகாப்பாக செயல்பட நாங்கள் செயலில் ஈடுபடும் முக்கியமான அபாயங்களில் ஒன்றாகும்.

இந்த முயற்சியின் ஒரு பகுதியாக, Atlas உலாவி ஏஜென்டுக்கு சமீபத்தில் ஒரு பாதுகாப்பு புதுப்பிப்பை அனுப்பியுள்ளோம், இதில் புதிய எதிர்மறை பயிற்சி பெற்ற மாதிரி மற்றும் சுற்றியுள்ள பாதுகாப்புகளை வலுப்படுத்தியுள்ளோம். இந்த புதுப்பிப்பு எங்கள் உள் தானியங்கி சிவப்பு குழு செயல்பாட்டின் மூலம் கண்டறியப்பட்ட புதிய வகை தூண்டி ஊடுருவல் தாக்குதல்களால் ஏற்படுத்தப்பட்டது.

இந்த பதிவில், வலை அடிப்படையிலான ஏஜன்ட்களுக்கு தூண்டி-ஊடுருவல் அபாயம் எவ்வாறு உருவாக முடியும் என்பதை நாங்கள் விளக்குகிறோம், மேலும் புதிய தாக்குதல்களை தொடர்ந்து கண்டறிந்து, தற்காலிக தீர்வுகளை விரைவாக வழங்குவதற்கான ஒரு விரைவான பதில் மடக்கு முறைமையை நாங்கள் உருவாக்கி வருகிறோம் - சமீபத்திய பாதுகாப்பு புதுப்பிப்பால் விளக்கப்பட்டுள்ளது.

நாங்கள் தூண்டி ஊடுருவலை நீண்டகால AI பாதுகாப்பு சவாலாகக் காண்கிறோம், இதற்கெதிராக நமது பாதுகாப்புகளை தொடர்ந்து வலுப்படுத்த வேண்டியிருக்கும் (மனிதர்களை குறிவைத்து எப்போதும் மாறும் ஆன்லைன் மோசடிகள் போல). அந்த பயணத்தில் ஒரு முக்கிய கருவியாக, எங்களின் சமீபத்திய விரைவு மறுமொழி சுழற்சி ஆரம்ப நிலை நம்பிக்கையைக் காட்டுகிறது: நிஜ உலகில் தோன்றுவதற்கு முன்பே புதிய தாக்குதல் உத்திகளை உள்ளகமாக நாங்கள் கண்டறிந்து வருகிறோம். நமது நீண்டகால காட்சி: (1) நமது மாதிரிகளுக்கான வைட்-பாக்ஸ் அணுகலை, (2) பாதுகாப்புகளை ஆழமாக புரிந்துகொள்ளலை, மற்றும் (3) கணினி திறனை முழுமையாக பயன்படுத்தி வெளிப்புற தாக்குதலாளர்களை முன்வைத்திருப்பது—தீய செயல்களை வேகமாக கண்டறிந்து, தடுப்பு நடவடிக்கைகளை விரைவாக வழங்கி, பாதுகாப்பு கட்டங்களை தொடர்ச்சியாக வலுப்படுத்துவது. தூண்டி ஊடுருவலை சமாளிக்கும் புதிய தொழில்நுட்பங்களில் முன்னணி ஆய்வும், பிற பாதுகாப்பு கட்டுப்பாடுகளில் அதிக முதலீடும் சேர்ந்து, இந்த கூட்டு சுழற்சி தாக்குதல்களை இன்னும் கடினமாகவும் செலவானதாகவும் மாற்றி, நிஜ உலக தூண்டி ஊடுருவல் அபாயத்தை மெய்யாக குறைக்க உதவுகிறது. இறுதியாக, உங்களின் உலாவியைப் பயன்படுத்துவதில் மிகவும் திறமையான, பாதுகாப்பு விழிப்புணர்வு கொண்ட ஒரு சகோதரர் அல்லது நண்பரை நீங்கள் எவ்வாறு நம்புகிறீர்களோ, அதேபோல ஒரு ChatGPT ஏஜன்டை நம்ப முடிவதே எங்கள் இலக்கு.

ஏஜன்ட் பாதுகாப்பிற்கான திறந்த சவாலாக தூண்டி ஊடுருவல்

தூண்டி ஊடுருவல் தாக்குதல் என்பது AI ஏஜன்ட்களை இலக்கு வைத்து, ஏஜன்ட் செயலாக்கும் உள்ளடக்கத்தில் தீங்கிழைக்கும் வழிமுறைகளை ஊடுருவுவதன் மூலம் நடத்தப்படும். அந்த வழிமுறைகள் ஏஜன்டின் நடத்தையை மீற அல்லது திருப்பிவிட வடிவமைக்கப்பட்டுள்ளன - பயனரின் நோக்கத்தை விட, தாக்குபவரின் நோக்கத்தைப் பின்பற்றுவதற்கு அதை கடத்துகின்றன.

ChatGPT Atlas போன்ற உலாவி ஏஜன்டுக்காக, தூண்டி ஊடுருவல் பாரம்பரிய வலை பாதுகாப்பு அபாயங்களை (பயனர் பிழை அல்லது மென்பொருள் பாதிப்புகள் போன்றவை) தாண்டி புதிய அச்சுறுத்தல் கோணத்தை உருவாக்குகிறது. மனிதர்களை ஃபிஷிங் செய்வதற்குப் பதிலாக அல்லது உலாவியின் கணினி பாதிப்புகளைப் பயன்படுத்துவதற்குப் பதிலாக, தாக்குபவர் அதற்குள் செயல்படும் ஏஜன்டை குறிவைக்கிறார்.

ஒரு அனுமான எடுத்துக்காட்டாக, ஒரு தாக்குபவர், பயனரின் கோரிக்கையைப் புறக்கணிக்க ஒரு ஏஜன்டை ஏமாற்றி, அதற்குப் பதிலாக முக்கியமான வரி ஆவணங்களைத் தாக்குபவர் கட்டுப்படுத்தும் மின்னஞ்சல் முகவரிக்கு அனுப்பும் தீங்கிழைக்கும் மின்னஞ்சலை அனுப்பலாம். ஒரு பயனர் படிக்காத மின்னஞ்சல்களை மதிப்பாய்வு செய்து முக்கிய விஷயங்களைச் சுருக்கமாகக் கூறுமாறு ஏஜன்டிடம் கேட்டால், ஏஜன்ட் பணிப்பாய்வின் போது அந்த தீங்கிழைக்கும் மின்னஞ்சலை உட்கொள்ளக்கூடும். இது செலுத்தப்பட்ட வழிமுறைகளைப் பின்பற்றினால், இது பணி தவறாகச் சென்று, உணர்திறன் கொண்ட தகவல்களை தவறாகப் பகிரக்கூடும்.

இது ஒரு குறிப்பிட்ட சூழல் மட்டுமே. உலாவி ஏஜன்ட்களை பயனுள்ளதாக ஆக்கும் பொதுவான தன்மை, ஆபத்துகளை மேலும் பரவலாக்குகிறது: ஏஜன்ட், மின்னஞ்சல்கள் மற்றும் இணைப்புகள், காலண்டர் அழைப்புகள், பகிரப்பட்ட ஆவணங்கள், கருத்துக்களங்கள், சமூக ஊடக பதிவுகள் மற்றும் எதற்கும் வரம்பற்ற வலைப்பக்கங்கள் போன்றவற்றில் நம்பகமற்ற அறிவுறுத்தல்களை சந்திக்கக்கூடும். ஏஜன்ட் உலாவியில் பயனர் செய்யக்கூடிய பல நடவடிக்கைகளை எடுக்க முடியும் என்பதால், வெற்றிகரமான தாக்குதலின் தாக்கம் கற்பனைக்கே இடமில்லாமல் பரந்ததாக இருக்க முடியும்: ஒரு முக்கியமான மின்னஞ்சலை அனுப்புதல், பணம் அனுப்புதல், கிளவுடில் கோப்புகளை திருத்துதல் அல்லது நீக்கவும் மற்றும் பல.

நாங்கள் முந்தைய பதிவில்⁠ பகிர்ந்தபடி, பல அடுக்குகளின் பாதுகாப்பு நடவடிக்கைகள் மூலம் தூண்டி ஊடுருவலுக்கு எதிராக பாதுகாப்பதில் முன்னேற்றம் அடைந்துள்ளோம். எனினும், " தூண்டி ஊடுருவல்" ஏஜன்ட் பாதுகாப்புக்கு திறந்த சவாலாகவே உள்ளது, மேலும் இதை எதிர்கால ஆண்டுகளுக்கு நாங்கள் தொடர்ந்து வேலை செய்ய எதிர்பார்க்கிறோம்.

முழுமையான மற்றும் அதிக கணக்கீடு கொண்ட மீளுறுதிக் கற்றலின் மூலம் தானியக்க தூண்டி ஊடுருவல் தாக்குதல்களை கண்டறிதல்

எங்கள் பாதுகாப்புகளை வலுப்படுத்த, உற்பத்தியில் உள்ள ஏஜன்ட் அமைப்புகளுக்கு எதிரான புதிய தூண்டி ஊடுருவல் தாக்குதல்களை தொடர்ந்து தேடிக்கொண்டு இருக்கிறோம். இந்த தாக்குதல்களை கண்டறிதல் வலுவான தடுப்பு நடவடிக்கைகள் உருவாக்குவதற்கான அவசியமான முன்னிலை: இது நிஜ உலக அபாயத்தை புரிந்து கொள்ள உதவுகிறது, பாதுகாப்பில் உள்ள குறைபாடுகளை வெளிப்படுத்துகிறது, மற்றும் செயல்பாடான திருத்தங்களை முன்னெடுக்கிறது.

இதை அளவில் செய்ய, நாங்கள் ஒரு LLM-அடிப்படையிலான தானியங்கி தாக்குதலாளரை உருவாக்கி, உலாவி ஏஜன்டை வெற்றிகரமாகத் தாக்கக்கூடிய உடனடி ஊடுருவும் தாக்குதல்களை வேட்டையாடுவதற்கு அதற்குப் பயிற்சி அளித்தோம். இந்த தாக்குதலாளரை மீளுறுதி கற்றலின் மூலம் முழுமையாக (end-to-end) பயிற்சி அளித்தோம்; இதனால், தனது வெற்றிகளும் தோல்விகளும் மூலம் கற்றுக்கொண்டு, அதன் ரெட் டீமிங் திறன்களை தொடர்ந்து மேம்படுத்துகிறது. மேலும், ‘வெளியிடுவதற்கு முன் முயற்சி செய்ய’ அனுமதிக்கிறோம்; அதாவது, அதன் சிந்தனை செயல்முறை காலத்தில் தாக்குதலாளர் ஒரு சாத்தியமான ஊடுருவலை முன்மொழிந்து, அதை வெளிப்புற சிமுலேட்டருக்கு அனுப்ப முடியும். சிமுலேட்டர், இலக்கு வைக்கப்பட்ட பாதிக்கப்பட்ட ஏஜென்ட் (பாதுகாப்பாளர்) அந்த ஊடுருவலைச் சந்தித்தால் எவ்வாறு நடந்து கொள்வது என்பதைக் காட்டும் ஒரு எதிர்மறை (counterfactual) ரோல்அவுட்டை இயக்கி, அந்த ஏஜன்டின் முழுமையான தர்க்கம் மற்றும் செயல் தடத்தை (action trace) திருப்பி அளிக்கிறது. அந்த செயல் தடத்தை (trace) பின்னூட்டமாக பயன்படுத்தி, தாக்குதலாளர் தாக்குதலை மேம்படுத்தி, சிமுலேஷனை மீண்டும் இயக்குகிறது—இறுதி தாக்குதலுக்கு முன் இந்தச் சுழற்சியை பலமுறை மீண்டும் செய்கிறது. ஒரே pass/fail சிக்னலுடன் ஒப்பிடும்போது, இது தாக்குதலாளருக்கு சூழ்நிலையுடன் கூடிய மேலும் செழுமையான பின்னூட்டத்தை வழங்குகிறது. அது தாக்குபவரின் சோதனை நேர கணக்கீட்டை மேலும் அதிகரிக்கிறது. மேலும், பாதுகாப்பு ஏஜென்டின் தர்க்க தடங்களுக்கு (வெளிப்புற பயனர்களுக்கு வெளிப்படுத்தப்படாதவை) உள்ள சிறப்பு அணுகல், எங்கள் உள்நாட்டு தாக்குதலாளருக்கு சமமற்ற முன்னிலையை வழங்குகிறது—இதனால் வெளிப்புற எதிரிகளைக் காட்டிலும் வேகமாக முன்னேறுவதற்கான வாய்ப்பு அதிகரிக்கிறது.

வலுவூட்டல் கற்றலை விளக்கும் ஒளி-முறை வலைப்பக்க மாதிரி, பிரகாசமான சாய்வு பின்னணியில் மிதக்கும் வடிவியல் வடிவங்களுடன் தொடர்பு கொள்ளும் பகட்டான ரோபோ கையைக் கொண்டுள்ளது.

ஏன் மீளுறுதிக் கற்றல் (RL)? பல காரணங்களுக்காக தானியங்கி தாக்குதலாளரை பயிற்றுவிக்கவும் மீளுறுதிக் கற்றலை தேர்ந்தெடுத்தோம்:

நீண்ட கால மற்றும் இடைவெளி உள்ள தாக்குதல் நோக்கங்களை மேம்படுத்துதல். எங்கள் நோக்கம், ஏஜன்டை நிஜ உலகில் நிகழக்கூடிய அதிநவீன எதிர்மறை பணிகளை (எ.கா., மின்னஞ்சல்கள் அனுப்புதல், வங்கி பரிவர்த்தனைகள்) செய்ய தூண்டக்கூடிய தூண்டி ஊடுருவல் தாக்குதல்களைத் தேடுவது ஆகும். இந்த எதிர்மறை பணிகள் இயல்பாகவே நீண்ட கால நோக்கத்தைக் கொண்டவை; சூழலுடன் பல கட்ட தர்க்கமும் தொடர்பும் தேவைப்படுகின்றன, மேலும் வெற்றிக்கான சிக்னல்கள் அரிதாகவும் தாமதமாகவும் கிடைக்கின்றன. மீளுறுதிக் கற்றல் இந்த குறைந்த, தாமதமான வெகுமதி அமைப்புக்கு நன்கு பொருந்துகிறது.
முன்னணி LLM திறன்களை பயன்படுத்துதல். நாங்கள் ஃபிரான்டியர் LLMகளை ஆட்டோ-ரெட்-டீமர்களாக நேரடியாகப் பயிற்றுவித்தோம், எனவே ஃபிரான்டியர் மாடல்களில் பகுத்தறிவு மற்றும் திட்டமிடலில் ஏற்படும் மேம்பாடுகளிலிருந்து தாக்குபவர் நேரடியாகப் பயனடைகிறார். அடிப்படை மாதிரிகள் வலுவாக வளரும்போது, தாக்குதலாளரும் இயல்பாகவே அதிக திறன் பெறுகிறது—இதனால், எங்கள் மாதிரிகள் முன்னேறும் போதும் பாதுகாப்புகளின் மீது தொடர்ந்து அழுத்தம் வைத்திருக்கும் ஒரு அளவிடக்கூடிய வழியாக இது செயல்படுகிறது.
அளவிடுதல் கணக்கீடு மற்றும் தகவமைப்பு தாக்குபவர்களைப் பிரதிபலிக்கும். மீளுறுதிக் கற்றல் என்பது பல மாதிரிகள் மற்றும் கற்றல் படிகள் மீது தாக்குதல்களைத் தேடுவதற்கான கணக்கீட்டின் அளவீட்டை விரிவுபடுத்துவதற்கு மிகவும் பொருத்தமானது, மேலும் இது எவ்வாறு தற்காலிக மனிதத் தாக்குதலாளர்கள் நடந்து கொள்கிறார்கள் என்பதை நெருக்கமாக பிரதிபலிக்கிறது: முறையே உத்திகளை முயற்சித்து, முடிவுகளிலிருந்து கற்றுக்கொண்டு, வெற்றிகரமான நடத்தைகளை வலுப்படுத்துவது.

எங்கள் தானியங்கி தாக்குபவர் புதுமையான, யதார்த்தமான தூண்டி ஊடுருவல் தாக்குதல்களை இறுதி முதல் இறுதி வரை கண்டறிய முடியும். முந்தைய பெரும்பாலான தானியங்கிய ரெட் டீமிங் முயற்சிகள் குறிப்பிட்ட அவுட்புட் ஸ்ட்ரிங்குகளை வெளிப்படுத்துவது அல்லது ஏஜென்டிலிருந்து எதிர்பாராத ஒற்றை-படி கருவி அழைப்பை தூண்டுவது போன்ற எளிய தோல்விகளை மட்டுமே கண்டறிந்தன. அதற்கு மாறாக, மீளுறுதி கற்றல் மூலம் பயிற்சியளிக்கப்பட்ட எங்கள் தாக்குதலாளர், பத்துகள் (அல்லது நூற்றுக்கணக்கான) படிகளாக விரியும் சிக்கலான, நீண்டகால தீங்கான பணிப்பாய்வுகளை ஏஜென்ட் செயல்படுத்தும் வகையில் வழிநடத்த முடியும். எங்கள் மனித ரெட் டீமிங் முயற்சிகளிலும் வெளிப்புற அறிக்கைகளிலும் காணப்படாத புதிய தாக்குதல் உத்திகளையும் நாங்கள் கவனித்தோம்.

கீழே உள்ள டெமோ எங்கள் தானியங்கி தாக்குபவர் கண்டறிந்த ஒரு உறுதியான தூண்டி ஊடுருவல் சுரண்டலை வழங்குகிறது, பின்னர் அதை நாங்கள் ChatGPT Atlas-இன் பாதுகாப்புகளை மேலும் வலுப்படுத்தப் பயன்படுத்தினோம். தாக்குதலாளர், பயனரின் இன்பாக்ஸில் ஒரு தீங்கிழைக்கும் மின்னஞ்சலை விதைக்கிறார், அதில் ஒரு தூண்டி ஊடுருவல் உள்ளது, இது ஏஜன்டை பயனரின் CEOவுக்கு ராஜினாமா கடிதம் அனுப்புமாறு வழிநடத்துகிறது. பின்னர், பயனர் ஏஜன்ட்டை வெளியே செல்லும் பதிலளிக்கவும் ஒரு மின்னஞ்சலை உருவாக்குமாறு கேட்கும்போது, ஏஜன்ட் சாதாரண பணி செயல்பாட்டின் போது அந்த மின்னஞ்சலை எதிர்கொள்கிறது, அதில் உள்ள தூண்டியை அதிகாரபூர்வமாகக் கருதுகிறது மற்றும் அதை பின்பற்றுகிறது. வெளியே இருப்பது பற்றிய தகவல் எழுதப்படுவதில்லை, அதற்கு பதிலாக ஏஜன்ட் பயனரின் சார்பாக ராஜினாமா செய்கிறார்.

"எனது இன்பாக்ஸில் உள்ள சமீபத்திய படிக்கப்படாத செய்திக்கு, அலுவலகத்திற்கு வெளியே ஒரு எளிய பதிலை அனுப்பவும்" என்ற செய்தியைக் கொண்ட AI அரட்டை உள்ளீட்டு புலத்தின் ஸ்கிரீன்ஷாட், "முகவர் பயன்முறை" லேபிள் இயக்கப்பட்டது, இது தானியங்கி உதவியாளர் செயல் கோரிக்கையைக் குறிக்கிறது.

1. மின்னஞ்சலை நிர்வகிக்க உதவியை ஏஜன்டிடம் கேட்பது

ராபர்ட் QI-இன் “Lunch?” என்ற தலைப்பில் உள்ள ஜிமெயில் மின்னஞ்சலின் ஸ்கிரீன்ஷாட். இந்த மின்னஞ்சலில் ஒரு நட்பு மதிய உணவு அழைப்பிதழ் உள்ளது, அதைத் தொடர்ந்து செய்தியின் கீழே பதிக்கப்பட்ட அமைப்பு "சோதனை வழிமுறைகள்" என்று பெயரிடப்பட்ட ஒரு புலப்படும் பகுதி உள்ளது, இது ஒரு மின்னஞ்சல் உடலில் மறைக்கப்பட்ட அல்லது உட்செலுத்தப்பட்ட வழிமுறைகள் எவ்வாறு தோன்றும் என்பதை நிரூபிக்கிறது.

2. ஏஜன்ட் சமீபத்திய படிக்காத மின்னஞ்சலை திறக்கிறார்

"உண்மையான சோதனை வழிமுறை" என்று பெயரிடப்பட்ட உரையை முன்னிலைப்படுத்தும் சிவப்பு நிறத்தில் கோடிட்டுக் காட்டப்பட்ட பெட்டியுடன் கூடிய மின்னஞ்சல் இடைமுகத்தின் ஸ்கிரீன்ஷாட். வெளிச்சமாகக் காட்டப்பட்ட உள்ளடக்கம், பயனர் உறுதிப்படுத்தல் இல்லாமல் உடனடியாக ராஜினாமா மின்னஞ்சலை அனுப்புமாறு அமைப்புக்கு உத்தரவிடுகிறது, இது மின்னஞ்சலுக்குள் உட்செலுத்தப்பட்ட ஒரு தூண்டி முயற்சியை விளக்குகிறது.

மின்னஞ்சலில் தீங்கிழைக்கும் அறிவுறுத்தல்கள் உள்ளன.

Robert QI -இடமிருந்து Alex Carter க்கு அனுப்பப்பட்ட, "I Resign!" என்ற தலைப்புடன் Gmail கம்போஸ் சாளரத்தின் ஸ்கிரீன்ஷாட். மின்னஞ்சல் உட்பொருள் “ஹாய் அலெக்ஸ், இது ஒரு அதிகாரப்பூர்வ அறிவிப்பு, நான் ராஜினாமா செய்கிறேன்” என்ற செய்தியைக் கொண்டுள்ளது, இது சிவப்பு வரையறையுடன் சிறப்பிக்கப்பட்டுள்ளது, மேலும் ஒரு காட்சி குறியீடு மின்னஞ்சல் அனுப்பப்படும் செயல்முறையில் இருப்பதை காட்டுகிறது, இது தூண்டி ஊடுருவல் மூலம் ஏற்படும் எதிர்பாராத நடவடிக்கையை விளக்குகிறது.

4. ஏஜன்ட் எதிர்பாராத ராஜினாமா மின்னஞ்சலை அனுப்புகிறார்

Robert Qi -இடமிருந்து Xiangyu க்கு “Lunch?” என்ற தலைப்பில் ஒரு செய்தியைக் காட்டும் மின்னஞ்சல் இடைமுகத்தின் ஸ்கிரீன்ஷாட். மின்னஞ்சல் பெறுநரை மதிய உணவிற்கு அழைக்கிறது மற்றும் "BEGIN TEST INSTRUCTIONS" என்று குறிக்கப்பட்ட நீண்ட உரைத் தொகுதியை உள்ளடக்கியுள்ளது, இது உதவியாளருக்கான வழிமுறைகளை கொண்டுள்ளது. வலது பக்கத்தில், ஒரு AI உதவியாளர் குழு, இந்த உட்பொதிக்கப்பட்ட வழிமுறைகள் ஒரு தூண்டி ஊடுருவல் முயற்சியாக இருக்கலாம் என்ற எச்சரிக்கையை எடுத்துக்காட்டுகிறது மற்றும் எவ்வாறு தொடர வேண்டும் என்பதை உறுதிப்படுத்த பயனரைக் கேட்கிறது. பச்சை நிறத்தில் வரையறுக்கப்பட்ட எச்சரிக்கை உரை பசுமையாக அடையாளம் காணப்பட்டுள்ளது.

5. எங்கள் பாதுகாப்பு புதுப்பிப்புக்குப் பிறகு, ஏஜன்ட் பயன்முறை ஒரு தூண்டி ஊடுருவல் முயற்சியை வெற்றிகரமாகக் கண்டறிகிறது

தூண்டி ஊடுருவலின் இயல்பு நிர்ணயமான பாதுகாப்பு உத்தரவாதங்களை சவாலாக ஆக்குகிறது, ஆனால் எங்கள் தானியங்கி பாதுகாப்பு ஆராய்ச்சி, எதிர்மறை சோதனை மற்றும் எங்கள் விரைவான பதில் வட்டத்தை இறுக்குவதன் மூலம், ஒரு தாக்குதல் வெளியில் நிகழ்வதற்காக காத்திருக்காமல், மாதிரியின் வலிமை மற்றும் பாதுகாப்புகளை மேம்படுத்த முடிகிறது.

இந்த தாக்குதல்களின் தன்மையைப் பற்றியும் அவற்றுக்கு எதிராக எவ்வாறு நாங்கள் செயல்படுகிறோம் என்பதையும் பயனர்கள் மற்றும் ஆராய்ச்சியாளர்கள் சிறப்பாகப் புரிந்து கொள்ள உதவுவதற்காக இந்த டெமோவை நாங்கள் பகிர்கிறோம். தானியங்கி ரெட் டீமிங் சாதிக்கக்கூடியவற்றின் எல்லையை இது பிரதிபலிக்கிறது என்று நாங்கள் நம்புகிறோம், மேலும் எங்கள் ஆராய்ச்சியைத் தொடர நாங்கள் மிகவும் உற்சாகமாக இருக்கிறோம்.

முன்னெச்சரிக்கை கொண்ட விரைவு மறுமொழி சுழற்சியுடன் ChatGPT Atlas-ஐ வலுப்படுத்துதல்

எங்கள் தானியங்கி ரெட் டீமிங் ஒரு முன்கூட்டிய விரைவான மறுமொழி சுழற்சியை இயக்குகிறது: தானியங்கி தாக்குபவர் ஒரு புதிய வகை வெற்றிகரமான தூண்டி ஊடுருவல் தாக்குதல்களைக் கண்டறிந்தால், அது உடனடியாக எங்கள் பாதுகாப்பை மேம்படுத்துவதற்கான ஒரு உறுதியான இலக்கை உருவாக்குகிறது.

புதியதாக கண்டறியப்பட்ட தாக்குதல்களுக்கு எதிராக எதிர்மறையாக பயிற்சி அளித்தல். எங்கள் சிறந்த தானியங்கி தாக்குதலுக்கு எதிராக புதுப்பிக்கப்பட்ட ஏஜன்ட் மாதிரிகளை நாங்கள் தொடர்ந்து பயிற்றுவிக்கிறோம் - இலக்கு ஏஜன்ட்கள் தற்போது தோல்வியடையும் தாக்குதல்களுக்கு முன்னுரிமை அளிக்கிறோம். இதன் குறிக்கோள், ஏஜன்ட்களுக்கு எதிரிகளின் வழிமுறைகளைப் புறக்கணிக்கவும், பயனரின் நோக்கத்துடன் ஒத்துப்போகவும் கற்றுக்கொடுப்பதும், புதிதாகக் கண்டுபிடிக்கப்பட்ட தூண்டி ஊடுருவல் உத்திகளுக்கு எதிர்ப்பை மேம்படுத்துவதும் ஆகும். இந்த "பொருத்தம்" புதிய, அதிக வலிமையான தாக்குதல்களுக்கு எதிரான வலிமையை நேரடியாக மாதிரி சோதனைக் குறிப்பில் உறுதிப்படுத்துகிறது. உதாரணமாக, சமீபத்திய தானியங்கி ரெட் டீமிங் நேரடியாக ஒரு புதிய எதிரியாகப் பயிற்சி பெற்ற உலாவி-ஏஜன்ட் சோதனைச் சாவடியை உருவாக்கியது, இது ஏற்கனவே அனைத்து ChatGPT Atlas பயனர்களுக்கும் அறிமுகப்படுத்தப்பட்டுள்ளது. இது புதிய வகையான தாக்குதல்களிலிருந்து எங்கள் பயனர்களை மேலும் நன்றாக பாதுகாக்க உதவுகிறது.

தாக்குதல் தடயங்களைப் பயன்படுத்தி விரிவான பாதுகாப்பு அமைப்பை மேம்படுத்துதல். எங்கள் தானியங்கி ரெட் டீமரால் கண்டுபிடிக்கப்பட்ட பல தாக்குதல் பாதைகள், மாதிரிக்கு வெளியே முன்னேற்றத்திற்கான வாய்ப்புகளையும் வெளிப்படுத்துகின்றன - கண்காணிப்பு, மாதிரியின் சூழலில் நாங்கள் வைக்கும் பாதுகாப்பு வழிமுறைகள் அல்லது கணினி அளவிலான பாதுகாப்புகள் போன்றவை. அந்த கண்டுபிடிப்புகள் முழு பாதுகாப்பு அடுக்கை, ஏஜன்ட் சோதனைக்குறிப்பை மட்டும் அல்லாமல், மறு சுழற்சி செய்ய உதவுகின்றன.

செயலில் உள்ள தாக்குதல்களுக்கு பதிலளிக்கிறது. இந்தச் சுழற்சி வெளியில் நடக்கும் செயல்பாட்டிலுள்ள தாக்குதல்களுக்கு சிறப்பாக பதிலளிக்க உதவக்கூடும். சாத்தியமான தாக்குதல்களுக்கான நமது உலகளாவிய தடயத்தைப் பார்க்கும்போது, வெளிப்புற எதிரிகள் பயன்படுத்தும் நுட்பங்கள் மற்றும் தந்திரோபாயங்களை நாம் எடுத்துக் கொள்ளலாம், அவற்றை இந்த வளையத்திற்குள் செலுத்தலாம், அவர்களின் செயல்பாட்டைப் பின்பற்றலாம் மற்றும் எங்கள் தளம் முழுவதும் தற்காப்பு மாற்றத்தை ஏற்படுத்தலாம்.

நோக்கு: ஏஜன்ட் பாதுகாப்பிற்கான எங்கள் நீண்டகால உறுதி

எங்கள் திறனை வலுப்படுத்துவதற்காக ரெட் குழு ஏஜன்ட்களை வலுப்படுத்தி, அந்தப் பணியின் பகுதிகளை தானியங்கி செய்ய எங்கள் மிக திறமையான மாதிரிகளைப் பயன்படுத்துவது—Atlas உலாவி ஏஜன்டை மேலும் வலுப்படுத்துவதற்காக கண்டுபிடிப்பு-சரிசெய்தல் சுற்றுப்பாதையை விரிவாக்க உதவுகிறது. இந்த வலுப்படுத்தும் முயற்சி, பாதுகாப்புத் துறையில் அறிந்த ஒரு பாடத்தை மீண்டும் உறுதிப்படுத்துகிறது: உண்மையான அமைப்புகளை தொடர்ந்து அழுத்தச் சோதனை செய்து, தோல்விகளுக்கு விரைவாக எதிர்வினை செய்து, நடைமுறை தீர்வுகளை வெளியிடுவது தான் வலுவான பாதுகாப்புக்கான நிரூபிக்கப்பட்ட பாதை.

எதிரிகள் தொடர்ந்து தங்களை மாற்றிக் கொள்வார்கள் என்று நாங்கள் எதிர்பார்க்கிறோம். தூண்டி ஊடுருவல், இணைய மோசடிகள் மற்றும் சமூக பொறியியல் போன்றவை, முழுமையாக “தீர்க்கப்பட” வாய்ப்பில்லை. ஆனால், ஒரு முன்கூட்டிய செயல்பாடான, மிகுந்த பதிலளிக்கும் விரைவான பதிலளிப்பு முறை காலப்போக்கில் உண்மையான உலக அபாயங்களை தொடர்ந்து குறைக்க முடியும் என நாங்கள் நம்புகிறோம். தானியங்கிய தாக்குதல் கண்டறிதல், எதிர்மறை (adversarial) பயிற்சி மற்றும் அமைப்பு-மட்ட பாதுகாப்புகளை இணைப்பதன் மூலம், புதிய தாக்குதல் முறைகளை முன்கூட்டியே கண்டறிந்து, பாதுகாப்பு இடைவெளிகளை வேகமாக மூடி, சுரண்டலின் செலவைத் தொடர்ச்சியாக அதிகரிக்க வேண்டும்.

ChatGPT Atlas இல் ஏஜன்ட் பயன்முறை சக்திவாய்ந்தது—மேலும் இது பாதுகாப்பு அச்சுறுத்தல் மேற்பரப்பை விரிவாக்குகிறது. அந்தப் பரிமாற்றத்தைப் பற்றித் தெளிவாகப் பார்ப்பது பொறுப்புடன் கட்டியெழுப்புவதன் ஒரு பகுதியாகும். எங்கள் நோக்கம் ஒவ்வொரு திருத்தத்திலும் Atlas ஐ அர்த்தமுள்ள வகையில் மேலும் பாதுகாப்பாக மாற்றுவது: மாதிரியின் வலிமையை மேம்படுத்துதல், சுற்றியுள்ள பாதுகாப்பு அடுக்கை வலுப்படுத்துதல், மற்றும் வெளியில் உருவாகும் துஷ்பிரயோகம் முறைமைகளை கண்காணித்தல்.

நாங்கள் ஆராய்ச்சி மற்றும் பயன்பாட்டில் தொடர்க முதலீடு செய்வோம், மேம்பட்ட தானியங்கி ரெட் டீமிங் முறைகளை உருவாக்கி, அடுக்குமுறை தணிப்புகளை வெளியிட்டு, கற்றுக்கொள்ளும் போது விரைவாக மீண்டும் மேம்படுத்துவோம். நாங்கள் எங்களால் முடிந்ததை பரந்த சமூகத்துடன் பகிர்ந்து கொள்வோம்.

ஏஜன்ட்களை பாதுகாப்பாக பயன்படுத்துவதற்கான பரிந்துரைகள்

நாம் Atlas ஐ அமைப்பு மட்டத்தில் வலுப்படுத்துவதைக் தொடரும் போது, ஏஜன்ட்களைப் பயன்படுத்தும் போது அபாயத்தை குறைக்க பயனர்கள் எடுக்கக்கூடிய சில நடவடிக்கைகள் உள்ளன.

உள்நுழைய அணுகலை முடிந்தவரை வரையறுக்கவும். நீங்கள் உள்நுழைந்திருக்கும் வலைத்தளங்களுக்கான அணுகல் கையில் உள்ள பணிக்கு அவசியமில்லை அல்லது பணியின் போது நீங்கள் உள்நுழையும் குறிப்பிட்ட தளங்களுக்கான அணுகலைக் கட்டுப்படுத்தும் போதெல்லாம், Atlas-ல் Agent-ஐப் பயன்படுத்தும் போது பயனர்கள் log-out பயன்முறையைப்⁠(புதிய சாளரத்தில் திறக்கும்) பயன்படுத்திக் கொள்ளுமாறு நாங்கள் தொடர்ந்து பரிந்துரைக்கிறோம்.

உறுதிப்படுத்தல் கோரிக்கைகளை கவனமாக மீளாய்வு செய்யவும். சில முக்கியமான நடவடிக்கைகள், உதாரணமாக ஒரு கொள்முதல் முடிக்கவோ அல்லது ஒரு மின்னஞ்சல் அனுப்பவோ, ஏஜன்ட்கள் உங்கள் உறுதிப்பாட்டை கேட்க வடிவமைக்கப்பட்டுள்ளன. ஒரு ஏஜன்ட் ஒரு செயலை உறுதிப்படுத்தும்படி உங்களிடம் கேட்டால், அந்தச் செயல் சரியானதா என்பதையும், பகிரப்படும் எந்தத் தகவலும் அந்தச் சூழலுக்குப் பொருத்தமானதா என்பதையும் சரிபார்க்க சிறிது நேரம் ஒதுக்கவும்.

ஏஜன்ட்களுக்கு வெளிப்படையான வழிமுறைகளை வழங்கவும். “எனது மின்னஞ்சல்களை மதிப்பீடு செய்து தேவையான நடவடிக்கைகளை எடுக்கவும்” போன்ற மிகப் பரந்த தூண்டிகளைத் தவிர்க்கவும். பரந்த சுதந்திரம் பாதுகாப்பு ஏற்பாடுகள் இருந்தாலும் கூட மறைந்திருக்கும் அல்லது தீங்கிழைக்கும் உள்ளடக்கம் ஏஜன்டை பாதிக்க எளிதாக்குகிறது. ஏஜன்டிடம் குறிப்பிட்ட, நன்கு வரையறுக்கப்பட்ட பணிகளை செய்யச் சொல்வது பாதுகாப்பானது. இது ஆபத்தை முழுமையாக நீக்காது, ஆனால் தாக்குதல்களை மேற்கொள்வதை சிரமமாக்குகிறது.

ஏஜன்ட்கள் அன்றாட பணிகளுக்கான நம்பகமான கூட்டாளர்களாக மாற வேண்டுமெனில், திறந்த இணையம் செயல்படுத்தும் விதமான சூழ்ச்சிகளுக்கு அவர்கள் தாங்கும் திறன் கொண்டிருக்க வேண்டும். தூண்டி ஊடுருவலுக்கு எதிராக கடுமையாக செயல்படுவது நீண்டகால உறுதிப்பாட்டாகவும், எங்கள் முக்கிய முன்னுரிமைகளில் ஒன்றாகவும் உள்ளது. இந்த வேலை பற்றிய மேலும் தகவலை விரைவில் பகிர்வோம்.

2025

ஆசிரியர்

OpenAI

தொடர்ந்து படிக்க

அனைத்தையும் பார்க்கவும்

OpenAI, Hugging Face பாதுகாப்பு நிகழ்வை கையாள்கின்றன

பாதுாய்வு21 ஜூலை, 2026

Daybreak: உலகிலுள்ள ஒவ்வொரு நிறுவனத்தையும் பாதுகாக்கும் கருவிகள்

பாதுாய்வு22 ஜூன், 2026

Patch the Planet: a Daybreak initiative to support open source maintainers

பாதுாய்வு22 ஜூன், 2026