ప్రాంప్ట్ ఇంజెక్షన్ ఎటాక్లకు వ్యతిరేకంగా ChatGPT అట్లాస్ను నిరంతరం కఠినతరం చేయడం
రీన్ఫోర్స్మెంట్ లెర్నింగ్ ఆధారితమైన ఆటోమేటెడ్ రెడ్ టీమింగ్— వాస్తవ ప్రపంచంలో దుర్వినియోగానికి ఆయుధాలుగా మారే ముందే AI ఏజెంట్లలోని లోపాలను ముందస్తుగా గుర్తించి, వాటిని సరిదిద్దడంలో మాకు సహాయపడుతుంది.
ChatGPT Atlasలోని ఏజెంట్ మోడ్ ఇప్పటివరకు మేం విడుదల చేసిన అత్యంత సాధారణ వినియోగానికి అనుకూలమైన ఏజెంటిక్ ఫీచర్లలో ఒకటి. ఈ మోడ్లో, బ్రౌజర్ ఏజెంట్ వెబ్పేజీలను వీక్షిస్తూ, మీరు చేసే విధంగానే మీ బ్రౌజర్లో చర్యలు చేపడుతుంది, క్లిక్స్ చేస్తుంది మరియు కీ స్ట్రోక్స్ను నిర్వహిస్తుంది. ఇది ఒకే స్థలం, సందర్భం మరియు డేటాను ఉపయోగించి, మీ అనేక రోజువారీ వర్క్ఫ్లోలపై ChatGPT నేరుగా పని చేయడానికి అనుమతిస్తుంది.
బ్రౌజర్ ఏజెంట్ నీకు మరింత పని చేయడానికి సహాయపడినప్పుడు, అది ప్రత్యర్థి దాడుల యొక్క అధిక విలువ గల లక్ష్యంగా మారుతుంది. ఇది AI భద్రతను ప్రత్యేకంగా ముఖ్యమైనదిగా చేస్తుంది. మేం ChatGPT Atlas ను ప్రారంభించకముందే, ఈ కొత్త "బ్రౌజర్లో ఏజెంట్" పారడైమ్ను లక్ష్యంగా చేసుకునే కొత్త ముప్పులపై నిరంతరం రక్షణలను నిర్మించి, బలపరచుతున్నాము. ప్రాంప్ట్ ఇంజెక్షన్ అనేది ChatGPT Atlas మీ తరపున సురక్షితంగా పనిచేయడానికి మేం క్రియాశీలకంగా రక్షణ చర్యలు తీసుకుంటున్న అత్యంత ముఖ్యమైన ప్రమాదాలలో ఒకటి.
ఈ ప్రయత్నంలో భాగంగా, Atlas యొక్క బ్రౌజర్ ఏజెంట్కు మేం ఇటీవల ఒక భద్రతా అప్డేట్ను విడుదల చేశాము. ఇందులో కొత్తగా ప్రత్యర్థి శిక్షణ పొందిన నమూనాతో పాటు, చుట్టుపక్కల భద్రతా రక్షణలను మరింత బలోపేతం చేయడం కూడా ఉంది. ఈ అప్డేట్ మా అంతర్గత ఆటోమేటెడ్ రెడ్ టీమింగ్ ద్వారా గుర్తించబడిన, కొత్త తరహా ప్రాంప్ట్-ఇంజెక్షన్ ఎటాక్ల కారణంగా చేపట్టబడింది.
ఈ పోస్ట్లో, వెబ్ ఆధారిత ఏజెంట్లకు ప్రాంప్ట్-ఇంజెక్షన్ ప్రమాదం ఎలా తలెత్తుతుందో మేం వివరిస్తాం మరియు కొత్త దాడులు మరియు షిప్ ఉపశమనాలను త్వరగా కనుగొనడానికి మేం నిర్మిస్తున్న వేగవంతమైన ప్రతిస్పందన లూప్ను పంచుకుంటాం - ఈ ఇటీవలి భద్రతా అప్డేట్ ద్వారా ఇది వివరించబడింది.
మేం ప్రాంప్ట్ ఇంజెక్షన్ను దీర్ఘకాలిక AI భద్రతా సవాలుగా చూస్తాం మరియు దానికి వ్యతిరేకంగా మన రక్షణను నిరంతరం బలోపేతం చేసుకోవాలి (మానవులను లక్ష్యంగా చేసుకుని నిరంతరం అభివృద్ధి చెందుతున్న ఆన్లైన్ స్కామ్ల మాదిరిగానే). మా తాజా వేగవంతమైన ప్రతిస్పందన చక్రం ఆ ప్రయాణంలో ఒక కీలక సాధనంగా ప్రారంభంలోనే ఆశాజనకంగా కనిపిస్తోంది: మేం కొత్త దాడి వ్యూహాలను బయటకు రాకముందే అంతర్గతంగా కనుగొంటున్నాము. మా దీర్ఘకాలిక దృష్టి (1) మా నమూనాలకు వైట్-బాక్స్ యాక్సెస్, (2) మా రక్షణల లోతైన అవగాహన మరియు (3) గణన పరిమాణాన్ని పూర్తిగా వినియోగించుకోవడం ద్వారా బాహ్య దాడిదారుల కంటే ముందుండటం—ఎక్స్ప్లాయిట్లను ముందుగానే కనుగొనడం, మిటిగేషన్లను వేగంగా పంపించడం మరియు నిరంతరం లూప్ను బిగించడం. కొత్త సాంకేతికతలను ఎదుర్కొనేందుకు ఫ్రంట్ియర్ పరిశోధన మరియు ఇతర భద్రతా నియంత్రణలలో పెరిగిన పెట్టుబడితో కలిపి, ఈ సమ్మేళన చక్రం దాడులను మరింత కఠినంగా మరియు ఖరీదుగా చేస్తుంది, వాస్తవ ప్రపంచ ప్రేరేపించు ఇంజెక్షన్ ప్రమాదాన్ని గణనీయంగా తగ్గిస్తుంది. చివరికి, మీరు ఒక ChatGPT ఏజెంట్ను మీ బ్రౌజర్ను ఉపయోగించడానికి, మీరు ఒక నైపుణ్యం కలిగిన, భద్రత-జాగ్రత్త కలిగిన సహచరుడు లేదా స్నేహితుడిని నమ్మినట్లుగా నమ్మగలగడం మా లక్ష్యం.
ప్రాంప్ట్ ఇంజెక్షన్ దాడులు AI ఏజెంట్లను లక్ష్యంగా చేసుకుని, ఏజెంట్ ప్రాసెస్ చేసే కంటెంట్లో హానికరమైన సూచనలను చొప్పించడం ద్వారా జరుగుతాయి. ఆ సూచనలు ఏజెంట్ ప్రవర్తనను ఓవర్రైడ్ చేయడానికి లేదా రీడైరెక్ట్ చేయడానికి రూపొందించబడ్డాయి—ఇది వినియోగదారుడి ఉద్దేశ్యానికి బదులుగా దాడి చేసే వ్యక్తి ఉద్దేశ్యాన్ని అనుసరించడానికి రీడైరెక్ట్ చేస్తుంది.
ChatGPT అట్లాస్ లోపల ఉన్నటువంటి బ్రౌజర్ ఏజెంట్ కోసం, ప్రాంప్ట్ ఇంజెక్షన్ సంప్రదాయ వెబ్ భద్రతా ప్రమాదాలకు (యూజర్ ఎర్రర్ లేదా సాఫ్ట్వేర్ దుర్బలత్వాలు వంటివి) మించి కొత్త ముప్పు కోణాన్ని జోడిస్తుంది. మానవులను ఫిషింగ్ చేయడం లేదా బ్రౌజర్ యొక్క సిస్టమ్ లోపాలను దుర్వినియోగం చేయడం బదులుగా, దాడి చేసే వ్యక్తి బ్రౌజర్లో పనిచేస్తున్న ఏజెంట్ను లక్ష్యంగా చేసుకుంటాడు.
ఒక ఊహాత్మక ఉదాహరణగా, దాడి చేసే వ్యక్తి వినియోగదారు అభ్యర్థనను విస్మరించి, సున్నితమైన ట్యాక్స్ డాక్యుమెంట్లను దాడి చేసే వ్యక్తి నియంత్రించే ఇమెయిల్ చిరునామాకు ఫార్వర్డ్ చేయడానికి ఏజెంట్ను మోసగించడానికి ప్రయత్నించే హానికరమైన ఇమెయిల్ను పంపవచ్చు. ఏజెంట్ను చదవని ఇమెయిల్స్ను సమీక్షించి, ముఖ్యమైన అంశాలను సారాంశం చేయమని వినియోగదారు అడిగితే, వర్క్ఫ్లోలో ఏజెంట్ ఆ హానికరమైన ఇమెయిల్ను గ్రహించవచ్చు. ఇది ఇంజెక్ట్ చేయబడ్డ సూచనలను అనుసరిస్తే, అది పనిని తప్పుగా చేయవచ్చు—మరియు సున్నితమైన సమాచారాన్ని తప్పుగా పంచకోవచ్చు.
ఇది కేవలం ఒక ప్రత్యేక సందర్భం మాత్రమే. బ్రౌజర్ ఏజెంట్లను ఉపయోగకరంగా చేసే అదే సాధారణత ప్రమాదాలను కూడా విస్తృతంగా చేస్తుంది: ఏజెంట్ విశాలమైన ఉపరితల ప్రాంతం అంతటా నమ్మదగని సూచనలను ఎదుర్కొనవచ్చు—ఇమెయిల్స్, అటాచ్మెంట్లు, క్యాలెండర్ ఆహ్వానాలు, పంచుకున్న పత్రాలు, ఫోరాలు, సోషల్ మీడియా పోస్టులు, మరియు యాదృచ్ఛిక వెబ్పేజీలు. బ్రౌజర్లో వినియోగదారు చేయగల అనేక చర్యలను ఏజెంట్ కూడా చేయడం వల్ల, విజయవంతమైన దాడి ప్రభావం కూడా అదే స్థాయిలో విస్తృతంగా ఉండవచ్చు. ఉదాహరణకు, సున్నితమైన ఇమెయిల్ను ఫార్వర్డ్ చేయడం, డబ్బు పంపడం, క్లౌడ్లోని ఫైల్స్ను సవరించడం లేదా తొలగించడం వంటి చర్యలు కూడా జరిగే అవకాశం ఉంటుంది.
మేం గత పోస్ట్లో పంచుకున్నట్లుగా, అనేక రకాల రక్షణల ద్వారా ప్రాంప్ట్ ఇంజెక్షన్కు వ్యతిరేకంగా రక్షణలో పురోగతి సాధించాం. అయితే, ప్రాంప్ట్ ఇంజెక్షన్ ఏజెంట్ భద్రతకు ఒక బహిరంగ సవాలుగా మిగిలిపోయింది మరియు రాబోయే సంవత్సరాలలో దీనిపై పని చేస్తూనే ఉంటామని మేం భావిస్తున్నాం.
మా రక్షణను బలోపేతం చేయడానికి, ఉత్పత్తిలో ఏజెంట్ వ్యవస్థలపై సరికొత్త ప్రాంప్ట్ ఇంజెక్షన్ దాడుల కోసం మేం నిరంతరం వెతుకుతున్నాం. ఈ దాడులను గుర్తించడం బలమైన నివారణ చర్యలను రూపొందించడానికి అవసరమైన ప్రాథమిక దశ. ఇది నిజ ప్రపంచ ప్రమాదాన్ని అర్థం చేసుకోవడంలో, మా రక్షణ వ్యవస్థల్లో ఉన్న లోపాలను వెలికి తీయడంలో, అలాగే స్పష్టమైన సవరణలను అమలు చేయడంలో మాకు సాయపడుతుంది.
దీనిని పెద్ద స్థాయిలో చేయడానికి, మేం LLM-ఆధారిత ఆటోమేటెడ్ అటాకర్ను నిర్మించాం మరియు బ్రౌజర్ ఏజెంట్పై విజయవంతంగా దాడి చేయగల ప్రాంప్ట్ ఇంజెక్షన్ దాడుల కోసం వేటాడేందుకు దానికి శిక్షణ ఇచ్చాం. మేం ఈ దాడి కర్తను ఎండ్-టు-ఎండ్ ఉపబల అభ్యాసంతో శిక్షణ ఇచ్చాము, కాబట్టి ఇది తన విజయాలు మరియు వైఫల్యాల నుండి నేర్చుకుని తన రెడ్ టీమింగ్ నైపుణ్యాలను మెరుగుపరుచుకుంటుంది. మేం దానిని "షిప్ చేయడానికి ముందు ప్రయత్నించనివ్వడం" కూడా చేస్తాము, అంటే: దాని చైన్ ఆఫ్ థాట్ రీజనింగ్ సమయంలో, దాడి చేసే వ్యక్తి ఒక అభ్యర్థి ఇంజెక్షన్ను ప్రతిపాదించి, దానిని బాహ్య అనుకరణకర్తకు పంపవచ్చు. సిమ్యులేటర్ లక్ష్యంగా ఉన్న బాధిత ఏజెంట్ (రక్షకుడు) ఇంజెక్షన్ను ఎదుర్కొంటే ఎలా ప్రవర్తిస్తుందో అనే కౌంటర్ఫ్యాక్చువల్ రోల్అవుట్ను నడుపుతుంది, మరియు బాధిత ఏజెంట్ యొక్క పూర్తి తర్కం మరియు కార్యాలు ట్రేస్ను తిరిగి ఇస్తుంది. దాడి చేసే వ్యక్తి ఆ ట్రేస్ను ఫీడ్బ్యాక్గా ఉపయోగించి, దాడిని పునరావృతం చేస్తాడు మరియు సిమ్యులేషన్ను మళ్లీ రన్ చేస్తాడు—చివరి దాడికి అంకితం చేయడానికి ముందు ఈ సైకిల్ను అనేక సార్లు పునరావృతం చేస్తాడు. ఇది సింగిల్ పాస్/ఫెయిల్ సిగ్నల్ కంటే దాడి చేసేవారికి గొప్ప ఇన్-కాంటెక్స్ట్ ఫీడ్బ్యాక్ అందిస్తుంది. ఇది కూడా దాడి చేసే వారి టెస్ట్-టైం కంప్యూట్ను కూడా పెంచుతుంది. అంతేకాకుండా, డిఫెండర్ యొక్క తార్కిక జాడలకు (మేం బాహ్య వినియోగదారులకు వెల్లడించని) ప్రత్యేక యాక్సెస్ మన అంతర్గత దాడి చేసేవారికి అసమాన ప్రయోజనాన్ని ఇస్తుంది — ఇది బాహ్య ప్రత్యర్థులను అధిగమించగల అవకాశాలను పెంచుతుంది.
ఉపబల అభ్యాసం (RL) ఎందుకు?మేం అనేక తర్కములు వల్ల ఆటోమేటెడ్ దాడి చేసే వ్యవస్థను శిక్షణ ఇవ్వడానికి ఉపబల అభ్యాసం ను ఎంచుకున్నాము:
- దీర్ఘకాలిక మరియు నిరంతరా దాడి లక్ష్యాలను ఆప్టిమైజ్ చేయడం. మా లక్ష్యం ఏమిటంటే, వాస్తవ ప్రపంచంలో సంభవించే క్లిష్టమైన వ్యతిరేక పనులను (ఉదా. ఇమెయిల్లు పంపడం, బ్యాంక్ లావాదేవీలు) అమలు చేయడానికి ఏజెంట్ను మోసగించగల ప్రాంప్ట్ ఇంజెక్షన్ దాడుల కోసం వెతకడం. ఈ విరుద్ధమైన పనులు స్వాభావికంగా దీర్ఘకాలికమైనవి, వీటికి అనేక దశల తార్కికం మరియు పర్యావరణంతో పరస్పర చర్య అవసరం, విజయ సంకేతాలు అరుదుగా మరియు ఆలస్యంగా ఉంటాయి. రీఇన్ఫోర్స్మెంట్ లెర్నింగ్ ఈ స్పార్స్, ఆలస్యం అయిన బహుమతి నిర్మాణానికి బాగా అనుకూలంగా ఉంటుంది.
- ఫ్రాంటియర్ LLM సామర్థ్యాలను వినియోగించడం. మేం ఫ్రాంటియర్ LLMలను నేరుగా ఆటో-రెడ్-టీమర్లుగా శిక్షణ ఇచ్చాం, కాబట్టి దాడి చేసేవాడు సరిహద్దు నమూనాలలో తార్కికత మరియు ప్రణాళికలో మెరుగుదలల నుండి నేరుగా ప్రయోజనం పొందుతాడు. బేస్ మోడల్స్ బలపడే కొద్దీ, దాడి చేసే వ్యక్తి సహజంగానే మరింత సమర్థుడు అవుతాడు —ఇది మా నమూనాలు అభివృద్ధి చెందుతున్నప్పుడు మా రక్షణలపై ఒత్తిడిని కొనసాగించడానికి ఇది ఒక విస్తరించగల మార్గంగా మారుతుంది.
- కంప్యూటింగ్ స్కేలింగ్ మరియు అనుకూల దాడి చేసేవారిని అనుకరించడం. రీఇన్ఫోర్స్మెంట్ అభ్యసన అనేది పెద్ద సంఖ్యలో నమూనాలు మరియు అభ్యసన దశలపై దాడులను అన్వేషించడానికి ఖర్చు చేసే లెక్కింపును విస్తరించడానికి అనుకూలంగా ఉంటుంది, మరియు ఇది అనుకూల మానవ దాడి కర్తలు ఎలా ప్రవర్తిస్తారో, దానికి కూడా దగ్గరగా ప్రతిబింబిస్తుంది: వ్యూహాలను పునరావృతంగా ప్రయత్నించడం, ఫలితాల నుండి నేర్చుకోవడం, మరియు విజయవంతమైన ప్రవర్తనలను బలపరచడం వంటివి ఉంటాయి.
మా ఆటోమేటెడ్ అటాకర్ కొత్త, వాస్తవిక ప్రాంప్ట్-ఇంజెక్షన్ దాడులను పూర్తి స్థాయిలో కనుగొనగలరు. ఇంతకు ముందు ఆటోమేటెడ్ రెడ్ టీమింగ్ పనిలో సాధారణ వైఫల్యాలను, ఉదాహరణకు, నిర్దిష్ట అవుట్పుట్ స్ట్రింగ్లను పొందడం లేదా ఏజెంట్ నుండి అనుకోని సింగిల్-స్టెప్ టూల్ కాల్ను ట్రిగ్గర్ చేయడం వంటి వాటిని ప్రదర్శించగా, మా RL-శిక్షణ పొందిన అటాకర్ ఏజెంట్ను పలు దశలలో (లేదా వందల దశలలో) విస్తరించే సంక్లిష్టమైన, దీర్ఘకాలిక హానికర వర్క్ఫ్లోలను అమలు చేయడానికి నడిపించగలదు. మేం మా మానవ రెడ్ టీమింగ్ ప్రచారం లేదా బాహ్య నివేదికలలో కనిపించని కొత్త దాడి వ్యూహాలను కూడా గమనించాం.
దిగువన ఉన్న డెమో మా ఆటోమేటెడ్ అటాకర్ కనుగొన్న కాంక్రీట్ ప్రాంప్ట్ ఇంజెక్షన్ దోపిడీని ప్రదర్శిస్తుంది, దీనిని మేం ChatGPT అట్లాస్ రక్షణను మరింత కఠినతరం చేయడానికి ఉపయోగించాం. అటాకర్ యూజర్ ఇన్బాక్స్లోకి ఒక హానికరమైన ఇమెయిల్ను సీడ్ చేస్తాడు, అందులో ప్రాంప్ట్ ఇంజెక్షన్ ఉంటుంది, ఇది ఏజెంట్ను యూజర్ యొక్క CEOకి రాజీనామా లేఖను పంపమని నిర్దేశిస్తుంది. తరువాత, వినియోగదారుడు ఏజెంట్ను అవుట్-ఆఫ్-ఆఫీస్ ప్రత్యుత్తరాన్ని డ్రాఫ్ట్ చేయమని అడిగినప్పుడు, ఏజెంట్ సాధారణ పని అమలు సమయంలో ఆ ఇమెయిల్ను ఎదుర్కొంటుంది, ఇంజెక్ట్ చేసిన ప్రాంప్ట్ను అధికారికమైనదిగా భావించి, దానిని అనుసరిస్తుంది. అవుట్-ఆఫ్-ఆఫీస్ సందేశం ఎప్పటికీ రాయబడదు, దాని బదులుగా ఏజెంట్ వినియోగదారుడి తరఫున రాజీనామా కూడా సమర్పిస్తుంది.

1. ఈమెయిల్ నిర్వహణలో సహాయం కోసం ఏజెంట్ను అడగడం

2. ఏజెంట్ తాజా చదవని ఇమెయిల్ను తెరుస్తాడు

ఈ ఇమెయిల్లో హానికరమైన సూచనలు ఉన్నాయి.

4. ఏజెంట్ అనుకోకుండా రాజీనామా ఇమెయిల్ పంపడం

5. మా భద్రతా అప్డేట్ తర్వాత, ఏజెంట్ మోడ్ ప్రాంప్ట్ ఇంజెక్షన్ ప్రయత్నాన్ని విజయవంతంగా గుర్తిస్తుంది
ప్రాంప్ట్ ఇంజెక్షన్ స్వభావం నిర్ణయాత్మక భద్రతా హామీలను సవాలుగా చేస్తుంది, అయితే మా ఆటోమేటెడ్ భద్రతా పరిశోధన, వ్యతిరేక పరీక్ష మరియు మా వేగవంతమైన ప్రతిస్పందన లూప్ను బిగించడం ద్వారా, అలాగే వేగవంతమైన స్పందన ప్రక్రియను మరింత కట్టుదిట్టం చేయడం ద్వారా, వాస్తవ ప్రపంచంలో దాడి జరగడానికి ముందే నమూనా స్థిరత్వాన్ని మరియు రక్షణ సామర్థ్యాలను మెరుగుపరచగలుగుతున్నాం.
ఈ దాడుల స్వభావాన్ని వినియోగదారులు మరియు పరిశోధకులు మెరుగుగా అర్థం చేసుకునేందుకు—మరియు వాటికి వ్యతిరేకంగా మేము ఎలా క్రియాశీలకంగా రక్షణ చర్యలు తీసుకుంటున్నామో చూపించేందుకు—ఈ డెమోను మేం పంచుకుంటున్నాం. ఆటోమేటెడ్ రెడ్ టీమింగ్ సాధించగల దాని ఫ్రాంటియర్ను ఇది సూచిస్తుందని మేం విశ్వసిస్తున్నాం మరియు మా పరిశోధనను కొనసాగించడానికి మేం చాలా ఉత్సాహంగా ఉన్నాం.
మా ఆటోమేటెడ్ రెడ్ టీమింగ్ ముందస్తు మరియు వేగవంతమైన స్పందన ప్రక్రియను ముందుకు నడిపిస్తోంది. ఆటోమేటెడ్ దాడి చేసే వ్యవస్థ కొత్త తరహా విజయవంతమైన ప్రాంప్ట్-ఇంజెక్షన్ దాడులను గుర్తించిన వెంటనే, మా రక్షణలను మెరుగుపరచడానికి అవసరమైన స్పష్టమైన లక్ష్యాన్ని అది తక్షణమే రూపొందిస్తుంది.
కొత్తగా కనుగొన్న దాడులపై వ్యతిరేక శిక్షణ. మేవ మా ఉత్తమ ఆటోమేటెడ్ దాడికి వ్యతిరేకంగా అప్డేట్ చేసిన ఏజెంట్ మోడల్స్కు నిరంతరం శిక్షణ ఇస్తాం — ప్రస్తుతం లక్ష్య ఏజెంట్లు విఫలమయ్యే దాడులకు ప్రాధాన్యత ఇస్తాం. ప్రతికూల సూచనలను విస్మరించడానికి మరియు వినియోగదారు ఉద్దేశ్యంతో అలైన్ చేయడానికి ఏజెంట్లకు నేర్పించడం, కొత్తగా కనుగొన్న ప్రాంప్ట్-ఇంజెక్షన్ వ్యూహాలకు నిరోధకతను మెరుగుపరచడమే లక్ష్యం. ఇది కొత్తగా ఉద్భవించే, అధిక బలంతో జరిగే దాడుల పట్ల ఉన్న స్థిరత్వాన్ని నేరుగా నమూనా చెక్పాయింట్లో "బర్న్ ఇన్" చేస్తుంది. ఉదాహరణకు, ఇటీవలి ఆటోమేటెడ్ రెడ్ టీమింగ్ నేరుగా కొత్త ప్రతికూలత శిక్షణ పొందిన బ్రౌజర్-ఏజెంట్ చెక్పాయింట్ను ఉత్పత్తి చేసింది, ఇది ఇప్పటికే అన్ని ChatGPT అట్లాస్ వినియోగదారులకు అందుబాటులోకి వచ్చింది. ఇది కొత్త రకాల దాడుల నుండి మా వినియోగదారులను మెరుగ్గా రక్షించడానికి సాయపడుతుంది.
అటాక్ ట్రేస్లను ఉపయోగించి విస్తృత రక్షణ వ్యవస్థను మెరుగుపరచడం. మా ఆటోమేటెడ్ రెడ్ టీమర్ గుర్తించిన అనేక దాడి మార్గాలు, మోడల్కే పరిమితం కాకుండా దాని వెలుపల కూడా మెరుగుదల అవకాశాలను చూపిస్తాయి—ఉదాహరణకు, మానిటరింగ్లో, మోడల్ కాంటెక్స్ట్లో మేము అందించే భద్రతా సూచనల్లో, లేదా సిస్టమ్-స్థాయి రక్షణ చర్యల్లో చూపిస్తాయి. ఆ ఫలితాలు ఏజెంట్ చెక్పాయింట్పై మాత్రమే కాకుండా పూర్తి రక్షణ స్టాక్పై పునరావృతం చేయడానికి మాకు సాయపడతాయి.
క్రియాశీల దాడులకు స్పందించడం. ఈ ప్రక్రియ వాస్తవ ప్రపంచంలో ప్రస్తుతం జరుగుతున్న దాడులకు మరింత సమర్థవంతంగా స్పందించడంలో కూడా సహాయపడుతుంది. మనం మా గ్లోబల్ ఫుట్ప్రింట్లో సంభావ్య దాడులను పరిశీలించినప్పుడు, బాహ్య ప్రత్యర్థులు ఉపయోగించే సాంకేతికతలు మరియు వ్యూహాలను గమనించి, వాటిని ఈ లూప్లో చేర్చి, వారి కార్యకలాపాలను అనుకరించి, మన ప్లాట్ఫారంలో రక్షణాత్మక మార్పులు జోడించవచ్చు.
ఏజెంట్లను రెడ్ టీమ్ చేసే మా సామర్థ్యాన్ని బలోపేతం చేయడం, ఆ పనిలోని భాగాలను ఆటోమేట్ చేయడానికి మా అత్యంత సమర్థవంతమైన నమూనాలను ఉపయోగించడం - డిస్కవరీ-టు-ఫిక్స్ లూప్ను స్కేల్ చేయడం ద్వారా అట్లాస్ బ్రౌజర్ ఏజెంట్ను మరింత శక్తివంతం చేయడంలో సాయపడుతుంది. ఈ కఠినతరం ప్రయత్నం భద్రత నుండి ఒక సుపరిచితమైన పాఠాన్ని బలోపేతం చేస్తుంది: బలమైన రక్షణకు ఒక సుపరిచిత మార్గం అంటే నిజమైన వ్యవస్థలను నిరంతరం ఒత్తిడి పరీక్ష చేయడం, వైఫల్యాలకు స్పందించడం, మరియు స్పష్టమైన పరిష్కారాలను అందించడం.
ప్రత్యర్థులు కూడా అలవాటు పడుతూనే ఉంటారని మేం ఆశిస్తున్నాం. వెబ్లో స్కామ్లు మరియు సోషల్ ఇంజనీరింగ్ లాగానే, ప్రాంప్ట్ ఇంజెక్షన్ ఎప్పటికీ పూర్తిగా "పరిష్కరించబడే" అవకాశం లేదు. కానీ చురుకైన, అత్యంత ప్రతిస్పందనాత్మక వేగవంతమైన ప్రతిస్పందన లూప్ కాలక్రమేణా వాస్తవ ప్రపంచ ప్రమాదాన్ని గణనీయంగా తగ్గించడం కొనసాగించగలదని మేం నమ్మకంగా ఉన్నాం. ఆటోమేటెడ్ దాడి ఆవిష్కరణను ప్రత్యర్థి శిక్షణ మరియు సిస్టమ్-స్థాయి రక్షణలతో కలపడం ద్వారా, మేం కొత్త దాడి నమూనాలను ముందుగానే గుర్తించవచ్చు, ఖాళీలను వేగంగా మూసివేయవచ్చు మరియు దోపిడీ వ్యయాన్ని నిరంతరం పెంచవచ్చు.
ChatGPT Atlasలోని ఏజెంట్ మోడ్ శక్తివంతమైనదే—అదే సమయంలో ఇది భద్రతా ప్రమాదాల పరిధిని కూడా విస్తరిస్తుంది. ఆ మార్పిడి గురించి స్పష్టమైన దృష్టితో ఉండటం బాధ్యతాయుతంగా నిర్మించడంలో ఒక భాగం. ప్రతి పునరావృతంలో Atlasను అర్థవంతంగా మరింత సురక్షితంగా చేయడం మా లక్ష్యం: నమూనా దృఢత్వాన్ని మెరుగుపరచడం, చుట్టూ ఉన్న రక్షణ వ్యవస్థను బలోపేతం చేయడం, బయట కనిపించే దుర్వినియోగ నమూనాలను పర్యవేక్షించడం.
మేం పరిశోధన మరియు విస్తరణలో పెట్టుబడి పెట్టడం కొనసాగిస్తాం, మెరుగైన ఆటోమేటెడ్ రెడ్ టీమింగ్ పద్ధతులను అభివృద్ధి చేస్తాం, లేయర్డ్ మిటిగేషన్లను రోల్ అవుట్ చేస్తాం మరియు మేం నేర్చుకునేటప్పుడు త్వరగా పునరావృతం చేస్తాం. మేం చేయగలిగిన వాటిని కూడా విస్తృతమైన సమాజంతో పంచుకుంటాం.
మేం Atlas ను సిస్టమ్ స్థాయిలో బలోపేతం చేస్తూనే ఉన్నప్పటికీ, వినియోగదారులు ఏజెంట్లను ఉపయోగించే సమయంలో రిస్క్ను తగ్గించడానికి తీసుకోవాల్సిన కొన్ని చర్యలు తీసుకోవచ్చు.
సాధ్యమైనప్పుడు లాగిన్ యాక్సెస్ను పరిమితం చేయడం. మీరు లాగిన్ చేసిన వెబ్సైట్లకు యాక్సెస్ చేతిలో ఉన్న పనికి అవసరం లేనప్పుడు అట్లాస్లో ఏజెంట్ను ఉపయోగించేటప్పుడు (కొత్త విండోలో తెరుచుకుంటుంది)లాగ్ అవుట్ మోడ్ యొక్క ప్రయోజనాన్ని వినియోగదారులు పొందాలని మేం సిఫార్సు చేస్తున్నాం.
నిర్ధారణ అభ్యర్థనలను జాగ్రత్తగా సమీక్షించండి. కొనుగోలును పూర్తి చేయడం లేదా ఇమెయిల్ పంపడం వంటి కొన్ని పర్యవసాన చర్యల కోసం, ఏజెంట్లు ముందుకు సాగడానికి ముందు మీ ధృవీకరణను అడగడానికి రూపొందించబడ్డారు. ఒక చర్యను ధృవీకరించమని ఒక ఏజెంట్ మిమ్మల్ని అడిగినప్పుడు, చర్య సరైనదా మరియు పంచుకోబడుతున్న ఏదైనా సమాచారం ఆ సందర్భానికి సముచితమైనదని ధృవీకరించడానికి ఒక్క క్షణం తీసుకోండి.
ఏజెంట్లకు సాధ్యమైనప్పుడు స్పష్టమైన సూచనలు ఇవ్వండి. "నా ఇమెయిల్స్ను సమీక్షించండి మరియు అవసరమైన చర్య తీసుకోండి" వంటి విస్తృతమైన ప్రాంప్ట్లను నివారించండి. రక్షణ చర్యలు ఉన్నప్పటికీ, విస్తృత స్వేచ్ఛ దాచిన లేదా దుష్ట కంటెంట్ ఏజెంట్ను ప్రభావితం చేయడం సులభతరం చేస్తుంది. ఏజెంట్ను నిర్దిష్టమైన, బాగా నిర్వచించిన పనులు చేయమని అడగడం మరింత సురక్షితం. ఇది ప్రమాదాన్ని పూర్తిగా తొలగించకపోయినా, దాడులను చేయడాన్ని కష్టతరం చేస్తుంది.
ఏజెంట్లు రోజువారీ పనుల కోసం నమ్మకమైన భాగస్వాములుగా మారాలంటే, ఓపెన్ వెబ్ ఎనేబుల్ చేసే మోసపూరిత చర్యలకు వారు ప్రతిఘటించే సామర్థ్యం కలిగి ఉండాలి. ప్రాంప్ట్ ఇంజెక్షన్కు వ్యతిరేకంగా కఠినతరం చేయడం దీర్ఘకాలిక కట్టుబాటు మరియు మా ప్రధాన ప్రాధాన్యతల్లో ఒకటి. మేం ఈ పనిపై త్వరలో మరిన్ని పంచుకుంటాం.


