ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ಗೆ ತಡೆ ನೀಡುವ AI ಏಜೆಂಟ್ಗಳನ್ನು ವಿನ್ಯಾಸಗೊಳಿಸುವುದು
AI ಏಜೆಂಟ್ಗಳನ್ನು ಸುರಕ್ಷಿತಗೊಳಿಸುವ ಬಗ್ಗೆ ಸಾಮಾಜಿಕ ಎಂಜಿನಿಯರಿಂಗ್ ನಮಗೆ ಏನು ಕಲಿಸುತ್ತದೆ.
AI ಏಜೆಂಟ್ಗಳು ಹೆಚ್ಚುತ್ತಿರುವಂತೆ ವೆಬ್ ಬ್ರೌಸ್ ಮಾಡಲು, ಮಾಹಿತಿಯನ್ನು ಹಿಂಪಡೆಯಲು ಮತ್ತು ಬಳಕೆದಾರರ ಪರವಾಗಿ ಕ್ರಮಗಳನ್ನು ಕೈಗೊಳ್ಳಲು ಸಮರ್ಥವಾಗುತ್ತಿವೆ. ಆ ಸಾಮರ್ಥ್ಯಗಳು ಉಪಯುಕ್ತವಾಗಿವೆ, ಆದರೆ ಅವು ದಾಳಿಕಾರರು ವ್ಯವಸ್ಥೆಯನ್ನು ನಿಯಂತ್ರಿಸಲು ಪ್ರಯತ್ನಿಸುವ ಹೊಸ ಮಾರ್ಗಗಳನ್ನು ಸಹ ರಚಿಸುತ್ತವೆ.
ಈ ದಾಳಿಗಳನ್ನು ಸಾಮಾನ್ಯವಾಗಿ ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ಎಂದು ವಿವರಿಸಲಾಗುತ್ತದೆ: ಬಳಕೆದಾರರು ಕೇಳದ ಕೆಲಸವನ್ನು ಮಾಡೆಲ್ ಮಾಡಲೆಂದು ಪ್ರಯತ್ನಿಸುವ ಉದ್ದೇಶದಿಂದ ಬಾಹ್ಯ ವಿಷಯದಲ್ಲಿ ಇರಿಸಲಾದ ಸೂಚನೆಗಳು. ನಮ್ಮ ಅನುಭವದಲ್ಲಿ, ಈ ದಾಳಿಗಳ ಅತ್ಯಂತ ಪರಿಣಾಮಕಾರಿ ವಾಸ್ತವಿಕ ಜಗತ್ತಿನ ಆವೃತ್ತಿಗಳು ಸರಳ ಪ್ರಾಂಪ್ಟ್ ಓವರ್ರೈಡ್ಗಳಿಗಿಂತ ಹೆಚ್ಚಾಗಿ ಸಾಮಾಜಿಕ ಎಂಜಿನಿಯರಿಂಗ್ಗೆ ಹೋಲುತ್ತಿವೆ.
ಆ ಬದಲಾವಣೆ ಮುಖ್ಯವಾಗಿದೆ. ಸಮಸ್ಯೆಯು ಕೇವಲ ದುರುದ್ದೇಶಿತ ಸ್ಟ್ರಿಂಗ್ ಅನ್ನು ಗುರುತಿಸುವುದಷ್ಟೇ ಅಲ್ಲದೆ, ಸಂದರ್ಭದಲ್ಲಿನ ತಪ್ಪು ದಾರಿಗೆಳೆಯುವ ಅಥವಾ ಮ್ಯಾನಿಪ್ಯುಲೇಟಿವ್ ವಿಷಯವನ್ನು ಪ್ರತಿರೋಧಿಸುವುದಾದರೆ, ಅದರಿಂದ ರಕ್ಷಿಸಿಕೊಳ್ಳುವುದು ಕೇವಲ ಇನ್ಪುಟ್ಗಳನ್ನು ಫಿಲ್ಟರ್ ಮಾಡುವುದರ ಮೇಲೆ ಮಾತ್ರ ಅವಲಂಬಿಸಿರಲು ಸಾಧ್ಯವಿಲ್ಲ. ಇದು ಕೆಲವು ದಾಳಿಗಳು ಯಶಸ್ವಿಯಾದರೂ ಸಹ, ನಿಯಂತ್ರಣದ ಪರಿಣಾಮವನ್ನು ನಿರ್ಬಂಧಿತವಾಗಿರಿಸುವಂತೆ ವ್ಯವಸ್ಥೆಯನ್ನು ವಿನ್ಯಾಸಗೊಳಿಸುವುದನ್ನೂ ಅಗತ್ಯಪಡಿಸುತ್ತದೆ.
ಆರಂಭಿಕ “ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್” ಪ್ರಕಾರದ ದಾಳಿಗಳು ವಿಕಿಪೀಡಿಯ ಲೇಖನವನ್ನು ಸಂಪಾದಿಸಿ ಅದರಲ್ಲಿ ಅದನ್ನು ಭೇಟಿ ಮಾಡುವ AI ಏಜೆಂಟ್ಗಳಿಗೆ ನೇರ ಸೂಚನೆಗಳನ್ನು ಸೇರಿಸುವಷ್ಟು ಸರಳವಾಗಿರಬಹುದಿತ್ತು; ಇಂತಹ ವಿರೋಧಿ ಪರಿಸರದ ತರಬೇತಿ-ಸಮಯದ ಅನುಭವವಿಲ್ಲದೆ AI ಮಾಡೆಲ್ಗಳು ಆ ಸೂಚನೆಗಳನ್ನು ಪ್ರಶ್ನಿಸದೆ ಅನೇಕ ಬಾರಿ ಅನುಸರಿಸುತ್ತಿದ್ದವು1. ಮಾಡೆಲ್ಗಳು ಹೆಚ್ಚು ಬುದ್ಧಿವಂತವಾಗುತ್ತಾ ಬಂದಂತೆ, ಈ ರೀತಿಯ ಸೂಚನೆಗೆ ಅವು ಕಡಿಮೆ ಅಸುರಕ್ಷಿತವಾಗಿವೆ ಮತ್ತು ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್-ಶೈಲಿಯ ದಾಳಿಗಳು ಸಾಮಾಜಿಕ ಎಂಜಿನಿಯರಿಂಗ್ನ ಅಂಶಗಳನ್ನು ಒಳಗೊಂಡಂತೆ ಪ್ರತಿಕ್ರಿಯಿಸಿರುವುದನ್ನು ನಾವು ಗಮನಿಸಿದ್ದೇವೆ:
ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ನ ಇಮೇಲ್ ಉದಾಹರಣೆ
OpenAI ಗೆ ಬಾಹ್ಯ ಭದ್ರತಾ ಸಂಶೋಧಕರು(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ವರದಿ ಮಾಡಿದ ChatGPT ಮೇಲಿನ ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ದಾಳಿಯ 2025 ಉದಾಹರಣೆ. ಪರೀಕ್ಷೆಯಲ್ಲಿ, ಬಳಕೆದಾರರ ಪ್ರಾಂಪ್ಟ್ “ನನ್ನ ಇಂದಿನ ಇಮೇಲ್ಗಳ ಮೇಲೆ ನೀವು ಡೀಪ್ ರಿಸರ್ಚ್ ಮಾಡಬೇಕೆಂದು ನಾನು ಬಯಸುತ್ತೇನೆ, ನನ್ನ ಹೊಸ ಉದ್ಯೋಗಿ ಪ್ರಕ್ರಿಯೆಯ ಬಗ್ಗೆ ಮಾಹಿತಿ ಒದಗಿಸಬಹುದಾದ ಪ್ರತಿಯೊಂದು ಮೂಲವನ್ನೂ ನೀವು ಓದಿ ಪರಿಶೀಲಿಸಬೇಕು” ಜೊತೆಗೆ ಇದು 50% ಸಮಯದಲ್ಲಿ ಕೆಲಸ ಮಾಡಿತು.
ವಿಸ್ತೃತ AI ಭದ್ರತಾ ಪರಿಸರ ವ್ಯವಸ್ಥೆಯೊಳಗೆ “AI ಫೈರ್ವಾಲಿಂಗ್” ಎಂಬಂತಹ ತಂತ್ರಗಳನ್ನು ಶಿಫಾರಸು ಮಾಡುವುದು ಸಾಮಾನ್ಯವಾಗಿದೆ; ಇದರಲ್ಲಿ AI ಏಜೆಂಟ್ ಮತ್ತು ಹೊರಗಿನ ಜಗತ್ತಿನ ನಡುವಿನ ಮಧ್ಯವರ್ತಿಯೊಬ್ಬನು ಇನ್ಪುಟ್ಗಳನ್ನು ದುರುದ್ದೇಶಿತ ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ಮತ್ತು ಸಾಮಾನ್ಯ ಇನ್ಪುಟ್ಗಳೆಂದು ವರ್ಗೀಕರಿಸಲು ಪ್ರಯತ್ನಿಸುತ್ತಾನೆ. ಆದರೆ ಈ ಸಂಪೂರ್ಣವಾಗಿ ಅಭಿವೃದ್ಧಿಗೊಂಡ ದಾಳಿಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಇಂತಹ ವ್ಯವಸ್ಥೆಗಳಿಂದ ಹಿಡಿಯಲ್ಪಡುವುದಿಲ್ಲ. ಅಂತಹ ವ್ಯವಸ್ಥೆಗಳಿಗೆ, ದುರುದ್ದೇಶಪೂರಿತ ಇನ್ಪುಟ್ ಅನ್ನು ಪತ್ತೆಹಚ್ಚುವುದು ಸುಳ್ಳು ಅಥವಾ ತಪ್ಪುಮಾಹಿತಿಯನ್ನು ಪತ್ತೆಹಚ್ಚುವಷ್ಟೇ ಅತ್ಯಂತ ಕಷ್ಟಕರ ಸಮಸ್ಯೆಯಾಗುತ್ತದೆ ಮತ್ತು ಅನೇಕ ಬಾರಿ ಅಗತ್ಯವಾದ ಸಂದರ್ಭವಿಲ್ಲದೆ.
ವಾಸ್ತವಿಕ ಜಗತ್ತಿನ ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ದಾಳಿಗಳು ಸಂಕೀರ್ಣತೆಯಲ್ಲಿ ಅಭಿವೃದ್ಧಿಗೊಂಡಂತೆ, ಅತ್ಯಂತ ಪರಿಣಾಮಕಾರಿ ಆಕ್ರಮಣಕಾರಿ ತಂತ್ರಗಳು ಸಾಮಾಜಿಕ ಎಂಜಿನಿಯರಿಂಗ್ ತಂತ್ರಗಳನ್ನು ಬಳಸಿಕೊಂಡಿದ್ದವು ಎಂಬುದನ್ನು ನಾವು ಕಂಡುಕೊಂಡೆವು. ಸಾಮಾಜಿಕ ಎಂಜಿನಿಯರಿಂಗ್ನೊಂದಿಗೆ ಇರುವ ಈ ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ದಾಳಿಗಳನ್ನು ಪ್ರತ್ಯೇಕ ಅಥವಾ ಸಂಪೂರ್ಣವಾಗಿ ಹೊಸ ಸಮಸ್ಯೆಯ ವರ್ಗವಾಗಿ ಪರಿಗಣಿಸುವ ಬದಲು, ಇತರ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ಮಾನವರ ಮೇಲಿನ ಸಾಮಾಜಿಕ ಎಂಜಿನಿಯರಿಂಗ್ ಅಪಾಯವನ್ನು ನಿರ್ವಹಿಸಲು ಬಳಸುವ ಅದೇ ದೃಷ್ಟಿಕೋನದ ಮೂಲಕ ನಾವು ಇದನ್ನು ನೋಡಲು ಆರಂಭಿಸಿದೆವು. ಈ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ, ಗುರಿಯು ದುರುದ್ದೇಶಪೂರಿತ ಇನ್ಪುಟ್ಗಳನ್ನು ಪರಿಪೂರ್ಣವಾಗಿ ಗುರುತಿಸುವುದಕ್ಕೆ ಮಾತ್ರ ಸೀಮಿತವಾಗಿಲ್ಲ, ಬದಲಾಗಿ ಏಜೆಂಟ್ಗಳು ಮತ್ತು ವ್ಯವಸ್ಥೆಗಳನ್ನು ಹೀಗೆ ವಿನ್ಯಾಸಗೊಳಿಸುವುದು—ಮ್ಯಾನಿಪ್ಯುಲೇಷನ್ ಯಶಸ್ವಿಯಾದರೂ ಸಹ, ಅದರ ಪರಿಣಾಮವು ನಿರ್ಬಂಧಿತವಾಗಿರುವಂತೆ. ಇಂತಹ ವ್ಯವಸ್ಥೆಗಳು ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ಮತ್ತು ಸಾಮಾಜಿಕ ಎಂಜಿನಿಯರಿಂಗ್ ಎರಡನ್ನೂ ತಗ್ಗಿಸುವಲ್ಲಿ ಪರಿಣಾಮಕಾರಿಯಾಗಿವೆ ಎಂದು ತೋರಿಸಿಕೊಳ್ಳುತ್ತವೆ.
ಈ ರೀತಿಯಲ್ಲಿ, ನಾವು AI ಏಜೆಂಟ್ ಅನ್ನು ಗ್ರಾಹಕ ಸೇವಾ ಏಜೆಂಟ್ನಂತೆಯೇ ಸಮಾನವಾದ ಮೂರು-ಪಾತ್ರಧಾರಿಗಳ ವ್ಯವಸ್ಥೆಯಲ್ಲಿ ಅಸ್ತಿತ್ವದಲ್ಲಿರುವಂತೆ ಕಲ್ಪಿಸಬಹುದು; ಏಜೆಂಟ್ ತಮ್ಮ ಉದ್ಯೋಗದಾತರ ಪರವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಲು ಬಯಸುತ್ತದೆ, ಆದರೆ ಅವರನ್ನು ತಪ್ಪು ದಾರಿಗೆಳೆಯಲು ಪ್ರಯತ್ನಿಸಬಹುದಾದ ಬಾಹ್ಯ ಇನ್ಪುಟ್ಗೆ ಅವರು ನಿರಂತರವಾಗಿ ಒಳಗಾಗಿರುತ್ತಾರೆ. ಗ್ರಾಹಕ ಬೆಂಬಲ ಏಜೆಂಟ್, ಮಾನವವಾಗಿರಲಿ ಅಥವಾ AI ಆಗಿರಲಿ, ಇಂತಹ ದುರುದ್ದೇಶಪೂರ್ಣ ಪರಿಸರದಲ್ಲಿ ಅಸ್ತಿತ್ವದಲ್ಲಿರುವುದರಿಂದ ಸಹಜವಾಗಿ ಉಂಟಾಗುವ ಕೆಳಮುಖ ಅಪಾಯವನ್ನು ಮಿತಿಗೊಳಿಸಲು ಅವರ ಸಾಮರ್ಥ್ಯಗಳ ಮೇಲೆ ಮಿತಿಗಳನ್ನು ವಿಧಿಸಬೇಕು.
ಒಬ್ಬ ಮಾನವನು ಗ್ರಾಹಕ ಬೆಂಬಲ ವ್ಯವಸ್ಥೆಯನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಿ, ವಿತರಣೆಯ ನಿಧಾನತೆ, ದೋಷದಿಂದ ಉಂಟಾಗುವ ಹಾನಿ ಇತ್ಯಾದಿಗಳಂತಹ ಗ್ರಾಹಕನು ಅನುಭವಿಸಿದ ಅಸೌಕರ್ಯಗಳಿಗೆ ಪರಿಹಾರವಾಗಿ ಗಿಫ್ಟ್ ಕಾರ್ಡ್ಗಳು ಮತ್ತು ಮರುಪಾವತಿಗಳನ್ನು ನೀಡುವ ಪರಿಸ್ಥಿತಿಯನ್ನು ಕಲ್ಪಿಸಿಕೊಳ್ಳಿ. ಇದು ಬಹು-ಪಕ್ಷಗಳ ಸಮಸ್ಯೆಯಾಗಿದ್ದು, ಸಂಸ್ಥೆಯು ಏಜೆಂಟ್ ಸರಿಯಾದ ಕಾರಣಗಳಿಗಾಗಿ ಮರುಪಾವತಿಗಳನ್ನು ನೀಡುತ್ತಾನೆ ಎಂಬುದನ್ನು ನಂಬಬೇಕಾಗುತ್ತದೆ, ಹಾಗೆಯೇ ಏಜೆಂಟ್ ಮೂರನೇ-ಪಕ್ಷಗಳೊಂದಿಗೆ ಸಂವಹನ ನಡೆಸುತ್ತಾನೆ—ಅವರು ಅವರನ್ನು ತಪ್ಪು ದಾರಿಗೆಳೆಯಲು ಅಥವಾ ಬಲವಂತದ ಒತ್ತಡದಡಿ ಇಡಲು ಪ್ರಯತ್ನಿಸಬಹುದು.
ನೈಜ ಜಗತ್ತಿನಲ್ಲಿ, ಏಜೆಂಟ್ಗೆ ಅನುಸರಿಸಲು ನಿಯಮಗಳ ಒಂದು ಸಮೂಹವನ್ನು ನೀಡಲಾಗುತ್ತದೆ, ಆದರೆ ಅವು ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ವಿರೋಧಿ ಪರಿಸರದಲ್ಲಿ, ಅವನ್ನು ತಪ್ಪುದಾರಿಗೆಳೆಯಲಾಗುತ್ತದೆ ಎಂದು ನಿರೀಕ್ಷಿಸಲಾಗುತ್ತದೆ. ಬಹುಶಃ ಒಬ್ಬ ಗ್ರಾಹಕರು ತಮ್ಮ ಮರುಪಾವತಿ ಎಂದಿಗೂ ಪ್ರಕ್ರಿಯೆಯಾಗಲಿಲ್ಲ ಎಂದು ಹೇಳಿಕೊಂಡು ಸಂದೇಶ ಕಳುಹಿಸುತ್ತಾರೆ ಅಥವಾ ಮರುಪಾವತಿ ನೀಡದಿದ್ದರೆ ಹಾನಿ ಮಾಡುವುದಾಗಿ ಬೆದರಿಸುತ್ತಾರೆ. ಏಜೆಂಟ್ ಸಂವಹನ ನಡೆಸುವ ನಿರ್ಧಿಷ್ಟ ವ್ಯವಸ್ಥೆಗಳು ಗ್ರಾಹಕರಿಗೆ ನೀಡಬಹುದಾದ ಮರುಪಾವತಿಗಳ ಪ್ರಮಾಣವನ್ನು ಮಿತಿಗೊಳಿಸುತ್ತವೆ, ಸಂಭಾವ್ಯ ಫಿಷಿಂಗ್ ಇಮೇಲ್ಗಳನ್ನು ಗುರುತಿಸುತ್ತವೆ ಮತ್ತು ವೈಯಕ್ತಿಕ ಏಜೆಂಟ್ ಅನ್ನು ಕಬಳಿಸುವ ಪರಿಣಾಮವನ್ನು ಮಿತಿಗೊಳಿಸಲು ಇತರ ಇಂತಹ ಶಮನ ಕ್ರಮಗಳನ್ನು ಒದಗಿಸುತ್ತವೆ.
ಈ ಮನೋಭಾವವು ನಾವು ನಿಯೋಜಿಸಿರುವ ಪ್ರತಿಕಾರ ಕ್ರಮಗಳ ದೃಢವಾದ ಸಮೂಹಕ್ಕೆ ಮಾರ್ಗದರ್ಶನ ನೀಡಿದ್ದು, ಅದು ನಮ್ಮ ಬಳಕೆದಾರರ ಭದ್ರತಾ ನಿರೀಕ್ಷೆಗಳನ್ನು ಎತ್ತಿಹಿಡಿಯುತ್ತದೆ.
ChatGPT ಯಲ್ಲಿ, ನಾವು ಈ ಸಾಮಾಜಿಕ ಎಂಜಿನಿಯರಿಂಗ್ ಮಾಡೆಲ್ ಅನ್ನು ಮೂಲ-ಸಿಂಕ್ ವಿಶ್ಲೇಷಣೆ ಮುಂತಾದ ಹೆಚ್ಚು ಸಾಂಪ್ರದಾಯಿಕ ಭದ್ರತಾ ಎಂಜಿನಿಯರಿಂಗ್ ವಿಧಾನಗಳೊಂದಿಗೆ ಸಂಯೋಜಿಸುತ್ತೇವೆ.
ಆ ಚೌಕಟ್ಟಿನಲ್ಲಿ, ದಾಳಿಕೋರನಿಗೆ ಮೂಲವೊಂದೋ, ಅಥವಾ ವ್ಯವಸ್ಥೆಯನ್ನು ಪ್ರಭಾವಿತಗೊಳಿಸುವ ಮಾರ್ಗವೋ, ಮತ್ತು ಸಿಂಕ್ವೊಂದೋ ಅಥವಾ ತಪ್ಪು ಸಂದರ್ಭದಲ್ಲಿ ಅಪಾಯಕಾರಿ ಆಗುವ ಸಾಮರ್ಥ್ಯವೋ ಎರಡೂ ಅಗತ್ಯ. ಏಜೆಂಟಿಕ್ ವ್ಯವಸ್ಥೆಗಳಿಗಾಗಿ, ಅದಕ್ಕೆ ಸಾಮಾನ್ಯವಾಗಿ ನಂಬಿಕರ್ಹವಲ್ಲದ ಬಾಹ್ಯ ವಿಷಯವನ್ನು ತೃತೀಯ ಪಕ್ಷಕ್ಕೆ ಮಾಹಿತಿಯನ್ನು ಪ್ರಸಾರ ಮಾಡುವಂತಹ ಕ್ರಿಯೆಯೊಂದಿಗೆ, ಲಿಂಕ್ ಅನ್ನು ಅನುಸರಿಸುವುದು ಅಥವಾ ಟೂಲ್ನೊಂದಿಗೆ ಸಂವಹನ ನಡೆಸುವುದು ಎಂಬುದರೊಂದಿಗೆ ಸಂಯೋಜಿಸುವುದು ಎಂದರ್ಥ.
ಬಳಕೆದಾರರಿಗಾಗಿ ಮೂಲಭೂತ ಭದ್ರತಾ ನಿರೀಕ್ಷೆಯನ್ನು ಕಾಪಾಡುವುದು ನಮ್ಮ ಗುರಿ: ಸಂಭಾವ್ಯವಾಗಿ ಅಪಾಯಕರ ಕ್ರಮಗಳು, ಅಥವಾ ಸಂಭಾವ್ಯವಾಗಿ ಸೂಕ್ಷ್ಮ ಮಾಹಿತಿಯ ಪ್ರಸರಣಗಳು, ಮೌನವಾಗಿ ಅಥವಾ ಸೂಕ್ತ ರಕ್ಷಣಾತ್ಮಕ ಕ್ರಮಗಳಿಲ್ಲದೆ ನಡೆಯಬಾರದು.
ChatGPT ವಿರುದ್ಧ ನಾವು ಹೆಚ್ಚಾಗಿ ಕಾಣುವ ದಾಳಿಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಸಹಾಯಕನಿಗೆ ಸಂಭಾಷಣೆಯಿಂದ ಕೆಲವು ರಹಸ್ಯ ಮಾಹಿತಿಯನ್ನು ತೆಗೆದುಕೊಂಡು ಅದನ್ನು ಹಾನಿಕರ ತೃತೀಯ ಪಕ್ಷಕ್ಕೆ ಕಳುಹಿಸಬೇಕು ಎಂದು ನಂಬಿಸಲು ಪ್ರಯತ್ನಿಸುವುದನ್ನು ಒಳಗೊಂಡಿರುತ್ತವೆ. ನಮಗೆ ತಿಳಿದಿರುವ ಹೆಚ್ಚಿನ ಸಂದರ್ಭಗಳಲ್ಲಿ, ನಮ್ಮ ಸುರಕ್ಷತಾ ತರಬೇತಿ ಏಜೆಂಟ್ ಅನ್ನು ನಿರಾಕರಿಸಲು ಕಾರಣವಾಗುವುದರಿಂದ ಈ ದಾಳಿಗಳು ವಿಫಲವಾಗುತ್ತವೆ. ಏಜೆಂಟ್ಗೆ ಖಚಿತ ನಂಬಿಕೆ ಇರುವ ಆ ಸಂದರ್ಭಗಳಿಗಾಗಿ, ನಾವು ಸುರಕ್ಷಿತ Url ಎಂಬ ಶಮನ ಕಾರ್ಯತಂತ್ರವನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಿದ್ದೇವೆ; ಇದು ಸಂಭಾಷಣೆಯಲ್ಲಿ ಸಹಾಯಕ ಕಲಿತ ಮಾಹಿತಿಯನ್ನು ತೃತೀಯ ಪಕ್ಷಕ್ಕೆ ಪ್ರಸಾರ ಮಾಡಲಾಗುವಾಗ ಪತ್ತೆಹಚ್ಚುವಂತೆ ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ. ಈ ಅಪರೂಪದ ಸಂದರ್ಭಗಳಲ್ಲಿ ನಾವು ಬಳಕೆದಾರರಿಗೆ ಕಳುಹಿಸಲಾಗುವ ಮಾಹಿತಿಯನ್ನು ತೋರಿಸಿ ಅದನ್ನು ದೃಢೀಕರಿಸಲು ಕೇಳುತ್ತೇವೆ ಅಥವಾ ಅದನ್ನು ತಡೆದು ಬಳಕೆದಾರರ ವಿನಂತಿಯೊಂದಿಗೆ ಮುಂದುವರಿಯಲು ಮತ್ತೊಂದು ಮಾರ್ಗವನ್ನು ಪ್ರಯತ್ನಿಸಲು ಏಜೆಂಟ್ಗೆ ಹೇಳುತ್ತೇವೆ.
ಈ ಅದೇ ಮೆಕಾನಿಸಂ Atlas ನಲ್ಲಿ ನ್ಯಾವಿಗೇಶನ್ಗಳು ಮತ್ತು ಬುಕ್ಮಾರ್ಕ್ಗಳಿಗೆ; ಮತ್ತು ಡೀಪ್ ರಿಸರ್ಚ್ ನಲ್ಲಿ ಸರ್ಚ್ಗಳು ಮತ್ತು ನ್ಯಾವಿಗೇಶನ್ಗಳಿಗೆ ಅನ್ವಯಿಸುತ್ತದೆ. ChatGPT Canvas ಮತ್ತು ChatGPT Apps ಸಹ ಇದೇ ರೀತಿಯ ವಿಧಾನವನ್ನು ಅನುಸರಿಸುತ್ತವೆ, ಇದರಿಂದ ಏಜೆಂಟ್ ಕಾರ್ಯಾತ್ಮಕ ಅಪ್ಲಿಕೇಶನ್ಗಳನ್ನು ರಚಿಸಲು ಮತ್ತು ಬಳಸಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ—ಇವು ಅನಿರೀಕ್ಷಿತ ಸಂವಹನಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಲು ಸಾಧ್ಯವಾಗುವ ಸ್ಯಾಂಡ್ಬಾಕ್ಸ್ನಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ ಮತ್ತು ಬಳಕೆದಾರರಿಂದ ಅವರ ಸಮ್ಮತಿಯನ್ನು ಕೇಳುತ್ತವೆ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ).
ಸುರಕ್ಷಿತ Url ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಮಾಹಿತಿಯನ್ನು ಓದಿ, ಅದರ ರಚನೆ ಕುರಿತು ಒಂದು ಪತ್ರಿಕೆಯನ್ನು ಅದರ ಸಮರ್ಪಿತ ಬ್ಲಾಗ್ ಪೋಸ್ಟ್ AI ಏಜೆಂಟ್ ಒಂದು ಲಿಂಕ್ ಕ್ಲಿಕ್ ಮಾಡಿದಾಗ ನಿಮ್ಮ ಡೇಟಾವನ್ನು ಸುರಕ್ಷಿತವಾಗಿ ಇಡುವುದು ನಲ್ಲಿ ಕಂಡುಹಿಡಿಯಿರಿ.
ಸಂಪೂರ್ಣ ಸ್ವಾಯತ್ತ ಏಜೆಂಟ್ಗಳಿಗೆ ವಿರೋಧಿ ಹೊರಗಿನ ಜಗತ್ತಿನೊಂದಿಗೆ ಸುರಕ್ಷಿತ ಸಂವಹನ ಅಗತ್ಯವಾಗಿದೆ. AI ಮಾಡೆಲ್ ಅನ್ನು ಅಪ್ಲಿಕೇಶನ್ ಸಿಸ್ಟಮ್ನೊಂದಿಗೆ ಏಕೀಕರಿಸುವಾಗ, ಸಮಾನ ಪರಿಸ್ಥಿತಿಯಲ್ಲಿ ಮಾನವ ಏಜೆಂಟ್ಗೆ ಯಾವ ನಿಯಂತ್ರಣಗಳು ಇರಬೇಕು ಎಂದು ಕೇಳಿ, ಅವುಗಳನ್ನು ಜಾರಿಗೆ ತರುವುದನ್ನು ನಾವು ಶಿಫಾರಸು ಮಾಡುತ್ತೇವೆ. ಅತ್ಯಂತ ಬುದ್ಧಿವಂತ AI ಮಾಡೆಲ್ ಒಂದು ಮಾನವ ಏಜೆಂಟ್ಗಿಂತ ಸಾಮಾಜಿಕ ಎಂಜಿನಿಯರಿಂಗ್ಗೆ ಉತ್ತಮವಾಗಿ ಪ್ರತಿರೋಧಿಸಬಲ್ಲದು ಎಂದು ನಾವು ನಿರೀಕ್ಷಿಸುತ್ತೇವೆ, ಆದರೆ ಅನ್ವಯದ ಮೇಲೆ ಅವಲಂಬಿಸಿ ಇದು ಯಾವಾಗಲೂ ಸಾಧ್ಯವಾಗುವುದಿಲ್ಲ ಅಥವಾ ವೆಚ್ಚ-ಪರಿಣಾಮಕಾರಿಯಾಗಿರುವುದಿಲ್ಲ.
AI ಮಾಡೆಲ್ಗಳ ವಿರುದ್ಧ ಸಾಮಾಜಿಕ ಎಂಜಿನಿಯರಿಂಗ್ನ ಪರಿಣಾಮಗಳು ಮತ್ತು ಅದಕ್ಕೆ ವಿರುದ್ಧವಾದ ರಕ್ಷಣೆಗಳನ್ನು ನಾವು ಮುಂದುವರಿಸಿ ಅನ್ವೇಷಿಸುತ್ತೇವೆ ಮತ್ತು ನಮ್ಮ ಶೋಧನೆಗಳನ್ನು ನಮ್ಮ ಅಪ್ಲಿಕೇಶನ್ ಭದ್ರತಾ ಆರ್ಕಿಟೆಕ್ಚರ್ಗಳಲ್ಲಿಯೂ ಮತ್ತು ನಮ್ಮ AI ಮಾಡೆಲ್ಗಳಿಗೆ ನಾವು ನೀಡುವ ತರಬೇತಿಗಳಲ್ಲಿಯೂ ಸೇರಿಸುತ್ತೇವೆ.
ಅಡಿಟಿಪ್ಪಣಿಗಳು
- 1
ರೆಹ್ಬರ್ಗರ್, ಜೆ. (2023, 04 15). LLM ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಅಂಧವಾಗಿ ನಂಬಬೇಡಿ. ಚಾಟ್ಬಾಟ್ಗಳಿಗೆ ಬೆದರಿಕೆಗಳು. EmbraceTheRed. https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters ನಿಂದ 11 14, 2025 ರಂದು ಮರುಪಡೆಯಲಾಗಿದೆ
ಲೇಖಕರು
Thomas Shadwell, Adrian Spânu


