ಅತ್ಯಾಧುನಿಕ LLM ಗಳಲ್ಲಿ ಸೂಚನಾ ಕ್ರಮಾನುಗತಿಯನ್ನು ಸುಧಾರಿಸುವುದು
ಸೂಚನೆ ಶ್ರೇಣೀಕರಣ, ಸುರಕ್ಷತಾ ಸ್ಟೀರಬಿಲಿಟಿ ಮತ್ತು ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ರಾಬಸ್ಟ್ನೆಸ್ ಅನ್ನು ಬಲಪಡಿಸುವ ತರಬೇತಿ ಡೇಟಾಸೆಟ್ IH-Challenge ಅನ್ನು ಪರಿಚಯಿಸುತ್ತಿದ್ದೇವೆ.
AI ವ್ಯವಸ್ಥೆಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಅನೇಕ ಮೂಲಗಳಿಂದ ಸೂಚನೆಗಳನ್ನು ಸ್ವೀಕರಿಸುತ್ತವೆ. ಇವುಗಳಲ್ಲಿ ಸಿಸ್ಟಮ್ ಸಂದೇಶಗಳಿಂದ ಸುರಕ್ಷತಾ ನೀತಿಗಳು, ಡೆವಲಪರ್ಗಳಿಂದ ಉತ್ಪನ್ನ ಮಾರ್ಗದರ್ಶನ, ಬಳಕೆದಾರರಿಂದ ವಿನಂತಿಗಳು ಮತ್ತು ಆನ್ಲೈನ್ನಲ್ಲಿ ಕಂಡುಬರುವ ಮಾಹಿತಿ ಸೇರಿರಬಹುದು. ಈ ಮೂಲಗಳ ನಡುವೆ ಅತ್ಯಂತ ವಿಶ್ವಾಸಾರ್ಹ ಸೂಚನೆಗಳಿಗೆ ನಂಬಿಕಸ್ಥವಾಗಿ ಆದ್ಯತೆ ನೀಡುವಂತೆ ಮಾಡೆಲ್ಗಳಿಗೆ ತರಬೇತಿ ನೀಡುವುದು ಸುರಕ್ಷಿತ ನಿಯೋಜನೆಯ ಪ್ರಮುಖ ಭಾಗವಾಗಿದೆ.
ಈ ಆದ್ಯತಾಕ್ರಮಣ ಕುಸಿದುಬಿಟ್ಟಾಗ ಅನೇಕ AI ಸುರಕ್ಷತೆ ಮತ್ತು ವಿಶ್ವಾಸಾರ್ಹತೆ ಸಮಸ್ಯೆಗಳು ಉಂಟಾಗಬಹುದು. ಮಾಡೆಲ್ಗಳು ಅನುಮತಿಸದ ವಿಷಯಕ್ಕಾಗಿ ವಿನಂತಿಗಳು, ಖಾಸಗಿ ಮಾಹಿತಿಯನ್ನು ಬಹಿರಂಗಪಡಿಸುವ ಪ್ರಯತ್ನಗಳು, ಅಥವಾ ಆನ್ಲೈನ್ ಡೇಟಾದಲ್ಲಿ ಅಡಗಿಸಿರುವ ಪ್ರಾಂಪ್ಟ್‑ಇಂಜೆಕ್ಷನ್ ದಾಳಿಗಳನ್ನು ಸ್ವೀಕರಿಸಬಹುದು. ಈ ಪ್ರತಿಯೊಂದು ಸಂದರ್ಭದಲ್ಲೂ ಸೂಕ್ತವಾಗಿ ವರ್ತಿಸಲು ವಿಫಲವಾಗುವುದಕ್ಕೆ ಒಂದೇ ಮೂಲ ಕಾರಣವಿದೆ: ಮಾಡೆಲ್ ತಪ್ಪಾದ ಸೂಚನೆಯನ್ನು ಅನುಸರಿಸಬಹುದು.
ಈ ಸೂಚನೆಗಳು ಸಂಘರ್ಷಿಸಿದಾಗ, ಮಾಡೆಲ್ ಯಾವುದಕ್ಕೆ ಪ್ರಾಥಮ್ಯ ನೀಡಬೇಕು ಎಂದು ನಿರ್ಧರಿಸಬೇಕು. ಅದು ಅವಿಶ್ವಾಸಾರ್ಹ ಸೂಚನೆಯನ್ನು ಪ್ರಾಧಿಕಾರಯುತವೆಂದು ಪರಿಗಣಿಸಿದರೆ, ಮಾಡೆಲ್ ನೀತಿಗಳು ಅಥವಾ ಡೆವಲಪರ್ ಮತ್ತು ಬಳಕೆದಾರರ ಉದ್ದೇಶವನ್ನು ಉಲ್ಲಂಘಿಸುವ ರೀತಿಯಲ್ಲಿ ವರ್ತಿಸಬಹುದು.
ಸರಿಯಾಗಿ ವಿನ್ಯಾಸಗೊಳಿಸಿದ ಸೂಚನೆ-ಶ್ರೇಣೀಕರಣ ಕಾರ್ಯಗಳು, ವಿಶ್ವಾಸ ಮಟ್ಟದ ಆಧಾರದ ಮೇಲೆ ಸೂಚನೆಗಳಿಗೆ ಆದ್ಯತೆ ನೀಡಲು ಮಾಡೆಲ್ಗಳಿಗೆ ತರಬೇತಿ ನೀಡುವವು, ನೈಜ-ಪ್ರಪಂಚದ ಹಲವಾರು ಸುರಕ್ಷತಾ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಸುಧಾರಿಸುತ್ತವೆ ಎಂಬುದನ್ನು ನಾವು ಪ್ರದರ್ಶಿಸುತ್ತೇವೆ. ಈ ಕಾರ್ಯಗಳ ಮೇಲೆ ತರಬೇತಿ ಪಡೆದ ಮಾಡೆಲ್ಗಳು ಸಿಸ್ಟಮ್ ಪ್ರಾಂಪ್ಟ್ಗಳಲ್ಲಿನ ಸುರಕ್ಷತಾ ವಿಶೇಷಣಗಳಿಗೆ ಹೆಚ್ಚು ಸ್ಪಂದನಶೀಲವಾಗುತ್ತವೆ (ಸುರಕ್ಷತಾ ಸ್ಟೀರಬಿಲಿಟಿಯನ್ನು ಸುಧಾರಿಸುವುದು) ಮತ್ತು ಟೂಲ್ ಔಟ್ಪುಟ್ಗಳಲ್ಲಿ ಅಡಕವಾಗಿರುವ ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ದಾಳಿಗಳ ವಿರುದ್ಧ ಇನ್ನಷ್ಟು ದೃಢವಾಗುತ್ತವೆ.
ಸಂಘರ್ಷಗಳನ್ನು ನಿರ್ವಹಿಸಲು, OpenAI ನ ಮಾಡೆಲ್ಗಳು ಸ್ಪಷ್ಟವಾದ ಸೂಚನಾ ಶ್ರೇಣೀಕ್ರಮವನ್ನು ಅನುಸರಿಸುವಂತೆ ತರಬೇತಿ ಪಡೆದಿವೆ:
ಸಿಸ್ಟಮ್ > ಡೆವಲಪರ್ > ಬಳಕೆದಾರ > ಉಪಕರಣ
ಹೆಚ್ಚಿನ ಆದ್ಯತೆಯ ಸೂಚನೆಗಳು ಹೆಚ್ಚು ವಿಶ್ವಾಸಾರ್ಹವಾಗಿರುತ್ತವೆ. ಮಾಡೆಲ್ ಹೆಚ್ಚಿನ‑ಆದ್ಯತೆಯ ನಿರ್ಬಂಧಗಳಿಗೆ ಸಂಘರ್ಷವಾಗದಿದ್ದಾಗ ಮಾತ್ರ ಕಡಿಮೆ‑ಆದ್ಯತೆಯ ಸೂಚನೆಗಳನ್ನು ಅನುಸರಿಸಬೇಕು. ಈ ತತ್ವಗಳನ್ನು OpenAI ಮಾಡೆಲ್ ಸ್ಪೆಕ್(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ನಲ್ಲಿ ವಿವರಿಸಲಾಗಿದೆ.
ಉದಾಹರಣೆಗೆ, ಒಂದು ಸಿಸ್ಟಮ್ ಸಂದೇಶದಲ್ಲಿ ಸುರಕ್ಷತಾ ನೀತಿ ಸೇರಿದ್ದರೆ ಮತ್ತು ಬಳಕೆದಾರರು ಮಾಡೆಲ್ಗೆ ಅದನ್ನು ಉಲ್ಲಂಘಿಸಲು ಕೇಳಿದರೆ, ಮಾಡೆಲ್ ನಿರಾಕರಿಸಬೇಕು. ಒಂದು ಟೂಲ್ ಔಟ್ಪುಟ್ನಲ್ಲಿ ದುರುದ್ದೇಶಪೂರಿತ ಸೂಚನೆಗಳು ಇದ್ದರೆ, ಮಾಡೆಲ್ ಅವುಗಳನ್ನು ಆಜ್ಞೆಗಳಾಗಿ ಪರಿಗಣಿಸುವ ಬದಲು ಅವನ್ನು ನಿರ್ಲಕ್ಷಿಸಬೇಕು.
ಇದನ್ನು ಸರಿಯಾಗಿ ಮಾಡುವುದು ಸುರಕ್ಷತೆ, ಭದ್ರತೆ ಮತ್ತು ವಿಶ್ವಾಸಾರ್ಹತೆಗೆ ಮೂಲಾಧಾರವಾಗಿದೆ.
ಬಲಭಾಗದಲ್ಲಿರುವ ಮಾಡೆಲ್ ಎರಡು ಸೂಚನೆಗಳು ಸಂಘರ್ಷಿಸಿದಾಗ, ಬಳಕೆದಾರರ ಸೂಚನೆಗಿಂತ ಹೆಚ್ಚಿನ ಆದ್ಯತೆಯಾದ ಡೆವಲಪರ್ನ ಸೂಚನೆಯನ್ನು ಸರಿಯಾಗಿ ಅನುಸರಿಸುತ್ತದೆ.
ರೀಇನ್ಫೋರ್ಸ್ಮೆಂಟ್ ಲರ್ನಿಂಗ್ ಸೂಚನೆ ಶ್ರೇಣೀಕರಣವನ್ನು ಬೋಧಿಸಲು ಸಹಜವಾಗಿ ಹೊಂದಿಕೊಳ್ಳುತ್ತದೆ. ನಾವು ಪರಸ್ಪರ ವಿರೋಧಾಭಾಸ ಸೂಚನೆಗಳೊಂದಿಗೆ ಸಂಭಾಷಣೆಗಳನ್ನು ರಚಿಸಬಹುದು, ಮಾಡೆಲ್ಗೆ ಪ್ರತಿಕ್ರಿಯಿಸಲು ಪ್ರಾಂಪ್ಟ್ ಮಾಡಬಹುದು ಮತ್ತು ಅದು ಸರಿಯಾದ ಸೂಚನೆಯನ್ನು ಅನುಸರಿಸಿದಾಗ ಅದಕ್ಕೆ ಬಹುಮಾನ ನೀಡಬಹುದು.
ಆ ವಿಧಾನವನ್ನು ಸರಳವಾಗಿ ಅನ್ವಯಿಸುವಾಗ ಉಂಟಾಗುವ ಮೂರು ತಪ್ಪುಗಳನ್ನು ನಾವು ಗುರುತಿಸಿದ್ದೇವೆ:
- ಸೂಚನೆಗಳನ್ನು ಅನುಸರಿಸುವಲ್ಲಿ ಉಂಟಾಗುವ ವಿಫಲತೆಗಳು ಸೂಚನಾ ಕ್ರಮಾನುಗತಿಯ ವಿಫಲತೆಗಳಾಗಿಯೂ ಕಾಣಿಸಿಕೊಳ್ಳಬಹುದು: ಮಾಡೆಲ್ ಒಂದು ಸೂಚನಾ ಸಂಘರ್ಷವನ್ನು ಪರಿಹರಿಸಲು ವಿಫಲವಾಗಬಹುದು, ಅದು ಪಾತ್ರಗಳ ಕ್ರಮಾನುಗತಿಯನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದಿಲ್ಲ ಎಂಬ ಕಾರಣದಿಂದಲ್ಲ, ಆದರೆ ಸೂಚನೆಗಳೇ ತುಂಬಾ ಸಂಕೀರ್ಣವಾಗಿರುವುದರಿಂದ.
- ಸೂಚನೆಗಳ ನಡುವಿನ ಸಂಘರ್ಷಗಳು ಸೂಕ್ಷ್ಮವಾಗಿರಬಹುದು ಮತ್ತು ಕೆಲವೊಮ್ಮೆ ವೈಯಕ್ತಿಕ ಅಭಿಪ್ರಾಯಾಧಾರಿತವಾಗಿರಬಹುದು. ಸಾಮಾನ್ಯ ವಿಧಾನವೆಂದರೆ ತರಬೇತಿ ಪಡೆಯುತ್ತಿರುವ LLM ಗೆ ರಿವಾರ್ಡ್ಗಳನ್ನು ನಿಯೋಜಿಸಲು ಪ್ರತ್ಯೇಕ LLM ತೀರ್ಪುಗಾರರನ್ನು ಬಿಡುವುದು, ಆದರೆ ತೀರ್ಪುಗಾರರು ತಾವೇ ತಪ್ಪುಮಾಡಬಹುದು.
- ಮಾಡೆಲ್ಗಳು ಹೆಚ್ಚಿನ ಬಹುಮಾನಕ್ಕೆ ಕಾರಣವಾಗುವ, ಆದರೆ ಪ್ರಾಯೋಗಿಕವಾಗಿ ಉಪಯೋಗವಿಲ್ಲದ ಶಾರ್ಟ್ಕಟ್ಗಳನ್ನು(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಕಲಿಯುವ ಪ್ರವೃತ್ತಿ ಹೊಂದಿರುತ್ತವೆ. ಶಾಸ್ತ್ರೀಯ ಉದಾಹರಣೆ ಅತಿಯಾದ ನಿರಾಕರಣೆಗಳು: ಮಾಡೆಲ್ಗಳು ಹಾನಿರಹಿತ ವಿನಂತಿಗಳನ್ನೂ ಸಹ ನಿರಾಕರಿಸುವ ಮೂಲಕ ಸುರಕ್ಷತೆಯನ್ನು ಗರಿಷ್ಠಗೊಳಿಸಲು ಕಲಿಯಬಹುದು.
ಆ ಪಿತ್ಫಾಲ್ಗಳ ಪ್ರತಿಯೊಂದನ್ನೂ ಪರಿಹರಿಸಲು ನಾವು IH-Challenge ಅನ್ನು, ರೀಇನ್ಫೋರ್ಸ್ಮೆಂಟ್ ಲರ್ನಿಂಗ್ ತರಬೇತಿ ಡೇಟಾಸೆಟ್ ಅನ್ನು ವಿನ್ಯಾಸಗೊಳಿಸುತ್ತೇವೆ. ನಾವು ಕೆಳಗಿನ ತತ್ವಗಳನ್ನು ಪಾಲಿಸುತ್ತೇವೆ:
- ಕಾರ್ಯಗಳು ಸೂಚನೆಗಳನ್ನು ಅನುಸರಿಸಲು ಸರಳವಾಗಿವೆ
- ಅವುಗಳನ್ನು ಸರಳ Python ಸ್ಕ್ರಿಪ್ಟ್ ಮೂಲಕ ವಸ್ತುನಿಷ್ಠವಾಗಿ ಮೌಲ್ಯಮಾಪನ ಮಾಡಬಹುದು
- ಎಲ್ಲಾ ಟಾಸ್ಕ್ಗಳಾದ್ಯಂತ ಹೆಚ್ಚಿನ ರಿವಾರ್ಡ್ ಖಚಿತಪಡಿಸುವ ಯಾವುದೇ ತೀರಾ ಸರಳ ಶಾರ್ಟ್ಕಟ್ಗಳು ಇಲ್ಲ
IH-Challenge ನಲ್ಲಿನ ಪ್ರತಿಯೊಂದು ಕಾರ್ಯವು ಮೂಲತಃ ಕೆಳಗಿನ ಸಂದೇಶಗಳೊಂದಿಗೆ ಇರುವ ಒಂದು ಸಂಭಾಷಣೆಯಾಗಿದೆ:
- ಉನ್ನತ-ಅಧಿಕಾರ ಪಾತ್ರದಿಂದ ಬಂದ ಸೂಚನಾ ಸಂದೇಶ, ಉದಾಹರಣೆಗೆ, “‘ಹೌದು’ ಅಥವಾ ‘ಇಲ್ಲ’ ಮಾತ್ರ ಉತ್ತರಿಸಿ”.
- ಕಡಿಮೆ-ಪ್ರಿವಿಲೇಜ್ ಪಾತ್ರದಿಂದ ಬಂದಿರುವ ಒಂದು ಸೂಚನಾ ಸಂದೇಶ, ಇದು ಮೇಲಿನ-ಪ್ರಿವಿಲೇಜ್ ಸಂದೇಶದಲ್ಲಿನ ಸೂಚನೆಗಳನ್ನು ಉಲ್ಲಂಘಿಸಲು ಮಾಡೆಲ್ ಅನ್ನು ಪ್ರೇರೇಪಿಸಲು ಪ್ರಯತ್ನಿಸುತ್ತದೆ.
ಟ್ರೈನ್ ಮಾಡಲಾಗುತ್ತಿರುವ ಮಾಡೆಲ್ ಮುಂದಿನ ಸಂದೇಶವನ್ನು ರಚಿಸುತ್ತದೆ. ಮಾಡೆಲ್ನ ಪ್ರತಿಕ್ರಿಯೆ ಉನ್ನತ-ಮಟ್ಟದ ನಿರ್ಬಂಧವನ್ನು ಪೂರೈಸುತ್ತದೆಯೇ ಎಂಬುದನ್ನು ಪ್ರೋಗ್ರಾಮ್ಯಾಟಿಕ್ ರೀತಿಯಲ್ಲಿ ಪರಿಶೀಲಿಸಲು ಸಾಧ್ಯವಾಗುವಂತೆ ನಾವು ಕಾರ್ಯಗಳು/ಪರಿಸರಗಳನ್ನು ಬರೆಯುತ್ತೇವೆ.
ನಾವು IH‑Challenge ಮೇಲೆ ಮಾಡೆಲ್ಗೆ ತರಬೇತಿ ನೀಡಿ, GPT‑5 Mini-R ಎಂದು ಕರೆಯುವ ಆಂತರಿಕ ಮಾಡೆಲ್ ಅನ್ನು ಉತ್ಪಾದಿಸುತ್ತೇವೆ, ಕೆಳಗಿನ ಸುಧಾರಣೆಗಳೊಂದಿಗೆ:
- ಸೂಚನೆ‑ಹಯರಾರ್ಕಿ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳಲ್ಲಿ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ
- ಸುಧಾರಿತ ಕಾರ್ಯಕ್ಷಮತೆ ತಡೆಹಿಡಿದ ಮತ್ತು ಪ್ರತಿಕೂಲ ಸೂಚನೆ ಕ್ರಮಾನುಗತ ಪರೀಕ್ಷೆಗಳಿಗೆ ಸಾಮಾನ್ಯೀಕರಿಸುತ್ತದೆ
- ಅತಿಯಾಗಿ ನಿರಾಕರಣೆಯಾಗಿ ಕುಸಿಯದೆ, ಒಟ್ಟಾರೆ ಉಪಯುಕ್ತತೆಯನ್ನು ಕಾಪಾಡುತ್ತದೆ
ಇದೇ ಈ ವಿಧಾನವನ್ನು ಸುರಕ್ಷತೆಗೆ ವಿಶೇಷವಾಗಿ ಆಕರ್ಷಕವಾಗಿಸುವುದು: IH-challenge ಕಾರ್ಯಗಳಲ್ಲಿ ಸೂಚನಾ ಸಂಘರ್ಷಗಳನ್ನು ಸರಿಯಾಗಿ ಪರಿಹರಿಸುವಂತೆ ನೇರವಾಗಿ ಮಾಡೆಲ್ಗಳನ್ನು ತರಬೇತುಗೊಳಿಸುವ ಮೂಲಕ, ನಾವು ಹೊಸ ದಾಳಿಗಳು ಮತ್ತು ಹೊಸ ಪರಿಸ್ಥಿತಿಗಳಿಗೆ ಸಾಮಾನ್ಯೀಕರಿಸುವ IH ಸುಧಾರಣೆಗಳನ್ನು ಪಡೆಯುತ್ತೇವೆ.
ಅಕಾಡೆಮಿಕ್ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳ ಮೇಲೆ ದೃಢತೆ
ಮೌಲ್ಯಮಾಪನ | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf ಪಾಸ್ವರ್ಡ್ (ಸಿಸ್ಟಮ್-ಬಳಕೆದಾರ) | 0.99 | 0.99 (+0) |
Gandalf ಪಾಸ್ವರ್ಡ್ (ಡೆವ್-ಬಳಕೆದಾರ) | 0.98 | 1.00 (+0.02) |
TensorTrust (ಸಿಸ್ಟಮ್-ಬಳಕೆದಾರ) | 0.86 | 0.94 (+0.08) |
TensorTrust (ಡೆವ್-ಬಳಕೆದಾರ) | 0.76 | 0.91 (+0.15) |
RealGuardrails (ಗಮನಭ್ರಂಶಕಾರಕಗಳು) | 0.88 | 0.95 (+0.07) |
RealGuardrails (ಕೈಬರಹ) | 0.82 | 0.89 (+0.07) |
ಸಿಸ್ಟಮ್ IFEval | 0.92 | 0.96 (+0.04) |
ಆಂತರಿಕ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳಲ್ಲಿ ದೃಢತೆ
ಮೌಲ್ಯಮಾಪನ | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (ಸಿಸ್ಟಮ್-ಬಳಕೆದಾರ) | 0.96 | 0.99 (+0.03) |
Tutor Jailbreak (ಡೆವ್-ಬಳಕೆದಾರ) | 0.97 | 0.99 (+0.02) |
ಸಿಸ್ಟಮ್ <> ಬಳಕೆದಾರ ಸಂಘರ್ಷ | 0.84 | 0.95 (+0.11) |
ಸಿಸ್ಟಮ್ <> ಡೆವಲಪರ್ ಸಂಘರ್ಷ | 0.86 | 0.86 (+0) |
ಡೆವಲಪರ್ <> ಬಳಕೆದಾರ ಸಂಘರ್ಷ | 0.83 | 0.95 (+0.12) |
ಸಾಮರ್ಥ್ಯ ಹಿಂಜರಿತಗಳಿಲ್ಲ
ಮೌಲ್ಯಮಾಪನ | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (ಅತಿಯಾದ ನಿರಾಕರಣೆ) | 0.79 | 1.00 (+0.21) |
TensorTrust (ಅತಿಯಾದ ನಿರಾಕರಣೆ) | 0.91 | 0.90 (-0.01) |
GPQA ಡೈಮಂಡ್ | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
Chat WinRate vs. o1 | 0.71 | 0.66 (-0.05) |
ಆದ್ಯತೆ ಅಂಕೆ | 0.46 | 0.40 (-0.06) |
ಹೆಚ್ಚು ಬಲವಾದ ಸೂಚನೆ ಶ್ರೇಣೀಕರಣವು ಸುರಕ್ಷತಾ ಸ್ಟೀರಬಿಲಿಟಿ ಮತ್ತು ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ದೃಢತೆ ಸೇರಿದಂತೆ, ಒಂದೇ ಸಮಯದಲ್ಲಿ ಅನೇಕ ಸುರಕ್ಷತಾ ಪ್ರಯೋಜನಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ.
ಸಿಸ್ಟಮ್ ಪ್ರಾಂಪ್ಟ್ಗೆ ವರ್ಗ-ನಿರ್ದಿಷ್ಟ ಸುರಕ್ಷತಾ ವಿಶೇಷಣಗಳನ್ನು ಸೇರಿಸುವ ಮೂಲಕ ಮತ್ತು OpenAI ಯ ಸುರಕ್ಷತಾ ಉತ್ಪಾದನಾ ಮಾನದಂಡಗಳು (ಉತ್ಪಾದನೆಯಲ್ಲಿ ChatGPT ಅನ್ನು ಪ್ರತಿನಿಧಿಸುವ ಸುರಕ್ಷತಾ-ಸಂವೇದನಾಶೀಲ ಸಂಭಾಷಣೆಗಳ ಸಮೂಹ) ಮೇಲೆ ವರ್ತನೆಯನ್ನು ಅಳೆಯುವ ಮೂಲಕ ನಾವು ಸುರಕ್ಷತಾ ಸ್ಟೀರಬಿಲಿಟಿ ಅನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತೇವೆ.
IH-ತರಬೇತುಗೊಂಡ ಮಾಡೆಲ್ ನಿರಂತರ ಸುಧಾರಣೆಯನ್ನು ತೋರಿಸುತ್ತದೆ: ಸುರಕ್ಷತಾ ಸ್ಪೆಕ್ ಇದ್ದಾಗ, ಅದು ಅನುಮತಿಸದ ವರ್ಗಗಳಲ್ಲಿ ಹೆಚ್ಚಿನ ನಿರಾಕರಣೆ ಮತ್ತು ಸುರಕ್ಷಿತ ಪೂರ್ಣಗೊಳಿಸುವಿಕೆ ದರಗಳನ್ನು ಸಾಧಿಸುತ್ತದೆ. ಬಲವಾದ ಸೂಚನೆ ಶ್ರೇಣೀಕರಣ ನಡವಳಿಕೆ ಅಸುರಕ್ಷಿತ ವಿನಂತಿಗಳು ಕಡಿಮೆ-ಪ್ರಾಮುಖ್ಯತೆಯ ಸೂಚನೆಗಳಿಂದ ಬಂದಾಗ ಸಂಘರ್ಷಗಳನ್ನು ಪರಿಹರಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಗಮನಾರ್ಹವಾಗಿ, ಈ ಸುಧಾರಣೆಯೊಂದಿಗೆ ಸಹಾಯಕತೆಯ ದರದಲ್ಲಿ ಹೊಂದಾಣಿಕೆಯ ಇಳಿಕೆ ಕಾಣಿಸುವುದಿಲ್ಲ (ಅಂದರೆ, ಒಟ್ಟಾರೆ ಹೆಚ್ಚು ನಿರಾಕರಿಸುವುದರಿಂದ ಮಾತ್ರ ಇದು ಕಡಿಮೆ “ಸಹಾಯಕಾರಕ” ಆಗುತ್ತಿಲ್ಲ).


IH-ತರಬೇತಿ ಪಡೆದ ಮಾಡೆಲ್ GPT‑5 Mini (ಬೇಸ್ಲೈನ್) ಮೋಸಹೋಗುವ ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ಗಳಿಗೆ ಹೇಗೆ ಪ್ರತಿರೋಧಿಸುತ್ತದೆ ಎಂಬುದರ ಉದಾಹರಣೆ.
ಸಾಧನ ಔಟ್ಪುಟ್ಗಳಲ್ಲಿ ದುರುದ್ದೇಶಿತ ಸೂಚನೆಗಳನ್ನು ಅಳವಡಿಸಿದಾಗ, ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ಅನ್ನು ತಡೆಯುವಲ್ಲಿ ಸೂಚನೆ ಶ್ರೇಣೀಕರಣವೂ ಕೇಂದ್ರವಾಗಿದೆ. ನಾವು IH-ತರಬೇತಿ ಪಡೆದ ಮಾಡೆಲ್ ಅನ್ನು ಎರಡು ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳ ಮೇಲೆ ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತೇವೆ—ಒಂದು ಅಕಾಡೆಮಿಕ್ ಬೆಂಚ್ಮಾರ್ಕ್ CyberSecEval 2 ಮತ್ತು OpenAI ಆಂತರಿಕ ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ಬೆಂಚ್ಮಾರ್ಕ್, ಇದು ಹಳೆಯ ಆವೃತ್ತಿಯ ChatGPT Atlas ನಲ್ಲಿ ಪ್ರದರ್ಶಿಸಿದಂತೆಯೇ ದಾಳಿಗಳನ್ನು ಒಳಗೊಂಡಿದೆ.
ಬೇಸ್ಲೈನ್ಗೆ ಹೋಲಿಸಿದರೆ, IH-ತರಬೇತಿ ಪಡೆದ GPT‑5 Mini-R ಮಾಡೆಲ್ ಈ ಪ್ರಯೋಗಗಳಲ್ಲಿ ಎರಡೂ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳಲ್ಲಿ ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ರಾಬಸ್ಟ್ನೆಸ್ ಅನ್ನು ಸುಧಾರಿಸುತ್ತದೆ ಮತ್ತು ನಮ್ಮ ಆಂತರಿಕ ಸ್ಥಿರ ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಗಮನಾರ್ಹವಾಗಿ ಸುಧಾರಿಸುತ್ತದೆ.
ಮಾಡೆಲ್ಗಳು ಹೆಚ್ಚು ಏಜೆಂಟಿಕ್ ಆಗುತ್ತಾ—ಟೂಲ್ಗಳನ್ನು ಕರೆದು, ನಂಬಿಕರ್ಹವಲ್ಲದ ಡಾಕ್ಯುಮೆಂಟ್ಗಳನ್ನು ಓದಿ ಮತ್ತು ಜಗತ್ತಿನಲ್ಲಿ ಕ್ರಮಗಳನ್ನು ಕೈಗೊಳ್ಳುತ್ತಾ—ನಂಬಿಕರ್ಹವಲ್ಲದ ಸೂಚನೆಗಳಿಗಿಂತ ನಂಬಿಕರ್ಹ ಸೂಚನೆಗಳಿಗೆ ಸತತವಾಗಿ ಆದ್ಯತೆ ನೀಡುವ ಸಾಮರ್ಥ್ಯವು ಪ್ರಮುಖ ಸುರಕ್ಷತಾ ಗುಣಲಕ್ಷಣವಾಗುತ್ತದೆ.
ಈ ಕೆಲಸವು IH ದೃಢತೆ ತರಬೇತಿಯ ಹಲವಾರು ಸಾಮಾನ್ಯ ತಪ್ಪುಗಳನ್ನು, ಆ ತಪ್ಪುಗಳನ್ನು ಪರಿಹರಿಸುವ ತರಬೇತಿ ಪರಿಸರಗಳನ್ನು ವಿನ್ಯಾಸಗೊಳಿಸುವ ಮೂಲಕ ನಿವಾರಿಸಬಹುದು ಎಂದು ತೋರಿಸುತ್ತದೆ. ನಮ್ಮ IH-Challenge ಡೇಟಾಸೆಟ್ ಸರಳವಾಗಿ ಕಾಣಿಸಿದರೂ, ಈ ಪರಿಸರಗಳಿಂದ IH ವರ್ತನೆ ಮಾಡೆಲ್ಗಳು ಕಲಿಯುವ ಸಾಮಾನ್ಯೀಕರಣವು ಹೆಚ್ಚು ವಾಸ್ತವಿಕ ಮತ್ತು ಹೆಚ್ಚು ವಸ್ತುನಿಷ್ಠವಾಗಿ-ಮೌಲ್ಯಮಾಪನ-ಮಾಡಲಾಗದ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳಿಗೆ ವಿಸ್ತರಿಸುತ್ತದೆ.
ಸೂಚನಾ ಕ್ರಮಾನುಗತಿಯನ್ನು ಬಲಪಡಿಸುವುದು ವಿಶ್ವಾಸಾರ್ಹತೆಯನ್ನು ಸುಧಾರಿಸುವುದಷ್ಟೇ ಅಲ್ಲ, ಒಂದೇ ವೇಳೆ ಅನೇಕ ಸುರಕ್ಷತೆ ಮತ್ತು ಭದ್ರತಾ ಲಾಭಗಳನ್ನು ತೆರೆದಿಡುತ್ತದೆ—AI ವ್ಯವಸ್ಥೆಗಳು ಹೆಚ್ಚು ಸಮರ್ಥ ಮತ್ತು ಹೆಚ್ಚು ಸ್ವಾಯತ್ತವಾಗುತ್ತಾ ಹೋಗುತ್ತಿದ್ದಂತೆ ಹೆಚ್ಚುತ್ತಿರುವ ಮಹತ್ವ ಪಡೆಯುವ ಒಂದು ಮೂಲಾಧಾರ.
ಈ ಕ್ಷೇತ್ರದಲ್ಲಿ ಮುಂದಿನ ಸಂಶೋಧನೆಯನ್ನು ಬೆಂಬಲಿಸಲು, ನಾವು IH‑Challenge ಡೇಟಾಸೆಟ್ ಅನ್ನು ಇಲ್ಲಿ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಬಿಡುಗಡೆ ಮಾಡುತ್ತಿದ್ದೇವೆ.


