ರೀಜನಿಂಗ್ ಮಾಡೆಲ್ಗಳು ತಮ್ಮ ಚೈನ್-ಆಫ್-ಥಾಟ್ಗಳನ್ನು ನಿಯಂತ್ರಿಸಲು ಕಷ್ಟಪಡುತ್ತವೆ ಮತ್ತು ಅದು ಒಳ್ಳೆಯದೇ
ಅತ್ಯಾಧುನಿಕ ಮಾಡೆಲ್ಗಳ ಮಿತಿಯು AI ಸುರಕ್ಷತೆಗೆ ಏಕೆ ಭರವಸೆ ನೀಡುತ್ತದೆ.
AI ಏಜೆಂಟ್ಗಳು ಹೆಚ್ಚುತ್ತಿರುವ ಸಂಕೀರ್ಣ ಮತ್ತು ಸ್ವಾಯತ್ತ ಕಾರ್ಯಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಸಮರ್ಥವಾಗುತ್ತಿರುವಂತೆ, ಅವುಗಳ ವರ್ತನೆಯ ವಿಶ್ವಾಸಾರ್ಹ ಮೇಲ್ವಿಚಾರಣೆಯನ್ನು ಕಾಯ್ದುಕೊಳ್ಳುವುದು ಹೆಚ್ಚು ಮುಖ್ಯವಾಗುತ್ತದೆ. ಹಂತ ಹಂತವಾಗಿ ಅನ್ವಯಿಸುವ ನಮ್ಮ ನೀತಿಗೆ ಅನುಗುಣವಾಗಿ, ನೈಜ-ಪ್ರಪಂಚದ ಪರಿಸ್ಥಿತಿಗಳಲ್ಲಿ ವ್ಯವಸ್ಥೆಗಳು ಹೇಗೆ ವರ್ತಿಸುತ್ತವೆ ಎಂಬುದನ್ನು ನಾವು ಅಧ್ಯಯನ ಮಾಡುತ್ತೇವೆ ಮತ್ತು ಸಾಮರ್ಥ್ಯಗಳು ಮುಂದುವರಿದಂತೆ ಸುರಕ್ಷತಾ ಕ್ರಮಗಳನ್ನು ನಿರಂತರವಾಗಿ ಪರಿಷ್ಕರಿಸುತ್ತೇವೆ. ಇದನ್ನು ಬೆಂಬಲಿಸಲು, ನಮ್ಮ ಸುರಕ್ಷತಾ ವಿಧಾನ ವು ಗಾಢ ರಕ್ಷಣೆಯನ್ನು ಬಳಸುತ್ತದೆ, ಸುರಕ್ಷತಾ ತರಬೇತಿ, ನಡವಳಿಕಾ ಪರೀಕ್ಷೆ, ಏಜೆಂಟಿಕ್ ಕೋಡ್ ವಿಮರ್ಶೆ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಮತ್ತು ಚೈನ್-ಆಫ್-ಥಾಟ್ (CoT) ಮೇಲ್ವಿಚಾರಣೆ ಮುಂತಾದ ಅನೇಕ ಪರಸ್ಪರ ಪೂರಕ ರಕ್ಷಣಾ ಪದರಗಳೊಂದಿಗೆ. CoT monitoring ಕಾರ್ಯಗಳನ್ನು ಮುಂದುವರಿಸುವಾಗ ಏಜೆಂಟ್ಗಳು ರಚಿಸುವ ರೀಜನಿಂಗ್ ಹಂತಗಳನ್ನು ವಿಶ್ಲೇಷಿಸುತ್ತದೆ. ಈ ರೀಜನಿಂಗ್ ಟ್ರೇಸ್ಗಳು ಟ್ರೈನಿಂಗ್ ಮತ್ತು ನಿಯೋಜನೆ ಎರಡರ ಸಮಯದಲ್ಲಿಯೂ ಮೌಲ್ಯಯುತ ಸಂಕೇತಗಳನ್ನು ಒದಗಿಸಬಹುದು, ಇದರಿಂದ ಮೇಲ್ವಿಚಾರಣೆ ವ್ಯವಸ್ಥೆಗಳು ಏಜೆಂಟ್ನ ವರ್ತನೆ ಯಾವಾಗ ಅಸುರಕ್ಷಿತವಾಗಿರಬಹುದು ಅಥವಾ ಬಳಕೆದಾರರ ಉದ್ದೇಶಿತ ಗುರಿಗಳೊಂದಿಗೆ ಅಸಂಗತವಾಗಿರಬಹುದು ಎಂಬುದನ್ನು ಗುರುತಿಸಲು ಸಹಾಯವಾಗುತ್ತದೆ.
ಇಂದು, ನಾವು ಕಂಡುಕೊಳ್ಳುವುದೇನೆಂದರೆ ಮಾಡೆಲ್ಗಳ ರೀಜನಿಂಗ್ ಸಾಮಾನ್ಯವಾಗಿ ಅರ್ಥೈಸಬಹುದಾಗಿದೆ ಮತ್ತು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಲು ಸುಲಭವಾಗಿದೆ. ಆದಾಗ್ಯೂ, ಭವಿಷ್ಯದಲ್ಲಿ, ವಿವಿಧ ಕಾರಣಗಳಿಂದ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ನಿಗಾ ವಹಿಸುವ ಸಾಮರ್ಥ್ಯವು ಕಾಲಾನಂತರದಲ್ಲಿ ವಿಫಲವಾಗಬಹುದು. ಇಲ್ಲಿ, ನಾವು ಇಂತಹ ಒಂದು ಮಾರ್ಗದ ಮೇಲೆ ಗಮನಹರಿಸುತ್ತೇವೆ: ಏಜೆಂಟ್ಗಳು ನಿಗಾ ವಹಿಸಲಾಗುತ್ತಿದೆ ಎಂದು ತಿಳಿದಾಗ ತಮ್ಮ ರೀಜನಿಂಗ್ ಅನ್ನು ಉದ್ದೇಶಪೂರ್ವಕವಾಗಿ ಮರುರೂಪಗೊಳಿಸಲು ಅಥವಾ ಮರೆಮಾಚಲು ಸಾಮರ್ಥ್ಯ ಹೊಂದಿದರೆ, ಮೌಲ್ಯಮಾಪನಗಳು ವ್ಯವಸ್ಥೆಯ ಹೊಂದಾಣಿಕೆ ಅಥವಾ ಸುರಕ್ಷತೆಯನ್ನು ಅತಿಮೌಲ್ಯಮಾಪನ ಮಾಡಬಹುದು ಮತ್ತು ನಿಗಾ ವಹಿಸುವ ವ್ಯವಸ್ಥೆಗಳು ಕಡಿಮೆ ವಿಶ್ವಾಸಾರ್ಹವಾಗಬಹುದು.
ಈ ಕೃತಿಯಲ್ಲಿ, ನಾವು ಪ್ರಸ್ತುತ ರೀಜನಿಂಗ್ ಮಾಡೆಲ್ಗಳು ತಮ್ಮ ಚೈನ್-ಆಫ್-ಥಾಟ್ ಅನ್ನು ಮೇಲ್ವಿಚಾರಣೀಯತೆಯನ್ನು ಕಡಿಮೆ ಮಾಡುವ ರೀತಿಯಲ್ಲಿ ನಿಯಂತ್ರಿಸಲು ಸಾಮರ್ಥ್ಯವಿದೆಯೇ ಎಂಬುದನ್ನು ಅಧ್ಯಯನ ಮಾಡುತ್ತೇವೆ. AI ವ್ಯವಸ್ಥೆಗಳು ಹೆಚ್ಚು ಸಮರ್ಥವಾಗುತ್ತಿದ್ದಂತೆ CoT ನಿಗಾ ವಹಿಸುವಿಕೆ ದೃಢವಾದ ಭದ್ರತಾ ಕ್ರಮವಾಗಿ ಉಳಿಯುವುದನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು ಈ ಸಾಮರ್ಥ್ಯವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು ಮುಖ್ಯವಾಗಿದೆ. ನಾವು ಕಂಡುಕೊಂಡಿರುವುದು ಪ್ರಸ್ತುತ ರೀಜನಿಂಗ್ ಮಾಡೆಲ್ಗಳು ತಮ್ಮ CoTs ಅನ್ನು ನಿಯಂತ್ರಿಸಲು ಕಷ್ಟಪಡುತ್ತವೆ, ಅವುಗಳನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಲಾಗುತ್ತಿದೆ ಎಂದು ಹೇಳಿದರೂ ಸಹ. ದೊಡ್ಡ ಮಾಡೆಲ್ಗಳಿಗೆ ನಿಯಂತ್ರಣ ಸಾಮರ್ಥ್ಯ ಹೆಚ್ಚು ಇದ್ದರೂ, ಮಾಡೆಲ್ಗಳಿಗೆ ಹೆಚ್ಚು ಸಮಯ ತಾರ್ಕಿಕತೆ ಮಾಡಲು ಕೇಳಿದಂತೆ ಮತ್ತು ಅವುಗಳು ಹೆಚ್ಚುವರಿ ನಂತರದ ತರಬೇತಿಗೆ ಒಳಗಾದಾಗ ಅದು ಕಡಿಮೆಯಾಗುತ್ತದೆ. ನಮ್ಮ ಫಲಿತಾಂಶಗಳು CoT ನಿಯಂತ್ರಣೀಯತೆಯು ಪ್ರಸ್ತುತ CoT ನಿಗಾ ವಹಿಸುವಿಕೆಯ ಸಾಧ್ಯತೆಗೆ ಪ್ರಮುಖ ಅಪಾಯವನ್ನು ಉಂಟುಮಾಡುವ ಸಾಧ್ಯತೆ ಕಡಿಮೆ ಎಂದು ಸೂಚಿಸುತ್ತವೆ, ಆದರೂ ಮಾಡೆಲ್ಗಳು ಮುಂದುವರಿದಂತೆ ನಿರಂತರ ಮೌಲ್ಯಮಾಪನವು ಮಹತ್ವವಾಗಿರುತ್ತದೆ.
ಚೈನ್ ಆಫ್ ಥಾಟ್ ಎಂದರೆ ಒಂದು ಕಾರ್ಯವನ್ನು ಪರಿಹರಿಸುವಾಗ AI ಏಜೆಂಟ್ ಉತ್ಪಾದಿಸುವ ಮಧ್ಯಂತರ ರೀಜನಿಂಗ್ ಹಂತಗಳನ್ನು ಸೂಚಿಸುತ್ತದೆ. ಈ ರೀಜನಿಂಗ್ ಟ್ರೇಸ್ಗಳು ಉಪಯುಕ್ತ ಸುರಕ್ಷತಾ ಸಂಕೇತಗಳನ್ನು ಒದಗಿಸಬಹುದು, ಮೇಲ್ವಿಚಾರಣೆ ವ್ಯವಸ್ಥೆಗಳು ಒಂದು ಏಜೆಂಟ್ನ ನಡವಳಿಕೆ ಸುರಕ್ಷಿತವಾಗಿದೆಯೇ ಅಥವಾ ಹೊಂದಾಣಿಕೆಯಾಗಿದೆಯೇ ಎಂಬುದನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಸಹಾಯ ಮಾಡುತ್ತವೆ.
CoT ನಿಯಂತ್ರಣಯೋಗ್ಯತೆ ಎಂದರೆ ರೀಜನಿಂಗ್ ಮಾಡೆಲ್ನ CoT ನ ಗುಣಲಕ್ಷಣಗಳನ್ನು ನಿಗಾ ವಹಿಸುವಿಕೆಯ ಸಾಧ್ಯತೆಯನ್ನು ಕಡಿಮೆ ಮಾಡುವ ರೀತಿಯಲ್ಲಿ ನಿಯಂತ್ರಿಸುವ ಸಾಮರ್ಥ್ಯ. ಪ್ರಯೋಗದಲ್ಲಿ ನಾವು ನಿರೀಕ್ಷಿಸಬಹುದಾದ ಮೇಲ್ವಿಚಾರಣೆಗಳನ್ನು ತಪ್ಪಿಸಿಕೊಳ್ಳಲು ಇರುವ ವಾಸ್ತವಿಕ ಪ್ರೇರಣೆಗಳ ಸಂಪೂರ್ಣ ವ್ಯಾಪ್ತಿಯ ಅಡಿಯಲ್ಲಿ ಈ ಸಾಮರ್ಥ್ಯವನ್ನು ಅಳೆಯುವುದು ಸವಾಲಿನ ಸಂಗತಿ. ಬದಲಾಗಿ, ನಾವು ಒಂದು ಪ್ರಾಯೋಗಿಕ ಪ್ರತಿನಿಧಿಯನ್ನು ಬಳಸುತ್ತೇವೆ: ನಾವು ಬಳಕೆದಾರರ CoT ಕುರಿತು ಸೂಚನೆಗಳನ್ನು ಅನುಸರಿಸುವಲ್ಲಿ ಮಾಡೆಲ್ನ ಸಾಮರ್ಥ್ಯವನ್ನು ಅಳೆಯುತ್ತೇವೆ. ಉದಾಹರಣೆಗೆ, ನಾವು ಒಂದು ಮಾಡೆಲ್ ತನ್ನ ಆಂತರಿಕ ರೀಜನಿಂಗ್ಗೆ ಪರಿಣಾಮ ಬೀರುವ ಸೂಚನೆಗಳನ್ನು ಅನುಸರಿಸಬಹುದೇ ಎಂದು ಪರೀಕ್ಷಿಸುತ್ತೇವೆ—ಉದಾಹರಣೆಗೆ ಕೇವಲ ಸಣ್ಣಕ್ಷರಗಳನ್ನು ಮಾತ್ರ ಬಳಸುವುದು, ಕೆಲವು ಕೀವರ್ಡ್ಗಳನ್ನು ತಪ್ಪಿಸುವುದು ಅಥವಾ ನಿರ್ದಿಷ್ಟ ವಾಕ್ಯಗಳನ್ನು ಸೇರಿಸುವುದು—ಕೇವಲ ಅದರ ಗೋಚರ ಔಟ್ಪುಟ್ ಅನ್ನು ಬದಲಾಯಿಸುವುದಕ್ಕಿಂತ.
ಇದನ್ನು ಅಧ್ಯಯನ ಮಾಡಲು, ನಾವು CoT-Control ಅನ್ನು ಪರಿಚಯಿಸುತ್ತಿದ್ದೇವೆ, ಇದು ರೀಜನಿಂಗ್ ಮಾಡೆಲ್ಗಳ CoT ನಿಯಂತ್ರಣಯೋಗ್ಯತೆಯನ್ನು ಅಳೆಯಲು ಇರುವ ಓಪನ್-ಸೋರ್ಸ್ ಮೌಲ್ಯಮಾಪನ ಸ್ಯೂಟ್ ಆಗಿದೆ. CoT-Control ನಲ್ಲಿ ಸ್ಥಾಪಿತ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳಿಂದ ನಿರ್ಮಿಸಲಾದ 13,000 ಕ್ಕೂ ಹೆಚ್ಚು ಕಾರ್ಯಗಳು ಸೇರಿವೆ: GPQA, MMLU-Pro, HLE, BFCL ಮತ್ತು SWE-Bench ಪ್ರಮಾಣಿತ. ಪ್ರತಿ ಕಾರ್ಯವನ್ನು ಒಂದು ಬೆಂಚ್ಮಾರ್ಕ್ ಸಮಸ್ಯೆಯನ್ನು CoT ನಲ್ಲಿ ಕೆಲವು ಸಮಸ್ಯೆಗೆ ಸಂಬಂಧಿಸಿದ ಕೀವರ್ಡ್ಗಳನ್ನು ತಪ್ಪಿಸುವುದು, ಕೇವಲ ಸಣ್ಣಕ್ಷರಗಳನ್ನು ಮಾತ್ರ ಬಳಸುವುದು ಅಥವಾ ಪ್ರತಿಯೊಂದು ವಾಕ್ಯಕ್ಕೆ ನೀಡಲಾದ ಪದವನ್ನು ಸೇರಿಸುವುದು ಎಂಬಂತಹ ಒಂದು CoT ಸೂಚನೆಯೊಂದಿಗೆ ಜೋಡಿಸುವ ಮೂಲಕ ರಚಿಸಲಾಗುತ್ತದೆ.
ನಾವು 13 ರೀಜನಿಂಗ್ ಮಾಡೆಲ್ಗಳ ಮೇಲೆ ಮೌಲ್ಯಮಾಪನಗಳನ್ನು ನಡೆಸುತ್ತೇವೆ ಮತ್ತು ಅವುಗಳೆಲ್ಲವೂ ತಮ್ಮ CoTs ಅನ್ನು ನಂಬಿಗಸ್ತವಾಗಿ ನಿಯಂತ್ರಿಸಲು ಕಷ್ಟಪಡುತ್ತವೆ ಎಂಬುದನ್ನು ಕಂಡುಹಿಡಿಯುತ್ತೇವೆ. ನಾವು ನಿಯಂತ್ರಣಾರ್ಹತೆಯನ್ನು, ಮಾಡೆಲ್ ನಮ್ಮ CoT ಸೂಚನೆಗಳನ್ನು ಯಶಸ್ವಿಯಾಗಿ ಪಾಲಿಸುವ ರೀಜನಿಂಗ್ ಟ್ರೇಸ್ಗಳ ಭಾಗವಾಗಿ ಅಳೆಯುತ್ತೇವೆ. ಎಲ್ಲಾ ಅತ್ಯಾಧುನಿಕ ಮಾಡೆಲ್ಗಳಲ್ಲಿ, CoT ನಿಯಂತ್ರಣೀಯತೆ ಅಂಕಗಳು ಕಡಿಮೆಯಾಗಿವೆ, 0.1% ರಿಂದ ಆರಂಭವಾಗಿ, ನಾವು ಪರೀಕ್ಷಿಸಿದ ಯಾವುದೇ ಪ್ರಸ್ತುತ ಅತ್ಯಾಧುನಿಕ ಮಾಡೆಲ್ಗೆ 15.4% ಅನ್ನು ಮೀರಿಲ್ಲ.
ಈ ಅಸಮರ್ಥತೆ ಕಾರ್ಯವನ್ನು ತಪ್ಪಾಗಿ ಅರ್ಥಮಾಡಿಕೊಂಡದ್ದರಿಂದ ಉಂಟಾಗುವುದಿಲ್ಲ: ಮಾಡೆಲ್ಗಳು ತಮ್ಮ CoT ನಲ್ಲಿ ತಾವು ಪಡೆದ CoT ಸೂಚನೆಗಳನ್ನು ಪಾಲಿಸಲು ವಿಫಲವಾಗುತ್ತಿರುವುದನ್ನು ಗುರುತಿಸುತ್ತವೆ ಮತ್ತು ಈ ಅರಿವಿನ ನಂತರವೂ ವಿಫಲವಾಗುತ್ತಲೇ ಇರುತ್ತವೆ. ಈ ಆಶ್ಚರ್ಯಕರವಾಗಿ ಕಡಿಮೆ ಕಾರ್ಯಕ್ಷಮತೆ CoT ನಿಗಾ ವಹಿಸುವಿಕೆಯ ಸಾಧ್ಯತೆಗೆ ಒಳ್ಳೆಯ ಸುದ್ದಿ: ಮಾಡೆಲ್ಗಳು ತಮ್ಮ ರೀಜನಿಂಗ್ ಅನ್ನು ಮರೆಮಾಚಲು ಸಾಮರ್ಥ್ಯವನ್ನು ಹೊಂದಿಲ್ಲ ಎಂದು ಇದು ಸೂಚಿಸುತ್ತದೆ.
ಬಹು ಅತ್ಯಾಧುನಿಕ ಮಾಡೆಲ್ಗಳ ತಮ್ಮ ಔಟ್ಪುಟ್ಗಳು ಮತ್ತು CoT ಗಳನ್ನು ನಿಯಂತ್ರಿಸುವ ಸಾಮರ್ಥ್ಯ. ಕಡಿಮೆ CoT ನಿಯಂತ್ರಣಸಾಧ್ಯತೆ ಹೆಚ್ಚಿನ ನಿಗಾ ವಹಿಸುವಿಕೆಯೊಂದಿಗೆ ಸಂಬಂಧಿತವಾಗಿದೆ ಮತ್ತು, ಆದ್ದರಿಂದ, ಹೆಚ್ಚಿನ ಸುರಕ್ಷತೆ.
CoT ನಿಯಂತ್ರಣಯೋಗ್ಯತೆ ವಿಫಲತೆಗಳ ಉದಾಹರಣೆಗಳು
ಸಂಕ್ಷಿಪ್ತತೆಯ ಸಲುವಾಗಿ ಪ್ರಶ್ನೆಗಳನ್ನು ಪರಿವ್ಯಾಖ್ಯಾನಿಸಲಾಗಿದೆ.
GPT-5.2 Thinking
GPT‑5.2 Thinking ನಿಷಿದ್ಧ ಪದವನ್ನು (red) ಬಳಸಬಾರದೆಂದು ತಿಳಿದುಕೊಳ್ಳುತ್ತದೆ. ನಂತರ ಅದನ್ನು ಈಗಾಗಲೇ ಬಳಸಿದ್ದೇನೆಂದು ಗಾಬರಿಗೊಂಡು ಇನ್ನೂ ನಾಲ್ಕು ಬಾರಿ ಬಳಸುತ್ತದೆ.
ಮಾಡೆಲ್ ಗಾತ್ರದೊಂದಿಗೆ ನಿಯಂತ್ರಣಸಾಧ್ಯತೆ ಹೆಚ್ಚುತ್ತದೆ ಎಂದು ನಾವು ನೋಡುತ್ತೇವೆ, ಆದರೆ ಟ್ರೈನಿಂಗ್ ನಂತರ ಮತ್ತು ಪರೀಕ್ಷಾ-ಸಮಯದ ಗಣನೆ ಪ್ರಮಾಣದೊಂದಿಗೆ ಅದು ಶೀಘ್ರವಾಗಿ ಕಡಿಮೆಯಾಗುತ್ತದೆ ಎಂಬುದನ್ನೂ ನಾವು ಕಂಡುಕೊಳ್ಳುತ್ತೇವೆ. ಓಪನ್ ವೇಟ್ ಮಾಡೆಲ್ಗಳ ಎರಡು ಕುಟುಂಬಗಳಾದ್ಯಂತ ನೋಡಿದಾಗ, ದೊಡ್ಡ ಮಾಡೆಲ್ಗಳು ತಮ್ಮ ಚೈನ್-ಆಫ್-ಥಾಟ್ಗಳನ್ನು ನಿಯಂತ್ರಿಸುವಲ್ಲಿ ಸ್ವಲ್ಪ ಉತ್ತಮವಾಗಿದ್ದವು, ಆದರೆ ದೊಡ್ಡ ಗಾತ್ರಗಳಲ್ಲಿ ಆ ಪರಿಣಾಮ ಕಡಿಮೆಯಾಗುತ್ತಾ ಹೋಯಿತು. ಆದರೆ ನಾವು ಮಾಡೆಲ್ಗಳಿಗೆ ಹೆಚ್ಚು ಸಮಯ ಯೋಚಿಸಲು ಬಿಡುತ್ತಿದ್ದಂತೆ, ಆ ಚೈನ್-ಆಫ್-ಥಾಟ್ಗಳನ್ನು ನಿಯಂತ್ರಿಸುವ ಸಾಮರ್ಥ್ಯವು ಅವುಗಳಲ್ಲಿ ಕಡಿಮೆಯಾಯಿತು. OLMo-3-7B-RL-Zero-Math ನ RL ತರಬೇತಿಗೂ ನಾವು ಇದೇ ರೀತಿಯ ಪ್ರವೃತ್ತಿಯನ್ನು ಕಂಡೆವು: ತರಬೇತಿಯ ಅವಧಿಯಲ್ಲಿ ಅದರ ನಿಯಂತ್ರಣೀಯತೆ ಸ್ಕೋರ್ ಹತ್ತು ಪಟ್ಟುಕ್ಕಿಂತ ಹೆಚ್ಚು ಇಳಿಯಿತು.
ಓಪನ್ ವೇಟ್ ಮಾಡೆಲ್ಗಳಲ್ಲಿ ಪ್ರಮಾಣ ಹೆಚ್ಚಿದಂತೆ ನಿಯಂತ್ರಣ ಸಾಮರ್ಥ್ಯ ಹೆಚ್ಚಾಗುತ್ತದೆ, ಆದರೆ ದೀರ್ಘ ರೀಜನಿಂಗ್ ಮತ್ತು ಹೆಚ್ಚಿನ RL ತರಬೇತಿಯೊಂದಿಗೆ ಅದು ಹದಗೆಡುತ್ತದೆ.
ನಿಗಾ ವಹಿಸುವವರನ್ನು ತಪ್ಪಿಸಲು ವಾಸ್ತವಿಕ ಪ್ರೇರಣೆಗಳನ್ನು ಅನುಕರಿಸಲು, ಮಾಡೆಲ್ಗಳಿಗೆ ಅವುಗಳ ಮೇಲೆ ನಿಗಾ ವಹಿಸಲಾಗುತ್ತಿದೆ ಅಥವಾ ಮೌಲ್ಯಮಾಪನ ಮಾಡಲಾಗುತ್ತಿದೆ ಎಂದು ಹೇಳಿದಾಗ ನಾವು ನಿಯಂತ್ರಣಯೋಗ್ಯತೆಯನ್ನು ಅಳೆಯುತ್ತೇವೆ. ಇದು ಸ್ವಲ್ಪ (ಆದರೆ ಗಮನಾರ್ಹವಾಗಿ) ನಿಯಂತ್ರಣ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ. ಹೆಚ್ಚಿನ ನಿಯಂತ್ರಣಯೋಗ್ಯತೆಯನ್ನು ಹೊರತೆಗೆಯುವ ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ಕಂಡುಹಿಡಿಯಲು ನಾವು ಸ್ವಯಂಚಾಲಿತ ಪ್ರಾಂಪ್ಟ್ ಆಪ್ಟಿಮೈಸೇಶನ್ನನ್ನೂ ಬಳಸುತ್ತೇವೆ. ಆಪ್ಟಿಮೈಜರ್ ತರಬೇತಿ ಸೆಟ್ನಲ್ಲಿ ನಿಯಂತ್ರಣ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೆಚ್ಚಿಸಬಹುದಾದರೂ, ಈ ಲಾಭಗಳು ಹೊಸ ಸೂಚನೆ ಪ್ರಕಾರಗಳಿಗೆ (ಉದಾಹರಣೆಗೆ ಪದಗಳ ನಡುವೆ ಖಾಲಿ ಜಾಗಗಳೇ ಬೇಡವೆಂದು ಬೇಡಿಕೆ ಇಡುವುದು) ಸರಿಯಾಗಿ ವರ್ಗಾಯಿಸುವುದಿಲ್ಲ.
CoT ನಿಯಂತ್ರಣಯೋಗ್ಯತೆ ವಿರೋಧಿ ಪರಿಸ್ಥಿತಿಗಳಲ್ಲಿದೆ. “ನಿಗಾ ಜಾಗೃತತೆ” ಎಂದರೆ ನಾವು ಮಾಡೆಲ್ಗಳಿಗೆ ಅವರ CoT ಗಳನ್ನು ನಿಗಾ ವಹಿಸಲಾಗುತ್ತಿದೆ ಎಂದು ತಿಳಿಸುವ ಸೆಟ್ಟಿಂಗ್ಗಳನ್ನು ಸೂಚಿಸುತ್ತದೆ. “ಇವಾಲ್ ಜಾಗೃತತೆ” ಎಂಬುದು CoT ನಿಯಂತ್ರಣಯೋಗ್ಯತೆಯಿಗಾಗಿ ಮಾಡೆಲ್ಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲಾಗುತ್ತಿದೆ ಎಂದು ನಾವು ಅವುಗಳಿಗೆ ತಿಳಿಸುವ ಸೆಟ್ಟಿಂಗ್ಗಳನ್ನು ಸೂಚಿಸುತ್ತದೆ.
CoT-Controlನಲ್ಲಿನ ಕಾರ್ಯಗಳು ಪ್ರಾಯೋಗಿಕ ಪ್ರತಿನಿಧಿಗಳು: ಆದರ್ಶ CoT ನಿಯಂತ್ರಣಸಾಧ್ಯತೆ ಮೌಲ್ಯಮಾಪನವು, ಸಹಜವಾಗಿ ಅಸಮಂಜಸ ಗುರಿಗಳನ್ನು ಹಿಂಬಾಲಿಸುವ ಮಾಡೆಲ್ಗಳು ನಿಗಾ ತಪ್ಪಿಸಲು ತಮ್ಮ CoT ಅನ್ನು ನಿಯಂತ್ರಿಸಬಹುದೇ ಎಂಬುದನ್ನು ಪರೀಕ್ಷಿಸುವುದನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ. ಬದಲಾಗಿ, ಅವರ CoT ಕುರಿತು ಸೂಚನೆಗಳನ್ನು ಅನುಸರಿಸುವ ಅವರ ಸಾಮರ್ಥ್ಯವನ್ನು ಅಳೆಯುವ ಮೂಲಕ, ಏಜೆಂಟ್ಗಳು ತಮ್ಮ CoTs ಅನ್ನು ನಿಯಂತ್ರಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ನಾವು ಅಂದಾಜಿಸುತ್ತೇವೆ. ಇದಲ್ಲದೆ, ಮಾಡೆಲ್ಗಳು ತಮ್ಮ CoTನ ಕೆಲವು ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಇತರವುಗಳಿಗಿಂತ ಉತ್ತಮವಾಗಿ ನಿಯಂತ್ರಿಸಬಹುದು ಮತ್ತು CoT-Control ನಿಯಂತ್ರಣಸಾಧ್ಯತೆಯ ಕೇವಲ ಸೀಮಿತ ವಿಧಗಳನ್ನೇ ಅಳೆಯುವುದರಿಂದ ನಿಯಂತ್ರಣಯೋಗ್ಯತೆಯನ್ನು ಅತಿಯಾಗಿ ಅಥವಾ ಕಡಿಮೆಯಾಗಿ ಅಂದಾಜಿಸುತ್ತಿರಬಹುದು.
ಕಡಿಮೆ CoT ನಿಯಂತ್ರಣಯೋಗ್ಯತೆ ಒಂದು ವೈಶಿಷ್ಟ್ಯ, ದೋಷವಲ್ಲ. ಪ್ರಸ್ತುತ ರೀಜನಿಂಗ್ ಮಾಡೆಲ್ಗಳ ಕಡಿಮೆ ನಿಯಂತ್ರಣಯೋಗ್ಯತೆಯು, ರಕ್ಷಣಾತ್ಮಕ ಕ್ರಮವಾಗಿ CoT ಮೇಲ್ವಿಚಾರಣೆಯನ್ನು ಹೆಚ್ಚು ನಂಬಿಕೆಗೆ ಪಾತ್ರವಾಗಿಸುತ್ತದೆ. ಅದೇ ಸಮಯದಲ್ಲಿ, ಪ್ರಸ್ತುತ ರೀಜನಿಂಗ್ ಮಾಡೆಲ್ಗಳ ನಿಯಂತ್ರಣಯೋಗ್ಯತೆ ಏಕೆ ಕಡಿಮೆಯಾಗಿದೆ ಎಂಬುದನ್ನು ನಾವು ಇನ್ನೂ ಅರ್ಥಮಾಡಿಕೊಂಡಿಲ್ಲ—ಅಥವಾ ಮಾಡೆಲ್ಗಳು ಹೆಚ್ಚು ಸಾಮರ್ಥ್ಯಯುತವಾಗುತ್ತಾ ಬಂದಂತೆ ಈ ಗುಣಲಕ್ಷಣ ಮುಂದುವರಿಯುತ್ತದೆಯೇ ಎಂಬುದನ್ನೂ. ಆದ್ದರಿಂದ, CoT ನಿಯಂತ್ರಣಯೋಗ್ಯತೆ ಮೌಲ್ಯಮಾಪನಗಳನ್ನು ಕ್ಯಾನರಿ ಇವಾಲ್ ಎಂದು ನೋಡಬಹುದು: ಮಾಡೆಲ್ಗಳು ತಮ್ಮ ರೀಜನಿಂಗ್ ಅನ್ನು ರೂಪಿಸುವುದರಲ್ಲಿ ಅಥವಾ ಮರೆಮಾಡುವುದರಲ್ಲಿ ಉತ್ತಮವಾಗುತ್ತಿವೆಯೇ ಎಂಬುದರ ಆರಂಭಿಕ ಎಚ್ಚರಿಕೆ ಸೂಚನೆ.
ನಮ್ಮ ಫಲಿತಾಂಶಗಳು ಸೂಚಿಸುವುದೇನೆಂದರೆ CoT ನಿಯಂತ್ರಣೀಯತೆ ಪ್ರಸ್ತುತ CoT ನಿಗಾ ವಹಿಸುವಿಕೆಯ ಸಾಧ್ಯತೆಗೆ ಪ್ರಮುಖ ಅಪಾಯವನ್ನು ಉಂಟುಮಾಡುವ ಸಾಧ್ಯತೆ ಕಡಿಮೆ. ಆದರೆ, ಕಡಿಮೆ ನಿಯಂತ್ರಣಸಾಧ್ಯತೆ ಮಾತ್ರವೇ ಹೆಚ್ಚಿನ ನಿಗಾ ವಹಿಸುವಿಕೆಯ ಸಾಧ್ಯತೆಯನ್ನು ಖಚಿತಪಡಿಸಲು ಸಾಕಾಗುವುದಿಲ್ಲ, ಏಕೆಂದರೆ CoTs ಮೇಲೆ ನೇರ ಆಪ್ಟಿಮೈಸೇಶನ್ ಒತ್ತಡದಂತಹ ಇತರ ಯಾಂತ್ರಿಕೆಗಳ ಕಾರಣದಿಂದ ನಿಗಾ ವಹಿಸುವಿಕೆಯ ಸಾಧ್ಯತೆ ಇನ್ನೂ ಹದಗೆಡಬಹುದು.
ಕಾಲಕ್ರಮೇಣ ಈ ಡೈನಾಮಿಕ್ಸ್ ಅನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಲು ಸಹಾಯವಾಗುವಂತೆ, GPT‑5.4 Thinking ರಿಂದ ಆರಂಭಿಸಿ, ಭವಿಷ್ಯದ ಅತ್ಯಾಧುನಿಕ ಮಾಡೆಲ್ಗಳಿಗಾಗಿ ಸಿಸ್ಟಮ್ ಕಾರ್ಡ್ಗಳಲ್ಲಿ CoT ಮೇಲ್ವಿಚಾರಣೆ ಜೊತೆಗೆ CoT ನಿಯಂತ್ರಣಯೋಗ್ಯತೆಯನ್ನು ವರದಿ ಮಾಡಲು ನಾವು ಆರಂಭಿಸುತ್ತಿದ್ದೇವೆ, ಅತ್ಯಾಧುನಿಕ ರೀಜನಿಂಗ್ ಮಾಡೆಲ್ಗಳ CoTsಗಳಿಗೆ ನೇರವಾಗಿ ಆಪ್ಟಿಮೈಸೇಶನ್ ಒತ್ತಡವನ್ನು ಅನ್ವಯಿಸದಿರುವ ನಮ್ಮ ನಿರಂತರ ಬದ್ಧತೆ ಯ ಮೇಲೆ ಆಧಾರಿತವಾಗಿ.
ಲೇಖಕರು
Tomek Korbak, Micah Carroll, Bowen Baker, Ian Kivlichan


