ಮುಖ್ಯ ವಿಷಯಕ್ಕೆ ನೇರವಾಗಿ ಹೋಗಿ
OpenAI

ವಿಶ್ವಾಸಾರ್ಹ ಮೂರನೇ ಪಕ್ಷದ ಮೌಲ್ಯಮಾಪನಗಳಿಗಾಗಿ ಹಂಚಿಕೊಂಡ ಮಾರ್ಗಸೂಚಿ

ಫ್ರಾಂಟಿಯರ್ ಮಾಡೆಲ್‌ಗಳಿಗಾಗಿ ಸುರಕ್ಷತಾ ರಕ್ಷಣೆಗಳು ಮತ್ತು ಸಾಮರ್ಥ್ಯಗಳ ಪರಿಣಾಮಕಾರಿ ಸ್ವತಂತ್ರ ಮೌಲ್ಯಮಾಪನಗಳಲ್ಲಿ ಯಾವುದು ಮಹತ್ವದ್ದಾಗಿದೆ.

ಲೋಡ್ ಆಗುತ್ತಿದೆ…

ಸ್ವತಂತ್ರ, ವಿಶ್ವಾಸಾರ್ಹ ಮೂರನೇ ಪಕ್ಷದ ಮೌಲ್ಯಮಾಪನಗಳು ಸುರಕ್ಷತಾ ಪರಿಸರವನ್ನು ಬಲಪಡಿಸುವಲ್ಲಿ ನಿರ್ಣಾಯಕ ಪಾತ್ರ ವಹಿಸುತ್ತವೆ. ಈ ಮೌಲ್ಯಮಾಪನಗಳನ್ನು ಫ್ರಾಂಟಿಯರ್ ಮಾಡೆಲ್‌ಗಳ ಮೇಲೆ ನಡೆಸಲಾಗುತ್ತದೆ, ಇದರಿಂದ ನಿರ್ಣಾಯಕ ಸಾಮರ್ಥ್ಯಗಳು ಮತ್ತು ಸುರಕ್ಷತಾ ಶಮನಗಳ ಬಗ್ಗೆ ಇರುವ ದಾವೆಗಳಿಗೆ ಹೆಚ್ಚುವರಿ ಸಾಕ್ಷ್ಯ ಒದಗುತ್ತದೆ. ಈ ಪೋಸ್ಟ್‌ನಲ್ಲಿ, ನಾವು ಇದುವರೆಗೆ ಕಲಿತ ಪಾಠಗಳನ್ನು ಹಂಚಿಕೊಳ್ಳುತ್ತೇವೆ ಮತ್ತು ಫ್ರಾಂಟಿಯರ್ ಮಾಡೆಲ್‌ಗಳನ್ನು ಮಾನ್ಯವಾಗಿ ಮೌಲ್ಯಮಾಪನ ಮಾಡಬಲ್ಲ ಮೌಲ್ಯಮಾಪನಗಳನ್ನು ವಿನ್ಯಾಸಗೊಳಿಸಲು ವಿಧಾನಗಳನ್ನು ಶಿಫಾರಸು ಮಾಡುತ್ತೇವೆ; ಇವು ಈ ಕ್ಷೇತ್ರದಲ್ಲಿ ಹೊರಹೊಮ್ಮುತ್ತಿರುವ ಮಾನದಂಡಗಳಿಗೆ ಮಾಹಿತಿ ನೀಡಲು ಸಹಾಯ ಮಾಡುತ್ತವೆ ಎಂದು ನಾವು ಆಶಿಸುತ್ತೇವೆ.

ಹಿಂದೆ, ಅನೇಕ ಮೌಲ್ಯಮಾಪನಗಳು ಮಾಡೆಲ್‌ಗಳನ್ನು ಚಾಟ್‌ಬಾಟ್‌ಗಳಂತೆ ಪರಿಗಣಿಸುತ್ತಿದ್ದವು: ಮೌಲ್ಯಮಾಪನವು ಪ್ರಶ್ನೆ ಕೇಳುವ ಬಳಕೆದಾರನಂತೆ ಮಾಡೆಲ್‌ಗೆ ಪ್ರಾಂಪ್ಟ್ ನೀಡುತ್ತಿತ್ತು, ಮಾಡೆಲ್ ಉತ್ತರಿಸುತ್ತಿತ್ತು, ಮತ್ತು ಮೌಲ್ಯಮಾಪಕನು ಔಟ್‌ಪುಟ್ ಅನ್ನು ನಿರ್ಣಯಿಸುತ್ತಿದ್ದ. ಇಂದಿನ ಫ್ರಾಂಟಿಯರ್ ಮಾಡೆಲ್‌ಗಳು ಇನ್ನೂ ಬಹಳಷ್ಟು ಮಾಡಬಲ್ಲವು: ಅವು ಉಪಕರಣಗಳನ್ನು ಬಳಸಬಹುದು, ಅನೇಕ ಹಂತಗಳಾದ್ಯಂತ ಮಾಹಿತಿಯನ್ನು ಗಮನದಲ್ಲಿಡಬಹುದು, ಮತ್ತು ದೊಡ್ಡ ಕಾರ್ಯಪ್ರವಾಹದೊಳಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸಬಹುದು. ಇದರಿಂದ ಕಾರ್ಯಕ್ಷಮತೆ ಕೇವಲ ಮಾಡೆಲ್‌ನ ಮೇಲೆ ಮಾತ್ರವಲ್ಲ, ಕಾರ್ಯ ನಡೆಯುವ ಪರಿಸರದ ಮೇಲೂ, ಮತ್ತು ಅದರ ಕ್ರಿಯೆಗಳನ್ನು ಸುಗಮಗೊಳಿಸುವ ವ್ಯವಸ್ಥೆಯ ಮೇಲೂ ಅವಲಂಬಿತವಾಗಿರುತ್ತದೆ. ನಾವು “ಹಾರ್ನೆಸ್” ಎಂದು ಕರೆಯುವ ಈ ಸುತ್ತುವರಿದ ವ್ಯವಸ್ಥೆ, ವ್ಯವಸ್ಥೆಯ ಕಾರ್ಯಕ್ಷಮತೆಯ ಪ್ರಮುಖ ಅಂಶಗಳನ್ನು ಬದಲಾಯಿಸಬಹುದು; ಇದರಲ್ಲಿ ಅದು ಉಪಕರಣಗಳನ್ನು ಹೇಗೆ ಬಳಸುತ್ತದೆ, ಮಾಹಿತಿಯನ್ನು ಹೇಗೆ ಗಮನದಲ್ಲಿಡುತ್ತದೆ, ಅಥವಾ ತಪ್ಪುಗಳಿಂದ ಹೇಗೆ ಚೇತರಿಸಿಕೊಳ್ಳುತ್ತದೆ ಎಂಬುದೂ ಸೇರಿವೆ.

ಪ್ರಾಂಪ್ಟ್-ಪ್ರತಿಕ್ರಿಯೆ ಕಾರ್ಯಪ್ರವಾಹವನ್ನು ಏಜೆಂಟಿಕ್ ಕಾರ್ಯ ಕಾರ್ಯಪ್ರವಾಹದೊಂದಿಗೆ ಹೋಲಿಸುವ ಚಿತ್ರಣ; ನಿಯಂತ್ರಣ ಲೂಪ್‌ಗಳು, ಉಪಕರಣಗಳು, ಸಂದರ್ಭ, ಬಜೆಟ್ ಮತ್ತು ಸುರಕ್ಷತಾ ರಕ್ಷಣೆಗಳು ಸ್ವಾಯತ್ತ ಕಾರ್ಯನಿರ್ವಹಣೆಯನ್ನು ಹೇಗೆ ಸಾಧ್ಯವಾಗಿಸುತ್ತವೆ ಎಂಬುದನ್ನು ತೋರಿಸುತ್ತದೆ.

ಇದು ಮೌಲ್ಯಮಾಪನಗಳನ್ನು ಹೇಗೆ ನಡೆಸಬೇಕು ಮತ್ತು ಮೌಲ್ಯಮಾಪನ ವರದಿಗಳಲ್ಲಿ ಓದುಗರು ಯಾವುದನ್ನು ಗಮನಿಸಬೇಕು ಎಂಬುದನ್ನು ಬದಲಾಯಿಸುತ್ತದೆ. ನಮ್ಮ ದೃಷ್ಟಿಯಲ್ಲಿ, ಅತ್ಯಂತ ಉಪಯುಕ್ತ ವರದಿಗಳು ಫಲಿತಾಂಶದ ಹೊರತಾಗಿ ಇನ್ನೂ ಎರಡು ವಿಷಯಗಳನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ವಿವರಿಸುತ್ತವೆ: ಮೊದಲನೆಯದಾಗಿ, ಮೌಲ್ಯಮಾಪನ ವ್ಯವಸ್ಥೆ ಯಾವ ದಾವೆಯನ್ನು ಪರೀಕ್ಷಿಸಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾಯಿತು ಎಂಬುದನ್ನು ಅವು ಸೂಚಿಸುತ್ತವೆ; ಎರಡನೆಯದಾಗಿ, ಮೌಲ್ಯಮಾಪನ ಫಲಿತಾಂಶ ಮಾನ್ಯವಾಗಿದೆ ಎಂಬ ಲಭ್ಯವಿರುವ ಸಾಕ್ಷ್ಯವನ್ನು ಹಂಚಿಕೊಳ್ಳುತ್ತವೆ.

ಮೌಲ್ಯಮಾಪನಗಳಲ್ಲಿ ಪರೀಕ್ಷಿಸಲಾದ ದಾವೆಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಮೂರು ವಿಭಾಗಗಳಲ್ಲಿ ಒಂದಕ್ಕೆ ಸೇರುತ್ತವೆ1:

  • ಸಾಮರ್ಥ್ಯ ಎಲಿಸಿಟೇಶನ್: ಮೌಲ್ಯಮಾಪನಗೊಳ್ಳುತ್ತಿರುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಮಾಡೆಲ್ ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ತೋರಿಸಬಹುದೇ? 
  • ಸುರಕ್ಷತಾ ರಕ್ಷಣೆಗಳ ಕಾರ್ಯಕ್ಷಮತೆ: ಪರೀಕ್ಷಿಸಲಾದ ಸುರಕ್ಷತಾ ರಕ್ಷಣೆಗಳು ಮೌಲ್ಯಮಾಪನಗೊಳ್ಳುತ್ತಿರುವ ವರ್ತನೆ ಅಥವಾ ದಾಳಿಯ ವಿರುದ್ಧ ಎಷ್ಟು ದೃಢವಾಗಿವೆ?
  • ಹೋಲಿಕೆ: ಸಮಾನ ಷರತ್ತುಗಳಡಿಯಲ್ಲಿ ವಿಭಿನ್ನ ಮಾಡೆಲ್‌ಗಳು ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ?

ಮೌಲ್ಯಮಾಪನ ವರದಿಗಳು ಫಲಿತಾಂಶದ ಮಾನ್ಯತೆಯನ್ನು ಪ್ರಭಾವಿಸಬಹುದಾದ ಪರಿಣಾಮಗಳನ್ನು ಮೌಲ್ಯಮಾಪಕರು ಹೇಗೆ ಪರಿಶೀಲಿಸಿದರು ಎಂಬುದನ್ನೂ ವಿವರಿಸಬೇಕು. ಇವುಗಳಲ್ಲಿ ಸೇರಿವೆ:

  • ರಿವಾರ್ಡ್ ಹ್ಯಾಕಿಂಗ್: ಕಾರ್ಯ ಅಥವಾ ಸ್ಕೋರರ್‌ನಲ್ಲಿರುವ ಶಾರ್ಟ್‌ಕಟ್‌ಗಳನ್ನು ದುರುಪಯೋಗಪಡಿಸಿಕೊಂಡು, ವ್ಯವಸ್ಥೆ ಮೌಲ್ಯಮಾಪನ ಅಳೆಯಲು ಉದ್ದೇಶಿಸಿದ ವರ್ತನೆಯನ್ನು ತೋರಿಸದೇ ಕ್ರೆಡಿಟ್ ಪಡೆಯುವುದು.
  • ನಿರಾಕರಣೆಗಳು: ಪರೀಕ್ಷಿಸಲಾಗುತ್ತಿರುವ ವರ್ತನೆಯನ್ನು ಮಸುಕಾಗಿಸುವ ರೀತಿಯಲ್ಲಿ ನಿರಾಕರಿಸುವುದು.
  • ಕಂಟಾಮಿನೇಶನ್: ಮೌಲ್ಯಮಾಪನದ ಕಾರ್ಯಗಳು, ಉತ್ತರಗಳು, ಅಥವಾ ಹತ್ತಿರದ ರೂಪಾಂತರಗಳು ತರಬೇತಿ ಡೇಟಾದಲ್ಲಿ ಕಾಣಿಸಿಕೊಂಡಿದ್ದರಿಂದ ಅಥವಾ ಬ್ರೌಸಿಂಗ್ ಮೂಲಕದಂತೆ ಮೌಲ್ಯಮಾಪನದ ವೇಳೆ ಕಂಡುಹಿಡಿಯಬಹುದಾಗಿದ್ದರಿಂದ, ಅತಿಯಾಗಿ ಉತ್ತಮ ಕಾರ್ಯಕ್ಷಮತೆ ತೋರಿಸುವುದು.
  • ದೋಷಪೂರಿತ ಸಮಸ್ಯೆಗಳು: ಕಾರ್ಯಗಳು ಅಮಾನ್ಯವಾಗಿರುವುದರಿಂದ ಕಡಿಮೆ ಕಾರ್ಯಕ್ಷಮತೆ ತೋರಿಸುವುದು. ಕಾರಣಗಳಲ್ಲಿ ಅನ್ಯಾಯಕರ ಸ್ಕೋರಿಂಗ್ (ಉದಾ., ಸರಿಯಾದ ಉತ್ತರಕ್ಕೆ ಹೇಳದ ಅನುಷ್ಠಾನ ವಿವರಗಳು ಬೇಕಾಗುವುದು) ಮತ್ತು ಪರಿಹರಿಸಲಾಗದ ಪರಿಸರಗಳು (ಉದಾ., ಪ್ರಮುಖ ಕಡತಗಳು ಇಲ್ಲದಿರುವುದು ಅಥವಾ ನಂಬಿಕೆಯಾಗದ ಉಪಕರಣಗಳು) ಸೇರಿರಬಹುದು.
  • ಸ್ಯಾಂಡ್‌ಬ್ಯಾಗಿಂಗ್: ತಾವು ಮೌಲ್ಯಮಾಪನಗೊಳ್ಳುತ್ತಿರುವ ಅರಿವು ತೋರಿಸಿದಾಗ ಉದ್ದೇಶಪೂರ್ವಕವಾಗಿ ಕಡಿಮೆ ಕಾರ್ಯಕ್ಷಮತೆ ತೋರಿಸುವುದು.

ಉತ್ತಮ ಫಲಿತಾಂಶಗಳಿಗಾಗಿ ಮೌಲ್ಯಮಾಪನಕ್ಕೆ ಸರಿಯಾದ ಹಾರ್ನೆಸ್ ಆಯ್ಕೆ ಮಾಡುವುದು ಅತ್ಯಂತ ಮುಖ್ಯ

ದೀರ್ಘ ಟ್ರಾಜೆಕ್ಟರಿಗಳಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವ ವ್ಯವಸ್ಥೆಗಳಿಗೆ ಹಾರ್ನೆಸ್‌ನ ಪಾತ್ರ ವಿಶೇಷವಾಗಿ ಮಹತ್ವದ್ದಾಗಿದೆ ಎಂದು ನಾವು ಗಮನಿಸಿದ್ದೇವೆ. ಮಾಡೆಲ್‌ಗಳು ಉಪಕರಣಗಳನ್ನು ಬಳಸಲು, ಸ್ಥಿತಿಯನ್ನು ಉಳಿಸಿಕೊಳ್ಳಲು, ಮತ್ತು ಅನೇಕ ಹಂತಗಳಾದ್ಯಂತ ತಪ್ಪುಗಳಿಂದ ಚೇತರಿಸಿಕೊಳ್ಳಲು ಸಾಧ್ಯವಾದಾಗ, ಹಾರ್ನೆಸ್ ಗಮನಿಸಲಾದ ಕಾರ್ಯಕ್ಷಮತೆಯ ಮಟ್ಟವನ್ನು ಬದಲಾಯಿಸಬಹುದು, ಮತ್ತು ಮೌಲ್ಯಮಾಪನಗೊಳ್ಳುತ್ತಿರುವ ಸಾಮರ್ಥ್ಯ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ ಕಾಣಿಸಿಕೊಳ್ಳುತ್ತದೆಯೇ ಇಲ್ಲವೇ ಎಂಬುದನ್ನೂ ನಿರ್ಧರಿಸಬಹುದು. ಉದಾಹರಣೆಗೆ, ಸ್ಥಿತಿಯನ್ನು ಉಳಿಸಿ ವಿಫಲವಾದ ಕ್ರಿಯೆಗಳನ್ನು ಮರುಪ್ರಯತ್ನಿಸುವ ಹಾರ್ನೆಸ್, ಅದೇ ಮಾಡೆಲ್ ಸರಳ ಹಾರ್ನೆಸ್‌ನಲ್ಲಿ ಎಂದಿಗೂ ಪೂರ್ಣಗೊಳಿಸದ ಬಹು-ಹಂತದ ಕಾರ್ಯವನ್ನು ಪೂರ್ಣಗೊಳಿಸಲು ಅವಕಾಶ ನೀಡಬಹುದು.

ಕೆಳಗಿನ ಪಟ್ಟಿಯಲ್ಲಿ, ಮೌಲ್ಯಮಾಪಕರು ಮಾಡಬೇಕೆಂದು ಬಯಸಬಹುದಾದ ಮೂರು ವಿಧದ ದಾವೆಗಳನ್ನು ಮತ್ತು ಪ್ರತಿಯೊಂದು ವಿಧದ ದಾವೆಗೆ ಅಗತ್ಯವೆಂದು ನಾವು ನಂಬುವ ಹಾರ್ನೆಸ್ ಅನ್ನು ಪ್ರತ್ಯೇಕಿಸಿದ್ದೇವೆ.

ಮೌಲ್ಯಮಾಪನ ಬೆಂಬಲಿಸಲು ಪ್ರಯತ್ನಿಸುವ ದಾವೆ

ಸೂಕ್ತ ಹಾರ್ನೆಸ್ ಆಯ್ಕೆ

ವರದಿ ಮಾಡಬೇಕಾದ ಸಾಕ್ಷ್ಯ

ಬಲವಾದ ಎಲಿಸಿಟೇಶನ್‌ನಡಿಯಲ್ಲಿ ಸಾಮರ್ಥ್ಯ: ವ್ಯವಸ್ಥೆ A, ಅದರ ಅತ್ಯಂತ ಬಲವಾದ ವಿಶ್ವಾಸಾರ್ಹ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಹೊರತೆಗೆದುಕೊಳ್ಳುವಂತೆ ವ್ಯವಸ್ಥೆಯನ್ನು ರೂಪಿಸಿದಾಗ, X ಪ್ರಕಾರದ ಕಾರ್ಯಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸಬಲ್ಲದು.

ವ್ಯವಸ್ಥೆಗೆ ಅತ್ಯಂತ ಬಲವಾದ ವಿಶ್ವಾಸಾರ್ಹ ಎಲಿಸಿಟೇಶನ್ ವ್ಯವಸ್ಥೆಯನ್ನು ಬಳಸಿ; ಇದರಲ್ಲಿ ಹಾರ್ನೆಸ್, ಉಪಕರಣಗಳು, ಸ್ಕಾಫೋಲ್ಡಿಂಗ್ ಮತ್ತು ಸಮರ್ಥ ಬಳಕೆದಾರನು ಯುಕ್ತಿಯಾಗಿ ಬಳಸುವ ಬಜೆಟ್ ಸೇರಿರಲಿ.

ಹಾರ್ನೆಸ್ ಮತ್ತು ಉಪಕರಣ ವ್ಯವಸ್ಥೆ, ಎಲಿಸಿಟೇಶನ್ ಮಾರ್ಗದರ್ಶನ, ಅನುಮತಿಸಿದ ಬಜೆಟ್/ಪ್ರಯತ್ನ, ಟೋಕನ್‌ಗಳು/ವೆಚ್ಚ/ಸಮಯ, ಮತ್ತು ಈ ವ್ಯವಸ್ಥೆ ದಾವೆ ಮಾಡಲಾದ ಸಾಮರ್ಥ್ಯಕ್ಕೆ ಏಕೆ ವಿಶ್ವಾಸಾರ್ಹ ಪ್ರತಿನಿಧಿಯಾಗಿದೆ ಎಂಬುದು. ವಿಭಿನ್ನ ಆಪ್ಟಿಮೈಸ್ ಮಾಡಿದ ವ್ಯವಸ್ಥೆಗಳಡಿಯಲ್ಲಿ ವ್ಯವಸ್ಥೆಗಳನ್ನು ಹೋಲಿಸುತ್ತಿದ್ದರೆ, ಅದನ್ನು ವ್ಯವಸ್ಥೆ-ವ್ಯವಸ್ಥೆ ಅಥವಾ ಬಲವಾದ-ಎಲಿಸಿಟೇಶನ್ ಹೋಲಿಕೆ ಎಂದು ಲೇಬಲ್ ಮಾಡಿ.

ನಿಯಂತ್ರಿತ ಹೋಲಿಕೆ: ಹಂಚಿಕೊಂಡ ಮೌಲ್ಯಮಾಪನ ವ್ಯವಸ್ಥೆಯಡಿಯಲ್ಲಿ ವ್ಯವಸ್ಥೆ A, ವ್ಯವಸ್ಥೆ B ಗಿಂತ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ.

ಕಾರ್ಯಗಳು, ಸ್ಕೋರಿಂಗ್ ಮತ್ತು ಬಜೆಟ್ ಅನ್ನು ಸ್ಥಿರವಾಗಿಡಿ. ಹೋಲಿಸಲಾಗುತ್ತಿರುವ ವ್ಯವಸ್ಥೆಗಳಿಗೆ ಯುಕ್ತಿಯಾದ ಗರಿಷ್ಠ ಎಲಿಸಿಟೇಶನ್ ಒದಗಿಸಲು, ಹಂಚಿಕೊಂಡ ಹಾರ್ನೆಸ್/ಉಪಕರಣ ವ್ಯವಸ್ಥೆ ಅಥವಾ ಮುಂಚಿತವಾಗಿ ಆಯ್ಕೆ ಮಾಡಿದ ಸ್ಥಿರ ಮಾನಕೀಕೃತ ಹಾರ್ನೆಸ್‌ಗಳ ಸಮೂಹವನ್ನು ಬಳಸಿ.

ಹಂಚಿಕೊಂಡ ಕಾರ್ಯ ಸಮೂಹ, ಉಪಕರಣಗಳು, ಸ್ಕೋರಿಂಗ್ ವಿಧಾನ, ಹಾರ್ನೆಸ್, ಬಜೆಟ್, ಟೋಕನ್ ದಕ್ಷತೆ/ವೆಚ್ಚ, ಮತ್ತು ತಿಳಿದಿರುವ ಮಿತಿಗಳು. ಕೋಡಿಂಗ್-ಏಜೆಂಟ್ ಮೌಲ್ಯಮಾಪನಗಳಿಗಾಗಿ, Codex CLI ಯಂತಹ ಮುಕ್ತ-ಮೂಲ ಹಾರ್ನೆಸ್ ವ್ಯವಸ್ಥೆಗಳಾದ್ಯಂತ ಸ್ಥಿರ ಏಜೆಂಟ್ ಲೂಪ್ ಮತ್ತು ಉಪಕರಣ ಇಂಟರ್‌ಫೇಸ್ ಒದಗಿಸಬಹುದು. ಗರಿಷ್ಠ ಎಲಿಸಿಟೇಶನ್‌ಗೆ ಆದರ್ಶ ವಿಧಾನವೆಂದರೆ ಪ್ರತಿ ಕಾರ್ಯ ಮತ್ತು ವ್ಯವಸ್ಥೆಗೆ ವಿಶೇಷ ಹಾರ್ನೆಸ್ ಅನ್ನು ಆಪ್ಟಿಮೈಸ್ ಮಾಡುವುದು, ಆದರೆ ಪ್ರಸ್ತುತ ಅದು ಕಾರ್ಯಪ್ರಯೋಗದಲ್ಲಿ ಅಸಾಧ್ಯವಾಗಿದೆ.

ಎಲಿಸಿಟ್ ಮಾಡಿದ ದಾಳಿಯಡಿಯಲ್ಲಿ ಸುರಕ್ಷತಾ ರಕ್ಷಣೆಗಳ ದೃಢತೆ: ಸಂಬಂಧಿತ ಮಾಡೆಲ್ ವರ್ತನೆ ಅಥವಾ ಎಲಿಸಿಟ್ ಮಾಡಿದ ದಾಳಿಗೆ ವ್ಯವಸ್ಥೆ A ಯ ಸುರಕ್ಷತಾ ರಕ್ಷಣೆಗಳು ಸಾಕಷ್ಟಿವೆ.

ಸಂಬಂಧಿತ ಪ್ರತಿಸ್ಪರ್ಧಿ ಮಾದರಿಯಡಿಯಲ್ಲಿ ಅತ್ಯಂತ ಬಲವಾದ ವಿಶ್ವಾಸಾರ್ಹ ದಾಳಿಯನ್ನು ಎಲಿಸಿಟ್ ಮಾಡಲು ವಿನ್ಯಾಸಗೊಳಿಸಿದ ಸುರಕ್ಷತಾ-ರಕ್ಷಣೆ ಪರೀಕ್ಷಾ ವ್ಯವಸ್ಥೆಯನ್ನು ಬಳಸಿ.

ಮೌಲ್ಯಮಾಪಕರು ಸಂಬಂಧಿತ ಮಾಡೆಲ್ ವರ್ತನೆಯನ್ನು ಹೇಗೆ ವರ್ಣಿಸಿದರು, ಪರೀಕ್ಷಿಸಿದ ಸುರಕ್ಷತಾ-ರಕ್ಷಣೆ ಸಂರಚನೆ, ಎಲಿಸಿಟೇಶನ್ ತಂತ್ರ, ಅದನ್ನು ನಡೆಸಲು ಬಳಸಿದ ಹಾರ್ನೆಸ್, ಮತ್ತು ಅನುಮತಿಸಿದ ಬಜೆಟ್ ಅಥವಾ ಪ್ರಯತ್ನ.

ಸಾಮರ್ಥ್ಯದ ದಾವೆಗಳು ಅವುಗಳ ಹಿಂದೆ ಇರುವ ಎಲಿಸಿಟೇಶನ್ ಎಷ್ಟು ಬಲವಾಗಿದೆಯೋ ಅಷ್ಟೇ ಬಲವಾಗಿರುತ್ತವೆ: ಮೌಲ್ಯಮಾಪಕರು ಕಾರ್ಯಕ್ಕೂ ಮತ್ತು ಮೌಲ್ಯಮಾಪನ ಅಳೆಯಲು ಪ್ರಯತ್ನಿಸುತ್ತಿರುವ ಸಾಮರ್ಥ್ಯಕ್ಕೂ ಅತ್ಯುತ್ತಮವಾಗಿ ಹೊಂದುವ ಹಾರ್ನೆಸ್ ಅನ್ನು ಆಯ್ಕೆ ಮಾಡಬೇಕು. ಒಂದೇ ಷರತ್ತುಗಳಡಿಯಲ್ಲಿ ವ್ಯವಸ್ಥೆಗಳನ್ನು ಹೋಲಿಸಲು ಮಾನಕೀಕೃತ ಹಾರ್ನೆಸ್ ಸರಿಯಾಗಿರಬಹುದು, ಆದರೆ ಮಾಡೆಲ್‌ಗೆ ಕಾರ್ಯ ನಿರ್ವಹಿಸಲು ಸಹಾಯ ಮಾಡುವ ನಿರ್ದಿಷ್ಟ ಹಾರ್ನೆಸ್ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಅದು ಬಿಟ್ಟರೆ ಸಾಮರ್ಥ್ಯವನ್ನು ಕಡಿಮೆ ತೋರಿಸಬಹುದು. ಉದಾಹರಣೆಗೆ, OpenAI ಯ ಸೈಬರ್ ವ್ಯಾಪ್ತಿಗಳಲ್ಲಿ GPT‑5.5 ನ ಕಾರ್ಯಕ್ಷಮತೆ, ದೀರ್ಘ, ಬಹು-ಹಂತದ ಉಪಕರಣ ಬಳಕೆ ಅಗತ್ಯವಿರುವ ಕಾರ್ಯಗಳಲ್ಲಿ ಹಾರ್ನೆಸ್ ಆಯ್ಕೆ ಅಳೆಯಲಾದ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೇಗೆ ಮಹತ್ವವಾಗಿ ಬದಲಾಯಿಸಬಹುದು ಎಂಬುದನ್ನು ತೋರಿಸುತ್ತದೆ: ಸಂವಹನ ದೀರ್ಘವಾದಂತೆ ಕೆಲಸಕ್ಕೆ ಸಂಬಂಧಿತ ಸಂದರ್ಭವನ್ನು ಉಳಿಸಲು ಹಾರ್ನೆಸ್ compaction ಬಳಸಿದಾಗ ಮಾಡೆಲ್ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಇದರಿಂದ ಕೆಲವು ಮಾಡೆಲ್‌ಗಳಿಗೆ, compaction ಅನ್ನು ಬಿಟ್ಟಿರುವ ಹಾರ್ನೆಸ್ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಸಮರ್ಪಕವಾಗಿ ಎಲಿಸಿಟ್ ಮಾಡುವುದಿಲ್ಲ ಎಂಬುದು ಸ್ಪಷ್ಟವಾಗುತ್ತದೆ.

ಹೆಚ್ಚಿನ ಯಶಸ್ಸಿನ ದರಗಳು ಉತ್ತಮ

ಇತರೆ ಪ್ರಕಟಿತ ಮೌಲ್ಯಮಾಪನಗಳು2 ಸಹ ಹಾರ್ನೆಸ್ ಮತ್ತು ಬಜೆಟ್ ಆಯ್ಕೆಗಳು ಮೌಲ್ಯಮಾಪನ ಫಲಿತಾಂಶಗಳನ್ನು ಬದಲಾಯಿಸುತ್ತವೆ ಎಂಬುದನ್ನು ತೋರಿಸುತ್ತವೆ. ಪರೀಕ್ಷಾ-ಸಮಯದ ಗಣನೆ ಹೆಚ್ಚಿಸುವುದು ಮೌಲ್ಯಮಾಪನ ಯಾವ ಸಾಮರ್ಥ್ಯವನ್ನು ಎಲಿಸಿಟ್ ಮಾಡುತ್ತದೆ ಎಂಬುದನ್ನು ಗಮನಾರ್ಹವಾಗಿ ಬದಲಾಯಿಸಬಹುದು, ವಿಶೇಷವಾಗಿ ಅನೇಕ ಸೈಬರ್ ಕಾರ್ಯಗಳಂತೆ ಯಶಸ್ಸನ್ನು ಸುಲಭವಾಗಿ ಪರಿಶೀಲಿಸಬಹುದಾದ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ. UK AISI ಯ ಸೈಬರ್ ರೇಂಜ್ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ), ಬಜೆಟ್ ಅನ್ನು 10M ರಿಂದ 100M ಟೋಕನ್‌ಗಳಿಗೆ ಹೆಚ್ಚಿಸಿದಾಗ ಕಾರ್ಯಕ್ಷಮತೆ 59% ವರೆಗೆ ಸುಧಾರಿಸಿತು, ಮತ್ತು ಪರೀಕ್ಷಿಸಲಾದ ಅತ್ಯಧಿಕ ಬಜೆಟ್‌ನಲ್ಲಿಯೂ ಕಾರ್ಯಕ್ಷಮತೆ ಇನ್ನೂ ಹೆಚ್ಚುತ್ತಲೇ ಇತ್ತು. ಇದನ್ನು ವಿವರಿಸುವುದರಿಂದ ಮೌಲ್ಯಮಾಪನವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು ಸುಲಭವಾಗುತ್ತದೆ: ಫಲಿತಾಂಶವು ಪರೀಕ್ಷಿಸಲಾದ ಎಲಿಸಿಟೇಶನ್ ವ್ಯವಸ್ಥೆಯ ಮೇಲೆ ಹೇಗೆ ಅವಲಂಬಿತವಾಗಿದೆ ಎಂಬುದನ್ನು ಇದು ಓದುಗರಿಗೆ ತೋರಿಸುತ್ತದೆ. ಹೆಚ್ಚುವರಿ ಬಜೆಟ್‌ನೊಂದಿಗೆ ಕಾರ್ಯಕ್ಷಮತೆ ಇನ್ನೂ ಸುಧಾರಿಸುತ್ತಿದ್ದರೆ, ಅಂಕವನ್ನು ಆ ಹಾರ್ನೆಸ್ ಮತ್ತು ಬಜೆಟ್‌ನಡಿನ ಕಾರ್ಯಕ್ಷಮತೆ ಎಂದು ವಿವರಿಸಬೇಕು; ಅಳೆಯಲಾದ ಸಾಮರ್ಥ್ಯದ ಗರಿಷ್ಠ ಮಿತಿ ಎಂದು ಅಲ್ಲ. ಸಾಮರ್ಥ್ಯವು ಅನೇಕ ಬಾರಿ ಸಂಪನ್ಮೂಲ-ಆಧಾರಿತವಾಗಿರುತ್ತದೆ; ಒಮ್ಮೆ ಅಳೆದು ಶಾಶ್ವತವಾಗಿ ನಿಗದಿಪಡಿಸಬಹುದಾದ ಸ್ಥಿರ ಪ್ರಮಾಣವಲ್ಲ. ಪುನರಾವರ್ತಿತ ಪ್ರಯತ್ನಗಳಾದ್ಯಂತ ಯಶಸ್ಸನ್ನು ಅಳೆಯಬಹುದಾದಲ್ಲಿ, ವರದಿಗಳು ಸ್ಥಿರ ಟೋಕನ್ ಬಜೆಟ್‌ನಲ್ಲಿನ ಯಶಸ್ಸಿನ ದರವನ್ನು ಮಾತ್ರವಲ್ಲ, ಪ್ರತಿ ಯಶಸ್ವಿ ಪರಿಹಾರದ ನಿರೀಕ್ಷಿತ ವೆಚ್ಚವನ್ನೂ ಪರಿಗಣಿಸಬೇಕು. ಇದರಿಂದ ಗಂಭೀರತೆಯನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು ಸುಲಭವಾಗಬಹುದು: ಪುನರಾವರ್ತಿತ ಪ್ರಯತ್ನಗಳ ವೆಚ್ಚ ಸಂಬಂಧಿತ ಬೆದರಿಕೆ ಮಾದರಿಯೊಳಗಿದ್ದರೆ, ಕಡಿಮೆ ಯಶಸ್ಸಿನ ದರವೂ ಪ್ರಾಯೋಗಿಕವಾಗಿ ಮಹತ್ವದ್ದಾಗಿರಬಹುದು. ಸಾಮರ್ಥ್ಯದ ದಾವೆಗಳಿಗೆ, ತಪ್ಪಿಸಬಹುದಾದ ಕಡಿಮೆ-ಎಲಿಸಿಟೇಶನ್ ಒಂದು ಅಳತೆ ವೈಫಲ್ಯವಾಗಿದೆ: ಹಾರ್ನೆಸ್ ಅಥವಾ ಬಜೆಟ್ ವ್ಯವಸ್ಥೆ ಬೇರೆ ರೀತಿಯಲ್ಲಿ ತೋರಿಸಬಹುದಾದ ವರ್ತನೆಯನ್ನು ತೋರಿಸಲು ತಡೆಯುತ್ತಿದ್ದರೆ, ಅಂಕವು ದಾವೆ ಮಾಡಲಾಗುತ್ತಿರುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಅಳೆಯುವುದಿಲ್ಲ. ಮೌಲ್ಯಮಾಪಕರು ಸಾಧ್ಯವಾದಷ್ಟು ಎಲಿಸಿಟೇಶನ್ ಅನ್ನು ಮುಂದೂಡಿದ್ದರೂ ಕಾರ್ಯಕ್ಷಮತೆ ಇನ್ನೂ ಸುಧಾರಿಸುತ್ತಿದ್ದರೆ, ವರದಿಗಳು ಅದನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ಹೇಳಬೇಕು ಮತ್ತು ಫಲಿತಾಂಶವು ಕೇವಲ ಕೆಳ-ಮಿತಿ ಅಂದಾಜು ಮಾತ್ರ ಎಂಬುದನ್ನೂ ಸ್ಪಷ್ಟಪಡಿಸಬೇಕು.

ಸುರಕ್ಷತಾ ರಕ್ಷಣೆಗಳ ಪರೀಕ್ಷೆ, ಕಸ್ಟಮ್ ಹಾರ್ನೆಸ್‌ಗಳನ್ನು ಒಳಗೊಂಡಂತೆ ದಾಳಿಕೋರರಿಗೆ ಲಭ್ಯವಿರುವ ಸಂಪನ್ಮೂಲಗಳನ್ನು ಪರಿಗಣಿಸದಿದ್ದರೆ, ದಾಳಿ ಯಶಸ್ವಿಯಾಗಬಹುದೇ ಮತ್ತು ಅದು ಎಷ್ಟು ಗಂಭೀರವಾಗಿರಬಹುದು ಎಂಬುದನ್ನು ಕಡಿಮೆ ತೋರಿಸಬಹುದು. UK AISI ಯ GPT‑5.5 ಸೈಬರ್ ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ), ಅವರ ತಜ್ಞ ರೆಡ್ ಟೀಮಿಂಗ್ OpenAI ಒದಗಿಸಿದ ದುರುದ್ದೇಶಪೂರಿತ ಪ್ರಶ್ನೆಗಳಾದ್ಯಂತ, ಬಹು-ಟರ್ನ್ ಏಜೆಂಟಿಕ್ ಸನ್ನಿವೇಶಗಳನ್ನೂ ಒಳಗೊಂಡಂತೆ, ಉಲ್ಲಂಘನಾತ್ಮಕ ಸೈಬರ್ ವಿಷಯವನ್ನು ಎಲಿಸಿಟ್ ಮಾಡಿದ ಒಂದು ಸಾರ್ವತ್ರಿಕ ಜೈಲ್‌ಬ್ರೇಕ್ ಅನ್ನು ಕಂಡುಹಿಡಿದಿತು. ಮಾಡೆಲ್‌ನ ದಾಳಿ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಬಲಪಡಿಸಲು ಅವರು ಕಸ್ಟಮ್ ಹಾರ್ನೆಸ್ ರಚಿಸಲು Codex ಅನ್ನು ಬಳಸಿದರು: ಅದು ಮರುಬಳಕೆ ಮಾಡಬಹುದಾದ ಸುರಕ್ಷತಾ-ರಕ್ಷಣೆ-ಬಿಟ್ಟುಹೋಗುವ ಮಾದರಿಯನ್ನು ಸಂವಹನದಲ್ಲಿ ಅಳವಡಿಸಿತು, ಆ ಮಾದರಿಯನ್ನು ಟರ್ನ್‌ಗಳು ಮತ್ತು ಬ್ಲಾಕ್‌ಗಳಾದ್ಯಂತ ಉಳಿಸಿತು, ಮತ್ತು OpenAI ಒದಗಿಸಿದ ದುರುದ್ದೇಶಪೂರಿತ ಸೈಬರ್ ಪ್ರಶ್ನೆಗಳಾದ್ಯಂತ ಅದನ್ನು ಅನ್ವಯಿಸಿತು. ಸುರಕ್ಷತಾ-ರಕ್ಷಣೆ ಪರೀಕ್ಷೆ ಪ್ರತಿಸ್ಪರ್ಧಿಗೆ ಹೊಂದಿಕೆಯಾಗಿರಬೇಕು. ದಾವೆ ತಜ್ಞ ದುರುಪಯೋಗದ ವಿರುದ್ಧದ ದೃಢತೆಯ ಬಗ್ಗೆ ಆಗಿದ್ದರೆ, ಪರೀಕ್ಷೆಯು ನಿರ್ದಿಷ್ಟ ಬಜೆಟ್‌ನಡಿಯಲ್ಲಿ ಅತ್ಯಂತ ಬಲವಾದ ವಿಶ್ವಾಸಾರ್ಹ ಅಂತ್ಯ-ದಿಂದ-ಅಂತ್ಯ ದಾಳಿ ತಂತ್ರವನ್ನು, ಆ ತಂತ್ರವನ್ನು ಉಳಿಸಿ ಮರುಬಳಕೆ ಮಾಡಲು ಅಗತ್ಯವಿರುವ ಯಾವುದೇ ಹಾರ್ನೆಸ್ ಸೇರಿ, ಮೌಲ್ಯಮಾಪನ ಮಾಡಬೇಕು. ಇಲ್ಲದಿದ್ದರೆ, ಫಲಿತಾಂಶಗಳು ತಪ್ಪು-ಸಮತೋಲನದ ಅಪಾಯವನ್ನು ಉಂಟುಮಾಡುತ್ತವೆ: ಅವು ಸರಳ ಪ್ರಾಂಪ್ಟಿಂಗ್‌ಗೆ ಪ್ರತಿರೋಧದ ಬಗ್ಗೆ ಇರುವ ಇನ್ನೂ ಸೀಮಿತ ದಾವೆಯನ್ನು ಮಾತ್ರ ಬೆಂಬಲಿಸಬಹುದು, ಎಲಿಸಿಟೇಶನ್ ವಿಧಾನ ಕಾರ್ಯರೂಪಕ್ಕೆ ಬಂದ ನಂತರ ದಾಳಿ ಎಷ್ಟು ಗಂಭೀರವಾಗುತ್ತದೆ ಮತ್ತು ಅದರ ಯಶಸ್ಸಿನ ಸಾಧ್ಯತೆ ಎಷ್ಟು ಎಂಬುದನ್ನೂ ತಪ್ಪಿಸಬಹುದು, ಮತ್ತು ಅತಿಯಾದ ಬಜೆಟ್ ನೀಡಿದರೆ ಸಮಸ್ಯೆ ಎಷ್ಟು ಸಂಭವನೀಯ ಅಥವಾ ಗಂಭೀರ ಎಂಬುದನ್ನೂ ಹೆಚ್ಚಾಗಿ ತೋರಿಸಬಹುದು.

ಮಾನಕೀಕೃತ ಹಾರ್ನೆಸ್ ಹೋಲಿಕೆಗಳಿಗೆ ಸಮಯವೂ ಸ್ಥಳವೂ ಇದೆ, ಆದರೆ ಮೌಲ್ಯಮಾಪಕರು ಏಕೆ ಸತತ ಹಾರ್ನೆಸ್ ಸಮೂಹವನ್ನು ಬಳಸುವುದು ಸೂಕ್ತ ಮತ್ತು ಅದು ಯಾವ ದಾವೆಯನ್ನು ಬೆಂಬಲಿಸಬಲ್ಲದು ಎಂಬುದನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ಹೇಳಬೇಕು. METR ನ time-horizon ಮೌಲ್ಯಮಾಪನ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ವಿಶಾಲವಾದ, ಸೂಕ್ತವಾಗಿ ಸ್ಥಿರಗೊಳಿಸಿದ ಮೌಲ್ಯಮಾಪನ ವ್ಯವಸ್ಥೆಯ ಉದಾಹರಣೆ: ಅದು ಮೌಲ್ಯಮಾಪನ ಮಾಡುವ ವ್ಯವಸ್ಥೆಗಳಾದ್ಯಂತ ಹೋಲಿಸಬಹುದಾದ ಫಲಿತಾಂಶಗಳನ್ನು ಉತ್ಪಾದಿಸಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ. METR ಒಂದು ಸಾಮಾನ್ಯ ಫಲಿತಾಂಶವನ್ನು ವ್ಯಾಖ್ಯಾನಿಸುತ್ತದೆ: ನಿರ್ದಿಷ್ಟ ವಿಶ್ವಾಸಾರ್ಹತಾ ಮಟ್ಟದಲ್ಲಿ AI ಏಜೆಂಟ್ ಯಶಸ್ವಿಯಾಗುತ್ತದೆ ಎಂದು ಊಹಿಸಲಾದ ಮಾನವ ಕಾರ್ಯದ ಸಾಮಾನ್ಯ ಅವಧಿ. ಅದು ಹಂಚಿಕೊಂಡ ಕಾರ್ಯ ಸಮೂಹ, ಸ್ಕೋರಿಂಗ್ ವಿಧಾನ, ಫಿಟಿಂಗ್ ವಿಧಾನ, ಮತ್ತು ಒಟ್ಟಿಗೆ ವರದಿ ಮಾಡಲಾದ ಪ್ರತಿಯೊಂದು ಅಂದಾಜುಗಳ ಗುಚ್ಛದೊಳಗೆ Triframe ಮತ್ತು ReAct(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಮುಂತಾದ ಮರುಬಳಕೆ ಮಾಡಬಹುದಾದ ಸಣ್ಣ ಸ್ಕಾಫೋಲ್ಡ್‌ಗಳ ಸಮೂಹವನ್ನು ಅನ್ವಯಿಸುತ್ತದೆ. METR ಕಾರ್ಯ ಸಮೂಹವನ್ನು ವಿಸ್ತರಿಸಿ, Vivaria ಎಂಬ ಫ್ರೇಮ್‌ವರ್ಕ್‌ನಿಂದ Inspect ಎಂಬ ಮತ್ತೊಂದಕ್ಕೆ ಮೌಲ್ಯಮಾಪನ ಮೂಲಸೌಕರ್ಯವನ್ನು ಸ್ಥಳಾಂತರಿಸಿದಾಗ, ಅದು ಆ ಬದಲಾವಣೆಯನ್ನು ವರದಿ ಮಾಡಿತು (Time Horizon 1.1 update(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ)) ಮತ್ತು ಹೊಸ ಮೌಲ್ಯಮಾಪನ ವ್ಯವಸ್ಥೆಯಡಿಯಲ್ಲಿ ಮಾಡೆಲ್‌ಗಳನ್ನು ಮರು-ಮೌಲ್ಯಮಾಪನ ಮಾಡಿತು. ಸತತ ಹಾರ್ನೆಸ್ ಸಮೂಹವನ್ನು ಒಳಗೊಂಡ ಮಾನಕೀಕೃತ ಮೌಲ್ಯಮಾಪನ ವ್ಯವಸ್ಥೆಯ ಮೌಲ್ಯ ಅದೇ: ಅಂಕಗಳ ವ್ಯತ್ಯಾಸವು ನಿಜವಾಗಿಯೂ ಹೋಲಿಸಲಾಗುತ್ತಿರುವ ವ್ಯವಸ್ಥೆಗಳ ನಡುವಿನ ವ್ಯತ್ಯಾಸವನ್ನು ಪ್ರತಿಬಿಂಬಿಸುತ್ತದೆ, ಅಳತೆ ವ್ಯವಸ್ಥೆಯ ಬದಲಾವಣೆಯನ್ನು ಅಲ್ಲ ಎಂಬ ವಿಶ್ವಾಸವನ್ನು ಅದು ಓದುಗರಿಗೆ ನೀಡಬಹುದು.

ಮೂರನೇ ಪಕ್ಷದ ಮೌಲ್ಯಮಾಪನ ವರದಿಗಳು ತಮ್ಮ ಮೌಲ್ಯಮಾಪನ ವ್ಯವಸ್ಥೆ ಯಾವ ವಿಧದ ದಾವೆಯನ್ನು ಬೆಂಬಲಿಸಲು ಉದ್ದೇಶಿಸಿದೆ ಎಂಬುದನ್ನು ಹೇಳಬೇಕು; ಪರೀಕ್ಷಿಸಲಾದದ್ದು ಆ ವಿಶಾಲ ದಾವೆಯನ್ನು ಎಷ್ಟು ಸಮೀಪವಾಗಿ ಪ್ರತಿಬಿಂಬಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ವಿವರಿಸಬೇಕು; ಫಲಿತಾಂಶವನ್ನು ರೂಪಿಸಿದ ಹಾರ್ನೆಸ್ ಆಯ್ಕೆಗಳನ್ನು ವಿವರಿಸಬೇಕು; ಮೌಲ್ಯಮಾಪನಗಳ ನಡುವೆ ಆ ಆಯ್ಕೆಗಳು ಬದಲಾಗುವಾಗ ಅದನ್ನು ವಿವರಿಸಬೇಕು; ಮತ್ತು ಫಲಿತಾಂಶ ಹೇಗೆ ಉತ್ಪಾದಿಸಲಾಯಿತು ಮತ್ತು ಅದು ದಾವೆಗೆ ಎಷ್ಟು ಚೆನ್ನಾಗಿ ಸಾಮಾನ್ಯೀಕರಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ತೋರಿಸಲು ಬೆಂಬಲ ಸಾಕ್ಷ್ಯವನ್ನು ಸೇರಿಸಬೇಕು ಎಂದು ನಾವು ಶಿಫಾರಸು ಮಾಡುತ್ತೇವೆ.

ಫಲಿತಾಂಶಗಳನ್ನು ವಕ್ರಗೊಳಿಸಬಹುದಾದ ತಿಳಿದಿರುವ ಅಪಾಯಗಳನ್ನು ಪರಿಶೀಲಿಸುವ ಮೂಲಕ ಮಾನ್ಯತೆಯನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಿ

ಮಾಡೆಲ್‌ಗಳು ಹೆಚ್ಚು ಸಾಮರ್ಥ್ಯವುಳ್ಳವಾಗುತ್ತಿದ್ದಂತೆ, ಮೌಲ್ಯಮಾಪನ ಅಂಕಗಳನ್ನು ತಪ್ಪಾಗಿ ಅರ್ಥೈಸುವುದು ಸುಲಭವಾಗುತ್ತದೆ. ನಿಜವಾದ ಸಾಮರ್ಥ್ಯಗಳೊಂದಿಗೆ ಹೋಲಿಸಿದರೆ, ಮಾಡೆಲ್ ತನ್ನನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲಾಗುತ್ತಿದೆ ಎಂದು ಗುರುತಿಸಿ ತಂತ್ರಾತ್ಮಕವಾಗಿ ಕಡಿಮೆ ಕಾರ್ಯಕ್ಷಮತೆ ತೋರಿಸಿದರೆ, ಮೌಲ್ಯಮಾಪನ ಅಂಕಗಳು ಕೃತಕವಾಗಿ ಕಡಿಮೆಯಾಗಬಹುದು. ಮಾಡೆಲ್ ಕಾರ್ಯ, ಪ್ರಾಂಪ್ಟ್, ಸ್ಕೋರರ್, ಅಥವಾ ಹಾರ್ನೆಸ್‌ನಲ್ಲಿರುವ ಶಾರ್ಟ್‌ಕಟ್ ಅನ್ನು ದುರುಪಯೋಗಪಡಿಸಿಕೊಂಡರೆ ಅವು ಹೆಚ್ಚಾಗಿ ತೋರಬಹುದು. ಕಂಟಾಮಿನೇಶನ್‌ನಿಂದಲೂ (ಮಾಡೆಲ್ ಈಗಾಗಲೇ ಉತ್ತರವನ್ನು ತಿಳಿದಿರುವುದು ಅಥವಾ ಕಾರ್ಯವನ್ನು ಪರಿಹರಿಸದೇ ಅದನ್ನು ಕಂಡುಹಿಡಿಯುವುದು) ಅಥವಾ ಅಸ್ಪಷ್ಟ, ತಪ್ಪಾಗಿ ಸ್ಕೋರ್ ಮಾಡಲಾದ, ಪರಿಹರಿಸಲಾಗದ, ಅಥವಾ ಅನಿರೀಕ್ಷಿತ ಶಾರ್ಟ್‌ಕಟ್‌ಗಳಿಗೆ ಒಳಪಡುವ “ದೋಷಪೂರಿತ” ಸಮಸ್ಯೆಗಳಿಂದಲೂ ಅವು ವಕ್ರಗೊಳ್ಳಬಹುದು. ಆದ್ದರಿಂದ ಮೌಲ್ಯಮಾಪನ ವರದಿಗಳು ಮುಖ್ಯ ಅಂಕಗಳ ಜೊತೆಗೆ ಈ ಅಪಾಯಗಳ ಚರ್ಚೆಯನ್ನೂ ಜೋಡಿಸಬೇಕು, ಇದರಿಂದ ಅಂಕಗಳು ಉದ್ದೇಶಿತ ವರ್ತನೆಯನ್ನು ಪ್ರತಿಬಿಂಬಿಸುತ್ತವೆಯೇ ಎಂದು ಓದುಗರು ಮೌಲ್ಯಮಾಪನ ಮಾಡಬಹುದು.

ಹಾರ್ನೆಸ್‌ಗಳು, ಬಜೆಟ್‌ಗಳು, ಉಪಕರಣಗಳು, ಸ್ಕೋರಿಂಗ್ ನಿಯಮಗಳು, ಮಾನಿಟರ್‌ಗಳು, ಮತ್ತು ಪರಿಶೀಲನಾ ಕ್ರಮಗಳು—allವು ಏಜೆಂಟ್ ಉದ್ದೇಶಿತ ಕಾರ್ಯವನ್ನು ಪರಿಹರಿಸುತ್ತಿದೆಯೇ, ಅದನ್ನು ತಪ್ಪಿಸುತ್ತಿದೆಯೇ, ಅದನ್ನು ಕಂಠಪಾಠ ಮಾಡುತ್ತಿದೆಯೇ, ಅಥವಾ ಅದರ ಸುತ್ತಲೂ ದಾರಿ ಕಂಡುಕೊಳ್ಳುತ್ತಿದೆಯೇ ಎಂಬುದನ್ನು ಪ್ರಭಾವಿಸುತ್ತವೆ. ವಿಶ್ವಾಸಾರ್ಹ ವರದಿ ಈ ಪರಿಶೀಲನೆಗಳನ್ನು ಗೋಚರವಾಗಿಸುತ್ತದೆ: ಪ್ರತಿ ಬಾರಿ ಮೌಲ್ಯಮಾಪನ ನಡೆಸಿದಾಗ ಮೌಲ್ಯಮಾಪಕರು ಈ ವರ್ತನೆಗಳಿಗಾಗಿ ಮಾದರಿಗಳನ್ನು ಪರಿಶೀಲಿಸಬೇಕು.

ರಿವಾರ್ಡ್ ಹ್ಯಾಕಿಂಗ್

ರಿವಾರ್ಡ್ ಹ್ಯಾಕಿಂಗ್ ಎಂದರೆ ಉದ್ದೇಶಿತ ಸಾಮರ್ಥ್ಯವನ್ನು ಪ್ರತಿಬಿಂಬಿಸದ ರೀತಿಯಲ್ಲಿ ಹೆಚ್ಚಿನ ಮೌಲ್ಯಮಾಪನ ಅಂಕಗಳನ್ನು ಸಾಧಿಸುವುದು. ಇಲ್ಲಿ ಚಿಂತೆಯ ವಿಷಯವೆಂದರೆ, ಮೌಲ್ಯಮಾಪನ ಅಳೆಯಲು ಉದ್ದೇಶಿಸಿದ ಕೆಲಸವನ್ನು ಮಾಡುವುದಕ್ಕಿಂತ, ವ್ಯವಸ್ಥೆ ಕಾರ್ಯ, ಸ್ಕೋರರ್, ಪ್ರಾಂಪ್ಟ್, ಅಥವಾ ಹಾರ್ನೆಸ್ ಅನ್ನು ದುರುಪಯೋಗಪಡಿಸಿಕೊಂಡು ಕ್ರೆಡಿಟ್ ಪಡೆಯುವುದು. GPT 5.4 ಕುರಿತು METR ನ ಮೌಲ್ಯಮಾಪನ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಇದು ಏಕೆ ಮಹತ್ವದ್ದೆಂಬುದನ್ನು ತೋರಿಸುತ್ತದೆ: ಮೊದಲ ನೋಟಕ್ಕೆ ಮಾಡೆಲ್ ಸುಮಾರು 13-ಗಂಟೆಗಳ time horizon ಎಂದು ದಾಖಲಾಗುವಷ್ಟು ದರದಲ್ಲಿ ಕಾರ್ಯಗಳಲ್ಲಿ ಯಶಸ್ವಿಯಾದರೂ, ಮಾನವ ಪರಿಶೀಲನೆಯು ಆ ಯಶಸ್ಸುಗಳಲ್ಲಿ ಕೆಲವು ರಿವಾರ್ಡ್ ಹ್ಯಾಕಿಂಗ್‌ನಿಂದ ಬಂದಿವೆ ಎಂದು ತೋರಿಸಿತು; ಮತ್ತು ರಿವಾರ್ಡ್ ಹ್ಯಾಕಿಂಗ್ ಇಲ್ಲದ ಉದಾಹರಣೆಗಳನ್ನು ಮಾತ್ರ ಪರಿಗಣಿಸಿ ಫಲಿತಾಂಶಗಳನ್ನು ತಿದ್ದುಪಡಿಸಿದಾಗ ಅಂದಾಜು ಸುಮಾರು 6 ಗಂಟೆಗಳಿಗೆ ಇಳಿಯಿತು. ಮೌಲ್ಯಮಾಪಕರು ಇಂತಹ ತಿದ್ದುಪಡಿಗಳ ಅಗತ್ಯವನ್ನು ಪರಿಶೀಲಿಸಬೇಕು ಮತ್ತು ಅವು ಅಗತ್ಯವಿದ್ದಾಗ ಸ್ಪಷ್ಟವಾಗಿ ವರದಿ ಮಾಡಬೇಕು: ಯಾವ ಗೋಚರ ಯಶಸ್ಸುಗಳನ್ನು ಅನರ್ಹಗೊಳಿಸಲಾಯಿತು, ಏಕೆ ಅನರ್ಹಗೊಳಿಸಲಾಯಿತು, ಮತ್ತು ಫಲಿತಾಂಶವು ಆ ನಿರ್ಣಯದ ಮೇಲೆ ಎಷ್ಟು ಅವಲಂಬಿತವಾಗಿದೆ ಎಂಬುದನ್ನು ಓದುಗರು ನೋಡಬಲ್ಲಾಗ, ಸಾಮರ್ಥ್ಯದ ಅಂದಾಜು ಬಹಳ ಹೆಚ್ಚು ಉಪಯುಕ್ತವಾಗುತ್ತದೆ.

ಪ್ರವೃತ್ತಿ ರೇಖೆ ಮತ್ತು ವಿಶ್ವಾಸ ಅಂತರಗಳೊಂದಿಗೆ ಕಾಲಕ್ರಮೇಣ AI ಮಾಡೆಲ್ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ತೋರಿಸುವ ಚಾರ್ಟ್.

ನಿರಾಕರಣೆಗಳು

ಸುರಕ್ಷತಾ ರಕ್ಷಣೆಗಳ ಕಾರಣದಿಂದ ಮಾಡೆಲ್‌ಗಳು ಸಾಮರ್ಥ್ಯ ಮೌಲ್ಯಮಾಪನಗಳಲ್ಲಿ ಕಡಿಮೆ ಕಾರ್ಯಕ್ಷಮತೆ ತೋರಿಸಬಹುದು. ಮಾಡೆಲ್ ಕಾರ್ಯಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸುವ ಬದಲು ಮೌಲ್ಯಮಾಪನ ಕಾರ್ಯಗಳನ್ನು ನಿರಾಕರಿಸುವುದರಿಂದ, ಅದು ವಾಸ್ತವವಾಗಿ ಮಾಡಬಲ್ಲ ಮಟ್ಟಕ್ಕಿಂತ ಕಡಿಮೆ ಮೌಲ್ಯಮಾಪನ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ತೋರಿಸಬಹುದು. ಆದ್ದರಿಂದ ವರದಿಗಳು ನಿರಾಕರಣೆಗಳು ಮೌಲ್ಯಮಾಪನ ಫಲಿತಾಂಶಗಳ ಭಾಗವಾಗಿದ್ದವೆಯೇ ಮತ್ತು ಹೌದಾದರೆ, ಅವುಗಳಿಂದ ಎಷ್ಟು ಮಾದರಿಗಳು ಹಾನಿಗೊಳಗಾದವು ಎಂಬುದನ್ನು ವಿವರಿಸಬೇಕು.

ಕಂಟಾಮಿನೇಶನ್

ಸಾರ್ವಜನಿಕ ಅಥವಾ ಮರುಬಳಕೆಯ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳಿಗೆ ಕಂಟಾಮಿನೇಶನ್ ಅತ್ಯಂತ ಮಹತ್ವದ್ದಾಗಿದೆ. ಕಾರ್ಯಗಳು, ಉತ್ತರಗಳು, ಅಥವಾ ಹತ್ತಿರದ ರೂಪಾಂತರಗಳು ತರಬೇತಿ ಡೇಟಾದಲ್ಲಿ ಕಾಣಿಸಿಕೊಂಡಿದ್ದರೆ ಅಥವಾ ಬ್ರೌಸಿಂಗ್ ಹೊಂದಿರುವ ಏಜೆಂಟ್ ಅವನ್ನು ಕಂಡುಹಿಡಿಯಬಲ್ಲದಾದರೆ, ಕಾರ್ಯಕ್ಷಮತೆ ಮಾಡೆಲ್ ಕಾರ್ಯಕ್ಷಮತೆಯ ಬದಲು ಕಂಠಪಾಠ ಅಥವಾ ಮರುಪಡೆಯುವಿಕೆಯನ್ನು ಪ್ರತಿಬಿಂಬಿಸಬಹುದು. ಸಾಧ್ಯವಾದಲ್ಲಿ ಮೌಲ್ಯಮಾಪಕರು ಖಾಸಗಿ ಅಥವಾ ಹೊಸದಾಗಿ ನಿರ್ಮಿತ ಕಾರ್ಯಗಳಿಗೆ ಆದ್ಯತೆ ನೀಡಬೇಕು ಮತ್ತು ಪರಿಹರಿಸುವ ಮೊದಲು ಮಾಡೆಲ್‌ಗಳು ಕಾರ್ಯ-ನಿರ್ದಿಷ್ಟ ವಿವರಗಳನ್ನು ಮರುಉತ್ಪಾದಿಸುತ್ತವೆಯೇ ಎಂದು ಪರೀಕ್ಷಿಸಬೇಕು.

ದೋಷಪೂರಿತ ಸಮಸ್ಯೆಗಳು

ದೋಷಪೂರಿತ ಸಮಸ್ಯೆಗಳಲ್ಲಿ ತಪ್ಪಾಗಿ ಪರಿಹರಿಸಲಾಗದಂತಾಗಿರುವ ಸಮಸ್ಯೆಯಂತಹ ಸನ್ನಿವೇಶಗಳು ಸೇರಿವೆ. ದೋಷಪೂರಿತ ಸಮಸ್ಯೆಗಳು ಸಾಕಷ್ಟು ಸಾಮಾನ್ಯವಾಗಿವೆ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ); ಆದ್ದರಿಂದ ಅವುಗಳನ್ನು ಮಾನಕ ಮಾನ್ಯತಾ ಅಪಾಯವಾಗಿ ಪರಿಗಣಿಸಬೇಕು. ಇವುಗಳಲ್ಲಿ ತಪ್ಪಾದ ground truth, ಅಸ್ಪಷ್ಟ ಪ್ರಾಂಪ್ಟ್‌ಗಳು, ಕಾಣೆಯಾದ ಕಡತಗಳು, ಅಸ್ಥಿರ ಸೇವೆಗಳು, ಅನ್ಯಾಯಕರ ಸ್ಕೋರಿಂಗ್ ಮಾನದಂಡಗಳು, ಮತ್ತು ಮರೆಮಾಡಿದ ಉತ್ತರ ಕಡತಗಳು ಅಥವಾ ground-truth patch ಹೊಂದಿರುವ ರಿಪೊಸಿಟರಿ ಇತಿಹಾಸದಂತಹ ಶಾರ್ಟ್‌ಕಟ್‌ಗಳನ್ನು ಬಹಿರಂಗಪಡಿಸುವ ಪರಿಸರಗಳು ಸೇರಿವೆ.

ಸ್ಯಾಂಡ್‌ಬ್ಯಾಗಿಂಗ್

ಮಾಡೆಲ್ ಅಥವಾ ವ್ಯವಸ್ಥೆಯ ಸ್ಯಾಂಡ್‌ಬ್ಯಾಗಿಂಗ್ ಎಂದರೆ, ಬಲವಾದ ಕಾರ್ಯಕ್ಷಮತೆ ಯಾವುದಾದರೂ ಗುರಿಯೊಂದಿಗೆ ಸಂಘರ್ಷಿಸುವಾಗ ತಂತ್ರಾತ್ಮಕವಾಗಿ ಕಡಿಮೆ ಕಾರ್ಯಕ್ಷಮತೆ ತೋರಿಸುವುದು. Apollo ಯ GPT‑5.5 ಮೌಲ್ಯಮಾಪನ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಇದನ್ನು ಪರೀಕ್ಷಿಸಲು, ಹೆಚ್ಚಿನ ಮೌಲ್ಯಮಾಪನ ಅಂಕಗಳು unlearning ಅನ್ನು ಪ್ರೇರೇಪಿಸಬಹುದು ಅಥವಾ ನಿಯೋಜನೆಯನ್ನು ತಡೆಯಬಹುದು ಎಂದು ಮಾಡೆಲ್ ಅರ್ಥಮಾಡಿಕೊಂಡ ಸನ್ನಿವೇಶವನ್ನು ಸೃಷ್ಟಿಸಿತು. GPT‑5.5 ಇನ್ನೂ ಸರಿಯಾಗಿ ಉತ್ತರಿಸಿತು; ಇದರಿಂದ ತಂತ್ರಾತ್ಮಕ ಕಡಿಮೆ ಕಾರ್ಯಕ್ಷಮತೆಯ ವರ್ತನಾ ಸಾಕ್ಷ್ಯ ಅಲ್ಪವಾಗಿದೆ ಎಂದು ಸೂಚಿಸುತ್ತದೆ3. ಆದರೆ ಅವರ ರೀಜನಿಂಗ್ ಟ್ರೇಸ್‌ಗಳ ಪರಿಶೀಲನೆ ಮಹತ್ವದ ಸಂದರ್ಭವನ್ನು ಸೇರಿಸಿತು: ಪ್ರತಿಕಲ್ಪನೆಗಳಲ್ಲಿ 0% ಇದ್ದಾಗ, ಸ್ಯಾಂಡ್‌ಬ್ಯಾಗಿಂಗ್-ಷರತ್ತಿನ ಮಾದರಿಗಳ 52% ನಲ್ಲಿ alignment-evaluation awareness ನ ಮಧ್ಯಮ ಅಥವಾ ಅದಕ್ಕಿಂತ ಹೆಚ್ಚಿನ ಲಕ್ಷಣಗಳನ್ನು Apollo ಕಂಡುಹಿಡಿದಿತು. ಆ ಸಾಕ್ಷ್ಯವು ಫಲಿತಾಂಶದ ವ್ಯಾಖ್ಯಾನವನ್ನು ಸಂಕೀರ್ಣಗೊಳಿಸುತ್ತದೆ, ಆದರೆ ಅಂತಿಮವಾಗಿ ಓದುಗರಿಗೆ ಹೆಚ್ಚು ಸಂಕೇತ ನೀಡುತ್ತದೆ: ಭರವಸೆ ನೀಡುವ ವರ್ತನಾ ಫಲಿತಾಂಶವನ್ನೂ, ಅದನ್ನು ಅತಿಯಾಗಿ ಅರ್ಥೈಸುವಲ್ಲಿ ಎಚ್ಚರಿಕೆಯಿಂದಿರಬೇಕಾದ ಕಾರಣವನ್ನೂ ಓದುಗರು ನೋಡಬಹುದು.

ನಾವು ಹೆಚ್ಚು ಬಲವಾದ ಮೌಲ್ಯಮಾಪನಗಳನ್ನು ಹೇಗೆ ಬೆಂಬಲಿಸುತ್ತಿದ್ದೇವೆ

ಬಲವಾದ ದಾವೆಗಳಿಗೆ ವರ್ತನೆಯನ್ನು ಎಲಿಸಿಟ್ ಮಾಡಲು ಸರಿಯಾದ ಹಾರ್ನೆಸ್ ಮತ್ತು ಫಲಿತಾಂಶ ದೃಢವಾಗಿದೆ ಎಂದು ತೋರಿಸಲು ಮಾನ್ಯತಾ ಪರಿಶೀಲನೆಗಳು ಎರಡೂ ಅಗತ್ಯ. ಹಾರ್ನೆಸ್‌ಗಳು ಮತ್ತು ಮಾನ್ಯತಾ ಪರಿಶೀಲನೆಗಳು ಮೌಲ್ಯಮಾಪನ ಫಲಿತಾಂಶದ ಭಾಗವೇ ಎಂಬ ನಮ್ಮ ದೃಷ್ಟಿಕೋನವು, ಕಾರ್ಯಪ್ರಯೋಗದಲ್ಲಿ ಮೂರನೇ ಪಕ್ಷದ ಮೌಲ್ಯಮಾಪನಗಳನ್ನು ನಾವು ಹೇಗೆ ಬೆಂಬಲಿಸುತ್ತೇವೆ ಎಂಬುದನ್ನು ರೂಪಿಸುತ್ತದೆ: 

  • ನಾವು ಮೌಲ್ಯಮಾಪಕರೊಂದಿಗೆ ನಿರ್ದಿಷ್ಟ ಗರಿಷ್ಠ-ಎಲಿಸಿಟೇಶನ್ ಮಾರ್ಗದರ್ಶನವನ್ನು ಹಂಚಿಕೊಳ್ಳುತ್ತಿದ್ದೇವೆ.
  • OpenAI ಮಾಡೆಲ್‌ಗಳಿಗೆ Codex ಅನ್ನು ಸಾಮಾನ್ಯ ಕನಿಷ್ಠ ಮಾನದಂಡವಾಗಿ ಬಳಸುವಂತೆ ನಾವು ಸಾಮರ್ಥ್ಯ ಮೌಲ್ಯಮಾಪಕರನ್ನು ಕೇಳುತ್ತಿದ್ದೇವೆ: ಪರೀಕ್ಷೆಗಳು ಕೇವಲ ಸರಳೀಕೃತ ಮಾಡೆಲ್ ಇಂಟರ್‌ಫೇಸ್ ಮೂಲಕವಲ್ಲ, ಬಳಕೆದಾರರು ಅವಲಂಬಿಸುವ ಸಾಧ್ಯತೆಯಿರುವ ಅದೇ ಏಜೆಂಟಿಕ್ ಇಂಟರ್‌ಫೇಸ್ ಮೂಲಕ ಕನಿಷ್ಠ ಒಂದು ಬೇಸ್‌ಲೈನ್ ಅನ್ನು ಓಡಿಸಬೇಕು.
  • ವಂಚನೆ, ಸ್ಯಾಂಡ್‌ಬ್ಯಾಗಿಂಗ್, ಅಥವಾ ಮೌಲ್ಯಮಾಪನ ಅರಿವನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಅಗತ್ಯವಿರುವಲ್ಲಿ, ನಾವು ರೀಜನಿಂಗ್ ಟ್ರೇಸ್‌ಗಳು ಮತ್ತು ಇತರ ಮಧ್ಯಂತರ ವಸ್ತುಗಳನ್ನೂ ಲಭ್ಯವಾಗಿಸುತ್ತಿದ್ದೇವೆ. GPT‑5 ರಿಂದ OpenAI ಮೌಲ್ಯಮಾಪನಗಳಲ್ಲಿ METR ಮತ್ತು Apollo ಈ ಪ್ರವೇಶವನ್ನು ಬಳಸಿವೆ. 
  • ಕೊನೆಗೆ, ಸಂದರ್ಭ ನಿರ್ವಹಣೆ ಮತ್ತು ಉಪಕರಣ ಪ್ರವೇಶದಿಂದ ಮರುಪ್ರಯತ್ನ ವರ್ತನೆ, ಸ್ಕೋರಿಂಗ್, ಮತ್ತು ಸಂಪನ್ಮೂಲ ಬಜೆಟ್‌ಗಳವರೆಗೆ, ಹಾರ್ನೆಸ್ ಆಯ್ಕೆಗಳು ಯಾವಾಗ ಮತ್ತು ಹೇಗೆ ಫಲಿತಾಂಶಗಳನ್ನು ಮಹತ್ವವಾಗಿ ಬದಲಾಯಿಸುತ್ತವೆ ಎಂಬುದನ್ನು ಹೆಚ್ಚು ಆಳವಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ನಾವು ಸಂಶೋಧನೆಗೆ ಆದ್ಯತೆ ನೀಡುತ್ತಿದ್ದೇವೆ.

ಮೌಲ್ಯಮಾಪನ ಮಾನದಂಡಗಳು ಮತ್ತು ಭವಿಷ್ಯದ ಸಂಶೋಧನಾ ದಿಕ್ಕುಗಳಿಗೆ ಇದರ ಅರ್ಥವೇನು 

ಈ ಶಿಫಾರಸುಗಳು ವೈಯಕ್ತಿಕ ಮೌಲ್ಯಮಾಪನ ವರದಿಗಳನ್ನು ಸುಧಾರಿಸಲು ಮಾತ್ರವಲ್ಲ, ಫ್ರಾಂಟಿಯರ್ AI ಮೌಲ್ಯಮಾಪನ ಮತ್ತು ವರದಿಗೊಳಿಸುವಿಕೆಗೆ ಸಂಬಂಧಿಸಿದ ಹೊರಹೊಮ್ಮುತ್ತಿರುವ ರಾಷ್ಟ್ರೀಯ (ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ)ಮತ್ತು ಅಂತರರಾಷ್ಟ್ರೀಯ (ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ)ಮಾನದಂಡಗಳಿಗೆ ಮಾಹಿತಿ ನೀಡಲೂ ಉದ್ದೇಶಿಸಲಾಗಿದೆ. ಮುಂದೆ ಸಾಗುವಂತೆ, ಮೂರನೇ ಪಕ್ಷದ ಮೌಲ್ಯಮಾಪನ ಮಾನದಂಡಗಳು ನಿರ್ಧಾರಕರ್ತರು ನಿರ್ದಿಷ್ಟ ಮೌಲ್ಯಮಾಪನಗಳು ಯಾವ ದಾವೆಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತವೆ, ಯಾವ ವ್ಯವಸ್ಥೆಯನ್ನು ಪರೀಕ್ಷಿಸಲಾಯಿತು, ಫಲಿತಾಂಶವನ್ನು ಹೇಗೆ ಎಲಿಸಿಟ್ ಮಾಡಲಾಯಿತು, ಮತ್ತು ಮೌಲ್ಯಮಾಪಕರು ಅದರ ಮಾನ್ಯತೆಯನ್ನು ಹೇಗೆ ಪರಿಶೀಲಿಸಿದರು ಎಂಬುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಾಕಷ್ಟು ವಿವರವನ್ನು ಕಡ್ಡಾಯಗೊಳಿಸಬೇಕು. ಏಜೆಂಟಿಕ್ ಸಾಮರ್ಥ್ಯಗಳು ಮಹತ್ವವಾಗಿರುವ ಕಾರ್ಯಗಳಲ್ಲಿ ಪರೀಕ್ಷಿಸಲ್ಪಡುವ ಫ್ರಾಂಟಿಯರ್ ವ್ಯವಸ್ಥೆಗಳಿಗಾಗಿ, ವಿವರಗಳಲ್ಲಿ (ಯಾವುದೇ ಭದ್ರತೆ ಅಥವಾ ಗೌಪ್ಯತಾ ಚಿಂತನೆಗಳಿಗೆ ಒಳಪಟ್ಟಂತೆ) ಇವು ಸೇರಿರಬೇಕು:

  • ದಾವೆ: ಮೌಲ್ಯಮಾಪನವು ವ್ಯವಸ್ಥೆಗಳನ್ನು ಹೋಲಿಸುತ್ತದೆಯೇ, ಸಾಮರ್ಥ್ಯದ ಗರಿಷ್ಠ ಮಿತಿಯನ್ನು ಅಂದಾಜಿಸುತ್ತದೆಯೇ, ಅಥವಾ ಸುರಕ್ಷತಾ ರಕ್ಷಣೆಗಳನ್ನು ಪರೀಕ್ಷಿಸುತ್ತದೆಯೇ ಎಂಬುದು.
  • ಮೌಲ್ಯಮಾಪನ ವಿಷಯವಸ್ತು: ಮೌಲ್ಯಮಾಪನವು ನಿಜವಾಗಿ ಯಾವ ಕೌಶಲ್ಯಗಳು, ವರ್ತನೆಗಳು, ಅಥವಾ ವಿಫಲತಾ ಮಾದರಿಗಳನ್ನು ಪರೀಕ್ಷಿಸುತ್ತಿದೆ ಎಂಬುದನ್ನು ಓದುಗರು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಾಕಷ್ಟು ಕಾರ್ಯ ಅಥವಾ ಕಾರ್ಯ-ವಿತರಣೆಯ ವಿವರ.
  • ಪರೀಕ್ಷಿಸಲಾದ ವ್ಯವಸ್ಥೆ: ಮಾಡೆಲ್, ರೀಜನಿಂಗ್ ವ್ಯವಸ್ಥೆ, ಉಪಕರಣ ಪ್ರವೇಶ, ಹಾರ್ನೆಸ್, ಮತ್ತು ಸುರಕ್ಷತಾ ರಕ್ಷಣೆಗಳು.
  • ಬಜೆಟ್: ಟರ್ನ್‌ಗಳು, ಟೋಕನ್‌ಗಳು, ಪ್ರಯತ್ನಗಳು/ಮರುಪ್ರಯತ್ನಗಳು, ವಾಸ್ತವ ಸಮಯ, ಇನ್ಫರೆನ್ಸ್ ವೆಚ್ಚ, ಮತ್ತು ಅನ್ವಯಿಸುವಲ್ಲಿ ಪ್ರತಿ ಯಶಸ್ವಿ ಪರಿಹಾರದ ನಿರೀಕ್ಷಿತ ವೆಚ್ಚ.
  • ಎಲಿಸಿಟೇಶನ್ ವಿಧಾನಗಳು: ಫಲಿತಾಂಶವನ್ನು ಹೊರತೆಗೆದುಕೊಳ್ಳಲು ಬಳಸಿದ ಹಾರ್ನೆಸ್ ಆಯ್ಕೆಗಳು, ಮತ್ತು ಪರೀಕ್ಷಿಸಲಾದದ್ದು ಮಾಡಲಾಗುತ್ತಿರುವ ವಿಶಾಲ ದಾವೆಯನ್ನು ಎಷ್ಟು ಸಮೀಪವಾಗಿ ಪ್ರತಿಬಿಂಬಿಸುತ್ತದೆ ಎಂಬುದು.
  • ಮಾನ್ಯತಾ ಪರಿಶೀಲನೆಗಳು: ರಿವಾರ್ಡ್ ಹ್ಯಾಕಿಂಗ್, ಮೌಲ್ಯಮಾಪನ ಅರಿವು, ಕಂಟಾಮಿನೇಶನ್, ನಿರಾಕರಣೆಗಳು, ಸ್ಯಾಂಡ್‌ಬ್ಯಾಗಿಂಗ್ ಮತ್ತು ಫಲಿತಾಂಶವನ್ನು ದುರ್ಬಲಗೊಳಿಸಬಹುದಾದ ಇತರ ವರ್ತನೆಗಳನ್ನು ಮೌಲ್ಯಮಾಪಕರು ಹೇಗೆ ಹುಡುಕಿದರು, ದೃಢಪಟ್ಟ ಪ್ರಕರಣಗಳು ಸ್ಕೋರಿಂಗ್ ಅಥವಾ ವ್ಯಾಖ್ಯಾನವನ್ನು ಹೇಗೆ ಪ್ರಭಾವಿಸಿವೆ ಎಂಬುದೂ ಸೇರಿ.

ಹಾರ್ನೆಸ್ ಆಯ್ಕೆಗಳು ಅಥವಾ ಮಾನ್ಯತಾ ಪರಿಶೀಲನೆಗಳನ್ನು ಬಿಟ್ಟುಬಿಡುವ ಮಾನದಂಡಗಳು, ಒಂದು ವ್ಯವಸ್ಥೆ ಏನು ಮಾಡಬಲ್ಲದು ಎಂಬುದನ್ನು ಕಡಿಮೆ ತೋರಿಸಬಹುದು ಅಥವಾ ಸುರಕ್ಷತಾ ದಾವೆಯ ಮೇಲಿನ ವಿಶ್ವಾಸವನ್ನು ಹೆಚ್ಚಾಗಿ ತೋರಿಸಬಹುದು. ಬಲವಾದ ಹಾರ್ನೆಸ್‌ಗಳು ಮತ್ತು ಎಲಿಸಿಟೇಶನ್ ವಿಧಾನಗಳನ್ನು ನಿರ್ಮಿಸುವುದು ಇನ್ನೂ ಮುಕ್ತ ಸಂಶೋಧನಾ ಕ್ಷೇತ್ರವಾಗಿದ್ದು, ಮುಂದಿನ ಪರಿಶೀಲನೆ ಮತ್ತು ಹೂಡಿಕೆಗೆ ಅದು ಪ್ರಮುಖ ಕೇಂದ್ರೀಕರಣವಾಗಿರಬೇಕು.

ಲೇಖಕ

OpenAI

ಪದಕೋಶ

ಈ ಪೋಸ್ಟ್‌ನಲ್ಲಿ ನಾವು ಕೆಲವು ವಿಶೇಷ ತಾಂತ್ರಿಕ ಪದಗಳನ್ನು ಬಳಸಿರುವುದರಿಂದ, ನಾವು ಯಾವುದನ್ನು ಉಲ್ಲೇಖಿಸುತ್ತಿದ್ದೇವೆ ಎಂಬುದಕ್ಕೆ ಸರಳ ಭಾಷೆಯ ವಿವರಣೆ ನೀಡುವ ಪದಕೋಶವನ್ನು ಕೆಳಗೆ ಸೇರಿಸಿದ್ದೇವೆ:

  • ಏಜೆಂಟಿಕ್ ವ್ಯವಸ್ಥೆ: ಕೇವಲ ಒಂದು ಪ್ರಾಂಪ್ಟ್‌ಗೆ ಒಂದೇ ಪ್ರತಿಕ್ರಿಯೆ ನೀಡುವುದಕ್ಕಿಂತ, ಉಪಕರಣಗಳನ್ನು ಬಳಸಿ, ಕಾರ್ಯದ ಸ್ಥಿತಿಯನ್ನು ಉಳಿಸಿಕೊಂಡು, ಪರಿಸರದಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಾ, ಅನೇಕ ಹಂತಗಳಲ್ಲಿ ಕೆಲಸವನ್ನು ಪೂರ್ಣಗೊಳಿಸಬಲ್ಲ ವ್ಯವಸ್ಥೆ.

  • ಮೌಲ್ಯಮಾಪನ ನಿರ್ಣಯ: ಸಾಕ್ಷ್ಯವು ಯಾವುದಾದರೂ ದಾವೆ, ಅಪಾಯದ ತೀರ್ಮಾನ, ಅಥವಾ ಭರವಸೆ ನಿಲುವನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆಯೇ ಎಂಬ ವಿಶಾಲ ನಿರ್ಣಯ. ಇದು ಮೌಲ್ಯಮಾಪನ ಡೇಟಾ, ದಸ್ತಾವೇಜು ಪರಿಶೀಲನೆ, ಸಂದರ್ಶನ, ಪ್ರಕ್ರಿಯೆ ಪರಿಶೀಲನೆ ಮತ್ತು ಇತರ ಸಂಬಂಧಿತ ವಸ್ತುಗಳ ಆಧಾರದಲ್ಲಿರಬಹುದು.

  • ಕಾಂಪ್ಯಾಕ್ಷನ್: ದೀರ್ಘ ಅವಧಿಯ ಕಾರ್ಯಾಚರಣೆಯ ವೇಳೆ ಕೆಲಸಕ್ಕೆ ಸಂಬಂಧಿತ ಸಂದರ್ಭವನ್ನು ಉಳಿಸುವ ವಿಧಾನ.

  • ಸಂರಚನೆ: ಮಾಡೆಲ್ ಹೆಸರಿಗಿಂತ ಹೊರತಾಗಿ, ನಿಖರವಾಗಿ ಪರೀಕ್ಷಿಸಲಾದ ವ್ಯವಸ್ಥೆ ಮತ್ತು ಮೌಲ್ಯಮಾಪನದ ಷರತ್ತುಗಳು.

  • ಕಂಟಾಮಿನೇಶನ್: ಮೌಲ್ಯಮಾಪನದ ಕಾರ್ಯಗಳು, ಉತ್ತರಗಳು, ಅಥವಾ ಅವುಗಳಿಗೆ ಹತ್ತಿರದ ರೂಪಾಂತರಗಳು ಮಾಡೆಲ್‌ನ ತರಬೇತಿ ಡೇಟಾದಲ್ಲಿ ಕಾಣಿಸಿಕೊಳ್ಳುವಾಗ ಅಥವಾ ಮೌಲ್ಯಮಾಪನದ ವೇಳೆ ಕಂಡುಹಿಡಿಯಬಹುದಾಗಿರುವಾಗ (ಉದಾ., ಬ್ರೌಸಿಂಗ್‌ನಂತಹ ಉಪಕರಣಗಳ ಮೂಲಕ), ಕಾರ್ಯಕ್ಷಮತೆ ಮಾಡೆಲ್‌ನ ನಿಜವಾದ ಸಾಮಾನ್ಯೀಕರಣ ಸಾಮರ್ಥ್ಯಕ್ಕಿಂತ ಹೆಚ್ಚಾಗಿ ತೋರುತ್ತದೆ.

  • ಎಲಿಸಿಟೇಶನ್: ಮೌಲ್ಯಮಾಪನದ ವೇಳೆ ವ್ಯವಸ್ಥೆಯಿಂದ ಒಂದು ಸಾಮರ್ಥ್ಯ ಅಥವಾ ವರ್ತನೆಯನ್ನು ಹೊರತೆಗೆದುಕೊಳ್ಳಲು ಮಾಡುವ ಪ್ರಕ್ರಿಯೆ.

  • ಪರಿಸರ: ಒಂದು ವ್ಯವಸ್ಥೆಯನ್ನು ಪರೀಕ್ಷಿಸುವ ಕಾರ್ಯದ ಸನ್ನಿವೇಶ. ಇದರಲ್ಲಿ ಮೌಲ್ಯಮಾಪನದ ವೇಳೆ ಏಜೆಂಟ್ ಸಂವಹನ ನಡೆಸುವ ಮತ್ತು ಬದಲಾಯಿಸುವ ಬಾಹ್ಯ ಸ್ಥಿತಿ, ಉದಾಹರಣೆಗೆ ಟರ್ಮಿನಲ್ ಪರಿಸರ ಅಥವಾ ವೀಡಿಯೊ ಆಟ, ಸೇರಿವೆ.

  • ಮೌಲ್ಯಮಾಪನ: ಮೌಲ್ಯಮಾಪನ ನಿರ್ಣಯದೊಳಗಿನ ನಿರ್ದಿಷ್ಟ ಪರೀಕ್ಷೆ ಅಥವಾ ಅಳತೆ.

  • ಮೌಲ್ಯಮಾಪನ ಅರಿವು: ಮೌಲ್ಯಮಾಪನ ಅರಿವು ಎಂದರೆ, ಮಾಡೆಲ್ ತನ್ನನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲಾಗುತ್ತಿದೆ ಎಂದು ಗುರುತಿಸುವುದು, ಅಥವಾ ಗುರುತಿಸುವಂತೆ ಕಾಣುವುದು, ಮತ್ತು ಆ ಸಂದರ್ಭಕ್ಕೆ ಪ್ರತಿಕ್ರಿಯೆಯಾಗಿ ತನ್ನ ವರ್ತನೆಯನ್ನು ಬದಲಾಯಿಸುವ ಸಾಧ್ಯತೆ. ಇದು ಮಾಡೆಲ್ ತಾನು ಪರೀಕ್ಷೆಗೆ ಒಳಪಟ್ಟಿದೆ ಎಂದು ಸ್ಪಷ್ಟವಾಗಿ ರೀಜನಿಂಗ್ ಮಾಡುವಂತೆ, ಮೌಲ್ಯಮಾಪನದ ಉದ್ದೇಶವನ್ನು ಊಹಿಸುವಂತೆ, ಅಥವಾ ಫಲಿತಾಂಶವು ತನ್ನನ್ನು ಹೇಗೆ ನಿರ್ಣಯಿಸಲಾಗುತ್ತದೆ ಅಥವಾ ನಿಯೋಜಿಸಲಾಗುತ್ತದೆ ಎಂಬುದನ್ನು ಪ್ರಭಾವಿಸುತ್ತದೆ ಎಂದು ನಿರೀಕ್ಷಿಸಿ ತನ್ನ ವರ್ತನೆಯನ್ನು ಬದಲಾಯಿಸುವಂತೆ ಕಾಣಬಹುದು.

  • ಹಾರ್ನೆಸ್: ಮಾಡೆಲ್‌ಗೆ ಒಂದು ಕೆಲಸವನ್ನು ನಿರ್ವಹಿಸಲು ಅವಕಾಶ ನೀಡುವ, ಮಾಡೆಲ್‌ಮುಖಿ ರಚನೆ: ಪ್ರಾಂಪ್ಟ್‌ಗಳು, ಉಪಕರಣಗಳು, ಇಂಟರ್‌ಫೇಸ್‌ಗಳು, ನಿಯಂತ್ರಣ ತರ್ಕ, ಸ್ಮೃತಿ, ಮರುಪ್ರಯತ್ನಗಳು, ಮಾನ್ಯೀಕರಕರು, ಮತ್ತು ಮಾಡೆಲ್ ಸುತ್ತಲಿನ ಇತರ ಬೆಂಬಲ ರಚನೆಗಳು.

  • ಗರಿಷ್ಠ ಎಲಿಸಿಟೇಶನ್: ವ್ಯವಸ್ಥೆಯನ್ನು ಒಮ್ಮೆ ಮಾನಕೀಕೃತ ಹಾರ್ನೆಸ್ ಮೂಲಕ ಓಡಿಸುವುದಕ್ಕಿಂತ, ನಿರ್ದಿಷ್ಟ ಬಜೆಟ್‌ನೊಳಗೆ ಒಂದು ವ್ಯವಸ್ಥೆ ತೋರಿಸಬಲ್ಲ ಅತ್ಯಂತ ಬಲವಾದ ವಿಶ್ವಾಸಾರ್ಹ ಕಾರ್ಯಕ್ಷಮತೆ ಅಥವಾ ವಿಫಲತಾ ಮಾದರಿಯನ್ನು ಕಂಡುಹಿಡಿಯಲು ಉದ್ದೇಶಿಸಿದ ಪರೀಕ್ಷೆ.

  • ರೀಜನಿಂಗ್ ಟ್ರೇಸ್‌ಗಳು: ಪರೀಕ್ಷೆಯ ವೇಳೆ ಮಾಡೆಲ್‌ನ ಮಧ್ಯಂತರ ರೀಜನಿಂಗ್‌ನ ದಾಖಲೆಗಳು.

  • ರಿವಾರ್ಡ್ ಹ್ಯಾಕಿಂಗ್: ಮೌಲ್ಯಮಾಪಕರ ಉದ್ದೇಶದ ಹೊರಗಿನ ಶಾರ್ಟ್‌ಕಟ್ ಅಥವಾ ವರ್ತನೆಯ ಮೂಲಕ ಹೆಚ್ಚಿನ ಅಂಕ ಪಡೆಯುವುದು.

  • ಸುರಕ್ಷತಾ ರಕ್ಷಣೆಗಳು: ಮಾಡೆಲ್ ಅಥವಾ ಉತ್ಪನ್ನದ ಸುತ್ತ ಅನ್ವಯಿಸಲಾದ ಫಿಲ್ಟರ್‌ಗಳು, ಮಾನಿಟರ್‌ಗಳು, ತಡೆ ವ್ಯವಸ್ಥೆಗಳು ಮತ್ತು ಇತರ ರಕ್ಷಣೆಗಳು.

  • ಸ್ಯಾಂಡ್‌ಬ್ಯಾಗಿಂಗ್: ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ ಫಲಿತಾಂಶವನ್ನು ದುರ್ಬಲಗೊಳಿಸುವ ರೀತಿಯಲ್ಲಿ ತಂತ್ರಾತ್ಮಕವಾಗಿ ಕಡಿಮೆ ಕಾರ್ಯಕ್ಷಮತೆ ತೋರಿಸುವುದು.

  • ಸ್ಕೋರಿಂಗ್: ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಹೇಗೆ ಅಳೆಯಬೇಕು ಅಥವಾ ಒಂದು ಕೆಲಸ ಯಶಸ್ವಿಯಾಯಿತೇ ಎಂದು ನಿರ್ಧರಿಸಲು ಬಳಸುವ ವಿಧಾನ.

  • ಮಾನಕೀಕೃತ ಹಾರ್ನೆಸ್: ನಿರ್ದಿಷ್ಟ ಮಾಡೆಲ್ ಅಥವಾ ಕಾರ್ಯಕ್ಕೆ ಹೊಂದಿಸುವುದಕ್ಕಿಂತ, ವಿವಿಧ ವ್ಯವಸ್ಥೆಗಳಾದ್ಯಂತ ಒಂದೇ ರೀತಿಯಾಗಿ ಉಳಿಸುವ ಹಾರ್ನೆಸ್, ಇದರಿಂದ ಫಲಿತಾಂಶಗಳ ವ್ಯತ್ಯಾಸವನ್ನು ಪರೀಕ್ಷಿಸಲಾದ ಮಾಡೆಲ್‌ಗೆ ಸುಲಭವಾಗಿ ಸಂಬಂಧಿಸಬಹುದು.

  • ಕಾಲಾವಧಿ ವ್ಯಾಪ್ತಿ: ನಿರ್ದಿಷ್ಟ ವಿಶ್ವಾಸಾರ್ಹತೆಯೊಂದಿಗೆ ಒಂದು ವ್ಯವಸ್ಥೆ ಪೂರ್ಣಗೊಳಿಸಬಲ್ಲ ಕಾರ್ಯದ ಉದ್ದ; ಇದನ್ನು ಅದೇ ಕೆಲಸವನ್ನು ಮಾನವನು ಮಾಡಲು ಎಷ್ಟು ಸಮಯ ಬೇಕು ಎಂಬ ರೂಪದಲ್ಲಿ ಹೆಚ್ಚಾಗಿ ವ್ಯಕ್ತಪಡಿಸಲಾಗುತ್ತದೆ.

  • ಉಪಕರಣ ಪ್ರವೇಶ: ಮೌಲ್ಯಮಾಪನದ ವೇಳೆ ಮಾಡೆಲ್‌ಗೆ ಲಭ್ಯವಿರುವ ಬಾಹ್ಯ ಉಪಕರಣಗಳು.

  • ಟ್ರಾಜೆಕ್ಟರಿಗಳು: ಒಂದು ಕೆಲಸವನ್ನು ನಿರ್ವಹಿಸುವಾಗ ವ್ಯವಸ್ಥೆ ಅನುಸರಿಸುವ ಹಂತ ಹಂತದ ಮಾರ್ಗಗಳು.

  • ಸಾರ್ವತ್ರಿಕ ಜೈಲ್‌ಬ್ರೇಕ್: ಅನೇಕ ಪ್ರಾಂಪ್ಟ್‌ಗಳು ಅಥವಾ ಕಾರ್ಯಗಳಾದ್ಯಂತ ಒಂದು ವ್ಯವಸ್ಥೆ ಸುರಕ್ಷತಾ ರಕ್ಷಣೆಗಳನ್ನು ಬಿಟ್ಟುಹೋಗುವಂತೆ ಮಾಡುವ ಏಕೈಕ ದಾಳಿ ಮಾದರಿ.

ಅಡಿಟಿಪ್ಪಣಿಗಳು (ಫುಟ್‌ನೋಟ್ಸ್)

  1. 1

    ಈ ಪೋಸ್ಟ್, ಮೂರನೇ ಪಕ್ಷಗಳು ಮಿಸ್‌ಅಲೈನ್‌ಮೆಂಟ್ ಅಥವಾ ಪ್ರವೃತ್ತಿ-ಸಂಬಂಧಿತ ದಾವೆಗಳನ್ನು ಹೇಗೆ ಮೌಲ್ಯಮಾಪನ ಮಾಡಬೇಕು ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸಲು ಪ್ರಯತ್ನಿಸುವುದಿಲ್ಲ. ಆ ಮೌಲ್ಯಮಾಪನಗಳ ಮೇಲೆ ಹಾರ್ನೆಸ್ ಆಯ್ಕೆಗಳು ಹೇಗೆ ಪರಿಣಾಮ ಬೀರುತ್ತವೆ ಎಂಬುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಇನ್ನಷ್ಟು ಕೆಲಸ ಅಗತ್ಯವಿದೆ, ವಿಶೇಷವಾಗಿ ದೀರ್ಘ-ಕಾಲಾವಧಿಯ ವರ್ತನೆಯನ್ನು ಬೆಂಬಲಿಸುವ ಹಾರ್ನೆಸ್‌ಗಳು ಮೌಲ್ಯಮಾಪಕರು ಗಮನಿಸಬೇಕಾದ ಅನಿರೀಕ್ಷಿತ ವರ್ತನೆಗಳ ವಿಧಗಳನ್ನೂ ಬದಲಾಯಿಸಬಹುದು.

  2. 2

    HAL(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಏಜೆಂಟ್ ಮೌಲ್ಯಮಾಪನಗಳಿಂದ ಇನ್ನೊಂದು ಉದಾಹರಣೆಯನ್ನು ನೀಡುತ್ತದೆ: CORE-Bench(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ನಲ್ಲಿ, ಹಾರ್ನೆಸ್ ಅನ್ನು Claude Code ಗೆ ಬದಲಾಯಿಸಿದಾಗ ಅದೇ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ನಲ್ಲಿ ಅಳೆಯಲಾದ ಕಾರ್ಯಕ್ಷಮತೆ ಮತ್ತು ವೆಚ್ಚ ಪ್ರೊಫೈಲ್ ಎರಡೂ ಬದಲಾಗಿದವು. ಇತರೆ ಸಾರ್ವಜನಿಕ ಉದಾಹರಣೆಗಳಲ್ಲಿ SWE-agent(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ), SeeAct(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ), ScienceAgentBench(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ), CORE-Bench(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ), ಮತ್ತು Inspect Cyber(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಸೇರಿವೆ; ಪ್ರತಿಯೊಂದೂ ಯಾವ ಇಂಟರ್‌ಫೇಸ್ ಅಥವಾ ಹಾರ್ನೆಸ್ ಅಂಕವನ್ನು ಉತ್ಪಾದಿಸಿತು ಎಂಬುದನ್ನು ಓದುಗರಿಗೆ ತಿಳಿಸುತ್ತದೆ.

  3. 3

    ಎರಡೂ Sandbagging QA ರೂಪಾಂತರಗಳಲ್ಲಿ 100% ಮತ್ತು ತಂತ್ರಾತ್ಮಕ-ವಂಚನೆ ಸ್ಯಾಂಡ್‌ಬ್ಯಾಗಿಂಗ್ ಕಾರ್ಯದಲ್ಲಿ 99.6% ಅಂಕ ಗಳಿಸಿದೆ.