నమ్మదగిన మూడవ పక్ష మూల్యాంకనాల కోసం ఒక పంచుకున్న ప్లేబుక్
అత్యాధునిక మోడళ్ల కోసం రక్షణలు మరియు సామర్థ్యాలపై ప్రభావవంతమైన స్వతంత్ర మూల్యాంకనాలకు ముఖ్యమైన అంశాలు.
స్వతంత్ర, విశ్వసనీయ మూడవ పక్ష మూల్యాంకనాలు భద్రతా పర్యావరణాన్ని బలోపేతం చేయడంలో ముఖ్యమైన పాత్ర పోషిస్తాయి. ఈ మూల్యాంకనాలు ఫ్రంటియర్ మోడళ్లపై నిర్వహించబడతాయి, తద్వారా కీలక సామర్థ్యాలు మరియు భద్రతా ఉపశమనాలపై దావాలకు అదనపు ఆధారాలు అందిస్తాయి. ఈ పోస్టులో, ఇప్పటివరకు మేము నేర్చుకున్న పాఠాలను పంచుకుంటూ, ఫ్రంటియర్ మోడళ్లను చెల్లుబాటుగా అంచనా వేయగల మూల్యాంకనాలను రూపకల్పన చేయడానికి పద్ధతులను సిఫారసు చేస్తున్నాము. ఇవి ఈ రంగంలో ఉద్భవిస్తున్న ప్రమాణాలకు ఉపయోగపడతాయని మేము ఆశిస్తున్నాము.
ముందుగా, అనేక మూల్యాంకనాలు మోడళ్లను చాట్బాట్లలా పరిగణించేవి: మూల్యాంకనం ఒక వినియోగదారు ప్రశ్న అడిగినట్లుగా మోడల్కు ప్రాంప్ట్ ఇస్తుంది, మోడల్ సమాధానం ఇస్తుంది, ఆపై మూల్యాంకనకర్త అవుట్పుట్ను నిర్ణయిస్తాడు. నేటి ఫ్రంటియర్ మోడళ్లు ఇంకా చాలా ఎక్కువ చేయగలవు: అవి సాధనాలను ఉపయోగించగలవు, అనేక దశలలో సమాచారాన్ని గుర్తుంచుకోగలవు, మరియు పెద్ద వర్క్ఫ్లోలో చర్యలు తీసుకోగలవు. దీని అర్థం పనితీరు కేవలం మోడల్పైనే కాకుండా, పని జరిగే పరిసరంపైన, అలాగే దాని చర్యలను సులభతరం చేసే సెటప్పైన కూడా ఆధారపడి ఉంటుంది. మేము “హార్నెస్” అని పిలిచే ఈ చుట్టుపక్కల సెటప్, వ్యవస్థ పనితీరులోని కీలక అంశాలను మార్చగలదు. ఇందులో అది సాధనాలను ఎలా ఉపయోగిస్తుంది, సమాచారాన్ని ఎలా గుర్తుంచుకుంటుంది, లేదా తప్పుల నుంచి ఎలా కోలుకుంటుంది అన్నవి ఉన్నాయి.
దీంతో మూల్యాంకనాలు ఎలా నిర్వహించాలి, మరియు మూల్యాంకన నివేదికల్లో పాఠకులు ఏ విషయాలను చూడాలి అన్నది మారుతుంది. మా దృష్టిలో, అత్యంత ఉపయోగకరమైన నివేదికలు ఫలితానికంటే మించి రెండు విషయాలను స్పష్టంగా వివరిస్తాయి: మొదట, మూల్యాంకన సెటప్ ఏ దావాను పరీక్షించడానికి రూపొందించబడిందో చెబుతాయి; రెండవది, మూల్యాంకన ఫలితం చెల్లుబాటైనదని చూపే అందుబాటులో ఉన్న ఆధారాలను పంచుకుంటాయి.
మూల్యాంకనాల్లో పరీక్షించే దావాలు సాధారణంగా మూడు వర్గాల్లో ఒకటిలో పడతాయి1:
- సామర్థ్య ఎలిసిటేషన్: మూల్యాంకనం చేస్తున్న సామర్థ్యాన్ని ఒక మోడల్ విశ్వసనీయంగా ఉత్పత్తి చేయగలదా?
- రక్షణ పనితీరు: పరీక్షించిన రక్షణలు, మూల్యాంకనం చేస్తున్న ప్రవర్తన లేదా దాడికి వ్యతిరేకంగా ఎంత దృఢంగా ఉన్నాయి?
- పోలిక: సమాన పరిస్థితుల్లో వేర్వేరు మోడళ్లు ఎలా పనిచేస్తాయి?
మూల్యాంకన నివేదికలు, ఫలితపు చెల్లుబాటును ప్రభావితం చేయగల ప్రభావాలను మూల్యాంకనకర్తలు ఎలా తనిఖీ చేశారో కూడా వివరించాలి. వాటిలో ఇవి ఉన్నాయి:
- రివార్డ్ హ్యాకింగ్: పని లేదా స్కోరర్లోని షార్ట్కట్లను ఉపయోగించుకుని, మూల్యాంకనం కొలవదలచిన ప్రవర్తనను చూపకుండా వ్యవస్థకు క్రెడిట్ రావడం.
- నిరాకరణలు: పరీక్షిస్తున్న ప్రవర్తనను మసకబార్చే విధంగా నిరాకరించడం.
- కాలుష్యం: మూల్యాంకన పనులు, సమాధానాలు, లేదా దగ్గరైన రూపాలు శిక్షణ డేటాలో కనిపించడం వల్ల, లేదా బ్రౌజింగ్ వంటి మార్గాల ద్వారా మూల్యాంకన సమయంలో కనుగొనగలగడం వల్ల, అధిక పనితీరు కనిపించడం.
- లోపభూయిష్ట సమస్యలు: పనులు చెల్లనివి కావడం వల్ల తక్కువ పనితీరు కనిపించడం. కారణాల్లో అన్యాయమైన స్కోరింగ్ (ఉదా., సరైన సమాధానానికి చెప్పని అమలు వివరాలు అవసరం కావడం) మరియు పరిష్కరించలేని పరిసరాలు (ఉదా., కీలక ఫైళ్లు లేకపోవడం లేదా నమ్మదగని సాధనాలు) ఉండవచ్చు.
- సాండ్బ్యాగింగ్: తాము మూల్యాంకనం అవుతున్నామని అవగాహన చూపినప్పుడు ఉద్దేశపూర్వకంగా తక్కువ పనితీరు చూపించడం.
దీర్ఘమైన ట్రాజెక్టరీలపై పనిచేసే వ్యవస్థల కోసం హార్నెస్ పాత్ర ప్రత్యేకంగా ముఖ్యమని మేము గమనించాము. మోడళ్లు సాధనాలను ఉపయోగించగలిగినప్పుడు, స్థితిని నిలుపుకోగలిగినప్పుడు, మరియు అనేక దశలలో తప్పుల నుంచి కోలుకోగలిగినప్పుడు, హార్నెస్ గమనించిన పనితీరు స్థాయిని మార్చగలదు, అంతేకాక మూల్యాంకనం చేస్తున్న సామర్థ్యం అసలు మూల్యాంకనంలో కనిపిస్తుందా లేదా అన్నదాన్ని కూడా నిర్ణయించగలదు. ఉదాహరణకు, స్థితిని నిలుపుకుని విఫలమైన చర్యలను మళ్లీ ప్రయత్నించే హార్నెస్, అదే మోడల్ సరళమైన హార్నెస్లో ఎప్పుడూ పూర్తి చేయలేని బహుళ-దశల పనిని పూర్తి చేయనివ్వవచ్చు.
క్రింది పట్టికలో, మూల్యాంకనకర్తలు చేయదలచిన మూడు రకాల దావాలను మరియు ప్రతి రకానికి అవసరమని మేము నమ్మే హార్నెస్ను వేరు చేశాము.
మూల్యాంకనం మద్దతు ఇవ్వడానికి ప్రయత్నిస్తున్న దావా | తగిన హార్నెస్ ఎంపిక | నివేదించాల్సిన ఆధారాలు |
బలమైన ఎలిసిటేషన్ కింద సామర్థ్యం: అత్యంత బలమైన విశ్వసనీయ పనితీరును వెలికి తీయడానికి సెటప్ రూపొందించినప్పుడు, వ్యవస్థ A రకం X పనులను పూర్తి చేయగలదు. | వ్యవస్థ కోసం అత్యంత బలమైన విశ్వసనీయ ఎలిసిటేషన్ సెటప్ను ఉపయోగించండి. ఇందులో హార్నెస్, సాధనాలు, స్కాఫోల్డింగ్, మరియు సామర్థ్యవంతమైన వినియోగదారు సహజంగా ఉపయోగించే బడ్జెట్ ఉండాలి. | హార్నెస్ మరియు సాధనాల సెటప్, ఎలిసిటేషన్ మార్గదర్శకం, అనుమతించిన బడ్జెట్/ప్రయత్నం, టోకెన్లు/ఖర్చు/సమయం, మరియు ఈ సెటప్ దావా చేసిన సామర్థ్యానికి ఎందుకు విశ్వసనీయ ప్రతినిధి అనేది. వేర్వేరు ఆప్టిమైజ్ చేసిన సెటప్ల కింద వ్యవస్థలను పోలిస్తే, దాన్ని వ్యవస్థ-తో-వ్యవస్థ లేదా బలమైన-ఎలిసిటేషన్ పోలికగా లేబుల్ చేయండి. |
నియంత్రిత పోలిక: పంచుకున్న మూల్యాంకన సెటప్ కింద వ్యవస్థ A, వ్యవస్థ B కంటే మెరుగ్గా పనిచేస్తుంది. | పనులు, స్కోరింగ్, మరియు బడ్జెట్ను స్థిరంగా ఉంచండి. పంచుకున్న హార్నెస్/సాధనాల సెటప్ను లేదా పోల్చబడుతున్న వ్యవస్థలకు తగిన గరిష్ట ఎలిసిటేషన్ ఇవ్వడానికి ముందుగానే ఎంచుకున్న ప్రమాణీకృత హార్నెస్ల స్థిర సమితిని ఉపయోగించండి. | పంచుకున్న పని సమితి, సాధనాలు, స్కోరింగ్ విధానం, హార్నెస్, బడ్జెట్, టోకెన్ సామర్థ్యం/ఖర్చు, మరియు తెలిసిన పరిమితులు. కోడింగ్-ఏజెంట్ మూల్యాంకనాల కోసం, Codex CLI వంటి ఓపెన్-సోర్స్ హార్నెస్ వ్యవస్థల అంతటా స్థిరమైన ఏజెంట్ లూప్ మరియు సాధన ఇంటర్ఫేస్ను అందించగలదు. గరిష్ట ఎలిసిటేషన్కు ఆదర్శ విధానం ప్రతి పని మరియు వ్యవస్థ కోసం ప్రత్యేక హార్నెస్ను ఆప్టిమైజ్ చేయడం అవుతుంది, కానీ ప్రస్తుతం అది ఆచరణలో సాధ్యం కాదు. |
వెలికి తీయబడిన దాడి కింద రక్షణల దృఢత్వం: సంబంధిత మోడల్ ప్రవర్తన లేదా వెలికి తీయబడిన దాడికి వ్యవస్థ A యొక్క రక్షణలు సరిపోతాయి. | సంబంధిత ప్రత్యర్థి మోడల్ కింద అత్యంత బలమైన విశ్వసనీయ దాడిని వెలికి తీయడానికి రూపొందించిన రక్షణ-పరీక్ష సెటప్ను ఉపయోగించండి. | మూల్యాంకనకర్తలు సంబంధిత మోడల్ ప్రవర్తనను ఎలా వర్ణించారు, పరీక్షించిన రక్షణ కాన్ఫిగరేషన్, ఎలిసిటేషన్ వ్యూహం, దాన్ని అమలు చేయడానికి ఉపయోగించిన హార్నెస్, మరియు అనుమతించిన బడ్జెట్ లేదా ప్రయత్నం. |
సామర్థ్య దావాల బలం వాటి వెనుక ఉన్న ఎలిసిటేషన్ంతే ఉంటుంది: మూల్యాంకనకర్తలు పని మరియు మూల్యాంకనం కొలవదలచిన సామర్థ్యానికి అత్యంత సరిపోయే హార్నెస్ను ఎంచుకోవాలి. ఒకే పరిస్థితుల్లో వ్యవస్థలను పోల్చడానికి ప్రమాణీకృత హార్నెస్ సరైనదై ఉండవచ్చు, కానీ మోడల్ పని చేయడానికి సహాయపడే నిర్దిష్ట హార్నెస్ లక్షణాలను వదిలేస్తే అది సామర్థ్యాన్ని తక్కువగా చూపవచ్చు. ఉదాహరణకు, OpenAI యొక్క సైబర్ రేంజ్లలో GPT‑5.5 పనితీరు, దీర్ఘమైన బహుళ-దశల సాధన వినియోగం అవసరమైన పనులపై హార్నెస్ ఎంపిక కొలిచిన సామర్థ్యాన్ని గణనీయంగా ఎలా మార్చగలదో చూపిస్తుంది: పరస్పర చర్య పొడవుగా మారుతున్నప్పుడు పనికి సంబంధించిన సందర్భాన్ని నిలుపుకోవడానికి హార్నెస్ కాంపాక్షన్ ఉపయోగించినప్పుడు మోడల్ మెరుగ్గా పనిచేస్తుంది. ఇది కొన్ని మోడళ్లకు, కాంపాక్షన్ను వదిలేసే హార్నెస్ పనితీరును తగినంతగా వెలికి తీయదని చూపిస్తుంది.
ఎక్కువ విజయ శాతాలు మెరుగైనవి
ఇతర ప్రచురిత మూల్యాంకనాలు2 కూడా హార్నెస్ మరియు బడ్జెట్ ఎంపికలు మూల్యాంకన ఫలితాలను మార్చుతాయని చూపిస్తున్నాయి. పరీక్ష సమయంలో గణన వనరులను పెంచడం, ఒక మూల్యాంకనం ఏ సామర్థ్యాన్ని వెలికి తీయగలదో గణనీయంగా మార్చగలదు, ప్రత్యేకంగా అనేక సైబర్ పనుల వంటి, విజయాన్ని సులభంగా ధృవీకరించగల రంగాల్లో. UK AISI యొక్క సైబర్ రేంజ్ మూల్యాంకనంలో(కొత్త విండోలో తెరుచుకుంటుంది), బడ్జెట్ను 10M నుంచి 100M టోకెన్లకు పెంచడం వల్ల పనితీరు గరిష్టంగా 59% వరకు మెరుగుపడింది, మరియు పరీక్షించిన అత్యధిక బడ్జెట్ వద్ద కూడా పనితీరు ఇంకా పెరుగుతూనే ఉంది. దీనిని వివరించడం మూల్యాంకనాన్ని మరింత అర్థమయ్యేలా చేస్తుంది: పరీక్షించిన ఎలిసిటేషన్ సెటప్పై ఫలితం ఎలా ఆధారపడి ఉందో ఇది పాఠకులకు చూపిస్తుంది. అదనపు బడ్జెట్తో పనితీరు ఇంకా మెరుగుపడుతుంటే, స్కోరును కొలిచిన సామర్థ్య గరిష్టంగా కాకుండా, ఆ హార్నెస్ మరియు బడ్జెట్ కింద ఉన్న పనితీరుగా వివరించాలి. సామర్థ్యం అనేది తరచుగా వనరులపై ఆధారపడేది; ఒకసారి కొలిచి శాశ్వతంగా నిర్ణయించగల స్థిర పరిమాణం కాదు. పునరావృత ప్రయత్నాలపై విజయాన్ని కొలవగల చోట, నివేదికలు స్థిర టోకెన్ బడ్జెట్ వద్ద విజయ శాతమే కాకుండా, ప్రతి విజయవంతమైన పరిష్కారానికి అంచనా ఖర్చును కూడా పరిగణించాలి. ఇది తీవ్రతను అర్థం చేసుకోవడం సులభం చేస్తుంది: పునరావృత ప్రయత్నాల ఖర్చు సంబంధిత ముప్పు నమూనాలో ఉంటే, తక్కువ విజయ శాతం కూడా ఆచరణలో ప్రాధాన్యమైనదై ఉండవచ్చు. సామర్థ్య దావాల కోసం, నివారించగల తక్కువ-ఎలిసిటేషన్ ఒక కొలత వైఫల్యం: హార్నెస్ లేదా బడ్జెట్ వ్యవస్థను అది లేకపోతే చూపగల ప్రవర్తనను ప్రదర్శించకుండా అడ్డుకుంటే, ఆ స్కోరు దావా చేస్తున్న సామర్థ్యాన్ని కొలవదు. మూల్యాంకనకర్తలు సాధ్యమైనంత వరకు ఎలిసిటేషన్ను ముందుకు నెట్టినా పనితీరు ఇంకా మెరుగుపడుతుంటే, నివేదికలు దాన్ని స్పష్టంగా చెప్పాలి మరియు ఫలితం కేవలం కనిష్ఠ-పరిమితి అంచనా మాత్రమేనని స్పష్టం చేయాలి.
దాడి చేసేవారికి అందుబాటులో ఉన్న వనరులను, అందులో ప్రత్యేక హార్నెస్లను కూడా, పరిగణనలోకి తీసుకోకపోతే రక్షణ పరీక్షలు దాడి విజయవంతమవుతుందా, మరియు అది ఎంత తీవ్రమవుతుందా అన్నదాన్ని తక్కువగా చూపవచ్చు. UK AISI యొక్క GPT‑5.5 సైబర్ మూల్యాంకనంలో(కొత్త విండోలో తెరుచుకుంటుంది), వారి నిపుణుల రెడ్ టీమింగ్ OpenAI అందించిన దుష్ట ప్రశ్నల అంతటా, బహుళ-టర్న్ ఏజెంటిక్ సెట్టింగ్లలో కూడా, ఉల్లంఘనాత్మక సైబర్ కంటెంట్ను వెలికి తీయగల యూనివర్సల్ జైల్బ్రేక్ను కనుగొంది. మోడల్ దాడి పనితీరును బలపరచడానికి వారు Codex ఉపయోగించి ఒక ప్రత్యేక హార్నెస్ను సృష్టించారు: అది పునర్వినియోగించగల రక్షణ-బైపాస్ నమూనాను పరస్పర చర్యలో నాటింది, ఆ నమూనాను టర్న్లు మరియు బ్లాక్ల అంతటా నిలుపుకుంది, మరియు OpenAI అందించిన దుష్ట సైబర్ ప్రశ్నలపై దాన్ని వర్తింపజేసింది. రక్షణ పరీక్ష ప్రత్యర్థికి సరిపోవాలి. దావా నిపుణుల దుర్వినియోగానికి వ్యతిరేక దృఢత్వం గురించి అయితే, పరీక్ష నిర్వచిత బడ్జెట్ కింద అత్యంత బలమైన విశ్వసనీయ ఎండ్-టు-ఎండ్ దాడి వ్యూహాన్ని, ఆ వ్యూహాన్ని నిలుపుకోవడానికి మరియు మళ్లీ ఉపయోగించడానికి అవసరమైన ఏ హార్నెస్నైనా కలుపుకుని, మూల్యాంకనం చేయాలి. లేకపోతే, ఫలితాలు తప్పు సర్దుబాటుకు దారితీయవచ్చు: అవి కేవలం సరళమైన ప్రాంప్టింగ్కు ప్రతిఘటన గురించి మాత్రమే సన్నని దావాకు మద్దతు ఇవ్వవచ్చు, ఎలిసిటేషన్ పద్ధతి కార్యరూపం దాల్చిన తర్వాత దాడి ఎంత తీవ్రమవుతుందో మరియు దాని విజయావకాశం ఎంత ఉందో రెండింటినీ మిస్ కావచ్చు, అలాగే చాలా ఎక్కువ బడ్జెట్ ఇస్తే సమస్య ఎంత సంభావ్యమో లేదా ఎంత తీవ్రమో కూడా అతిగా చూపవచ్చు.
ప్రమాణీకృత హార్నెస్ పోలికలకు సమయం, స్థలం ఉంటాయి, కానీ ఒకే విధమైన హార్నెస్ల సమితిని ఉపయోగించడం ఎందుకు తగినదో మరియు అది ఏ దావాకు మద్దతు ఇవ్వగలదో మూల్యాంకనకర్తలు స్పష్టంగా చెప్పాలి. METR యొక్క time-horizon మూల్యాంకనం(కొత్త విండోలో తెరుచుకుంటుంది) విస్తృతమైన, తగిన విధంగా స్థిరపరచిన మూల్యాంకన సెటప్కు ఒక ఉదాహరణ: ఇది తాను మూల్యాంకనం చేసే వ్యవస్థల అంతటా పోల్చదగిన ఫలితాలను ఉత్పత్తి చేయడానికి రూపొందించబడింది. METR ఒక సాధారణ ఫలితాన్ని నిర్వచిస్తుంది: నిర్దిష్ట విశ్వసనీయత స్థాయిలో AI ఏజెంట్ విజయవంతమవుతుందని అంచనా వేసే, మానవ పనికి సాధారణ వ్యవధి. ఇది కలిసి నివేదించిన ప్రతి అంచనా బ్యాచ్లో పంచుకున్న పని సమితి, స్కోరింగ్ విధానం, ఫిట్టింగ్ విధానం, మరియు Triframe మరియు ReAct(కొత్త విండోలో తెరుచుకుంటుంది) వంటి చిన్న పునర్వినియోగ స్కాఫోల్డ్ల సమితిని వర్తింపజేస్తుంది. METR పని సమితిని విస్తరించి, Vivaria అనే ఫ్రేమ్వర్క్ నుంచి Inspect అనే మరోదానికి మూల్యాంకన మౌలిక వసతులను మార్చినప్పుడు, అది ఆ మార్పును నివేదించింది (Time Horizon 1.1 update(కొత్త విండోలో తెరుచుకుంటుంది)) మరియు కొత్త మూల్యాంకన సెటప్ కింద మోడళ్లను మళ్లీ మూల్యాంకనం చేసింది. అదే ప్రమాణీకృత మూల్యాంకన సెటప్ విలువ, అందులో స్థిరమైన హార్నెస్ సమితి కూడా ఉంది: స్కోర్లలో తేడా నిజంగా పోల్చబడుతున్న వ్యవస్థల మధ్య తేడాను ప్రతిబింబిస్తోందని, కొలత సెటప్లో మార్పును కాదని, పాఠకులు నమ్మేలా చేయగలదు.
మూడవ పక్ష మూల్యాంకన నివేదికలు, తమ మూల్యాంకన సెటప్ ఏ రకమైన దావాకు మద్దతు ఇవ్వడానికి ఉద్దేశించబడిందో పేర్కొనాలని; పరీక్షించినది ఆ విస్తృత దావాను ఎంత దగ్గరగా ప్రతిబింబిస్తుందో వివరించాలని; ఫలితాన్ని ఆకృతీకరించిన హార్నెస్ ఎంపికలను వివరించాలని; ఆ ఎంపికలు మూల్యాంకనాల మధ్య ఎప్పుడు మారుతాయో తెలియజేయాలని; మరియు ఫలితం ఎలా ఉత్పత్తి అయింది, అది దావాకు ఎంతవరకు సాధారణీకరించబడుతుందో చూపే సహాయక ఆధారాలను చేర్చాలని మేము సిఫారసు చేస్తున్నాము.
మోడళ్లు మరింత సామర్థ్యవంతమవుతున్న కొద్దీ, మూల్యాంకన స్కోర్లను తప్పుగా అర్థం చేసుకోవడం సులభమవుతుంది. నిజమైన సామర్థ్యాలతో పోలిస్తే, ఒక మోడల్ తనను మూల్యాంకనం చేస్తున్నారని గుర్తించి వ్యూహాత్మకంగా తక్కువ పనితీరు చూపితే, మూల్యాంకన స్కోర్లు కృత్రిమంగా తగ్గిపోవచ్చు. మోడల్ పని, ప్రాంప్ట్, స్కోరర్, లేదా హార్నెస్లోని షార్ట్కట్ను ఉపయోగించుకుంటే, అవి కృత్రిమంగా పెరగవచ్చు. కాలుష్యం వల్ల కూడా అవి వక్రీకరించబడవచ్చు (అంటే, పని పరిష్కరించకుండానే మోడల్కు సమాధానం ముందే తెలిసి ఉండడం లేదా కనుగొనగలగడం), లేదా అస్పష్టమైన, తప్పుగా స్కోరు చేసిన, పరిష్కరించలేని, లేదా అనూహ్య షార్ట్కట్లకు లోనయ్యే “లోపభూయిష్ట” సమస్యల వల్ల కూడా. అందువల్ల, మూల్యాంకన నివేదికలు ప్రధాన స్కోర్లతో పాటు ఈ ప్రమాదాలపై చర్చను జత చేయాలి, తద్వారా స్కోర్లు ఉద్దేశించిన ప్రవర్తనను ప్రతిబింబిస్తున్నాయా అని పాఠకులు అంచనా వేయగలరు.
హార్నెస్లు, బడ్జెట్లు, సాధనాలు, స్కోరింగ్ నియమాలు, మానిటర్లు, మరియు సమీక్ష విధానాలు అన్నీ ఒక ఏజెంట్ ఉద్దేశించిన పనిని పరిష్కరిస్తుందా, దాన్ని తప్పించుకుంటుందా, గుర్తుంచుకుంటుందా, లేదా దాని చుట్టూ మార్గం కనుగొంటుందా అన్నదాన్ని ప్రభావితం చేస్తాయి. నమ్మదగిన నివేదిక ఆ తనిఖీలను కనిపించేలా చేస్తుంది: ప్రతి సారి అంచనా నడిపినప్పుడు, మూల్యాంకనకర్తలు ఈ ప్రవర్తనల కోసం నమూనాలను సమీక్షించాలి.
రివార్డ్ హ్యాకింగ్
రివార్డ్ హ్యాకింగ్ అంటే, ఉద్దేశించిన సామర్థ్యాన్ని ప్రతిబింబించని మార్గాల్లో అధిక మూల్యాంకన స్కోర్లు సాధించడం. ఇక్కడ ఆందోళన ఏమిటంటే, మూల్యాంకనం కొలవదలచిన పనిని చేయడం ద్వారా కాకుండా, పని, స్కోరర్, ప్రాంప్ట్, లేదా హార్నెస్ను ఉపయోగించుకోవడం ద్వారా వ్యవస్థకు క్రెడిట్ రావడం. METR యొక్క GPT 5.4 మూల్యాంకనం(కొత్త విండోలో తెరుచుకుంటుంది) ఇది ఎందుకు ముఖ్యమో చూపిస్తుంది: మొదటి దశలో మోడల్ సుమారు 13 గంటల time horizonగా నమోదయ్యే రేటుతో పనుల్లో విజయవంతమైనప్పటికీ, మానవ సమీక్ష ఆ విజయాల్లో కొన్ని రివార్డ్ హ్యాకింగ్ వల్ల వచ్చాయని చూపించింది. రివార్డ్ హ్యాకింగ్ లేని సందర్భాలను మాత్రమే పరిగణనలోకి తీసుకుని ఫలితాలను సవరించగా, అంచనా సుమారు 6 గంటలకు తగ్గింది. మూల్యాంకనకర్తలు అలాంటి సవరణల అవసరాన్ని అంచనా వేయాలి మరియు అవి అవసరమైనప్పుడు స్పష్టంగా నివేదించాలి: ఏ స్పష్టమైన విజయాలు అనర్హం చేయబడ్డాయి, ఎందుకు అనర్హం చేయబడ్డాయి, మరియు ఫలితం ఆ నిర్ణయంపై ఎంతవరకు ఆధారపడి ఉందో పాఠకులు చూడగలిగినప్పుడు సామర్థ్య అంచనా మరింత ఉపయోగకరంగా ఉంటుంది.

నిరాకరణలు
రక్షణల కారణంగా మోడళ్లు సామర్థ్య మూల్యాంకనాల్లో తక్కువ పనితీరు కూడా చూపవచ్చు. మూల్యాంకన పనులను పూర్తి చేయకుండా నిరాకరించడం వల్ల, ఒక మోడల్ తనకు ఉన్న సామర్థ్యానికి కంటే తక్కువ మూల్యాంకన పనితీరును చూపవచ్చు. అందువల్ల, నిరాకరణలు మూల్యాంకన ఫలితాల్లో భాగమయ్యాయా, అయితే వాటి కారణంగా ఎన్ని నమూనాలు ప్రభావితమయ్యాయో నివేదికలు వివరించాలి.
కాలుష్యం
కాలుష్యం ముఖ్యంగా ప్రజా లేదా మళ్లీ ఉపయోగించిన బెంచ్మార్క్లకు అత్యంత ప్రాధాన్యమైనది. పనులు, సమాధానాలు, లేదా దగ్గరైన రూపాలు శిక్షణ డేటాలో కనిపిస్తే లేదా బ్రౌజింగ్ ఉన్న ఏజెంట్ వాటిని కనుగొనగలిగితే, పనితీరు మోడల్ పనితీరుకంటే గుర్తుంచుకోవడం లేదా తిరిగి పొందడాన్ని ప్రతిబింబించవచ్చు. సాధ్యమైన చోట మూల్యాంకనకర్తలు ప్రైవేట్ లేదా కొత్తగా నిర్మించిన పనులను ప్రాధాన్యంగా తీసుకోవాలి మరియు పరిష్కరించే ముందు మోడళ్లు పని-నిర్దిష్ట వివరాలను పునరుత్పత్తి చేస్తున్నాయా అని పరీక్షించాలి.
లోపభూయిష్ట సమస్యలు
లోపభూయిష్ట సమస్యల్లో, అనుకోకుండా పరిష్కరించలేని సమస్య వంటి పరిస్థితులు ఉంటాయి. లోపభూయిష్ట సమస్యలు తగినంత సాధారణం(కొత్త విండోలో తెరుచుకుంటుంది) కాబట్టి, వాటిని ప్రామాణిక చెల్లుబాటు ప్రమాదంగా పరిగణించాలి. వాటిలో తప్పు ground truth, అస్పష్టమైన ప్రాంప్ట్లు, లేని ఫైళ్లు, అస్థిర సేవలు, అన్యాయమైన స్కోరింగ్ ప్రమాణాలు, మరియు దాచిన సమాధాన ఫైళ్లు లేదా ground-truth patch ఉన్న రిపోజిటరీ చరిత్ర వంటి షార్ట్కట్లను బహిర్గతం చేసే పరిసరాలు ఉంటాయి.
సాండ్బ్యాగింగ్
మోడల్ లేదా వ్యవస్థ ద్వారా సాండ్బ్యాగింగ్ అంటే, బలమైన పనితీరు ఏదైనా లక్ష్యంతో విరుద్ధంగా ఉన్నప్పుడు వ్యూహాత్మకంగా తక్కువ పనితీరు చూపించడం. Apollo యొక్క GPT‑5.5 మూల్యాంకనం(కొత్త విండోలో తెరుచుకుంటుంది), అధిక మూల్యాంకన స్కోర్లు unlearningను ప్రేరేపించవచ్చు లేదా deploymentను అడ్డుకోవచ్చు అని మోడల్ అర్థం చేసుకునే సందర్భాన్ని సృష్టించి దీనిని పరీక్షించింది. GPT‑5.5 అయినప్పటికీ సరైన సమాధానాలు ఇచ్చింది, ఇది వ్యూహాత్మక తక్కువ పనితీరుకు తక్కువ ప్రవర్తనా ఆధారాన్ని సూచిస్తుంది3. కానీ వారి రిజనింగ్ ట్రేసుల సమీక్ష ముఖ్యమైన సందర్భాన్ని జోడించింది: counterfactualsలో 0%తో పోలిస్తే, sandbagging-condition నమూనాల్లో 52%లో alignment-evaluation awarenessకు మధ్యస్థ లేదా అంతకంటే ఎక్కువ సంకేతాలను Apollo కనుగొంది. ఆ ఆధారం ఫలితపు అర్థాన్ని క్లిష్టం చేస్తుంది, కానీ చివరికి పాఠకులకు మరింత సంకేతాన్ని ఇస్తుంది: ధైర్యం ఇచ్చే ప్రవర్తనా ఫలితాన్ని కూడా, దాన్ని అతిగా అర్థం చేసుకోవడంలో జాగ్రత్తగా ఉండాల్సిన కారణాన్ని కూడా పాఠకులు చూడగలరు.
బలమైన దావాలకు, ప్రవర్తనను వెలికి తీయడానికి సరైన హార్నెస్ కూడా, ఫలితం బలమైనదని చూపడానికి చెల్లుబాటు తనిఖీలు కూడా అవసరం. హార్నెస్లు మరియు చెల్లుబాటు తనిఖీలు మూల్యాంకన ఫలితంలో భాగమే అన్న మా దృష్టి, ఆచరణలో మూడవ పక్ష మూల్యాంకనాలకు మేము ఎలా మద్దతు ఇస్తామో నిర్ణయిస్తుంది:
- మేము మూల్యాంకనకర్తలతో నిర్దిష్ట గరిష్ట-ఎలిసిటేషన్ మార్గదర్శకాన్ని పంచుకుంటున్నాము.
- OpenAI మోడళ్ల కోసం Codexను సాధారణ కనిష్ఠ ప్రమాణంగా ఉపయోగించాలని మేము సామర్థ్య మూల్యాంకనకర్తలను కోరుతున్నాము: పరీక్షలు కనీసం వినియోగదారులు ఆధారపడే అవకాశం ఉన్న అదే ఏజెంటిక్ ఇంటర్ఫేస్ ద్వారా ఒక బేస్లైన్ను నడపాలి, కేవలం సరళీకృత మోడల్ ఇంటర్ఫేస్ ద్వారా మాత్రమే కాదు.
- మోసం, సాండ్బ్యాగింగ్, లేదా మూల్యాంకన అవగాహనను అంచనా వేయడానికి అవసరమైన చోట, మేము రిజనింగ్ ట్రేసులు మరియు ఇతర మధ్యంతర ఆర్టిఫాక్ట్లను కూడా అందుబాటులో ఉంచుతున్నాము. GPT‑5 నుంచి OpenAI మూల్యాంకనాల్లో METR మరియు Apollo ఈ ప్రాప్యతను ఉపయోగించాయి.
- చివరగా, సందర్భ నిర్వహణ మరియు సాధనాల ప్రాప్యత నుంచి మళ్లీ ప్రయత్నించే ప్రవర్తన, స్కోరింగ్, మరియు వనరుల బడ్జెట్ల వరకు, హార్నెస్ ఎంపికలు ఫలితాలను ఎప్పుడు, ఎలా గణనీయంగా మార్చుతాయో మరింత లోతుగా అర్థం చేసుకోవడానికి మేము పరిశోధనకు ప్రాధాన్యం ఇస్తున్నాము.
ఈ సిఫారసులు వ్యక్తిగత మూల్యాంకన నివేదికలను మెరుగుపరచడానికే కాకుండా, ఫ్రంటియర్ AI మూల్యాంకనం మరియు నివేదికల కోసం ఉద్భవిస్తున్న జాతీయ (కొత్త విండోలో తెరుచుకుంటుంది)మరియు అంతర్జాతీయ (కొత్త విండోలో తెరుచుకుంటుంది)ప్రమాణాలకు సమాచారం అందించడానికి కూడా ఉద్దేశించబడ్డాయి. ముందుకు చూస్తే, మూడవ పక్ష మూల్యాంకన ప్రమాణాలు నిర్ణయాధికారులు నిర్దిష్ట మూల్యాంకనాలు ఏ దావాలకు మద్దతు ఇస్తాయో, ఏ వ్యవస్థను పరీక్షించారో, ఫలితాన్ని ఎలా వెలికి తీశారో, మరియు మూల్యాంకనకర్తలు దాని చెల్లుబాటును ఎలా తనిఖీ చేశారో అర్థం చేసుకునేంత వివరాన్ని తప్పనిసరిగా కోరాలి. ఏజెంటిక్ సామర్థ్యాలు ముఖ్యమైన పనులపై పరీక్షించబడుతున్న ఫ్రంటియర్ వ్యవస్థల కోసం, వివరాల్లో ఇవి ఉండాలి (ఏవైనా భద్రతా లేదా గోప్యతా ఆందోళనలకు లోబడి):
- దావా: మూల్యాంకనం వ్యవస్థలను పోల్చుతుందా, సామర్థ్య గరిష్టాన్ని అంచనా వేస్తుందా, లేదా రక్షణలను పరీక్షిస్తుందా అన్నది.
- మూల్యాంకన విషయం: మూల్యాంకనం నిజంగా ఏ నైపుణ్యాలు, ప్రవర్తనలు, లేదా వైఫల్య విధానాలను పరీక్షిస్తుందో పాఠకులు అర్థం చేసుకునేంత పని లేదా పని పంపిణీ వివరాలు.
- పరీక్షించిన వ్యవస్థ: మోడల్, రిజనింగ్ సెట్టింగ్, సాధనాల ప్రాప్యత, హార్నెస్, మరియు రక్షణలు.
- బడ్జెట్: టర్న్లు, టోకెన్లు, ప్రయత్నాలు/మళ్లీ ప్రయత్నాలు, వాస్తవ సమయం, inference ఖర్చు, మరియు వర్తించే చోట ప్రతి విజయవంతమైన పరిష్కారానికి అంచనా ఖర్చు.
- ఎలిసిటేషన్ పద్ధతులు: ఫలితాన్ని వెలికి తీయడానికి ఉపయోగించిన హార్నెస్ ఎంపికలు, మరియు పరీక్షించినది చేస్తున్న విస్తృత దావాను ఎంత దగ్గరగా ప్రతిబింబిస్తుందో.
- చెల్లుబాటు తనిఖీలు: రివార్డ్ హ్యాకింగ్, మూల్యాంకన అవగాహన, కాలుష్యం, నిరాకరణలు, సాండ్బ్యాగింగ్, మరియు ఫలితాన్ని దెబ్బతీయగల ఇతర ప్రవర్తనలను అంచనాదారులు ఎలా వెతికారో, ధృవీకరించిన సందర్భాలు స్కోరింగ్ లేదా అర్థవ్యాఖ్యపై ఎలా ప్రభావం చూపాయో సహా.
హార్నెస్ ఎంపికలు లేదా చెల్లుబాటు తనిఖీలను వదిలేసే ప్రమాణాలు, ఒక వ్యవస్థ ఏమి చేయగలదో తక్కువగా చూపవచ్చు లేదా భద్రతా దావాపై నమ్మకాన్ని అతిగా చూపవచ్చు. బలమైన హార్నెస్లు మరియు ఎలిసిటేషన్ పద్ధతులను నిర్మించడం ఇంకా ఓపెన్ పరిశోధనా రంగంగానే ఉంది; ఇది మరింత పరిశీలన మరియు పెట్టుబడికి కేంద్రంగా ఉండాలి.
రచయిత
పదకోశం
ఈ పోస్టులో మేము కొన్ని ప్రత్యేక సాంకేతిక పదాలను ఉపయోగిస్తున్నందున, మేము ఏ విషయాన్ని సూచిస్తున్నామో సులభమైన భాషలో వివరించే పదకోశాన్ని క్రింద చేర్చాము:
ఏజెంటిక్ వ్యవస్థ: ఒక ప్రాంప్ట్కు ఒక్క సమాధానం మాత్రమే ఇవ్వడం కాకుండా, సాధనాలను ఉపయోగిస్తూ, పని స్థితిని నిలుపుకుంటూ, ఒక పరిసరంలో చర్యలు తీసుకుంటూ, అనేక దశల్లో పని పూర్తి చేయగల వ్యవస్థ.
అంచనా: ఒక దావా, ప్రమాద నిర్ధారణ, లేదా హామీ స్థితిని ఆధారాలు సమర్థిస్తున్నాయా అనే విస్తృత నిర్ణయం. ఇది మూల్యాంకన డేటా, పత్ర సమీక్ష, ఇంటర్వ్యూ, ప్రక్రియ సమీక్ష, మరియు ఇతర సంబంధిత ఆధారాలపై ఆధారపడవచ్చు.
కాంపాక్షన్: దీర్ఘకాల అమలుల సమయంలో పనికి సంబంధించిన సందర్భాన్ని నిలుపుకునే విధానం.
కాన్ఫిగరేషన్: మోడల్ పేరుకు మించి, ఖచ్చితంగా పరీక్షించిన వ్యవస్థ మరియు మూల్యాంకన పరిస్థితులు.
కాలుష్యం: మూల్యాంకన పనులు, సమాధానాలు, లేదా వాటికి దగ్గరైన రూపాలు మోడల్ శిక్షణ డేటాలో కనిపించినప్పుడు లేదా మూల్యాంకన సమయంలో కనుగొనగలిగినప్పుడు (ఉదా., బ్రౌజింగ్ వంటి సాధనాల ద్వారా), పనితీరు మోడల్ యొక్క నిజమైన సాధారణీకరణ సామర్థ్యాన్ని మించి కనిపించడం.
ఎలిసిటేషన్: అంచనా సమయంలో ఒక వ్యవస్థ నుంచి సామర్థ్యం లేదా ప్రవర్తనను వెలికి తీయడానికి చేసే ప్రక్రియ.
పరిసరం: ఒక వ్యవస్థను పరీక్షించే పని సందర్భం. ఇందులో మూల్యాంకన సమయంలో ఏజెంట్ పరస్పరం చర్యలు తీసుకుని మార్చే బాహ్య స్థితి వంటి అంశాలు ఉంటాయి, ఉదాహరణకు టెర్మినల్ పరిసరం లేదా వీడియో గేమ్.
మూల్యాంకనం: ఒక అంచనాలోని నిర్దిష్ట పరీక్ష లేదా కొలత.
మూల్యాంకన అవగాహన: మూల్యాంకన అవగాహన అంటే, ఒక మోడల్ తనను మూల్యాంకనం చేస్తున్నారని గుర్తించడం, లేదా గుర్తించినట్లు కనిపించడం, మరియు ఆ సందర్భానికి ప్రతిస్పందనగా తన ప్రవర్తనను మార్చే అవకాశం ఉండడం. ఇది మోడల్ తనను పరీక్షిస్తున్నారని స్పష్టంగా రిజనింగ్ చేయడం, మూల్యాంకన ఉద్దేశ్యాన్ని ఊహించడం, లేదా ఫలితం తనను ఎలా అంచనా వేస్తారు లేదా అమలు చేస్తారు అన్నదాన్ని ప్రభావితం చేస్తుందని భావించి తన ప్రవర్తనను మార్చడం వంటి రూపంలో కనిపించవచ్చు.
హార్నెస్: ఒక మోడల్ పని చేయడానికి సహాయపడే, మోడల్కు ఎదురుగా ఉండే నిర్మాణం: ప్రాంప్ట్లు, సాధనాలు, ఇంటర్ఫేస్లు, నియంత్రణ తర్కం, మెమరీ, మళ్లీ ప్రయత్నాలు, ధృవీకరణలు, మరియు మోడల్ చుట్టూ ఉన్న ఇతర సహాయక నిర్మాణాలు.
గరిష్ట ఎలిసిటేషన్: ఒక ప్రమాణీకృత హార్నెస్ ద్వారా వ్యవస్థను ఒక్కసారి నడపడం కాకుండా, నిర్వచిత బడ్జెట్లో వ్యవస్థ చూపగల అత్యంత బలమైన విశ్వసనీయ పనితీరు లేదా వైఫల్య విధానాన్ని కనుగొనడానికి చేసే పరీక్ష.
రిజనింగ్ ట్రేసులు: పరీక్ష సమయంలో మోడల్ యొక్క మధ్యంతర రిజనింగ్కు సంబంధించిన రికార్డులు.
రివార్డ్ హ్యాకింగ్: మూల్యాంకనకర్త ఉద్దేశానికి బయట ఉన్న షార్ట్కట్ లేదా ప్రవర్తన ద్వారా అధిక స్కోరు సాధించడం.
రక్షణలు: మోడల్ లేదా ఉత్పత్తి చుట్టూ అమలు చేసే ఫిల్టర్లు, మానిటర్లు, నిరోధక వ్యవస్థలు, మరియు ఇతర రక్షణలు.
సాండ్బ్యాగింగ్: ఫలితాన్ని దెబ్బతీసే విధంగా మూల్యాంకనలో వ్యూహాత్మకంగా తక్కువ పనితీరు చూపించడం.
స్కోరింగ్: పనితీరును ఎలా కొలవాలి లేదా పని విజయవంతమైందా అని నిర్ణయించడానికి ఉపయోగించే విధానం.
ప్రమాణీకృత హార్నెస్: ఒక నిర్దిష్ట మోడల్ లేదా పనికి అనుకూలీకరించకుండా, అన్ని వ్యవస్థలలో ఒకేలా ఉంచే హార్నెస్. దీంతో ఫలితాల తేడాలను పరీక్షించిన మోడల్కే సులభంగా ఆపాదించవచ్చు.
సమయ పరిధి: ఒక నిర్దిష్ట విశ్వసనీయతతో ఒక వ్యవస్థ పూర్తి చేయగల పని యొక్క నిడివి, దీనిని తరచుగా అదే పనిని పూర్తి చేయడానికి ఒక మనిషికి ఎంత సమయం పడుతుందనే దాని రూపంలో వ్యక్తపరుస్తారు.
సాధనాల ప్రాప్యత: అంచనా సమయంలో మోడల్కు అందుబాటులో ఉండే బాహ్య సాధనాలు.
ట్రాజెక్టరీలు: ఒక పని చేస్తూ వ్యవస్థ అనుసరించే దశలవారీ మార్గాలు.
యూనివర్సల్ జైల్బ్రేక్: అనేక ప్రాంప్ట్లు లేదా పనులలో ఒక వ్యవస్థ రక్షణలను దాటివేయేలా చేసే ఒక్క దాడి నమూనా.
ఫుట్నోట్లు
- 1
ఈ పోస్టు, మూడవ పక్షాలు misalignment లేదా propensityకు సంబంధించిన దావాలను ఎలా మూల్యాంకనం చేయాలి అన్నదాన్ని పరిష్కరించడానికి ప్రయత్నించదు. ఆ మూల్యాంకనాలపై హార్నెస్ ఎంపికలు ఎలా ప్రభావం చూపుతాయో అర్థం చేసుకోవడానికి ఇంకా ఎక్కువ పని అవసరం, ముఖ్యంగా దీర్ఘ-పరిధి ప్రవర్తనకు మద్దతు ఇచ్చే హార్నెస్లు మూల్యాంకనకర్తలు పర్యవేక్షించాల్సిన అనూహ్య ప్రవర్తన రకాలనూ మార్చవచ్చు కాబట్టి.
- 2
HAL(కొత్త విండోలో తెరుచుకుంటుంది) ఏజెంట్ మూల్యాంకనాల నుండి మరో ఉదాహరణను అందిస్తుంది: CORE-Bench(కొత్త విండోలో తెరుచుకుంటుంది) హార్నెస్ను Claude Codeగా మార్చడం వల్ల అదే బెంచ్మార్క్పై కొలిచిన పనితీరు మరియు ఖర్చు ప్రొఫైల్ రెండూ మారాయి. ఇతర ప్రజా ఉదాహరణల్లో SWE-agent(కొత్త విండోలో తెరుచుకుంటుంది), SeeAct(కొత్త విండోలో తెరుచుకుంటుంది), ScienceAgentBench(కొత్త విండోలో తెరుచుకుంటుంది), CORE-Bench(కొత్త విండోలో తెరుచుకుంటుంది), మరియు Inspect Cyber(కొత్త విండోలో తెరుచుకుంటుంది) ఉన్నాయి; ప్రతి ఒక్కటి ఏ ఇంటర్ఫేస్ లేదా హార్నెస్ స్కోరును ఉత్పత్తి చేసిందో పాఠకులకు చెబుతుంది.
- 3
రెండు Sandbagging QA వేరియంట్లలో 100% మరియు strategic-deception sandbagging పనిలో 99.6% స్కోరు సాధించడం.


