29 మే, 2026

నమ్మదగిన మూడవ పక్ష మూల్యాంకనాల కోసం ఒక పంచుకున్న ప్లేబుక్

అత్యాధునిక మోడళ్ల కోసం రక్షణలు మరియు సామర్థ్యాలపై ప్రభావవంతమైన స్వతంత్ర మూల్యాంకనాలకు ముఖ్యమైన అంశాలు.

లోడ్ అవుతోంది…

స్వతంత్ర, విశ్వసనీయ మూడవ పక్ష మూల్యాంకనాలు భద్రతా పర్యావరణాన్ని బలోపేతం చేయడంలో ముఖ్యమైన పాత్ర⁠ పోషిస్తాయి. ఈ మూల్యాంకనాలు ఫ్రంటియర్ మోడళ్లపై నిర్వహించబడతాయి, తద్వారా కీలక సామర్థ్యాలు మరియు భద్రతా ఉపశమనాలపై దావాలకు అదనపు ఆధారాలు అందిస్తాయి. ఈ పోస్టులో, ఇప్పటివరకు మేము నేర్చుకున్న పాఠాలను పంచుకుంటూ, ఫ్రంటియర్ మోడళ్లను చెల్లుబాటుగా అంచనా వేయగల మూల్యాంకనాలను రూపకల్పన చేయడానికి పద్ధతులను సిఫారసు చేస్తున్నాము. ఇవి ఈ రంగంలో ఉద్భవిస్తున్న ప్రమాణాలకు ఉపయోగపడతాయని మేము ఆశిస్తున్నాము.

ముందుగా, అనేక మూల్యాంకనాలు మోడళ్లను చాట్‌బాట్‌లలా పరిగణించేవి: మూల్యాంకనం ఒక వినియోగదారు ప్రశ్న అడిగినట్లుగా మోడల్‌కు ప్రాంప్ట్ ఇస్తుంది, మోడల్ సమాధానం ఇస్తుంది, ఆపై మూల్యాంకనకర్త అవుట్‌పుట్‌ను నిర్ణయిస్తాడు. నేటి ఫ్రంటియర్ మోడళ్లు ఇంకా చాలా ఎక్కువ చేయగలవు: అవి సాధనాలను ఉపయోగించగలవు, అనేక దశలలో సమాచారాన్ని గుర్తుంచుకోగలవు, మరియు పెద్ద వర్క్‌ఫ్లోలో చర్యలు తీసుకోగలవు. దీని అర్థం పనితీరు కేవలం మోడల్‌పైనే కాకుండా, పని జరిగే పరిసరంపైన, అలాగే దాని చర్యలను సులభతరం చేసే సెటప్‌పైన కూడా ఆధారపడి ఉంటుంది. మేము “హార్నెస్” అని పిలిచే ఈ చుట్టుపక్కల సెటప్, వ్యవస్థ పనితీరులోని కీలక అంశాలను మార్చగలదు. ఇందులో అది సాధనాలను ఎలా ఉపయోగిస్తుంది, సమాచారాన్ని ఎలా గుర్తుంచుకుంటుంది, లేదా తప్పుల నుంచి ఎలా కోలుకుంటుంది అన్నవి ఉన్నాయి.

ప్రాంప్ట్-ప్రతిస్పందన వర్క్‌ఫ్లోను ఏజెంటిక్ పని వర్క్‌ఫ్లోతో పోల్చే చిత్రం; నియంత్రణ లూప్‌లు, సాధనాలు, సందర్భం, బడ్జెట్, మరియు రక్షణలు స్వయంచాలక పని అమలును ఎలా సాధ్యంచేస్తాయో చూపిస్తుంది.

దీంతో మూల్యాంకనాలు ఎలా నిర్వహించాలి, మరియు మూల్యాంకన నివేదికల్లో పాఠకులు ఏ విషయాలను చూడాలి అన్నది మారుతుంది. మా దృష్టిలో, అత్యంత ఉపయోగకరమైన నివేదికలు ఫలితానికంటే మించి రెండు విషయాలను స్పష్టంగా వివరిస్తాయి: మొదట, మూల్యాంకన సెటప్ ఏ దావాను పరీక్షించడానికి రూపొందించబడిందో చెబుతాయి; రెండవది, మూల్యాంకన ఫలితం చెల్లుబాటైనదని చూపే అందుబాటులో ఉన్న ఆధారాలను పంచుకుంటాయి.

మూల్యాంకనాల్లో పరీక్షించే దావాలు సాధారణంగా మూడు వర్గాల్లో ఒకటిలో పడతాయి¹:

సామర్థ్య ఎలిసిటేషన్: మూల్యాంకనం చేస్తున్న సామర్థ్యాన్ని ఒక మోడల్ విశ్వసనీయంగా ఉత్పత్తి చేయగలదా?
రక్షణ పనితీరు: పరీక్షించిన రక్షణలు, మూల్యాంకనం చేస్తున్న ప్రవర్తన లేదా దాడికి వ్యతిరేకంగా ఎంత దృఢంగా ఉన్నాయి?
పోలిక: సమాన పరిస్థితుల్లో వేర్వేరు మోడళ్లు ఎలా పనిచేస్తాయి?

మూల్యాంకన నివేదికలు, ఫలితపు చెల్లుబాటును ప్రభావితం చేయగల ప్రభావాలను మూల్యాంకనకర్తలు ఎలా తనిఖీ చేశారో కూడా వివరించాలి. వాటిలో ఇవి ఉన్నాయి:

రివార్డ్ హ్యాకింగ్: పని లేదా స్కోరర్‌లోని షార్ట్‌కట్‌లను ఉపయోగించుకుని, మూల్యాంకనం కొలవదలచిన ప్రవర్తనను చూపకుండా వ్యవస్థకు క్రెడిట్ రావడం.
నిరాకరణలు: పరీక్షిస్తున్న ప్రవర్తనను మసకబార్చే విధంగా నిరాకరించడం.
కాలుష్యం: మూల్యాంకన పనులు, సమాధానాలు, లేదా దగ్గరైన రూపాలు శిక్షణ డేటాలో కనిపించడం వల్ల, లేదా బ్రౌజింగ్ వంటి మార్గాల ద్వారా మూల్యాంకన సమయంలో కనుగొనగలగడం వల్ల, అధిక పనితీరు కనిపించడం.
లోపభూయిష్ట సమస్యలు: పనులు చెల్లనివి కావడం వల్ల తక్కువ పనితీరు కనిపించడం. కారణాల్లో అన్యాయమైన స్కోరింగ్ (ఉదా., సరైన సమాధానానికి చెప్పని అమలు వివరాలు అవసరం కావడం) మరియు పరిష్కరించలేని పరిసరాలు (ఉదా., కీలక ఫైళ్లు లేకపోవడం లేదా నమ్మదగని సాధనాలు) ఉండవచ్చు.
సాండ్‌బ్యాగింగ్: తాము మూల్యాంకనం అవుతున్నామని అవగాహన చూపినప్పుడు ఉద్దేశపూర్వకంగా తక్కువ పనితీరు చూపించడం.

ఉత్తమ ఫలితాల కోసం మూల్యాంకనానికి సరైన హార్నెస్‌ను ఎంచుకోవడం అత్యంత కీలకం

దీర్ఘమైన ట్రాజెక్టరీలపై పనిచేసే వ్యవస్థల కోసం హార్నెస్ పాత్ర ప్రత్యేకంగా ముఖ్యమని మేము గమనించాము. మోడళ్లు సాధనాలను ఉపయోగించగలిగినప్పుడు, స్థితిని నిలుపుకోగలిగినప్పుడు, మరియు అనేక దశలలో తప్పుల నుంచి కోలుకోగలిగినప్పుడు, హార్నెస్ గమనించిన పనితీరు స్థాయిని మార్చగలదు, అంతేకాక మూల్యాంకనం చేస్తున్న సామర్థ్యం అసలు మూల్యాంకనంలో కనిపిస్తుందా లేదా అన్నదాన్ని కూడా నిర్ణయించగలదు. ఉదాహరణకు, స్థితిని నిలుపుకుని విఫలమైన చర్యలను మళ్లీ ప్రయత్నించే హార్నెస్, అదే మోడల్ సరళమైన హార్నెస్‌లో ఎప్పుడూ పూర్తి చేయలేని బహుళ-దశల పనిని పూర్తి చేయనివ్వవచ్చు.

క్రింది పట్టికలో, మూల్యాంకనకర్తలు చేయదలచిన మూడు రకాల దావాలను మరియు ప్రతి రకానికి అవసరమని మేము నమ్మే హార్నెస్‌ను వేరు చేశాము.

మూల్యాంకనం మద్దతు ఇవ్వడానికి ప్రయత్నిస్తున్న దావా	తగిన హార్నెస్ ఎంపిక	నివేదించాల్సిన ఆధారాలు
బలమైన ఎలిసిటేషన్ కింద సామర్థ్యం: అత్యంత బలమైన విశ్వసనీయ పనితీరును వెలికి తీయడానికి సెటప్ రూపొందించినప్పుడు, వ్యవస్థ A రకం X పనులను పూర్తి చేయగలదు.	వ్యవస్థ కోసం అత్యంత బలమైన విశ్వసనీయ ఎలిసిటేషన్ సెటప్‌ను ఉపయోగించండి. ఇందులో హార్నెస్, సాధనాలు, స్కాఫోల్డింగ్, మరియు సామర్థ్యవంతమైన వినియోగదారు సహజంగా ఉపయోగించే బడ్జెట్ ఉండాలి.	హార్నెస్ మరియు సాధనాల సెటప్, ఎలిసిటేషన్ మార్గదర్శకం, అనుమతించిన బడ్జెట్/ప్రయత్నం, టోకెన్లు/ఖర్చు/సమయం, మరియు ఈ సెటప్ దావా చేసిన సామర్థ్యానికి ఎందుకు విశ్వసనీయ ప్రతినిధి అనేది. వేర్వేరు ఆప్టిమైజ్ చేసిన సెటప్‌ల కింద వ్యవస్థలను పోలిస్తే, దాన్ని వ్యవస్థ-తో-వ్యవస్థ లేదా బలమైన-ఎలిసిటేషన్ పోలికగా లేబుల్ చేయండి.
నియంత్రిత పోలిక: పంచుకున్న మూల్యాంకన సెటప్ కింద వ్యవస్థ A, వ్యవస్థ B కంటే మెరుగ్గా పనిచేస్తుంది.	పనులు, స్కోరింగ్, మరియు బడ్జెట్‌ను స్థిరంగా ఉంచండి. పంచుకున్న హార్నెస్/సాధనాల సెటప్‌ను లేదా పోల్చబడుతున్న వ్యవస్థలకు తగిన గరిష్ట ఎలిసిటేషన్ ఇవ్వడానికి ముందుగానే ఎంచుకున్న ప్రమాణీకృత హార్నెస్‌ల స్థిర సమితిని ఉపయోగించండి.	పంచుకున్న పని సమితి, సాధనాలు, స్కోరింగ్ విధానం, హార్నెస్, బడ్జెట్, టోకెన్ సామర్థ్యం/ఖర్చు, మరియు తెలిసిన పరిమితులు. కోడింగ్-ఏజెంట్ మూల్యాంకనాల కోసం, Codex CLI వంటి ఓపెన్-సోర్స్ హార్నెస్ వ్యవస్థల అంతటా స్థిరమైన ఏజెంట్ లూప్ మరియు సాధన ఇంటర్‌ఫేస్‌ను అందించగలదు. గరిష్ట ఎలిసిటేషన్‌కు ఆదర్శ విధానం ప్రతి పని మరియు వ్యవస్థ కోసం ప్రత్యేక హార్నెస్‌ను ఆప్టిమైజ్ చేయడం అవుతుంది, కానీ ప్రస్తుతం అది ఆచరణలో సాధ్యం కాదు.
వెలికి తీయబడిన దాడి కింద రక్షణల దృఢత్వం: సంబంధిత మోడల్ ప్రవర్తన లేదా వెలికి తీయబడిన దాడికి వ్యవస్థ A యొక్క రక్షణలు సరిపోతాయి.	సంబంధిత ప్రత్యర్థి మోడల్ కింద అత్యంత బలమైన విశ్వసనీయ దాడిని వెలికి తీయడానికి రూపొందించిన రక్షణ-పరీక్ష సెటప్‌ను ఉపయోగించండి.	మూల్యాంకనకర్తలు సంబంధిత మోడల్ ప్రవర్తనను ఎలా వర్ణించారు, పరీక్షించిన రక్షణ కాన్ఫిగరేషన్, ఎలిసిటేషన్ వ్యూహం, దాన్ని అమలు చేయడానికి ఉపయోగించిన హార్నెస్, మరియు అనుమతించిన బడ్జెట్ లేదా ప్రయత్నం.

సామర్థ్య దావాల బలం వాటి వెనుక ఉన్న ఎలిసిటేషన్‌ంతే ఉంటుంది: మూల్యాంకనకర్తలు పని మరియు మూల్యాంకనం కొలవదలచిన సామర్థ్యానికి అత్యంత సరిపోయే హార్నెస్‌ను ఎంచుకోవాలి. ఒకే పరిస్థితుల్లో వ్యవస్థలను పోల్చడానికి ప్రమాణీకృత హార్నెస్ సరైనదై ఉండవచ్చు, కానీ మోడల్ పని చేయడానికి సహాయపడే నిర్దిష్ట హార్నెస్ లక్షణాలను వదిలేస్తే అది సామర్థ్యాన్ని తక్కువగా చూపవచ్చు. ఉదాహరణకు, OpenAI యొక్క సైబర్ రేంజ్‌లలో GPT‑5.5 పనితీరు, దీర్ఘమైన బహుళ-దశల సాధన వినియోగం అవసరమైన పనులపై హార్నెస్ ఎంపిక కొలిచిన సామర్థ్యాన్ని గణనీయంగా ఎలా మార్చగలదో చూపిస్తుంది: పరస్పర చర్య పొడవుగా మారుతున్నప్పుడు పనికి సంబంధించిన సందర్భాన్ని నిలుపుకోవడానికి హార్నెస్ కాంపాక్షన్⁠ ఉపయోగించినప్పుడు మోడల్ మెరుగ్గా పనిచేస్తుంది. ఇది కొన్ని మోడళ్లకు, కాంపాక్షన్‌ను వదిలేసే హార్నెస్ పనితీరును తగినంతగా వెలికి తీయదని చూపిస్తుంది.

ఎక్కువ విజయ శాతాలు మెరుగైనవి

ఇతర ప్రచురిత మూల్యాంకనాలు² కూడా హార్నెస్ మరియు బడ్జెట్ ఎంపికలు మూల్యాంకన ఫలితాలను మార్చుతాయని చూపిస్తున్నాయి. పరీక్ష సమయంలో గణన వనరులను పెంచడం, ఒక మూల్యాంకనం ఏ సామర్థ్యాన్ని వెలికి తీయగలదో గణనీయంగా మార్చగలదు, ప్రత్యేకంగా అనేక సైబర్ పనుల వంటి, విజయాన్ని సులభంగా ధృవీకరించగల రంగాల్లో. UK AISI యొక్క సైబర్ రేంజ్ మూల్యాంకనంలో⁠(కొత్త విండోలో తెరుచుకుంటుంది), బడ్జెట్‌ను 10M నుంచి 100M టోకెన్లకు పెంచడం వల్ల పనితీరు గరిష్టంగా 59% వరకు మెరుగుపడింది, మరియు పరీక్షించిన అత్యధిక బడ్జెట్ వద్ద కూడా పనితీరు ఇంకా పెరుగుతూనే ఉంది. దీనిని వివరించడం మూల్యాంకనాన్ని మరింత అర్థమయ్యేలా చేస్తుంది: పరీక్షించిన ఎలిసిటేషన్ సెటప్‌పై ఫలితం ఎలా ఆధారపడి ఉందో ఇది పాఠకులకు చూపిస్తుంది. అదనపు బడ్జెట్‌తో పనితీరు ఇంకా మెరుగుపడుతుంటే, స్కోరును కొలిచిన సామర్థ్య గరిష్టంగా కాకుండా, ఆ హార్నెస్ మరియు బడ్జెట్ కింద ఉన్న పనితీరుగా వివరించాలి. సామర్థ్యం అనేది తరచుగా వనరులపై ఆధారపడేది; ఒకసారి కొలిచి శాశ్వతంగా నిర్ణయించగల స్థిర పరిమాణం కాదు. పునరావృత ప్రయత్నాలపై విజయాన్ని కొలవగల చోట, నివేదికలు స్థిర టోకెన్ బడ్జెట్ వద్ద విజయ శాతమే కాకుండా, ప్రతి విజయవంతమైన పరిష్కారానికి అంచనా ఖర్చును కూడా పరిగణించాలి. ఇది తీవ్రతను అర్థం చేసుకోవడం సులభం చేస్తుంది: పునరావృత ప్రయత్నాల ఖర్చు సంబంధిత ముప్పు నమూనాలో ఉంటే, తక్కువ విజయ శాతం కూడా ఆచరణలో ప్రాధాన్యమైనదై ఉండవచ్చు. సామర్థ్య దావాల కోసం, నివారించగల తక్కువ-ఎలిసిటేషన్ ఒక కొలత వైఫల్యం: హార్నెస్ లేదా బడ్జెట్ వ్యవస్థను అది లేకపోతే చూపగల ప్రవర్తనను ప్రదర్శించకుండా అడ్డుకుంటే, ఆ స్కోరు దావా చేస్తున్న సామర్థ్యాన్ని కొలవదు. మూల్యాంకనకర్తలు సాధ్యమైనంత వరకు ఎలిసిటేషన్‌ను ముందుకు నెట్టినా పనితీరు ఇంకా మెరుగుపడుతుంటే, నివేదికలు దాన్ని స్పష్టంగా చెప్పాలి మరియు ఫలితం కేవలం కనిష్ఠ-పరిమితి అంచనా మాత్రమేనని స్పష్టం చేయాలి.

దాడి చేసేవారికి అందుబాటులో ఉన్న వనరులను, అందులో ప్రత్యేక హార్నెస్‌లను కూడా, పరిగణనలోకి తీసుకోకపోతే రక్షణ పరీక్షలు దాడి విజయవంతమవుతుందా, మరియు అది ఎంత తీవ్రమవుతుందా అన్నదాన్ని తక్కువగా చూపవచ్చు. UK AISI యొక్క GPT‑5.5 సైబర్ మూల్యాంకనంలో⁠(కొత్త విండోలో తెరుచుకుంటుంది), వారి నిపుణుల రెడ్ టీమింగ్ OpenAI అందించిన దుష్ట ప్రశ్నల అంతటా, బహుళ-టర్న్ ఏజెంటిక్ సెట్టింగ్‌లలో కూడా, ఉల్లంఘనాత్మక సైబర్ కంటెంట్‌ను వెలికి తీయగల యూనివర్సల్ జైల్‌బ్రేక్‌ను కనుగొంది. మోడల్ దాడి పనితీరును బలపరచడానికి వారు Codex ఉపయోగించి ఒక ప్రత్యేక హార్నెస్‌ను సృష్టించారు: అది పునర్వినియోగించగల రక్షణ-బైపాస్ నమూనాను పరస్పర చర్యలో నాటింది, ఆ నమూనాను టర్న్‌లు మరియు బ్లాక్‌ల అంతటా నిలుపుకుంది, మరియు OpenAI అందించిన దుష్ట సైబర్ ప్రశ్నలపై దాన్ని వర్తింపజేసింది. రక్షణ పరీక్ష ప్రత్యర్థికి సరిపోవాలి. దావా నిపుణుల దుర్వినియోగానికి వ్యతిరేక దృఢత్వం గురించి అయితే, పరీక్ష నిర్వచిత బడ్జెట్ కింద అత్యంత బలమైన విశ్వసనీయ ఎండ్-టు-ఎండ్ దాడి వ్యూహాన్ని, ఆ వ్యూహాన్ని నిలుపుకోవడానికి మరియు మళ్లీ ఉపయోగించడానికి అవసరమైన ఏ హార్నెస్‌నైనా కలుపుకుని, మూల్యాంకనం చేయాలి. లేకపోతే, ఫలితాలు తప్పు సర్దుబాటుకు దారితీయవచ్చు: అవి కేవలం సరళమైన ప్రాంప్టింగ్‌కు ప్రతిఘటన గురించి మాత్రమే సన్నని దావాకు మద్దతు ఇవ్వవచ్చు, ఎలిసిటేషన్ పద్ధతి కార్యరూపం దాల్చిన తర్వాత దాడి ఎంత తీవ్రమవుతుందో మరియు దాని విజయావకాశం ఎంత ఉందో రెండింటినీ మిస్ కావచ్చు, అలాగే చాలా ఎక్కువ బడ్జెట్ ఇస్తే సమస్య ఎంత సంభావ్యమో లేదా ఎంత తీవ్రమో కూడా అతిగా చూపవచ్చు.

ప్రమాణీకృత హార్నెస్ పోలికలకు సమయం, స్థలం ఉంటాయి, కానీ ఒకే విధమైన హార్నెస్‌ల సమితిని ఉపయోగించడం ఎందుకు తగినదో మరియు అది ఏ దావాకు మద్దతు ఇవ్వగలదో మూల్యాంకనకర్తలు స్పష్టంగా చెప్పాలి. METR యొక్క time-horizon మూల్యాంకనం⁠(కొత్త విండోలో తెరుచుకుంటుంది) విస్తృతమైన, తగిన విధంగా స్థిరపరచిన మూల్యాంకన సెటప్‌కు ఒక ఉదాహరణ: ఇది తాను మూల్యాంకనం చేసే వ్యవస్థల అంతటా పోల్చదగిన ఫలితాలను ఉత్పత్తి చేయడానికి రూపొందించబడింది. METR ఒక సాధారణ ఫలితాన్ని నిర్వచిస్తుంది: నిర్దిష్ట విశ్వసనీయత స్థాయిలో AI ఏజెంట్ విజయవంతమవుతుందని అంచనా వేసే, మానవ పనికి సాధారణ వ్యవధి. ఇది కలిసి నివేదించిన ప్రతి అంచనా బ్యాచ్‌లో పంచుకున్న పని సమితి, స్కోరింగ్ విధానం, ఫిట్టింగ్ విధానం, మరియు Triframe మరియు ReAct⁠(కొత్త విండోలో తెరుచుకుంటుంది) వంటి చిన్న పునర్వినియోగ స్కాఫోల్డ్‌ల సమితిని వర్తింపజేస్తుంది. METR పని సమితిని విస్తరించి, Vivaria అనే ఫ్రేమ్‌వర్క్ నుంచి Inspect అనే మరోదానికి మూల్యాంకన మౌలిక వసతులను మార్చినప్పుడు, అది ఆ మార్పును నివేదించింది (Time Horizon 1.1 update⁠(కొత్త విండోలో తెరుచుకుంటుంది)) మరియు కొత్త మూల్యాంకన సెటప్ కింద మోడళ్లను మళ్లీ మూల్యాంకనం చేసింది. అదే ప్రమాణీకృత మూల్యాంకన సెటప్ విలువ, అందులో స్థిరమైన హార్నెస్ సమితి కూడా ఉంది: స్కోర్లలో తేడా నిజంగా పోల్చబడుతున్న వ్యవస్థల మధ్య తేడాను ప్రతిబింబిస్తోందని, కొలత సెటప్‌లో మార్పును కాదని, పాఠకులు నమ్మేలా చేయగలదు.

మూడవ పక్ష మూల్యాంకన నివేదికలు, తమ మూల్యాంకన సెటప్ ఏ రకమైన దావాకు మద్దతు ఇవ్వడానికి ఉద్దేశించబడిందో పేర్కొనాలని; పరీక్షించినది ఆ విస్తృత దావాను ఎంత దగ్గరగా ప్రతిబింబిస్తుందో వివరించాలని; ఫలితాన్ని ఆకృతీకరించిన హార్నెస్ ఎంపికలను వివరించాలని; ఆ ఎంపికలు మూల్యాంకనాల మధ్య ఎప్పుడు మారుతాయో తెలియజేయాలని; మరియు ఫలితం ఎలా ఉత్పత్తి అయింది, అది దావాకు ఎంతవరకు సాధారణీకరించబడుతుందో చూపే సహాయక ఆధారాలను చేర్చాలని మేము సిఫారసు చేస్తున్నాము.

ఫలితాలను వక్రీకరించగల తెలిసిన ప్రమాదాలను తనిఖీ చేసి చెల్లుబాటును అంచనా వేయండి

మోడళ్లు మరింత సామర్థ్యవంతమవుతున్న కొద్దీ, మూల్యాంకన స్కోర్లను తప్పుగా అర్థం చేసుకోవడం సులభమవుతుంది. నిజమైన సామర్థ్యాలతో పోలిస్తే, ఒక మోడల్ తనను మూల్యాంకనం చేస్తున్నారని గుర్తించి వ్యూహాత్మకంగా తక్కువ పనితీరు చూపితే, మూల్యాంకన స్కోర్లు కృత్రిమంగా తగ్గిపోవచ్చు. మోడల్ పని, ప్రాంప్ట్, స్కోరర్, లేదా హార్నెస్‌లోని షార్ట్‌కట్‌ను ఉపయోగించుకుంటే, అవి కృత్రిమంగా పెరగవచ్చు. కాలుష్యం వల్ల కూడా అవి వక్రీకరించబడవచ్చు (అంటే, పని పరిష్కరించకుండానే మోడల్‌కు సమాధానం ముందే తెలిసి ఉండడం లేదా కనుగొనగలగడం), లేదా అస్పష్టమైన, తప్పుగా స్కోరు చేసిన, పరిష్కరించలేని, లేదా అనూహ్య షార్ట్‌కట్‌లకు లోనయ్యే “లోపభూయిష్ట” సమస్యల వల్ల కూడా. అందువల్ల, మూల్యాంకన నివేదికలు ప్రధాన స్కోర్లతో పాటు ఈ ప్రమాదాలపై చర్చను జత చేయాలి, తద్వారా స్కోర్లు ఉద్దేశించిన ప్రవర్తనను ప్రతిబింబిస్తున్నాయా అని పాఠకులు అంచనా వేయగలరు.

హార్నెస్‌లు, బడ్జెట్‌లు, సాధనాలు, స్కోరింగ్ నియమాలు, మానిటర్లు, మరియు సమీక్ష విధానాలు అన్నీ ఒక ఏజెంట్ ఉద్దేశించిన పనిని పరిష్కరిస్తుందా, దాన్ని తప్పించుకుంటుందా, గుర్తుంచుకుంటుందా, లేదా దాని చుట్టూ మార్గం కనుగొంటుందా అన్నదాన్ని ప్రభావితం చేస్తాయి. నమ్మదగిన నివేదిక ఆ తనిఖీలను కనిపించేలా చేస్తుంది: ప్రతి సారి అంచనా నడిపినప్పుడు, మూల్యాంకనకర్తలు ఈ ప్రవర్తనల కోసం నమూనాలను సమీక్షించాలి.

రివార్డ్ హ్యాకింగ్

రివార్డ్ హ్యాకింగ్ అంటే, ఉద్దేశించిన సామర్థ్యాన్ని ప్రతిబింబించని మార్గాల్లో అధిక మూల్యాంకన స్కోర్లు సాధించడం. ఇక్కడ ఆందోళన ఏమిటంటే, మూల్యాంకనం కొలవదలచిన పనిని చేయడం ద్వారా కాకుండా, పని, స్కోరర్, ప్రాంప్ట్, లేదా హార్నెస్‌ను ఉపయోగించుకోవడం ద్వారా వ్యవస్థకు క్రెడిట్ రావడం. METR యొక్క GPT 5.4 మూల్యాంకనం⁠(కొత్త విండోలో తెరుచుకుంటుంది) ఇది ఎందుకు ముఖ్యమో చూపిస్తుంది: మొదటి దశలో మోడల్ సుమారు 13 గంటల time horizon‌గా నమోదయ్యే రేటుతో పనుల్లో విజయవంతమైనప్పటికీ, మానవ సమీక్ష ఆ విజయాల్లో కొన్ని రివార్డ్ హ్యాకింగ్ వల్ల వచ్చాయని చూపించింది. రివార్డ్ హ్యాకింగ్ లేని సందర్భాలను మాత్రమే పరిగణనలోకి తీసుకుని ఫలితాలను సవరించగా, అంచనా సుమారు 6 గంటలకు తగ్గింది. మూల్యాంకనకర్తలు అలాంటి సవరణల అవసరాన్ని అంచనా వేయాలి మరియు అవి అవసరమైనప్పుడు స్పష్టంగా నివేదించాలి: ఏ స్పష్టమైన విజయాలు అనర్హం చేయబడ్డాయి, ఎందుకు అనర్హం చేయబడ్డాయి, మరియు ఫలితం ఆ నిర్ణయంపై ఎంతవరకు ఆధారపడి ఉందో పాఠకులు చూడగలిగినప్పుడు సామర్థ్య అంచనా మరింత ఉపయోగకరంగా ఉంటుంది.

ట్రెండ్ లైన్ మరియు విశ్వసనీయత అంతరాలతో కాలక్రమంలో AI మోడల్ పనితీరును చూపించే చార్ట్.

నిరాకరణలు

రక్షణల కారణంగా మోడళ్లు సామర్థ్య మూల్యాంకనాల్లో తక్కువ పనితీరు కూడా చూపవచ్చు. మూల్యాంకన పనులను పూర్తి చేయకుండా నిరాకరించడం వల్ల, ఒక మోడల్ తనకు ఉన్న సామర్థ్యానికి కంటే తక్కువ మూల్యాంకన పనితీరును చూపవచ్చు. అందువల్ల, నిరాకరణలు మూల్యాంకన ఫలితాల్లో భాగమయ్యాయా, అయితే వాటి కారణంగా ఎన్ని నమూనాలు ప్రభావితమయ్యాయో నివేదికలు వివరించాలి.

కాలుష్యం

కాలుష్యం ముఖ్యంగా ప్రజా లేదా మళ్లీ ఉపయోగించిన బెంచ్‌మార్క్‌లకు⁠ అత్యంత ప్రాధాన్యమైనది. పనులు, సమాధానాలు, లేదా దగ్గరైన రూపాలు శిక్షణ డేటాలో కనిపిస్తే లేదా బ్రౌజింగ్ ఉన్న ఏజెంట్ వాటిని కనుగొనగలిగితే, పనితీరు మోడల్ పనితీరుకంటే గుర్తుంచుకోవడం లేదా తిరిగి పొందడాన్ని ప్రతిబింబించవచ్చు. సాధ్యమైన చోట మూల్యాంకనకర్తలు ప్రైవేట్ లేదా కొత్తగా నిర్మించిన పనులను ప్రాధాన్యంగా తీసుకోవాలి మరియు పరిష్కరించే ముందు మోడళ్లు పని-నిర్దిష్ట వివరాలను పునరుత్పత్తి చేస్తున్నాయా అని పరీక్షించాలి.

లోపభూయిష్ట సమస్యలు

లోపభూయిష్ట సమస్యల్లో, అనుకోకుండా పరిష్కరించలేని సమస్య వంటి పరిస్థితులు ఉంటాయి. లోపభూయిష్ట సమస్యలు తగినంత సాధారణం⁠(కొత్త విండోలో తెరుచుకుంటుంది) కాబట్టి, వాటిని ప్రామాణిక చెల్లుబాటు ప్రమాదంగా పరిగణించాలి. వాటిలో తప్పు ground truth, అస్పష్టమైన ప్రాంప్ట్‌లు, లేని ఫైళ్లు, అస్థిర సేవలు, అన్యాయమైన స్కోరింగ్ ప్రమాణాలు, మరియు దాచిన సమాధాన ఫైళ్లు లేదా ground-truth patch ఉన్న రిపోజిటరీ చరిత్ర వంటి షార్ట్‌కట్‌లను బహిర్గతం చేసే పరిసరాలు ఉంటాయి.

సాండ్‌బ్యాగింగ్

మోడల్ లేదా వ్యవస్థ ద్వారా సాండ్‌బ్యాగింగ్ అంటే, బలమైన పనితీరు ఏదైనా లక్ష్యంతో విరుద్ధంగా ఉన్నప్పుడు వ్యూహాత్మకంగా తక్కువ పనితీరు చూపించడం. Apollo యొక్క GPT‑5.5 మూల్యాంకనం⁠(కొత్త విండోలో తెరుచుకుంటుంది), అధిక మూల్యాంకన స్కోర్లు unlearning‌ను ప్రేరేపించవచ్చు లేదా deployment‌ను అడ్డుకోవచ్చు అని మోడల్ అర్థం చేసుకునే సందర్భాన్ని సృష్టించి దీనిని పరీక్షించింది. GPT‑5.5 అయినప్పటికీ సరైన సమాధానాలు ఇచ్చింది, ఇది వ్యూహాత్మక తక్కువ పనితీరుకు తక్కువ ప్రవర్తనా ఆధారాన్ని సూచిస్తుంది³. కానీ వారి రిజనింగ్ ట్రేసుల సమీక్ష ముఖ్యమైన సందర్భాన్ని జోడించింది: counterfactuals‌లో 0%తో పోలిస్తే, sandbagging-condition నమూనాల్లో 52%లో alignment-evaluation awareness‌కు మధ్యస్థ లేదా అంతకంటే ఎక్కువ సంకేతాలను Apollo కనుగొంది. ఆ ఆధారం ఫలితపు అర్థాన్ని క్లిష్టం చేస్తుంది, కానీ చివరికి పాఠకులకు మరింత సంకేతాన్ని ఇస్తుంది: ధైర్యం ఇచ్చే ప్రవర్తనా ఫలితాన్ని కూడా, దాన్ని అతిగా అర్థం చేసుకోవడంలో జాగ్రత్తగా ఉండాల్సిన కారణాన్ని కూడా పాఠకులు చూడగలరు.

మరింత బలమైన మూల్యాంకనాలకు మేము ఎలా మద్దతు ఇస్తున్నాము

బలమైన దావాలకు, ప్రవర్తనను వెలికి తీయడానికి సరైన హార్నెస్ కూడా, ఫలితం బలమైనదని చూపడానికి చెల్లుబాటు తనిఖీలు కూడా అవసరం. హార్నెస్‌లు మరియు చెల్లుబాటు తనిఖీలు మూల్యాంకన ఫలితంలో భాగమే అన్న మా దృష్టి, ఆచరణలో మూడవ పక్ష మూల్యాంకనాలకు మేము ఎలా మద్దతు ఇస్తామో నిర్ణయిస్తుంది:

మేము మూల్యాంకనకర్తలతో నిర్దిష్ట గరిష్ట-ఎలిసిటేషన్ మార్గదర్శకాన్ని పంచుకుంటున్నాము.
OpenAI మోడళ్ల కోసం Codex‌ను సాధారణ కనిష్ఠ ప్రమాణంగా ఉపయోగించాలని మేము సామర్థ్య మూల్యాంకనకర్తలను కోరుతున్నాము: పరీక్షలు కనీసం వినియోగదారులు ఆధారపడే అవకాశం ఉన్న అదే ఏజెంటిక్ ఇంటర్‌ఫేస్ ద్వారా ఒక బేస్‌లైన్‌ను నడపాలి, కేవలం సరళీకృత మోడల్ ఇంటర్‌ఫేస్ ద్వారా మాత్రమే కాదు.
మోసం, సాండ్‌బ్యాగింగ్, లేదా మూల్యాంకన అవగాహనను అంచనా వేయడానికి అవసరమైన చోట, మేము రిజనింగ్ ట్రేసులు మరియు ఇతర మధ్యంతర ఆర్టిఫాక్ట్‌లను కూడా అందుబాటులో ఉంచుతున్నాము. GPT‑5 నుంచి OpenAI మూల్యాంకనాల్లో METR మరియు Apollo ఈ ప్రాప్యతను ఉపయోగించాయి.
చివరగా, సందర్భ నిర్వహణ మరియు సాధనాల ప్రాప్యత నుంచి మళ్లీ ప్రయత్నించే ప్రవర్తన, స్కోరింగ్, మరియు వనరుల బడ్జెట్‌ల వరకు, హార్నెస్ ఎంపికలు ఫలితాలను ఎప్పుడు, ఎలా గణనీయంగా మార్చుతాయో మరింత లోతుగా అర్థం చేసుకోవడానికి మేము పరిశోధనకు ప్రాధాన్యం ఇస్తున్నాము.

మూల్యాంకన ప్రమాణాలు మరియు భవిష్యత్ పరిశోధన దిశల కోసం దీని అర్థం ఏమిటి

ఈ సిఫారసులు వ్యక్తిగత మూల్యాంకన నివేదికలను మెరుగుపరచడానికే కాకుండా, ఫ్రంటియర్ AI మూల్యాంకనం మరియు నివేదికల కోసం ఉద్భవిస్తున్న జాతీయ ⁠(కొత్త విండోలో తెరుచుకుంటుంది)మరియు అంతర్జాతీయ ⁠(కొత్త విండోలో తెరుచుకుంటుంది)ప్రమాణాలకు సమాచారం అందించడానికి కూడా ఉద్దేశించబడ్డాయి. ముందుకు చూస్తే, మూడవ పక్ష మూల్యాంకన ప్రమాణాలు నిర్ణయాధికారులు నిర్దిష్ట మూల్యాంకనాలు ఏ దావాలకు మద్దతు ఇస్తాయో, ఏ వ్యవస్థను పరీక్షించారో, ఫలితాన్ని ఎలా వెలికి తీశారో, మరియు మూల్యాంకనకర్తలు దాని చెల్లుబాటును ఎలా తనిఖీ చేశారో అర్థం చేసుకునేంత వివరాన్ని తప్పనిసరిగా కోరాలి. ఏజెంటిక్ సామర్థ్యాలు ముఖ్యమైన పనులపై పరీక్షించబడుతున్న ఫ్రంటియర్ వ్యవస్థల కోసం, వివరాల్లో ఇవి ఉండాలి (ఏవైనా భద్రతా లేదా గోప్యతా ఆందోళనలకు లోబడి):

దావా: మూల్యాంకనం వ్యవస్థలను పోల్చుతుందా, సామర్థ్య గరిష్టాన్ని అంచనా వేస్తుందా, లేదా రక్షణలను పరీక్షిస్తుందా అన్నది.
మూల్యాంకన విషయం: మూల్యాంకనం నిజంగా ఏ నైపుణ్యాలు, ప్రవర్తనలు, లేదా వైఫల్య విధానాలను పరీక్షిస్తుందో పాఠకులు అర్థం చేసుకునేంత పని లేదా పని పంపిణీ వివరాలు.
పరీక్షించిన వ్యవస్థ: మోడల్, రిజనింగ్ సెట్టింగ్, సాధనాల ప్రాప్యత, హార్నెస్, మరియు రక్షణలు.
బడ్జెట్: టర్న్‌లు, టోకెన్లు, ప్రయత్నాలు/మళ్లీ ప్రయత్నాలు, వాస్తవ సమయం, inference ఖర్చు, మరియు వర్తించే చోట ప్రతి విజయవంతమైన పరిష్కారానికి అంచనా ఖర్చు.
ఎలిసిటేషన్ పద్ధతులు: ఫలితాన్ని వెలికి తీయడానికి ఉపయోగించిన హార్నెస్ ఎంపికలు, మరియు పరీక్షించినది చేస్తున్న విస్తృత దావాను ఎంత దగ్గరగా ప్రతిబింబిస్తుందో.
చెల్లుబాటు తనిఖీలు: రివార్డ్ హ్యాకింగ్, మూల్యాంకన అవగాహన, కాలుష్యం, నిరాకరణలు, సాండ్‌బ్యాగింగ్, మరియు ఫలితాన్ని దెబ్బతీయగల ఇతర ప్రవర్తనలను అంచనాదారులు ఎలా వెతికారో, ధృవీకరించిన సందర్భాలు స్కోరింగ్ లేదా అర్థవ్యాఖ్యపై ఎలా ప్రభావం చూపాయో సహా.

హార్నెస్ ఎంపికలు లేదా చెల్లుబాటు తనిఖీలను వదిలేసే ప్రమాణాలు, ఒక వ్యవస్థ ఏమి చేయగలదో తక్కువగా చూపవచ్చు లేదా భద్రతా దావాపై నమ్మకాన్ని అతిగా చూపవచ్చు. బలమైన హార్నెస్‌లు మరియు ఎలిసిటేషన్ పద్ధతులను నిర్మించడం ఇంకా ఓపెన్ పరిశోధనా రంగంగానే ఉంది; ఇది మరింత పరిశీలన మరియు పెట్టుబడికి కేంద్రంగా ఉండాలి.

2026

రచయిత

OpenAI

పదకోశం

ఈ పోస్టులో మేము కొన్ని ప్రత్యేక సాంకేతిక పదాలను ఉపయోగిస్తున్నందున, మేము ఏ విషయాన్ని సూచిస్తున్నామో సులభమైన భాషలో వివరించే పదకోశాన్ని క్రింద చేర్చాము:

ఏజెంటిక్ వ్యవస్థ: ఒక ప్రాంప్ట్‌కు ఒక్క సమాధానం మాత్రమే ఇవ్వడం కాకుండా, సాధనాలను ఉపయోగిస్తూ, పని స్థితిని నిలుపుకుంటూ, ఒక పరిసరంలో చర్యలు తీసుకుంటూ, అనేక దశల్లో పని పూర్తి చేయగల వ్యవస్థ.
అంచనా: ఒక దావా, ప్రమాద నిర్ధారణ, లేదా హామీ స్థితిని ఆధారాలు సమర్థిస్తున్నాయా అనే విస్తృత నిర్ణయం. ఇది మూల్యాంకన డేటా, పత్ర సమీక్ష, ఇంటర్వ్యూ, ప్రక్రియ సమీక్ష, మరియు ఇతర సంబంధిత ఆధారాలపై ఆధారపడవచ్చు.
కాంపాక్షన్: దీర్ఘకాల అమలుల సమయంలో పనికి సంబంధించిన సందర్భాన్ని నిలుపుకునే విధానం.
కాన్ఫిగరేషన్: మోడల్ పేరుకు మించి, ఖచ్చితంగా పరీక్షించిన వ్యవస్థ మరియు మూల్యాంకన పరిస్థితులు.
కాలుష్యం: మూల్యాంకన పనులు, సమాధానాలు, లేదా వాటికి దగ్గరైన రూపాలు మోడల్ శిక్షణ డేటాలో కనిపించినప్పుడు లేదా మూల్యాంకన సమయంలో కనుగొనగలిగినప్పుడు (ఉదా., బ్రౌజింగ్ వంటి సాధనాల ద్వారా), పనితీరు మోడల్ యొక్క నిజమైన సాధారణీకరణ సామర్థ్యాన్ని మించి కనిపించడం.
ఎలిసిటేషన్: అంచనా సమయంలో ఒక వ్యవస్థ నుంచి సామర్థ్యం లేదా ప్రవర్తనను వెలికి తీయడానికి చేసే ప్రక్రియ.
పరిసరం: ఒక వ్యవస్థను పరీక్షించే పని సందర్భం. ఇందులో మూల్యాంకన సమయంలో ఏజెంట్ పరస్పరం చర్యలు తీసుకుని మార్చే బాహ్య స్థితి వంటి అంశాలు ఉంటాయి, ఉదాహరణకు టెర్మినల్ పరిసరం లేదా వీడియో గేమ్.
మూల్యాంకనం: ఒక అంచనాలోని నిర్దిష్ట పరీక్ష లేదా కొలత.
మూల్యాంకన అవగాహన: మూల్యాంకన అవగాహన అంటే, ఒక మోడల్ తనను మూల్యాంకనం చేస్తున్నారని గుర్తించడం, లేదా గుర్తించినట్లు కనిపించడం, మరియు ఆ సందర్భానికి ప్రతిస్పందనగా తన ప్రవర్తనను మార్చే అవకాశం ఉండడం. ఇది మోడల్ తనను పరీక్షిస్తున్నారని స్పష్టంగా రిజనింగ్ చేయడం, మూల్యాంకన ఉద్దేశ్యాన్ని ఊహించడం, లేదా ఫలితం తనను ఎలా అంచనా వేస్తారు లేదా అమలు చేస్తారు అన్నదాన్ని ప్రభావితం చేస్తుందని భావించి తన ప్రవర్తనను మార్చడం వంటి రూపంలో కనిపించవచ్చు.
హార్నెస్: ఒక మోడల్ పని చేయడానికి సహాయపడే, మోడల్‌కు ఎదురుగా ఉండే నిర్మాణం: ప్రాంప్ట్‌లు, సాధనాలు, ఇంటర్‌ఫేస్‌లు, నియంత్రణ తర్కం, మెమరీ, మళ్లీ ప్రయత్నాలు, ధృవీకరణలు, మరియు మోడల్ చుట్టూ ఉన్న ఇతర సహాయక నిర్మాణాలు.
గరిష్ట ఎలిసిటేషన్: ఒక ప్రమాణీకృత హార్నెస్ ద్వారా వ్యవస్థను ఒక్కసారి నడపడం కాకుండా, నిర్వచిత బడ్జెట్‌లో వ్యవస్థ చూపగల అత్యంత బలమైన విశ్వసనీయ పనితీరు లేదా వైఫల్య విధానాన్ని కనుగొనడానికి చేసే పరీక్ష.
రిజనింగ్ ట్రేసులు: పరీక్ష సమయంలో మోడల్ యొక్క మధ్యంతర రిజనింగ్‌కు సంబంధించిన రికార్డులు.
రివార్డ్ హ్యాకింగ్: మూల్యాంకనకర్త ఉద్దేశానికి బయట ఉన్న షార్ట్‌కట్ లేదా ప్రవర్తన ద్వారా అధిక స్కోరు సాధించడం.
రక్షణలు: మోడల్ లేదా ఉత్పత్తి చుట్టూ అమలు చేసే ఫిల్టర్లు, మానిటర్లు, నిరోధక వ్యవస్థలు, మరియు ఇతర రక్షణలు.
సాండ్‌బ్యాగింగ్: ఫలితాన్ని దెబ్బతీసే విధంగా మూల్యాంకనలో వ్యూహాత్మకంగా తక్కువ పనితీరు చూపించడం.
స్కోరింగ్: పనితీరును ఎలా కొలవాలి లేదా పని విజయవంతమైందా అని నిర్ణయించడానికి ఉపయోగించే విధానం.
ప్రమాణీకృత హార్నెస్: ఒక నిర్దిష్ట మోడల్ లేదా పనికి అనుకూలీకరించకుండా, అన్ని వ్యవస్థలలో ఒకేలా ఉంచే హార్నెస్. దీంతో ఫలితాల తేడాలను పరీక్షించిన మోడల్‌కే సులభంగా ఆపాదించవచ్చు.
సమయ పరిధి: ఒక నిర్దిష్ట విశ్వసనీయతతో ఒక వ్యవస్థ పూర్తి చేయగల పని యొక్క నిడివి, దీనిని తరచుగా అదే పనిని పూర్తి చేయడానికి ఒక మనిషికి ఎంత సమయం పడుతుందనే దాని రూపంలో వ్యక్తపరుస్తారు.
సాధనాల ప్రాప్యత: అంచనా సమయంలో మోడల్‌కు అందుబాటులో ఉండే బాహ్య సాధనాలు.
ట్రాజెక్టరీలు: ఒక పని చేస్తూ వ్యవస్థ అనుసరించే దశలవారీ మార్గాలు.
యూనివర్సల్ జైల్‌బ్రేక్: అనేక ప్రాంప్ట్‌లు లేదా పనులలో ఒక వ్యవస్థ రక్షణలను దాటివేయేలా చేసే ఒక్క దాడి నమూనా.

ఫుట్‌నోట్లు

1
ఈ పోస్టు, మూడవ పక్షాలు misalignment లేదా propensity‌కు సంబంధించిన దావాలను ఎలా మూల్యాంకనం చేయాలి అన్నదాన్ని పరిష్కరించడానికి ప్రయత్నించదు. ఆ మూల్యాంకనాలపై హార్నెస్ ఎంపికలు ఎలా ప్రభావం చూపుతాయో అర్థం చేసుకోవడానికి ఇంకా ఎక్కువ పని అవసరం, ముఖ్యంగా దీర్ఘ-పరిధి ప్రవర్తనకు మద్దతు ఇచ్చే హార్నెస్‌లు మూల్యాంకనకర్తలు పర్యవేక్షించాల్సిన అనూహ్య ప్రవర్తన రకాలనూ మార్చవచ్చు కాబట్టి.
2
HAL⁠(కొత్త విండోలో తెరుచుకుంటుంది) ఏజెంట్ మూల్యాంకనాల నుండి మరో ఉదాహరణను అందిస్తుంది: CORE-Bench⁠(కొత్త విండోలో తెరుచుకుంటుంది) హార్నెస్‌ను Claude Code‌గా మార్చడం వల్ల అదే బెంచ్‌మార్క్‌పై కొలిచిన పనితీరు మరియు ఖర్చు ప్రొఫైల్ రెండూ మారాయి. ఇతర ప్రజా ఉదాహరణల్లో SWE-agent⁠(కొత్త విండోలో తెరుచుకుంటుంది), SeeAct⁠(కొత్త విండోలో తెరుచుకుంటుంది), ScienceAgentBench⁠(కొత్త విండోలో తెరుచుకుంటుంది), CORE-Bench⁠(కొత్త విండోలో తెరుచుకుంటుంది), మరియు Inspect Cyber⁠(కొత్త విండోలో తెరుచుకుంటుంది) ఉన్నాయి; ప్రతి ఒక్కటి ఏ ఇంటర్‌ఫేస్ లేదా హార్నెస్ స్కోరును ఉత్పత్తి చేసిందో పాఠకులకు చెబుతుంది.
3
రెండు Sandbagging QA వేరియంట్‌లలో 100% మరియు strategic-deception sandbagging పనిలో 99.6% స్కోరు సాధించడం.

చదవడం కొనసాగించండి

అన్నీ చూడండి

Safety and alignment in an era of long-horizon models

భద్రత20 జులై, 2026

Why teens deserve access to safe AI

భద్రత16 జులై, 2026

GPT-Red: దృఢత్వానికి స్వీయ-మెరుగుదల

భద్రత15 జులై, 2026