ప్రధాన కంటెంట్‌కి దాటండి
OpenAI

ChatGPT ఏజెంట్‌ను పరిచయం చేస్తోంది: రీసెర్చ్ మరియు యాక్షన్ మధ్య వంతెనగా

ChatGPT ఇప్పుడు ఆలోచించి, కార్యాచరణ చేసి, తన కంప్యూటర్‌ని ఉపయోగించి టాస్క్‌లు పూర్తి చేయడానికి ఏజెంటిక్ స్కిల్స్ టూల్‌బాక్స్‌ నుంచి అవసరమైన వాటిని ప్రోఆక్టివ్‌గా ఎంచుకుంటుంది.

లోడ్ అవుతోంది…

ఇప్పుడు ChatGPT తన స్వంత కంప్యూటర్‌ను ఉపయోగించి మీకోసం పనిచేస్తూ, క్లిష్టమైన పనులను మొదటి నుండి చివరి దాకా నిర్వహించగలదు.

ఇప్పుడు మీరు ChatGPT‌ను ఇలా ఉన్న రిక్వెస్ట్‌లు హ్యాండిల్ చేయమని అడగవచ్చు: “నా క్యాలెండర్ చూసి, తాజా వార్తల ఆధారంగా రాబోయే క్లయింట్ మీటింగ్‌లపై ఒక చిన్న బ్రీఫ్ ఇవ్వు,” “నాలుగు మందికి జపనీస్ బ్రేక్‌ఫాస్ట్ తయారు చేయడానికి ప్లాన్ చేసి, కావాల్సిన ఇన్‌గ్రెడియెంట్స్ కొనుగోలు చేయు,” మరియు “మూడు కంపెటిటర్స్‌ను విశ్లేషించి ఒక స్లైడ్ డెక్ తయారు చేయు.”ChatGPT అవసరమైనప్పుడు వెబ్‌సైట్లు తెలివిగా నావిగేట్ చేసి, రిజల్ట్‌లను ఫిల్టర్ చేసి, సెక్యూర్‌గా లాగిన్ కావాలని ప్రాంప్ట్ చేసి, కోడ్ రన్ చేసి, అనాలిసిస్ చేసి, చివరకు తన ఫైండింగ్స్‌ను సమ్మరైజ్ చేసే ఎడిట్ చేయగల స్లైడ్‌షోలు మరియు స్ప్రెడ్‌షీట్‌లను కూడా అందిస్తుంది. 

ఈ కొత్త సామర్థ్యం యొక్క మూలంలో ఒక ఏకీకృత ఏజెంటిక్ సిస్టమ్ ఉంది. ఇది మునుపటి పురోగతుల యొక్క మూడు బలాలను కలిసి తెస్తుంది: Operator యొక్క వెబ్సైట్లతో పరస్పర చర్య సామర్థ్యం, లోతైన పరిశోధన యొక్క సమాచారాన్ని సంశ్లేషణ నైపుణ్యం, మరియు ChatGPT యొక్క మేధస్సు మరియు సంభాషణ నైపుణ్యం.

ChatGPT తన స్వంత వర్చువల్ కంప్యూటర్‌ను ఉపయోగించి ఈ పనులను చేస్తుంది, మీ సూచనల ఆధారంగా రీజనింగ్‌ మరియు యాక్షన్‌ మధ్య సులభంగా మారుతూ క్లిష్టమైన వర్క్‌ఫ్లోలను మొదటి నుండి చివరి వరకు నిర్వహిస్తుంది.

ముఖ్యంగా, ఎల్లప్పుడూ నియంత్రణ మీ చేతిలోనే ఉంటుంది. ChatGPT ముఖ్యమైన చర్యలు తీసుకునే ముందు మీ అనుమతి కోరుతుంది, మరియు మీరు ఎప్పుడైనా సులభంగా మధ్యలో ఆపవచ్చు, బ్రౌజర్‌ను స్వాధీనం చేసుకోవచ్చు లేదా పనులను నిలిపివేయవచ్చు.

ఈ రోజు నుండి, Pro, Plus, మరియు Team యూజర్లు, ఏ సంభాషణలోనైనా ‘ఏజెంట్ మోడ్’ని ఎంచుకోవడం ద్వారా, కంపోజర్‌లోని టూల్స్ డ్రాప్‌డౌన్‌ నుండి ChatGPT యొక్క కొత్త ఏజెంటిక్ సామర్థ్యాలను నేరుగా యాక్టివేట్‌ చేయవచ్చు. 

క్లిష్టమైన పనులను నిర్వహించడంలో ChatGPT ఏజెంట్‌ ఇప్పటికే శక్తివంతమైన టూల్ అయినప్పటికీ, ఈరోజు ప్రారంభం కేవలం మొదటిపాదమే. మేము నిరంతరం ముఖ్యమైన మెరుగుదలలను జోడిస్తూనే ఉంటాము, తద్వారా కాలక్రమేణా ఇది మరింత శక్తివంతంగా, మరింత మంది కోసం ఉపయోగకరంగా మారుతుంది.

Operator మరియు deep research యొక్క సహజమైన పరిణామం

ఇంతకుముందు, Operator మరియు deep research ప్రతిదీ తనదైన ప్రత్యేక బలాన్ని అందించాయి: Operator వెబ్లో స్క్రోల్ చేయడం, క్లిక్ చేయడం, మరియు టైప్ చేయడం చేయగలదు, అయితే deep research సమాచారాన్ని విశ్లేషించడం మరియు సంగ్రహించడం లో రాణించింది. Operator లోతైన విశ్లేషణ చేయలేకపోయింది లేదా డీటైల్‌డ్ రిపోర్ట్స్ రాయలేకపోయింది, అలాగే deep research వెబ్‌సైట్లతో ఇంటరాక్ట్‌ చేసి ఫలితాలను రిఫైన్‌ చేయలేకపోయింది లేదా యూజర్ ఆథెంటికేషన్ అవసరమయ్యే కంటెంట్‌ను యాక్సెస్‌ చేయలేకపోయింది. నిజానికి, యూజర్లు Operator ప్రయత్నించిన అనేక ప్రశ్నలు వాస్తవానికి deep research కి బాగా సరిపోయేవని మేము గమనించాము, అందుకే రెండింటి ఉత్తమమైన వాటిని కలిపాము.

ఈ పరస్పరం పూర్తి చేసుకునే బలాలను ChatGPTలో ఏకీకృతం చేసి, అదనపు టూల్స్‌ని పరిచయం చేయడం ద్వారా, మేము ఒకే మోడల్‌లో పూర్తిగా కొత్త సామర్థ్యాలను అన్‌లాక్‌ చేసాము. ఇది ఇప్పుడు వెబ్‌సైట్లతో యాక్టివ్‌గా ఇంగేజ్‌ అవుతుంది—క్లిక్‌ చేయడం, ఫిల్టర్‌ చేయడం, ఇంకా మరింత ఖచ్చితమైన, సమర్థవంతమైన ఫలితాలను సేకరించడం. మీరు ఒక సింపుల్‌ సంభాషణ నుండి నేరుగా అదే చాట్‌లో చర్యలు కోరే దిశగా సహజంగానే మారవచ్చు. 

మీ కోసం, మీతో కలిసి పనిచేసే ఏజెంట్ 

మేము ChatGPT ఏజెంట్‌కు టూల్‌ల సూట్‌ను అందించాం: గ్రాఫికల్-యూజర్ ఇంటర్‌ఫేస్ ద్వారా వెబ్‌తో ఇంటరాక్ట్ అయ్యే విజువల్ బ్రౌజర్, సులభమైన రీజనింగ్-బేస్డ్ వెబ్ క్వెరీల కోసం టెక్స్ట్-బేస్డ్ బ్రౌజర్, ఒక టర్మినల్, మరియు డైరెక్ట్ API యాక్సెస్. ఏజెంట్ ChatGPT కనెక్టర్స్(కొత్త విండోలో తెరుచుకుంటుంది)ను కూడా ఉపయోగించగలదు, ఇవి Gmail మరియు Github వంటి యాప్‌లను కనెక్ట్ చేయడానికి అనుమతిస్తాయి, తద్వారా ChatGPT మీ ప్రాంప్ట్‌లకు సంబంధించిన సమాచారాన్ని కనుగొని దాన్ని తన ప్రతిస్పందనల్లో ఉపయోగించగలదు. మీరు బ్రౌజర్‌ను స్వాధీనం చేసుకొని ఏ వెబ్‌సైట్‌లోనైనా లాగిన్‌ అవ్వవచ్చు, దీని ద్వారా అది తన రీసెర్చ్ మరియు టాస్క్ ఎగ్జిక్యూషన్‌లో మరింత లోతుగా, విస్తృతంగా వెళ్లగలదు. ChatGPTకి వెబ్ సమాచారాన్ని యాక్సెస్‌ చేయడానికి మరియు ఇంటరాక్ట్‌ చేయడానికి ఈ వేర్వేరు మార్గాలను ఇవ్వడం అంటే, ఇది పనులను అత్యంత సమర్థవంతంగా చేయడానికి సరైన మార్గాన్ని ఎంచుకోగలదన్నమాట. ఉదాహరణకు, ఇది API ద్వారా మీ క్యాలెండర్ గురించి సమాచారం సేకరించగలదు, టెక్స్ట్-బేస్డ్ బ్రౌజర్‌ను ఉపయోగించి పెద్ద మొత్తంలో టెక్స్ట్‌పై సమర్థవంతంగా తర్కం చేయగలదు, అలాగే ముఖ్యంగా మనుషుల కోసం రూపొందించిన వెబ్‌సైట్లతో విజువల్‌గా ఇంటరాక్ట్‌ చేసే సామర్థ్యం కూడా కలిగి ఉంటుంది. 

ఈ సమస్తం దీని స్వంత వర్చువల్ కంప్యూటర్‌ను ఉపయోగించి జరుగుతుంది, ఇది పనికి అవసరమైన సందర్భాన్ని కాపాడుతుంది, అనేక టూల్స్ ఉపయోగించినా కూడా—మోడల్ ఒక పేజీని టెక్స్ట్ బ్రౌజర్ లేదా విజువల్ బ్రౌజర్‌లో ఓపెన్ చేయాలని ఎంచుకోగలదు, వెబ్ నుండి ఒక ఫైల్‌ను డౌన్‌లోడ్ చేసుకోగలదు, దానిని టెర్మినల్‌లో ఒక కమాండ్ రన్ చేసి మానిపులేట్ చేయగలదు, తరువాత అవుట్‌పుట్‌ను తిరిగి విజువల్ బ్రౌజర్‌లో చూడగలదు. మోడల్ తన విధానాన్ని మార్చుకొని, వేగం, ఖచ్చితత్వం, మరియు సమర్థవంతతతో పనులను నిర్వహిస్తుంది.

ChatGPT ఏజెంట్‌ను ఐటరేటివ్‌, సహకార వర్క్‌ఫ్లోల కోసం రూపొందించారు, ఇది పూర్వపు మోడళ్ల కంటే చాలా ఎక్కువ ఇంటరాక్టివ్ మరియు ఫ్లెక్సిబుల్‌గా ఉంటుంది. ChatGPT పని చేస్తూ ఉండగా, మీరు ఎప్పుడైనా మధ్యలో ఆపి మీ సూచనలను స్పష్టంగా చెప్పవచ్చు, కావలసిన ఫలితాల వైపు దారితీయవచ్చు, లేదా పనిని పూర్తిగా మార్చవచ్చు. ఇది కొత్త సమాచారంతో, ముందున్న చోటునుంచి తిరిగి కొనసాగుతుంది, కానీ మునుపటి ప్రోగ్రెస్‌ను కోల్పోకుండా. అలాగే, ChatGPT కూడా మీ లక్ష్యాలకు పని సరిపోయేలా ఉండటానికి అవసరమైతే ప్రాక్టివ్‌గా మీ నుండి అదనపు వివరాలు అడగవచ్చు. ఒక టాస్క్ ఊహించిన దానికంటే ఎక్కువ సమయం తీసుకుంటే లేదా స్టక్‌ అయినట్లు అనిపిస్తే, మీరు దాన్ని పాజ్‌ చేయవచ్చు, ప్రోగ్రెస్ సారాంశం అడగవచ్చు, లేదా దాన్ని పూర్తిగా ఆపి భాగస్వామ్య ఫలితాలను పొందవచ్చు. మీ ఫోన్‌లో ChatGPT యాప్ ఉంటే, అది మీ టాస్క్ పూర్తయినప్పుడు మీకు ఒక నోటిఫికేషన్ పంపుతుంది.

నిజజీవిత వినియోగాన్ని విస్తరించడం 

ఈ యునిఫైడ్ ఏజెంటిక్ కెపాబిలిటీస్, రోజువారీ ఉపయోగాల్లోనూ, ప్రొఫెషనల్ సందర్భాల్లోనూ ChatGPT ఉపయోగాన్ని గణనీయంగా పెంచుతాయి.వర్క్‌లో, మీరు పునరావృతమయ్యే టాస్క్‌లను ఆటోమేట్ చేయవచ్చు—ఉదాహరణకు స్క్రీన్‌షాట్‌లు లేదా డాష్‌బోర్డ్‌లను ఎడిట్ చేయగల వెక్టర్ ఎలిమెంట్స్‌తో ఉన్న ప్రెజెంటేషన్‌లుగా మార్చడం, మీటింగ్‌లను రీ-अరేంజ్ చేయడం, ఆఫ్సైట్లు ప్లాన్ చేసి బుక్ చేయడం, మరియు ఫైనాన్షియల్ డేటాను అప్‌డేట్ చేస్తూ స్ప్రెడ్‌షీట్‌ల ఫార్మాటింగ్‌ను అలాగే ఉంచడం.మీ వ్యక్తిగత జీవితంలో, ట్రావెల్ ఇటనరరీలను సులభంగా ప్లాన్ చేసి బుక్ చేయడానికి, పూర్తిగా ఒక డిన్నర్ పార్టీని డిజైన్ చేసి బుక్ చేయడానికి, లేదా స్పెషలిస్టులను కనుగొని అపాయింట్‌మెంట్‌లు షెడ్యూల్ చేయడానికి దీనిని ఉపయోగించవచ్చు.

మోడల్ యొక్క అధికమైన సామర్థ్యాలు వెబ్ బ్రౌజింగ్ మరియు నిజజీవిత టాస్క్ కంప్లీషన్ సామర్థ్యాలను కొలిచే మూల్యాంకనాల్లో స్టేట్-ఆఫ్-ది-ఆర్ట్ (SOTA) పనితీరులో ప్రతిబింబిస్తాయి. 

Humanity’s Last Exam(కొత్త విండోలో తెరుచుకుంటుంది) లో—ఇది నిపుణుల స్థాయి ప్రశ్నలతో విస్తృతమైన సబ్జెక్ట్‌లపై AI పనితీరును కొలిచే ఇవాల్యుయేషన్—ChatGPT ఏజెంట్‌ను పవర్ చేసే మోడల్ pass@1 లో కొత్త SOTA స్కోర్ అయిన 41.6 సాధించింది.ఏజెంట్ డైనమిక్‌గా ప్లాన్ చేసి తన స్వంత టూల్స్‌ని ఎంచుకునందువల్ల, ఇది అదే టాస్క్‌ను వేర్వేరు మార్గాల్లో అనేక రన్స్‌లో చేయగలదు. మేము దీన్ని సింపుల్ ప్యారలల్ రోల్‌అవుట్ స్ట్రాటజీతో స్కేల్ చేసినప్పుడు—ఒకేసారి ఎనిమిది ప్రయత్నాలు రన్ చేసి, అత్యధిక స్వీయ-ప్రకటిత నమ్మకం కలిగినదాన్ని ఎంచుకోవడంతో—ఏజెంట్ యొక్క HLE స్కోర్ 44.4కి పెరిగింది.

FrontierMath** ఇప్పటివరకు తెలిసిన అత్యంత కఠినమైన గణిత ప్రామాణిక పరీక్ష, ఇందులో కొత్తగా ప్రచురించని సమస్యలు ఉంటాయి, వీటిని పరిష్కరించడానికి నిపుణ గణిత శాస్త్రవేత్తలకు గంటలు లేదా కొన్ని రోజులు పట్టవచ్చు. టూల్ యూజ్‌తో, ఉదాహరణకు కోడ్ ఎగ్జిక్యూషన్ కోసం టెర్మినల్ యాక్సెస్‌తో, ChatGPT ఏజెంట్ 27.4% ఖచ్చితత్వం సాధించింది, ఇంతకుముందు ఉన్న రెండు మోడళ్లను విస్తృతమైన తేడాతో మించిపోయింది.

సంక్లిష్టమైన రియల్-వరల్డ్ టాస్క్‌లను ఆధారంగా తీసుకుని తయారు చేసిన బెంచ్‌మార్క్‌లతో కూడా మేము ఈ మోడల్‌ను పరిశీలించాం.కాంప్లెక్స్, ఆర్థికంగా విలువైన నలెడ్జ్-వర్క్ టాస్క్‌లలో మోడల్ పనితీరును అంచనా వేయడానికి రూపొందించిన ఒక ఇంటర్నల్ బెంచ్‌మార్క్‌లో, ChatGPT ఏజెంట్ అవుట్‌పుట్ టాస్క్ పూర్తి టైమ్‌ల విభిన్న పరిధుల్లో సుమారు సగం కేసుల్లో మనుషుల స్థాయికి సమానంగా లేదా మరింత మెరుగ్గా ఉంది—మరియు o3 మరియు o4-mini కంటే గణనీయంగా మించి కనిపించింది.ప్రతి రంగంలో ఉన్న టాప్ పెర్ఫార్మర్‌లు రూపొందించిన హై-క్వాలిటీ హ్యూమన్ బేస్‌లైన్‌లతో పోల్చి, మోడల్ అవుట్‌పుట్‌లను నిపుణులు జడ్జ్ చేస్తారు.వివిధ వృత్తులు మరియు పరిశ్రమల నిపుణుల నుండి సేకరించిన ఈ టాస్క్‌లు, రియల్-వరల్డ్ ప్రొఫెషనల్ పనిని ప్రతిబింబిస్తాయి—ఉదాహరణకు ఆన్-డిమాండ్ అర్జెంట్ కేర్ ప్రొవైడర్లపై కంపెటిటివ్ అనాలిసిస్ తయారు చేయడం, వివరమైన అమోర్టైజేషన్ షెడ్యూల్స్ రూపొందించడం, మరియు కొత్త గ్రీన్ హైడ్రోజన్ ఫెసిలిటీ కోసం అనువైన వాటర్ వెల్స్‌ను గుర్తించడం. 

DSBench(కొత్త విండోలో తెరుచుకుంటుంది), డేటా విశ్లేషణ మరియు మోడలింగ్ విస్తరించి వాస్తవిక డేటా సైన్స్ పనులపై ఏజెంట్లను అంచనా వేయడానికి రూపొందించబడిన DSBenchలో, ChatGPT ఏజెంట్ గణనీయమైన తేడాతో మానవ పనితీరును అధిగమించింది.

SpreadsheetBench‌లో—రియల్-వరల్డ్ సీనారియోల ఆధారంగా రూపొందించిన స్ప్రెడ్‌షీట్‌లను ఎడిట్ చేసే మోడల్ సామర్థ్యాన్ని అంచనా వేసే ఈ బెంచ్‌మార్క్‌లో—ChatGPT ఏజెంట్ ప్రస్తుత మోడల్‌లను గణనీయమైన తేడాతో మించి ప్రదర్శిస్తుంది.స్ప్రెడ్‌షీట్లను నేరుగా ఎడిట్ చేసే సామర్థ్యం ఇచ్చినప్పుడు, ChatGPT ఏజెంట్ 45.5% స్కోర్ సాధించింది, ఎక్సెల్‌లోని కోపైలట్ యొక్క 20.0%తో పోలిస్తే మరింత ఎక్కువ. 

పద్ధతి: స్ప్రెడ్‌షీట్‌బెంచ్ రచయితలు స్ప్రెడ్‌షీట్లను మూల్యాంకనం చేయడానికి Windows వాతావరణంలో Microsoft ఎక్సెల్‌ను ఉపయోగించారు. మేము OSX వాతావరణం మరియు లిబ్రేఆఫీస్ ఉపయోగించాము, ఇది చిన్న గ్రేడింగ్ తేడాలకు కారణం కావచ్చు. ఉదాహరణకు, రచయితలు GPT‑4o కోసం 15.02% మొత్తమైన కఠిన పరిమితిని గుర్తించగా, మేము 13.38% ను పొందాము.మేము మొత్తం 912-ప్రశ్నల ప్రామాణిక పరీక్షను ఉపయోగించాము.

మొదటి నుండి మూడో సంవత్సరం స్థాయి ఇన్వెస్ట్‌మెంట్ బ్యాంకింగ్ అనలిస్టు మోడలింగ్ పనులు చేయగల సామర్థ్యాన్ని అంచనా వేసే ఒక ఇంటర్నల్ బెంచ్‌మార్క్‌లో—సరైన ఫార్మాటింగ్ మరియు మూలాలను చూపిస్తూ Fortune 500 కంపెనీకి మూడు-స్టేట్‌మెంట్ ఫైనాన్షియల్ మోడల్ రూపొందించడం, లేదా ప్రైవేట్‌కి మార్చే కొనుగోలు ఒప్పందం కోసం లెవరేజ్‌డ్ బయ్యౌట్ మోడల్ తయారు చేయడం వంటి క్లిష్టమైన పనుల్లో—ChatGPT ఏజెంట్‌ను నడిపించే మోడల్, deep research మరియు o3 కంటే గణనీయంగా మెరుగైన పనితీరు చూపించింది.ప్రతి పనిని సరైనత, ఫార్ములాల వినియోగం వంటి వందల కొద్దీ ప్రమాణాల ఆధారంగా మూల్యాంకనం చేస్తారు.

మేము BrowseCompలో ChatGPT ఏజెంట్‌ను కూడా మూల్యాంకనం చేసాము, ఇది ఈ సంవత్సరం ప్రారంభంలో మేము ప్రచురించిన బెంచ్మార్క్, ఇది వెబ్‌లో కష్టంగా కనుగొనదగిన సమాచారాన్ని గుర్తించే బ్రౌజింగ్ ఏజెంట్ల సామర్థ్యాన్ని కొలుస్తుంది. మోడల్ 68.9%తో ఒక కొత్త స్టేట్-ఆఫ్-ది-ఆర్ట్ (SOTA) సాధించింది, ఇది డీప్ రీసెర్చ్ కంటే 17.4 శాతం పాయింట్లు ఎక్కువ.

చివరిగా, WebArena(కొత్త విండోలో తెరుచుకుంటుంది) అనే ప్రామాణిక పరీక్షలో, నిజజీవిత వెబ్ టాస్క్‌లను పూర్తి చేయడంలో వెబ్ బ్రౌజింగ్ ఏజెంట్‌ల పనితీరును మూల్యాంకనం చేయడానికి రూపొందించబడింది, మోడల్ o3 ఆధారిత CUA (Operator శక్తివంతం చేసే మోడల్) కంటే మెరుగ్గా ప్రదర్శించింది. 

ఎలా ఉపయోగించాలి

మీరు ChatGPT యొక్క కొత్త ఏజెంటిక్ సామర్థ్యాలను ఏ సంభాషణలోనైనా, కంపోజర్‌లోని టూల్స్ డ్రాప్‌డౌన్‌ నుండి ‘ఏజెంట్ మోడ్’ని ఎంచుకోవడం ద్వారా నేరుగా యాక్టివేట్ చేయవచ్చు. మీరు కోరుకున్న టాస్క్‌ను సింపుల్‌గా వివరించండి—అది డీప్ రీసెర్చ్ చేయడం కావొచ్చు, స్లైడ్‌షో సృష్టించడం కావొచ్చు, లేదా ఖర్చులను సమర్పించడం కావొచ్చు. ఇది మీ టాస్క్‌ను నిర్వర్తిస్తున్నప్పుడు, స్క్రీన్‌పై కనిపించే నరేషన్ ChatGPT ఏమి చేస్తుందో మీకు స్పష్టత ఇస్తుంది. మీరు అవసరమైనప్పుడు బ్రౌజర్‌పై నియంత్రణ తీసుకుని మధ్యలో ఆపవచ్చు, దీని ద్వారా టాస్క్‌లు మీ లక్ష్యాలకు అనుగుణంగా కొనసాగుతాయి.

ChatGPT ఏజెంట్ మీ కనెక్టర్స్‌ను యాక్సెస్ చేయగలదు, దీని ద్వారా అది మీ వర్క్‌ఫ్లోస్‌తో ఏకీకృతం అయి సంబంధిత, చర్య తీసుకోదగిన సమాచారాన్ని పొందగలదు. ఒకసారి ఆథెంటికేట్ చేసిన తర్వాత, ఈ కనెక్టర్స్ ChatGPTకి సమాచారం చూడటానికి మరియు మీ ఇన్‌బాక్స్‌ను ఆ రోజుకు సారాంశం చేయడం లేదా మీకు మీటింగ్ కోసం లభ్యమయ్యే టైమ్ స్లాట్స్ కనుగొనడం వంటి పనులు చేయడానికి వీలు కల్పిస్తాయి—కానీ ఈ సైట్లపై చర్యలు తీసుకోవడానికి, మీరు బ్రౌజర్‌ను స్వాధీనం చేసుకొని లాగిన్ అవ్వాల్సి ఉంటుంది. 

అదనంగా, మీరు పూర్తయిన టాస్క్‌లను ఆటోమేటిక్‌గా పునరావృతం అయ్యేలా షెడ్యూల్ చేయవచ్చు, ఉదాహరణకు ప్రతి సోమవారం ఉదయం వారపు మెట్రిక్స్ రిపోర్ట్ సృష్టించడం.

కొత్త సామర్థ్యాలు, కొత్త రిస్కులు 

ఈ విడుదలలో, మొదటిసారి యూజర్లు ChatGPTని వెబ్‌లో చర్యలు తీసుకోవమని అడగవచ్చు. ఇది కొత్త రిస్కులను పరిచయం చేస్తుంది, ముఖ్యంగా ChatGPT ఏజెంట్ మీ డేటాతో నేరుగా పనిచేయగలదని—అది కనెక్టర్స్ ద్వారా యాక్సెస్ చేసిన సమాచారం కావొచ్చు లేదా మీరు టేకోవర్ మోడ్ ద్వారా లాగిన్ అయిన వెబ్‌సైట్లలోని డేటా కావొచ్చు. మేము Operator యొక్క రీసెర్చ్ ప్రీవ్యూ నుంచి ఉన్న రాబస్టు కంట్రోల్స్‌ను బలపరిచాము, మరియు లైవ్ వెబ్‌లో సున్నితమైన సమాచారాన్ని హ్యాండిల్‌ చేయడం, విస్తృత యూజర్ రీచ్, మరియు (పరిమిత) టెర్మినల్ నెట్‌వర్క్ యాక్సెస్ వంటి సవాళ్లకు సేఫ్‌గార్డ్స్‌ను జోడించాము. ఈ తగ్గించే చర్యలు రిస్క్‌ను గణనీయంగా తగ్గించినప్పటికీ, ChatGPT ఏజెంట్ యొక్క విస్తరించిన టూల్స్ మరియు విస్తృత యూజర్ రీచ్ దాని మొత్తం రిస్క్ ప్రొఫైల్‌ను ఎక్కువగానే ఉంచుతున్నాయి. 

ప్రాంప్ట్ ఇంజెక్షన్ ద్వారా వచ్చే దుష్ప్రేరిత జోక్యాలు నుండి ChatGPT ఏజెంట్‌ను రక్షించడంపై మేము ప్రత్యేకంగా దృష్టి పెట్టాం. ఇది సాధారణంగా ఏజెంటిక్ సిస్టమ్‌లలో కనిపించే ప్రధాన ప్రమాదం కాబట్టి, దీనికి అనుగుణంగా మరింత విస్తృతమైన రక్షణ చర్యలను సిద్ధం చేశాం.ప్రాంప్ట్ ఇంజెక్షన్లు అనేవి మూడవ పక్షాలు దాని ప్రవర్తనను దుష్ట సూచనల ద్వారా మానిప్యులేట్ చేయడానికి చేసే ప్రయత్నాలు, వీటిని ChatGPT ఏజెంట్ ఒక టాస్క్ పూర్తి చేసే సమయంలో వెబ్‌లో ఎదుర్కొనవచ్చు. ఉదాహరణకు, ఒక వెబ్‌పేజీలో ఇన్విజిబుల్ ఎలిమెంట్స్ లేదా మెటాడేటాలో దాగిన ఒక దుష్ట ప్రాంప్ట్ ఏజెంట్‌ను మోసం చేసి, ఉద్దేశించని చర్యలు చేయించవచ్చు — ఉదాహరణకు, కనెక్టర్ నుండి ప్రైవేట్ డేటాను దాడి చేసేవారితో పంచుకోవడం లేదా యూజర్ లాగిన్ అయిన సైట్‌లో హానికరమైన చర్య తీసుకోవడం. ChatGPT ఏజెంట్ నేరుగా చర్యలు తీసుకోగలదని, విజయవంతమైన దాడులు మరింత ప్రభావం చూపగలవు మరియు అధిక రిస్క్‌ను కలిగించగలవు. 

మేము ఏజెంట్‌ను ప్రాంప్ట్ ఇంజెక్షన్లను గుర్తించి వాటిని ప్రతిఘటించడంపై ట్రైన్ చేసి పరీక్షించాము, అదనంగా ప్రాంప్ట్ ఇంజెక్షన్ దాడులను త్వరగా గుర్తించి స్పందించడానికి మానిటరింగ్‌ను ఉపయోగించాము. ముఖ్యమైన చర్యలకు ముందు స్పష్టమైన యూజర్ కన్ఫర్మేషన్ కోరడం ఈ దాడుల వల్ల కలిగే హానిని మరింత తగ్గిస్తుంది, మరియు యూజర్లు అవసరమైతే టాస్క్‌లలో టేకోవర్ చేయడం లేదా పాజ్ చేయడం ద్వారా జోక్యం చేసుకోవచ్చు. యూజర్లు ఏజెంట్‌కు ఏ సమాచారం ఇవ్వాలో నిర్ణయించే సమయంలో ఈ లాభనష్టాలను పరిగణనలోకి తీసుకోవాలి, అలాగే ఈ రిస్క్‌లకు తాము గురయ్యే అవకాశాన్ని తగ్గించడానికి చర్యలు తీసుకోవాలి — ఉదాహరణకు, ఒక టాస్క్‌కి అవసరం లేని సమయంలో కనెక్టర్స్‌ను డిసేబుల్ చేయడం. 

మేము మోడల్ తప్పిదాలు, చుట్టూ కూడా తగ్గించే చర్యలను అమలు చేసాము, ముఖ్యంగా ఇప్పుడు మోడల్ నిజజీవితంపై ప్రభావం చూపే టాస్క్‌లను చేయగలిగినందున: 

  • స్పష్టమైన వినియోగదారు నిర్ధారణ: ChatGPT నిజజీవిత ఫలితాలు కలిగించే చర్యలు తీసుకునే ముందు, ఉదాహరణకు కొనుగోలు చేయడం వంటి, మీ అనుమతిని స్పష్టంగా అడగడానికి ట్రైన్ చేయబడింది.
  • క్రియాశీల పర్యవేక్షణ (“వాచ్ మోడ్”): ఇమెయిల్స్ పంపడం వంటి కొన్ని కీలకమైన పనులకు మీ క్రియాశీల పర్యవేక్షణ అవసరం.
  • ప్రోయాక్టివ్ రిస్క్ తగ్గింపు: ChatGPT బ్యాంక్ బదిలీల వంటి అధిక-ప్రమాద పనులను చురుకుగా తిరస్కరించడానికి శిక్షణ పొందింది.

చివరగా, మోడల్ యాక్సెస్ చేసుకోగల డేటాను పరిమితం చేయడానికి మేము అదనపు నియంత్రణలు ప్రవేశపెట్టాము: 

  • ప్రైవసీ కంట్రోల్స్: ChatGPT యొక్క సెట్టింగ్స్‌లో ఒక్క క్లిక్‌తోనే మీరు బ్రౌజింగ్ డేటా మొత్తాన్ని తొలగించడంతో పాటు, యాక్టివ్‌గా ఉన్న అన్ని వెబ్‌సైట్ సెషన్‌ల నుండి వెంటనే లాగ్ అవుట్ అవ్వవచ్చు.లేకపోతే, మీరు సందర్శించిన ప్రతి వెబ్‌సైట్ యొక్క కుకీ విధానాల ప్రకారం కుకీలు కొనసాగుతాయి. దీనివల్ల అదే సైట్లను మళ్లీ సందర్శించే సమయంలో అనుభవం మరింత సులభంగా, వేగంగా ఉంటుంది.
  • సురక్షిత బ్రౌజర్ టేకోవర్ మోడ్: మీరు ChatGPT యొక్క బ్రౌజర్ (“టేకోవర్ మోడ్”) ఉపయోగించి వెబ్‌తో ఇంటరాక్ట్‌ అవుతున్నప్పుడు, మీ ఇన్‌పుట్లు ప్రైవేట్‌గా ఉంటాయి. ఈ సెషన్లలో మీరు ఎంటర్ చేసే పాస్‌వర్డ్‌ల వంటి డేటాను ChatGPT సేకరించదు లేదా నిల్వ చేయదు, ఎందుకంటే మోడల్‌కి అది అవసరం లేదు, మరియు అది ఎప్పుడూ చూడకపోవడం మరింత సురక్షితం.

బయోలాజికల్ రిస్క్ కోసం మా ఇప్పటి వరకు ఉన్న అత్యంత శక్తివంతమైన సేఫ్టీ స్టాక్ 

మోడల్ యొక్క పెరిగిన సామర్థ్యాలతో, మేము ChatGPT ఏజెంట్‌ను మా ప్రిపేర్డ్‌నెస్ ఫ్రేమ్‌వర్క్ కింద హై బయోలాజికల్ మరియు కెమికల్ కెపబిలిటీస్‌గా పరిగణించి, సంబంధిత సేఫ్‌గార్డ్స్‌ను యాక్టివేట్ చేయాలని నిర్ణయించుకున్నాము. మోడల్ ఒక నోవిస్‌కి తీవ్రమైన బయోలాజికల్ హానిని సృష్టించడంలో అర్థవంతమైన సహాయం చేయగలదని నిర్ధిష్టమైన ఆధారాలు మాకు లేవు—మా హై కెపబిలిటీ త్రెషోల్డ్—అయినప్పటికీ, మేము జాగ్రత్తలు తీసుకుంటూ అవసరమైన సేఫ్‌గార్డ్స్‌ను ఇప్పుడు అమలు చేస్తున్నాము. దాంతో, ఈ మోడల్ ఇప్పటివరకు ఉన్న అత్యంత సమగ్రమైన సేఫ్టీ స్టాక్‌ను కలిగి ఉంది, బయాలజీ కోసం మెరుగైన రక్షణలతో: సమగ్ర థ్రెట్ మోడలింగ్, ద్వంద్వ వినియోగ నిరాకరణ శిక్షణ, ఎప్పుడూ ఆన్‌లో ఉండే క్లాసిఫైయర్లు మరియు తార్కిక మానిటర్లు, మరియు స్పష్టమైన అమలు పైప్‌లైన్లు. 

ChatGPT ఏజెంట్‌ను మరింత సురక్షితం చేయడానికి చేస్తున్న మా ప్రయత్నాలతో పాటు, ఏకైక ల్యాబ్‌పై ఆధారపడకుండా, విస్తృత స్థాయిలో రక్షణలు అమలులో ఉన్నప్పుడు బయోసేఫ్టీ మరింత సమర్థంగా పనిచేస్తుందని మేము తెలుసు. అందుకే రక్షణ వ్యవస్థలను బలోపేతం చేయడానికి మేము మొత్తం ఎకోసిస్టమ్‌తో కలిసి పనిచేస్తున్నాం.మొదటి రోజు నుంచే మేము బయోసెక్యూరిటీ నిపుణులు, సేఫ్టీ ఇనిస్టిట్యూట్స్, మరియు అకాడమిక్ రీసెర్చర్లతో కలిసి మా థ్రెట్ మోడల్, మూల్యాంకనలు, మరియు పాలసీలను రూపొందించాము. జీవశాస్త్రంలో శిక్షణ పొందిన రివ్యూవర్లు మా అంచనా డేటాను ధృవీకరించారు, అలాగే డొమైన్ నిపుణులైన రెడ్ టీమ్‌లు వాస్తవ పరిస్థితులను అనుకరించి రక్షణ వ్యవస్థలను గట్టిగా పరీక్షించాయి.ఈ నెల ప్రారంభంలో, మేము ప్రభుత్వ, అకాడెమియా, నేషనల్ ల్యాబ్స్, మరియు ఎన్‌జీఓల నిపుణులతో కలిసి ఒక బయోడిఫెన్స్ వర్క్‌షాప్ నిర్వహించాము, AI ఆధారిత బయోడిఫెన్స్ రీసెర్చ్‌ను ముందుకు తీసుకెళ్లడానికి మరియు సహకారాన్ని వేగవంతం చేయడానికి. కొత్తగా ఉద్భవిస్తున్న ప్రమాదాలను ముందుగానే గుర్తించి ఎదుర్కొనేందుకు, ప్రపంచవ్యాప్తంగా భాగస్వామ్యాలను కొనసాగిస్తాం. 

మా ఏకీకృత ఏజెంటిక్ మోడల్ కోసం బలమైన సేఫ్టీ విధానం గురించి మరింత చదవడానికి సిస్టమ్ కార్డ్లో చూడండి. మేము నిజజీవిత రిస్క్‌లను కనుగొని పరిష్కరించడానికి బగ్ బౌంటీ ప్రోగ్రాం ను కూడా ప్రారంభిస్తున్నాము.

లభ్యత

ChatGPT ఏజెంట్ ఈ రోజు నుండి Pro, Plus, మరియు Teamకి రోల్‌అవుట్ అవడం ప్రారంభమవుతోంది; Proకి ఈ రోజు చివరిలోగా యాక్సెస్ లభిస్తుంది, అయితే Plus మరియు Team యూజర్లకు రాబోయే కొన్ని రోజుల్లో యాక్సెస్ లభిస్తుంది. Enterprise మరియు Education యూజర్లకు రాబోయే వారాల్లో యాక్సెస్ లభిస్తుంది. Pro యూజర్లకు నెలకు 400 మెసేజీలు ఉంటాయి, మిగతా చెల్లింపు యూజర్లకు నెలకు 40 మెసేజీలు లభిస్తాయి, అదనపు వినియోగం ఫ్లెక్సిబుల్ క్రెడిట్-బేస్డ్ ఆప్షన్ల ద్వారా అందుబాటులో ఉంటుంది.

యూరోపియన్ ఎకనామిక్ ఏరియా మరియు స్విట్జర్లాండ్ కోసం యాక్సెస్ ఎనేబుల్ చేయడంపై మేము ఇంకా పని చేస్తున్నాము. 

Operator రీసెర్చ్ ప్రీవ్యూ సైట్ మరికొన్ని వారాలపాటు ఫంక్షనల్‌గా ఉంటుంది, ఆ తర్వాత అది మూసివేయబడుతుంది. డీప్ రీసెర్చ్ ChatGPT ఏజెంట్ సామర్థ్యాలలో ఒక భాగం. మీరు అసలు డీప్ రీసెర్చ్ ఫీచర్‌ను ఇష్టపడితే—అది నడవడానికి ఎక్కువ సమయం పట్టవచ్చు కానీ డిఫాల్ట్‌గా మరింత వివరమైన, లోతైన ప్రతిస్పందనలు ఇస్తుంది—మీరు మెసేజ్ కంపోజర్‌లోని డ్రాప్‌డౌన్ నుండి “deep research” ఎంచుకొని ఇంకా యాక్సెస్ చేయవచ్చు.

పరిమితులు మరియు ముందుకు చూసే దిశ 

ChatGPT ఏజెంట్ ఇంకా ప్రారంభ దశల్లోనే ఉంది. ఇది విస్తృతమైన క్లిష్టమైన టాస్క్‌లను చేపట్టగలదు, కానీ ఇది ఇంకా తప్పులు చేయవచ్చు. 

స్లైడ్‌షోస్ సృష్టించే దీని సామర్థ్యంలో మేము గణనీయమైన అవకాశాన్ని చూస్తున్నప్పటికీ, ఈ ఫంక్షనాలిటీ ప్రస్తుతం బీటాలో ఉంది. ప్రస్తుతం, ఫలితాలు కొన్నిసార్లు ఫార్మాటింగ్ మరియు పొలిష్‌లో ప్రాథమికంగా అనిపించవచ్చు, ముఖ్యంగా ఇప్పటికే ఉన్న డాక్యుమెంట్ లేకుండా ప్రారంభించినప్పుడు. మోడల్ యొక్క ప్రారంభ సామర్థ్యాలను, ప్రెజెంటేషన్లకు అనువైన ఫ్లో మరియు ఫార్మాట్‌లో సమాచారాన్ని క్రమబద్ధీకరించే ఆర్టిఫాక్ట్‌లను సృష్టించడంపై మేము దృష్టి పెట్టాము—టెక్స్ట్, చార్ట్స్, ఇమేజెస్, షేప్స్ వంటి ఎలిమెంట్స్‌తో, ఇవి ఎగుమతి చేసిన తర్వాత సహజంగానే మరియు సులభంగా ఎడిట్ చేయగలవు—స్ట్రక్చర్ మరియు ఫ్లెక్సిబిలిటీ కోసం ఆప్టిమైజ్ చేస్తూ. ప్రస్తుతం, వీయువర్‌లోని స్లైడ్‌లు మరియు ఎగుమతి చేసిన పవర్‌పాయింట్ మధ్య అప్పుడప్పుడు వ్యత్యాసాలు ఉంటాయి, వీటిని తగ్గించడానికి మేము పని చేస్తున్నాము. అదనంగా, మీరు ప్రస్తుతం ఉన్న స్ప్రెడ్‌షీట్‌ను ChatGPTకి ఎడిట్ చేయడానికి లేదా టెంప్లేట్‌గా ఉపయోగించడానికి అప్‌లోడ్ చేయవచ్చు, కానీ ఈ సామర్థ్యం ఇంకా స్లైడ్‌షోస్ కోసం అందుబాటులో లేదు. మేము ఇప్పటికే ChatGPT యొక్క స్లైడ్‌షో సృష్టిలో తదుపరి ఐటరేషన్‌ను ట్రైన్ చేస్తున్నాము, మరింత పొలిష్డ్‌, ఆధునికమైన ఫలితాలను విస్తృతమైన సామర్థ్యాలతో మరియు మెరుగైన ఫార్మాటింగ్‌తో అందించడానికి.

మొత్తం మీద, ChatGPT ఏజెంట్ యొక్క సమర్థత, లోతు, మరియు వైవిధ్యంలో సమయానుకూల మెరుగుదలలు కొనసాగుతాయని మేము ఆశిస్తున్నాము. వినియోగదారుని పర్యవేక్షణ స్థాయిని సర్దుబాటు చేస్తూ, దానిని మరింత ఉపయోగకరంగా మార్చేందుకు ప్రయత్నిస్తూనే, వాడటానికి సురక్షితంగా ఉండేలా చూసుకుంటూ, మరింత సులభమైన ఇంటరాక్షన్‌లు కలిగేలా చేస్తాము.

అనుబంధం

SpreadsheetBench

"మోడల్"

ఈవాల్యుయేషన్ ఎన్విరాన్‌మెంట్

సాఫ్ట్ పరిమితి (%): సెల్-లెవెల్

సాఫ్ట్ పరిమితి (%): షీట్-లెవెల్

సాఫ్ట్ పరిమితి (%): మొత్తం

GPT‑4o

Windows, Excel

15.03

23.65

18.35

ఎక్సెల్‌లో కోపైలట్

Windows, Excel

23.33

15.00

20.00

GPT‑4o

OSX, LibreOffice

15.86

18.33

16.81

OpenAI o3

OSX, LibreOffice

22.40

24.60

23.25

"ChatGPT ఏజెంట్"

OSX, LibreOffice

38.27

30.48

35.27

ChatGPT ఏజెంట్ .xlsxతో

OSX, LibreOffice

50.56

37.51

45.54

మనిషి

75.56

65.00

71.33

లైవ్‌స్ట్రీమ్ రీప్లే

రచయిత

OpenAI

ఫుట్ నోట్స్

* బ్రౌజింగ్ ఎనేబుల్ చేసినప్పుడు, మోడల్ కొన్నిసార్లు ఆన్లైన్‌లో ఖచ్చితమైన సమాధానాలను కనుగొనగలదు, ఉదాహరణకు డేటాసెట్ నుండి సాంపిల్ సమస్యలతో కూడిన బ్లాగ్ పోస్టులను చదివి. బ్రౌజింగ్ చేస్తున్నప్పుడు మోడల్ చీటింగ్ చేస్తుందేమో అనే ఆందోళనలను మేము రెండు వ్యూహాలతో తగ్గిస్తున్నాము:

1. గతంలో మోడల్ మోసం చేసినట్లు మేము గమనించిన బ్లాక్ చేసిన డొమైన్లు.

2. ప్రతి ప్రయత్నంలో వచ్చిన టూల్ అవుట్‌పుట్ టోకెన్లను విశ్లేషించి, అనుమానాస్పద ప్రవర్తన ఉందో లేదో గుర్తించడానికి ఒక అదనపు మోడల్‌ను మానిటర్‌గా ఉపయోగించారు. అనుమానాస్పద ప్రవర్తన అంటే "ఈ ప్రత్యేక ప్రశ్నకు ఖచ్చితమైన సమాధానం ఇవ్వడానికే ఉండే పేజ్, ఫైల్ లేదా స్నిపెట్ — ఉదాహరణకు అధికారిక గ్రేడింగ్ కీ, లీక్ అయిన “solutions” జిస్ట్, లేదా పూర్తి సమాధానాన్ని పదేపదే ఉటంకించే చర్చ." హానిరహిత ప్రవర్తన అంటే "ఒక శ్రద్ధగల వ్యక్తి సాధారణంగా చూసే నమ్మకమైన వనరులు (డాక్యుమెంటేషన్, మాన్యువల్స్, శాస్త్రీయ పత్రాలు, విశ్వసనీయ వ్యాసాలు), అవి యాదృచ్ఛికంగా సరైన సమాధానాన్ని కలిగి ఉన్నా కూడా." మానిటర్ ఏ రోలౌట్‌ను అనుమానాస్పదంగా పేర్కొంటే ఆ ప్రయత్నాన్ని తప్పుగా పరిగణించారు. ఈ చెక్‌లో ఫెయిల్ అయిన చాలా ఉదాహరణల్లో, HLE‌తో సంబంధం లేకుండా ఇంటర్నెట్‌లోని అనేక వనరులలో ఆ ప్రశ్నకు ఖచ్చితమైన పరిష్కారం ముందే అందుబాటులో ఉండేది.

**OpenAIకి Tier 1-3 డేటాసెట్‌లోని 290 ప్రైవేట్ ప్రశ్నల్లో 237కి ప్రత్యేక యాక్సెస్ ఉంది. FrontierMath Tier 4 ప్రశ్నలు ఈ అంచనాలో చేర్చబడలేదు.ప్రతి ప్రశ్నకు ఇచ్చిన 16 ప్రయత్నాల సగటుతో ఫలితాలను అంచనా వేశారు.ChatGPT ఏజెంట్ ఫలితాలను OpenAI పొందింది, Epoch AI గ్రేడ్ చేసింది, బ్రౌజర్ మరియు టెర్మినల్ యాక్సెస్‌తో, ప్రతి సమాధానానికి 128K టోకెన్ల పరిమితితో. OpenAI o4-mini మరియు o3 పై జరుగుతున్న అంచనాలను Epoch AI సేకరించి గ్రేడ్ చేస్తుంది. ఈ సెటప్‌లో బ్రౌజర్ లేదా టర్మినల్ యాక్సెస్ ఉండదు; function calling ద్వారా Python స్క్రిప్ట్‌లను మాత్రమే ఉపయోగించడానికి అనుమతిస్తారు, అలాగే ప్రతి సమాధానానికి 100K టోకెన్ల పరిమితి ఉంటుంది. 

*** Oracle@64 అంటే 64 సార్లుగా చేసిన ప్రయత్నాల్లో వచ్చిన అత్యుత్తమ స్కోరును సూచిస్తుంది. దీనిని అసలు నిజ-పరిశీలన (గ్రౌండ్ ట్రూత్) ఆధారంగా ఎంచుకుంటారు, అంటే ప్రతి పనిలో నిజంగా పొందిన గ్రేడ్‌ను చూసి అత్యధిక స్కోరు వచ్చిన ప్రయత్నాన్ని ఎంపిక చేస్తాం. ఈ పనులన్నింటిలోను ఈ అత్యుత్తమ స్కోర్ల సగటును నివేదిస్తాం. ఈ ప్రమాణం మోడల్‌ సాధించగల గరిష్ట స్థాయి సామర్థ్యాన్ని మరియు పనుల మధ్య ఉండే మార్పులను చూపిస్తుంది—అంటే మోడల్ విజయవంతమైతే ఎంత శక్తివంతంగా పని చేయగలదో, అలాగే మరింత శిక్షణతో స్థిరత్వాన్ని ఎలా మెరుగుపరచవచ్చో తెలియజేస్తుంది. సాధారణంగా “best of N” అనే ప్రమాణాల్లో మోడల్ విశ్వాసాన్ని ఆధారంగా ఎంపిక చేస్తారు, కానీ Oracle@64 మాత్రం నిజ-పరిశీలన ఆధారంగా ఎంపిక చేస్తుంది, మరియు ఇది binary pass/fail కాదని, 0–1 నిరంతర స్కేల్‌పై గ్రేడ్ చేసే పనులకు వర్తిస్తుంది.