ChatGPT ఏజెంట్ను పరిచయం చేస్తోంది: రీసెర్చ్ మరియు యాక్షన్ మధ్య వంతెనగా
ChatGPT ఇప్పుడు ఆలోచించి, కార్యాచరణ చేసి, తన కంప్యూటర్ని ఉపయోగించి టాస్క్లు పూర్తి చేయడానికి ఏజెంటిక్ స్కిల్స్ టూల్బాక్స్ నుంచి అవసరమైన వాటిని ప్రోఆక్టివ్గా ఎంచుకుంటుంది.
ఇప్పుడు ChatGPT తన స్వంత కంప్యూటర్ను ఉపయోగించి మీకోసం పనిచేస్తూ, క్లిష్టమైన పనులను మొదటి నుండి చివరి దాకా నిర్వహించగలదు.
ఇప్పుడు మీరు ChatGPTను ఇలా ఉన్న రిక్వెస్ట్లు హ్యాండిల్ చేయమని అడగవచ్చు: “నా క్యాలెండర్ చూసి, తాజా వార్తల ఆధారంగా రాబోయే క్లయింట్ మీటింగ్లపై ఒక చిన్న బ్రీఫ్ ఇవ్వు,” “నాలుగు మందికి జపనీస్ బ్రేక్ఫాస్ట్ తయారు చేయడానికి ప్లాన్ చేసి, కావాల్సిన ఇన్గ్రెడియెంట్స్ కొనుగోలు చేయు,” మరియు “మూడు కంపెటిటర్స్ను విశ్లేషించి ఒక స్లైడ్ డెక్ తయారు చేయు.”ChatGPT అవసరమైనప్పుడు వెబ్సైట్లు తెలివిగా నావిగేట్ చేసి, రిజల్ట్లను ఫిల్టర్ చేసి, సెక్యూర్గా లాగిన్ కావాలని ప్రాంప్ట్ చేసి, కోడ్ రన్ చేసి, అనాలిసిస్ చేసి, చివరకు తన ఫైండింగ్స్ను సమ్మరైజ్ చేసే ఎడిట్ చేయగల స్లైడ్షోలు మరియు స్ప్రెడ్షీట్లను కూడా అందిస్తుంది.
ఈ కొత్త సామర్థ్యం యొక్క మూలంలో ఒక ఏకీకృత ఏజెంటిక్ సిస్టమ్ ఉంది. ఇది మునుపటి పురోగతుల యొక్క మూడు బలాలను కలిసి తెస్తుంది: Operator యొక్క వెబ్సైట్లతో పరస్పర చర్య సామర్థ్యం, లోతైన పరిశోధన యొక్క సమాచారాన్ని సంశ్లేషణ నైపుణ్యం, మరియు ChatGPT యొక్క మేధస్సు మరియు సంభాషణ నైపుణ్యం.
ChatGPT తన స్వంత వర్చువల్ కంప్యూటర్ను ఉపయోగించి ఈ పనులను చేస్తుంది, మీ సూచనల ఆధారంగా రీజనింగ్ మరియు యాక్షన్ మధ్య సులభంగా మారుతూ క్లిష్టమైన వర్క్ఫ్లోలను మొదటి నుండి చివరి వరకు నిర్వహిస్తుంది.
ముఖ్యంగా, ఎల్లప్పుడూ నియంత్రణ మీ చేతిలోనే ఉంటుంది. ChatGPT ముఖ్యమైన చర్యలు తీసుకునే ముందు మీ అనుమతి కోరుతుంది, మరియు మీరు ఎప్పుడైనా సులభంగా మధ్యలో ఆపవచ్చు, బ్రౌజర్ను స్వాధీనం చేసుకోవచ్చు లేదా పనులను నిలిపివేయవచ్చు.
ఈ రోజు నుండి, Pro, Plus, మరియు Team యూజర్లు, ఏ సంభాషణలోనైనా ‘ఏజెంట్ మోడ్’ని ఎంచుకోవడం ద్వారా, కంపోజర్లోని టూల్స్ డ్రాప్డౌన్ నుండి ChatGPT యొక్క కొత్త ఏజెంటిక్ సామర్థ్యాలను నేరుగా యాక్టివేట్ చేయవచ్చు.
క్లిష్టమైన పనులను నిర్వహించడంలో ChatGPT ఏజెంట్ ఇప్పటికే శక్తివంతమైన టూల్ అయినప్పటికీ, ఈరోజు ప్రారంభం కేవలం మొదటిపాదమే. మేము నిరంతరం ముఖ్యమైన మెరుగుదలలను జోడిస్తూనే ఉంటాము, తద్వారా కాలక్రమేణా ఇది మరింత శక్తివంతంగా, మరింత మంది కోసం ఉపయోగకరంగా మారుతుంది.
ఇంతకుముందు, Operator మరియు deep research ప్రతిదీ తనదైన ప్రత్యేక బలాన్ని అందించాయి: Operator వెబ్లో స్క్రోల్ చేయడం, క్లిక్ చేయడం, మరియు టైప్ చేయడం చేయగలదు, అయితే deep research సమాచారాన్ని విశ్లేషించడం మరియు సంగ్రహించడం లో రాణించింది. Operator లోతైన విశ్లేషణ చేయలేకపోయింది లేదా డీటైల్డ్ రిపోర్ట్స్ రాయలేకపోయింది, అలాగే deep research వెబ్సైట్లతో ఇంటరాక్ట్ చేసి ఫలితాలను రిఫైన్ చేయలేకపోయింది లేదా యూజర్ ఆథెంటికేషన్ అవసరమయ్యే కంటెంట్ను యాక్సెస్ చేయలేకపోయింది. నిజానికి, యూజర్లు Operator ప్రయత్నించిన అనేక ప్రశ్నలు వాస్తవానికి deep research కి బాగా సరిపోయేవని మేము గమనించాము, అందుకే రెండింటి ఉత్తమమైన వాటిని కలిపాము.
ఈ పరస్పరం పూర్తి చేసుకునే బలాలను ChatGPTలో ఏకీకృతం చేసి, అదనపు టూల్స్ని పరిచయం చేయడం ద్వారా, మేము ఒకే మోడల్లో పూర్తిగా కొత్త సామర్థ్యాలను అన్లాక్ చేసాము. ఇది ఇప్పుడు వెబ్సైట్లతో యాక్టివ్గా ఇంగేజ్ అవుతుంది—క్లిక్ చేయడం, ఫిల్టర్ చేయడం, ఇంకా మరింత ఖచ్చితమైన, సమర్థవంతమైన ఫలితాలను సేకరించడం. మీరు ఒక సింపుల్ సంభాషణ నుండి నేరుగా అదే చాట్లో చర్యలు కోరే దిశగా సహజంగానే మారవచ్చు.
మేము ChatGPT ఏజెంట్కు టూల్ల సూట్ను అందించాం: గ్రాఫికల్-యూజర్ ఇంటర్ఫేస్ ద్వారా వెబ్తో ఇంటరాక్ట్ అయ్యే విజువల్ బ్రౌజర్, సులభమైన రీజనింగ్-బేస్డ్ వెబ్ క్వెరీల కోసం టెక్స్ట్-బేస్డ్ బ్రౌజర్, ఒక టర్మినల్, మరియు డైరెక్ట్ API యాక్సెస్. ఏజెంట్ ChatGPT కనెక్టర్స్(కొత్త విండోలో తెరుచుకుంటుంది)ను కూడా ఉపయోగించగలదు, ఇవి Gmail మరియు Github వంటి యాప్లను కనెక్ట్ చేయడానికి అనుమతిస్తాయి, తద్వారా ChatGPT మీ ప్రాంప్ట్లకు సంబంధించిన సమాచారాన్ని కనుగొని దాన్ని తన ప్రతిస్పందనల్లో ఉపయోగించగలదు. మీరు బ్రౌజర్ను స్వాధీనం చేసుకొని ఏ వెబ్సైట్లోనైనా లాగిన్ అవ్వవచ్చు, దీని ద్వారా అది తన రీసెర్చ్ మరియు టాస్క్ ఎగ్జిక్యూషన్లో మరింత లోతుగా, విస్తృతంగా వెళ్లగలదు. ChatGPTకి వెబ్ సమాచారాన్ని యాక్సెస్ చేయడానికి మరియు ఇంటరాక్ట్ చేయడానికి ఈ వేర్వేరు మార్గాలను ఇవ్వడం అంటే, ఇది పనులను అత్యంత సమర్థవంతంగా చేయడానికి సరైన మార్గాన్ని ఎంచుకోగలదన్నమాట. ఉదాహరణకు, ఇది API ద్వారా మీ క్యాలెండర్ గురించి సమాచారం సేకరించగలదు, టెక్స్ట్-బేస్డ్ బ్రౌజర్ను ఉపయోగించి పెద్ద మొత్తంలో టెక్స్ట్పై సమర్థవంతంగా తర్కం చేయగలదు, అలాగే ముఖ్యంగా మనుషుల కోసం రూపొందించిన వెబ్సైట్లతో విజువల్గా ఇంటరాక్ట్ చేసే సామర్థ్యం కూడా కలిగి ఉంటుంది.
ఈ సమస్తం దీని స్వంత వర్చువల్ కంప్యూటర్ను ఉపయోగించి జరుగుతుంది, ఇది పనికి అవసరమైన సందర్భాన్ని కాపాడుతుంది, అనేక టూల్స్ ఉపయోగించినా కూడా—మోడల్ ఒక పేజీని టెక్స్ట్ బ్రౌజర్ లేదా విజువల్ బ్రౌజర్లో ఓపెన్ చేయాలని ఎంచుకోగలదు, వెబ్ నుండి ఒక ఫైల్ను డౌన్లోడ్ చేసుకోగలదు, దానిని టెర్మినల్లో ఒక కమాండ్ రన్ చేసి మానిపులేట్ చేయగలదు, తరువాత అవుట్పుట్ను తిరిగి విజువల్ బ్రౌజర్లో చూడగలదు. మోడల్ తన విధానాన్ని మార్చుకొని, వేగం, ఖచ్చితత్వం, మరియు సమర్థవంతతతో పనులను నిర్వహిస్తుంది.
ChatGPT ఏజెంట్ను ఐటరేటివ్, సహకార వర్క్ఫ్లోల కోసం రూపొందించారు, ఇది పూర్వపు మోడళ్ల కంటే చాలా ఎక్కువ ఇంటరాక్టివ్ మరియు ఫ్లెక్సిబుల్గా ఉంటుంది. ChatGPT పని చేస్తూ ఉండగా, మీరు ఎప్పుడైనా మధ్యలో ఆపి మీ సూచనలను స్పష్టంగా చెప్పవచ్చు, కావలసిన ఫలితాల వైపు దారితీయవచ్చు, లేదా పనిని పూర్తిగా మార్చవచ్చు. ఇది కొత్త సమాచారంతో, ముందున్న చోటునుంచి తిరిగి కొనసాగుతుంది, కానీ మునుపటి ప్రోగ్రెస్ను కోల్పోకుండా. అలాగే, ChatGPT కూడా మీ లక్ష్యాలకు పని సరిపోయేలా ఉండటానికి అవసరమైతే ప్రాక్టివ్గా మీ నుండి అదనపు వివరాలు అడగవచ్చు. ఒక టాస్క్ ఊహించిన దానికంటే ఎక్కువ సమయం తీసుకుంటే లేదా స్టక్ అయినట్లు అనిపిస్తే, మీరు దాన్ని పాజ్ చేయవచ్చు, ప్రోగ్రెస్ సారాంశం అడగవచ్చు, లేదా దాన్ని పూర్తిగా ఆపి భాగస్వామ్య ఫలితాలను పొందవచ్చు. మీ ఫోన్లో ChatGPT యాప్ ఉంటే, అది మీ టాస్క్ పూర్తయినప్పుడు మీకు ఒక నోటిఫికేషన్ పంపుతుంది.
ఈ యునిఫైడ్ ఏజెంటిక్ కెపాబిలిటీస్, రోజువారీ ఉపయోగాల్లోనూ, ప్రొఫెషనల్ సందర్భాల్లోనూ ChatGPT ఉపయోగాన్ని గణనీయంగా పెంచుతాయి.వర్క్లో, మీరు పునరావృతమయ్యే టాస్క్లను ఆటోమేట్ చేయవచ్చు—ఉదాహరణకు స్క్రీన్షాట్లు లేదా డాష్బోర్డ్లను ఎడిట్ చేయగల వెక్టర్ ఎలిమెంట్స్తో ఉన్న ప్రెజెంటేషన్లుగా మార్చడం, మీటింగ్లను రీ-अరేంజ్ చేయడం, ఆఫ్సైట్లు ప్లాన్ చేసి బుక్ చేయడం, మరియు ఫైనాన్షియల్ డేటాను అప్డేట్ చేస్తూ స్ప్రెడ్షీట్ల ఫార్మాటింగ్ను అలాగే ఉంచడం.మీ వ్యక్తిగత జీవితంలో, ట్రావెల్ ఇటనరరీలను సులభంగా ప్లాన్ చేసి బుక్ చేయడానికి, పూర్తిగా ఒక డిన్నర్ పార్టీని డిజైన్ చేసి బుక్ చేయడానికి, లేదా స్పెషలిస్టులను కనుగొని అపాయింట్మెంట్లు షెడ్యూల్ చేయడానికి దీనిని ఉపయోగించవచ్చు.
మోడల్ యొక్క అధికమైన సామర్థ్యాలు వెబ్ బ్రౌజింగ్ మరియు నిజజీవిత టాస్క్ కంప్లీషన్ సామర్థ్యాలను కొలిచే మూల్యాంకనాల్లో స్టేట్-ఆఫ్-ది-ఆర్ట్ (SOTA) పనితీరులో ప్రతిబింబిస్తాయి.
Humanity’s Last Exam(కొత్త విండోలో తెరుచుకుంటుంది) లో—ఇది నిపుణుల స్థాయి ప్రశ్నలతో విస్తృతమైన సబ్జెక్ట్లపై AI పనితీరును కొలిచే ఇవాల్యుయేషన్—ChatGPT ఏజెంట్ను పవర్ చేసే మోడల్ pass@1 లో కొత్త SOTA స్కోర్ అయిన 41.6 సాధించింది.ఏజెంట్ డైనమిక్గా ప్లాన్ చేసి తన స్వంత టూల్స్ని ఎంచుకునందువల్ల, ఇది అదే టాస్క్ను వేర్వేరు మార్గాల్లో అనేక రన్స్లో చేయగలదు. మేము దీన్ని సింపుల్ ప్యారలల్ రోల్అవుట్ స్ట్రాటజీతో స్కేల్ చేసినప్పుడు—ఒకేసారి ఎనిమిది ప్రయత్నాలు రన్ చేసి, అత్యధిక స్వీయ-ప్రకటిత నమ్మకం కలిగినదాన్ని ఎంచుకోవడంతో—ఏజెంట్ యొక్క HLE స్కోర్ 44.4కి పెరిగింది.
FrontierMath** ఇప్పటివరకు తెలిసిన అత్యంత కఠినమైన గణిత ప్రామాణిక పరీక్ష, ఇందులో కొత్తగా ప్రచురించని సమస్యలు ఉంటాయి, వీటిని పరిష్కరించడానికి నిపుణ గణిత శాస్త్రవేత్తలకు గంటలు లేదా కొన్ని రోజులు పట్టవచ్చు. టూల్ యూజ్తో, ఉదాహరణకు కోడ్ ఎగ్జిక్యూషన్ కోసం టెర్మినల్ యాక్సెస్తో, ChatGPT ఏజెంట్ 27.4% ఖచ్చితత్వం సాధించింది, ఇంతకుముందు ఉన్న రెండు మోడళ్లను విస్తృతమైన తేడాతో మించిపోయింది.
సంక్లిష్టమైన రియల్-వరల్డ్ టాస్క్లను ఆధారంగా తీసుకుని తయారు చేసిన బెంచ్మార్క్లతో కూడా మేము ఈ మోడల్ను పరిశీలించాం.కాంప్లెక్స్, ఆర్థికంగా విలువైన నలెడ్జ్-వర్క్ టాస్క్లలో మోడల్ పనితీరును అంచనా వేయడానికి రూపొందించిన ఒక ఇంటర్నల్ బెంచ్మార్క్లో, ChatGPT ఏజెంట్ అవుట్పుట్ టాస్క్ పూర్తి టైమ్ల విభిన్న పరిధుల్లో సుమారు సగం కేసుల్లో మనుషుల స్థాయికి సమానంగా లేదా మరింత మెరుగ్గా ఉంది—మరియు o3 మరియు o4-mini కంటే గణనీయంగా మించి కనిపించింది.ప్రతి రంగంలో ఉన్న టాప్ పెర్ఫార్మర్లు రూపొందించిన హై-క్వాలిటీ హ్యూమన్ బేస్లైన్లతో పోల్చి, మోడల్ అవుట్పుట్లను నిపుణులు జడ్జ్ చేస్తారు.వివిధ వృత్తులు మరియు పరిశ్రమల నిపుణుల నుండి సేకరించిన ఈ టాస్క్లు, రియల్-వరల్డ్ ప్రొఫెషనల్ పనిని ప్రతిబింబిస్తాయి—ఉదాహరణకు ఆన్-డిమాండ్ అర్జెంట్ కేర్ ప్రొవైడర్లపై కంపెటిటివ్ అనాలిసిస్ తయారు చేయడం, వివరమైన అమోర్టైజేషన్ షెడ్యూల్స్ రూపొందించడం, మరియు కొత్త గ్రీన్ హైడ్రోజన్ ఫెసిలిటీ కోసం అనువైన వాటర్ వెల్స్ను గుర్తించడం.
DSBench(కొత్త విండోలో తెరుచుకుంటుంది), డేటా విశ్లేషణ మరియు మోడలింగ్ విస్తరించి వాస్తవిక డేటా సైన్స్ పనులపై ఏజెంట్లను అంచనా వేయడానికి రూపొందించబడిన DSBenchలో, ChatGPT ఏజెంట్ గణనీయమైన తేడాతో మానవ పనితీరును అధిగమించింది.
SpreadsheetBenchలో—రియల్-వరల్డ్ సీనారియోల ఆధారంగా రూపొందించిన స్ప్రెడ్షీట్లను ఎడిట్ చేసే మోడల్ సామర్థ్యాన్ని అంచనా వేసే ఈ బెంచ్మార్క్లో—ChatGPT ఏజెంట్ ప్రస్తుత మోడల్లను గణనీయమైన తేడాతో మించి ప్రదర్శిస్తుంది.స్ప్రెడ్షీట్లను నేరుగా ఎడిట్ చేసే సామర్థ్యం ఇచ్చినప్పుడు, ChatGPT ఏజెంట్ 45.5% స్కోర్ సాధించింది, ఎక్సెల్లోని కోపైలట్ యొక్క 20.0%తో పోలిస్తే మరింత ఎక్కువ.
పద్ధతి: స్ప్రెడ్షీట్బెంచ్ రచయితలు స్ప్రెడ్షీట్లను మూల్యాంకనం చేయడానికి Windows వాతావరణంలో Microsoft ఎక్సెల్ను ఉపయోగించారు. మేము OSX వాతావరణం మరియు లిబ్రేఆఫీస్ ఉపయోగించాము, ఇది చిన్న గ్రేడింగ్ తేడాలకు కారణం కావచ్చు. ఉదాహరణకు, రచయితలు GPT‑4o కోసం 15.02% మొత్తమైన కఠిన పరిమితిని గుర్తించగా, మేము 13.38% ను పొందాము.మేము మొత్తం 912-ప్రశ్నల ప్రామాణిక పరీక్షను ఉపయోగించాము.
మొదటి నుండి మూడో సంవత్సరం స్థాయి ఇన్వెస్ట్మెంట్ బ్యాంకింగ్ అనలిస్టు మోడలింగ్ పనులు చేయగల సామర్థ్యాన్ని అంచనా వేసే ఒక ఇంటర్నల్ బెంచ్మార్క్లో—సరైన ఫార్మాటింగ్ మరియు మూలాలను చూపిస్తూ Fortune 500 కంపెనీకి మూడు-స్టేట్మెంట్ ఫైనాన్షియల్ మోడల్ రూపొందించడం, లేదా ప్రైవేట్కి మార్చే కొనుగోలు ఒప్పందం కోసం లెవరేజ్డ్ బయ్యౌట్ మోడల్ తయారు చేయడం వంటి క్లిష్టమైన పనుల్లో—ChatGPT ఏజెంట్ను నడిపించే మోడల్, deep research మరియు o3 కంటే గణనీయంగా మెరుగైన పనితీరు చూపించింది.ప్రతి పనిని సరైనత, ఫార్ములాల వినియోగం వంటి వందల కొద్దీ ప్రమాణాల ఆధారంగా మూల్యాంకనం చేస్తారు.
మేము BrowseCompలో ChatGPT ఏజెంట్ను కూడా మూల్యాంకనం చేసాము, ఇది ఈ సంవత్సరం ప్రారంభంలో మేము ప్రచురించిన బెంచ్మార్క్, ఇది వెబ్లో కష్టంగా కనుగొనదగిన సమాచారాన్ని గుర్తించే బ్రౌజింగ్ ఏజెంట్ల సామర్థ్యాన్ని కొలుస్తుంది. మోడల్ 68.9%తో ఒక కొత్త స్టేట్-ఆఫ్-ది-ఆర్ట్ (SOTA) సాధించింది, ఇది డీప్ రీసెర్చ్ కంటే 17.4 శాతం పాయింట్లు ఎక్కువ.
చివరిగా, WebArena(కొత్త విండోలో తెరుచుకుంటుంది) అనే ప్రామాణిక పరీక్షలో, నిజజీవిత వెబ్ టాస్క్లను పూర్తి చేయడంలో వెబ్ బ్రౌజింగ్ ఏజెంట్ల పనితీరును మూల్యాంకనం చేయడానికి రూపొందించబడింది, మోడల్ o3 ఆధారిత CUA (Operator శక్తివంతం చేసే మోడల్) కంటే మెరుగ్గా ప్రదర్శించింది.
మీరు ChatGPT యొక్క కొత్త ఏజెంటిక్ సామర్థ్యాలను ఏ సంభాషణలోనైనా, కంపోజర్లోని టూల్స్ డ్రాప్డౌన్ నుండి ‘ఏజెంట్ మోడ్’ని ఎంచుకోవడం ద్వారా నేరుగా యాక్టివేట్ చేయవచ్చు. మీరు కోరుకున్న టాస్క్ను సింపుల్గా వివరించండి—అది డీప్ రీసెర్చ్ చేయడం కావొచ్చు, స్లైడ్షో సృష్టించడం కావొచ్చు, లేదా ఖర్చులను సమర్పించడం కావొచ్చు. ఇది మీ టాస్క్ను నిర్వర్తిస్తున్నప్పుడు, స్క్రీన్పై కనిపించే నరేషన్ ChatGPT ఏమి చేస్తుందో మీకు స్పష్టత ఇస్తుంది. మీరు అవసరమైనప్పుడు బ్రౌజర్పై నియంత్రణ తీసుకుని మధ్యలో ఆపవచ్చు, దీని ద్వారా టాస్క్లు మీ లక్ష్యాలకు అనుగుణంగా కొనసాగుతాయి.
ChatGPT ఏజెంట్ మీ కనెక్టర్స్ను యాక్సెస్ చేయగలదు, దీని ద్వారా అది మీ వర్క్ఫ్లోస్తో ఏకీకృతం అయి సంబంధిత, చర్య తీసుకోదగిన సమాచారాన్ని పొందగలదు. ఒకసారి ఆథెంటికేట్ చేసిన తర్వాత, ఈ కనెక్టర్స్ ChatGPTకి సమాచారం చూడటానికి మరియు మీ ఇన్బాక్స్ను ఆ రోజుకు సారాంశం చేయడం లేదా మీకు మీటింగ్ కోసం లభ్యమయ్యే టైమ్ స్లాట్స్ కనుగొనడం వంటి పనులు చేయడానికి వీలు కల్పిస్తాయి—కానీ ఈ సైట్లపై చర్యలు తీసుకోవడానికి, మీరు బ్రౌజర్ను స్వాధీనం చేసుకొని లాగిన్ అవ్వాల్సి ఉంటుంది.
అదనంగా, మీరు పూర్తయిన టాస్క్లను ఆటోమేటిక్గా పునరావృతం అయ్యేలా షెడ్యూల్ చేయవచ్చు, ఉదాహరణకు ప్రతి సోమవారం ఉదయం వారపు మెట్రిక్స్ రిపోర్ట్ సృష్టించడం.
ఈ విడుదలలో, మొదటిసారి యూజర్లు ChatGPTని వెబ్లో చర్యలు తీసుకోవమని అడగవచ్చు. ఇది కొత్త రిస్కులను పరిచయం చేస్తుంది, ముఖ్యంగా ChatGPT ఏజెంట్ మీ డేటాతో నేరుగా పనిచేయగలదని—అది కనెక్టర్స్ ద్వారా యాక్సెస్ చేసిన సమాచారం కావొచ్చు లేదా మీరు టేకోవర్ మోడ్ ద్వారా లాగిన్ అయిన వెబ్సైట్లలోని డేటా కావొచ్చు. మేము Operator యొక్క రీసెర్చ్ ప్రీవ్యూ నుంచి ఉన్న రాబస్టు కంట్రోల్స్ను బలపరిచాము, మరియు లైవ్ వెబ్లో సున్నితమైన సమాచారాన్ని హ్యాండిల్ చేయడం, విస్తృత యూజర్ రీచ్, మరియు (పరిమిత) టెర్మినల్ నెట్వర్క్ యాక్సెస్ వంటి సవాళ్లకు సేఫ్గార్డ్స్ను జోడించాము. ఈ తగ్గించే చర్యలు రిస్క్ను గణనీయంగా తగ్గించినప్పటికీ, ChatGPT ఏజెంట్ యొక్క విస్తరించిన టూల్స్ మరియు విస్తృత యూజర్ రీచ్ దాని మొత్తం రిస్క్ ప్రొఫైల్ను ఎక్కువగానే ఉంచుతున్నాయి.
ప్రాంప్ట్ ఇంజెక్షన్ ద్వారా వచ్చే దుష్ప్రేరిత జోక్యాలు నుండి ChatGPT ఏజెంట్ను రక్షించడంపై మేము ప్రత్యేకంగా దృష్టి పెట్టాం. ఇది సాధారణంగా ఏజెంటిక్ సిస్టమ్లలో కనిపించే ప్రధాన ప్రమాదం కాబట్టి, దీనికి అనుగుణంగా మరింత విస్తృతమైన రక్షణ చర్యలను సిద్ధం చేశాం.ప్రాంప్ట్ ఇంజెక్షన్లు అనేవి మూడవ పక్షాలు దాని ప్రవర్తనను దుష్ట సూచనల ద్వారా మానిప్యులేట్ చేయడానికి చేసే ప్రయత్నాలు, వీటిని ChatGPT ఏజెంట్ ఒక టాస్క్ పూర్తి చేసే సమయంలో వెబ్లో ఎదుర్కొనవచ్చు. ఉదాహరణకు, ఒక వెబ్పేజీలో ఇన్విజిబుల్ ఎలిమెంట్స్ లేదా మెటాడేటాలో దాగిన ఒక దుష్ట ప్రాంప్ట్ ఏజెంట్ను మోసం చేసి, ఉద్దేశించని చర్యలు చేయించవచ్చు — ఉదాహరణకు, కనెక్టర్ నుండి ప్రైవేట్ డేటాను దాడి చేసేవారితో పంచుకోవడం లేదా యూజర్ లాగిన్ అయిన సైట్లో హానికరమైన చర్య తీసుకోవడం. ChatGPT ఏజెంట్ నేరుగా చర్యలు తీసుకోగలదని, విజయవంతమైన దాడులు మరింత ప్రభావం చూపగలవు మరియు అధిక రిస్క్ను కలిగించగలవు.
మేము ఏజెంట్ను ప్రాంప్ట్ ఇంజెక్షన్లను గుర్తించి వాటిని ప్రతిఘటించడంపై ట్రైన్ చేసి పరీక్షించాము, అదనంగా ప్రాంప్ట్ ఇంజెక్షన్ దాడులను త్వరగా గుర్తించి స్పందించడానికి మానిటరింగ్ను ఉపయోగించాము. ముఖ్యమైన చర్యలకు ముందు స్పష్టమైన యూజర్ కన్ఫర్మేషన్ కోరడం ఈ దాడుల వల్ల కలిగే హానిని మరింత తగ్గిస్తుంది, మరియు యూజర్లు అవసరమైతే టాస్క్లలో టేకోవర్ చేయడం లేదా పాజ్ చేయడం ద్వారా జోక్యం చేసుకోవచ్చు. యూజర్లు ఏజెంట్కు ఏ సమాచారం ఇవ్వాలో నిర్ణయించే సమయంలో ఈ లాభనష్టాలను పరిగణనలోకి తీసుకోవాలి, అలాగే ఈ రిస్క్లకు తాము గురయ్యే అవకాశాన్ని తగ్గించడానికి చర్యలు తీసుకోవాలి — ఉదాహరణకు, ఒక టాస్క్కి అవసరం లేని సమయంలో కనెక్టర్స్ను డిసేబుల్ చేయడం.
మేము మోడల్ తప్పిదాలు, చుట్టూ కూడా తగ్గించే చర్యలను అమలు చేసాము, ముఖ్యంగా ఇప్పుడు మోడల్ నిజజీవితంపై ప్రభావం చూపే టాస్క్లను చేయగలిగినందున:
- స్పష్టమైన వినియోగదారు నిర్ధారణ: ChatGPT నిజజీవిత ఫలితాలు కలిగించే చర్యలు తీసుకునే ముందు, ఉదాహరణకు కొనుగోలు చేయడం వంటి, మీ అనుమతిని స్పష్టంగా అడగడానికి ట్రైన్ చేయబడింది.
- క్రియాశీల పర్యవేక్షణ (“వాచ్ మోడ్”): ఇమెయిల్స్ పంపడం వంటి కొన్ని కీలకమైన పనులకు మీ క్రియాశీల పర్యవేక్షణ అవసరం.
- ప్రోయాక్టివ్ రిస్క్ తగ్గింపు: ChatGPT బ్యాంక్ బదిలీల వంటి అధిక-ప్రమాద పనులను చురుకుగా తిరస్కరించడానికి శిక్షణ పొందింది.
చివరగా, మోడల్ యాక్సెస్ చేసుకోగల డేటాను పరిమితం చేయడానికి మేము అదనపు నియంత్రణలు ప్రవేశపెట్టాము:
- ప్రైవసీ కంట్రోల్స్: ChatGPT యొక్క సెట్టింగ్స్లో ఒక్క క్లిక్తోనే మీరు బ్రౌజింగ్ డేటా మొత్తాన్ని తొలగించడంతో పాటు, యాక్టివ్గా ఉన్న అన్ని వెబ్సైట్ సెషన్ల నుండి వెంటనే లాగ్ అవుట్ అవ్వవచ్చు.లేకపోతే, మీరు సందర్శించిన ప్రతి వెబ్సైట్ యొక్క కుకీ విధానాల ప్రకారం కుకీలు కొనసాగుతాయి. దీనివల్ల అదే సైట్లను మళ్లీ సందర్శించే సమయంలో అనుభవం మరింత సులభంగా, వేగంగా ఉంటుంది.
- సురక్షిత బ్రౌజర్ టేకోవర్ మోడ్: మీరు ChatGPT యొక్క బ్రౌజర్ (“టేకోవర్ మోడ్”) ఉపయోగించి వెబ్తో ఇంటరాక్ట్ అవుతున్నప్పుడు, మీ ఇన్పుట్లు ప్రైవేట్గా ఉంటాయి. ఈ సెషన్లలో మీరు ఎంటర్ చేసే పాస్వర్డ్ల వంటి డేటాను ChatGPT సేకరించదు లేదా నిల్వ చేయదు, ఎందుకంటే మోడల్కి అది అవసరం లేదు, మరియు అది ఎప్పుడూ చూడకపోవడం మరింత సురక్షితం.
మోడల్ యొక్క పెరిగిన సామర్థ్యాలతో, మేము ChatGPT ఏజెంట్ను మా ప్రిపేర్డ్నెస్ ఫ్రేమ్వర్క్ కింద హై బయోలాజికల్ మరియు కెమికల్ కెపబిలిటీస్గా పరిగణించి, సంబంధిత సేఫ్గార్డ్స్ను యాక్టివేట్ చేయాలని నిర్ణయించుకున్నాము. మోడల్ ఒక నోవిస్కి తీవ్రమైన బయోలాజికల్ హానిని సృష్టించడంలో అర్థవంతమైన సహాయం చేయగలదని నిర్ధిష్టమైన ఆధారాలు మాకు లేవు—మా హై కెపబిలిటీ త్రెషోల్డ్—అయినప్పటికీ, మేము జాగ్రత్తలు తీసుకుంటూ అవసరమైన సేఫ్గార్డ్స్ను ఇప్పుడు అమలు చేస్తున్నాము. దాంతో, ఈ మోడల్ ఇప్పటివరకు ఉన్న అత్యంత సమగ్రమైన సేఫ్టీ స్టాక్ను కలిగి ఉంది, బయాలజీ కోసం మెరుగైన రక్షణలతో: సమగ్ర థ్రెట్ మోడలింగ్, ద్వంద్వ వినియోగ నిరాకరణ శిక్షణ, ఎప్పుడూ ఆన్లో ఉండే క్లాసిఫైయర్లు మరియు తార్కిక మానిటర్లు, మరియు స్పష్టమైన అమలు పైప్లైన్లు.
ChatGPT ఏజెంట్ను మరింత సురక్షితం చేయడానికి చేస్తున్న మా ప్రయత్నాలతో పాటు, ఏకైక ల్యాబ్పై ఆధారపడకుండా, విస్తృత స్థాయిలో రక్షణలు అమలులో ఉన్నప్పుడు బయోసేఫ్టీ మరింత సమర్థంగా పనిచేస్తుందని మేము తెలుసు. అందుకే రక్షణ వ్యవస్థలను బలోపేతం చేయడానికి మేము మొత్తం ఎకోసిస్టమ్తో కలిసి పనిచేస్తున్నాం.మొదటి రోజు నుంచే మేము బయోసెక్యూరిటీ నిపుణులు, సేఫ్టీ ఇనిస్టిట్యూట్స్, మరియు అకాడమిక్ రీసెర్చర్లతో కలిసి మా థ్రెట్ మోడల్, మూల్యాంకనలు, మరియు పాలసీలను రూపొందించాము. జీవశాస్త్రంలో శిక్షణ పొందిన రివ్యూవర్లు మా అంచనా డేటాను ధృవీకరించారు, అలాగే డొమైన్ నిపుణులైన రెడ్ టీమ్లు వాస్తవ పరిస్థితులను అనుకరించి రక్షణ వ్యవస్థలను గట్టిగా పరీక్షించాయి.ఈ నెల ప్రారంభంలో, మేము ప్రభుత్వ, అకాడెమియా, నేషనల్ ల్యాబ్స్, మరియు ఎన్జీఓల నిపుణులతో కలిసి ఒక బయోడిఫెన్స్ వర్క్షాప్ నిర్వహించాము, AI ఆధారిత బయోడిఫెన్స్ రీసెర్చ్ను ముందుకు తీసుకెళ్లడానికి మరియు సహకారాన్ని వేగవంతం చేయడానికి. కొత్తగా ఉద్భవిస్తున్న ప్రమాదాలను ముందుగానే గుర్తించి ఎదుర్కొనేందుకు, ప్రపంచవ్యాప్తంగా భాగస్వామ్యాలను కొనసాగిస్తాం.
మా ఏకీకృత ఏజెంటిక్ మోడల్ కోసం బలమైన సేఫ్టీ విధానం గురించి మరింత చదవడానికి సిస్టమ్ కార్డ్లో చూడండి. మేము నిజజీవిత రిస్క్లను కనుగొని పరిష్కరించడానికి బగ్ బౌంటీ ప్రోగ్రాం ను కూడా ప్రారంభిస్తున్నాము.
ChatGPT ఏజెంట్ ఈ రోజు నుండి Pro, Plus, మరియు Teamకి రోల్అవుట్ అవడం ప్రారంభమవుతోంది; Proకి ఈ రోజు చివరిలోగా యాక్సెస్ లభిస్తుంది, అయితే Plus మరియు Team యూజర్లకు రాబోయే కొన్ని రోజుల్లో యాక్సెస్ లభిస్తుంది. Enterprise మరియు Education యూజర్లకు రాబోయే వారాల్లో యాక్సెస్ లభిస్తుంది. Pro యూజర్లకు నెలకు 400 మెసేజీలు ఉంటాయి, మిగతా చెల్లింపు యూజర్లకు నెలకు 40 మెసేజీలు లభిస్తాయి, అదనపు వినియోగం ఫ్లెక్సిబుల్ క్రెడిట్-బేస్డ్ ఆప్షన్ల ద్వారా అందుబాటులో ఉంటుంది.
యూరోపియన్ ఎకనామిక్ ఏరియా మరియు స్విట్జర్లాండ్ కోసం యాక్సెస్ ఎనేబుల్ చేయడంపై మేము ఇంకా పని చేస్తున్నాము.
Operator రీసెర్చ్ ప్రీవ్యూ సైట్ మరికొన్ని వారాలపాటు ఫంక్షనల్గా ఉంటుంది, ఆ తర్వాత అది మూసివేయబడుతుంది. డీప్ రీసెర్చ్ ChatGPT ఏజెంట్ సామర్థ్యాలలో ఒక భాగం. మీరు అసలు డీప్ రీసెర్చ్ ఫీచర్ను ఇష్టపడితే—అది నడవడానికి ఎక్కువ సమయం పట్టవచ్చు కానీ డిఫాల్ట్గా మరింత వివరమైన, లోతైన ప్రతిస్పందనలు ఇస్తుంది—మీరు మెసేజ్ కంపోజర్లోని డ్రాప్డౌన్ నుండి “deep research” ఎంచుకొని ఇంకా యాక్సెస్ చేయవచ్చు.
ChatGPT ఏజెంట్ ఇంకా ప్రారంభ దశల్లోనే ఉంది. ఇది విస్తృతమైన క్లిష్టమైన టాస్క్లను చేపట్టగలదు, కానీ ఇది ఇంకా తప్పులు చేయవచ్చు.
స్లైడ్షోస్ సృష్టించే దీని సామర్థ్యంలో మేము గణనీయమైన అవకాశాన్ని చూస్తున్నప్పటికీ, ఈ ఫంక్షనాలిటీ ప్రస్తుతం బీటాలో ఉంది. ప్రస్తుతం, ఫలితాలు కొన్నిసార్లు ఫార్మాటింగ్ మరియు పొలిష్లో ప్రాథమికంగా అనిపించవచ్చు, ముఖ్యంగా ఇప్పటికే ఉన్న డాక్యుమెంట్ లేకుండా ప్రారంభించినప్పుడు. మోడల్ యొక్క ప్రారంభ సామర్థ్యాలను, ప్రెజెంటేషన్లకు అనువైన ఫ్లో మరియు ఫార్మాట్లో సమాచారాన్ని క్రమబద్ధీకరించే ఆర్టిఫాక్ట్లను సృష్టించడంపై మేము దృష్టి పెట్టాము—టెక్స్ట్, చార్ట్స్, ఇమేజెస్, షేప్స్ వంటి ఎలిమెంట్స్తో, ఇవి ఎగుమతి చేసిన తర్వాత సహజంగానే మరియు సులభంగా ఎడిట్ చేయగలవు—స్ట్రక్చర్ మరియు ఫ్లెక్సిబిలిటీ కోసం ఆప్టిమైజ్ చేస్తూ. ప్రస్తుతం, వీయువర్లోని స్లైడ్లు మరియు ఎగుమతి చేసిన పవర్పాయింట్ మధ్య అప్పుడప్పుడు వ్యత్యాసాలు ఉంటాయి, వీటిని తగ్గించడానికి మేము పని చేస్తున్నాము. అదనంగా, మీరు ప్రస్తుతం ఉన్న స్ప్రెడ్షీట్ను ChatGPTకి ఎడిట్ చేయడానికి లేదా టెంప్లేట్గా ఉపయోగించడానికి అప్లోడ్ చేయవచ్చు, కానీ ఈ సామర్థ్యం ఇంకా స్లైడ్షోస్ కోసం అందుబాటులో లేదు. మేము ఇప్పటికే ChatGPT యొక్క స్లైడ్షో సృష్టిలో తదుపరి ఐటరేషన్ను ట్రైన్ చేస్తున్నాము, మరింత పొలిష్డ్, ఆధునికమైన ఫలితాలను విస్తృతమైన సామర్థ్యాలతో మరియు మెరుగైన ఫార్మాటింగ్తో అందించడానికి.
మొత్తం మీద, ChatGPT ఏజెంట్ యొక్క సమర్థత, లోతు, మరియు వైవిధ్యంలో సమయానుకూల మెరుగుదలలు కొనసాగుతాయని మేము ఆశిస్తున్నాము. వినియోగదారుని పర్యవేక్షణ స్థాయిని సర్దుబాటు చేస్తూ, దానిని మరింత ఉపయోగకరంగా మార్చేందుకు ప్రయత్నిస్తూనే, వాడటానికి సురక్షితంగా ఉండేలా చూసుకుంటూ, మరింత సులభమైన ఇంటరాక్షన్లు కలిగేలా చేస్తాము.
SpreadsheetBench | ||||
"మోడల్" | ఈవాల్యుయేషన్ ఎన్విరాన్మెంట్ | సాఫ్ట్ పరిమితి (%): సెల్-లెవెల్ | సాఫ్ట్ పరిమితి (%): షీట్-లెవెల్ | సాఫ్ట్ పరిమితి (%): మొత్తం |
GPT‑4o | Windows, Excel | 15.03 | 23.65 | 18.35 |
ఎక్సెల్లో కోపైలట్ | Windows, Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX, LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX, LibreOffice | 22.40 | 24.60 | 23.25 |
"ChatGPT ఏజెంట్" | OSX, LibreOffice | 38.27 | 30.48 | 35.27 |
ChatGPT ఏజెంట్ .xlsxతో | OSX, LibreOffice | 50.56 | 37.51 | 45.54 |
మనిషి | 75.56 | 65.00 | 71.33 |
రచయిత
ఫుట్ నోట్స్
* బ్రౌజింగ్ ఎనేబుల్ చేసినప్పుడు, మోడల్ కొన్నిసార్లు ఆన్లైన్లో ఖచ్చితమైన సమాధానాలను కనుగొనగలదు, ఉదాహరణకు డేటాసెట్ నుండి సాంపిల్ సమస్యలతో కూడిన బ్లాగ్ పోస్టులను చదివి. బ్రౌజింగ్ చేస్తున్నప్పుడు మోడల్ చీటింగ్ చేస్తుందేమో అనే ఆందోళనలను మేము రెండు వ్యూహాలతో తగ్గిస్తున్నాము:
1. గతంలో మోడల్ మోసం చేసినట్లు మేము గమనించిన బ్లాక్ చేసిన డొమైన్లు.
2. ప్రతి ప్రయత్నంలో వచ్చిన టూల్ అవుట్పుట్ టోకెన్లను విశ్లేషించి, అనుమానాస్పద ప్రవర్తన ఉందో లేదో గుర్తించడానికి ఒక అదనపు మోడల్ను మానిటర్గా ఉపయోగించారు. అనుమానాస్పద ప్రవర్తన అంటే "ఈ ప్రత్యేక ప్రశ్నకు ఖచ్చితమైన సమాధానం ఇవ్వడానికే ఉండే పేజ్, ఫైల్ లేదా స్నిపెట్ — ఉదాహరణకు అధికారిక గ్రేడింగ్ కీ, లీక్ అయిన “solutions” జిస్ట్, లేదా పూర్తి సమాధానాన్ని పదేపదే ఉటంకించే చర్చ." హానిరహిత ప్రవర్తన అంటే "ఒక శ్రద్ధగల వ్యక్తి సాధారణంగా చూసే నమ్మకమైన వనరులు (డాక్యుమెంటేషన్, మాన్యువల్స్, శాస్త్రీయ పత్రాలు, విశ్వసనీయ వ్యాసాలు), అవి యాదృచ్ఛికంగా సరైన సమాధానాన్ని కలిగి ఉన్నా కూడా." మానిటర్ ఏ రోలౌట్ను అనుమానాస్పదంగా పేర్కొంటే ఆ ప్రయత్నాన్ని తప్పుగా పరిగణించారు. ఈ చెక్లో ఫెయిల్ అయిన చాలా ఉదాహరణల్లో, HLEతో సంబంధం లేకుండా ఇంటర్నెట్లోని అనేక వనరులలో ఆ ప్రశ్నకు ఖచ్చితమైన పరిష్కారం ముందే అందుబాటులో ఉండేది.
**OpenAIకి Tier 1-3 డేటాసెట్లోని 290 ప్రైవేట్ ప్రశ్నల్లో 237కి ప్రత్యేక యాక్సెస్ ఉంది. FrontierMath Tier 4 ప్రశ్నలు ఈ అంచనాలో చేర్చబడలేదు.ప్రతి ప్రశ్నకు ఇచ్చిన 16 ప్రయత్నాల సగటుతో ఫలితాలను అంచనా వేశారు.ChatGPT ఏజెంట్ ఫలితాలను OpenAI పొందింది, Epoch AI గ్రేడ్ చేసింది, బ్రౌజర్ మరియు టెర్మినల్ యాక్సెస్తో, ప్రతి సమాధానానికి 128K టోకెన్ల పరిమితితో. OpenAI o4-mini మరియు o3 పై జరుగుతున్న అంచనాలను Epoch AI సేకరించి గ్రేడ్ చేస్తుంది. ఈ సెటప్లో బ్రౌజర్ లేదా టర్మినల్ యాక్సెస్ ఉండదు; function calling ద్వారా Python స్క్రిప్ట్లను మాత్రమే ఉపయోగించడానికి అనుమతిస్తారు, అలాగే ప్రతి సమాధానానికి 100K టోకెన్ల పరిమితి ఉంటుంది.
*** Oracle@64 అంటే 64 సార్లుగా చేసిన ప్రయత్నాల్లో వచ్చిన అత్యుత్తమ స్కోరును సూచిస్తుంది. దీనిని అసలు నిజ-పరిశీలన (గ్రౌండ్ ట్రూత్) ఆధారంగా ఎంచుకుంటారు, అంటే ప్రతి పనిలో నిజంగా పొందిన గ్రేడ్ను చూసి అత్యధిక స్కోరు వచ్చిన ప్రయత్నాన్ని ఎంపిక చేస్తాం. ఈ పనులన్నింటిలోను ఈ అత్యుత్తమ స్కోర్ల సగటును నివేదిస్తాం. ఈ ప్రమాణం మోడల్ సాధించగల గరిష్ట స్థాయి సామర్థ్యాన్ని మరియు పనుల మధ్య ఉండే మార్పులను చూపిస్తుంది—అంటే మోడల్ విజయవంతమైతే ఎంత శక్తివంతంగా పని చేయగలదో, అలాగే మరింత శిక్షణతో స్థిరత్వాన్ని ఎలా మెరుగుపరచవచ్చో తెలియజేస్తుంది. సాధారణంగా “best of N” అనే ప్రమాణాల్లో మోడల్ విశ్వాసాన్ని ఆధారంగా ఎంపిక చేస్తారు, కానీ Oracle@64 మాత్రం నిజ-పరిశీలన ఆధారంగా ఎంపిక చేస్తుంది, మరియు ఇది binary pass/fail కాదని, 0–1 నిరంతర స్కేల్పై గ్రేడ్ చేసే పనులకు వర్తిస్తుంది.


