17 जुलाई 2025

पेश है ChatGPT एजेंट: रिसर्च और एक्शन के बीच का पुल

ChatGPT अब सोचकर काम करता है, अपने खुद के कंप्यूटर का इस्तेमाल करके आपके लिए टास्क को पूरा करने के लिए एक टूलबॉक्स से एक्टिव तरीके से एजेंटिक स्किल्स चुनता है.

ChatGPT पर आज़माएं

लोड किया जा रहा है...

ChatGPT अब अपने कंप्यूटर का इस्तेमाल करके आपके लिए काम कर सकता है, और शुरू से आखिर तक कॉम्प्लेक्स टास्क हैंडल कर सकता है.

अब आप ChatGPT से ऐसे अनुरोधों को हैंडल करने के लिए कह सकते हैं, जैसे कि "मेरे कैलेंडर को देखो और हालिया समाचारों के आधार पर आगामी क्लाइंट मीटिंग्स के बारे में मुझे जानकारी दो", "चार लोगों के लिए जापानी नाश्ता बनाने के लिए सामग्री का प्लैन बनाओ और खरीदें", और "तीन कॉम्पिटिटर्स को एनालाइज़ करो और एक स्लाइड डेक बनाओ." ChatGPT समझदारी से वेबसाइट्स को नेविगेट करेगा, रिज़ल्ट्स को फ़िल्टर करेगा, ज़रुरत पड़ने पर आपको सुरक्षित तरीके से लॉग इन करने के लिए प्रॉम्प्ट करेगा, कोड रन करेगा, एनालिसिस करेगा, और यहां तक कि एडिटेबल स्लाइडशो और स्प्रेडशीट्स भी डिलीवर करेगा जो इसके निष्कर्षों की समरी देंगे.

इस नई कैपेबिलिटी के मूल में एक यूनिफ़ाइड एजेंटिक सिस्टम है. ये पहले की सफ़लताओं की तीन ताकतों को एक साथ लाता है: Operator की⁠ वेबसाइट्स के साथ बातचीत करने की क्षमता, डीप रिसर्च की⁠ जानकारी को सिंथेसाइज़ करने की स्किल, और ChatGPT की इंटेलिजेंस और बातचीत की फ़्लूएंसी.

ChatGPT अपने खुद के वर्चुअल कंप्यूटर का इस्तेमाल करके इन टास्क को पूरा करता है, जो आपके निर्देशों के आधार पर शुरू से आखिर तक बेहद मुश्किल वर्कफ़्लो को हैंडल करने के लिए रीज़निंग और एक्शन के बीच आसानी से शिफ़्ट होता है.

सबसे ज़रूरी बात ये है कि आपके पास हमेशा कंट्रोल रहता है. ChatGPT ज़रूरी एक्शन्स करने से पहले अनुमति मांगता है, और आप किसी भी वक़्त आसानी से दखल कर सकते हैं, ब्राउज़र पर कंट्रोल कर सकते हैं, या टास्क को रोक सकते हैं.

आज से, Pro, Plus और Team यूज़र्स किसी भी बातचीत में किसी भी समय 'एजेंट मोड' को चुन करके कंपोज़र से टूल्स ड्रॉपडाउन के ज़रिये सीधे ChatGPT की नई एजेंटिक क्षमताओं को एक्टिवेट कर सकते हैं.

जबकि ChatGPT एजेंट पहले से ही बेहद मुश्किल टास्क हैंडल करने के लिए एक बहुत ही पॉवरफ़ुल टूल है, आज का लॉन्च सिर्फ़ एक शुरुआत है. हम इसमें नियमित तौर पर ज़रूरी सुधार जोड़ते रहेंगे, जिससे ये समय के साथ और ज़्यादा लोगों के लिए ज़्यादा सक्षम और फ़ायदेमंद बन जाएगा.

Operator और डीप रिसर्च का एक नेचुरल इवॉल्युशन

इससे पहले, Operator और डीप रिसर्च दोनों में ही अपनी-अपनी यूनिक ताकत थी: Operator वेब पर स्क्रॉल, क्लिक और टाइप कर सकता था, जबकि डीप रिसर्च, जानकारी की एनालिसिस और समरी तैयार करने में बेहतरीन था. लेकिन दोनों अलग-अलग परिस्थितियों में सबसे बढ़िया काम करते थे: Operator एनालिसिस में गहराई से नहीं काम कर सकता था या डिटेल में रिपोर्ट नहीं लिख सकता था, और डीप रिसर्च रिज़ल्ट्स में सुधार करने या यूज़र ऑथेंटिकेशन की ज़रुरत वाले कंटेंट को एक्सेस करने के लिए वेबसाइट्स के साथ इंटरैक्ट नहीं कर सकता था. वाकई में, हमने देखा कि यूज़र्स द्वारा Operator के साथ किए गए कई सवाल असल में डीप रिसर्च के लिए ज़्यादा बेहतर थे, इसलिए हमने दोनों के बेस्ट फ़ीचर्स को साथ लिया.

ChatGPT में इन एक-दूसरे को कॉम्प्लीमेंट करने वाली ताकतों को इंटीग्रेट करके व और ज़्यादा नए टूल्स डाल करके, हमने एक ही मॉडल के अंदर पूरी तरह से नई कैपेबिलिटीज़ को अनलॉक किया है. ये अब एक्टिव तरीके से वेबसाइट्स से जुड़ सकता है—क्लिक करके, फ़िल्टर करके, और ज़्यादा सटीक, अच्छे रिज़ल्ट्स जमा करके. आप एक साधारण बातचीत से शुरू करके उसी चैट में सीधे कार्रवाई का अनुरोध करने के लिए भी नेचुरल तरीके से ट्रांज़ीशन कर सकते हैं.

एक ऐसा एजेंट जो आपके लिए, आपके साथ काम करता है

हमने ChatGPT एजेंट को टूल्स के एक सुइट से लैस किया है: एक विज़ुअल ब्राउज़र जो ग्राफ़िकल-यूज़र इंटरफ़ेस के ज़रिये वेब के साथ इंटरैक्ट करता है, आसान रीज़निंग-बेस्ड वेब क्वेरीज़ के लिए एक टेक्स्ट-बेस्ड ब्राउज़र, एक टर्मिनल और डायरेक्ट API एक्सेस. एजेंट ChatGPT कनेक्टर्स⁠(एक नई विंडो में खुलेगा) का भी फ़ायदा ले सकता है, जो आपको Gmail और Github जैसे ऐप्स को कनेक्ट करने में मदद करता है ताकि ChatGPT आपके प्रॉम्प्ट्स से जुड़ी जानकारी ढूंढ सके और उन्हें अपने जवाबों में इस्तेमाल कर सके. आप ब्राउज़र का कंट्रोल ले करके किसी भी वेबसाइट पर लॉग इन कर सकते हैं, जिससे वो अपनी रिसर्च और टास्क एक्सीक्यूशन दोनों को और ज़्यादा गहराई से व बड़े पैमाने पर कर सकेगा. ChatGPT को वेब की जानकारी को एक्सेस करने और उससे इंटरैक्ट करने के लिए ये अलग-अलग रास्ते देने का मतलब है वो टास्क को सबसे बढ़िया तरीके से परफ़ॉर्म करने के लिए ऑप्टिमल पाथ चुन सकता है. जैसे कि, ये API के ज़रिये आपके कैलेंडर के बारे में जानकारी जमा कर सकता है, टेक्स्ट-बेस्ड ब्राउज़र का इस्तेमाल करके बड़ी मात्रा में टेक्स्ट पर बढ़िया तरीके से रीज़निंग कर सकता है, साथ ही मुख्य तौर पर इंसानों के लिए डिज़ाइन की गई वेबसाइट्स के साथ विज़ुअल तरीके से इंटरैक्ट करने की कैपेबिलिटी भी रखता है.

ये सब अपने खुद के वर्चुअल कंप्यूटर का इस्तेमाल करके किया जाता है, जो टास्कय के लिए ज़रूरी कॉन्टेक्स्ट को बरकरार रखता है, तब भी जब कई टूल्स का इस्तेमाल किया जाता है—मॉडल टेक्स्ट ब्राउज़र या विज़ुअल ब्राउज़र का इस्तेमाल करके एक पेज खोलने, वेब से एक फ़ाइल डाउनलोड करने, टर्मिनल में एक कमांड रन करके उसमें बदलाव करने और फ़िर आउटपुट को विज़ुअल ब्राउज़र में वापस देखना चुन सकता है. ये मॉडल टास्क को स्पीड, एक्यूरेसी, और बढ़िया तरीके से पूरा करने के लिए अपनी अप्रोच को एडैप्ट करता है.

ChatGPT एजेंट को नियमित तौर पर, कोलैबोरेटिव वर्कफ़्लो के लिए डिज़ाइन किया गया है, जो पिछले मॉडल्स के मुकाबले कहीं ज़्यादा इंटरैक्टिव और फ़्लेक्सिबल है. ChatGPT के काम करने के दौरान, आप किसी भी समय अपने निर्देशों को स्पष्ट करने के लिए हस्तक्षेप कर सकते हैं, इसे उम्मीद के हिसाब से नतीजों की ओर ले जा सकते हैं, या टास्क को पूरी तरह से बदल सकते हैं. ये वहीं से वापस शुरू करेगा जहां इसने छोड़ा था, अब नई जानकारी के साथ, लेकिन पिछली प्रोग्रेस को खोए बिना. इसी तरह, ChatGPT खुद भी ज़रूरत पड़ने पर आपसे और ज़्यादा जानकारी मांग सकता है ताकि ये पक्का किया जा सके कि टास्क आपके लक्ष्यों के साथ अलाइन होकर रहे. अगर कोई टास्क उम्मीद से ज़्यादा समय लेता है या ये लगे कि कहीं अटक गया है, तो आप उसे रोक सकते हैं, उससे प्रोग्रेस समरी मांग सकते हैं, या पूरी तरह से रोक सकते हैं और थोड़े-बहुत रिज़ल्ट्स प्राप्त कर सकते हैं. अगर आपके फ़ोन में ChatGPT ऐप है, तो ये आपका टास्क पूरा होने पर आपको एक नोटिफ़िकेशन भेजेगा.

रियल-वर्ल्ड के इस्तेमाल का विस्तार

ये यूनिफ़ाइड एजेंटिक कैपबिलिटीज़ रोज़मर्रा और प्रोफ़ेशनल दोनों कॉन्टेक्स्ट में ChatGPT के इस्तेमाल को अहम तरीके से बढ़ाती हैं. काम पर, आप दोहराए जाने वाले टास्क को ऑटोमेट कर सकते हैं, जैसे स्क्रीनशॉट्स या डैशबोर्ड्स को एडिटेबल वेक्टर एलिमेंट्स से बने प्रेज़ेंटेशन्स में कन्वर्ट करना, मीटिंग्स को दोबारा अरेंज करना, ऑफ़साइट्स की प्लैनिंग और बुकिंग करना, और समान फ़ॉर्मेटिंग को बरकरार रखते हुए नए फ़ाइनेंशियल डेटा के साथ स्प्रेडशीट्स को अपडेट करना. अपनी पर्सनल लाइफ़ में, आप इसका इस्तेमाल आसानी से ट्रेवल इटिनेररीज़ को प्लैन और बुक करने, पूरी डिनर पार्टियों को डिज़ाइन और बुक करने, या स्पेशलिस्ट ढूंढने और अपॉइंटमेंट शेड्यूल करने के लिए कर सकते हैं.

मॉडल की एडवांस्ड कैपबिलिटीज़ वेब ब्राउज़िंग और रियल-वर्ल्ड के टास्क पूरा करने की कैपबिलिटीज़ को मापने वाले इवैल्यूएशन्स पर इसके स्टेट-ऑफ़-द-आर्ट (SOTA) परफ़ॉर्मेंस में रिफ़्लेक्ट होती हैं.

ह्यूमैनिटी’ज़ लास्ट एग्ज़ाम⁠(एक नई विंडो में खुलेगा)* पर, जो एक्सपर्ट-लेवल के सवालों पर विषयों की एक बड़ी रेंज में AI के परफ़ॉर्मेंस को मापने वाला एक इवैल्यूएशन है, ChatGPT एजेंट को पॉवर करने वाले मॉडल ने 41.6 पर एक नया पास@1 SOTA स्कोर किया. चूंकि एजेंट डायनामिक तरीके से प्लैन करता है और अपने टूल्स खुद चुनता है, इसलिए वो एक ही टास्क को अलग-अलग रन में अलग-अलग तरीकों से पूरा कर सकता है. जब हमने इसे एक सरल समानांतर रोलआउट रणनीति के साथ बढ़ाया - एक साथ आठ प्रयास चलाना और सबसे अधिक आत्म-रिपोर्ट किए गए आत्मविश्वास वाले को चुनना - तो एजेंट का एचएलई स्कोर 44.4 तक बढ़ जाता है।

FrontierMath** सबसे मुश्किल जाना-माना मैथ बेंचमार्क है, जिसमें नए, पब्लिश नहीं किए हुए प्रॉब्लम्स शामिल हैं, जिन्हें हल करने में एक्सपर्ट मैथमेटिशियन्स को भी अक्सर घंटों या यहां तक कि दिन भी लग जाते हैं. कोड एक्सीक्यूशन के लिए टर्मिनल के लिए एक्सेस जैसे टूल के इस्तेमाल से, ChatGPT एजेंट 27.4% एक्यूरेसी तक पहुंचता है, जो पिछले दोनों मॉडल्स के मुकाबले काफ़ी बेहतर परफ़ॉर्मेंस है.

हमने बेहद मुश्किल रियल-वर्ल्ड के टास्क के आधार पर तैयार किए गए बेंचमार्क्स का इस्तेमाल करके भी मॉडल का असेसमेंट किया. बेहद मुश्किल, इकॉनोमिक तौर पर कीमती नॉलेज-वर्क टास्क पर मॉडल के परफ़ॉर्मेंस का इवैल्यूएशन करने के लिए डिज़ाइन किए गए एक इंटर्नल बेंचमार्क पर, ChatGPT एजेंट का आउटपुट टास्क पूरा करने के समय की एक रेंज के लगभग आधे मामलों में इंसानों के मुकाबले तुलना करने लायक या उससे बेहतर है, जबकि o3 और o4-mini से काफ़ी बेहतर परफ़ॉर्म करता है. मॉडल आउटपुट्स को एक्सपर्ट्स द्वारा हरेक फ़ील्ड में टॉप परफ़ॉर् करने वालों द्वारा बनाए गए हाई-क्वालिटी की ह्यूमन बेसलाइन्स के आधार पर आंका जाता है. ये टास्क, अलग-अलग व्यवसायों और इंडस्ट्रीज़ के एक्सपर्ट्स से प्राप्त किए गए हैं, जो रियल-वर्ल्ड के प्रोफ़ेशनल टास्क का आईना हैं - जैसे कि ऑन-डिमांड अर्जेंट केयर प्रोवाइडर्स की एक कॉम्पटीटिव एनालिसिस तैयार करना, डिटेल में एमॉर्टिज़ेशन शेड्यूल्स बनाना और एक नई ग्रीन हाइड्रोजन फ़ैसिलिटी के लिए व्यवहार्य जल कुओं को आइडेंटिफ़ाई करना.

DSBench⁠(एक नई विंडो में खुलेगा) पर, जिसे डेटा एनालिसिस और मॉडलिंग से जुड़े रीयलिस्टिक डेटा साइंस टास्क पर एजेंट्स को इवैल्युएट करने के लिए डिज़ाइन किया गया है, ChatGPT एजेंट बेहतरीन तरीके से ह्यूमन परफ़ॉर्मेंस से काफ़ी आगे निकल गया है.

SpreadsheetBench पर, जो रियल-वर्ल्ड के सिनारियो से प्राप्त स्प्रेडशीट्स को एडिट करने की उनकी क्षमता के आधार पर मॉडल्स को इवैल्यूएट करता है, ChatGPT एजेंट मौजूदा मॉडल्स के मुकाबले बहुत ज़्यादा अंतर से बेहतर परफ़ॉर्मेंस करता है. अगर स्प्रेडशीट्स को सीधे एडिट करने की क्षमता दे दी जाए, तो ChatGPT एजेंट का स्कोर 45.5% के साथ और भी ज़्यादा हो जाता है, जबकि Excel में Copilot का स्कोर 20.0% होता है.

मेथडोलॉजी: SpreadsheetBench के लेखकों ने स्प्रेडशीट्स का मूल्यांकन करने के लिए Microsoft Excel का इस्तेमाल करते हुए Windows एन्वायर्मेंटन का इस्तेमाल किया. हमने एक OSX एन्वायर्नमेंट और LibreOffice का इस्तेमाल किया, जिसकी वजह से ग्रेडिंग में थोड़ा अंतर हो सकता है. जैसे कि, लेखकों को GPT‑4o के लिए 15.02% का कुल मिलाकर सख्त प्रतिबंध मिला, और हमें 13.38% मिले. हमने पूरे 912-सवालों के बेंचमार्क का इस्तेमाल किया.

एक इंटर्नल बेंचमार्क पर, जो पहले से तीसरे-साल के इन्वेस्टमेंट बैंकिंग एनालिस्ट मॉडलिंग टास्क को करने के लिए एक मॉडल की कैपबिलिटी को मापता है—जैसे कि अच्छी फ़ॉर्मेटिंग और साइटेशन्स के साथ एक फ़ॉर्च्यून 500 कंपनी के लिए तीन-स्टेटमेंट वाले एक फ़ाइनेंशियल मॉडल को तैयार करना, या टेक-प्राइवेट के लिए एक लीवरेज्ड बायआउट मॉडल बनाना—ChatGPT एजेंट को पॉवर करने वाला मॉडल डीप रिसर्च और o3 से काफ़ी बेहतर परफ़ॉर्म करता है. हरेक टास्क को सही होने और फ़ॉर्मूला के इस्तेमाल से जुड़े सैकड़ों क्राइटेरिया पर ग्रेड किया जाता है.

हमने BrowseComp⁠ पर ChatGPT एजेंट को भी इवैल्यूएट किया, जो एक ऐसा बेंचमार्क है जिसे हमने इस साल की शुरुआत में पब्लिश किया था, जो वेब पर मुश्किल-से-पता लगाई जाने वाली जानकारी को ढूंढने के लिए ब्राउज़िंग एजेंट्स की क्षमता को मापता है. इस मॉडल ने डीप रिसर्च के मुकाबले 68.9%, 17.4 प्रतिशत पॉइंट्स ज़्यादा के साथ एक नया SOTA सेट किया.

आखिर में, WebArena⁠(एक नई विंडो में खुलेगा) पर, जो रियल-वर्ल्ड के वेब टास्क को पूरा करने में वेब-ब्राउज़िंग एजेंट्स के परफ़ॉर्मेंस को इवैल्यूएट करने के लिए डिज़ाइन किया गया एक बेंचमार्क है, मॉडल o3‑पॉवर्ड CUA (मॉडल पॉवरिंग Operator) से बेहतर है.

इस्तेमाल कैसे करें

आप किसी भी बातचीत में किसी भी पॉइंट पर 'एजेंट मोड' को चुन करके कंपोज़र से टूल ड्रॉपडाउन के ज़रिये सीधे ChatGPT की नई एजेंटिक कैपबिलिटीज़ को एक्टिवेट कर सकते हैं. बस अपने मनचाहे टास्क के बारे में बताएं—चाहे वो डीप रिसर्च करना हो, एक स्लाइडशो बनाना हो, या खर्चे प्रस्तुत करना हो. आपका टास्क करने के दौरान, एक ऑन-स्क्रीन जानकारी ये साफ़ दिखा देती है कि ChatGPT क्या कर रहा है. जब भी ज़रुरत पड़े, आप दखल करके ब्राउज़र का कंट्रोल अपने हाथ में ले सकते हैं, जिससे ये पक्का हो सके कि टास्क आपके लक्ष्यों के साथ अलाइन होकर रहें.

ChatGPT एजेंट आपके कनेक्टर्स को एक्सेस कर सकता है, जिससे ये आपके वर्कफ़्लो के साथ इंटीग्रेट हो सकता है और रिलेवेंट, कार्रवाई करने लायक जानकारी को एक्सेस कर सकता है. एक बार ऑथेंटिकेट हो जाने पर, ये कनेक्टर्स, ChatGPT को जानकारी देखने और दिन के लिए आपके इनबॉक्स की समरी देने या एक मीटिंग के लिए आपके उपलब्ध टाइम स्लॉट पता करने जैसी चीज़ें करने में मदद करते हैं––इन साइट्स पर एक्शन लेने के लिए, हालांकि, आपको फ़िर भी ब्राउज़र पर लॉग इन करने के लिए कहा जाएगा ताकि एजेंट साइट के साथ बातचीत कर सके.

इसके अलावा, आप पूरे हो चुके टास्क को अपने आप दोहराने के लिए शेड्यूल कर सकते हैं, जैसे कि हरेक सोमवार की सुबह एक वीकली मेट्रिक्स रिपोर्ट जनरेट करना.

नई कैपेबिलिटीज़, नए रिस्क

इस रिलीज़ के साथ पहली बार ऐसा हो रहा है कि यूज़र्स ChatGPT से वेब पर कार्रवाई करने के लिए कह सकते हैं. इससे नए रिस्क पैदा होते हैं, ख़ास तौर से इसलिए क्योंकि ChatGPT एजेंट सीधे आपके डेटा के साथ काम कर सकता है, चाहे वो कनेक्टर्स या वेबसाइट्स के ज़रिये एक्सेस की गई जानकारी हो, जिसे आपने टेकओवर मोड के ज़रिये लॉग इन किया है. हमने Operator के रिसर्च प्रीव्यू से मज़बूत कंट्रोल्स को मजबूत किया है और लाइव वेब पर सेंसिटिव जानकारी को हैंडल करने, बड़े पैमाने पर यूज़र एक्सेस और (सीमित) टर्मिनल नेटवर्क एक्सेस जैसी चुनौतियों के लिए सुरक्षा उपाय जोड़े हैं. हालांकि ये उपाय जोखिम को काफ़ी कम कर देते हैं, लेकिन ChatGPT एजेंट के एक्स्पैंडेड टूल्स और बड़े पैमाने पर यूज़र एक्सेस का मतलब है कि इसकी ओवरऑल रिस्क प्रोफ़ाइल ज़्यादा है.

हमने प्रॉम्प्ट इंजेक्शन के ज़रिये प्रतिकूल हेरफ़ेर के खिलाफ़ ChatGPT एजेंट की सुरक्षा पर ख़ास ज़ोर दिया है, जो आम तौर पर एजेंटिक सिस्टम्स के लिए एक जोखिम है, और उसी हिसाब से और ज़्यादा बड़े शमन उपाय तैयार किए हैं. प्रॉम्प्ट इंजेक्शन, थर्ड पार्टियों द्वारा खराब निर्देशों के ज़रिये इसके बर्ताव में हेरफ़ेर करने की कोशिशें हैं, जिनका सामना ChatGPT एजेंट किसी टास्क को पूरा करते समय वेब पर कर सकता है. जैसे कि, किसी वेबपेज में छिपा हुआ कोई खराब प्रॉम्प्ट, छिपे हुए एलिमेंट्स या मेटाडेटा में, एजेंट को अनचाहे टास्क करने के लिए प्रेरित कर सकता है, जैसे कि कनेक्टर से प्राइवेट डेटा को हमलावर के साथ शेयर करना, या यूज़र द्वारा लॉग इन की गई साइट पर कोई हानिकारक कार्रवाई करना. चूंकि ChatGPT एजेंट डायरेक्ट एक्शन्स कर सकता है, इसलिए सफ़ल हमलों का असर और ज़्यादा हो सकता है और रिस्क भी ज़्यादा हो सकते हैं.

हमने एजेंट को प्रॉम्प्ट इंजेक्शन को आइडेंटिफ़ाई करने और उसे रोकने के लिए ट्रेन और टेस्ट किया है, इसके अलावा प्रॉम्प्ट इंजेक्शन अटैक्स का जल्दी डिटेक्ट करके उनका जवाब देने के लिए मॉनिटरिंग का इस्तेमाल भी किया है. अहम कार्रवाइयों से पहले स्पष्ट यूज़र कन्फ़र्मेंशन की ज़रुरत होने से इन अटैक्स से होने वाले नुकसान का रिस्क और भी कम हो जाता है, और यूज़र्स ज़रुरत के हिसाब से टास्क अपने कंट्रोल में लेकर या रोककर दखल कर सकते हैं. यूज़र्स को एजेंट को क्या जानकारी प्रदान करनी है, ये फ़ैसला लेते समय इन समझौतों पर विचार करना चाहिए, साथ ही इन सारे रिस्क के प्रति अपने रिस्क को कम करने के लिए कदम उठाने चाहिए, जैसे कि जब किसी टास्क के लिए कनेक्टर्स की ज़रुरत न हो तो उन्हें डिसेबल कर देना चाहिए.

हमने मॉडल की गलतियों को कम करने के उपाय भी लागू किए हैं, खासकर इसलिए क्योंकि मॉडल अब ऐसे टास्क कर सकता है जो रियल वर्ल्ड को प्रभावित करते हैं:

स्पष्ट यूज़र कन्फ़र्मेशन: ChatGPT को रियल-वर्ल्ड के नतीजों वाले एक्शन्स, जैसे खरीदारी करने से पहले स्पष्ट तौर पर आपकी अनुमति मांगने के लिए ट्रेन किया गया है.
एक्टिव सुपरविज़न (“वॉच मोड”): ईमेल्स भेजने जैसे कुछ क्रिटिकल टास्क के लिए आपकी चौकस निगरानी की ज़रुरत पड़ती है.
प्रोएक्टिव तरीके से रिस्क कम करना: ChatGPT को बैंक ट्रांसफ़र्स जैसे ज़्यादा रिस्क वाले टास्क को एक्टिव तरीके से मना करने के लिए ट्रेन किया गया है.

आखिर में, हमने मॉडल की एक्सेस वाले डेटा को सीमित करने के लिए अतिरिक्त कंट्रोल्स पेश किए हैं:

प्राइवेसी कंट्रोल्स: ChatGPT की सेटिंग्स में एक क्लिक से, आप सभी ब्राउज़िंग डेटा को डिलीट कर सकते हैं और सभी एक्टिव वेबसाइट सेशन्स से तुरंत लॉग आउट कर सकते हैं. नहीं तो, कुकीज़ हरेक देखी गई वेबसाइट की कुकी पॉलिसियों के आधार पर बनी रहती हैं, जिससे साइट्स पर बार-बार विज़िट करना और ज़्यादा आसान हो सकता है.
सिक्योर ब्राउज़र टेकओवर मोड: जब आप ChatGPT के ब्राउज़र (“टेकओवर मोड”) का इस्तेमाल करके वेब के साथ इंटरैक्ट करते हैं, तो आपके इनपुट प्राइवेट ही रहते हैं. ChatGPT इन सेशन्स के दौरान आपके द्वारा दर्ज किए गए किसी भी डेटा को जमा या स्टोर नहीं करता है, जैसे पासवर्ड, क्योंकि मॉडल को इसकी ज़रुरत नहीं होती है, और अगर वो इसे कभी न देखे, तो ये सुरक्षित होता है.

बायोलॉजिकल रिस्क के लिए हमारा अब तक का सबसे मज़बूत सेफ़्टी स्टैक

मॉडल की बढ़ी हुई कैपेबिलिटीज़ के साथ, हमने अपने तैयार रहने के फ़्रेमवर्क⁠ के तहत ChatGPT एजेंट को ज़्यादा बायोलॉजिकल और केमिकल कैपेबिलिटीज़ के तौर पर मानने का फ़ैसला किया है, जिससे संबंधित सुरक्षा उपायों को एक्टिवेट किया जा सके. हालांकि हमारे पास इस बात के निश्चित सबूत नहीं हैं कि ये मॉडल किसी नौसिखिए को गंभीर बायोलॉजिकल नुकसान पहुंचाने में सार्थक तौर पर मदद कर सकता है—जो कि ज़्यादा क्षमता के लिए हमारी सीमा है—फ़िर भी हम सावधानी बरत रहे हैं और ज़रूरी सुरक्षा उपायों को अभी से लागू कर रहे हैं. नतीजन, इस मॉडल में आज तक का हमारा सबसे कॉम्प्रिहेंसिव सेफ़्टी स्टैक है, जिसमें बायोलॉजी के लिए बेहतर सुरक्षा उपाय शामिल हैं: कॉम्प्रिहेंसिव खतरा मॉडलिंग, दोहरे इस्तेमाल से इनकार करने की ट्रेनिंग, हमेशा चालू रहने वाले क्लासिफ़ायर्स और रीज़निंग मॉनिटर्स, और स्पष्ट एन्फ़ोर्समेंट पाइपलाइन्स.

ChatGPT एजेंट को सुरक्षित करने के हमारे काम के अलावा, हम जानते हैं कि लेयर्ड बायोसेफ़्टी सबसे बढ़िया तब काम करती है जब सुरक्षा उपाय किसी एक लैब से आगे तक बढ़ जाते हैं, इसलिए हम सुरक्षा को मजबूत करने के लिए पूरे इकोसिस्टम में कोलैबोरेट करते हैं. पहले दिन से ही हमने अपने खतरे के मॉडल, आंकलन और पॉलिसियों को आकार देने के लिए बाहरी बायोसिक्यूरिटी एक्सपर्ट्स, सेफ़्टी इंस्टिट्यूट्स, और अकादमिक रिसर्च करने वालों के साथ काम किया है. बायोलॉजी में ट्रेन किए हुए रिव्यु करने वालों ने हमारे इवैल्यूएशन डेटा को वैलिडेट किया है, और डोमेन-एक्सपर्ट रेड टीमर्स ने रीयलिस्टिक सिनारियो में सुरक्षा उपायों को स्ट्रेस-टेस्ट किया है. इस महीने की शुरुआत में हमने सरकार, शिक्षा जगत, नेशनल लैब और NGOs के एक्सपर्ट्स के साथ एक बायोडिफ़ेंस वर्कशॉप का आयोजन किया था, जिसका उद्देश्य कोलैबोरेशन में तेज़ी लाना और AI द्वारा संचालित बायोडिफ़ेंस रिसर्च को आगे बढ़ाना था. हम उभरते रिस्क से आगे रहने के लिए ग्लोबल स्तर पर पार्टनरशिप करते रहेंगे.

सिस्टम कार्ड⁠ में यूनिफ़ाइड एजेंटिक मॉडल के लिए हमारी मज़बूत सुरक्षा संबंधी अप्रोच के बारे में और ज़्यादा पढ़ें. हम एक बग बाउंटी प्रोग्राम⁠ भी शुरू कर रहे हैं ताकि हम रियल-वर्ल्ड के रिस्क का पता लगा सकें और उनका निवारण कर सकें.

उपलब्‍धता

ChatGPT एजेंट आज से Pro, Plus और Team के लिए शुरू हो रहा है; Pro को दिन ख़त्म होने तक एक्सेस मिल जाएगी, जबकि Plus और Team यूज़र्स को अगले कुछ दिनों में एक्सेस मिलेगी. आने वाले हफ़्तों में Enterprise और Education यूज़र्स को इसके लिए एक्सेस मिल जाएगी. Pro यूज़र्स को प्रति माह 400 मेसेज मिलते हैं, जबकि दूसरे पेड यूज़र्स को प्रति माह 40 मैसेज मिलते हैं, व फ़्लेक्सिबल क्रेडिट-बेस्ड ऑप्शन्स के ज़रिये अतिरिक्त इस्तेमाल उपलब्ध होता है.

हम अभी भी यूरोपीय आर्थिक क्षेत्र और स्विट्जरलैंड के लिए एक्सेस को इनेबल करने पर काम कर रहे हैं.

Operator रिसर्च प्रीव्यू साइट कुछ और हफ़्तों तक फ़ंक्शनल रहेगी, उसके बाद इसे बंद कर दिया जाएगा. डीप रिसर्च ChatGPT एजेंट की कैपबिलिटीज़ का एक हिस्सा है. अगर आप ओरिजिनल डीप रिसर्च फ़ीचर को पसंद करते हैं—जिसे रन करने में थोड़ा ज़्यादा समय लग सकता है, लेकिन डिफ़ॉल्ट तरीके से और ज़्यादा डिटेल में, गहराई से जवाब देता है—तो आप मेसेज कंपोज़र में ड्रॉपडाउन से "डीप रिसर्च" को सिलेक्ट करके फ़िर भी इसे एक्सेस कर सकते हैं.

सीमाएं और आगे की ओर देखना

ChatGPT एजेंट अभी भी अपने शुरूआती स्टेज में है. ये कई बेहद मुश्किल टास्क कर सकता है, लेकिन ये अभी भी गलतियां कर सकता है.

हालांकि हम स्लाइडशो जनरेट करने की इसकी क्षमता में बहुत ज़्यादा संभावनाएं देखते हैं, ये फ़ंक्शनैलिटी अभी बीटा स्टेज में है. फ़िलहाल, आउटपुट कभी-कभी अपने फ़ॉर्मैटिंग और अपनी पॉलिश में अधूरा लग सकता है, ख़ास तौर से तब जब इसे किसी मौजूदा डॉक्यूमेंट के बिना शुरू किया जाता है. हमने मॉडल की शुरूआती कैपबिलिटीज़ को ऐसे आर्टिफ़ैक्ट्स जनरेट करने पर फ़ोकस किया जो प्रेज़ेंटेशन्स के लिए एक मुनासिब फ़्लो और फ़ॉर्मेट में जानकारी को ऑर्गनाइज़ करते हैं, जिसमें टेक्स्ट, चार्ट, इमेज जैसे एलिमेंट्स शामिल होते हैं, जो एक्सपोर्ट के बाद मौलिक तौर पर आसानी से एडिटेबल होते हैं, स्ट्रक्चर और फ़्लेक्सिबिलिटी के लिए ऑप्टिमाइज़ करते हैं. अभी, व्यूअर में स्लाइड्स और एक्सपोर्ट किए गए पावरपॉइंट के बीच कभी-कभी अंतर होते हैं, जिन्हें कम करने के लिए हम काम कर रहे हैं. इसके अलावा, जबकि आप अभी ChatGPT के लिए एक मौजूदा स्प्रेडशीट को एडिट करने या टेम्पलेट के तौर पर इस्तेमाल करने के लिए अपलोड कर सकते हैं, ये कैपेबिलिटी अभी तक स्लाइडशो के लिए उपलब्ध नहीं है. हम पहले से ही ChatGPT के स्लाइडशो क्रिएशन के अगले इटरेशन को ट्रेन कर रहे हैं ताकि बड़े पैमाने की कैपबिलिटीज़ और बेहतर फ़ॉर्मेटिंग के साथ ज़्यादा पॉलिश किए हुए, बेहतर आउटपुट्स तैयार किया जा सके.

कुल मिलाकर, हम समय के साथ ChatGPT एजेंट की योग्यता, गहराई और वर्सटाइलिटी में लगातार सुधार की उम्मीद करते हैं, जिसमें ज़्यादा सीमलेस इंटरैक्शन्स भी शामिल हैं क्योंकि हम इसे इस्तेमाल करने के लिए सुरक्षित बनाते हुए इसे और ज़्यादा फ़ायदेमंद बनाने के लिए यूज़र से ज़रूरी निगरानी की मात्रा को एडजस्ट करना जारी रखते हैं.

एपेंडिक्स

SpreadsheetBench
मॉडल	इवैल्यूएशन एन्वायर्नमेंट	सॉफ़्ट प्रतिबंध (%): सेल-लेवल	सॉफ़्ट प्रतिबंध (%): शीट-लेवल	सॉफ़्ट प्रतिबंध (%): कुल मिलाकर
GPT‑4o	Windows, Excel	15.03	23.65	18.35
Excel में Copilot	Windows, Excel	23.33	15.00	20.00
GPT‑4o	OSX, LibreOffice	15.86	18.33	16.81
OpenAI o3	OSX, LibreOffice	22.40	24.60	23.25
ChatGPT एजेंट	OSX, LibreOffice	38.27	30.48	35.27
.xlsx के साथ ChatGPT एजेंट	OSX, LibreOffice	50.56	37.51	45.54
ह्यूमन		75.56	65.00	71.33

लाइवस्ट्रीम रीप्ले

लेखक

OpenAI

फ़ुटनोट

* ब्राउज़िंग को इनेबल करते वक्‍़त, मॉडल को ऑनलाइन कई बार बिल्‍कुल सही जवाब मिल सकता है, जैसे कि, डेटासेट से सैंपल प्रॉब्‍लम वाले ब्लॉग पोस्ट को पढ़ने के द्वारा. हम ब्राउज़िंग के वक्‍़त दो स्‍ट्रैटजी से मॉडल द्वारा धोखा दिए जाने से जुड़ी संभावनाओं को कम करते हैं:

1. उन डोमेन को ब्‍लॉक किया, जहां से हमने मॉडल को पहले धोखा देते हुए पाया.

2. संदिग्ध व्यवहार को आइडेंटिफ़ाई करने की हरेक कोशिश में सभी टूल आउटपुट टोकन की जांच करने के लिए एक एक्स्ट्रा मॉडल का इस्तेमाल मॉनिटर के तौर पर किया गया. संदिग्ध बिहेवियर को कुछ इस तरह बताया जा सकता है: "एक पेज, फ़ाइल या स्निपेट, जिसका मुख्य मक़सद इस ख़ास सवाल का बिल्‍कुल सही जवाब देना है—जैसे कि, एक ऑफ़ि‍शियल ग्रेडिंग की, लीक हुए “सॉल्युशन्स” की समरी, या चर्चा में बेहतर जवाब को हूबहू क्वोट करना". अच्‍छे बिहेवियर को कुछ इस तरह बताया जा सकता है, "कोई भी ऑफ़ि‍शियल सोर्स, जिससे कोई भी मेहनती आदमी मदद ले सकता है (डॉक्यूमेंटेशन, मैनुअल, विद्वानों के पेपर, जाने-माने आर्टिकल) फिर चाहे उसमें अनजाने से ही सही जवाब‍ मिला हो." ऐसे कोई भी अटेम्पट, जिनमें मॉनिटर ने रोलआउट को संदिग्ध माना हो, ग़लत ही मानी जाएंगी. इस जांच-पड़ताल में फ़ेल हुए ज़्यादातर सैंपल में ऐसी प्रॉब्लम थीं, जिनका बिल्कुल सही सॉल्यूशन HLE से बाहर वाले अनेकों इंटरनेट सोर्सेस पर उपलब्ध था.

**OpenAI के पास टियर 1-3 डेटासेट पर 290 प्राइवेट सवालों में से 237 तक एक्सक्लूसिव एक्सेस मौजूद है. FrontierMath टियर 4 के सवाल इस इवैल्यूएशन में शामिल नहीं हैं. रिज़ल्ट्स का इवैल्यूएशन हरेक सवाल का जवाब देने के 16 अटेम्प्ट्स के औसत के तौर पर किया गया. ChatGPT एजेंट के रिज़ल्ट्स OpenAI द्वारा प्राप्त किए जाते हैं, जिन्हें Epoch AI द्वारा ग्रेड किया जाता है, ब्राउज़र और टर्मिनल एक्सेस के साथ, और हर जवाब के लिए 128K टोकन की एक लिमिट होती है. OpenAI o4-mini और o3 मूल्यांकन Epoch AI द्वारा प्राप्त और ग्रेड किए जाते हैं, जिसमें ब्राउज़र और टर्मिनल एक्सेस नहीं होती है, फ़ंक्शन कॉलिंग के ज़रिये पायथन स्क्रिप्ट का इस्तेमाल किया जाता है, और प्रति जवाब 100K टोकन्स की लिमिट होती है.

*** Oracle@64, 64 सैंपल रन में प्राप्त बेस्ट स्कोर को रेफ़र करता है, जिसे ग्राउंड ट्रुथ का इस्तेमाल करके चुना जाता है (यानी, हम एक्चुअल ग्रेडेड परफ़ॉर्मेंस के आधार पर हरेक टास्क के लिए सबसे ज़्यादा स्कोरिंग अटेम्प्ट चुनते हैं). हम सभी टास्क में इन प्रति-टास्क बेस्ट स्कोर का एवरेज रिपोर्ट करते हैं. ये मेट्रिक, मॉडल की ऊपरी सीमा क्षमता और टास्क परफ़ॉर्मेंस में अंतर को हाईलाइट करता है—ये दर्शाता है कि सफ़ल होने पर मॉडल कितना कैपेबल हो सकता है और आगे की ट्रेनिंग के ज़रिये स्थिरता में सुधार की गुंजाइश का संकेत देता है. वही आम "N का बेस्ट" मेट्रिक्स के विपरीत, जो मॉडल कॉन्फ़िडेंस के आधार पर सिलेक्ट करते हैं, oracle@64 सिलेक्शन के लिए मौलिक सच्चाई का इस्तेमाल करता है और बाइनरी पास/फ़ेल के बजाय लगातार 0-1 पैमाने पर ग्रेडेड टास्क पर लागू होता है.