स्किप करके मेन कंटेंट पर जाऍं
OpenAI

पेश है ChatGPT एजेंट: रिसर्च और एक्शन के बीच का पुल

ChatGPT अब सोचकर काम करता है, अपने खुद के कंप्यूटर का इस्तेमाल करके आपके लिए टास्क को पूरा करने के लिए एक टूलबॉक्स से एक्टिव तरीके से एजेंटिक स्किल्स चुनता है.

लोड किया जा रहा है...

ChatGPT अब अपने कंप्यूटर का इस्तेमाल करके आपके लिए काम कर सकता है, और शुरू से आखिर तक कॉम्प्लेक्स टास्क हैंडल कर सकता है.

अब आप ChatGPT से ऐसे अनुरोधों को हैंडल करने के लिए कह सकते हैं, जैसे कि "मेरे कैलेंडर को देखो और हालिया समाचारों के आधार पर आगामी क्लाइंट मीटिंग्स के बारे में मुझे जानकारी दो", "चार लोगों के लिए जापानी नाश्ता बनाने के लिए सामग्री का प्लैन बनाओ और खरीदें", और "तीन कॉम्पिटिटर्स को एनालाइज़ करो और एक स्लाइड डेक बनाओ." ChatGPT समझदारी से वेबसाइट्स को नेविगेट करेगा, रिज़ल्ट्स को फ़िल्टर करेगा, ज़रुरत पड़ने पर आपको सुरक्षित तरीके से लॉग इन करने के लिए प्रॉम्प्ट करेगा, कोड रन करेगा, एनालिसिस करेगा, और यहां तक कि एडिटेबल स्लाइडशो और स्प्रेडशीट्स भी डिलीवर करेगा जो इसके निष्कर्षों की समरी देंगे. 

इस नई कैपेबिलिटी के मूल में एक यूनिफ़ाइड एजेंटिक सिस्टम है. ये पहले की सफ़लताओं की तीन ताकतों को एक साथ लाता है: Operator की वेबसाइट्स के साथ बातचीत करने की क्षमता, डीप रिसर्च की जानकारी को सिंथेसाइज़ करने की स्किल, और ChatGPT की इंटेलिजेंस और बातचीत की फ़्लूएंसी.

ChatGPT अपने खुद के वर्चुअल कंप्यूटर का इस्तेमाल करके इन टास्क को पूरा करता है, जो आपके निर्देशों के आधार पर शुरू से आखिर तक बेहद मुश्किल वर्कफ़्लो को हैंडल करने के लिए रीज़निंग और एक्शन के बीच आसानी से शिफ़्ट होता है.

सबसे ज़रूरी बात ये है कि आपके पास हमेशा कंट्रोल रहता है. ChatGPT ज़रूरी एक्शन्स करने से पहले अनुमति मांगता है, और आप किसी भी वक़्त आसानी से दखल कर सकते हैं, ब्राउज़र पर कंट्रोल कर सकते हैं, या टास्क को रोक सकते हैं.

आज से, Pro, Plus और Team यूज़र्स किसी भी बातचीत में किसी भी समय 'एजेंट मोड' को चुन करके कंपोज़र से टूल्स ड्रॉपडाउन के ज़रिये सीधे ChatGPT की नई एजेंटिक क्षमताओं को एक्टिवेट कर सकते हैं. 

जबकि ChatGPT एजेंट पहले से ही बेहद मुश्किल टास्क हैंडल करने के लिए एक बहुत ही पॉवरफ़ुल टूल है, आज का लॉन्च सिर्फ़ एक शुरुआत है. हम इसमें नियमित तौर पर ज़रूरी सुधार जोड़ते रहेंगे, जिससे ये समय के साथ और ज़्यादा लोगों के लिए ज़्यादा सक्षम और फ़ायदेमंद बन जाएगा.

Operator और डीप रिसर्च का एक नेचुरल इवॉल्युशन

इससे पहले, Operator और डीप रिसर्च दोनों में ही अपनी-अपनी यूनिक ताकत थी: Operator वेब पर स्क्रॉल, क्लिक और टाइप कर सकता था, जबकि डीप रिसर्च, जानकारी की एनालिसिस और समरी तैयार करने में बेहतरीन था. लेकिन दोनों अलग-अलग परिस्थितियों में सबसे बढ़िया काम करते थे: Operator एनालिसिस में गहराई से नहीं काम कर सकता था या डिटेल में रिपोर्ट नहीं लिख सकता था, और डीप रिसर्च रिज़ल्ट्स में सुधार करने या यूज़र ऑथेंटिकेशन की ज़रुरत वाले कंटेंट को एक्सेस करने के लिए वेबसाइट्स के साथ इंटरैक्ट नहीं कर सकता था. वाकई में, हमने देखा कि यूज़र्स द्वारा Operator के साथ किए गए कई सवाल असल में डीप रिसर्च के लिए ज़्यादा बेहतर थे, इसलिए हमने दोनों के बेस्ट फ़ीचर्स को साथ लिया.

ChatGPT में इन एक-दूसरे को कॉम्प्लीमेंट करने वाली ताकतों को इंटीग्रेट करके व और ज़्यादा नए टूल्स डाल करके, हमने एक ही मॉडल के अंदर पूरी तरह से नई कैपेबिलिटीज़ को अनलॉक किया है. ये अब एक्टिव तरीके से वेबसाइट्स से जुड़ सकता है—क्लिक करके, फ़िल्टर करके, और ज़्यादा सटीक, अच्छे रिज़ल्ट्स जमा करके. आप एक साधारण बातचीत से शुरू करके उसी चैट में सीधे कार्रवाई का अनुरोध करने के लिए भी नेचुरल तरीके से ट्रांज़ीशन कर सकते हैं. 

एक ऐसा एजेंट जो आपके लिए, आपके साथ काम करता है 

हमने ChatGPT एजेंट को टूल्स के एक सुइट से लैस किया है: एक विज़ुअल ब्राउज़र जो ग्राफ़िकल-यूज़र इंटरफ़ेस के ज़रिये वेब के साथ इंटरैक्ट करता है, आसान रीज़निंग-बेस्ड वेब क्वेरीज़ के लिए एक टेक्स्ट-बेस्ड ब्राउज़र, एक टर्मिनल और डायरेक्ट API एक्सेस. एजेंट ChatGPT कनेक्टर्स(एक नई विंडो में खुलेगा) का भी फ़ायदा ले सकता है, जो आपको Gmail और Github जैसे ऐप्स को कनेक्ट करने में मदद करता है ताकि ChatGPT आपके प्रॉम्प्ट्स से जुड़ी जानकारी ढूंढ सके और उन्हें अपने जवाबों में इस्तेमाल कर सके. आप ब्राउज़र का कंट्रोल ले करके किसी भी वेबसाइट पर लॉग इन कर सकते हैं, जिससे वो अपनी रिसर्च और टास्क एक्सीक्यूशन दोनों को और ज़्यादा गहराई से व बड़े पैमाने पर कर सकेगा. ChatGPT को वेब की जानकारी को एक्सेस करने और उससे इंटरैक्ट करने के लिए ये अलग-अलग रास्ते देने का मतलब है वो टास्क को सबसे बढ़िया तरीके से परफ़ॉर्म करने के लिए ऑप्टिमल पाथ चुन सकता है. जैसे कि, ये API के ज़रिये आपके कैलेंडर के बारे में जानकारी जमा कर सकता है, टेक्स्ट-बेस्ड ब्राउज़र का इस्तेमाल करके बड़ी मात्रा में टेक्स्ट पर बढ़िया तरीके से रीज़निंग कर सकता है, साथ ही मुख्य तौर पर इंसानों के लिए डिज़ाइन की गई वेबसाइट्स के साथ विज़ुअल तरीके से इंटरैक्ट करने की कैपेबिलिटी भी रखता है. 

ये सब अपने खुद के वर्चुअल कंप्यूटर का इस्तेमाल करके किया जाता है, जो टास्कय के लिए ज़रूरी कॉन्टेक्स्ट को बरकरार रखता है, तब भी जब कई टूल्स का इस्तेमाल किया जाता है—मॉडल टेक्स्ट ब्राउज़र या विज़ुअल ब्राउज़र का इस्तेमाल करके एक पेज खोलने, वेब से एक फ़ाइल डाउनलोड करने, टर्मिनल में एक कमांड रन करके उसमें बदलाव करने और फ़िर आउटपुट को विज़ुअल ब्राउज़र में वापस देखना चुन सकता है. ये मॉडल टास्क को स्पीड, एक्यूरेसी, और बढ़िया तरीके से पूरा करने के लिए अपनी अप्रोच को एडैप्ट करता है.

ChatGPT एजेंट को नियमित तौर पर, कोलैबोरेटिव वर्कफ़्लो के लिए डिज़ाइन किया गया है, जो पिछले मॉडल्स के मुकाबले कहीं ज़्यादा इंटरैक्टिव और फ़्लेक्सिबल है. ChatGPT के काम करने के दौरान, आप किसी भी समय अपने निर्देशों को स्पष्ट करने के लिए हस्तक्षेप कर सकते हैं, इसे उम्मीद के हिसाब से नतीजों की ओर ले जा सकते हैं, या टास्क को पूरी तरह से बदल सकते हैं. ये वहीं से वापस शुरू करेगा जहां इसने छोड़ा था, अब नई जानकारी के साथ, लेकिन पिछली प्रोग्रेस को खोए बिना. इसी तरह, ChatGPT खुद भी ज़रूरत पड़ने पर आपसे और ज़्यादा जानकारी मांग सकता है ताकि ये पक्का किया जा सके कि टास्क आपके लक्ष्यों के साथ अलाइन होकर रहे. अगर कोई टास्क उम्मीद से ज़्यादा समय लेता है या ये लगे कि कहीं अटक गया है, तो आप उसे रोक सकते हैं, उससे प्रोग्रेस समरी मांग सकते हैं, या पूरी तरह से रोक सकते हैं और थोड़े-बहुत रिज़ल्ट्स प्राप्त कर सकते हैं. अगर आपके फ़ोन में ChatGPT ऐप है, तो ये आपका टास्क पूरा होने पर आपको एक नोटिफ़िकेशन भेजेगा.

रियल-वर्ल्ड के इस्तेमाल का विस्तार 

ये यूनिफ़ाइड एजेंटिक कैपबिलिटीज़ रोज़मर्रा और प्रोफ़ेशनल दोनों कॉन्टेक्स्ट में ChatGPT के इस्तेमाल को अहम तरीके से बढ़ाती हैं. काम पर, आप दोहराए जाने वाले टास्क को ऑटोमेट कर सकते हैं, जैसे स्क्रीनशॉट्स या डैशबोर्ड्स को एडिटेबल वेक्टर एलिमेंट्स से बने प्रेज़ेंटेशन्स में कन्वर्ट करना, मीटिंग्स को दोबारा अरेंज करना, ऑफ़साइट्स की प्लैनिंग और बुकिंग करना, और समान फ़ॉर्मेटिंग को बरकरार रखते हुए नए फ़ाइनेंशियल डेटा के साथ स्प्रेडशीट्स को अपडेट करना. अपनी पर्सनल लाइफ़ में, आप इसका इस्तेमाल आसानी से ट्रेवल इटिनेररीज़ को प्लैन और बुक करने, पूरी डिनर पार्टियों को डिज़ाइन और बुक करने, या स्पेशलिस्ट ढूंढने और अपॉइंटमेंट शेड्यूल करने के लिए कर सकते हैं. 

मॉडल की एडवांस्ड कैपबिलिटीज़ वेब ब्राउज़िंग और रियल-वर्ल्ड के टास्क पूरा करने की कैपबिलिटीज़ को मापने वाले इवैल्यूएशन्स पर इसके स्टेट-ऑफ़-द-आर्ट (SOTA) परफ़ॉर्मेंस में रिफ़्लेक्ट होती हैं. 

ह्यूमैनिटी’ज़ लास्ट एग्ज़ाम(एक नई विंडो में खुलेगा)* पर, जो एक्सपर्ट-लेवल के सवालों पर विषयों की एक बड़ी रेंज में AI के परफ़ॉर्मेंस को मापने वाला एक इवैल्यूएशन है, ChatGPT एजेंट को पॉवर करने वाले मॉडल ने 41.6 पर एक नया पास@1 SOTA स्कोर किया. चूंकि एजेंट डायनामिक तरीके से प्लैन करता है और अपने टूल्स खुद चुनता है, इसलिए वो एक ही टास्क को अलग-अलग रन में अलग-अलग तरीकों से पूरा कर सकता है. जब हमने इसे एक सरल समानांतर रोलआउट रणनीति के साथ बढ़ाया - एक साथ आठ प्रयास चलाना और सबसे अधिक आत्म-रिपोर्ट किए गए आत्मविश्वास वाले को चुनना - तो एजेंट का एचएलई स्कोर 44.4 तक बढ़ जाता है।

FrontierMath** सबसे मुश्किल जाना-माना मैथ बेंचमार्क है, जिसमें नए, पब्लिश नहीं किए हुए प्रॉब्लम्स शामिल हैं, जिन्हें हल करने में एक्सपर्ट मैथमेटिशियन्स को भी अक्सर घंटों या यहां तक कि दिन भी लग जाते हैं. कोड एक्सीक्यूशन के लिए टर्मिनल के लिए एक्सेस जैसे टूल के इस्तेमाल से, ChatGPT एजेंट 27.4% एक्यूरेसी तक पहुंचता है, जो पिछले दोनों मॉडल्स के मुकाबले काफ़ी बेहतर परफ़ॉर्मेंस है.

हमने बेहद मुश्किल रियल-वर्ल्ड के टास्क के आधार पर तैयार किए गए बेंचमार्क्स का इस्तेमाल करके भी मॉडल का असेसमेंट किया. बेहद मुश्किल, इकॉनोमिक तौर पर कीमती नॉलेज-वर्क टास्क पर मॉडल के परफ़ॉर्मेंस का इवैल्यूएशन करने के लिए डिज़ाइन किए गए एक इंटर्नल बेंचमार्क पर, ChatGPT एजेंट का आउटपुट टास्क पूरा करने के समय की एक रेंज के लगभग आधे मामलों में इंसानों के मुकाबले तुलना करने लायक या उससे बेहतर है, जबकि o3 और o4-mini से काफ़ी बेहतर परफ़ॉर्म करता है. मॉडल आउटपुट्स को एक्सपर्ट्स द्वारा हरेक फ़ील्ड में टॉप परफ़ॉर् करने वालों द्वारा बनाए गए हाई-क्वालिटी की ह्यूमन बेसलाइन्स के आधार पर आंका जाता है. ये टास्क, अलग-अलग व्यवसायों और इंडस्ट्रीज़ के एक्सपर्ट्स से प्राप्त किए गए हैं, जो रियल-वर्ल्ड के प्रोफ़ेशनल टास्क का आईना हैं - जैसे कि ऑन-डिमांड अर्जेंट केयर प्रोवाइडर्स की एक कॉम्पटीटिव एनालिसिस तैयार करना, डिटेल में एमॉर्टिज़ेशन शेड्यूल्स बनाना और एक नई ग्रीन हाइड्रोजन फ़ैसिलिटी के लिए व्यवहार्य जल कुओं को आइडेंटिफ़ाई करना. 

DSBench(एक नई विंडो में खुलेगा) पर, जिसे डेटा एनालिसिस और मॉडलिंग से जुड़े रीयलिस्टिक डेटा साइंस टास्क पर एजेंट्स को इवैल्युएट करने के लिए डिज़ाइन किया गया है, ChatGPT एजेंट बेहतरीन तरीके से ह्यूमन परफ़ॉर्मेंस से काफ़ी आगे निकल गया है.

SpreadsheetBench पर, जो रियल-वर्ल्ड के सिनारियो से प्राप्त स्प्रेडशीट्स को एडिट करने की उनकी क्षमता के आधार पर मॉडल्स को इवैल्यूएट करता है, ChatGPT एजेंट मौजूदा मॉडल्स के मुकाबले बहुत ज़्यादा अंतर से बेहतर परफ़ॉर्मेंस करता है. अगर स्प्रेडशीट्स को सीधे एडिट करने की क्षमता दे दी जाए, तो ChatGPT एजेंट का स्कोर 45.5% के साथ और भी ज़्यादा हो जाता है, जबकि Excel में Copilot का स्कोर 20.0% होता है. 

मेथडोलॉजी: SpreadsheetBench के लेखकों ने स्प्रेडशीट्स का मूल्यांकन करने के लिए Microsoft Excel का इस्तेमाल करते हुए Windows एन्वायर्मेंटन का इस्तेमाल किया. हमने एक OSX एन्वायर्नमेंट और LibreOffice का इस्तेमाल किया, जिसकी वजह से ग्रेडिंग में थोड़ा अंतर हो सकता है. जैसे कि, लेखकों को GPT‑4o के लिए 15.02% का कुल मिलाकर सख्त प्रतिबंध मिला, और हमें 13.38% मिले. हमने पूरे 912-सवालों के बेंचमार्क का इस्तेमाल किया.

एक इंटर्नल बेंचमार्क पर, जो पहले से तीसरे-साल के इन्वेस्टमेंट बैंकिंग एनालिस्ट मॉडलिंग टास्क को करने के लिए एक मॉडल की कैपबिलिटी को मापता है—जैसे कि अच्छी फ़ॉर्मेटिंग और साइटेशन्स के साथ एक फ़ॉर्च्यून 500 कंपनी के लिए तीन-स्टेटमेंट वाले एक फ़ाइनेंशियल मॉडल को तैयार करना, या टेक-प्राइवेट के लिए एक लीवरेज्ड बायआउट मॉडल बनाना—ChatGPT एजेंट को पॉवर करने वाला मॉडल डीप रिसर्च और o3 से काफ़ी बेहतर परफ़ॉर्म करता है. हरेक टास्क को सही होने और फ़ॉर्मूला के इस्तेमाल से जुड़े सैकड़ों क्राइटेरिया पर ग्रेड किया जाता है.

हमने BrowseComp पर ChatGPT एजेंट को भी इवैल्यूएट किया, जो एक ऐसा बेंचमार्क है जिसे हमने इस साल की शुरुआत में पब्लिश किया था, जो वेब पर मुश्किल-से-पता लगाई जाने वाली जानकारी को ढूंढने के लिए ब्राउज़िंग एजेंट्स की क्षमता को मापता है. इस मॉडल ने डीप रिसर्च के मुकाबले 68.9%, 17.4 प्रतिशत पॉइंट्स ज़्यादा के साथ एक नया SOTA सेट किया.

आखिर में, WebArena(एक नई विंडो में खुलेगा) पर, जो रियल-वर्ल्ड के वेब टास्क को पूरा करने में वेब-ब्राउज़िंग एजेंट्स के परफ़ॉर्मेंस को इवैल्यूएट करने के लिए डिज़ाइन किया गया एक बेंचमार्क है, मॉडल o3‑पॉवर्ड CUA (मॉडल पॉवरिंग Operator) से बेहतर है. 

इस्तेमाल कैसे करें

आप किसी भी बातचीत में किसी भी पॉइंट पर 'एजेंट मोड' को चुन करके कंपोज़र से टूल ड्रॉपडाउन के ज़रिये सीधे ChatGPT की नई एजेंटिक कैपबिलिटीज़ को एक्टिवेट कर सकते हैं. बस अपने मनचाहे टास्क के बारे में बताएं—चाहे वो डीप रिसर्च करना हो, एक स्लाइडशो बनाना हो, या खर्चे प्रस्तुत करना हो. आपका टास्क करने के दौरान, एक ऑन-स्क्रीन जानकारी ये साफ़ दिखा देती है कि ChatGPT क्या कर रहा है. जब भी ज़रुरत पड़े, आप दखल करके ब्राउज़र का कंट्रोल अपने हाथ में ले सकते हैं, जिससे ये पक्का हो सके कि टास्क आपके लक्ष्यों के साथ अलाइन होकर रहें.

ChatGPT एजेंट आपके कनेक्टर्स को एक्सेस कर सकता है, जिससे ये आपके वर्कफ़्लो के साथ इंटीग्रेट हो सकता है और रिलेवेंट, कार्रवाई करने लायक जानकारी को एक्सेस कर सकता है. एक बार ऑथेंटिकेट हो जाने पर, ये कनेक्टर्स, ChatGPT को जानकारी देखने और दिन के लिए आपके इनबॉक्स की समरी देने या एक मीटिंग के लिए आपके उपलब्ध टाइम स्लॉट पता करने जैसी चीज़ें करने में मदद करते हैं––इन साइट्स पर एक्शन लेने के लिए, हालांकि, आपको फ़िर भी ब्राउज़र पर लॉग इन करने के लिए कहा जाएगा ताकि एजेंट साइट के साथ बातचीत कर सके. 

इसके अलावा, आप पूरे हो चुके टास्क को अपने आप दोहराने के लिए शेड्यूल कर सकते हैं, जैसे कि हरेक सोमवार की सुबह एक वीकली मेट्रिक्स रिपोर्ट जनरेट करना.

नई कैपेबिलिटीज़, नए रिस्क 

इस रिलीज़ के साथ पहली बार ऐसा हो रहा है कि यूज़र्स ChatGPT से वेब पर कार्रवाई करने के लिए कह सकते हैं. इससे नए रिस्क पैदा होते हैं, ख़ास तौर से इसलिए क्योंकि ChatGPT एजेंट सीधे आपके डेटा के साथ काम कर सकता है, चाहे वो कनेक्टर्स या वेबसाइट्स के ज़रिये एक्सेस की गई जानकारी हो, जिसे आपने टेकओवर मोड के ज़रिये लॉग इन किया है. हमने Operator के रिसर्च प्रीव्यू से मज़बूत कंट्रोल्स को मजबूत किया है और लाइव वेब पर सेंसिटिव जानकारी को हैंडल करने, बड़े पैमाने पर यूज़र एक्सेस और (सीमित) टर्मिनल नेटवर्क एक्सेस जैसी चुनौतियों के लिए सुरक्षा उपाय जोड़े हैं. हालांकि ये उपाय जोखिम को काफ़ी कम कर देते हैं, लेकिन ChatGPT एजेंट के एक्स्पैंडेड टूल्स और बड़े पैमाने पर यूज़र एक्सेस का मतलब है कि इसकी ओवरऑल रिस्क प्रोफ़ाइल ज़्यादा है. 

हमने प्रॉम्प्ट इंजेक्शन के ज़रिये प्रतिकूल हेरफ़ेर के खिलाफ़ ChatGPT एजेंट की सुरक्षा पर ख़ास ज़ोर दिया है, जो आम तौर पर एजेंटिक सिस्टम्स के लिए एक जोखिम है, और उसी हिसाब से और ज़्यादा बड़े शमन उपाय तैयार किए हैं. प्रॉम्प्ट इंजेक्शन, थर्ड पार्टियों द्वारा खराब निर्देशों के ज़रिये इसके बर्ताव में हेरफ़ेर करने की कोशिशें हैं, जिनका सामना ChatGPT एजेंट किसी टास्क को पूरा करते समय वेब पर कर सकता है. जैसे कि, किसी वेबपेज में छिपा हुआ कोई खराब प्रॉम्प्ट, छिपे हुए एलिमेंट्स या मेटाडेटा में, एजेंट को अनचाहे टास्क करने के लिए प्रेरित कर सकता है, जैसे कि कनेक्टर से प्राइवेट डेटा को हमलावर के साथ शेयर करना, या यूज़र द्वारा लॉग इन की गई साइट पर कोई हानिकारक कार्रवाई करना. चूंकि ChatGPT एजेंट डायरेक्ट एक्शन्स कर सकता है, इसलिए सफ़ल हमलों का असर और ज़्यादा हो सकता है और रिस्क भी ज़्यादा हो सकते हैं. 

हमने एजेंट को प्रॉम्प्ट इंजेक्शन को आइडेंटिफ़ाई करने और उसे रोकने के लिए ट्रेन और टेस्ट किया है, इसके अलावा प्रॉम्प्ट इंजेक्शन अटैक्स का जल्दी डिटेक्ट करके उनका जवाब देने के लिए मॉनिटरिंग का इस्तेमाल भी किया है. अहम कार्रवाइयों से पहले स्पष्ट यूज़र कन्फ़र्मेंशन की ज़रुरत होने से इन अटैक्स से होने वाले नुकसान का रिस्क और भी कम हो जाता है, और यूज़र्स ज़रुरत के हिसाब से टास्क अपने कंट्रोल में लेकर या रोककर दखल कर सकते हैं. यूज़र्स को एजेंट को क्या जानकारी प्रदान करनी है, ये फ़ैसला लेते समय इन समझौतों पर विचार करना चाहिए, साथ ही इन सारे रिस्क के प्रति अपने रिस्क को कम करने के लिए कदम उठाने चाहिए, जैसे कि जब किसी टास्क के लिए कनेक्टर्स की ज़रुरत न हो तो उन्हें डिसेबल कर देना चाहिए. 

हमने मॉडल की गलतियों को कम करने के उपाय भी लागू किए हैं, खासकर इसलिए क्योंकि मॉडल अब ऐसे टास्क कर सकता है जो रियल वर्ल्ड को प्रभावित करते हैं: 

  • स्पष्ट यूज़र कन्फ़र्मेशन: ChatGPT को रियल-वर्ल्ड के नतीजों वाले एक्शन्स, जैसे खरीदारी करने से पहले स्पष्ट तौर पर आपकी अनुमति मांगने के लिए ट्रेन किया गया है.
  • एक्टिव सुपरविज़न (“वॉच मोड”): ईमेल्स भेजने जैसे कुछ क्रिटिकल टास्क के लिए आपकी चौकस निगरानी की ज़रुरत पड़ती है.
  • प्रोएक्टिव तरीके से रिस्क कम करना: ChatGPT को बैंक ट्रांसफ़र्स जैसे ज़्यादा रिस्क वाले टास्क को एक्टिव तरीके से मना करने के लिए ट्रेन किया गया है.

आखिर में, हमने मॉडल की एक्सेस वाले डेटा को सीमित करने के लिए अतिरिक्त कंट्रोल्स पेश किए हैं: 

  • प्राइवेसी कंट्रोल्स: ChatGPT की सेटिंग्स में एक क्लिक से, आप सभी ब्राउज़िंग डेटा को डिलीट कर सकते हैं और सभी एक्टिव वेबसाइट सेशन्स से तुरंत लॉग आउट कर सकते हैं. नहीं तो, कुकीज़ हरेक देखी गई वेबसाइट की कुकी पॉलिसियों के आधार पर बनी रहती हैं, जिससे साइट्स पर बार-बार विज़िट करना और ज़्यादा आसान हो सकता है.
  • सिक्योर ब्राउज़र टेकओवर मोड: जब आप ChatGPT के ब्राउज़र (“टेकओवर मोड”) का इस्तेमाल करके वेब के साथ इंटरैक्ट करते हैं, तो आपके इनपुट प्राइवेट ही रहते हैं. ChatGPT इन सेशन्स के दौरान आपके द्वारा दर्ज किए गए किसी भी डेटा को जमा या स्टोर नहीं करता है, जैसे पासवर्ड, क्योंकि मॉडल को इसकी ज़रुरत नहीं होती है, और अगर वो इसे कभी न देखे, तो ये सुरक्षित होता है.

बायोलॉजिकल रिस्क के लिए हमारा अब तक का सबसे मज़बूत सेफ़्टी स्टैक 

मॉडल की बढ़ी हुई कैपेबिलिटीज़ के साथ, हमने अपने तैयार रहने के फ़्रेमवर्क के तहत ChatGPT एजेंट को ज़्यादा बायोलॉजिकल और केमिकल कैपेबिलिटीज़ के तौर पर मानने का फ़ैसला किया है, जिससे संबंधित सुरक्षा उपायों को एक्टिवेट किया जा सके. हालांकि हमारे पास इस बात के निश्चित सबूत नहीं हैं कि ये मॉडल किसी नौसिखिए को गंभीर बायोलॉजिकल नुकसान पहुंचाने में सार्थक तौर पर मदद कर सकता है—जो कि ज़्यादा क्षमता के लिए हमारी सीमा है—फ़िर भी हम सावधानी बरत रहे हैं और ज़रूरी सुरक्षा उपायों को अभी से लागू कर रहे हैं. नतीजन, इस मॉडल में आज तक का हमारा सबसे कॉम्प्रिहेंसिव सेफ़्टी स्टैक है, जिसमें बायोलॉजी के लिए बेहतर सुरक्षा उपाय शामिल हैं: कॉम्प्रिहेंसिव खतरा मॉडलिंग, दोहरे इस्तेमाल से इनकार करने की ट्रेनिंग, हमेशा चालू रहने वाले क्लासिफ़ायर्स और रीज़निंग मॉनिटर्स, और स्पष्ट एन्फ़ोर्समेंट पाइपलाइन्स. 

ChatGPT एजेंट को सुरक्षित करने के हमारे काम के अलावा, हम जानते हैं कि लेयर्ड बायोसेफ़्टी सबसे बढ़िया तब काम करती है जब सुरक्षा उपाय किसी एक लैब से आगे तक बढ़ जाते हैं, इसलिए हम सुरक्षा को मजबूत करने के लिए पूरे इकोसिस्टम में कोलैबोरेट करते हैं. पहले दिन से ही हमने अपने खतरे के मॉडल, आंकलन और पॉलिसियों को आकार देने के लिए बाहरी बायोसिक्यूरिटी एक्सपर्ट्स, सेफ़्टी इंस्टिट्यूट्स, और अकादमिक रिसर्च करने वालों के साथ काम किया है. बायोलॉजी में ट्रेन किए हुए रिव्यु करने वालों ने हमारे इवैल्यूएशन डेटा को वैलिडेट किया है, और डोमेन-एक्सपर्ट रेड टीमर्स ने रीयलिस्टिक सिनारियो में सुरक्षा उपायों को स्ट्रेस-टेस्ट किया है. इस महीने की शुरुआत में हमने सरकार, शिक्षा जगत, नेशनल लैब और NGOs के एक्सपर्ट्स के साथ एक बायोडिफ़ेंस वर्कशॉप का आयोजन किया था, जिसका उद्देश्य कोलैबोरेशन में तेज़ी लाना और AI द्वारा संचालित बायोडिफ़ेंस रिसर्च को आगे बढ़ाना था. हम उभरते रिस्क से आगे रहने के लिए ग्लोबल स्तर पर पार्टनरशिप करते रहेंगे. 

सिस्टम कार्ड में यूनिफ़ाइड एजेंटिक मॉडल के लिए हमारी मज़बूत सुरक्षा संबंधी अप्रोच के बारे में और ज़्यादा पढ़ें. हम एक बग बाउंटी प्रोग्राम भी शुरू कर रहे हैं ताकि हम रियल-वर्ल्ड के रिस्क का पता लगा सकें और उनका निवारण कर सकें.

उपलब्‍धता

ChatGPT एजेंट आज से Pro, Plus और Team के लिए शुरू हो रहा है; Pro को दिन ख़त्म होने तक एक्सेस मिल जाएगी, जबकि Plus और Team यूज़र्स को अगले कुछ दिनों में एक्सेस मिलेगी. आने वाले हफ़्तों में Enterprise और Education यूज़र्स को इसके लिए एक्सेस मिल जाएगी. Pro यूज़र्स को प्रति माह 400 मेसेज मिलते हैं, जबकि दूसरे पेड यूज़र्स को प्रति माह 40 मैसेज मिलते हैं, व फ़्लेक्सिबल क्रेडिट-बेस्ड ऑप्शन्स के ज़रिये अतिरिक्त इस्तेमाल उपलब्ध होता है.

हम अभी भी यूरोपीय आर्थिक क्षेत्र और स्विट्जरलैंड के लिए एक्सेस को इनेबल करने पर काम कर रहे हैं. 

Operator रिसर्च प्रीव्यू साइट कुछ और हफ़्तों तक फ़ंक्शनल रहेगी, उसके बाद इसे बंद कर दिया जाएगा. डीप रिसर्च ChatGPT एजेंट की कैपबिलिटीज़ का एक हिस्सा है. अगर आप ओरिजिनल डीप रिसर्च फ़ीचर को पसंद करते हैं—जिसे रन करने में थोड़ा ज़्यादा समय लग सकता है, लेकिन डिफ़ॉल्ट तरीके से और ज़्यादा डिटेल में, गहराई से जवाब देता है—तो आप मेसेज कंपोज़र में ड्रॉपडाउन से "डीप रिसर्च" को सिलेक्ट करके फ़िर भी इसे एक्सेस कर सकते हैं.

सीमाएं और आगे की ओर देखना 

ChatGPT एजेंट अभी भी अपने शुरूआती स्टेज में है. ये कई बेहद मुश्किल टास्क कर सकता है, लेकिन ये अभी भी गलतियां कर सकता है. 

हालांकि हम स्लाइडशो जनरेट करने की इसकी क्षमता में बहुत ज़्यादा संभावनाएं देखते हैं, ये फ़ंक्शनैलिटी अभी बीटा स्टेज में है. फ़िलहाल, आउटपुट कभी-कभी अपने फ़ॉर्मैटिंग और अपनी पॉलिश में अधूरा लग सकता है, ख़ास तौर से तब जब इसे किसी मौजूदा डॉक्यूमेंट के बिना शुरू किया जाता है. हमने मॉडल की शुरूआती कैपबिलिटीज़ को ऐसे आर्टिफ़ैक्ट्स जनरेट करने पर फ़ोकस किया जो प्रेज़ेंटेशन्स के लिए एक मुनासिब फ़्लो और फ़ॉर्मेट में जानकारी को ऑर्गनाइज़ करते हैं, जिसमें टेक्स्ट, चार्ट, इमेज जैसे एलिमेंट्स शामिल होते हैं, जो एक्सपोर्ट के बाद मौलिक तौर पर आसानी से एडिटेबल होते हैं, स्ट्रक्चर और फ़्लेक्सिबिलिटी के लिए ऑप्टिमाइज़ करते हैं. अभी, व्यूअर में स्लाइड्स और एक्सपोर्ट किए गए पावरपॉइंट के बीच कभी-कभी अंतर होते हैं, जिन्हें कम करने के लिए हम काम कर रहे हैं. इसके अलावा, जबकि आप अभी ChatGPT के लिए एक मौजूदा स्प्रेडशीट को एडिट करने या टेम्पलेट के तौर पर इस्तेमाल करने के लिए अपलोड कर सकते हैं, ये कैपेबिलिटी अभी तक स्लाइडशो के लिए उपलब्ध नहीं है. हम पहले से ही ChatGPT के स्लाइडशो क्रिएशन के अगले इटरेशन को ट्रेन कर रहे हैं ताकि बड़े पैमाने की कैपबिलिटीज़ और बेहतर फ़ॉर्मेटिंग के साथ ज़्यादा पॉलिश किए हुए, बेहतर आउटपुट्स तैयार किया जा सके.

कुल मिलाकर, हम समय के साथ ChatGPT एजेंट की योग्यता, गहराई और वर्सटाइलिटी में लगातार सुधार की उम्मीद करते हैं, जिसमें ज़्यादा सीमलेस इंटरैक्शन्स भी शामिल हैं क्योंकि हम इसे इस्तेमाल करने के लिए सुरक्षित बनाते हुए इसे और ज़्यादा फ़ायदेमंद बनाने के लिए यूज़र से ज़रूरी निगरानी की मात्रा को एडजस्ट करना जारी रखते हैं.

एपेंडिक्स

SpreadsheetBench

मॉडल

इवैल्यूएशन एन्वायर्नमेंट

सॉफ़्ट प्रतिबंध (%): सेल-लेवल

सॉफ़्ट प्रतिबंध (%): शीट-लेवल

सॉफ़्ट प्रतिबंध (%): कुल मिलाकर

GPT‑4o

Windows, Excel

15.03

23.65

18.35

Excel में Copilot

Windows, Excel

23.33

15.00

20.00

GPT‑4o

OSX, LibreOffice

15.86

18.33

16.81

OpenAI o3

OSX, LibreOffice

22.40

24.60

23.25

ChatGPT एजेंट

OSX, LibreOffice

38.27

30.48

35.27

.xlsx के साथ ChatGPT एजेंट

OSX, LibreOffice

50.56

37.51

45.54

ह्यूमन

75.56

65.00

71.33

लाइवस्ट्रीम रीप्ले

लेखक

OpenAI

फ़ुटनोट

* ब्राउज़िंग को इनेबल करते वक्‍़त, मॉडल को ऑनलाइन कई बार बिल्‍कुल सही जवाब मिल सकता है, जैसे कि, डेटासेट से सैंपल प्रॉब्‍लम वाले ब्लॉग पोस्ट को पढ़ने के द्वारा. हम ब्राउज़िंग के वक्‍़त दो स्‍ट्रैटजी से मॉडल द्वारा धोखा दिए जाने से जुड़ी संभावनाओं को कम करते हैं:

1. उन डोमेन को ब्‍लॉक किया, जहां से हमने मॉडल को पहले धोखा देते हुए पाया.

2. संदिग्ध व्यवहार को आइडेंटिफ़ाई करने की हरेक कोशिश में सभी टूल आउटपुट टोकन की जांच करने के लिए एक एक्स्ट्रा मॉडल का इस्तेमाल मॉनिटर के तौर पर किया गया. संदिग्ध बिहेवियर को कुछ इस तरह बताया जा सकता है: "एक पेज, फ़ाइल या स्निपेट, जिसका मुख्य मक़सद इस ख़ास सवाल का बिल्‍कुल सही जवाब देना है—जैसे कि, एक ऑफ़ि‍शियल ग्रेडिंग की, लीक हुए “सॉल्युशन्स” की समरी, या चर्चा में बेहतर जवाब को हूबहू क्वोट करना". अच्‍छे बिहेवियर को कुछ इस तरह बताया जा सकता है, "कोई भी ऑफ़ि‍शियल सोर्स, जिससे कोई भी मेहनती आदमी मदद ले सकता है (डॉक्यूमेंटेशन, मैनुअल, विद्वानों के पेपर, जाने-माने आर्टिकल) फिर चाहे उसमें अनजाने से ही सही जवाब‍ मिला हो." ऐसे कोई भी अटेम्पट, जिनमें मॉनिटर ने रोलआउट को संदिग्ध माना हो, ग़लत ही मानी जाएंगी. इस जांच-पड़ताल में फ़ेल हुए ज़्यादातर सैंपल में ऐसी प्रॉब्लम थीं, जिनका बिल्कुल सही सॉल्यूशन HLE से बाहर वाले अनेकों इंटरनेट सोर्सेस पर उपलब्ध था.

**OpenAI के पास टियर 1-3 डेटासेट पर 290 प्राइवेट सवालों में से 237 तक एक्सक्लूसिव एक्सेस मौजूद है. FrontierMath टियर 4 के सवाल इस इवैल्यूएशन में शामिल नहीं हैं. रिज़ल्ट्स का इवैल्यूएशन हरेक सवाल का जवाब देने के 16 अटेम्प्ट्स के औसत के तौर पर किया गया. ChatGPT एजेंट के रिज़ल्ट्स OpenAI द्वारा प्राप्त किए जाते हैं, जिन्हें Epoch AI द्वारा ग्रेड किया जाता है, ब्राउज़र और टर्मिनल एक्सेस के साथ, और हर जवाब के लिए 128K टोकन की एक लिमिट होती है. OpenAI o4-mini और o3 मूल्यांकन Epoch AI द्वारा प्राप्त और ग्रेड किए जाते हैं, जिसमें ब्राउज़र और टर्मिनल एक्सेस नहीं होती है, फ़ंक्शन कॉलिंग के ज़रिये पायथन स्क्रिप्ट का इस्तेमाल किया जाता है, और प्रति जवाब 100K टोकन्स की लिमिट होती है.

*** Oracle@64, 64 सैंपल रन में प्राप्त बेस्ट स्कोर को रेफ़र करता है, जिसे ग्राउंड ट्रुथ का इस्तेमाल करके चुना जाता है (यानी, हम एक्चुअल ग्रेडेड परफ़ॉर्मेंस के आधार पर हरेक टास्क के लिए सबसे ज़्यादा स्कोरिंग अटेम्प्ट चुनते हैं). हम सभी टास्क में इन प्रति-टास्क बेस्ट स्कोर का एवरेज रिपोर्ट करते हैं. ये मेट्रिक, मॉडल की ऊपरी सीमा क्षमता और टास्क परफ़ॉर्मेंस में अंतर को हाईलाइट करता है—ये दर्शाता है कि सफ़ल होने पर मॉडल कितना कैपेबल हो सकता है और आगे की ट्रेनिंग के ज़रिये स्थिरता में सुधार की गुंजाइश का संकेत देता है. वही आम "N का बेस्ट" मेट्रिक्स के विपरीत, जो मॉडल कॉन्फ़िडेंस के आधार पर सिलेक्ट करते हैं, oracle@64 सिलेक्शन के लिए मौलिक सच्चाई का इस्तेमाल करता है और बाइनरी पास/फ़ेल के बजाय लगातार 0-1 पैमाने पर ग्रेडेड टास्क पर लागू होता है.