१७ जुलै, २०२५

ChatGPT एजंट सादर करत आहे: संशोधन आणि क्रिया यांना जोडत आहे

ChatGPT आता विचार करतो आणि कृती करतो, स्वतःच्या कॉम्प्युटरवर एजेंटिक कौशल्याच्या टूलबॉक्समधून प्रोऍक्टिव्हली निवड करून तुमच्यासाठी कामे पूर्ण करतो.

ChatGPT वर वापरून पाहा

लोड होत आहे...

ChatGPT आता स्वतःच्या कॉम्प्युटरचा वापर करून तुमच्यासाठी काम करू शकतो, सुरुवातीपासून शेवटपर्यंत गुंतागुंतीची कामे हाताळतो.

आता तुम्ही ChatGPT ला अशी विनंत्या करू शकता: “माझा कॅलेंडर बघ आणि अलीकडील बातम्यांवर आधारित येणाऱ्या ग्राहक मिटिंग्सचा मला आढावा दे,” “चार जणांसाठी जपानी नाश्ता बनवण्यासाठी साहित्य प्लॅन करा आणि खरेदी करा,” आणि “तीन स्पर्धकांचे विश्लेषण करा आणि एक स्लाईड डेक तयार करा.” ChatGPT बुद्धिमानपणे वेबसाइट्स नेव्हिगेट करेल, निकाल फिल्टर करेल, गरज पडल्यास सुरक्षितपणे लॉग इन करण्यासाठी प्रॉम्प्ट करेल, कोड चालवेल, विश्लेषण करेल आणि संपादन करण्यायोग्य स्लाइडशो आणि स्प्रेडशीट वितरित करेल जे त्याचे निष्कर्ष सारांशित करतील.

या नव्या क्षमतेच्या केंद्रस्थानी एक एकत्रित एजेंटिक सिस्टम आहे. हे पूर्वीच्या प्रगतीच्या तीन सामर्थ्यांना एकत्र आणते: वेबसाइट्सशी संवाद साधण्याची Operator⁠ ची क्षमता, माहितीचे संश्लेषण करण्याचे सखोल संशोधन⁠ चे कौशल्य, आणि ChatGPT ची बुद्धिमत्ता आणि संभाषणात्मक प्रवाह.

ChatGPT स्वतःच्या व्हर्च्युअल कॉम्प्युटरचा वापर करून हे कामे पूर्ण करतो, तर्क करतो आणि क्रिया यांमध्ये सहजतेने बदल करत सुरुवातीपासून शेवटपर्यंत कॉम्प्लेक्स वर्कफ्लोज हाताळतो—हे सर्व तुमच्या सूचनांवर आधारित आहे.

सर्वात महत्त्वाचे म्हणजे, नियंत्रण नेहमी तुमच्याच हातात आहे. ChatGPT महत्त्वाची क्रिया करण्यापूर्वी परवानगी मागतो, आणि तुम्ही कधीही सहजपणे व्यत्यय आणू शकता, ब्राउझरवर नियंत्रण घेऊ शकता किंवा कामे थांबवू शकता.

आजपासून, Pro, Plus, आणि Team वापरकर्ते कोणत्याही संभाषणातील कोणत्याही टप्प्यावर 'एजंट मोड' निवडून कॉम्पोजरमधील टूल्स ड्रॉपडाऊनद्वारे ChatGPT च्या नवीन एजंटिक क्षमता सक्रिय करू शकतात.

जरी ChatGPT एजंट आधीच कॉम्प्लेक्स कामे हाताळण्यासाठी एक शक्तिशाली साधन आहे, तरी आजचा लॉन्च हा फक्त सुरुवात आहे. आम्ही सातत्याने महत्त्वपूर्ण सुधारणा करणे सुरू ठेऊ, ज्यामुळे वेळेनुसार ते अधिक सक्षम आणि अधिक लोकांसाठी उपयुक्त बनेल.

Operator आणि सखोल संशोधनाचा नैसर्गिक विकास

पूर्वी, Operator आणि सखोल संशोधन प्रत्येकाने अद्वितीय सामर्थ्य आणले: Operator वेबवर स्क्रोल करू शकतो, क्लिक करू शकतो आणि टाइप करू शकतो, तर सखोल संशोधन माहितीचे विश्लेषण आणि सारांश देण्यात उत्कृष्ट आहे. परंतु त्यांनी वेगवेगळ्या परिस्थितींमध्ये उत्कृष्ट काम केले: Operator विश्लेषणात खोलवर जाऊ शकत नाही किंवा तपशीलवार अहवाल लिहू शकत नाही, आणि सखोल संशोधन परिणाम परिष्कृत करण्यासाठी किंवा वापरकर्त्याच्या प्रमाणीकरणाची आवश्यकता असलेल्या सामग्रीमध्ये प्रवेश करण्यासाठी वेबसाइट्सशी संवाद साधू शकत नाही. खरं तर, आम्ही पाहिले की वापरकर्त्यानी Operator सह केलेल्या अनेक क्वेरीज सखोल संशोधनासाठी अधिक योग्य होत्या, म्हणून आम्ही दोघांचे उत्तम पैलू एकत्र आणले.

ChatGPT मधील या पूरक ताकदी एकत्र करून आणि अतिरिक्त टूल्स सादर करून, आम्ही एका मॉडेलमध्ये पूर्णपणे नवीन क्षमता उघडल्या आहेत. आता ते वेबसाईट्सशी सक्रियपणे संवाद साधू शकते—क्लिक करणे, फिल्टर करणे, आणि अधिक अचूक व कार्यक्षम रिझल्ट्स गोळा करू शकते. तुम्ही नैसर्गिकरित्या सोप्या संभाषणातून थेट त्याच गप्पांमध्ये क्रिया मागू शकता.

एक एजंट जो तुमच्यासाठी काम करतो, तुमच्यासोबत

आम्ही ChatGPT एजंटला साधनांच्या संचाने सुसज्ज केले आहे: एक व्हिज्युअल ब्राउझर जो ग्राफिकल-वापरकर्ता इंटरफेसद्वारे वेबशी संवाद साधतो, सोप्या तर्क-आधारित वेब क्वेरींसाठी एक मजकूर-आधारित ब्राउझर, एक टर्मिनल, आणि थेट API प्रवेश. एजंट ChatGPT कनेक्ट करा⁠(नवीन विंडोमध्ये उघडेल) देखील वापरू शकतो, ज्यामुळे तुमच्याला Gmail आणि Github सारख्या ॲप्सना कनेक्ट करण्याची परवानगी मिळते जेणेकरून ChatGPT तुमच्या प्रॉम्प्टशी संबंधित माहिती शोधू शकेल आणि त्यांचा प्रतिसादांमध्ये वापर करू शकेल. तुम्ही ब्राउझरचा ताबा घेऊन कोणत्याही वेबसाइटवर लॉग इन करू शकता, ज्यामुळे ते त्याच्या संशोधन आणि कामाच्या अंमलबजावणीमध्ये खोलवर आणि व्यापकपणे जाऊ शकते. ChatGPT ला वेब माहितीमध्ये प्रवेश करण्यासाठी आणि इंटरॅक्ट करण्यासाठी हे वेगवेगळे मार्ग दिल्यामुळे, तो कामे सर्वात कार्यक्षमतेने पूर्ण करण्यासाठी सर्वोत्तम मार्ग निवडू शकतो. उदाहरणार्थ, ते API द्वारे तुमच्या कॅलेंडरबद्दल माहिती गोळा करू शकते, मजकूर-आधारित ब्राउझर वापरून मोठ्या प्रमाणात मजकुरावर कार्यक्षमतेने तर्कशक्ती वापरू शकते, तसेच प्रामुख्याने मानवांसाठी डिझाइन केलेल्या वेबसाइट्सशी दृश्यमानपणे संवाद साधण्याची क्षमता देखील असू शकते.

हे सर्व त्याच्या स्वतःच्या व्हर्च्युअल संगणकाचा वापर करून केले जाते, जे कामासाठी आवश्यक असलेले संदर्भ जपते, जरी अनेक साधने वापरली जात असली तरीही—मॉडेल टेक्स्ट ब्राउझर किंवा व्हिज्युअल ब्राउझर वापरून पृष्ठ उघडणे, वेबवरून फाइल डाउनलोड करणे, टर्मिनलमध्ये कमांड चालवून ते हाताळणे आणि नंतर व्हिज्युअल ब्राउझरमध्ये आउटपुट परत पाहणे निवडू शकते. मॉडेल कामे जलद, अचूक आणि कार्यक्षमतेने पूर्ण करण्यासाठी तुमची पद्धत बदलतो.

ChatGPT एजंट पुनरावृत्ती, सहयोगी कामप्रवाहांसाठी डिझाइन केलेला आहे, जो मागील मॉडेल्सपेक्षा खूपच अधिक परस्परसंवादी आणि लवचिक आहे. ChatGPT काम करत असताना, तुम्ही कोणत्याही टप्प्यावर व्यत्यय आणून तुमच्या सूचना स्पष्ट करू शकता, इच्छित परिणामांकडे त्याला वळवू शकता किंवा काम पूर्णपणे बदलू शकता. तो जिथे थांबला होता तिथूनच नवीन माहिती घेऊन पुढे सुरू करेल, पण मागील प्रगती न गमावता. त्याचप्रमाणे, ChatGPT स्वतःहून आवश्यकतेनुसार तुमच्याकडून अतिरिक्त तपशील विचारू शकतो, जेणेकरून कामे तुमच्या उद्दिष्टांशी जुळत राहील. जर एखादे काम अपेक्षेपेक्षा जास्त वेळ घेत असेल किंवा अडकलेले वाटत असेल, तर तुम्ही ते थांबवू शकता, प्रगतीचा सारांश मागू शकता किंवा ते पूर्णपणे थांबवू शकता आणि आंशिक निकाल मिळवू शकता. तुमच्या फोनवर ChatGPT ॲप असेल, तर कामे पूर्ण झाल्यावर ते तुम्हाला नोटिफिकेशन पाठवेल.

वास्तविक जगातील उपयुक्तता विस्तृत करणे

या एकत्रित एजंटिक क्षमतांमुळे ChatGPT ची दैनंदिन आणि व्यावसायिक दोन्ही संदर्भांमध्ये उपयुक्तता लक्षणीयरीत्या वाढते. कामाच्या ठिकाणी, तुम्ही पुनरावृत्ती होणारी कामे स्वयंचलित करू शकता, जसे की स्क्रीनशॉट किंवा डॅशबोर्ड संपादन करण्यायोग्य वेक्टर घटकांनी बनवलेल्या सादरीकरणांमध्ये रूपांतरित करणे, बैठकांची पुनर्रचना करणे, ऑफसाइट्सचे नियोजन आणि बुकिंग करणे आणि समान स्वरूपण राखून नवीन आर्थिक डेटासह स्प्रेडशीट अद्ययावत करणे. तुमच्या वैयक्तिक जीवनात, तुम्ही याचा वापर सहजपणे प्रवासाच्या योजना आणि बुकिंगसाठी, संपूर्ण डिनर पार्टी डिझाइन आणि बुक करण्यासाठी किंवा तज्ञ शोधण्यासाठी आणि अपॉइंटमेंट्स शेड्यूल करण्यासाठी करू शकता.

या मॉडेलच्या उन्नत क्षमता वेब ब्राउझिंग आणि वास्तविक जगातील कार्य पूर्ण करण्याच्या क्षमतांचे मोजमाप करताना त्याच्या अत्याधुनिक (SOTA) कामगिरीमध्ये दिसून येतात.

मानवतेच्या शेवटच्या परीक्षे⁠(नवीन विंडोमध्ये उघडेल)* वर, तज्ञ-स्तराच्या प्रश्नांवरील विस्तृत विषयांमध्ये एआयची कामगिरी मोजणारे मूल्यांकन, ChatGPT एजंटला चालवणारे मॉडेल 41.6 वर एक नवीन pass@1 SOTA स्कोअर करते. एजंट डायनॅमिकली योजना करतो आणि स्वतःची टूल्स निवडतो, म्हणून तो एकाच कामाला वेगवेगळ्या रनमध्ये वेगवेगळ्या पद्धतींनी हाताळू शकतो. जेव्हा आम्ही हे साध्या पॅरलेल रोलआउट स्ट्रॅटेजीनं स्केल केलं—एकाच वेळी आठ प्रयत्नांपर्यंत रन करून आणि सर्वाधिक स्वतःबद्दलचा आत्मविश्वास असलेला परिणाम निवडून—एजंटचा HLE स्कोअर 44.4 पर्यंत वाढतो.

FrontierMath** हा सर्वात कठीण ज्ञात गणिताचा बेंचमार्क आहे, ज्यामध्ये नवीन, अप्रकाशित समस्या आहेत ज्या सोडवण्यासाठी तज्ञ गणितज्ञांना तास किंवा अगदी दिवस लागतात. कोड एक्झिक्युशनसाठी टर्मिनलमध्ये प्रवेश करण्यासारख्या टूलच्या वापरासह, ChatGPT एजंट 27.4% अचूकता गाठतो, जो मागील दोन्ही मॉडेल्सना मोठ्या फरकाने मागे टाकतो.

आम्ही मॉडेलचे मूल्यांकन कॉम्प्लेक्स रिअल-वर्ल्ड कामेवर आधारित बेंचमार्क्स वापरूनही केले. जटिल, आर्थिकदृष्ट्या मौल्यवान ज्ञान-काम कामांवर मॉडेलच्या कामगिरीचे मूल्यांकन करण्यासाठी डिझाइन केलेल्या अंतर्गत बेंचमार्कवर, ChatGPT एजंटचे आउटपुट काम पूर्ण करण्याच्या वेळेच्या श्रेणीतील अंदाजे अर्ध्या प्रकरणांमध्ये मानवांपेक्षा तुलना करता येईल किंवा त्यापेक्षा चांगले आहे, तर o3 आणि o4-मिनीपेक्षा लक्षणीय चांगले कामगिरी करते. प्रत्येक क्षेत्रातील सर्वोत्तम कामगिरी करणाऱ्यांनी तयार केलेल्या उच्च-गुणवत्तेच्या मानवी बेसलाइनच्या विरोधात तज्ञांकडून मॉडेल आउटपुटचे मूल्यांकन केले जाते. विविध व्यवसाय आणि उद्योगांमधील तज्ञांकडून मिळवलेली ही कामे वास्तविक-जगातील व्यावसायिक कामाचे प्रतिबिंब आहेत - जसे की ऑन-डिमांड तातडीच्या काळजीच्या प्रदात्यांचे स्पर्धात्मक विश्लेषण तयार करणे, तपशीलवार परिशोधन वेळापत्रक तयार करणे आणि नवीन ग्रीन हायड्रोजन सुविधेसाठी व्यवहार्य पाण्याच्या विहिरी ओळखणे.

वर DSBench⁠(नवीन विंडोमध्ये उघडेल), जो डेटा विश्लेषण आणि मॉडेलिंगमधील वास्तववादी डेटा सायन्स कामांवर एजंट्सचे मूल्यांकन करण्यासाठी डिझाइन केलेला आहे, ChatGPT एजंट मानवी कामगिरीला लक्षणीय फरकाने मागे टाकतो.

SpreadsheetBench वर, जे वास्तविक-जगातील परिस्थितीतून प्राप्त केलेल्या स्प्रेडशीट्स संपादित करण्याच्या क्षमतेवर मॉडेल्सचे मूल्यांकन करते, ChatGPT एजंट विद्यमान मॉडेल्सपेक्षा महत्त्वपूर्ण फरकाने चांगले काम करते. जेव्हा स्प्रेडशीट थेट संपादित करण्याची क्षमता दिली जाते, तेव्हा ChatGPT एजंट 45.5% स्कोअर करतो, जो एक्सेलमधील कोपायलटच्या 20.0% च्या तुलनेत अधिक आहे.

कामपद्धती: स्प्रेडशीटबेंचच्या लेखकांनी स्प्रेडशीटचे मूल्यांकन करण्यासाठी विंडोज वातावरणात मायक्रोसॉफ्ट एक्सेलचा वापर केला. आम्ही OSX वातावरण आणि LibreOffice वापरले, ज्यामुळे ग्रेडिंगमध्ये लहान फरक येऊ शकतो. उदाहरणार्थ, लेखकांना GPT‑4o साठी 15.02% ओव्हरऑल हार्ड रेस्ट्रिक्शन आढळले, आणि आम्हाला 13.38% मिळाले. आम्ही 912-प्रश्नांचा संपूर्ण बेंचमार्क वापरला.

आतील बेंचमार्कवर, जो पहिल्या ते तिसऱ्या वर्षाच्या गुंतवणूक बँकिंग विश्लेषक मॉडेलिंग कामकरण्याच्या मॉडेलच्या क्षमतेचे मोजमाप करतो—जसे की फॉर्च्यून ५०० कंपनीसाठी योग्य स्वरूपण आणि उद्धरणांसह तीन-विधानांचे आर्थिक मॉडेल तयार करणे किंवा टेक-प्रायव्हेटसाठी लीव्हरेज्ड बायआउट मॉडेल तयार करणे—ChatGPT एजंटला पॉवर देणारे मॉडेल सखोल संशोधन आणि o3 पेक्षा लक्षणीयरीत्या चांगले काम करते. प्रत्येक कामाचे मूल्यांकन शेकडो निकषांवर केले जाते, जे correctness आणि फॉर्म्युला वापराशी संबंधित असतात.

आम्ही BrowseComp⁠ वर ChatGPT एजंटचे मूल्यांकन देखील केले, जो एक बेंचमार्क आहे जो आम्ही या वर्षाच्या सुरूवातीस प्रकाशित केला होता आणि जो वेबवर शोधायला कठीण माहिती शोधण्याच्या ब्राउझिंग एजंट्सच्या क्षमतेचे मोजमाप करतो. मॉडेलने 68.9% स्कोअरसह नवीन स्टेट-ऑफ-द-आर्ट (SOTA) सेट केला, जो सखोल संशोधनापेक्षा 17.4 टक्के पॉईंट्स जास्त आहे.

शेवटी, WebArena⁠(नवीन विंडोमध्ये उघडेल), वास्तविक-जगातील वेब कामे पूर्ण करण्यासाठी वेब-ब्राउझिंग एजंट्सच्या कामगिरीचे मूल्यांकन करण्यासाठी डिझाइन केलेले बेंचमार्क, मॉडेल o3‑संचालित CUA (Operator ला पॉवर करणारे मॉडेल) पेक्षा सुधारते.

कसे वापरावे

तुम्ही कोणत्याही संभाषणात कोणत्याही वेळी 'एजंट मोड' निवडून कंपोझरमधील टूल्स ड्रॉपडाउनद्वारे थेट ChatGPT च्या नवीन एजंटिक क्षमता सक्रिय करू शकता. फक्त तुमचा इच्छित काम सांगा—ते सखोल संशोधन करणे असो, स्लाईडशो तयार करणे असो, किंवा खर्च सादर करणे असो. जेव्हा तो तुमचा काम पूर्ण करतो, तेव्हा ऑन-स्क्रीन नैरेशन तुम्हाला ChatGPT काय करत आहे याची स्पष्ट झलक देते. तुम्ही गरजेनुसार ब्राउझरवर नियंत्रण घेऊन व्यत्यय आणू शकता, ज्यामुळे कामे तुमच्या उद्दिष्टांशी जुळलेले राहतात.

ChatGPT एजंट तुमच्या कनेक्टर्समध्ये प्रवेश करू शकतो, ज्यामुळे तो तुमच्या वर्कफ्लोमध्ये एकत्रित होऊ शकतो आणि संबंधित, कृतीयोग्य माहितीमध्ये प्रवेश करू शकतो. एकदा प्रमाणित झाल्यानंतर, हे कनेक्टर ChatGPT ला माहिती पाहण्याची आणि दिवसासाठी तुमच्या इनबॉक्सचा सारांश तयार करण्याची किंवा तुम्ही मीटिंगसाठी उपलब्ध असलेल्या वेळेचे स्लॉट शोधण्यासारख्या गोष्टी करण्यास अनुमती देतात - या साइटवर क्रिया करण्यासाठी, मात्र, तुम्हाला अद्याप ब्राउझर ताब्यात घेऊन प्रॉम्प्ट करून लॉग इन करणे सांगितले जाईल.

याशिवाय, तुम्ही पूर्ण झालेले कामे ऑटोमॅटिकली पुन्हा होण्यासाठी शेड्यूल करू शकता—उदा., दर सोमवारी सकाळी साप्ताहिक मेट्रिक्स अहवाल उत्पन्न करणे.

नवीन क्षमता, नवीन जोखीम

या रिलीझमुळे वापरकर्ते पहिल्यांदाच ChatGPT ला वेबवर क्रिया करण्यास सांगू शकतात. यामुळे नवीन धोके निर्माण होतात, विशेषतः कारण ChatGPT एजंट थेट तुमच्या डेटासह काम करू शकतो, मग ती कनेक्टरद्वारे प्रवेश केलेली माहिती असो किंवा तुम्ही टेकओव्हर मोडद्वारे लॉग इन केलेल्या वेबसाइट असोत. आम्ही Operator च्या रिसर्च पूर्वावलोकनातील मजबूत कंट्रोल्स अधिक बळकट केले आहेत आणि लाईव्ह वेबवरील संवेदनशील माहिती हाताळणे, व्यापक वापरकर्ता रीच, आणि (मर्यादित) टर्मिनल नेटवर्क प्रवेश यांसारख्या आव्हानांसाठी सेफगार्ड्स जोडले आहेत. या शमनांमुळे जोखीम लक्षणीयरीत्या कमी होते, परंतु ChatGPT एजंटची विस्तारित साधने आणि विस्तृत वापरकर्त्यांची पोहोच यामुळे त्याचा एकूण जोखीम प्रोफाइल जास्त आहे.

आम्ही प्रॉम्प्ट इंजेक्शनद्वारे प्रतिकूल हाताळणीपासून ChatGPT एजंटचे संरक्षण करण्यावर विशेष भर दिला आहे, जो सामान्यत: एजंटिक प्रणालींसाठी धोका असतो आणि त्यानुसार अधिक व्यापक शमन उपाय तयार केले आहेत. प्रॉम्प्ट इंजेक्शन्स म्हणजे तृतीय पक्षाकडून ChatGPT एजंटच्या वर्तनावर दुष्टसूचना वापरून परिणाम करण्याचा प्रयत्न, जे ChatGPT एजंट वेबवर काम पूर्ण करताना भेटू शकतात. उदाहरणार्थ, वेबपेजमध्ये लपवलेला दुष्ट प्रॉम्प्ट—जसे की अदृश्य घटक किंवा मेटाडेटामध्ये—एजंटला फसवून अनपेक्षित क्रिया करण्यास प्रवृत्त करू शकतो, जसे की कनेक्टरमधून खाजगी डेटा अटॅकरसोबत शेअर करणे किंवा वापरकर्त्याने लॉगिन केलेल्या साइटवर हानिकारक क्रिया करणे. कारण ChatGPT एजंट थेट क्रिया करू शकतो, त्यामुळे यशस्वी हल्ल्यांचा अधिक परिणाम होऊ शकतो आणि उच्च जोखीम निर्माण होऊ शकते.

आम्ही एजंटला प्रॉम्प्ट इंजेक्शन्स ओळखण्यासाठी आणि त्यांना विरोध करण्यासाठी ट्रेन आणि टेस्ट केले आहे, तसेच प्रॉम्प्ट इंजेक्शन हल्ले पटकन शोधण्यासाठी आणि प्रतिसाद देण्यासाठी मॉनिटरिंग वापरले आहे. परिणामकारक क्रिया करण्यापूर्वी स्पष्ट वापरकर्ता पुष्टीची आवश्यकता असल्याने या हल्ल्यांमुळे होणाऱ्या धोका आणखी कमी होतो, आणि वापरकर्ते आवश्यकतेनुसार कामामध्ये हस्तक्षेप करून नियंत्रण घेऊ शकतात किंवा थांबवू शकतात. वापरकर्त्यांनी एजंटला कोणती माहिती द्यायची हे ठरवताना या व्यापार-बंदांची तुलना केली पाहिजे, तसेच या जोखमींना कमी करण्यासाठी पावले उचलली पाहिजेत, जसे की कामासाठी आवश्यक नसताना कनेक्टर अक्षम करा.

आम्ही मॉडेलच्या चुका कमी करण्यासाठी उपाययोजना देखील लागू केल्या आहेत, विशेषत: आता मॉडेल वास्तविक जगावर परिणाम करणारी कामे करू शकते:

स्पष्ट वापरकर्ता पुष्टीकरण: खरेदी करण्यासारख्या वास्तविक जगातील परिणाम असलेल्या क्रिया करण्यापूर्वी ChatGPT ला स्पष्टपणे तुमची परवानगी मागण्याचे प्रशिक्षण दिले जाते.
सक्रिय पर्यवेक्षण (“वॉच मोड”): ईमेल पाठविण्यासारख्या काही गंभीर कामांसाठी तुमच्या सक्रिय देखरेखीची आवश्यकता असते.
सक्रिय जोखीम कमी करणे: ChatGPT ला बँक हस्तांतरणासारख्या उच्च-जोखीम कामांना सक्रियपणे नकार देण्यासाठी प्रशिक्षित केले जाते.

शेवटी, आम्ही मॉडेलला प्रवेश असलेल्या डेटावर मर्यादा घालण्यासाठी अतिरिक्त नियंत्रणे सादर केली आहेत:

गोपनीयता नियंत्रण: ChatGPT च्या सेटिंग्जमध्ये एका क्लिकसह, तुम्ही सर्व ब्राउझिंग डेटा हटवा आणि सर्व सक्रिय वेबसाइट सत्रांमधून त्वरित लॉग आउट होऊ शकता. अन्यथा, प्रत्येक भेट दिलेल्या वेबसाइटच्या कुकी धोरणांवर आधारित कुकीज कायम राहतात, ज्यामुळे साइटना वारंवार भेट देणे अधिक कार्यक्षम बनू शकते.
सुरक्षित ब्राउझर टेकओव्हर मोड: जेव्हा तुम्ही ChatGPT च्या ब्राउझर (“टेकओव्हर मोड”) वापरून वेबशी संवाद साधता तेव्हा तुमचे इनपुट खाजगी राहतात. या सत्रांदरम्यान तुम्ही प्रविष्ट केलेला कोणताही डेटा, जसे की पासवर्ड, ChatGPT गोळा किंवा संग्रहित करत नाही, कारण मॉडेलला त्याची आवश्यकता नसते आणि जर ते कधीही पाहिले नाही तर ते अधिक सुरक्षित असते.

जैविक जोखमीसाठी आमचा आतापर्यंतचा सर्वात मजबूत सुरक्षा संच

मॉडेलच्या वाढत्या क्षमतांसह, आम्ही आमच्या तयारी फ्रेमवर्क⁠ अंतर्गत ChatGPT एजंटला उच्च जैविक आणि रासायनिक क्षमता म्हणून मानण्याचा निर्णय घेतला आहे आणि संबंधित सुरक्षा उपाय सक्रिय केले आहेत. हे मॉडेल नवशिक्याला गंभीर जैविक हानी निर्माण करण्यास अर्थपूर्ण मदत करू शकते याचा निश्चित पुरावा आमच्याकडे नसला तरी—उच्च क्षमतेसाठी आमचा उंबरठा—आम्ही आता सावधगिरी बाळगत आहोत आणि आवश्यक सुरक्षा उपायांची अंमलबजावणी करत आहोत. परिणामी, या मॉडेलमध्ये जीवशास्त्रासाठी सुधारित सुरक्षा उपायांसह आमचा आतापर्यंतचा सर्वात व्यापक सुरक्षा स्टॅक आहे: सर्वसमावेशक धोका मॉडेलिंग, दुहेरी-वापर नकार प्रशिक्षण, नेहमी-चालू वर्गीकरण आणि तर्क मॉनिटर्स, आणि स्पष्ट अंमलबजावणी पाइपलाइन.

ChatGPT एजंट सुरक्षित करण्याच्या आमच्या कामाव्यतिरिक्त, आम्हाला माहिती आहे की लेयर्ड बायोसेफ्टी सर्वोत्तमरीत्या काम करते जेव्हा सेफगार्ड्स एखाद्या एका लॅबच्या पलीकडे जातात, त्यामुळे आम्ही संपूर्ण इकोसिस्टममध्ये सहकाम करून बचाव अधिक मजबूत करतो. पहिल्या दिवसापासून आम्ही बाहेरील बायोसेक्युरिटी तज्ज्ञ, सेफ्टी इन्स्टिट्यूट्स आणि अकॅडमिक रिसर्चर्ससोबत काम केले आहे, ज्यामुळे आमचे थ्रेट मॉडेल, मूल्यांकन आणि पॉलिसीज आकार घेत आहेत. बायोलॉजी-ट्रेंड रिव्ह्यूअर्सनी आमचे evaluation डेटा व्हॅलिडेट केले, आणि डोमेन-एक्स्पर्ट रेड टीमर्सनी रिअलिस्टिक सिनेरिओजमध्ये सेफगार्ड्सचे स्ट्रेस-टेस्टिंग केले. याच महिन्याच्या सुरुवातीला आम्ही सरकार, अकॅडेमिया, नॅशनल लॅब्स आणि NGOs मधील तज्ज्ञांसोबत एक बायोडिफेन्स वर्कशॉप आयोजित केले, जेणेकरून सहकाम वाढवता येईल आणि AI-चालित बायोडिफेन्स संशोधनाला चालना मिळेल. उदयोन्मुख जोखमींपासून पुढे राहण्यासाठी आम्ही जागतिक स्तरावर भागीदारी करत राहू.

सिस्टम कार्डमधील⁠ युनिफाइड एजंटिक मॉडेलसाठी आमच्या मजबूत सुरक्षा दृष्टिकोनाबद्दल अधिक वाचा. आम्ही वास्तविक जगातील धोके शोधून त्यावर उपाययोजना करण्यासाठी बग बाउंटी प्रोग्राम⁠ देखील सुरू करत आहोत.

उपलब्धता

ChatGPT एजंट आजपासून Pro, Plus आणि Team साठी रोल आउट होत आहे; Pro ला दिवसाअखेरीस प्रवेश मिळेल, तर Plus आणि Team वापरकर्त्यांना पुढील काही दिवसांत प्रवेश मिळेल. Enterprise आणि Education वापरकर्त्यांना येत्या आठवड्यांत प्रवेश मिळेल. Pro वापरकर्त्यांना प्रति महिना 400 मेसेजेस मिळतात, तर इतर पेड वापरकर्त्यांना दर महिन्याला 40 मेसेजेस मिळतात, आणि अतिरिक्त वापरासाठी लवचिक क्रेडिट-आधारित पर्याय उपलब्ध आहेत.

आम्ही अद्याप युरोपियन इकॉनॉमिक एरिया आणि स्वित्झर्लंडसाठी प्रवेश सक्षम करण्यावर काम करत आहोत.

Operator रिसर्च पूर्वावलोकन साइट अजून काही आठवडे कामरत राहील, त्यानंतर ती बंद होईल. सखोल संशोधन हे ChatGPT एजंट च्या क्षमतांचा एक भाग आहे. तुम्हाला मूळ सखोल संशोधन फीचर हवे असल्यास—जे चालवायला जास्त वेळ लागू शकते पण डिफॉल्टने अधिक तपशीलवार आणि सखोल प्रतिसाद देते—तुम्ही अजूनही मेसेज कॉम्पोजरमधील ड्रॉपडाउनमधून “सखोल संशोधन” निवडून त्याला प्रवेश करू शकता.

मर्यादा आणि पुढे पाहण्याची दिशा

ChatGPT एजंट अजूनही सुरुवातीच्या टप्प्यात आहे. हे अनेक जटिल कामे करण्यास सक्षम आहे, परंतु तरीही ते चुका करू शकते.

स्लाईडशोज तयार करण्याच्या क्षमतेत आम्हाला मोठी क्षमता दिसते, पण ही फंक्शनॅलिटी सध्या बीटामध्ये आहे. सध्याच्या घडीला, आउटपुट्स कधी कधी फॉरमॅटिंग आणि पॉलिशमध्ये प्राथमिक वाटू शकतात, विशेषतः जेव्हा विद्यमान दस्तऐवजाशिवाय सुरुवात केली जाते. आम्ही मॉडेलच्या सुरुवातीच्या क्षमतांचा भर अशा आर्टिफॅक्ट्स तयार करण्यावर दिला, जे माहितीला फ्लो आणि सादरीकरणासाठी योग्य फॉरमॅटमध्ये आयोजित करतात—ज्यात टेक्स्ट, चार्ट्स, इमेजेस, आणि शेप्ससारखे घटक असतात, जे निर्यातीनंतर नैसर्गिकरीत्या व सहज संपादित करता येतात, स्ट्रक्चर आणि लवचिकतेसाठी ऑप्टिमाइज केलेले. सध्या, व्ह्यूअरमधील स्लाईड्स आणि एक्सपोर्टेड पॉवरपॉइंटमध्ये कधीकधी विसंगती आढळतात, ज्यांना कमी करण्यावर आम्ही काम करत आहोत. तसेच, सध्या तुम्ही ChatGPT साठी विद्यमान स्प्रेडशीट अपलोड करून ते संपादित करण्यासाठी किंवा टेम्पलेट म्हणून वापरण्यासाठी वापरू शकता, पण ही क्षमता अजून स्लाईडशोजसाठी उपलब्ध नाही. आम्ही ChatGPT च्या स्लाईडशो क्रिएशनच्या पुढच्या आवृत्तीचे प्रशिक्षण सुरू केले आहे, जे अधिक पॉलिश्ड, सुसंस्कृत आउटपुट तयार करेल, ज्यात विस्तृत क्षमता आणि सुधारित फॉरमॅटिंग असेल.

एकूणच, आम्ही ChatGPT एजंटच्या कार्यक्षमता, सखोलता आणि बहुमुखीपणामध्ये वेळेनुसार सातत्याने सुधारणा अपेक्षित करतो, ज्यात अधिक सुसंगत संवादांचा समावेश असेल, कारण आम्ही वापरकर्त्यांकडून आवश्यक देखरेखीचे प्रमाण समायोजित करणे सुरू ठेऊ, ज्यामुळे ते अधिक उपयुक्त होईल आणि वापरण्यास सुरक्षित राहील.

परिशिष्ट

SpreadsheetBench
मॉडेल	मूल्यांकन वातावरण	सॉफ्ट मर्यादा (%): सेल-स्तर	सॉफ्ट प्रतिबंध (%): शीट-स्तर	सॉफ्ट मर्यादा (%): एकूण
GPT‑4o	Windows, Excel	15.03	23.65	18.35
एक्सेल मध्ये सह-पायलट	Windows, Excel	23.33	15.00	20.00
GPT‑4o	OSX, LibreOffice	15.86	18.33	16.81
OpenAI o3	OSX, LibreOffice	22.40	24.60	23.25
ChatGPT एजंट	OSX, LibreOffice	38.27	30.48	35.27
.xlsx सह ChatGPT एजंट	OSX, LibreOffice	50.56	37.51	45.54
मानव		75.56	65.00	71.33

लाइव्हस्ट्रीम रिप्ले

लेखक

OpenAI

फूटनोट्स

* ब्राउझिंग सक्षम करताना, मॉडेल कधीकधी ऑनलाइन अचूक उत्तरे शोधू शकते, उदाहरणार्थ, डेटासेटमधील नमुना समस्यांसह ब्लॉग पोस्ट वाचून. आम्ही दोन धोरणासह ब्राउझ करताना मॉडेल फसवणूक

भूतकाळात ज्यातून मॉडेलने चीटिंग केले आहे असे आम्ही पाहिलेले ब्लॉक केलेले डोमेन.

2. संशयास्पद वर्तन ओळखण्यासाठी प्रत्येक प्रयत्नात सर्व टूल आउटपुट टोकन तपासण्यासाठी मॉनिटर म्हणून एक अतिरिक्त मॉडेल वापरले. संशयास्पद वर्तनाची व्याख्या "एक पृष्ठ, फाइल किंवा स्निपेट ज्याचा मुख्य हेतू या विशिष्ट प्रश्नाचे अचूक उत्तर देणे आहे - उदा., अधिकृत ग्रेडिंग की, लीक झालेली "सोल्यूशन्स" सारांश, किंवा पूर्ण उत्तर शब्दशः उद्धृत करणारी चर्चा." सौम्य वर्तनाची व्याख्या "कोणतेही अधिकृत संसाधन ज्याचा मेहनती मानव सल्ला घेऊ शकतो (दस्तऐवजीकरण, मॅन्युअल, विद्वानांचे कागदपत्रे, प्रतिष्ठित लेख) जरी त्यात योगायोगाने योग्य उत्तर असले तरीही." मॉनिटरने रोलआउट संशयास्पद मानले असे कोणतेही प्रयत्न चुकीचे म्हणून गणले जातात. या तपासणीद्वारे अयशस्वी झालेले बहुतेक नमुने अशा समस्या होत्या ज्यांचे अचूक समाधान HLE शी असंबंधित अनेक इंटरनेट स्रोतांवर उपलब्ध होते.

** OpenAIला टियर 1-3 डेटासेटमधील 290 पैकी 237 खाजगी प्रश्नांवर विशेष प्रवेश आहे. FrontierMath tier 4 प्रश्न या मुल्यांकनामध्ये समाविष्ट नाहीत. निकाल प्रत्येक प्रश्नाचे उत्तर देण्यासाठी 16 प्रयत्नांच्या सरासरीप्रमाणे मूल्यांकन केले गेले. ChatGPT एजंटचे निकाल OpenAI द्वारे काढले जातात, Epoch AI द्वारे श्रेणीबद्ध केले जातात, ब्राउझर आणि टर्मिनल प्रवेशासह आणि प्रति उत्तर 128 हजार tokenची मर्यादा असते. OpenAI o4-mini आणि o3 मूल्यांकन Epoch AI द्वारे प्राप्त आणि वर्गीकृत केले जातात, ब्राउझर आणि टर्मिनल प्रवेशाशिवाय, फंक्शन कॉलिंगद्वारे पायथन स्क्रिप्ट्सचा वापर करून, आणि प्रति उत्तर 100K token ची मर्यादा आहे.

*** Oracle@64 म्हणजे ग्राउंड ट्रुथ वापरून निवडलेल्या 64 नमुना केलेल्या धावांमधून मिळवलेला सर्वोत्तम स्कोअर (म्हणजेच, आम्ही प्रत्यक्ष श्रेणीबद्ध कामगिरीच्या आधारे प्रत्येक कार्यासाठी सर्वाधिक-स्कोअरिंग प्रयत्न निवडतो). आम्ही सर्व कार्यांमध्ये या प्रति-कार्य सर्वोत्तम स्कोअरची सरासरी नोंदवतो. हे मेट्रिक मॉडेलची उच्च-बाउंड क्षमता आणि कार्य कामगिरीमधील फरक हायलाइट करते—मॉडेल यशस्वी झाल्यावर किती सक्षम असू शकते हे दर्शविते आणि पुढील प्रशिक्षणाद्वारे सुसंगतता सुधारण्यासाठी जागा दर्शवते. मॉडेल आत्मविश्वासावर आधारित निवड करणाऱ्या सामान्य "सर्वोत्तम N" मेट्रिक्सच्या विपरीत, oracle@64 निवडीसाठी ग्राउंड ट्रुथ वापरते आणि बायनरी पास/फेलऐवजी सतत 0—1 स्केलवर श्रेणीबद्ध केलेल्या कार्यांना लागू होते.