स्किप करके मेन कंटेंट पर जाऍं
OpenAI

23 जनवरी 2025

रिलीज़

कंप्यूटर-यूज़िंग एजेंट

कंप्यूटर-यूज़िंग एजेंट के साथ पॉवरिंग Operator, जो डिजिटल दुनिया के साथ बातचीत करने के लिए AI के लिए एक यूनिवर्सल इंटरफ़ेस है.

लोड किया जा रहा है...

आज हमने Operator(एक नई विंडो में खुलेगा) का एक रिसर्च प्रीव्यू प्रस्तुत किया, जो एक एजेंट है जो आपके लिए टास्क परफ़ॉर्म करने के लिए वेब पर जा सकता है. पॉवरिंग Operator एक कंप्यूटर-युज़िंग एजेंट (CUA) है, जो एक मॉडल है जो रीइंफ़ोर्समेंट लर्निंग के ज़रिए GPT‑4o की विज़न क्षमताओं को एडवांस्ड रीज़निंग के साथ जोड़ता है. CUA को ग्राफ़िकल यूज़र इंटरफ़ेस (GUIs)—बटन, मेन्यु और टेक्स्ट फ़ील्ड जिन्हें लोग स्क्रीन पर देखते हैं—के साथ मनुष्यों की तरह बातचीत करने के लिए ट्रेन किया गया है. इससे इसे ऑपरेटिंग सिस्टम या वेब-विशिष्ट APIs का इस्तेमाल किए बिना डिजिटल टास्क परफ़ॉर्म करने की सुविधा मिलती है. 

CUA मल्टीमोडल समझ और रीज़निंग के कॉम्बिनेशन पर सालों की नीव रखने वाले रिसर्च पर बना है. एडवांस्ड GUI धारणा को स्ट्रक्चर्ड प्रॉब्लम-सॉल्विंग के साथ जोड़ कर, ये टास्क को मल्टी-स्टेप प्लान्स में बाँट सकता है और चुनौतियां आने पर ख़ुद को उसी हिसाब से सुधार सकता है. ये क्षमता AI विकास में अगला कदम है, जो मॉडल को उन्हीं टूल्स का इस्तेमाल करने की अनुमति देता है जिन पर मनुष्य रोज़ निर्भर रहते हैं, और कई सारे नए ऐप्लिकेशन के लिए दरवाज़े खोलता है.

हालांकी CUA अभी भी शुरूआती अवस्था में है और इसकी अपनी सीमाऍं हैं, फ़िर भी इसने नए बेहतरीन बेंचमार्क रिज़ल्ट्स सेट किए हैं, और फ़ुल कंप्यूटर के इस्तेमाल वाले टास्क के लिए OSWorld पर 38.1% सफ़लता दर, व वेब-बेस्ड टास्क के लिए WebArena पर 58.1% और WebVoyager पर 87% की सफ़लता दर प्राप्त की है. ये रिज़ल्ट्स सिंगल जनरल एक्शन स्पेस का इस्तेमाल करके अलग-अलग वातावरणों में नेविगेट करने और ऑपरेट करने की CUA की क्षमता को दिखाते हैं. 

हमने डिजिटल दुनिया के लिए एक्सेस रखने वाले एजेंट द्वारा पैदा की चुनौतियों को हल करने के लिए सुरक्षा को सबसे ज़्यादा प्राथमिकता देते हुए CUA को विकसित किया है, जैसा कि हमारे Operator सिस्टम कार्डमें विस्तार से बताया गया है. हमारी इटीरेटिव डिप्लॉयमेंट स्ट्रैटेजी के हिसाब से, हम अमेरिका में Pro(एक नई विंडो में खुलेगा) टियर यूज़र के लिए operator.chatgpt.com(एक नई विंडो में खुलेगा) पर Operator के रिसर्च प्रीव्यू के ज़रिए CUA रिलीज़ कर रहे हैं. असली दुनिया से फ़ीडबैक लेकर, हम सुरक्षा उपायों को और बेहतर कर सकते हैं और डिजिटल एजेंट्स के बढ़ते इस्तेमाल के साथ भविष्य के लिए तैयारी करते हुए लगातार सुधार कर सकते हैं.

ये कैसे काम करता है

एक फ़्लोचार्ट जो CUA सिस्टम द्वारा इनपुट को टेक्स्ट या स्क्रीनशॉट के तौर पर समझने, एक्शन जेनरेट करने, और वर्चुअल मशीन पर कमांड लागू करने के प्रोसेस को दिखाता है.

स्क्रीन पर क्या हो रहा है ये समझने के लिए CUA रॉ पिक्सेल डेटा को प्रोसेस करता है और एक्शन को पूरा करने के लिए वर्चुअल माउस और कीबोर्ड का इस्तेमाल करता है. ये मल्टी-स्टेप टास्क को नेविगेट कर सकता है, एरर को हैंडल कर सकता है, और अचानक बदलावों के अनुसार अपने आप को ढाल सकता है. इससे CUA को डिजिटल वातावरण की एक विस्तृत श्रृंखला में कार्य करने के लिए इनेबल किया जा सकता है, और ख़ास APIs की ज़रुरत के बिना फ़ॉर्म भरने और वेबसाइट पर नेविगेट करने जैसे टास्क किए जा सकते हैं.

यूज़र के निर्देश के आधार पर, CUA एक इटरेटिव लूप के ज़रिए ऑपरेट करता है जो धारणा, रीज़निंग और एक्शन को जोड़ता है:

  • धारणा: कंप्यूटर के स्क्रीनशॉट को मॉडल के कॉन्टेक्स्ट में जोड़ा जाता है, जो कंप्यूटर की मौजूदा स्थिति का विजुअल स्नैपशॉट देता है. 
  • रीज़निंग: CUA अभी के और पिछले स्क्रीनशॉट और एक्शन को ध्यान में रखते हुए, chain-of-thought का इस्तेमाल करते हुए अगले स्टेप्स के बारे में सोचता है. यह इनर मोनोलॉग टास्क परफ़ॉर्मेंस को बेहतर बनाता है क्योंकि यह मॉडल को अपनी ऑब्ज़र्वेशन का मूल्यांकन करने, इंटरमीडिएट स्टेप्स को ट्रैक करने, और डायनामिकली अडैप्ट करने में सक्षम बनाता है.
  • एक्शन: ये तब तक एक्शन—क्लिक करना, स्क्रॉल करना या टाइप करना—करता रहता है जब तक ये तय नहीं कर लेता कि टास्क पूरा हो गया है या यूज़र इनपुट की ज़रुरत है. हालांकि ये ज़्यादातर स्टेप्स को ऑटोमैटिक तरीके से हैंडल करता है, लेकिन CUA सेंसिटिव एक्शन के लिए यूज़र का कन्फ़र्मेशन मांगता है, जैसे लॉग इन जानकारी डालना या CAPTCHA फ़ॉर्म का जवाब देना.

मूल्यांकन

CUA ने स्क्रीन, माउस और कीबोर्ड के समान यूनिवर्सल इंटरफ़ेस का इस्तेमाल करके कंप्यूटर और ब्राउज़र यूज़ बेंचमार्क दोनों में एक नया बेहतरीन मानक स्थापित किया है.

बेचमार्क का प्रकारबेंचमार्ककंप्यूटर यूज़ (यूनिवर्सल इंटरफ़ेस)वेब ब्राउज़िंग एजेंट्सह्यूमन
OpenAI CUAपिछला SOTAपिछला SOTA
कंप्यूटर यूज़OSWorld38.1%22.0%-72.4%
ब्राउज़र यूज़WebArena58.1%36.2%57.1%78.2%
WebVoyager87.0%56.0%87.0%-
इवैल्यूएशन विवरण यहां दिया गया है

ब्राउज़र यूज़

WebArena(एक नई विंडो में खुलेगा) और WebVoyager(एक नई विंडो में खुलेगा) को ब्राउज़र्स का इस्तेमाल करके असली दुनिया के टास्क पूरे करने में वेब ब्राउज़िंग एजेंट्स के परफ़ॉर्मेंस का मूल्यांकन करने के लिए डिज़ाइन किया गया है. WebArena ई-कॉमर्स, ऑनलाइन स्टोर कंटेंट मैनेजमेंट (CMS), सोशल फ़ोरम प्लैटफ़ॉर्म आदि में असली दुनिया के सिनारियो की नकल करने के लिए ऑफ़लाइन सेल्फ़-होस्टेड ओपन-सोर्स वेबसाइट्स का इस्तेमाल करता है. WebVoyager मॉडल के परफ़ॉर्मेंस का टेस्ट ऑनलाइन लाइव वेबसाइट्स जैसे कि Amazon, GitHub और Google Maps पर करता है.

इन बेंचमार्क्स में, CUA उसी यूनिवर्सल इंटरफ़ेस का इस्तेमाल करके एक नया स्टैंडर्ड निर्धारित करता है जो ब्राउज़र स्क्रीन को पिक्सेल के समान देखता है और माउस और कीबोर्ड के ज़रिए एक्शन करता है. CUA ने वेब-बेस्ड टास्क के लिए WebArena पर 58.1% की सफ़लता दर और WebVoyager पर 87% की सफ़लता दर हासिल की. हालाांकि CUA WebVoyager पर एक हाई सक्सेस रेट अचीव करता है, जहाँ ज़्यादातर टास्क रिलेटिवली सिंपल होते हैं, फिर भी CUA को WebArena जैसे ज़्यादा कॉम्प्लेक्स बेंचमार्क्स पर ह्यूमन परफ़ॉर्मेंस के गैप को बंद करने के लिए और सुधार की ज़रूरत है.

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

कंप्यूटर यूज़

OSWorld(एक नई विंडो में खुलेगा) एक ऐसा बेंचमार्क है जो Ubuntu, Windows, और macOS जैसे फ़ुल ऑपरेटिंग सिस्टम्स को कंट्रोल करने की मॉडल की क्षमता का मूल्यांकन करता है. इस बेंचमार्क में, CUA ने 38.1% सफ़लता दर हासिल की है. हमने टेस्ट-टाइम स्केलिंग देखी, जिसका मतलब है कि जब ज़्यादा स्टेप्स के लिए मंज़ूरी दी गई होती है तो CUA का परफ़ॉर्मेंस बेहतर होता है. नीचे दिया गया आंकड़ा CUA के परफ़ॉर्मेंस की तुलना पिछली बेहतरीन तकनीकों के साथ अलग-अलग सबसे ज़्यादा मंज़ूरी दी गई स्टेप्स के साथ करता है. इस बेंचमार्क पर ह्यूमन परफ़ॉर्मेंस 72.4% है, इसलिए इसमें अभी भी सुधार की काफ़ी गुंजाइश है.

Alt टेक्स्ट: 'OSWorld' टाइटल वाला ''लाइन चार्ट, लॉगरिथमिक स्केल पर मंज़ूरी दी गई मैक्स स्टेप्स के मुकाबले सफ़लता दर (%) को दर्शाता है. नीली लाइन OpenAI CUA को दर्शाती है, और ऑरेंज पॉइंट्स Claude 3.5 Sonnet - कंप्यूटर के इस्तेमाल को दर्शाते हैं, जिसमें सफ़लता दर के लिए एनोटेशन भी हैं.

निम्न विज़ुअलाइज़ेशन्स CUA द्वारा कई स्टैंडर्डाइज़्ड OSWorld टास्क के संचालन के नमूने दर्शाते हैं.

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

Operator में CUA

हम Operator के रिसर्च प्रीव्यू के ज़रिए CUA उपलब्ध करा रहे हैं, एक एजेंट जो आपके लिए टास्क परफ़ॉर्म करने के लिए वेब पर जा सकता है. Operator अमेरिका में Pro(एक नई विंडो में खुलेगा) यूज़र के लिए operator.chatgpt.com(एक नई विंडो में खुलेगा) पर उपलब्ध है. ये रिसर्च प्रीव्यू हमारे यूज़र और ब्रॉडर इकोसिस्टम से सीखने, Operator को सुधारने और बेहतर बनाने का एक अवसर है. किसी भी शुरूआती-स्टेज की तकनीक की तरह, हम अभी ये उम्मीद नहीं करते हैं कि CUA सभी सिनारियो में भरोसेमंद तरीके से परफ़ॉर्म करेगा. हालांकि, ये पहले से ही कई मामलों में उपयोगी साबित हो चुका है, और हमारा लक्ष्य बहुत सारे टास्क में उस भरोसे को बढ़ाना है. Operator में CUA को रिलीज़ करके, हम अपने यूज़र से कीमती जानकारी प्राप्त करने की आशा करते हैं, जो हमें इसकी क्षमताओं को रीफ़ाईन करने और इसके ऐप्लिकेशन का विस्तार करने में गाइड करेगी.

नीचे दी गई टेबल में, हमने Operator के क्षेत्र में CUA की परफ़ॉर्मेंस को कुछ ट्रायल्स में प्रॉम्प्ट किया है, ताकि इसकी ज्ञात ताकतों और कमज़ोरियों को दर्शाया जा सके.

कैटेगरीप्रॉम्प्टसफ़लता / प्रयासनोट
टास्क पूरा करने के लिए विभिन्न UI कंपोनेंट्स के साथ इंटरैक्ट करनाटर्न 1: बेयर हैबिटेट्स के एक डिटेल्ड मैप व्यू के लिए ब्रिटैनिका सर्च करें
टर्न 2: बहुत बढ़िया! अब कृपया ब्लैक, ब्राउन और पोलर बेयर लिंक्स चेक करें और उनके शारीरिक कैरेक्टर, ख़ास तौर पे उनके अंतरों के बारे में एक संक्षिप्त सामान्य ओवरव्यू प्रदान करें. ओह और मेरे लिए लिंक्स को सेव करें, ताकि मैं उन्हें जल्दी से एक्सेस कर सकूं.
10 / 10
CUA यूज़र की ज़रुरत वाली जानकारी खोजने के लिए विभिन्न UI कंपोनेंट्स के साथ इंटरैक्ट करके सर्च, सॉर्ट और फ़िल्टर कर सकता है. अलग-अलग वेबसाइट्स और UIs के लिए रिलायबिलिटी में अंतर होता है.
मुझे उनमें से कोई एक टारगेट डील चाहिए. क्या आप चेक कर सकते हैं कि क्या उनके पास पॉपी प्रिबायोटिक सोडा पर कोई डील है? अगर उनके पास हो, तो मुझे 12fl ओज़ कैन में वॉटरमेलन फ्लेवर चाहिए. मुझे उस तरह की डील्स चाहिए जो इसके साथ आती हो, और चेक करें कि क्या यह ग्ल्यूटेन फ्री है.9 / 10
मैं सिएटल में शिफ़्ट होने का प्लान बना रहा हूँ, और मैं चाहता हूँ कि आप रेडफ़िन पर एक टाउनहाउस सर्च करें, जिसमें कम से कम 3 बेडरूम, 2 बाथरूम, और एक एनर्जी-एफ़िशिएंट डिज़ाइन हो (जैसे कि सोलर पैनल या LEED-सर्टिफ़ाइड). मेरा बजट 600,000 से लेकर 800,000 डॉलर के बीच में है, और इस जगह की साइज़ लगभग 1500 स्कवॉयर फ़ीट होना बेहतर रहेगा.3 / 10
ऐसे टास्क जिन्हें दोहराए जाने वाले सरल UI इंटरैक्शन से पूरा किया जा सकता है.Todoist में एक नया प्रोजेक्ट बनाएं, जिसका शीर्षक 'वीकेंड ग्रॉसरी शॉपिंग' हो. इस शॉपिंग लिस्ट में ये प्रोडक्ट्स ऐड करें:
केला (6 पीस)
आवोकाडो (2 पके हुए)
बेबी स्पिनाच (1 बैग)
होल मिल्क (1 गैलन)
शेड्डार चीज (8 oz ब्लॉक)
पोटैटो चिप्स (सॉल्टेड, फ़ैमिली साइज़)
डार्क चॉकलेट (70% कोको, 2 बार्स)
10 / 10
ऐसे टास्क जो सरल परंतु यूज़र के लिए थकाऊ होते हैं, CUA उन्हें ऑटोमेट करने के लिए सरल UI इंटरैक्शन को रिलायबल तरीके से मल्टीपल टाइम्स रिपीट कर सकता है.
स्पॉटिफ़ाई पर 1990 के समय में USA में सबसे लोकप्रिय गाने सर्च करें, और कम से कम 10 ट्रैक वाली एक प्लेलिस्ट बनाएँ.10 / 10
ऐसे टास्क जिसमें CUA ने हाई सक्सेस रेट दिखाया होता, बशर्ते कि प्रॉम्प्ट में विस्तृत हिंट होता कि वेबसाइट का इस्तेमाल कैसे करना है.tagvenue.com पर जाएँ और लंदन में एक ऐसा कंसर्ट हॉल खोजें जिसमें 150 लोग बैठ सकते हों. मुझे 22 फ़रवरी 2025 को 9 am से 12 am तक पूरे दिन इसकी ज़रुरत है, बस ख़्याल रखना कि यह 90 पाउंड प्रति घंटे से कम हो.
ओह, क्या आप उपयुक्त फ़िल्टर के लिए फ़िल्टर सेक्शन को चेक कर सकते हैं, और सुनिश्चित करें कि वहां पर पार्किंग हो और यह जगह व्हीलचेयर एक्सेसिबल हो.
8 / 10
यहां तक कि एक ही टास्क के लिए, CUA की रिलायबिलिटी बदल सकती है, जो इस पर निर्भर करता है कि हम टास्क को कैसे प्रॉम्प्ट कर रहे हैं.
इस मामले में, हम तारीख से जुड़ी स्पेसिफ़िक बातें बता कर रिलायबिलिटी सुधार सकते हैं (जैसे कि 9 am से पूरे दिन के बजाय 9 am से 12am तक), और हिंट्स देकर जिस पर रिज़ल्ट्स खोजने के लिए UI का इस्तेमाल किया जाना चाहिए (जैसे कि फ़िल्टर्स सेक्शन चेक करें...)
tagvenue.com पर जाएँ और लंदन में एक ऐसा कंसर्ट हॉल खोजें जिसमें 150 लोग बैठ सकते हों. मुझे 22 फ़रवरी 2025 को 9 am से पूरे दिन इसकी ज़रुरत है, बस ख़्याल रखना कि यह 90 पाउंड प्रति घंटे से कम हो.
ओह, और सुनिश्चित करें कि वहां पर पार्किंग हो और यह जगह व्हीलचेयर एक्सेसिबल हो.
3 / 10
अपरिचित UI और टेक्स्ट एडिटिंग का इस्तेमाल करने में परेशानी हो रही हैhtml5editor इस्तेमाल करें और बाएं तरफ़ निम्नलिखित टेक्स्ट इनपुट करें, उसके बाद मेरे निर्देशों का पालन करते हुए इसे एडिट करें और पूरा हो जाने के बाद में इस पूरे का स्क्रीनशॉट दें. टेक्स्ट है:

नमस्ते दुनिया!

यह मेरा पहला टेक्स्ट है. मुझे यह देखने की ज़रुरत है कि HTML के साथ प्रोग्रामिंग किए जाने के बाद यह कैसा दिखेगा.

कुछ हिस्सा लाल रंग में होना चाहिए.

कुछ बोल्ड.

कुछ इटैलिक.

कुछ अंडरलाइन्ड.

जब तक कि मेरा पाठ पूरा न हो जाए और हम किसी दूसरी तरफ़ शिफ़्ट न कर जाएँ.
...

नमस्ते दुनिया! पर हेडर 2 एप्लाई किया जाना चाहिए
नीचे दिए गए वाक्य को एक रेगुलर पैराग्राफ़ टेक्स्ट में होना चाहिए.
लाल का ज़िक्र करने वाले वाक्य को सामान्य टेक्स्ट और लाल रंग में होना चाहिए
बोल्ड का ज़िक्र करने वाले वाक्य को सामान्य टेक्स्ट और बोल्ड में होना चाहिए
इटैलिक का ज़िक्र करने वाले वाक्य को सामान्य टेक्स्ट और इटैलिक में होना चाहिए
फ़ाइनल वाक्य सामान्य तौर पर बाएं के बजाय दाएं तरफ़ एलाइन होना चाहिए
4 / 10
जब CUA को ऐसी UIs के साथ इंटरैक्ट करना पड़ता है, जिसके साथ इसने ट्रेनिंग के दौरान ज़्यादा इंटरैक्ट नहीं किया है, तो उसे यह समझने में परेशानी होती है कि दिए गए UI का सही से इस्तेमाल कैसे किया जाए. अक्सर इसके चलते बहुत सारा ट्रायल और एरर होता है, और इनएफ़िशिएंट एक्शन होता है.

टेक्स्ट एडिटिंग के लिए CUA प्रिसाइज़ नहीं होता. इस प्रोसेस में यह बहुत सी गलतियाँ करता है, या ऐसा आउटपुट देता है जिसमें एरर होती है.

सुरक्षा

क्योंकि CUA हमारे पहले एजेंटिक प्रोडक्ट्स में से एक है, जिसमें ब्राउज़र में सीधे एक्शन करने की क्षमता है, ये नए जोख़िम और चुनौतियां लेकर आता है. जब हम Operator को डिप्लॉयमेंट के लिए तैयार कर रहे थे, तो हमने ब्रॉडर सेफ़्टी टेस्टिंग की और सुरक्षा जोख़िमों की तीन प्रमुख श्रेणियों में मिटिगेशन को लागू किया: दुरुपयोग, मॉडल गलतियां, और सीमांत जोख़िम. हमारा मानना ​​है कि सुरक्षा के लिए एक लेयर्ड नज़रिए को अपनाना ज़रूरी है, इसलिए हमने पूरे डिप्लॉयमेंट कॉन्टेक्स्ट में सुरक्षा उपायों को लागू किया है: ख़ुद CUA मॉडल, Operator सिस्टम, और डिप्लॉयमेंट के बाद के प्रोसेस. इसका उद्देश्य ऐसे मिटिगेशन के उपाय करना है, जिनमें प्रत्येक स्तर जोख़िम प्रोफ़ाइल को क्रमशः कम करता जाए.

जोख़िम की पहली श्रेणी दुरुपयोग है. यूज़र को हमारी इस्तेमाल से जुड़ी नीतियों का पालन करने की ज़रुरत के अलावा, हमने GPT‑4o के लिए हमारे सुरक्षा कार्य के आधार पर, दुरुपयोग के कारण Operator के नुकसान के जोख़िम को कम करने के लिए निम्न मिटिगेशन तैयार किए हैं:

  • इनकार: CUA मॉडल को कई हानिकारक टास्क और गैर कानूनी या विनियमित गतिविधियों को अस्वीकार करने के लिए ट्रेन किया जाता है.
  • ब्लॉकलिस्ट: Operator उन वेबसाइट्स को एक्सेस नहीं कर सकता है जिन्हें हमने पहले ही ब्लॉक कर दिया है, जैसे कोई गैम्ब्लिंग साइट्स, वयस्क मनोरंजन, और ड्रग या बंदूक के खुदरा विक्रेता.
  • मॉडरेशन: यूज़र के इंटरैक्शन की रिव्यु ऑटोमेटेड सुरक्षा जांचकर्ताओं द्वारा रियल-टाइम में की जाती है, जिन्हें इस्तेमाल से जुड़ी नीतियों के पालन को पक्का करने के लिए डिज़ाइन किया गया है और जिनमें प्रतिबंधित गतिविधियों के लिए चेतावनी या ब्लॉक जारी करने की क्षमता है. 
  • ऑफ़लाइन डिटेक्शन: हमने बाल सुरक्षा और भ्रामक गतिविधियों सहित प्राथमिकता वाले नीति क्षेत्रों में प्रतिबंधित इस्तेमाल की पहचान करने के लिए ऑटोमेटेड पहचान और ह्यूमन रिव्यु पाइपलाइन भी विकसित की है, जिससे हमें अपनी इस्तेमाल से जुड़ी नीतियों को लागू करने में मदद मिलती है.

जोखिम की दूसरी कैटेगरी मॉडल गलतियां हैं, जहां CUA मॉडल गलती से ऐसी एक्शन कर देता है जिसे यूज़र नहीं करना चाहता था, जिसके परिणामस्वरूप यूज़र या दूसरे लोगों को नुकसान होता है. काल्पनिक गलतियों की गंभीरता अलग-अलग हो सकती है, जैसे ईमेल में टाइपिंग की गलती, गलत आइटम खरीदना, या किसी ज़रूरी डॉक्यूमेंट को स्थायी तौर पर डिलीट करना. संभावित नुकसान को न्यूनतम करने के लिए, हमने निम्न मिटिगेशन डेवलप किए हैं:

  • यूज़र कन्फ़र्मेंशन: CUA मॉडल को बाहरी दुष्प्रभावों वाले टास्क को फ़ाइनलाइज़ करने से पहले यूज़र कन्फ़र्मेशन मांगने के लिए ट्रेन किया जाता है, जैसे कि ऑर्डर सबमिट करने से पहले, ईमेल भेजने से पहले, आदि, ताकि मॉडल का काम स्थायी होने से पहले यूज़र उसे दोबारा चेक कर सके.
  • टास्क पर पाबंदियाँ: फ़िलहाल, CUA मॉडल कुछ ज़्यादा जोख़िम वाले टास्क, जैसे बैंकिंग लेनदेन और ऐसे टास्क में मदद करने से इंकार कर देगा जिनमें सेंसिटिव फ़ैसले लेने की ज़रुरत होती है.
  • वॉच मोड: ख़ास तौर से संवेदनशील वेबसाइट्स पर, जैसे ईमेल, Operator को एक्टिव यूज़र सुपरविज़न की ज़रुरत होती है, ताकि यूज़र सीधे तौर पर मॉडल द्वारा की गई किसी भी संभावित गलती को पकड़ सकें और उसका समाधान कर सकें.

मॉडल गलतियों की एक ख़ास तौर से महत्वपूर्ण श्रेणी वेबसाइट्स पर प्रतिकूल हमले हैं, जो CUA मॉडल को प्रॉम्प्ट इंजेक्शन, जेलब्रेक और फ़िशिंग अटेम्पट्स के ज़रिए अनपेक्षित एक्शन करने के लिए मजबूर करते हैं. मॉडल गलतियों के विरुद्ध उपर्युक्त मिटिगेशन के अतिरिक्त, हमने इन जोख़िमों से बचाव के लिए सुरक्षा के कई अतिरिक्त लेयर्स विकसित किए हैं:

  • सतर्क नेविगेशन: CUA मॉडल को वेबसाइट्स पर प्रॉम्प्ट इंजेक्शन की पहचान करने और उसे अनदेखा करने के लिए डिज़ाइन किया गया है, जो शुरूआती इंटर्नल रेड-टीमिंग सेशन से एक मामले को छोड़कर सभी को पहचानता है.
  • मॉनिटर करना: Operator में, हमने स्क्रीन पर संदिग्ध कंटेंट डिटेक्ट किए जाने पर एक्सीक्यूशन को मॉनिटर करने और उसे रोकने के लिए एक अतिरिक्त मॉडल लागू किया है.
  • डिटेक्शन पाइपलाइन: हम संदिग्ध पहुंच पैटर्न की पहचान करने के लिए ऑटोमेटेड पहचान और ह्यूमन रिव्यु पाइपलाइन दोनों का इस्तेमाल कर रहे हैं, जिन्हें चिह्नित किया जा सकता है और तेज़ी से मॉनिटर में जोड़ा जा सकता है (कुछ ही घंटों में).

आखिरकार, हमने अपने तैयार रहने के फ़्रेमवर्क(एक नई विंडो में खुलेगा) में आउटलाइन की गई सीमांत जोख़िमों के विरुद्ध CUA मॉडल का मूल्यांकन किया, जिसमें ऑटोनोमस रेप्लिकेशन और बायोरिस्क टूलिंग से जुड़े सिनारियो शामिल थे. इन आंकलनों से पता चला कि GPT‑4o के ऊपर कोई बढ़ते जाने वाला जोख़िम नहीं है.

जो लोग मूल्यांकन और सुरक्षा उपायों के बारे में ज़्यादा विस्तार से जानने में रुचि रखते हैं, हम उन्हें Operator सिस्टम कार्ड को रिव्यु करने के लिए प्रोत्साहित करते हैं, जो एक जीवंत डॉक्यूमेंट है जो हमारे सुरक्षा संबंधी अप्रोच और चल रहे सुधारों के बारे में पारदर्शिता प्रदान करता है.

चूंकि Operator की कई क्षमताएँ नई हैं, इसलिए हमारे द्वारा लागू किए गए जोख़िम एवं मिटिगेशन अप्रोच भी नए हैं.  हालांकि हमने अत्याधुनिक, विविध और कॉम्प्लिमेंटरी मिटिगेशन का लक्ष्य रखा है, फ़िर भी हम उम्मीद करते हैं कि जैसे-जैसे हम और ज़्यादा सीखते जाएंगे, ये जोख़िम और हमारा अप्रोच विकसित होता जाएगा. हम रिसर्च प्रीव्यू पीरियड का इस्तेमाल यूज़र्स के फ़ीडबैक जमा करने, अपने सुरक्षा उपायों में सुधार करने और एजेंटिक सुरक्षा को बढ़ाने के अवसर के तौर पर करने के लिए तत्पर हैं.

निष्कर्ष

CUA मल्टीमोडैलिटी, तर्क और सुरक्षा में वर्षों के रिसर्च की प्रगति पर आधारित है. हमने o-मॉडल सीरीज़ के ज़रिये डीप रीज़निंग, GPT‑4o के ज़रिए विज़न क्षमताओं और रीइंफ़ोर्समेंट लर्निंग और इंस्ट्रक्शन हायरेरकी के ज़रिए मज़बूती में सुधार करने के लिए नई तकनीकों में महत्वपूर्ण प्रगति की है. अगली चुनौती जिस क्षेत्र में हम एक्स्प्लोर करने का प्लान कर रहे हैं, वो एजेंट्स के एक्शन स्पेस को बढ़ाना है. यूनिवर्सल इंटरफ़ेस द्वारा प्रदान किया गया लचीलापन इस चुनौती का समाधान करता है, और मनुष्यों के लिए डिज़ाइन किए गए किसी भी सॉफ्टवेयर टूल को नेविगेट करने में एक एजेंट की मदद करता है. ख़ास एजेंट-अनुकूल APIs से आगे बढ़कर, CUA जो भी कंप्यूटर वातावरण उपलब्ध है, उसके अनुकूल हो सकता है—असली में डिजिटल यूज़ केसेस की "लंबी कतार" को संबोधित करता है जो ज़्यादातर AI मॉडल के लिए पहुंच से बाहर हैं.

हम API(एक नई विंडो में खुलेगा) में CUA उपलब्ध कराने के लिए भी काम कर रहे हैं, ताकि डेवलपर इसका इस्तेमाल अपने ख़ुद के कंप्यूटर-यूज़िंग एजेंट बनाने के लिए कर सकें. जैसे-जैसे हम CUA पर काम करना जारी रखेंगे, हम कम्‍यूनिटी द्वारा खोजे जाने वाले अलग-अलग यूज़ केसेस को देखने के लिए उत्सुक हैं. हम इस शुरूआती प्रीव्यू से प्राप्त रियल-वर्ल्ड फ़ीडबैक का इस्तेमाल CUA की क्षमताओं और सुरक्षा उपायों को निरंतर सुधारने के लिए करने का प्लान कर रहे हैं, ताकि AI के फ़ायदों को सभी तक पहुंचाने के हमारे मिशन को सुरक्षित तरीके से आगे बढ़ाया जा सके.

लेखक

OpenAI

संदर्भ

साइटेशन्स

कृपया OpenAI का साइटेशन दें और साइटेशन के लिए निम्न BibTeX का इस्तेमाल करें: http://cdn.openai.com/cua/cua2025.bib(एक नई विंडो में खुलेगा)