23 जनवरी 2025

कंप्यूटर-यूज़िंग एजेंट

कंप्यूटर-यूज़िंग एजेंट के साथ पॉवरिंग Operator, जो डिजिटल दुनिया के साथ बातचीत करने के लिए AI के लिए एक यूनिवर्सल इंटरफ़ेस है.

Operator पर जाएँ

लोड किया जा रहा है...

आज हमने Operator⁠(एक नई विंडो में खुलेगा) का एक रिसर्च प्रीव्यू प्रस्तुत किया, जो एक एजेंट है जो आपके लिए टास्क परफ़ॉर्म करने के लिए वेब पर जा सकता है. पॉवरिंग Operator एक कंप्यूटर-युज़िंग एजेंट (CUA) है, जो एक मॉडल है जो रीइंफ़ोर्समेंट लर्निंग के ज़रिए GPT‑4o की विज़न क्षमताओं को एडवांस्ड रीज़निंग के साथ जोड़ता है. CUA को ग्राफ़िकल यूज़र इंटरफ़ेस (GUIs)—बटन, मेन्यु और टेक्स्ट फ़ील्ड जिन्हें लोग स्क्रीन पर देखते हैं—के साथ मनुष्यों की तरह बातचीत करने के लिए ट्रेन किया गया है. इससे इसे ऑपरेटिंग सिस्टम या वेब-विशिष्ट APIs का इस्तेमाल किए बिना डिजिटल टास्क परफ़ॉर्म करने की सुविधा मिलती है.

CUA मल्टीमोडल समझ और रीज़निंग के कॉम्बिनेशन पर सालों की नीव रखने वाले रिसर्च पर बना है. एडवांस्ड GUI धारणा को स्ट्रक्चर्ड प्रॉब्लम-सॉल्विंग के साथ जोड़ कर, ये टास्क को मल्टी-स्टेप प्लान्स में बाँट सकता है और चुनौतियां आने पर ख़ुद को उसी हिसाब से सुधार सकता है. ये क्षमता AI विकास में अगला कदम है, जो मॉडल को उन्हीं टूल्स का इस्तेमाल करने की अनुमति देता है जिन पर मनुष्य रोज़ निर्भर रहते हैं, और कई सारे नए ऐप्लिकेशन के लिए दरवाज़े खोलता है.

हालांकी CUA अभी भी शुरूआती अवस्था में है और इसकी अपनी सीमाऍं हैं, फ़िर भी इसने नए बेहतरीन बेंचमार्क रिज़ल्ट्स सेट किए हैं, और फ़ुल कंप्यूटर के इस्तेमाल वाले टास्क के लिए OSWorld पर 38.1% सफ़लता दर, व वेब-बेस्ड टास्क के लिए WebArena पर 58.1% और WebVoyager पर 87% की सफ़लता दर प्राप्त की है. ये रिज़ल्ट्स सिंगल जनरल एक्शन स्पेस का इस्तेमाल करके अलग-अलग वातावरणों में नेविगेट करने और ऑपरेट करने की CUA की क्षमता को दिखाते हैं.

हमने डिजिटल दुनिया के लिए एक्सेस रखने वाले एजेंट द्वारा पैदा की चुनौतियों को हल करने के लिए सुरक्षा को सबसे ज़्यादा प्राथमिकता देते हुए CUA को विकसित किया है, जैसा कि हमारे Operator सिस्टम कार्डमें विस्तार से बताया गया है. हमारी इटीरेटिव डिप्लॉयमेंट स्ट्रैटेजी के हिसाब से, हम अमेरिका में Pro⁠(एक नई विंडो में खुलेगा) टियर यूज़र के लिए operator.chatgpt.com⁠(एक नई विंडो में खुलेगा) पर Operator के रिसर्च प्रीव्यू के ज़रिए CUA रिलीज़ कर रहे हैं. असली दुनिया से फ़ीडबैक लेकर, हम सुरक्षा उपायों को और बेहतर कर सकते हैं और डिजिटल एजेंट्स के बढ़ते इस्तेमाल के साथ भविष्य के लिए तैयारी करते हुए लगातार सुधार कर सकते हैं.

ये कैसे काम करता है

एक फ़्लोचार्ट जो CUA सिस्टम द्वारा इनपुट को टेक्स्ट या स्क्रीनशॉट के तौर पर समझने, एक्शन जेनरेट करने, और वर्चुअल मशीन पर कमांड लागू करने के प्रोसेस को दिखाता है.

स्क्रीन पर क्या हो रहा है ये समझने के लिए CUA रॉ पिक्सेल डेटा को प्रोसेस करता है और एक्शन को पूरा करने के लिए वर्चुअल माउस और कीबोर्ड का इस्तेमाल करता है. ये मल्टी-स्टेप टास्क को नेविगेट कर सकता है, एरर को हैंडल कर सकता है, और अचानक बदलावों के अनुसार अपने आप को ढाल सकता है. इससे CUA को डिजिटल वातावरण की एक विस्तृत श्रृंखला में कार्य करने के लिए इनेबल किया जा सकता है, और ख़ास APIs की ज़रुरत के बिना फ़ॉर्म भरने और वेबसाइट पर नेविगेट करने जैसे टास्क किए जा सकते हैं.

यूज़र के निर्देश के आधार पर, CUA एक इटरेटिव लूप के ज़रिए ऑपरेट करता है जो धारणा, रीज़निंग और एक्शन को जोड़ता है:

धारणा: कंप्यूटर के स्क्रीनशॉट को मॉडल के कॉन्टेक्स्ट में जोड़ा जाता है, जो कंप्यूटर की मौजूदा स्थिति का विजुअल स्नैपशॉट देता है.
रीज़निंग: CUA अभी के और पिछले स्क्रीनशॉट और एक्शन को ध्यान में रखते हुए, chain-of-thought का इस्तेमाल करते हुए अगले स्टेप्स के बारे में सोचता है. यह इनर मोनोलॉग टास्क परफ़ॉर्मेंस को बेहतर बनाता है क्योंकि यह मॉडल को अपनी ऑब्ज़र्वेशन का मूल्यांकन करने, इंटरमीडिएट स्टेप्स को ट्रैक करने, और डायनामिकली अडैप्ट करने में सक्षम बनाता है.
एक्शन: ये तब तक एक्शन—क्लिक करना, स्क्रॉल करना या टाइप करना—करता रहता है जब तक ये तय नहीं कर लेता कि टास्क पूरा हो गया है या यूज़र इनपुट की ज़रुरत है. हालांकि ये ज़्यादातर स्टेप्स को ऑटोमैटिक तरीके से हैंडल करता है, लेकिन CUA सेंसिटिव एक्शन के लिए यूज़र का कन्फ़र्मेशन मांगता है, जैसे लॉग इन जानकारी डालना या CAPTCHA फ़ॉर्म का जवाब देना.

मूल्यांकन

CUA ने स्क्रीन, माउस और कीबोर्ड के समान यूनिवर्सल इंटरफ़ेस का इस्तेमाल करके कंप्यूटर और ब्राउज़र यूज़ बेंचमार्क दोनों में एक नया बेहतरीन मानक स्थापित किया है.

बेचमार्क का प्रकार	बेंचमार्क	कंप्यूटर यूज़ (यूनिवर्सल इंटरफ़ेस)		वेब ब्राउज़िंग एजेंट्स	ह्यूमन
		OpenAI CUA	पिछला SOTA	पिछला SOTA
कंप्यूटर यूज़	OSWorld	38.1%	22.0%	-	72.4%
ब्राउज़र यूज़	WebArena	58.1%	36.2%	57.1%	78.2%
ब्राउज़र यूज़	WebVoyager	87.0%	56.0%	87.0%	-

इवैल्यूएशन विवरण यहां दिया गया है

ब्राउज़र यूज़

WebArena⁠(एक नई विंडो में खुलेगा) और WebVoyager⁠(एक नई विंडो में खुलेगा) को ब्राउज़र्स का इस्तेमाल करके असली दुनिया के टास्क पूरे करने में वेब ब्राउज़िंग एजेंट्स के परफ़ॉर्मेंस का मूल्यांकन करने के लिए डिज़ाइन किया गया है. WebArena ई-कॉमर्स, ऑनलाइन स्टोर कंटेंट मैनेजमेंट (CMS), सोशल फ़ोरम प्लैटफ़ॉर्म आदि में असली दुनिया के सिनारियो की नकल करने के लिए ऑफ़लाइन सेल्फ़-होस्टेड ओपन-सोर्स वेबसाइट्स का इस्तेमाल करता है. WebVoyager मॉडल के परफ़ॉर्मेंस का टेस्ट ऑनलाइन लाइव वेबसाइट्स जैसे कि Amazon, GitHub और Google Maps पर करता है.

इन बेंचमार्क्स में, CUA उसी यूनिवर्सल इंटरफ़ेस का इस्तेमाल करके एक नया स्टैंडर्ड निर्धारित करता है जो ब्राउज़र स्क्रीन को पिक्सेल के समान देखता है और माउस और कीबोर्ड के ज़रिए एक्शन करता है. CUA ने वेब-बेस्ड टास्क के लिए WebArena पर 58.1% की सफ़लता दर और WebVoyager पर 87% की सफ़लता दर हासिल की. हालाांकि CUA WebVoyager पर एक हाई सक्सेस रेट अचीव करता है, जहाँ ज़्यादातर टास्क रिलेटिवली सिंपल होते हैं, फिर भी CUA को WebArena जैसे ज़्यादा कॉम्प्लेक्स बेंचमार्क्स पर ह्यूमन परफ़ॉर्मेंस के गैप को बंद करने के लिए और सुधार की ज़रूरत है.

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

कंप्यूटर यूज़

OSWorld⁠(एक नई विंडो में खुलेगा) एक ऐसा बेंचमार्क है जो Ubuntu, Windows, और macOS जैसे फ़ुल ऑपरेटिंग सिस्टम्स को कंट्रोल करने की मॉडल की क्षमता का मूल्यांकन करता है. इस बेंचमार्क में, CUA ने 38.1% सफ़लता दर हासिल की है. हमने टेस्ट-टाइम स्केलिंग देखी, जिसका मतलब है कि जब ज़्यादा स्टेप्स के लिए मंज़ूरी दी गई होती है तो CUA का परफ़ॉर्मेंस बेहतर होता है. नीचे दिया गया आंकड़ा CUA के परफ़ॉर्मेंस की तुलना पिछली बेहतरीन तकनीकों के साथ अलग-अलग सबसे ज़्यादा मंज़ूरी दी गई स्टेप्स के साथ करता है. इस बेंचमार्क पर ह्यूमन परफ़ॉर्मेंस 72.4% है, इसलिए इसमें अभी भी सुधार की काफ़ी गुंजाइश है.

Alt टेक्स्ट: 'OSWorld' टाइटल वाला ''लाइन चार्ट, लॉगरिथमिक स्केल पर मंज़ूरी दी गई मैक्स स्टेप्स के मुकाबले सफ़लता दर (%) को दर्शाता है. नीली लाइन OpenAI CUA को दर्शाती है, और ऑरेंज पॉइंट्स Claude 3.5 Sonnet - कंप्यूटर के इस्तेमाल को दर्शाते हैं, जिसमें सफ़लता दर के लिए एनोटेशन भी हैं.

निम्न विज़ुअलाइज़ेशन्स CUA द्वारा कई स्टैंडर्डाइज़्ड OSWorld टास्क के संचालन के नमूने दर्शाते हैं.

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

Operator में CUA

हम Operator के रिसर्च प्रीव्यू के ज़रिए CUA उपलब्ध करा रहे हैं, एक एजेंट जो आपके लिए टास्क परफ़ॉर्म करने के लिए वेब पर जा सकता है. Operator अमेरिका में Pro⁠(एक नई विंडो में खुलेगा) यूज़र के लिए operator.chatgpt.com⁠(एक नई विंडो में खुलेगा) पर उपलब्ध है. ये रिसर्च प्रीव्यू हमारे यूज़र और ब्रॉडर इकोसिस्टम से सीखने, Operator को सुधारने और बेहतर बनाने का एक अवसर है. किसी भी शुरूआती-स्टेज की तकनीक की तरह, हम अभी ये उम्मीद नहीं करते हैं कि CUA सभी सिनारियो में भरोसेमंद तरीके से परफ़ॉर्म करेगा. हालांकि, ये पहले से ही कई मामलों में उपयोगी साबित हो चुका है, और हमारा लक्ष्य बहुत सारे टास्क में उस भरोसे को बढ़ाना है. Operator में CUA को रिलीज़ करके, हम अपने यूज़र से कीमती जानकारी प्राप्त करने की आशा करते हैं, जो हमें इसकी क्षमताओं को रीफ़ाईन करने और इसके ऐप्लिकेशन का विस्तार करने में गाइड करेगी.

नीचे दी गई टेबल में, हमने Operator के क्षेत्र में CUA की परफ़ॉर्मेंस को कुछ ट्रायल्स में प्रॉम्प्ट किया है, ताकि इसकी ज्ञात ताकतों और कमज़ोरियों को दर्शाया जा सके.

कैटेगरी	प्रॉम्प्ट	सफ़लता / प्रयास	नोट
टास्क पूरा करने के लिए विभिन्न UI कंपोनेंट्स के साथ इंटरैक्ट करना	टर्न 1: बेयर हैबिटेट्स के एक डिटेल्ड मैप व्यू के लिए ब्रिटैनिका सर्च करें टर्न 2: बहुत बढ़िया! अब कृपया ब्लैक, ब्राउन और पोलर बेयर लिंक्स चेक करें और उनके शारीरिक कैरेक्टर, ख़ास तौर पे उनके अंतरों के बारे में एक संक्षिप्त सामान्य ओवरव्यू प्रदान करें. ओह और मेरे लिए लिंक्स को सेव करें, ताकि मैं उन्हें जल्दी से एक्सेस कर सकूं.	10 / 10	CUA यूज़र की ज़रुरत वाली जानकारी खोजने के लिए विभिन्न UI कंपोनेंट्स के साथ इंटरैक्ट करके सर्च, सॉर्ट और फ़िल्टर कर सकता है. अलग-अलग वेबसाइट्स और UIs के लिए रिलायबिलिटी में अंतर होता है.
	मुझे उनमें से कोई एक टारगेट डील चाहिए. क्या आप चेक कर सकते हैं कि क्या उनके पास पॉपी प्रिबायोटिक सोडा पर कोई डील है? अगर उनके पास हो, तो मुझे 12fl ओज़ कैन में वॉटरमेलन फ्लेवर चाहिए. मुझे उस तरह की डील्स चाहिए जो इसके साथ आती हो, और चेक करें कि क्या यह ग्ल्यूटेन फ्री है.	9 / 10
	मैं सिएटल में शिफ़्ट होने का प्लान बना रहा हूँ, और मैं चाहता हूँ कि आप रेडफ़िन पर एक टाउनहाउस सर्च करें, जिसमें कम से कम 3 बेडरूम, 2 बाथरूम, और एक एनर्जी-एफ़िशिएंट डिज़ाइन हो (जैसे कि सोलर पैनल या LEED-सर्टिफ़ाइड). मेरा बजट 600,000 से लेकर 800,000 डॉलर के बीच में है, और इस जगह की साइज़ लगभग 1500 स्कवॉयर फ़ीट होना बेहतर रहेगा.	3 / 10
ऐसे टास्क जिन्हें दोहराए जाने वाले सरल UI इंटरैक्शन से पूरा किया जा सकता है.	Todoist में एक नया प्रोजेक्ट बनाएं, जिसका शीर्षक 'वीकेंड ग्रॉसरी शॉपिंग' हो. इस शॉपिंग लिस्ट में ये प्रोडक्ट्स ऐड करें: केला (6 पीस) आवोकाडो (2 पके हुए) बेबी स्पिनाच (1 बैग) होल मिल्क (1 गैलन) शेड्डार चीज (8 oz ब्लॉक) पोटैटो चिप्स (सॉल्टेड, फ़ैमिली साइज़) डार्क चॉकलेट (70% कोको, 2 बार्स)	10 / 10	ऐसे टास्क जो सरल परंतु यूज़र के लिए थकाऊ होते हैं, CUA उन्हें ऑटोमेट करने के लिए सरल UI इंटरैक्शन को रिलायबल तरीके से मल्टीपल टाइम्स रिपीट कर सकता है.
	स्पॉटिफ़ाई पर 1990 के समय में USA में सबसे लोकप्रिय गाने सर्च करें, और कम से कम 10 ट्रैक वाली एक प्लेलिस्ट बनाएँ.	10 / 10
ऐसे टास्क जिसमें CUA ने हाई सक्सेस रेट दिखाया होता, बशर्ते कि प्रॉम्प्ट में विस्तृत हिंट होता कि वेबसाइट का इस्तेमाल कैसे करना है.	tagvenue.com पर जाएँ और लंदन में एक ऐसा कंसर्ट हॉल खोजें जिसमें 150 लोग बैठ सकते हों. मुझे 22 फ़रवरी 2025 को 9 am से 12 am तक पूरे दिन इसकी ज़रुरत है, बस ख़्याल रखना कि यह 90 पाउंड प्रति घंटे से कम हो. ओह, क्या आप उपयुक्त फ़िल्टर के लिए फ़िल्टर सेक्शन को चेक कर सकते हैं, और सुनिश्चित करें कि वहां पर पार्किंग हो और यह जगह व्हीलचेयर एक्सेसिबल हो.	8 / 10	यहां तक कि एक ही टास्क के लिए, CUA की रिलायबिलिटी बदल सकती है, जो इस पर निर्भर करता है कि हम टास्क को कैसे प्रॉम्प्ट कर रहे हैं. इस मामले में, हम तारीख से जुड़ी स्पेसिफ़िक बातें बता कर रिलायबिलिटी सुधार सकते हैं (जैसे कि 9 am से पूरे दिन के बजाय 9 am से 12am तक), और हिंट्स देकर जिस पर रिज़ल्ट्स खोजने के लिए UI का इस्तेमाल किया जाना चाहिए (जैसे कि फ़िल्टर्स सेक्शन चेक करें...)
	tagvenue.com पर जाएँ और लंदन में एक ऐसा कंसर्ट हॉल खोजें जिसमें 150 लोग बैठ सकते हों. मुझे 22 फ़रवरी 2025 को 9 am से पूरे दिन इसकी ज़रुरत है, बस ख़्याल रखना कि यह 90 पाउंड प्रति घंटे से कम हो. ओह, और सुनिश्चित करें कि वहां पर पार्किंग हो और यह जगह व्हीलचेयर एक्सेसिबल हो.	3 / 10
अपरिचित UI और टेक्स्ट एडिटिंग का इस्तेमाल करने में परेशानी हो रही है	html5editor इस्तेमाल करें और बाएं तरफ़ निम्नलिखित टेक्स्ट इनपुट करें, उसके बाद मेरे निर्देशों का पालन करते हुए इसे एडिट करें और पूरा हो जाने के बाद में इस पूरे का स्क्रीनशॉट दें. टेक्स्ट है: नमस्ते दुनिया! यह मेरा पहला टेक्स्ट है. मुझे यह देखने की ज़रुरत है कि HTML के साथ प्रोग्रामिंग किए जाने के बाद यह कैसा दिखेगा. कुछ हिस्सा लाल रंग में होना चाहिए. कुछ बोल्ड. कुछ इटैलिक. कुछ अंडरलाइन्ड. जब तक कि मेरा पाठ पूरा न हो जाए और हम किसी दूसरी तरफ़ शिफ़्ट न कर जाएँ. ... नमस्ते दुनिया! पर हेडर 2 एप्लाई किया जाना चाहिए नीचे दिए गए वाक्य को एक रेगुलर पैराग्राफ़ टेक्स्ट में होना चाहिए. लाल का ज़िक्र करने वाले वाक्य को सामान्य टेक्स्ट और लाल रंग में होना चाहिए बोल्ड का ज़िक्र करने वाले वाक्य को सामान्य टेक्स्ट और बोल्ड में होना चाहिए इटैलिक का ज़िक्र करने वाले वाक्य को सामान्य टेक्स्ट और इटैलिक में होना चाहिए फ़ाइनल वाक्य सामान्य तौर पर बाएं के बजाय दाएं तरफ़ एलाइन होना चाहिए	4 / 10	जब CUA को ऐसी UIs के साथ इंटरैक्ट करना पड़ता है, जिसके साथ इसने ट्रेनिंग के दौरान ज़्यादा इंटरैक्ट नहीं किया है, तो उसे यह समझने में परेशानी होती है कि दिए गए UI का सही से इस्तेमाल कैसे किया जाए. अक्सर इसके चलते बहुत सारा ट्रायल और एरर होता है, और इनएफ़िशिएंट एक्शन होता है. टेक्स्ट एडिटिंग के लिए CUA प्रिसाइज़ नहीं होता. इस प्रोसेस में यह बहुत सी गलतियाँ करता है, या ऐसा आउटपुट देता है जिसमें एरर होती है.

सुरक्षा

क्योंकि CUA हमारे पहले एजेंटिक प्रोडक्ट्स में से एक है, जिसमें ब्राउज़र में सीधे एक्शन करने की क्षमता है, ये नए जोख़िम और चुनौतियां लेकर आता है. जब हम Operator को डिप्लॉयमेंट के लिए तैयार कर रहे थे, तो हमने ब्रॉडर सेफ़्टी टेस्टिंग की और सुरक्षा जोख़िमों की तीन प्रमुख श्रेणियों में मिटिगेशन को लागू किया: दुरुपयोग, मॉडल गलतियां, और सीमांत जोख़िम. हमारा मानना है कि सुरक्षा के लिए एक लेयर्ड नज़रिए को अपनाना ज़रूरी है, इसलिए हमने पूरे डिप्लॉयमेंट कॉन्टेक्स्ट में सुरक्षा उपायों को लागू किया है: ख़ुद CUA मॉडल, Operator सिस्टम, और डिप्लॉयमेंट के बाद के प्रोसेस. इसका उद्देश्य ऐसे मिटिगेशन के उपाय करना है, जिनमें प्रत्येक स्तर जोख़िम प्रोफ़ाइल को क्रमशः कम करता जाए.

जोख़िम की पहली श्रेणी दुरुपयोग है. यूज़र को हमारी इस्तेमाल से जुड़ी नीतियों का पालन करने की ज़रुरत के अलावा, हमने GPT‑4o के लिए हमारे सुरक्षा कार्य के आधार पर, दुरुपयोग के कारण Operator के नुकसान के जोख़िम को कम करने के लिए निम्न मिटिगेशन तैयार किए हैं:

इनकार: CUA मॉडल को कई हानिकारक टास्क और गैर कानूनी या विनियमित गतिविधियों को अस्वीकार करने के लिए ट्रेन किया जाता है.
ब्लॉकलिस्ट: Operator उन वेबसाइट्स को एक्सेस नहीं कर सकता है जिन्हें हमने पहले ही ब्लॉक कर दिया है, जैसे कोई गैम्ब्लिंग साइट्स, वयस्क मनोरंजन, और ड्रग या बंदूक के खुदरा विक्रेता.
मॉडरेशन: यूज़र के इंटरैक्शन की रिव्यु ऑटोमेटेड सुरक्षा जांचकर्ताओं द्वारा रियल-टाइम में की जाती है, जिन्हें इस्तेमाल से जुड़ी नीतियों के पालन को पक्का करने के लिए डिज़ाइन किया गया है और जिनमें प्रतिबंधित गतिविधियों के लिए चेतावनी या ब्लॉक जारी करने की क्षमता है.
ऑफ़लाइन डिटेक्शन: हमने बाल सुरक्षा और भ्रामक गतिविधियों सहित प्राथमिकता वाले नीति क्षेत्रों में प्रतिबंधित इस्तेमाल की पहचान करने के लिए ऑटोमेटेड पहचान और ह्यूमन रिव्यु पाइपलाइन भी विकसित की है, जिससे हमें अपनी इस्तेमाल से जुड़ी नीतियों को लागू करने में मदद मिलती है.

जोखिम की दूसरी कैटेगरी मॉडल गलतियां हैं, जहां CUA मॉडल गलती से ऐसी एक्शन कर देता है जिसे यूज़र नहीं करना चाहता था, जिसके परिणामस्वरूप यूज़र या दूसरे लोगों को नुकसान होता है. काल्पनिक गलतियों की गंभीरता अलग-अलग हो सकती है, जैसे ईमेल में टाइपिंग की गलती, गलत आइटम खरीदना, या किसी ज़रूरी डॉक्यूमेंट को स्थायी तौर पर डिलीट करना. संभावित नुकसान को न्यूनतम करने के लिए, हमने निम्न मिटिगेशन डेवलप किए हैं:

यूज़र कन्फ़र्मेंशन: CUA मॉडल को बाहरी दुष्प्रभावों वाले टास्क को फ़ाइनलाइज़ करने से पहले यूज़र कन्फ़र्मेशन मांगने के लिए ट्रेन किया जाता है, जैसे कि ऑर्डर सबमिट करने से पहले, ईमेल भेजने से पहले, आदि, ताकि मॉडल का काम स्थायी होने से पहले यूज़र उसे दोबारा चेक कर सके.
टास्क पर पाबंदियाँ: फ़िलहाल, CUA मॉडल कुछ ज़्यादा जोख़िम वाले टास्क, जैसे बैंकिंग लेनदेन और ऐसे टास्क में मदद करने से इंकार कर देगा जिनमें सेंसिटिव फ़ैसले लेने की ज़रुरत होती है.
वॉच मोड: ख़ास तौर से संवेदनशील वेबसाइट्स पर, जैसे ईमेल, Operator को एक्टिव यूज़र सुपरविज़न की ज़रुरत होती है, ताकि यूज़र सीधे तौर पर मॉडल द्वारा की गई किसी भी संभावित गलती को पकड़ सकें और उसका समाधान कर सकें.

मॉडल गलतियों की एक ख़ास तौर से महत्वपूर्ण श्रेणी वेबसाइट्स पर प्रतिकूल हमले हैं, जो CUA मॉडल को प्रॉम्प्ट इंजेक्शन, जेलब्रेक और फ़िशिंग अटेम्पट्स के ज़रिए अनपेक्षित एक्शन करने के लिए मजबूर करते हैं. मॉडल गलतियों के विरुद्ध उपर्युक्त मिटिगेशन के अतिरिक्त, हमने इन जोख़िमों से बचाव के लिए सुरक्षा के कई अतिरिक्त लेयर्स विकसित किए हैं:

सतर्क नेविगेशन: CUA मॉडल को वेबसाइट्स पर प्रॉम्प्ट इंजेक्शन की पहचान करने और उसे अनदेखा करने के लिए डिज़ाइन किया गया है, जो शुरूआती इंटर्नल रेड-टीमिंग सेशन से एक मामले को छोड़कर सभी को पहचानता है.
मॉनिटर करना: Operator में, हमने स्क्रीन पर संदिग्ध कंटेंट डिटेक्ट किए जाने पर एक्सीक्यूशन को मॉनिटर करने और उसे रोकने के लिए एक अतिरिक्त मॉडल लागू किया है.
डिटेक्शन पाइपलाइन: हम संदिग्ध पहुंच पैटर्न की पहचान करने के लिए ऑटोमेटेड पहचान और ह्यूमन रिव्यु पाइपलाइन दोनों का इस्तेमाल कर रहे हैं, जिन्हें चिह्नित किया जा सकता है और तेज़ी से मॉनिटर में जोड़ा जा सकता है (कुछ ही घंटों में).

आखिरकार, हमने अपने तैयार रहने के फ़्रेमवर्क⁠(एक नई विंडो में खुलेगा) में आउटलाइन की गई सीमांत जोख़िमों के विरुद्ध CUA मॉडल का मूल्यांकन किया, जिसमें ऑटोनोमस रेप्लिकेशन और बायोरिस्क टूलिंग से जुड़े सिनारियो शामिल थे. इन आंकलनों से पता चला कि GPT‑4o के ऊपर कोई बढ़ते जाने वाला जोख़िम नहीं है.

जो लोग मूल्यांकन और सुरक्षा उपायों के बारे में ज़्यादा विस्तार से जानने में रुचि रखते हैं, हम उन्हें Operator सिस्टम कार्ड को रिव्यु करने के लिए प्रोत्साहित करते हैं, जो एक जीवंत डॉक्यूमेंट है जो हमारे सुरक्षा संबंधी अप्रोच और चल रहे सुधारों के बारे में पारदर्शिता प्रदान करता है.

चूंकि Operator की कई क्षमताएँ नई हैं, इसलिए हमारे द्वारा लागू किए गए जोख़िम एवं मिटिगेशन अप्रोच भी नए हैं. हालांकि हमने अत्याधुनिक, विविध और कॉम्प्लिमेंटरी मिटिगेशन का लक्ष्य रखा है, फ़िर भी हम उम्मीद करते हैं कि जैसे-जैसे हम और ज़्यादा सीखते जाएंगे, ये जोख़िम और हमारा अप्रोच विकसित होता जाएगा. हम रिसर्च प्रीव्यू पीरियड का इस्तेमाल यूज़र्स के फ़ीडबैक जमा करने, अपने सुरक्षा उपायों में सुधार करने और एजेंटिक सुरक्षा को बढ़ाने के अवसर के तौर पर करने के लिए तत्पर हैं.

निष्कर्ष

CUA मल्टीमोडैलिटी, तर्क और सुरक्षा में वर्षों के रिसर्च की प्रगति पर आधारित है. हमने o-मॉडल सीरीज़ के ज़रिये डीप रीज़निंग, GPT‑4o के ज़रिए विज़न क्षमताओं और रीइंफ़ोर्समेंट लर्निंग और इंस्ट्रक्शन हायरेरकी के ज़रिए मज़बूती में सुधार करने के लिए नई तकनीकों में महत्वपूर्ण प्रगति की है. अगली चुनौती जिस क्षेत्र में हम एक्स्प्लोर करने का प्लान कर रहे हैं, वो एजेंट्स के एक्शन स्पेस को बढ़ाना है. यूनिवर्सल इंटरफ़ेस द्वारा प्रदान किया गया लचीलापन इस चुनौती का समाधान करता है, और मनुष्यों के लिए डिज़ाइन किए गए किसी भी सॉफ्टवेयर टूल को नेविगेट करने में एक एजेंट की मदद करता है. ख़ास एजेंट-अनुकूल APIs से आगे बढ़कर, CUA जो भी कंप्यूटर वातावरण उपलब्ध है, उसके अनुकूल हो सकता है—असली में डिजिटल यूज़ केसेस की "लंबी कतार" को संबोधित करता है जो ज़्यादातर AI मॉडल के लिए पहुंच से बाहर हैं.

हम API⁠(एक नई विंडो में खुलेगा) में CUA उपलब्ध कराने के लिए भी काम कर रहे हैं, ताकि डेवलपर इसका इस्तेमाल अपने ख़ुद के कंप्यूटर-यूज़िंग एजेंट बनाने के लिए कर सकें. जैसे-जैसे हम CUA पर काम करना जारी रखेंगे, हम कम्‍यूनिटी द्वारा खोजे जाने वाले अलग-अलग यूज़ केसेस को देखने के लिए उत्सुक हैं. हम इस शुरूआती प्रीव्यू से प्राप्त रियल-वर्ल्ड फ़ीडबैक का इस्तेमाल CUA की क्षमताओं और सुरक्षा उपायों को निरंतर सुधारने के लिए करने का प्लान कर रहे हैं, ताकि AI के फ़ायदों को सभी तक पहुंचाने के हमारे मिशन को सुरक्षित तरीके से आगे बढ़ाया जा सके.

लेखक

OpenAI

संदर्भ

पेश है कंप्यूटर का इस्तेमाल, एक नया Claude 3.5 Sonnet, और Claude 3.5 Haiku⁠(एक नई विंडो में खुलेगा)

मॉडल कार्ड ऐडेंडम: Claude 3.5 Haiku और अपग्रेडेड Claude 3.5 Sonnet⁠(एक नई विंडो में खुलेगा)

Kura WebVoyager बेंचमार्क⁠(एक नई विंडो में खुलेगा)

Google प्रोजेक्ट मेरिनर⁠(एक नई विंडो में खुलेगा)

OSWorld: रियल कंप्यूटर एन्वायर्मेंट में ओपन-एंडेड टास्क के लिए मल्टीमॉडल एजेंट्स को बेंचमार्क करना⁠(एक नई विंडो में खुलेगा)

WebVoyager: बड़े मल्टीमॉडल मॉडल के साथ एक एंड-टू-एंड वेब एजेंट बनाना⁠(एक नई विंडो में खुलेगा)

WebArena: ऑटोनॉमस एजेंट्स बनाने के लिए एक रियल वेब एन्वायर्मेंट⁠(एक नई विंडो में खुलेगा)

साइटेशन्स

कृपया OpenAI का साइटेशन दें और साइटेशन के लिए निम्न BibTeX का इस्तेमाल करें: http://cdn.openai.com/cua/cua2025.bib⁠(एक नई विंडो में खुलेगा)