स्किप करके मेन कंटेंट पर जाऍं
OpenAI

11 मार्च 2025

प्रोडक्ट

एजेंट्स बनाने के लिए नए टूल्स

हम डेवलपर्स और एंटरप्राइज़ को मददगार और भरोसेमंद एजेंट बनाने में मदद करने के लिए अपने प्लैटफ़ॉर्म को बेहतर बना रहे हैं.

एक आकर्षक, छोटा-सा इंटरफ़ेस जो एक AI एजेंट के लिए एक टास्क लिस्ट डिस्प्ले करता है, जिसमें 'triage_agent,' 'guardrail,' और 'update_salesforce_record' शामिल हैं, एक फ़्लूइड नीले ऐब्स्ट्रैक्ट बैकग्राउंड पर.

आज, हम बिल्डिंग ब्लॉक्स का पहला सेट रिलीज़ कर रहे हैं जो डेवलपर्स और एंटरप्राइज़ को मददगार और भरोसेमंद एजेंट्स बनाने में मदद करेगा. हम एजेंट्स को ऐसे सिस्टम्स के तौर पर देखते हैं जो यूज़र्स की ओर से स्वतंत्र तरीके से काम पूरा करते हैं. पिछले वर्ष के दौरान, हमने नई मॉडल क्षमताएं पेश की हैं—जैसे एडवांस्ड रीज़निंग, मल्टीमोडल इंटरैक्शन्स और नई सुरक्षा तकनीकें—जिन्होंने एजेंट्स के निर्माण के लिए ज़रूरी, मुश्किल, मल्टी-स्टेप टास्क को हैंडल करने के लिए हमारे मॉडल्स के लिए आधार तैयार किया है. हालांकि, कस्टमर्स ने बताया कि इन क्षमताओं को प्रोडक्शन-रेडी एजेंट्स में बदलना चुनौतीपूर्ण हो सकता है, जिसके लिए अक्सर पर्याप्त दृश्यता या बिल्ट-इन सपोर्ट के बिना बड़े पैमाने पर प्रॉम्प्ट इटरेशन और कस्टम ऑर्केस्ट्रेशन लॉजिक की ज़रुरत पड़ती है.

इन चुनौतियों को हल करने के लिए, हम APIs और टूल्स का एक नया सेट लॉन्च कर रहे हैं जो ख़ास तौर से एजेंटिक ऐप्लिकेशन के विकास को आसान बनाने के लिए डिज़ाइन किए गए हैं:

ये नए टूल्स कोर एजेंट लॉजिक, ऑर्केस्ट्रेशन और इंटरैक्शन को स्ट्रीमलाइन करते हैं, जिससे डेवलपर्स के लिए एजेंट्स बनाना शुरू करना काफ़ी आसान हो जाता है. आने वाले हफ़्तों और महीनों में, हम अपने प्लैटफ़ॉर्म पर एजेंटिक ऐप्लिकेशन्स के निर्माण को और ज़्यादा आसान और तेज़ बनाने के लिए अतिरिक्त टूल्स और क्षमताएं जारी करने का प्लान कर रहे हैं.

पेश है रिस्पांस API

रिस्पांस API हमारा नया API प्रिमिटिव है, जो एजेंट्स बनाने के लिए OpenAI के बिल्ट-इन टूल्स का फ़ायदा उठाने देता है. ये चैट कम्पलीशन्स की आसानी को असिस्टेंट्स API की टूल-उपयोग क्षमताओं के साथ जोड़ता है. क्योंकि मॉडल की क्षमताएं लगातार डेवलप हो रही हैं, हमारा मानना ​​है कि रिस्पांस API, एजेन्टिक ऐप्लिकेशन्स बनाने वाले डेवलपर्स के लिए और ज़्यादा फ़्लेक्सिबल आधार देगा. एक सिंगल रिसपांस API कॉल के साथ, डेवलपर्स कई टूल्स और मॉडल टर्न्स का इस्तेमाल करके तेज़ी से बेहद मुश्किल टास्क को हल कर पाएंगे.

शुरू में, रिस्पांस API वेब सर्च, फ़ाइल सर्च और कंप्यूटर का इस्तेमाल जैसे नए बिल्ट-इन टूल्स को सपोर्ट करेगा. इन टूल्स को मॉडल्स को रियल-टाइम से जोड़ने के लिए एक साथ काम करने के लिए डिज़ाइन किया गया है, जिससे वे टास्क पूरे करने में और ज़्यादा मददगार बन जाते हैं. इसमें इस्तेमाल में कई सुधार भी हैं जिनमें एक एकीकृत आइटम-बेस्ड डिज़ाइन, सरल बहुरूपता, आसान स्ट्रीमिंग इवेंट और मॉडल के टेक्स्ट आउटपुट तक आसानी से एक्सेस करने के लिए response.output_text जैसे SDK हेल्पर्स शामिल हैं.

रिस्पांस API उन डेवलपर्स के लिए डिज़ाइन किया गया है जो कई API या बाहरी वेंडर्स को इंटीग्रेट करने की पेचीदगी के बिना, आसानी से OpenAI मॉडल और बिल्ट-इन टूल्स को अपने ऐप्स में जोड़ना चाहते हैं. API OpenAI पर डेटा स्टोर करना भी आसान बनाता है ताकि डेवलपर्स ट्रेसिंग और मूल्यांकन जैसे फ़ीचर्स का इस्तेमाल करके एजेंट के परफ़ॉर्मेंस का मूल्यांकन कर सकें. याद दिला दें, कि हम अपने मॉडल्स को डिफ़ॉल्ट तरीके से बिज़नेस डेटा पर ट्रेन नहीं करते हैं, भले ही डेटा OpenAI पर स्टोर किया गया हो. API आज से सभी डेवलपर्स के लिए उपलब्ध है और इसके लिए अलग से चार्ज नहीं लिया जाएगा—टोकन्स और टूल्स का बिल हमारे प्राइसिंग पेज(एक नई विंडो में खुलेगा)पर बताए हुए स्टैंडर्ड रेट्स पर लिया जाएगा. और ज़्यादा जानने के लिए रिस्पांस API की क्विकस्टार्ट गाइड(एक नई विंडो में खुलेगा)देखें.

मौजूदा APIs के लिए इसका क्या मतलब है

  • चैट कम्प्लीशन्स API(एक नई विंडो में खुलेगा): चैट कम्प्लीशन्स हमारा सबसे बड़े पैमाने पर अपनाया गया API रहा है, और हम नए मॉडल्स और क्षमताओं के साथ इसे सपोर्ट करने के लिए पूरी तरह से प्रतिबद्ध हैं. जिन डेवलपर्स को बिल्ट-इन टूल्स की ज़रुरत नहीं है, वे पूरे आत्मविश्वास के साथ चैट कम्प्लीशन्स का इस्तेमाल जारी रख सकते हैं. जब भी उनकी क्षमताएं बिल्ट-इन टूल्स या कई मॉडल कॉल्स पर निर्भर नहीं होंगी, हम चैट कम्प्लीशन्स के लिए नए मॉडल्स जारी करते रहेंगे. हालांकि, रिस्पांस API, चैट कम्प्लीशन्स का एक सुपरसेट(एक नई विंडो में खुलेगा) है, जिसका परफ़ॉर्मेंस भी उतना ही बढ़िया है, इसलिए नए इंटीग्रेशन्स के लिए, हम रिस्पांस API से शुरुआत करने की सलाह देते हैं.
  • असिस्टेंट्स API(एक नई विंडो में खुलेगा): असिस्टेंट्स API बीटा से डेवलपर फ़ीडबैक के आधार पर, हमने रिस्पांस API में प्रमुख सुधार शामिल किए हैं, जिससे ये और भी ज़्यादा फ़्लेक्सिबल, तेज़ और इस्तेमाल में आसान बन गया है. हम असिस्टेंट्स और रिस्पांस API के बीच फ़ुल फ़ीचर समानता पाने के लिए काम कर रहे हैं, जिसमें असिस्टेंट-जैसे और थ्रेड-जैसे ऑब्जेक्ट्स और कोड इंटरप्रेटर टूल के लिए सपोर्ट शामिल है. ये पूरा हो जाने पर, हम 2026 के मध्य में एक टार्गेट सनसेट दिनांक के साथ असिस्टेंट्स API के डेप्रिकेशन की औपचारिक घोषणा करने का प्लान कर रहे हैं. डेप्रिकेशन के बाद, हम असिस्टेंट्स API से रिस्पांस API तक एक क्लियर माइग्रेशन गाइड देंगे जो डेवलपर्स को अपने सभी डेटा को संरक्षित करने और अपने ऐप्लिकेशन्स को माइग्रेट करने में मदद करता है. जब तक हम औपचारिक तौर पर डेप्रिकेशन की घोषणा नहीं करते, हम असिस्टेंट्स API को नए मॉडल्स डिलीवर करना जारी रखेंगे. रिस्पांस API, OpenAI पर एजेंट्स बनाए जाने के लिए आगे की दिशा का प्रतिनिधित्व करता है.

पेश हैं रिस्पांस API में बिल्ट-इन टूल्स

वेब सर्च

डेवलपर्स अब वेब से स्पष्ट और प्रासंगिक साइटेशन्स के साथ तेज़, अप-टू-डेट जवाब पा सकते हैं. रिस्पांस API में, gpt-4o और gpt-4o-mini का इस्तेमाल करते समय वेब सर्च एक टूल के तौर पर उपलब्ध है, और इसे दूसरे टूल्स या फ़ंक्शन कॉल्स के साथ जोड़ा जा सकता है.

JavaScript

1
const response = await openai.responses.create({
2
model: "gpt-4o",
3
tools: [ { type: "web_search_preview" } ],
4
input: "What was a positive news story that happened today?",
5
});
6

7
console.log(response.output_text);

शुरुआती टेस्टिंग के दौरान, हमने देखा कि डेवलपर्स ने शॉपिंग असिस्टेंट, रिसर्च एजेंट और ट्रैवल बुकिंग एजेंट सहित कई यूज़ केसेस के लिए वेब सर्च का इस्तेमाल किया है - कोई भी एप्लिकेशन जिसे वेब से समय पर जानकारी की ज़रुरत होती है.

जैसे कि, Hebbia(एक नई विंडो में खुलेगा) वेब सर्च टूल का फ़ायदा उठाकर एस्सेट मैनेजर्स, प्राइवेट इक्विटी और क्रेडिट फ़र्म्स, और कानूनी संस्थाओं को बड़े पैमाने पर पब्लिक और प्राइवेट डेटासेट्स से जल्दी कार्रवाई लायक जानकारियां निकालने में मदद करता है. अपने रिसर्च वर्कफ़्लो में रियल-टाइम सर्च क्षमताओं को इंटीग्रेट करके, Hebbia ज़्यादा समृद्ध, संदर्भ के अनुसार मार्केट की खुफ़िया जानकारी देता है और अपनी एनालिसिस की सटीकता व प्रासंगिकता में लगातार सुधार करता है, और मौजूदा बेंचमार्क्स से बेहतर परफ़ॉर्म करता है.

API में वेब सर्च, ChatGPT सर्च के लिए इस्तेमाल उसी मॉडल द्वारा संचालित होती है. SimpleQA पर, जो एक बेंचमार्क है जो छोटे, तथ्यात्मक सवालों के जवाब देने में LLMs की सटीकता का मूल्यांकन करता है, GPT‑4o सर्च प्रीव्यू और GPT‑4o mini सर्च प्रीव्यू इसी तरह 90% और 88% स्कोर करते हैं.

सिंपलQA एक्यूरेसी (जितनी ज़्यादा होगी, उतना बेहतर होगा)
63%38%47%15%90%88%एक्यूरेसी

API में वेब सर्च द्वारा जनरेट किए गए जवाबों में न्यूज़ आर्टिकल्स और ब्लॉग पोस्ट जैसे सोर्सेस के लिंक शामिल होते हैं, जो यूज़र्स को और ज़्यादा जानने का एक तरीका देते हैं. इन स्पष्ट, इनलाइन साइटेशन्स के साथ, यूज़र्स नए तरीके से जानकारी से जुड़ सकते हैं, जबकि कंटेंट ओनर्स को एक बड़े पैमाने पर ऑडियंस तक पहुंचने के नए अवसर मिलते हैं.

कोई भी वेबसाइट या पब्लिशर, API में वेब सर्च में दिखाई देना चुन सकते हैं(एक नई विंडो में खुलेगा).

वेब सर्च टूल सभी डेवलपर्स के लिए रिस्पांस API में प्रीव्यू में उपलब्ध है. हम डेवलपर्स को gpt-4o-search-preview और gpt-4o-mini-search-preview के ज़रिए चैट कम्प्लीशन्स API में हमारे और ज़्यादा बेहतर सर्च मॉडल्स के लिए डायरेक्ट एक्सेस भी दे रहे हैं. GPT‑4o सर्च और 4o-mini सर्च के लिए दाम(एक नई विंडो में खुलेगा) 30 डॉलर और 25 डॉलर प्रति हज़ार क्वेरी से शुरू होते हैं. Playground(एक नई विंडो में खुलेगा) में वेब सर्च देखें और हमारे डॉक्स(एक नई विंडो में खुलेगा) में और ज़्यादा जानें.

फ़ाइल सर्च

डेवलपर्स अब एड्वांस्ड फ़ाइल सर्च टूल का इस्तेमाल करके बड़ी मात्रा में डॉक्यूमेंट्स से प्रासंगिक जानकारी आसानी से प्राप्त कर सकते हैं. एक से ज़्यादा फ़ाइल टाइप्स, क्वेरी ऑप्टिमाइज़ेशन, मेटाडेटा फ़िल्टरिंग और कस्टम रीरैंकिंग के सपोर्ट के साथ, ये तेज़, सटीक सर्च नतीजे दे सकता है. और तो और, रिस्पांस API के साथ, इंटीग्रेट करने के लिए कोड की सिर्फ़ कुछ लाइनें ही लगती हैं.

JavaScript

1
const productDocs = await openai.vectorStores.create({
2
name: "Product Documentation",
3
file_ids: [file1.id, file2.id, file3.id],
4
});
5

6
const response = await openai.responses.create({
7
model: "gpt-4o-mini",
8
tools: [{
9
type: "file_search",
10
vector_store_ids: [productDocs.id],
11
}],
12
input: "What is deep research by OpenAI?",
13
});
14

15
console.log(response.output_text);

फ़ाइल सर्च टूल का इस्तेमाल असली दुनिया के अलग-अलग यूज़ केसेस के लिए किया जा सकता है, जिसमें कस्टमर सपोर्ट एजेंट को आसानी से अक्सर पूछे जाने वाले सवालों को एक्सेस करने में मदद करना, एक लीगल असिस्टेंट को क्वालिफ़ाइड प्रोफ़शनल के लिए पिछले मामलों को जल्दी से रेफ़रेंस करने में मदद करना, और कोडिंग एजेंट को तकनीकी डॉक्यूमेंटेशन की जानकारी पाने में मदद करना शामिल है. जैसे कि, Navan(एक नई विंडो में खुलेगा) अपने AI-संचालित ट्रैवल एजेंट में फ़ाइल सर्च का इस्तेमाल करता है ताकि अपने यूज़र्स को नॉलेज-बेस आर्टिकल्स (जैसे उनकी कंपनी की ट्रैवल पॉलिसी) से सटीक जवाब दे सके. बिल्ट-इन क्वेरी ऑप्माइज़ेशन और रीरैंकिंग के साथ, वे अतिरिक्त ट्यूनिंग या कॉन्फ़िगरेशन के बिना एक मज़बूत RAG (रिट्रीवल-ऑगमेंटेड जनरेशन) पाइपलाइन सेट अप कर कर सकते हैं. हरेक यूज़र ग्रुप के लिए समर्पित वेक्टर स्टोर के साथ, Navan व्यक्तिगत अकाउंट सेटिंग्स और यूज़र रोल के लिए जवाब तैयार कर सकता है, जिससे कस्टमर्स और उनके स्टाफ़ के लिए समय की बचत होती है, जबकि सटीक, पर्सनलाइज़ सहायता देने में मदद मिलती है.

ये टूल सभी डेवलपर्स के लिए रिस्पांस API में उपलब्ध है. इस्तेमाल की कीमत(एक नई विंडो में खुलेगा) 2.50 डॉलर प्रति हज़ार क्वेरी औए फ़ाइल स्टोरेज की कीमत 0.10 डॉलर प्रति GB प्रतिदिन है, जिसमें पहला GB मुफ़्त है. ये टूल असिस्टेंट API में उपलब्ध रहेगा. आख़िर में, हमने वेक्टर स्टोर API ऑब्जेक्ट्स में एक नया सर्च एंडपॉइंट भी जोड़ा है ताकि दूसरे ऐप्लिकेशन्स और API में इस्तेमाल के लिए आपके डेटा को सीधे क्वेरी किया जा सके. हमारे डॉक्स(एक नई विंडो में खुलेगा) में और ज़्यादा जानें और Playground(एक नई विंडो में खुलेगा)में टेस्टिंग करना शुरू करें.

कंप्यूटर यूज़

कंप्यूटर पर टास्क पूरे कर पाने वाले एजेंट्स बनाने के लिए, डेवलपर्स अब रिस्पांस API में कंप्यूटर यूज़ टूल का इस्तेमाल कर सकते हैं, जो उसी कंप्यूटर-यूज़िंग एजेंट (CUA) मॉडल द्वारा संचालित होता है जो Operator को इनेबल करता है. इस रिसर्च प्रीव्यू मॉडल ने एक नया बेहतरीन रिकॉर्ड सेट किया, जिसमें फ़ुल कंप्यूटर के इस्तेमाल के टास्क के लिए OSWorld(एक नई विंडो में खुलेगा) पर 38.1% सफ़लता, WebArena(एक नई विंडो में खुलेगा) पर 58.1% और वेब-बेस्ड इंटरैक्शन के लिए WebVoyager(एक नई विंडो में खुलेगा) पर 87% सफ़लता प्राप्त हुई.

बिल्ट-इन कंप्यूटर यूज़ टूल मॉडल द्वारा जनरेट किए गए माउस और कीबोर्ड एक्शन्स को कैप्चर करता है, जिससे डेवलपर्स के लिए अपने एनेवायर्नमेंट्स में इन एक्शन्स को सीधे एक्सीक्यूट करने लायक कमांड्स में अनुवाद करके कंप्यूटर के इस्तेमाल का टास्क ऑटोमेट करना मुमकिन हो जाता है.

JavaScript

1
const response = await openai.responses.create({
2
model: "computer-use-preview",
3
tools: [{
4
type: "computer_use_preview",
5
display_width: 1024,
6
display_height: 768,
7
environment: "browser",
8
}],
9
truncation: "auto",
10
input: "I'm looking for a new camera. Help me find the best one.",
11
});
12

13
console.log(response.output);

डेवलपर्स कंप्यूटर यूज़ टूल का इस्तेमाल ब्राउज़र-बेस्ड वर्कफ़्लो को ऑटोमेट करने के लिए कर सकते हैं, जैसे वेब ऐप्लिकेशन पर क्वालिटी का आश्वासन देना या लीगेसी सिस्टम्स में डेटा-एंट्री टास्क एक्सीक्यूट करना. जैसे कि, Unify(एक नई विंडो में खुलेगा) रेवेन्यु बढ़ाने के लिए एक ऐसा एक्शन सिस्टम है जो इरादे की पहचान करने, अकाउंट्स पर रिसर्च करने, और ख़रीदारों के साथ जुड़ने के लिए एजेंट्स का इस्तेमाल करती है. OpenAI के कंप्यूटर यूसेज टूल का इस्तेमाल करके, Unify के एजेंट ऐसी जानकारी को एक्सेस कर सकते हैं जो पहले API के ज़रिए पहुंच लायक नहीं थी—जैसे कि किसी प्रॉपर्टी मैनेजमेंट कंपनी को ऑनलाइन मैप्स के ज़रिए ये वेरिफ़ाई करने में मदद करना कि क्या किसी बिज़नेस ने अपने रियल एस्टेट फ़ुटप्रिंट बढ़ाया है. ये रिसर्च व्यक्तिगत पहुंच को ट्रिगर करने के लिए एक कस्टम सिग्नल के तौर पर काम करती है—जिससे मार्केट में जाने वाली टीमों को सटीकता और पैमाने के साथ खरीदारों को जोड़ने में सशक्त बनाया जा सके.

एक दूसरे उदाहरण के तौर पर, Luminai(एक नई विंडो में खुलेगा) ने कंप्यूटर के इस्तेमाल के टूल को इंटीग्रेट किया, ताकि बड़े एंटरप्राइज़ेज़ के लिए मुश्किल ऑपरेशनल वर्कफ़्लो को ऑटोमेट किया जा सके, जिनके लीगेसी सिस्टम्स में API उपलब्धता और स्टैंडर्डाइज़्ड डेटा की कमी है. हाल ही में एक प्रमुख सामुदायिक सेवा संगठन के साथ एक पायलट प्रोजेक्ट में, Luminai ने कुछ ही दिनों में ऐप्लिकेशन प्रोसेसिंग और यूज़र की नामांकन प्रक्रिया को ऑटोमेट किया—कुछ ऐसा जिसे पारंपरिक रोबोटिक प्रोसेस ऑटोमेशन (RPA) महीनों की कोशिश के बाद भी हासिल करने में संघर्ष करता रहा.

पिछले वर्ष Operator में CUA को लॉन्च करने से पहले, हमने बड़े पैमाने पर सेफ़्टी टेस्टिंग और रेड टीमिंग का आयोजन किया था, जिसमें जोखिम के तीन प्रमुख क्षेत्रों पर ध्यान दिया गया था: दुरुपयोग, मॉडल के एरर, और फ़्रंटियर जोखिम. API में CUA के ज़रिए लोकल ऑपरेटिंग सिस्टम्स तक Operator की क्षमताओं को बढ़ाने से जुड़े जोखिमों का समाधान करने के लिए, हमने अतिरिक्त सुरक्षा मूल्यांकन और रेड टीमिंग की. हमने डेवलपर्स के लिए मिटिगेशन भी जोड़े हैं, जिनमें प्रॉम्प्ट इंजेक्शन से बचाव के लिए सुरक्षा जांच, संवेदनशील टास्क के लिए कन्फ़र्मेशन प्रॉम्प्ट्स, डेवलपर्स को उनके एन्वायर्नमेंट्स को अलग करने में मदद करने के लिए टूल्स, और संभावित नीति उल्लंघनों का बड़े पैमाने पर पता लगाना शामिल है. हालांकि ये मिटिगेशन जोखिम को कम करने में मदद करते हैं, फ़िर भी मॉडल में अनजाने में गलतियां होने की संभावना बनी रहती है, ख़ास तौर से नॉन-ब्राउज़र एन्वायर्नमेंट्स में. जैसे कि, OSWorld पर CUA का परफ़ॉर्मेंस, जो असली दुनिया के टास्क पर AI एजेंट्स के परफ़ॉर्मेंस को मापने के लिए डिज़ाइन किया गया एक बेंचमार्क है, अभी 38.1% है, जो दर्शाता है कि ऑपरेटिंग सिस्टम्स पर टास्क को ऑटोमेट करने के लिए मॉडल अभी भी बहुत ज़्यादा भरोसेमंद नहीं है. इन हालातों में मानवीय निगरानी का सुझाव दिया जाता है. हमारे API-विशिष्ट सुरक्षा कार्य के बारे में और ज्यादा जानकारी हमारे अपडेट किए हुए सिस्टम कार्ड में देखी जा सकती है.

बेचमार्क का प्रकारबेंचमार्ककंप्यूटर यूज़ (यूनिवर्सल इंटरफ़ेस)वेब ब्राउज़िंग एजेंट्सह्यूमन
OpenAI CUAपिछला SOTAपिछला SOTA
कंप्यूटर यूज़OSWorld38.1%22.0%-72.4%
ब्राउज़र यूज़WebArena58.1%36.2%57.1%78.2%
WebVoyager87.0%56.0%87.0%-
इवैल्यूएशन विवरण यहां दिया गया है

आज से, कंप्यूटर के इस्तेमाल का टूल चुनिंदा डेवलपर्स के लिए इस्तेमाल टियर 3-5(एक नई विंडो में खुलेगा)में रिस्पांस API में रिसर्च प्रीव्यू के तौर पर उपलब्ध है. इस्तेमाल की कीमत(एक नई विंडो में खुलेगा) $3/1M इनपुट टोकन और $12/1M आउटपुट टोकन है. हमारे डॉक्स(एक नई विंडो में खुलेगा) में और ज़्यादा जानकारी देखें और इस टूल के साथ बनाने का तरीका बताने वाले सैंपल ऐप्लिकेशन(एक नई विंडो में खुलेगा) को देखें.

एजेंट SDK

एजेंट्स का कोर लॉजिक बनाने व उन्हें मददगार बनाने के लिए टूल्स के लिए एक्सेस देने के अलावा, डेवलपर्स को एजेंटिक वर्कफ़्लो को भी व्यवस्थित करने की ज़रुरत पड़ती है. हमारा नया ओपन-सोर्स एजेंट SDK मल्टी-एजेंट वर्कफ़्लो को ऑर्केस्ट्रेट करना आसान बनाता है और Swarm(एक नई विंडो में खुलेगा) पर ज़रूरी सुधार देता है, जो एक एक्सपेरिमेंटल SDK है जिसे हमने पिछले साल रिलीज़ किया था जिसे डेवलपर कम्युनिटी द्वारा बड़े पैमाने पर अपनाया गया था और कई कस्टमर्स द्वारा सफ़लतापूर्वक डिप्लॉय किया गया था.

सुधारों में शामिल हैं:

  • एजेंट्स: स्पष्ट निर्देशों और बिल्ट-इन टूल्स के साथ आसानी से कॉन्फ़िगर करने लायक LLMs.
  • हैंडऑफ़्स: समझदारी से कंट्रोल को एजेंट्स के बीच ट्रांसफ़र करें.
  • गार्डरेलिंग : इनपुट और आउटपुट मान्यता के लिए कॉन्फ़िगर करने योग्य सुरक्षा जांच.
  • पता लगाना और निरीक्षण करना: परफ़ॉर्मेंस को डीबग और ऑप्टिमाइज़ करने के लिए एजेंट एक्सीक्यूशन के ट्रेसेस को विज़ुअलाइज़ करें.

Python

1
from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2

3
@function_tool
4
def submit_refund_request(item_id: str, reason: str):
5
# Your refund logic goes here
6
return "success"
7

8
support_agent = Agent(
9
name="Support & Returns",
10
instructions="You are a support agent who can submit refunds [...]",
11
tools=[submit_refund_request],
12
)
13

14
shopping_agent = Agent(
15
name="Shopping Assistant",
16
instructions="You are a shopping assistant who can search the web [...]",
17
tools=[WebSearchTool()],
18
)
19

20
triage_agent = Agent(
21
name="Triage Agent",
22
instructions="Route the user to the correct agent.",
23
handoffs=[shopping_agent, support_agent],
24
)
25

26
output = Runner.run_sync(
27
starting_agent=triage_agent,
28
input="What shoes might work best with my outfit so far?",
29
)

एजेंट्स SDK असली दुनिया के ऐप्लिकेशन्स के लिए उपयुक्त है, जिसमें कस्टमर सपोर्ट ऑटोमेशन, मल्टी-स्टेप रिसर्च, कंटेंट जनरेशन, कोड रिव्यु और सेल्स की संभावना तलाशना शामिल है. जैसे कि, Coinbase(एक नई विंडो में खुलेगा) ने एजेंट्स SDK का इस्तेमाल करके एजेंटकिट का जल्दी से प्रोटोटाइप तैयार किया और उसे डिप्लॉय किया, जो एक टूलकिट है जो AI एजेंट्स को क्रिप्टो वॉलेट्स और अलग-अलग ऑन-चेन एक्टिविटीज़ के साथ आसानी से बातचीत करने में मदद करता है. कुछ ही घंटों में, Coinbase ने अपने डेवलपर प्लैटफ़ॉर्म SDK से कस्टम एक्शन्स को पूरी तरह फ़ंक्शनल एजेंट में इंटीग्रेट कर दिया. AgentKit के स्ट्रीमलाइन किए हुए आर्किटेक्चर ने नए एजेंट एक्शन्स को जोड़ने के प्रोसेस को आसान बना दिया, जिससे डेवलपर्स को सार्थक इंटीग्रेशन्स पर और ज़्यादा फ़ोकस करने और बेहद मुश्किल एजेंट सेटअप को नेविगेट करने पर कम फ़ोकस करने में मदद मिली. 

कुछ ही दिनों में, Box(एक नई विंडो में खुलेगा) जल्द ही ऐसे एजेंट बनाने लगा, जो Box और पब्लिक इंटरनेट सोर्सेस में स्टोर किए हुए अनस्ट्रक्चर्ड डेटा से सर्च, क्वेरी और जानकारियां निकालने में एंटरप्राइज़ेज़ की मदद करने के लिए वेब सर्च और एजेंट्स SDK का फ़ायदा उठाते हैं. ये नज़रिया कस्टमर्स को न सिर्फ़ लेटेस्ट जानकारी को एक्सेस करने में मदद करता है, बल्कि उनके इंटर्नल, मालिकाना हक़ वाले डेटा को सुरक्षित तरीके से खोजने में भी मदद करता है जो उनकी इंटर्नल परमिशन्स और सुरक्षा नीतियों का पालन करता है. जैसे कि, एक फ़ाइनेंशियल सर्विसेज़ फ़र्म एक कस्टम एजेंट बना सकती है जो Box AI एजेंट को Box में स्टोर की गई अपनी इंटर्नल मार्केट एनालिसिस को वेब से रियल-टाइम के न्यूज़ और आर्थिक डेटा के साथ इंटीग्रेट करने के लिए कहता है, जिससे उनके एनालिस्ट को निवेश से जुड़े फ़ैसलों के लिए एक बड़ा नज़रिया मिलता है.

एजेंट्स SDK, रिस्पांस API और चैट कम्प्लीशन्स API के साथ काम करता है. SDK दूसरे प्रोवाइडर्स के मॉडल्स के साथ भी काम करेगा, जब तक कि वे चैट कम्प्लीशन्स स्टाइल API एंडपॉइंट देते हैं. डेवलपर्स इसे तुरंत अपने Python कोडबेसेस में इंटीग्रेट कर सकते हैं, और Node.js सपोर्ट भी जल्द ही उपलब्ध होगा. हमारे डॉक्स(एक नई विंडो में खुलेगा) में और ज़्यादा जानकारी देखें.

एजेंट्स SDK को डिज़ाइन करने में, हमारी टीम Pydantic(एक नई विंडो में खुलेगा), Griffe(एक नई विंडो में खुलेगा) और MkDocs(एक नई विंडो में खुलेगा) सहित समुदाय में अन्य लोगों के बेहतरीन काम से प्रेरित थी. हम एजेंट्स SDK को एक ओपन सोर्स फ़्रेमवर्क के तौर पर बनाना जारी रखने के लिए प्रतिबद्ध हैं, ताकि समुदाय के दूसरे लोग हमारे नज़रिए को बढ़ा सकें.

आगे क्या: एजेंट्स के लिए प्लैटफ़ॉर्म बनाना

हमारा मानना ​​है कि एजेंट जल्द ही वर्कफ़ोर्स का अभिन्न अंग बन जाएंगे, जिससे इंडस्ट्रीज़ में प्रोडक्टिविटी बहुत बढ़ जाएगी. क्योंकि कंपनियां बेहद मुश्किल टास्क के लिए AI का फ़ायदा उठाने की मांग कर रही हैं, इसलिए हम ऐसे बिल्डिंग ब्लॉक्स उपलब्ध कराने के लिए प्रतिबद्ध हैं जो डेवलपर्स और एंटरप्राइज़ेज़ को प्रभावी तौर पर ऑटोनोमस सिस्टम्स बनाने में सक्षम बनाएं जो असली दुनिया पर असरदार हों.

आज की रिलीज़ के साथ, हम डेवलपर्स और एंटरप्राइसेज़ को और ज़्यादा आसानी से भरोसेमंद, हाई परफ़ॉर्मेंस वाले AI एजेंट्स बनाने, डिप्लॉय और स्केल करने के लिए मज़बूत बनाने के लिए शुरूआती बिल्डिंग ब्लॉक्स पेश कर रहे हैं. जैसे-जैसे मॉडल क्षमताएं ज़्यादा से ज़्यादा एजेंटिक होती जाएंगी, हम प्रोडक्शन में एजेंट्स को डिप्लॉय करने, उनका मूल्यांकन करने और उन्हें अनुकूलित करने में मदद करने के लिए अपने APIs और नए टूल्स में गहन इंटीग्रेशन्स में निवेश करना जारी रखेंगे. हमारा लक्ष्य डेवलपर्स को एजेंट बनाने के लिए एक आसान प्लैटफ़ॉर्मअनुभव देना है जो किसी भी इंडस्ट्री में अलग-अलग तरह के टास्क में मदद कर सके. हम ये देखने के लिए उत्साहित हैं कि डेवलपर्स आगे क्या बनाते हैं. शुरू करने के लिए, हमारे डॉक्स(एक नई विंडो में खुलेगा) देखें और जल्द ही और ज़्यादा अपडेट के लिए हमसे जुड़े रहें.