6 अक्टूबर 2025

पेश है AgentKit

एजेंट्स को बनाने, डिप्लॉय और ऑप्टिमाइज़ करने के लिए नए टूल्स.

लोड किया जा रहा है...

आज हम AgentKit लॉन्च कर रहे हैं, जो डेवलपर्स और एंटरप्राइज़ेज़ के लिए एजेंट्स को बनाने, डिप्लॉय और ऑप्टिमाइज़ करने के लिए टूल्स का एक पूरा सेट है. अब तक, एजेंट बनाने का मतलब था बिखरे हुए टूल्स से जूझना—कॉम्प्लेक्स ऑर्केस्ट्रेशन जिसमें कोई वर्ज़निंग नहीं, कस्टम कनेक्टर्स, मैन्युअल इवैल्यूएशन पाइपलाइन्स, प्रॉम्प्ट ट्यूनिंग, और लॉन्च से पहले हफ़्तों का फ़्रंटएंड टाइम. AgentKit के साथ, डेवलपर्स अब वर्कफ़्लोज़ को विज़ुअल तरीके से डिज़ाइन कर सकते हैं और नए बिल्डिंग ब्लॉक्स का इस्तेमाल करके एजेंटिक UI को तेज़ी से एम्बेड कर सकते हैं, जैसे:

Agent Builder: मल्टी-एजेंट वर्कफ़्लोज़ बनाने और वर्ज़निंग के लिए एक विज़ुअल कैन्वास
Connector Registry: OpenAI प्रोडक्ट्स में डेटा और टूल्स के कनेक्शन को मैनेज करने के लिए एडमिन्स के लिए एक केंद्रीय जगह.
ChatKit: आपके प्रोडक्ट में कस्टमाइज़ेबल चैट-बेस्ड एजेंट अनुभव एम्बेड करने के लिए एक टूलकिट

हम एजेंट के परफ़ॉर्मेंस को मापने और सुधारने के लिए डेटासेट्स, ट्रेस ग्रेडिंग, ऑटोमेंटेड प्रॉम्प्ट ऑप्टिमाइज़ेशन और थर्ड-पार्टी मॉडल सपोर्ट जैसे नए फ़ीचर्स के साथ इवैल्यूएशन कैपेबिलिटीज़ को भी बढ़ा रहे हैं.

मार्च में Responses API और Agents SDK⁠ रिलीज़ करने के बाद से, हमने डेवलपर्स और एंटरप्राइज़ेज़ को डीप रिसर्च, कस्टमर सपोर्ट, और भी बहुत कुछ के लिए एंड-टू-एंड एजेंटिक वर्कफ़्लोज़ बनाते देखा है. Klarna ने एक सपोर्ट एजेंट बनाया⁠ जो सभी टिकटों का दो-तिहाई हैंडल करता है और Clay ने एक सेल्स एजेंट के साथ 10 गुना बढ़ोतरी⁠ की. AgentKit, Responses API पर आधारित है, जिससे डेवलपर्स को ज़्यादा अच्छे और भरोसेमंद तरीके से एजेंट्स बनाने में मदद मिलती है.

Agent Builder के साथ वर्कफ़्लोज़ डिज़ाइन करें

जैसे-जैसे एजेंट वर्कफ़्लोज़ और ज़्यादा कॉम्प्लेक्स होते जाते हैं, डेवलपर्स को ये साफ़ तौर पर देखने की ज़रुरत होती है कि वे कैसे काम करते हैं. Agent Builder⁠(एक नई विंडो में खुलेगा) ड्रैग-एंड-ड्रॉप नोड्स के साथ लॉजिक कम्पोज़ करने, टूल्स को कनेक्ट करने, और कस्टम गार्डरेल्स को कॉन्फ़िगर करने के लिए एक विज़ुअल कैन्वास देता है. ये प्रीव्यू रन, इनलाइन इवैल कॉन्फ़िगरेशन, और फ़ुल प्रोसेसिंग को सपोर्ट करता है—जो तेज़ी से बार-बार सुधार करने के लिए बिल्कुल सही है.

एक विज़ुअल बिल्डर टूल में एक कस्टमर सर्विस ऑटोमेशन फ़्लो का इंटरफ़ेस व्यू. कैन्वास पर जुड़े हुए नोड्स दिखाए गए हैं, जिन पर शुरू करें, जेलब्रेक गार्डरेल, क्लासिफ़िकेशन एजेंट, अगर/नहीं तो, रिटर्न एजेंट, रिटेंशन एजेंट, इन्फ़ॉर्मेशन एजेंट, मतिभ्रम गार्डरेल, और समाप्ति लिखा हुआ है. बाईं ओर एक साइडबार उपलब्ध नोड टाइप्स को लिस्ट करता है जैसे एजेंट, नोट, फ़ाइल सर्च, Guardrails, MCP, और यूज़र अप्रूवल. टॉप कंट्रोल्स में इवैल्यूएट, कोड, प्रीव्यू, और पब्लिश करने के ऑप्शन्स शामिल हैं.

बिल्डर्स खाली कैन्वास या पहले से बने टेम्पलेट्स के साथ काम शुरू कर सकते हैं.

Ramp में, टीम ने सिर्फ़ कुछ ही घंटों में एक खाली कैन्वास से लेकर एक खरीद एजेंट तक काम किया:

Agent Builder ने उस काम को, जिसमें पहले महीनों का कॉम्प्लेक्स ऑर्केस्ट्रेशन, कस्टम कोड और मैनुअल ऑप्टिमाइजेशन लगता था, मात्र कुछ घंटों में ही पूरा कर दिया. विज़ुअल कैन्वास प्रोडक्ट, कानूनी, और इंजीनियरिंग को एक ही पेज पर रखता है, इटरेशन सायकल्स को 70% तक कम करता है और एजेंट को दो तिमाहियों के बजाय दो स्प्रिंट्स में लाइव करता है."

— Ramp

इसी तरह, LY कॉर्पोरेशन—एक लीडिंग जापानी टेक्नोलॉजी और इंटरनेट सर्विसेज़ कंपनी—ने Agent Builder के साथ मिलकर दो घंटे से भी कम समय में एक वर्क असिस्टेंट एजेंट तैयार कर लिया.

"Agent Builder ने हमें एजेंट्स को एक बिल्कुल नए तरीके से व्यवस्थित करने में मदद की, जिसमें इंजीनियर्स और सब्जेक्ट मैटर एक्सपर्ट्स एक ही इंटरफ़ेस में कोलैबोरेट करते थे. हमने अपना पहला मल्टी-एजेंटिक वर्कफ़्लो बनाया और इसे दो घंटे से भी कम समय में रन किया, जिससे एजेंट्स को बनाने और डिप्लॉय करने का समय काफी तेज़ी से कम हो गया."

- LY Corporation

हम एंटरप्राइज़ेज़ के लिए एक Connector Registry भी लॉन्च कर रहे हैं ताकि वे अलग-अलग वर्कस्पेसेस और ऑर्गनाइज़ेशन्स में डेटा का प्रबंधन और रखरखाव कर सकें. Connector Registry⁠(एक नई विंडो में खुलेगा), ChatGPT और API के पूरे डेटा सोर्सेस को एक सिंगल एडमिन पैनल में जमा करती है. इस रजिस्ट्री में Dropbox, Google Drive, Sharepoint, और Microsoft Teams जैसे सभी प्री-बिल्ट कनेक्टर्स, साथ ही थर्ड-पार्टी MCPs भी शामिल हैं.

डेवलपर्स Agent Builder में Guardrails⁠(एक नई विंडो में खुलेगा) को भी इनेबल कर सकते हैं—एक ओपन-सोर्स, मॉड्यूलर सेफ़्टी लेयर जो एजेंट्स को अनजाने या हानिकारक व्यवहार से बचाने में मदद करता है. Guardrails PII को छिपा या फ़्लैग कर सकते हैं, जेलब्रेक का पता लगा सकते हैं, और दूसरे सुरक्षा उपाय लागू कर सकते हैं, जिससे भरोसेमंद, सुरक्षित एजेंट्स बनाना और उन्हें डिप्लॉय करना आसान हो जाता है. Guardrails को स्टैंडअलोन या Python⁠(एक नई विंडो में खुलेगा) और JavaScript⁠(एक नई विंडो में खुलेगा) के लिए गार्डरेल्स लाइब्रेरी के ज़रिये डिप्लॉय किया जा सकता है.

ChatKit के साथ एजेंटिक चैट अनुभव एम्बेड करें

एजेंट्स के लिए चैट UI डिप्लॉय करना बेहद कॉम्प्लेक्स हो सकता है— स्ट्रीमिंग जवाबों को हैंडल करना, थ्रेड्स को मैनेज करना, मॉडल थिंकिंग दिखाना, और आकर्षक इन-चैट अनुभव डिज़ाइन करना. ChatKit ऐसे चैट-बेस्ड एजेंट्स को एम्बेड करना आसान बनाता है जो नेचुरल तरीके से आपके प्रोडक्ट का हिस्सा लगें. इसे ऐप्स या वेबसाइट्स में एम्बेड किया जा सकता है और आपकी थीम या ब्रांड से मैच करने के लिए कस्टमाइज़ किया जा सकता है.

"हमने ChatKit के साथ अपने Canva डेवलपर्स कम्युनिटी के लिए एक सपोर्ट एजेंट बनाने में दो हफ़्तों से ज्यादा समय बचाया, और इसे एक घंटे से भी कम समय में इंटीग्रेट किया. ये सपोर्ट एजेंट डेवलपर्स के हमारे डॉक्यूमेंट्स के साथ जुड़ने के तरीके को एक बातचीत वाले अनुभव में बदल देगा, जिससे Canva पर ऐप्स और इंटीग्रेशन्स बनाना आसान हो जाएगा."

— Canva

ChatKit पहले से ही इंटर्नल नॉलेज असिस्टेंट्स और ऑनबोर्डिंग गाइड्स से लेकर कस्टमर सपोर्ट और रिसर्च एजेंट्स तक कई तरह के यूज़ केसेस को काम करने में मदद करता है. HubSpot⁠(एक नई विंडो में खुलेगा) का कस्टमर सपोर्ट एजेंट इसका एक एग्ज़ाम्पल है:

एक एक्सपेंस मैनेजमेंट इंटरफ़ेस दिखाता हुआ Ramp प्लैटफ़ॉर्म का डैशबोर्ड व्यू. मुख्य पैनल यूज़र, Daniel का स्वागत करता है, और 'ChatGPT Business के लिए रिक्वेस्ट' (रिव्यु पेंडिंग है) और 'HubSpot के लिए रिक्वेस्ट' (ड्राफ़्ट) जैसी रिक्वेस्ट को लिस्ट करता है, साथ ही एयरलाइंस, राइडशेयर्स, और सॉफ़्टवेयर के लिए हालिया खर्चों को भी लिस्ट करता है. दाईं ओर, ChatGPT Business के लिए एक सॉफ़्टवेयर रिक्वेस्ट फ़ॉर्म खुला है, जिसमें 1 अक्टूबर, 2025 से 1 अक्टूबर, 2026 तक 125 डॉलर प्रति माह पर 5 सीटों की जानकारी दी गई हैं, जिसमें एक पीले रंग का 'रिक्वेस्ट सबमिट करें' बटन भी है.

Evals की नई कैपेबिलिटीज़ के साथ एजेंट के परफ़ॉर्मेंस को मापें

भरोसेमंद, प्रोडक्शन-रेडी एजेंट्स बनाने के लिए सख्त परफ़ॉर्मेंस इवैल्यूएशन्स की ज्क्सारूरत होती है. पिछले साल, हमने डेवलपर्स को प्रॉम्प्ट्स को टेस्ट करने और मॉडल बिहेवियर को मापने में मदद करने के लिए Evals⁠(एक नई विंडो में खुलेगा) को लॉन्च किया था. अब हम चार नई कैपबिलिटीज़ जोड़ रहे हैं जो इवैल्स बनाने को और भी आसान कर देंगी:

डेटासेट्स–तेज़ी से शुरू से एजेंट इवैल्स बनाते हैं और ऑटोमेटेड ग्रेडर्स व ह्यूमन एनोटेशन्स के साथ समय के साथ उन्हें बढ़ाते हैं.
ट्रेस ग्रेडिंग–एजेंटिक वर्कफ़्लोज़ का एंड-टू-एंड असेसमेंट रन करती है और कमियों को पिनपॉइंट करने के लिए ग्रेडिंग को ऑटोमेट करती है.
ऑटोमेटेड प्रॉम्प्ट ऑप्टिमाइज़ेशन–ह्यूमन एनोटेशन्स और ग्रेडर आउटपुट्स के आधार पर बेहतर प्रॉम्प्ट्स जनरेट करता है.
थर्ड-पार्टी मॉडल सपोर्ट–OpenAI Evals प्लैटफ़ॉर्म के अंदर दूसरे प्रोवाइडर्स के मॉडल्स को इवैल्यूएट करता है.

हमने पहले ही Evals का इस्तेमाल करने वाले कस्टमर्स से अहम परफ़ॉर्मेंस फ़ायदे देखे हैं.

"इवैल्यूएशन प्लैटफ़ॉर्म ने हमारे मल्टी-एजेंट जांच फ्रेमवर्क पर डेवलपमेंट टाइम को 50% से भी ज़्यादा कम कर दिया, और एजेंट की एक्यूरेसी को 30% बढ़ा दिया."

— Carlyle

रेटिंग, लहज़ा, फ़ीडबैक, और एक्यूरेसी के लिए कॉलम के साथ डेटासेट टेबल दिखाने वाला इंटरफ़ेस. रो थम्ब्स-अप या थम्ब्स-डाउन आइकॉन्स, टोन टैग्स जैसे प्रोफ़ेशनल, फ़्रेंडली, असभ्य, और बैड, और एक्यूरेसी रिज़ल्ट्स 3.5 स्कोर के साथ पास या फ़ेल लेबल वाली एंट्रीज़ डिस्प्ले करती हैं. टॉप टूलबार में अपलोड, कॉलम, ग्रेड, आउटपुट जनरेट और सेव करने के ऑप्शन्स शामिल हैं.

रीइन्फ़ोर्समेंट फ़ाइन-ट्यूनिंग के साथ पुश एजेंट परफ़ॉर्मेंस

रीइन्फ़ोर्समेंट फ़ाइन-ट्यूनिंग⁠(एक नई विंडो में खुलेगा) (RFT) डेवलपर्स को हमारे रीज़निंग मॉडल्स को कस्टमाइज़ करने में मदद करता है. ये आम तौर पर OpenAI o4-mini पर और GPT‑5 के लिए प्राइवेट बीटा में उपलब्ध है. हम बड़े पैमाने पर रिलीज़ से पहले GPT‑5 के लिए RFT को सुधार करने के लिए दर्जनों कस्टमर्स के साथ मिलकर काम कर रहे हैं.

आज, हम उस RFT बीटा में दो नए फ़ीचर्स पेश कर रहे हैं जो एजेंट के परफ़ॉर्मेंस को और भी बेहतर बनाने के लिए डिज़ाइन किए गए हैं:

कस्टम टूल कॉल्स–बेहतर रीज़निंग के लिए सही समय पर सही टूल कॉल करने के लिए मॉडल को ट्रेन करते हैं
कस्टम ग्रेडर्स–आपके यूज़ केस में सबसे ज़रूरी चीज़ों के लिए कस्टम इवैल्यूएशन क्राइटेरिया सेट करते हैं