11 માર્ચ, 2025

New tools for building agents

A sleek, minimal interface displaying a task list for an AI agent, including ‘triage_agent,’ ‘guardrail,’ and ‘update_salesforce_record,’ over a fluid blue abstract background.

આજે, અમે બિલ્ડિંગ બ્લોક્સનો પ્રથમ સમૂહ રિલીઝ કરી રહ્યા છીએ, જે ડેવલપર્સ અને ઉદ્યોગોને ઉપયોગી અને વિશ્વસનીય એજન્ટ બનાવવામાં મદદ કરશે. અમે એજન્ટને એવી સિસ્ટમ્સ તરીકે જોીએ છીએ, જે યુઝર્સની તરફથી સ્વતંત્ર રીતે કાર્યો પૂર્ણ કરે છે. ગયા વર્ષ દરમિયાન, અમે નવી મોડલ ક્ષમતાઓ—જેમ કે અદ્યતન રિઝનિંગ, મલ્ટીમોડલ ઇન્ટરૅક્શન અને નવી સુરક્ષા ટેકનિક્સ—રજૂ કરી છે, જેણે અમારા મોડલ્સ માટે એજન્ટ બનાવવા જરૂરી જટિલ, બહુ-પગલાંવાળા કાર્યો સંભાળવાનો પાયો તૈયાર કર્યો છે. પરંતુ ગ્રાહકોએ જણાવ્યું છે કે આ ક્ષમતાઓને પ્રોડક્શન-રેડી એજન્ટમાં ફેરવવું પડકારજનક હોઈ શકે છે, જેમાં ઘણીવાર પૂરતી visibility અથવા built-in support વગર વ્યાપક પ્રોમ્પ્ટ iteration અને કસ્ટમ orchestration logicની જરૂર પડે છે.

આ પડકારોને ઉકેલવા માટે, અમે એજન્ટિક એપ્લિકેશન્સનું વિકાસ સરળ બનાવવા ખાસ ડિઝાઇન કરાયેલા નવા APIs અને ટૂલ્સનો સમૂહ લોન્ચ કરી રહ્યા છીએ:

નવું Responses API⁠(નવી વિન્ડોમાં ખૂલે છે), જે એજન્ટ બનાવવા માટે ચેટ કમ્પ્લીશન્સ APIની સરળતાને Assistants APIની tool use ક્ષમતાઓ સાથે જોડે છે.
બિલ્ટ-ઇન ટૂલ્સ, જેમાં વેબ સર્ચ⁠(નવી વિન્ડોમાં ખૂલે છે), ફાઇલ સર્ચ⁠(નવી વિન્ડોમાં ખૂલે છે), અને કમ્પ્યુટર યૂઝ⁠(નવી વિન્ડોમાં ખૂલે છે)નો સમાવેશ થાય છે.
સિંગલ-એજન્ટ અને મલ્ટી-એજન્ટ વર્કફ્લોનું orchestration કરવા માટે નવું Agents SDK⁠(નવી વિન્ડોમાં ખૂલે છે).
એજન્ટ વર્કફ્લો executionને trace અને inspect કરવા માટે એકીકૃત observability tools⁠(નવી વિન્ડોમાં ખૂલે છે).

આ નવા ટૂલ્સ એજન્ટ લોજિક, orchestration અને interactionsને સરળ બનાવે છે, જેથી ડેવલપર્સ માટે એજન્ટ બનાવવાનું શરૂ કરવું નોંધપાત્ર રીતે સરળ બને છે. આવતા અઠવાડિયા અને મહિનાઓમાં, અમે અમારી પ્લેટફોર્મ પર એજન્ટિક એપ્લિકેશન્સ બનાવવાનું વધુ સરળ અને ઝડપી બનાવવા માટે વધારાના ટૂલ્સ અને ક્ષમતાઓ રિલીઝ કરવાની યોજના ધરાવીએ છીએ.

Responses API પરિચય

Responses API એજન્ટ્સ બનાવવા માટે OpenAIના બિલ્ટ-ઇન ટૂલ્સનો ઉપયોગ કરવા માટે અમારી નવી API primitive છે. તે ચેટ કમ્પ્લીશન્સની સરળતાને Assistants APIની tool-use ક્ષમતાઓ સાથે જોડે છે. જેમ જેમ મોડલ ક્ષમતાઓ વિકસતી રહેશે, તેમ અમે માનીએ છીએ કે Responses API એજન્ટિક એપ્લિકેશન્સ બનાવતા ડેવલપર્સ માટે વધુ લવચીક આધાર પૂરો પાડશે. એક જ Responses API callથી, ડેવલપર્સ ઘણા ટૂલ્સ અને મોડલ turnsનો ઉપયોગ કરીને વધતા જટિલ કાર્યો ઉકેલી શકશે.

શરૂઆતમાં, Responses API વેબ સર્ચ, ફાઇલ સર્ચ અને કમ્પ્યુટર યૂઝ જેવા નવા બિલ્ટ-ઇન ટૂલ્સને સપોર્ટ કરશે. આ ટૂલ્સ એકબીજા સાથે કાર્ય કરવા માટે ડિઝાઇન કરાયેલા છે જેથી મોડલ્સને વાસ્તવિક દુનિયા સાથે જોડાવી શકાય અને તેમને કાર્યો પૂર્ણ કરવામાં વધુ ઉપયોગી બનાવવામાં આવે. તે સાથે અનેક usability improvements પણ લાવે છે, જેમાં unified item-based design, simpler polymorphism, intuitive streaming events અને મોડલના text outputને સરળતાથી ઍક્સેસ કરવા response.output_text જેવા SDK helpersનો સમાવેશ થાય છે.

Responses API એવા ડેવલપર્સ માટે ડિઝાઇન કરાયેલ છે, જે OpenAI મોડલ્સ અને બિલ્ટ-ઇન ટૂલ્સને તેમની એપ્સમાં સરળતાથી જોડવા માંગે છે, અને જેમને અનેક APIs અથવા external vendorsને એકીકૃત કરવાની જટિલતા નથી જોઈએ. API OpenAI પર ડેટા સ્ટોર કરવાનું પણ સરળ બનાવે છે જેથી ડેવલપર્સ tracing અને evaluations જેવી સુવિધાઓનો ઉપયોગ કરીને એજન્ટ performanceનું મૂલ્યાંકન કરી શકે. યાદ અપાવવા માટે, OpenAI પર ડેટા સંગ્રહિત હોવા છતાં અમે મૂળભૂત રીતે અમારા મોડલ્સને બિઝનેસ ડેટા પર ટ્રેન કરતા નથી. API આજથી બધા ડેવલપર્સ માટે ઉપલબ્ધ છે અને તેનો અલગથી ચાર્જ લેવાતો નથી—tokens અને tools માટે અમારા pricing page⁠(નવી વિન્ડોમાં ખૂલે છે) પર દર્શાવેલી માનક દરો મુજબ બિલ કરવામાં આવે છે. વધુ જાણવા માટે Responses API quickstart guide⁠(નવી વિન્ડોમાં ખૂલે છે) જુઓ.

હાલની APIs માટે તેનો શું અર્થ છે

ચેટ કમ્પ્લીશન્સ API⁠(નવી વિન્ડોમાં ખૂલે છે): ચેટ કમ્પ્લીશન્સ અમારી સૌથી વ્યાપક રીતે અપનાવવામાં આવેલી API છે, અને અમે નવા મોડલ્સ અને ક્ષમતાઓ સાથે તેને સપોર્ટ કરવા માટે સંપૂર્ણ પ્રતિબદ્ધ છીએ. જેમને બિલ્ટ-ઇન ટૂલ્સની જરૂર નથી એવા ડેવલપર્સ આત્મવિશ્વાસ સાથે ચેટ કમ્પ્લીશન્સનો ઉપયોગ ચાલુ રાખી શકે છે. જ્યારે પણ નવી મોડલ ક્ષમતાઓ બિલ્ટ-ઇન ટૂલ્સ અથવા અનેક મોડલ calls પર નિર્ભર ન હોય, ત્યારે અમે ચેટ કમ્પ્લીશન્સમાં નવા મોડલ્સ રિલીઝ કરતા રહીશું. જોકે, Responses API ચેટ કમ્પ્લીશન્સનું જ એક superset⁠(નવી વિન્ડોમાં ખૂલે છે) છે, અને તેમાં એ જ ઉત્તમ પ્રદર્શન મળે છે, તેથી નવી ઇન્ટિગ્રેશન્સ માટે અમે Responses APIથી શરૂઆત કરવાની ભલામણ કરીએ છીએ.
Assistants API⁠(નવી વિન્ડોમાં ખૂલે છે): Assistants API beta અંગે ડેવલપર્સના પ્રતિસાદના આધારે, અમે મુખ્ય સુધારાઓ Responses APIમાં સામેલ કર્યા છે, જે તેને વધુ લવચીક, ઝડપી અને વાપરવામાં સરળ બનાવે છે. અમે Assistants અને Responses API વચ્ચે સંપૂર્ણ feature parity મેળવવા માટે કામ કરી રહ્યા છીએ, જેમાં Assistant જેવા અને Thread જેવા objects તેમજ કોડ ઇન્ટરપ્રિટર ટૂલ માટેનો સપોર્ટ શામેલ છે. આ પૂર્ણ થયા પછી, અમે mid-2026માં target sunset date સાથે Assistants APIના deprecationની ઔપચારિક જાહેરાત કરવાની યોજના ધરાવીએ છીએ. deprecation બાદ, અમે Assistants APIમાંથી Responses APIમાં સ્પષ્ટ migration guide આપશું, જેથી ડેવલપર્સ પોતાનો સર્વ ડેટા જાળવી રાખી તેમની એપ્લિકેશન્સ migrate કરી શકે. જ્યાં સુધી અમે deprecationની ઔપચારિક જાહેરાત ન કરીએ, ત્યાં સુધી અમે Assistants APIમાં નવા મોડલ્સ આપતા રહીશું. OpenAI પર એજન્ટ બનાવવા માટે Responses API ભવિષ્યની દિશા દર્શાવે છે.

Responses APIમાં બિલ્ટ-ઇન ટૂલ્સનો પરિચય

વેબ સર્ચ

ડેવલપર્સ હવે વેબમાંથી સ્પષ્ટ અને સંબંધિત citations સાથે ઝડપી, અદ્યતન જવાબો મેળવી શકે છે. Responses APIમાં, gpt-4o અને gpt-4o-mini વાપરતી વખતે વેબ સર્ચ ટૂલ તરીકે ઉપલબ્ધ છે, અને તેને અન્ય ટૂલ્સ અથવા function calls સાથે જોડાવી શકાય છે.

JavaScript

1const response = await openai.responses.create({
2    model: "gpt-4o",
3    tools: [ { type: "web_search_preview" } ],
4    input: "What was a positive news story that happened today?",
5});
6
7console.log(response.output_text);

પ્રારંભિક પરીક્ષણ દરમિયાન, અમે ડેવલપર્સને shopping assistants, research agents અને travel booking agents સહિત વિવિધ ઉપયોગ કિસ્સાઓ માટે વેબ સર્ચથી build કરતા જોયા છે—એવી કોઈપણ એપ્લિકેશન માટે જેને વેબમાંથી સમયસર માહિતી જોઈએ.

ઉદાહરણ તરીકે, Hebbia⁠(નવી વિન્ડોમાં ખૂલે છે) asset managers, private equity અને credit firms તથા law practicesને વિશાળ જાહેર અને ખાનગી datasetsમાંથી ઝડપથી કાર્યકારી insights મેળવવામાં મદદ કરવા વેબ સર્ચ ટૂલનો ઉપયોગ કરે છે. તેમના research workflowsમાં real-time search capabilitiesને એકીકૃત કરીને, Hebbia વધુ સમૃદ્ધ, context-specific market intelligence આપે છે અને તેમની analysesની ચોકસાઈ અને સંબંધિતતા સતત સુધારે છે, જે વર્તમાન benchmarks કરતાં ઉત્તમ છે.

APIમાં વેબ સર્ચ એ જ મોડલથી સંચાલિત છે જે ChatGPT search માટે વપરાય છે. SimpleQA પર, જે ટૂંકા, તથ્યાધારિત પ્રશ્નોના જવાબ આપવામાં LLMsની ચોકસાઈનું મૂલ્યાંકન કરતો benchmark છે, GPT‑4o search preview અને GPT‑4o mini search preview અનુક્રમે 90% અને 88% સ્કોર કરે છે.

SimpleQA ચોકસાઇ (વધારે સારું)

APIમાં વેબ સર્ચ સાથે જનરેટ થયેલા responsesમાં સ્રોતોની લિંક્સ શામેલ હોય છે, જેમ કે સમાચાર લેખો અને બ્લૉગ પોસ્ટ્સ, જે યુઝર્સને વધુ જાણવા માટે માર્ગ આપે છે. આ સ્પષ્ટ, inline citations સાથે, યુઝર્સ માહિતી સાથે નવા રીતે સંકળાઈ શકે છે, જ્યારે content ownersને વિશાળ પ્રેક્ષકો સુધી પહોંચવાની નવી તક મળે છે.

કોઈપણ વેબસાઇટ અથવા પ્રકાશક APIમાં વેબ સર્ચમાં દેખાવાનું પસંદ કરી શકે છે⁠(નવી વિન્ડોમાં ખૂલે છે).

વેબ સર્ચ ટૂલ Responses APIમાં preview તરીકે બધા ડેવલપર્સ માટે ઉપલબ્ધ છે. અમે ચેટ કમ્પ્લીશન્સ APIમાં gpt-4o-search-preview અને gpt-4o-mini-search-preview મારફતે અમારા fine-tuned search modelsનો સીધો ઍક્સેસ પણ ડેવલપર્સને આપી રહ્યા છીએ. Pricing⁠(નવી વિન્ડોમાં ખૂલે છે) અનુક્રમે GPT‑4o search અને 4o-mini search માટે પ્રતિ હજાર queries દીઠ $30 અને $25થી શરૂ થાય છે. Playground⁠(નવી વિન્ડોમાં ખૂલે છે)માં વેબ સર્ચ જુઓ અને અમારા docs⁠(નવી વિન્ડોમાં ખૂલે છે)માં વધુ જાણો.

ફાઇલ સર્ચ

ડેવલપર્સ હવે સુધારેલ ફાઇલ સર્ચ ટૂલનો ઉપયોગ કરીને મોટા પ્રમાણના દસ્તાવેજોમાંથી સંબંધિત માહિતી સરળતાથી મેળવી શકે છે. અનેક ફાઇલ પ્રકારો, query optimization, metadata filtering અને custom reranking માટેના સપોર્ટ સાથે, તે ઝડપી અને ચોક્કસ સર્ચ પરિણામો આપી શકે છે. અને ફરીથી, Responses API સાથે, તેને એકીકૃત કરવા માટે ફક્ત થોડી લાઇન કોડની જરૂર પડે છે.

JavaScript

1const productDocs = await openai.vectorStores.create({
2    name: "Product Documentation",
3    file_ids: [file1.id, file2.id, file3.id],
4});
5
6const response = await openai.responses.create({
7    model: "gpt-4o-mini",
8    tools: [{
9        type: "file_search",
10        vector_store_ids: [productDocs.id],
11    }],
12    input: "What is deep research by OpenAI?",
13});
14
15console.log(response.output_text);

ફાઇલ સર્ચ ટૂલનો ઉપયોગ વિવિધ વાસ્તવિક ઉપયોગ કિસ્સાઓ માટે થઈ શકે છે, જેમાં customer support agentને FAQs સરળતાથી ઍક્સેસ કરવા સક્ષમ બનાવવું, legal assistantને લાયકાત ધરાવતા વ્યાવસાયિક માટે ભૂતકાળના કેસિસનો ઝડપથી સંદર્ભ લેવા મદદ કરવી અને coding agentને technical documentation query કરવામાં સહાય કરવી સામેલ છે. ઉદાહરણ તરીકે, Navan⁠(નવી વિન્ડોમાં ખૂલે છે) તેના AI-સંચાલિત travel agentમાં file searchનો ઉપયોગ કરે છે, જેથી knowledge-base articlesમાંથી (જેમ કે તેમની કંપનીની travel policy) તેમના યુઝર્સને ઝડપી અને ચોક્કસ જવાબો આપી શકાય. બિલ્ટ-ઇન query optimization અને reranking સાથે, તેઓ વધારાના tuning અથવા configuration વિના શક્તિશાળી RAG (retrieval-augmented generation) pipeline સેટ કરી શકે છે. દરેક user group માટે સમર્પિત vector stores સાથે, Navan વ્યક્તિગત account settings અને user roles મુજબ જવાબોને ઢાળી શકે છે, જે ગ્રાહકો અને તેમના સ્ટાફનો સમય બચાવે છે અને ચોક્કસ, વ્યક્તિગત support આપવા મદદ કરે છે.

આ ટૂલ Responses APIમાં બધા ડેવલપર્સ માટે ઉપલબ્ધ છે. ઉપયોગ માટે કિંમત⁠(નવી વિન્ડોમાં ખૂલે છે) પ્રતિ હજાર queries દીઠ $2.50 છે અને file storage માટે $0.10/GB/day, જેમાં પ્રથમ GB મફત છે. આ ટૂલ Assistants APIમાં પણ ઉપલબ્ધ રહે છે. અંતમાં, અમે Vector Store API objectsમાં નવું search endpoint પણ ઉમેર્યું છે જેથી અન્ય એપ્લિકેશન્સ અને APIsમાં ઉપયોગ માટે તમારા ડેટાને સીધું query કરી શકાય. અમારા docs⁠(નવી વિન્ડોમાં ખૂલે છે)માં વધુ જાણો અને Playground⁠(નવી વિન્ડોમાં ખૂલે છે)માં પરીક્ષણ શરૂ કરો.

કમ્પ્યુટર યૂઝ

કમ્પ્યુટર પર કાર્યો પૂર્ણ કરી શકે એવા એજન્ટ્સ બનાવવા માટે, ડેવલપર્સ હવે Responses APIમાં કમ્પ્યુટર યૂઝ ટૂલનો ઉપયોગ કરી શકે છે, જે એ જ Computer-Using Agent (CUA) modelથી સંચાલિત છે જે Operatorને સક્ષમ બનાવે છે. આ research preview મોડલે નવા state-of-the-art રેકોર્ડ સ્થાપ્યા છે, જેમાં સંપૂર્ણ કમ્પ્યુટર યૂઝ કાર્યો માટે OSWorld⁠(નવી વિન્ડોમાં ખૂલે છે) પર 38.1% સફળતા, WebArena⁠(નવી વિન્ડોમાં ખૂલે છે) પર 58.1%, અને વેબ-આધારિત ઇન્ટરૅક્શન્સ માટે WebVoyager⁠(નવી વિન્ડોમાં ખૂલે છે) પર 87% હાંસલ કર્યું.

બિલ્ટ-ઇન કમ્પ્યુટર યૂઝ ટૂલ મોડલ દ્વારા જનરેટ કરાયેલા માઉસ અને કીબોર્ડ actionsને કૅપ્ચર કરે છે, જેથી ડેવલપર્સ તેમના environmentsમાં આ actionsને સીધા executable commandsમાં રૂપાંતરિત કરીને કમ્પ્યુટર યૂઝ કાર્યો સ્વચાલિત કરી શકે.

JavaScript

1const response = await openai.responses.create({
2    model: "computer-use-preview",
3    tools: [{
4        type: "computer_use_preview",
5        display_width: 1024,
6        display_height: 768,
7        environment: "browser",
8    }],
9    truncation: "auto",
10    input: "I'm looking for a new camera. Help me find the best one.",
11});
12
13console.log(response.output);

ડેવલપર્સ હવે કમ્પ્યુટર યૂઝ ટૂલનો ઉપયોગ કરીને બ્રાઉઝર-આધારિત વર્કફ્લો, જેમ કે વેબ એપ્સ પર ક્વોલિટી અશ્યોરન્સ કરવું અથવા લેગસી સિસ્ટમ્સમાં ડેટા-એન્ટ્રી કામ ચલાવવું, સ્વચાલિત બનાવી શકે છે. ઉદાહરણ તરીકે, Unify⁠(નવી વિન્ડોમાં ખૂલે છે) આવક વૃદ્ધિ માટેની એક action system છે, જે એજન્ટનો ઉપયોગ કરીને ઇન્ટેન્ટ ઓળખે છે, એકાઉન્ટ્સ પર રિસર્ચ કરે છે અને ખરીદદારો સાથે જોડાય છે. OpenAIની કમ્પ્યુટર યૂઝ ટૂલથી, Unifyના એજન્ટ્સ એવી માહિતી મેળવી શકે છે જે પહેલાં APIs દ્વારા ઉપલબ્ધ નહોતી—જેમ કે કોઈ પ્રોપર્ટી મેનેજમેન્ટ કંપનીને ઑનલાઇન નકશાઓ દ્વારા તપાસવામાં મદદ કરવી કે કોઈ વ્યવસાયે તેની રિયલ એસ્ટેટ હાજરી વિસ્તારી છે કે નહીં. આ રિસર્ચ કસ્ટમ સિગ્નલ તરીકે કામ કરે છે, જે વ્યક્તિગત outreach શરૂ કરે છે—અને ગો-ટુ-માર્કેટ ટીમોને વધુ ચોકસાઈ અને સ્કેલ સાથે ખરીદદારો સાથે જોડાવા સક્ષમ બનાવે છે.

બીજા ઉદાહરણ તરીકે, Luminai⁠(નવી વિન્ડોમાં ખૂલે છે)એ API ઉપલબ્ધતા અને માનકીકૃત ડેટાની અછત ધરાવતી લેગસી સિસ્ટમ્સ સાથે મોટા ઉદ્યોગો માટે જટિલ ઓપરેશનલ વર્કફ્લોને સ્વચાલિત કરવા કમ્પ્યુટર યૂઝ ટૂલને એકીકૃત કર્યું. એક તાજેતરના પાઇલટમાં, મોટી સમુદાય સેવા સંસ્થા સાથે Luminaiએ માત્ર થોડા દિવસોમાં અરજી પ્રોસેસિંગ અને યુઝર એનરોલમેન્ટ પ્રક્રિયા સ્વચાલિત કરી—જે પરંપરાગત robotic process automation (RPA) મહિનાોના પ્રયત્નો પછી પણ હાંસલ કરવામાં સંઘર્ષ કરતી હતી.

ગયા વર્ષે Operatorમાં CUA લોન્ચ કરતા પહેલાં, અમે વ્યાપક સુરક્ષા પરીક્ષણ અને રેડ ટીમિંગ કર્યું હતું, જેમાં જોખમના ત્રણ મુખ્ય ક્ષેત્રોને સંબોધ્યા હતા: દુરુપયોગ, મોડલ ભૂલો અને ફ્રન્ટિયર રિસ્ક. APIમાં CUA દ્વારા Operatorની ક્ષમતાઓને સ્થાનિક ઓપરેટિંગ સિસ્ટમ્સ સુધી વિસ્તૃત કરવા સાથે જોડાયેલા જોખમોને સંબોધવા, અમે વધારાના સુરક્ષા મૂલ્યાંકન અને રેડ ટીમિંગ કર્યું. અમે ડેવલપર્સ માટે વધુ સુરક્ષા ઉપાયો પણ ઉમેર્યા, જેમાં પ્રોમ્પ્ટ ઇન્જેક્શન સામે રક્ષણ માટે safety checks, સંવેદનશીલ કાર્યો માટે confirmation prompts, ડેવલપર્સને તેમના environment અલગ રાખવામાં મદદરૂપ સાધનો અને સંભવિત નીતિ ઉલ્લંઘનોની સુધારેલી શોધનો સમાવેશ થાય છે. આ ઉપાયો જોખમ ઘટાડવામાં મદદરૂપ છે, છતાં મોડલ હજી પણ અજાણતાં થતી ભૂલો માટે સંવેદનશીલ છે, ખાસ કરીને non-browser environmentsમાં. ઉદાહરણ તરીકે, OSWorld પર CUAનું પ્રદર્શન, જે વાસ્તવિક કાર્યો પર AI એજન્ટ્સનું પ્રદર્શન માપવા માટેનો benchmark છે, હાલમાં 38.1% છે, જે દર્શાવે છે કે ઓપરેટિંગ સિસ્ટમ્સ પર કાર્યો સ્વચાલિત કરવા માટે મોડલ હજી ખૂબ વિશ્વસનીય નથી. આવા પરિસ્થિતિઓમાં માનવીય દેખરેખની ભલામણ થાય છે. અમારા API-વિશિષ્ટ સુરક્ષા કાર્ય વિશે વધુ વિગતો અમારા અપડેટ કરાયેલા સિસ્ટમ કાર્ડમાં મળી શકે છે.

બેન્ચમાર્કનો પ્રકાર	બેન્ચમાર્ક	કોમ્પ્યુટરનો ઉપયોગ (સાર્વત્રિક ઇન્ટરફેસ)		વેબ બ્રાઉઝિંગ એજન્ટ	માનવ
		OpenAI CUA	અગાઉનું SOTA	અગાઉનું SOTA
કમ્પ્યુટરનો ઉપયોગ	OSWorld	38.1%	22.0%	-	72.4%
બ્રાઉઝરનો ઉપયોગ	વેબએરેના	58.1%	36.2%	57.1%	78.2%
બ્રાઉઝરનો ઉપયોગ	વેબવોયજર	87.0%	56.0%	87.0%	-

મૂલ્યાંકનની વિગતો અહીંવર્ણન કરેલ છે

આજથી, પસંદગીના ડેવલપર્સ માટે usage tiers 3-5⁠(નવી વિન્ડોમાં ખૂલે છે)માં કમ્પ્યુટર યૂઝ ટૂલ Responses APIમાં research preview તરીકે ઉપલબ્ધ છે. ઉપયોગ માટે કિંમત⁠(નવી વિન્ડોમાં ખૂલે છે) $3/1M input tokens અને $12/1M output tokens છે. અમારા docs⁠(નવી વિન્ડોમાં ખૂલે છે)માં વધુ જાણો અને આ ટૂલથી કેવી રીતે build કરવું તે બતાવતી sample application⁠(નવી વિન્ડોમાં ખૂલે છે) પણ જુઓ.

Agents SDK

એજન્ટ્સનો કોર લોજિક બનાવવા અને તેમને ટૂલ્સનો ઍક્સેસ આપી ઉપયોગી બનાવવામાં ઉપરાંત, ડેવલપર્સને એજન્ટિક વર્કફ્લોનું orchestration પણ કરવું પડે છે. અમારું નવું open-source Agents SDK મલ્ટી-એજન્ટ વર્કફ્લોનું orchestration સરળ બનાવે છે અને Swarm⁠(નવી વિન્ડોમાં ખૂલે છે) કરતાં નોંધપાત્ર સુધારા આપે છે. Swarm એ એક પ્રાયોગિક SDK હતું, જે અમે ગયા વર્ષે રિલીઝ કર્યું હતું અને જેને ડેવલપર સમુદાયે વ્યાપક રીતે અપનાવ્યું હતું તથા અનેક ગ્રાહકો દ્વારા સફળતાપૂર્વક ડિપ્લોય કરવામાં આવ્યું હતું.

સુધારાઓમાં શામેલ છે:

એજન્ટ્સ: સ્પષ્ટ સૂચનાઓ અને બિલ્ટ-ઇન ટૂલ્સ સાથે સરળતાથી કન્ફિગર કરી શકાય એવા LLMs.
Handoffs: એજન્ટ્સ વચ્ચે બુદ્ધિપૂર્વક નિયંત્રણ ટ્રાન્સફર કરો.
Guardrails: ઇનપુટ અને આઉટપુટ વૅલિડેશન માટે કન્ફિગર કરી શકાય એવા સુરક્ષા checks.
Tracing & Observability: debug અને performance optimization માટે એજન્ટ execution tracesને visualise કરો.

Python

1from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2
3@function_tool
4def submit_refund_request(item_id: str, reason: str):
5    # Your refund logic goes here
6    return "success"
7
8support_agent = Agent(
9    name="Support & Returns",
10    instructions="You are a support agent who can submit refunds [...]",
11    tools=[submit_refund_request],
12)
13
14shopping_agent = Agent(
15    name="Shopping Assistant",
16    instructions="You are a shopping assistant who can search the web [...]",
17    tools=[WebSearchTool()],
18)
19
20triage_agent = Agent(
21    name="Triage Agent",
22    instructions="Route the user to the correct agent.",
23    handoffs=[shopping_agent, support_agent],
24)
25
26output = Runner.run_sync(
27    starting_agent=triage_agent,
28    input="What shoes might work best with my outfit so far?",
29)

Agents SDK વિવિધ વાસ્તવિક એપ્લિકેશન્સ માટે યોગ્ય છે, જેમાં customer support automation, multi-step research, content generation, code review અને sales prospectingનો સમાવેશ થાય છે. ઉદાહરણ તરીકે, Coinbase⁠(નવી વિન્ડોમાં ખૂલે છે)એ Agents SDKનો ઉપયોગ કરીને AgentKitને ઝડપથી prototype અને deploy કર્યું, જે AI એજન્ટ્સને crypto wallets અને વિવિધ on-chain પ્રવૃત્તિઓ સાથે અવિરત રીતે ઇન્ટરૅક્ટ કરવા સક્ષમ બનાવતું toolkit છે. માત્ર થોડા કલાકોમાં, Coinbaseએ તેમના Developer Platform SDKમાંથી custom actionsને સંપૂર્ણ કાર્યરત એજન્ટમાં એકીકૃત કર્યા. AgentKitની સુવ્યવસ્થિત architectureએ નવા agent actions ઉમેરવાની પ્રક્રિયા સરળ બનાવી, જેથી ડેવલપર્સ જટિલ agent setupsમાં માર્ગ શોધવા કરતાં અર્થપૂર્ણ integrations પર વધુ ધ્યાન આપી શકે.

માત્ર બે-ત્રણ દિવસમાં, Box⁠(નવી વિન્ડોમાં ખૂલે છે)એ એવા એજન્ટ્સ ઝડપથી બનાવ્યા, જે વેબ સર્ચ અને Agents SDKનો ઉપયોગ કરીને ઉદ્યોગોને Box અને જાહેર ઇન્ટરનેટ સ્રોતોમાં સંગ્રહિત unstructured dataમાંથી શોધ, query અને insights કાઢવાની સગવડ આપે છે. આ અભિગમ ગ્રાહકોને માત્ર નવીનતમ માહિતી પ્રાપ્ત કરવાની જ નહીં, પરંતુ તેમના આંતરિક, proprietary dataને પણ સુરક્ષિત રીતે શોધવાની મંજૂરી આપે છે, જે તેમની આંતરિક permissions અને security policiesનું પાલન કરે છે. ઉદાહરણ તરીકે, કોઈ financial services firm Boxમાં સંગ્રહિત તેમના આંતરિક market analysisને વેબ પરથી real-time સમાચાર અને આર્થિક ડેટા સાથે એકીકૃત કરવા માટે Box AI agentને બોલાવતો custom agent બનાવી શકે છે, જે તેમના analystsને રોકાણના નિર્ણયો માટે વ્યાપક દૃષ્ટિકોણ આપે છે.

Agents SDK Responses API અને ચેટ કમ્પ્લીશન્સ API સાથે કાર્ય કરે છે. SDK અન્ય providersના મોડલ્સ સાથે પણ કાર્ય કરશે, જો તેઓ ચેટ કમ્પ્લીશન્સ-શૈલીનું API એન્ડપોઇન્ટ આપે. ડેવલપર્સ તેને તરત જ તેમની Python codebasesમાં એકીકૃત કરી શકે છે, અને Node.js સપોર્ટ ટૂંક સમયમાં આવશે. અમારા docs⁠(નવી વિન્ડોમાં ખૂલે છે)માં વધુ જાણો.

Agents SDK ડિઝાઇન કરતી વખતે, અમારી ટીમને સમુદાયના અન્ય લોકોના ઉત્તમ કાર્યમાંથી પ્રેરણા મળી, જેમાં Pydantic⁠(નવી વિન્ડોમાં ખૂલે છે), Griffe⁠(નવી વિન્ડોમાં ખૂલે છે) અને MkDocs⁠(નવી વિન્ડોમાં ખૂલે છે)નો સમાવેશ થાય છે. અમે સમુદાયના બીજા લોકો અમારી પદ્ધતિને વિસ્તારી શકે તે માટે Agents SDKને open source framework તરીકે આગળ પણ બનાવતા રહેવા પ્રતિબદ્ધ છીએ.

આગળ શું: એજન્ટ્સ માટે પ્લેટફોર્મ બનાવવું

અમારો વિશ્વાસ છે કે એજન્ટ્સ ટૂંક સમયમાં વર્કફોર્સનો અભિન્ન ભાગ બની જશે અને ઉદ્યોગોમાં ઉત્પાદનક્ષમતામાં નોંધપાત્ર વધારો કરશે. કંપનીઓ જટિલ કાર્યો માટે AIનો ઉપયોગ કરવા વધતી જતી રીતે પ્રયત્નશીલ છે, તેથી અમે એવા બિલ્ડિંગ બ્લોક્સ આપવા પ્રતિબદ્ધ છીએ જે ડેવલપર્સ અને ઉદ્યોગોને વાસ્તવિક દુનિયામાં અસર પાડતી સ્વાયત્ત સિસ્ટમ્સ અસરકારક રીતે બનાવવાની સક્ષમતા આપે.

આજની રિલીઝ સાથે, અમે ડેવલપર્સ અને ઉદ્યોગોને વધુ સરળતાથી વિશ્વસનીય, ઉચ્ચ-પ્રદર્શન ધરાવતા AI એજન્ટ્સ બનાવવા, ડિપ્લોય કરવા અને સ્કેલ કરવા સક્ષમ બનાવવા માટે પ્રથમ બિલ્ડિંગ બ્લોક્સ રજૂ કરી રહ્યા છીએ. જેમ જેમ મોડલ ક્ષમતાઓ વધુને વધુ એજન્ટિક બનતી જશે, તેમ અમે અમારા APIsમાં વધુ ઊંડી એકીકરણ અને પ્રોડક્શનમાં એજન્ટ્સને ડિપ્લોય, મૂલ્યાંકન અને ઑપ્ટિમાઇઝ કરવામાં મદદરૂપ નવા ટૂલ્સમાં રોકાણ ચાલુ રાખીશું. અમારું લક્ષ્ય એ છે કે ડેવલપર્સને એવી અવિરત પ્લેટફોર્મ અનુભવ આપવો, જેના દ્વારા તેઓ કોઈપણ ઉદ્યોગમાં વિવિધ કાર્યોમાં મદદરૂપ એવા એજન્ટ્સ બનાવી શકે. આગળ ડેવલપર્સ શું બનાવે છે તે જોવા માટે અમે ઉત્સાહિત છીએ. શરૂ કરવા માટે, અમારા docs⁠(નવી વિન્ડોમાં ખૂલે છે) જુઓ અને ટૂંક સમયમાં વધુ અપડેટ્સ માટે જોડાયેલા રહો.

લેખકો

OpenAI