11 მარტი, 2025

New tools for building agents

A sleek, minimal interface displaying a task list for an AI agent, including ‘triage_agent,’ ‘guardrail,’ and ‘update_salesforce_record,’ over a fluid blue abstract background.

დღეს ჩვენ ვუშვებთ სამშენებლო ბლოკების პირველ ნაკრებს, რომელიც დეველოპერებსა და საწარმოებს სასარგებლო და სანდო აგენტების შექმნაში დაეხმარება. ჩვენ აგენტებს განვიხილავთ, როგორც სისტემებს, რომლებიც მომხმარებლების სახელით დამოუკიდებლად ასრულებენ ამოცანებს. გასული წლის განმავლობაში ჩვენ წარვადგინეთ მოდელის ახალი შესაძლებლობები — მაგალითად, გაფართოებული მსჯელობა, მულტიმოდალური ურთიერთქმედებები და უსაფრთხოების ახალი ტექნიკები — რომლებმაც საფუძველი შექმნა იმისთვის, რომ ჩვენს მოდელებს აგენტების ასაშენებლად საჭირო რთული, მრავალსაფეხურიანი ამოცანები გაუმკლავდნენ. თუმცა, მომხმარებლებმა გაგვიზიარეს, რომ ამ შესაძლებლობების საწარმოო მზადყოფნაში მყოფ აგენტებად გარდაქმნა რთული შეიძლება იყოს და ხშირად საჭიროებს მოთხოვნების მრავალჯერად გადამუშავებასა და ორკესტრაციის მორგებულ ლოგიკას, საკმარისი ხილვადობისა და ჩაშენებული მხარდაჭერის გარეშე.

ამ გამოწვევების გადასაჭრელად, ჩვენ ვუშვებთ API-ებისა და ინსტრუმენტების ახალ ნაკრებს, რომელიც სპეციალურადაა შექმნილი აგენტური აპლიკაციების განვითარების გასამარტივებლად:

ახალი Responses API⁠(იხსნება ახალ ფანჯარაში), რომელიც აერთიანებს ჩატის დასრულების API-ის სიმარტივეს Assistants API-ის ინსტრუმენტების გამოყენების შესაძლებლობებთან აგენტების ასაშენებლად
ჩაშენებული ინსტრუმენტები, მათ შორის ვებძებნა⁠(იხსნება ახალ ფანჯარაში), ფაილების ძებნა⁠(იხსნება ახალ ფანჯარაში) და კომპიუტერის გამოყენება⁠(იხსნება ახალ ფანჯარაში)
ახალი Agents SDK⁠(იხსნება ახალ ფანჯარაში) ერთაგენტიანი და მრავალაგენტიანი სამუშაო ნაკადების საორკესტრაციოდ
ინტეგრირებული დაკვირვებადობის ინსტრუმენტები⁠(იხსნება ახალ ფანჯარაში) აგენტის სამუშაო ნაკადის შესრულების კვალის გასავლენად და შესამოწმებლად

ეს ახალი ინსტრუმენტები ამარტივებს აგენტის ძირითად ლოგიკას, ორკესტრაციასა და ურთიერთქმედებებს, რაც დეველოპერებისთვის აგენტების შექმნის დაწყებას მნიშვნელოვნად აადვილებს. მომდევნო კვირებსა და თვეებში ვგეგმავთ დამატებითი ინსტრუმენტებისა და შესაძლებლობების გამოშვებას, რათა ჩვენს პლატფორმაზე აგენტური აპლიკაციების შექმნა კიდევ უფრო გამარტივდეს და დაჩქარდეს.

Responses API-ის წარდგენა

Responses API არის ჩვენი ახალი API პრიმიტივი OpenAI-ის ჩაშენებული ინსტრუმენტების გამოსაყენებლად აგენტების ასაშენებლად. ის აერთიანებს Chat Completions-ის სიმარტივეს Assistants API-ის ინსტრუმენტების გამოყენების შესაძლებლობებთან. რადგან მოდელების შესაძლებლობები განვითარებას აგრძელებს, გვჯერა, რომ Responses API უფრო მოქნილ საფუძველს უზრუნველყოფს იმ დეველოპერებისთვის, რომლებიც აგენტურ აპლიკაციებს აშენებენ. Responses API-ის ერთი გამოძახებით დეველოპერებს შეეძლებათ სულ უფრო რთული ამოცანების გადაჭრა მრავალი ინსტრუმენტისა და მოდელის რამდენიმე სვლის გამოყენებით.

დასაწყისისთვის, Responses API მხარს დაუჭერს ახალ ჩაშენებულ ინსტრუმენტებს, როგორიცაა ვებძებნა, ფაილების ძებნა და კომპიუტერის გამოყენება. ეს ინსტრუმენტები შექმნილია იმისთვის, რომ ერთად იმუშაონ და მოდელები რეალურ სამყაროს დააკავშირონ, რის შედეგადაც ისინი ამოცანების შესრულებაში უფრო სასარგებლო ხდებიან. მას ასევე მოაქვს გამოყენებადობის რამდენიმე გაუმჯობესება, მათ შორის ერთიანი item-ებზე დაფუძნებული დიზაინი, უფრო მარტივი პოლიმორფიზმი, ინტუიციური სტრიმინგის მოვლენები და SDK დამხმარეები, როგორიცაა response.output_text, მოდელის ტექსტურ გამოტანაზე მარტივი წვდომისთვის.

Responses API განკუთვნილია დეველოპერებისთვის, რომლებსაც სურთ მარტივად გააერთიანონ OpenAI-ის მოდელები და ჩაშენებული ინსტრუმენტები თავიანთ აპებში, მრავალი API-ის ან გარე მომწოდებლების ინტეგრირების სირთულის გარეშე. API ასევე ამარტივებს OpenAI-ზე მონაცემების შენახვას, რათა დეველოპერებმა აგენტის წარმადობა შეაფასონ ისეთი შესაძლებლობების გამოყენებით, როგორიცაა tracing და შეფასებები. შეგახსენებთ, რომ ჩვენ არ ვავარჯიშებთ ჩვენს მოდელებს ბიზნეს მონაცემებზე ნაგულისხმევად, მაშინაც კი, როდესაც მონაცემები OpenAI-ზე ინახება. API დღეიდან ხელმისაწვდომია ყველა დეველოპერისთვის და ცალკე არ იბეგრება — token-ები და ინსტრუმენტები იანგარიშება სტანდარტული ტარიფებით, რომლებიც მითითებულია ჩვენს ფასების გვერდზე⁠(იხსნება ახალ ფანჯარაში). მეტი ინფორმაციისთვის გაეცანით Responses API-ის სწრაფი დაწყების გზამკვლევს⁠(იხსნება ახალ ფანჯარაში).

რას ნიშნავს ეს არსებული API-ებისთვის

ჩატის დასრულების API⁠(იხსნება ახალ ფანჯარაში): Chat Completions რჩება ჩვენს ყველაზე ფართოდ დანერგილ API-დ და ჩვენ სრულად ვართ ერთგული, რომ მას ახალი მოდელები და შესაძლებლობები დავუჭიროთ მხარი. დეველოპერებს, რომლებსაც ჩაშენებული ინსტრუმენტები არ სჭირდებათ, შეუძლიათ თავდაჯერებით გააგრძელონ Chat Completions-ის გამოყენება. ჩვენ გავაგრძელებთ ახალი მოდელების გამოშვებას Chat Completions-ში ყოველთვის, როცა მათი შესაძლებლობები არ იქნება დამოკიდებული ჩაშენებულ ინსტრუმენტებზე ან მოდელის მრავალ გამოძახებაზე. თუმცა Responses API არის Chat Completions-ის ზეკომპლექტი⁠(იხსნება ახალ ფანჯარაში) იმავე შესანიშნავი წარმადობით, ამიტომ ახალი ინტეგრაციებისთვის გირჩევთ, Responses API-ით დაიწყოთ.
Assistants API⁠(იხსნება ახალ ფანჯარაში): Assistants API ბეტადან მიღებული დეველოპერული გამოხმაურების საფუძველზე, ჩვენ ძირითადი გაუმჯობესებები Responses API-ში გადავიტანეთ, რის შედეგადაც ის უფრო მოქნილი, სწრაფი და ადვილად გამოსაყენებელი გახდა. ვმუშაობთ იმაზე, რომ Assistants API-სა და Responses API-ს შორის შესაძლებლობების სრული თანასწორობა მივაღწიოთ, მათ შორის Assistant-ის მსგავსი და Thread-ის მსგავსი ობიექტების, ასევე კოდის ინტერპრეტატორი ინსტრუმენტის მხარდაჭერის ჩათვლით. ამის დასრულების შემდეგ, ვგეგმავთ ოფიციალურად გამოვაცხადოთ Assistants API-ის მოძველება, რომლის სამიზნე დასრულების თარიღი 2026 წლის შუა პერიოდია. მოძველების გამოცხადებისას ჩვენ შემოგთავაზებთ მკაფიო მიგრაციის გზამკვლევს Assistants API-დან Responses API-ზე, რომელიც დეველოპერებს ყველა მონაცემის შენარჩუნებისა და აპლიკაციების მიგრაციის საშუალებას მისცემს. სანამ მოძველებას ოფიციალურად არ გამოვაცხადებთ, გავაგრძელებთ Assistants API-სთვის ახალი მოდელების მიწოდებას. Responses API წარმოადგენს OpenAI-ში აგენტების აშენების სამომავლო მიმართულებას.

Responses API-ში ჩაშენებული ინსტრუმენტების წარდგენა

ვებძებნა

დეველოპერებს ახლა შეუძლიათ ვებიდან სწრაფი და განახლებული პასუხების მიღება მკაფიო და შესაბამისი ციტირებებით. Responses API-ში ვებძებნა ხელმისაწვდომია როგორც ინსტრუმენტი gpt-4o-სა და gpt-4o-mini-ს გამოყენებისას და მისი შეწყვილება შესაძლებელია სხვა ინსტრუმენტებთან ან ფუნქციის გამოძახებებთან.

JavaScript

1const response = await openai.responses.create({
2    model: "gpt-4o",
3    tools: [ { type: "web_search_preview" } ],
4    input: "What was a positive news story that happened today?",
5});
6
7console.log(response.output_text);

ადრეული ტესტირებისას ჩვენ ვნახეთ, რომ დეველოპერები ვებძებნას იყენებდნენ მრავალგვარი გამოყენებისთვის, მათ შორის სავაჭრო ასისტენტებისთვის, კვლევითი აგენტებისთვის და მოგზაურობის დაჯავშნის აგენტებისთვის — ნებისმიერი აპლიკაციისთვის, რომელსაც ვებიდან დროული ინფორმაცია სჭირდება.

მაგალითად, Hebbia⁠(იხსნება ახალ ფანჯარაში) იყენებს ვებძებნის ინსტრუმენტს, რათა აქტივების მენეჯერებს, კერძო კაპიტალისა და საკრედიტო ფირმებს, ასევე იურიდიულ პრაქტიკებს დაეხმაროს ვრცელი საჯარო და კერძო მონაცემთა ნაკრებებიდან სწრაფად ამოიღონ ქმედებადი მიგნებები. რეალურ დროში ძიების შესაძლებლობების კვლევის სამუშაო ნაკადებში ინტეგრირებით, Hebbia აწვდის უფრო მდიდარ, კონტექსტზე მორგებულ საბაზრო ინტელექტს და მუდმივად აუმჯობესებს მათი ანალიზების სიზუსტესა და შესაბამისობას, აჭარბებს რა მიმდინარე საორიენტაციო მაჩვენებლებს.

API-ში ვებძებნა მუშაობს იმავე მოდელზე, რომელიც ChatGPT search-ში გამოიყენება. SimpleQA-ზე, საორიენტაციო ტესტზე, რომელიც აფასებს LLM-ების სიზუსტეს მოკლე, ფაქტობრივ კითხვებზე პასუხის გაცემაში, GPT‑4o search preview და GPT‑4o mini search preview შესაბამისად 90%-სა და 88%-ს იღებენ.

SimpleQA სიზუსტე (რაც მაღალია, მით უკეთესი)

API-ში ვებძებნით გენერირებული პასუხები შეიცავს ბმულებს წყაროებზე, მაგალითად, ახალი ამბების სტატიებსა და ბლოგპოსტებზე, რაც მომხმარებლებს მეტის გაგების საშუალებას აძლევს. ამ მკაფიო, ტექსტშივე მოცემული ციტირებებით მომხმარებლებს ინფორმაციის მიღების ახალი გზა ეძლევათ, ხოლო კონტენტის მფლობელები უფრო ფართო აუდიტორიამდე მიღწევის ახალ შესაძლებლობებს იღებენ.

ნებისმიერ ვებსაიტს ან გამომცემელს შეუძლია აირჩიოს გამოჩენა⁠(იხსნება ახალ ფანჯარაში) API-ში ვებძებნაში.

ვებძებნის ინსტრუმენტი Responses API-ში preview რეჟიმში ხელმისაწვდომია ყველა დეველოპერისთვის. ასევე დეველოპერებს ვაძლევთ პირდაპირ წვდომას ჩვენს წვრილად მორგებულ საძიებო მოდელებზე ჩატის დასრულების API-ში gpt-4o-search-preview და gpt-4o-mini-search-preview-ის მეშვეობით. ფასები⁠(იხსნება ახალ ფანჯარაში) იწყება შესაბამისად $30-დან და $25-დან ათას მოთხოვნაზე GPT‑4o search-ისა და 4o-mini search-ისთვის. სცადეთ ვებძებნა Playground⁠(იხსნება ახალ ფანჯარაში)-ში და მეტი გაიგეთ ჩვენს დოკუმენტაციაში⁠(იხსნება ახალ ფანჯარაში).

ფაილების ძებნა

დეველოპერებს ახლა შეუძლიათ გაუმჯობესებული ფაილების ძებნის ინსტრუმენტის გამოყენებით დიდი მოცულობის დოკუმენტებიდან შესაბამისი ინფორმაციის მარტივად მოძიება. ფაილის მრავალი ტიპის მხარდაჭერით, მოთხოვნის ოპტიმიზაციით, მეტამონაცემების ფილტრაციითა და მორგებული ხელახალი რანჟირებით, მას შეუძლია სწრაფი და ზუსტი ძებნის შედეგების მიწოდება. და კვლავაც, Responses API-ის საშუალებით, ინტეგრაციას მხოლოდ რამდენიმე ხაზის კოდი სჭირდება.

JavaScript

1const productDocs = await openai.vectorStores.create({
2    name: "Product Documentation",
3    file_ids: [file1.id, file2.id, file3.id],
4});
5
6const response = await openai.responses.create({
7    model: "gpt-4o-mini",
8    tools: [{
9        type: "file_search",
10        vector_store_ids: [productDocs.id],
11    }],
12    input: "What is deep research by OpenAI?",
13});
14
15console.log(response.output_text);

ფაილების ძებნის ინსტრუმენტი შეიძლება გამოყენებულ იქნას სხვადასხვა რეალურ ამოცანაში, მათ შორის მომხმარებელთა მხარდაჭერის აგენტისთვის FAQ-ებზე მარტივი წვდომის უზრუნველსაყოფად, იურიდიული ასისტენტის დასახმარებლად, რათა კვალიფიციური პროფესიონალისთვის სწრაფად მიუთითოს წარსულ საქმეებზე, და კოდირების აგენტის დასახმარებლად ტექნიკური დოკუმენტაციის მოსაძიებლად. მაგალითად, Navan⁠(იხსნება ახალ ფანჯარაში) თავის AI-ზე დაფუძნებულ მოგზაურობის აგენტში იყენებს ფაილების ძებნას, რათა მომხმარებლებს სწრაფად მიაწოდოს ზუსტი პასუხები ცოდნის ბაზის სტატიებიდან (მაგალითად, მათი კომპანიის მოგზაურობის პოლიტიკიდან). ჩაშენებული მოთხოვნის ოპტიმიზაციისა და ხელახალი რანჟირების წყალობით, მათ შეუძლიათ ძლიერი RAG (retrieval-augmented generation) მილსადენის აწყობა დამატებითი მორგებისა და კონფიგურაციის გარეშე. თითოეული მომხმარებლის ჯგუფისთვის გამოყოფილი ვექტორული საცავებით Navan-ს შეუძლია პასუხები მოარგოს ინდივიდუალურ ანგარიშის პარამეტრებსა და მომხმარებლის როლებს, რაც დროს ზოგავს მომხმარებლებისა და მათი პერსონალისთვის და ამავე დროს ზუსტი, პერსონალიზებული მხარდაჭერის მიწოდებას ეხმარება.

ეს ინსტრუმენტი Responses API-ში ხელმისაწვდომია ყველა დეველოპერისთვის. გამოყენების ფასი⁠(იხსნება ახალ ფანჯარაში) შეადგენს $2.50-ს ათას მოთხოვნაზე, ხოლო ფაილების შენახვა — $0.10/GB/დღეში, პირველი GB კი უფასოა. ინსტრუმენტი კვლავ ხელმისაწვდომია Assistants API-შიც. ბოლოს, ჩვენ ასევე დავამატეთ ახალი search საბოლოო წერტილი Vector Store API ობიექტებისთვის, რათა თქვენი მონაცემები პირდაპირ მოიკითხოს სხვა აპლიკაციებსა და API-ებში გამოსაყენებლად. მეტი გაიგეთ ჩვენს დოკუმენტაციაში⁠(იხსნება ახალ ფანჯარაში) და დაიწყეთ ტესტირება Playground⁠(იხსნება ახალ ფანჯარაში)-ში.

კომპიუტერის გამოყენება

იმისთვის, რომ ააგონ აგენტები, რომლებსაც კომპიუტერზე ამოცანების შესრულება შეუძლიათ, დეველოპერებს ახლა შეუძლიათ გამოიყენონ კომპიუტერის გამოყენების ინსტრუმენტი Responses API-ში, რომელიც მუშაობს იმავე Computer-Using Agent (CUA) model-ზე, რომელიც Operator-ს ამუშავებს. ამ კვლევითმა წინასწარმა ვერსიამ დაამყარა ახალი საუკეთესო შედეგი, მიაღწია რა 38.1%-იან წარმატებას OSWorld⁠(იხსნება ახალ ფანჯარაში)-ში კომპიუტერის სრული გამოყენების ამოცანებზე, 58.1%-ს WebArena⁠(იხსნება ახალ ფანჯარაში)-ში და 87%-ს WebVoyager⁠(იხსნება ახალ ფანჯარაში)-ში ვებზე დაფუძნებული ურთიერთქმედებებისთვის.

ჩაშენებული კომპიუტერის გამოყენების ინსტრუმენტი აფიქსირებს მოდელის მიერ გენერირებულ მაუსისა და კლავიატურის მოქმედებებს, რაც დეველოპერებს საშუალებას აძლევს კომპიუტერის გამოყენების ამოცანები დააავტომატიზონ ამ მოქმედებების უშუალოდ შესრულებად ბრძანებებად გარდაქმნით საკუთარ გარემოებში.

JavaScript

1const response = await openai.responses.create({
2    model: "computer-use-preview",
3    tools: [{
4        type: "computer_use_preview",
5        display_width: 1024,
6        display_height: 768,
7        environment: "browser",
8    }],
9    truncation: "auto",
10    input: "I'm looking for a new camera. Help me find the best one.",
11});
12
13console.log(response.output);

დეველოპერებს ახლა შეუძლიათ გამოიყენონ კომპიუტერის გამოყენების ინსტრუმენტი ბრაუზერზე დაფუძნებული სამუშაო ნაკადების ავტომატიზებისთვის, მაგალითად, ვებაპლიკაციებზე ხარისხის უზრუნველყოფის შესასრულებლად ან მოძველებულ სისტემებში მონაცემთა შეყვანის ამოცანების განსახორციელებლად. მაგალითად, Unify⁠(იხსნება ახალ ფანჯარაში) არის შემოსავლის ზრდაზე ორიენტირებული ქმედებების სისტემა, რომელიც იყენებს აგენტებს განზრახვის იდენტიფიცირებისთვის, ანგარიშების შესასწავლად და მყიდველებთან ურთიერთობისთვის. OpenAI-ის კომპიუტერის გამოყენების ინსტრუმენტის დახმარებით, Unify-ის აგენტებს შეუძლიათ მიიღონ წვდომა ინფორმაციაზე, რომელიც ადრე API-ების საშუალებით მიუწვდომელი იყო — მაგალითად, ქონების მართვის კომპანიას აძლევენ შესაძლებლობას ონლაინ რუკების მეშვეობით გადაამოწმოს, გააფართოვა თუ არა ბიზნესმა თავისი უძრავი ქონების კვალი. ეს კვლევა მოქმედებს როგორც მორგებული სიგნალი პერსონალიზებული კომუნიკაციის დასაწყებად — რაც ბაზარზე გატანის გუნდებს აძლევს საშუალებას, ზუსტად და მასშტაბურად დაუკავშირდნენ მყიდველებს.

კიდევ ერთი მაგალითისთვის, Luminai⁠(იხსნება ახალ ფანჯარაში)-მ ინტეგრაცია გაუკეთა კომპიუტერის გამოყენების ინსტრუმენტს, რათა დაეავტომატიზებინა რთული ოპერაციული სამუშაო ნაკადები დიდი საწარმოებისთვის, რომლებსაც აქვთ მოძველებული სისტემები API-ების ხელმისაწვდომობისა და სტანდარტიზებული მონაცემების გარეშე. მსხვილ საზოგადოებრივ მომსახურების ორგანიზაციასთან ჩატარებულ ბოლო პილოტში, Luminai-მ განაცხადების დამუშავებისა და მომხმარებლების რეგისტრაციის პროცესი სულ რამდენიმე დღეში დააავტომატიზა — ის, რისი მიღწევაც ტრადიციულ რობოტულ პროცესების ავტომატიზაციას (RPA) თვეების მცდელობის შემდეგაც უჭირდა.

გასულ წელს Operator-ში CUA-ის გაშვებამდე, ჩვენ ჩავატარეთ უსაფრთხოების ფართო ტესტირება და შეტევითი ტესტირება, რის ფარგლებშიც მოვიცავით რისკის სამი მთავარი სფერო: ბოროტად გამოყენება, მოდელის შეცდომები და მოწინავე მოდელებთან დაკავშირებული რისკი. API-ში CUA-ის მეშვეობით Operator-ის შესაძლებლობების ლოკალურ ოპერაციულ სისტემებზე გაფართოებასთან დაკავშირებული რისკების საპასუხოდ, ჩვენ ჩავატარეთ დამატებითი უსაფრთხოების შეფასებები და შეტევითი ტესტირება. ასევე დავამატეთ შემამსუბუქებელი მექანიზმები დეველოპერებისთვის, მათ შორის უსაფრთხოების შემოწმებები პრომპტ ინიექციებისგან დასაცავად, დადასტურების მოთხოვნები სენსიტიური ამოცანებისთვის, ხელსაწყოები, რომლებიც დეველოპერებს გარემოების იზოლირებაში ეხმარება, და პოტენციური პოლიტიკის დარღვევების გაუმჯობესებული აღმოჩენა. მიუხედავად იმისა, რომ ეს მექანიზმები რისკის შემცირებას ეხმარება, მოდელი მაინც მიდრეკილია უნებლიე შეცდომებისკენ, განსაკუთრებით არაბრაუზერულ გარემოებში. მაგალითად, OSWorld-ზე, რომელიც შექმნილია რეალურ ამოცანებზე AI აგენტების მუშაობის შესაფასებლად, CUA-ის შედეგი ამჟამად 38.1%-ია, რაც მიუთითებს, რომ მოდელი ჯერ კიდევ არ არის საკმარისად სანდო ოპერაციულ სისტემებზე ამოცანების ავტომატიზებისთვის. ასეთ სცენარებში რეკომენდებულია ადამიანის ზედამხედველობა. ჩვენი API-სპეციფიკური უსაფრთხოების მუშაობის შესახებ მეტი დეტალი შეგიძლიათ იხილოთ ჩვენს განახლებულ სისტემურ ბარათში.

შეფასების სტანდარტის ტიპი	შეფასების სტანდარტი	კომპიუტერის გამოყენება (უნივერსალური ინტერფეისი)		ვებ დათვალიერების აგენტები	ადამიანი
		OpenAI CUA	წინა SOTA	წინა SOTA
კომპიუტერის გამოყენება	OSWorld	38,1%	22,0%	-	72,4%
ბრაუზერის გამოყენება	WebArena	58,1%	36,2%	57,1%	78,2%
ბრაუზერის გამოყენება	WebVoyager	87,0%	56,0%	87,0%	-

შეფასების შესახებ დეტალური ინფორმაცია მოცემულია აქ

დღეიდან კომპიუტერის გამოყენების ინსტრუმენტი ხელმისაწვდომია როგორც კვლევითი preview Responses API-ში შერჩეული დეველოპერებისთვის მოხმარების 3-5 დონეებში⁠(იხსნება ახალ ფანჯარაში). გამოყენების ფასი⁠(იხსნება ახალ ფანჯარაში) შეადგენს $3/1M შეყვანის token-ს და $12/1M გამოტანის token-ს. მეტი გაიგეთ ჩვენს დოკუმენტაციაში⁠(იხსნება ახალ ფანჯარაში) და გაეცანით სანიმუშო აპლიკაციას⁠(იხსნება ახალ ფანჯარაში), რომელიც აჩვენებს, როგორ ააწყოთ ამ ინსტრუმენტით.

Agents SDK

აგენტების ძირითადი ლოგიკის აგების და მათთვის ინსტრუმენტებზე წვდომის მიცემის გარდა, რათა ისინი სასარგებლო იყვნენ, დეველოპერებს აგენტური სამუშაო ნაკადების ორკესტრირებაც სჭირდებათ. ჩვენი ახალი ღია კოდის მქონე Agents SDK ამარტივებს მრავალაგენტიანი სამუშაო ნაკადების ორკესტრირებას და მნიშვნელოვან გაუმჯობესებებს სთავაზობს Swarm⁠(იხსნება ახალ ფანჯარაში)-თან შედარებით — ექსპერიმენტულ SDK-სთან, რომელიც გასულ წელს გამოვუშვით, დეველოპერთა საზოგადოებამ ფართოდ დანერგა და მრავალმა მომხმარებელმა წარმატებით გამოიყენა.

გაუმჯობესებები მოიცავს:

აგენტები: მარტივად კონფიგურირებადი LLM-ები მკაფიო ინსტრუქციებითა და ჩაშენებული ინსტრუმენტებით.
გადაბარებები: აგენტებს შორის კონტროლის ინტელექტუალური გადაცემა.
უსაფრთხოების ზღუდეები: კონფიგურირებადი უსაფრთხოების შემოწმებები შეყვანისა და გამოტანის ვალიდაციისთვის.
Tracing & Observability: აგენტის შესრულების კვალის ვიზუალიზაცია გამართვისა და წარმადობის ოპტიმიზაციისთვის.

Python

1from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2
3@function_tool
4def submit_refund_request(item_id: str, reason: str):
5    # Your refund logic goes here
6    return "success"
7
8support_agent = Agent(
9    name="Support & Returns",
10    instructions="You are a support agent who can submit refunds [...]",
11    tools=[submit_refund_request],
12)
13
14shopping_agent = Agent(
15    name="Shopping Assistant",
16    instructions="You are a shopping assistant who can search the web [...]",
17    tools=[WebSearchTool()],
18)
19
20triage_agent = Agent(
21    name="Triage Agent",
22    instructions="Route the user to the correct agent.",
23    handoffs=[shopping_agent, support_agent],
24)
25
26output = Runner.run_sync(
27    starting_agent=triage_agent,
28    input="What shoes might work best with my outfit so far?",
29)

Agents SDK გამოდგება სხვადასხვა რეალური გამოყენებისთვის, მათ შორის მომხმარებელთა მხარდაჭერის ავტომატიზაციისთვის, მრავალსაფეხურიანი კვლევისთვის, კონტენტის გენერირებისთვის, კოდის მიმოხილვისთვის და გაყიდვების პოტენციური კლიენტების მოძიებისთვის. მაგალითად, Coinbase⁠(იხსნება ახალ ფანჯარაში)-მა Agents SDK გამოიყენა AgentKit-ის სწრაფად დასაპროტოტიპებლად და გასაშვებად — ეს არის ინსტრუმენტების ნაკრები, რომელიც AI აგენტებს კრიპტოსაფულეებთან და სხვადასხვა on-chain აქტივობასთან შეუფერხებელი ურთიერთქმედების საშუალებას აძლევს. სულ რამდენიმე საათში Coinbase-მა მათი Developer Platform SDK-დან მორგებული მოქმედებები სრულად ფუნქციურ აგენტში ინტეგრირა. AgentKit-ის გამარტივებულმა არქიტექტურამ ახალი აგენტური მოქმედებების დამატების პროცესი გაამარტივა, რაც დეველოპერებს საშუალებას აძლევდა მეტი ყურადღება მიექციათ მნიშვნელოვანი ინტეგრაციებისთვის და ნაკლები — აგენტების რთული კონფიგურაციების მართვისთვის.

რამდენიმე დღეში Box⁠(იხსნება ახალ ფანჯარაში)-მა შეძლო სწრაფად შეექმნა აგენტები, რომლებიც ვებძებნასა და Agents SDK-ს იყენებენ, რათა საწარმოებს საშუალება მისცენ Box-ში და საჯარო ინტერნეტის წყაროებში შენახულ არასტრუქტურირებულ მონაცემებში მოძებნონ, დასვან შეკითხვები და ამოიღონ მიგნებები. ეს მიდგომა მომხმარებლებს აძლევს შესაძლებლობას არა მხოლოდ უახლეს ინფორმაციას მიწვდნენ, არამედ საკუთარი შიდა, საკუთრებით დაცული მონაცემებიც უსაფრთხოდ მოძებნონ ისე, რომ მათი შიდა წვდომები და უსაფრთხოების პოლიტიკები დაცული იყოს. მაგალითად, ფინანსური სერვისების ფირმას შეუძლია ააწყოს მორგებული აგენტი, რომელიც Box AI აგენტს მოუხმობს, რათა Box-ში შენახული მათი შიდა ბაზრის ანალიზი გააერთიანოს ვებიდან მიღებულ რეალურ დროში ახალ ამბებსა და ეკონომიკურ მონაცემებთან და ანალიტიკოსებს საინვესტიციო გადაწყვეტილებებისთვის სრულყოფილი სურათი მიაწოდოს.

Agents SDK მუშაობს Responses API-სა და ჩატის დასრულების API-სთან. SDK ასევე იმუშავებს სხვა პროვაიდერების მოდელებთანაც, თუ ისინი ჩატის დასრულების სტილის API საბოლოო წერტილს უზრუნველყოფენ. დეველოპერებს მისი დაუყოვნებლივ ინტეგრირება შეუძლიათ თავიანთ Python კოდურ ბაზებში, ხოლო Node.js-ის მხარდაჭერა მალე დაემატება. მეტი გაიგეთ ჩვენს დოკუმენტაციაში⁠(იხსნება ახალ ფანჯარაში).

Agents SDK-ის დიზაინის შექმნისას ჩვენი გუნდი შთაგონებული იყო საზოგადოების სხვა წევრების შესანიშნავი ნამუშევრებით, მათ შორის Pydantic⁠(იხსნება ახალ ფანჯარაში), Griffe⁠(იხსნება ახალ ფანჯარაში) და MkDocs⁠(იხსნება ახალ ფანჯარაში). ჩვენ მზად ვართ, განვაგრძოთ Agents SDK-ის, როგორც ღია კოდის ფრეიმვორკის განვითარება, რათა საზოგადოებაში სხვებმაც შეძლონ ჩვენი მიდგომის გაფართოება.

რა იქნება შემდეგ: აგენტებისთვის პლატფორმის შექმნა

გვჯერა, რომ აგენტები მალე სამუშაო ძალის განუყოფელი ნაწილი გახდებიან და სხვადასხვა ინდუსტრიაში პროდუქტიულობას მნიშვნელოვნად გააძლიერებენ. რადგან კომპანიები სულ უფრო მეტად ცდილობენ კომპლექსური ამოცანებისთვის AI-ის გამოყენებას, ჩვენ მზად ვართ მივაწოდოთ ის სამშენებლო ბლოკები, რომლებიც დეველოპერებსა და საწარმოებს რეალურ სამყაროზე ზემოქმედების მქონე ავტონომიური სისტემების ეფექტურად შექმნის საშუალებას აძლევს.

დღევანდელი გამოშვებებით ჩვენ წარმოგიდგენთ პირველ სამშენებლო ბლოკებს, რათა დეველოპერებმა და საწარმოებმა უფრო მარტივად ააშენონ, დანერგონ და მასშტაბურად განავითარონ სანდო და მაღალი წარმადობის AI აგენტები. რაც უფრო და უფრო აგენტური ხდება მოდელების შესაძლებლობები, ჩვენ გავაგრძელებთ ინვესტირებას ჩვენი API-ების უფრო ღრმა ინტეგრაციებსა და ახალ ინსტრუმენტებში, რომლებიც აგენტების საწარმოო გარემოში დანერგვას, შეფასებასა და ოპტიმიზაციას შეუწყობს ხელს. ჩვენი მიზანია დეველოპერებს მივცეთ პლატფორმის შეუფერხებელი გამოცდილება ისეთი აგენტების შესაქმნელად, რომლებიც ნებისმიერ ინდუსტრიაში მრავალფეროვანი ამოცანების შესრულებაში დაეხმარებიან. მოუთმენლად ველით, რას ააგებენ დეველოპერები შემდეგ. დასაწყებად, გაეცანით ჩვენს დოკუმენტაციას⁠(იხსნება ახალ ფანჯარაში) და დაელოდეთ კიდევ მეტ სიახლეს უახლოეს მომავალში.

ავტორები

OpenAI