11. март 2025.

New tools for building agents

A sleek, minimal interface displaying a task list for an AI agent, including ‘triage_agent,’ ‘guardrail,’ and ‘update_salesforce_record,’ over a fluid blue abstract background.

Данас објављујемо први сет градивних елемената који ће помоћи програмерима и предузећима да праве корисне и поуздане агенте. Агенте посматрамо као системе који самостално извршавају задатке у име корисника. Током протекле године увели смо нове могућности модела — као што су напредно резоновање, мултимодалне интеракције и нове безбедносне технике — које су поставиле темеље да наши модели могу да обрађују сложене, вишекорачне задатке потребне за изградњу агената. Међутим, корисници су нам рекли да претварање ових могућности у агенте спремне за продукцију може бити изазовно, често захтевајући опсежно понављање инструкција и прилагођену логику оркестрације без довољне видљивости или уграђене подршке.

Да бисмо одговорили на ове изазове, покрећемо нови скуп API-ја и алата посебно осмишљених да поједноставе развој агентских апликација:

Нови Responses API⁠(отвара се у новом прозору), који комбинује једноставност API-ја за довршавање ћаскања са могућностима коришћења алата из Assistants API-ја за изградњу агената
Уграђени алати, укључујући претрагу веба⁠(отвара се у новом прозору), претрагу датотека⁠(отвара се у новом прозору) и коришћење рачунара⁠(отвара се у новом прозору)
Нови Agents SDK⁠(отвара се у новом прозору) за оркестрацију токова рада са једним агентом и више агената
Интегрисани алати за посматрање⁠(отвара се у новом прозору) за праћење и инспекцију извршавања токова рада агената

Ови нови алати поједностављују основну логику агената, оркестрацију и интеракције, чинећи програмерима знатно лакшим почетак рада на изградњи агената. Током наредних недеља и месеци планирамо да објавимо додатне алате и могућности како бисмо још више поједноставили и убрзали изградњу агентских апликација на нашој платформи.

Представљамо Responses API

Responses API је наш нови основни API елемент за коришћење OpenAI уграђених алата за изградњу агената. Он комбинује једноставност Chat Completions-а са могућностима коришћења алата из Assistants API-ја. Како могућности модела настављају да се развијају, верујемо да ће Responses API пружити флексибилнију основу програмерима који граде агентске апликације. Са једним позивом Responses API-ја, програмери ће моћи да решавају све сложеније задатке користећи више алата и више потеза модела.

За почетак, Responses API ће подржати нове уграђене алате као што су претрага веба, претрага датотека и коришћење рачунара. Ови алати су осмишљени да раде заједно како би повезали моделе са стварним светом, чинећи их кориснијим у извршавању задатака. Такође доноси неколико побољшања употребљивости, укључујући обједињени дизајн заснован на ставкама, једноставнији полиморфизам, интуитивне догађаје стриминга и SDK помоћнике као што је response.output_text за лак приступ текстуалном излазу модела.

Responses API је осмишљен за програмере који желе да лако комбинују OpenAI моделе и уграђене алате у својим апликацијама, без сложености интеграције више API-ја или спољних добављача. API такође олакшава чување података у OpenAI-ју, тако да програмери могу да процењују перформансе агената користећи функције као што су праћење и евалуације. Подсећамо, не обучавамо наше моделе на пословним подацима подразумевано, чак и када се ти подаци чувају у OpenAI-ју. API је доступан свим програмерима почев од данас и не наплаћује се одвојено — токени и алати се обрачунавају по стандардним тарифама наведеним на нашој страници са ценама⁠(отвара се у новом прозору). Погледајте водич за брзи почетак⁠(отвара се у новом прозору) за Responses API да бисте сазнали више.

Шта ово значи за постојеће API-је

API за довршавање ћаскања⁠(отвара се у новом прозору): Chat Completions и даље је наш најшире усвојен API и у потпуности смо посвећени томе да га подржавамо новим моделима и могућностима. Програмери којима нису потребни уграђени алати могу с пуним поверењем да наставе да користе Chat Completions. Наставићемо да објављујемо нове моделе за Chat Completions кад год њихове могућности не зависе од уграђених алата или вишеструких позива модела. Међутим, Responses API је надскуп⁠(отвара се у новом прозору) Chat Completions-а са истим одличним перформансама, па за нове интеграције препоручујемо да почнете са Responses API-јем.
Assistants API⁠(отвара се у новом прозору): На основу повратних информација програмера из бета фазе Assistants API-ја, уградили смо кључна побољшања у Responses API, чинећи га флексибилнијим, бржим и лакшим за употребу. Радимо на постизању пуне функционалне усклађености између Assistants API-ја и Responses API-ја, укључујући подршку за објекте сличне Assistant-у и Thread-у, као и алатку Code Interpreter. Када то буде завршено, планирамо да формално најавимо повлачење Assistants API-ја, са циљаним датумом гашења средином 2026. Након повлачења, обезбедићемо јасан водич за миграцију са Assistants API-ја на Responses API који ће омогућити програмерима да сачувају све своје податке и мигрирају своје апликације. Док формално не најавимо повлачење, наставићемо да испоручујемо нове моделе за Assistants API. Responses API представља будући правац за изградњу агената у OpenAI-ју.

Представљамо уграђене алате у Responses API-ју

Претрага веба

Програмери сада могу да добију брзе, ажурне одговоре са јасним и релевантним цитатима са веба. У оквиру Responses API-ја, претрага веба је доступна као алат при коришћењу gpt-4o и gpt-4o-mini и може се комбиновати са другим алатима или позивима функција.

JavaScript

1const response = await openai.responses.create({
2    model: "gpt-4o",
3    tools: [ { type: "web_search_preview" } ],
4    input: "What was a positive news story that happened today?",
5});
6
7console.log(response.output_text);

Током раног тестирања видели смо да програмери користе претрагу веба за различите случајеве употребе, укључујући асистенте за куповину, агенте за истраживање и агенте за резервацију путовања — заправо сваку апликацију којој су потребне правовремене информације са веба.

На пример, Hebbia⁠(отвара се у новом прозору) користи алатку за претрагу веба како би помогла управницима имовине, фирмама приватног капитала и кредита и адвокатским канцеларијама да брзо извуку применљиве увиде из обимних јавних и приватних скупова података. Интеграцијом могућности претраге у реалном времену у своје истраживачке токове рада, Hebbia испоручује богатију, контекстуално специфичну тржишну интелигенцију и непрекидно побољшава прецизност и релевантност својих анализа, надмашујући тренутне репере.

Претрагу веба у API-ју покреће исти модел који се користи за ChatGPT претрагу. На SimpleQA, реперу који оцењује тачност великих језичких модела (LLM) у одговарању на кратка, чињенична питања, GPT‑4o search preview и GPT‑4o mini search preview остварују резултате од 90% и 88% редом.

SimpleQA тачност (више је боље)

Одговори генерисани претрагом веба у API-ју укључују везе ка изворима, као што су новински чланци и блог објаве, дајући корисницима начин да сазнају више. Уз ове јасне, уграђене цитате, корисници могу да приступе информацијама на нов начин, док власници садржаја добијају нове могућности да допру до шире публике.

Било који веб-сајт или издавач може изабрати да се појављује⁠(отвара се у новом прозору) у претрази веба у API-ју.

Алатка за претрагу веба доступна је свим програмерима у прегледној верзији у оквиру Responses API-ја. Такође програмерима дајемо директан приступ нашим фино подешеним моделима за претрагу у API-ју за довршавање ћаскања преко gpt-4o-search-preview и gpt-4o-mini-search-preview. Цене⁠(отвара се у новом прозору) почињу од 30 USD и 25 USD по хиљаду упита, редом за GPT‑4o search и 4o-mini search. Испробајте претрагу веба у Playground-у⁠(отвара се у новом прозору) и сазнајте више у нашој документацији⁠(отвара се у новом прозору).

Претрага датотека

Програмери сада могу лако да преузимају релевантне информације из великих количина докумената користећи унапређену алатку за претрагу датотека. Уз подршку за више типова датотека, оптимизацију упита, филтрирање метаподатака и прилагођено поновно рангирање, она може да испоручи брзе и прецизне резултате претраге. И опет, уз Responses API, за интеграцију је потребно само неколико редова кода.

JavaScript

1const productDocs = await openai.vectorStores.create({
2    name: "Product Documentation",
3    file_ids: [file1.id, file2.id, file3.id],
4});
5
6const response = await openai.responses.create({
7    model: "gpt-4o-mini",
8    tools: [{
9        type: "file_search",
10        vector_store_ids: [productDocs.id],
11    }],
12    input: "What is deep research by OpenAI?",
13});
14
15console.log(response.output_text);

Алатка за претрагу датотека може се користити за различите случајеве употребе у стварном свету, укључујући омогућавање агенту корисничке подршке да лако приступи честим питањима, помоћ правном асистенту да брзо пронађе раније случајеве за квалификованог стручњака и помоћ агенту за кодирање да поставља упите техничкој документацији. На пример, Navan⁠(отвара се у новом прозору) користи претрагу датотека у свом AI агенту за путовања како би својим корисницима брзо пружио прецизне одговоре из чланака базе знања (као што је политика путовања њихове компаније). Уз уграђену оптимизацију упита и поновно рангирање, могу да поставе моћан RAG (генерисање проширено преузимањем) ток без додатног подешавања или конфигурације. Уз наменске векторске продавнице за сваку корисничку групу, Navan може да прилагоди одговоре појединачним подешавањима налога и корисничким улогама, штедећи време корисницима и њиховом особљу, а истовремено помаже у пружању тачне, персонализоване подршке.

Овај алат је доступан у Responses API-ју свим програмерима. Коришћење се наплаћује⁠(отвара се у новом прозору) 2,50 USD по хиљаду упита, а складиштење датотека 0,10 USD/GB/дан, при чему је први GB бесплатан. Алат је и даље доступан у Assistants API-ју. На крају, додали смо и нову крајњу тачку за претрагу објектима Vector Store API-ја како бисте директно постављали упите својим подацима за употребу у другим апликацијама и API-јима. Сазнајте више у нашој документацији⁠(отвара се у новом прозору) и почните тестирање у Playground-у⁠(отвара се у новом прозору).

Коришћење рачунара

Да би изградили агенте способне да завршавају задатке на рачунару, програмери сада могу да користе алатку за коришћење рачунара у Responses API-ју, коју покреће исти модел Computer-Using Agent (CUA) који омогућава Operator. Овај модел у истраживачком прегледу поставио је нови рекорд стања технике, постигавши 38,1% успешности на OSWorld⁠(отвара се у новом прозору) за задатке потпуног коришћења рачунара, 58,1% на WebArena⁠(отвара се у новом прозору) и 87% на WebVoyager⁠(отвара се у новом прозору) за интеракције засноване на вебу.

Уграђена алатка за коришћење рачунара бележи радње мишем и тастатуром које генерише модел, што програмерима омогућава да аутоматизују задатке коришћења рачунара тако што те радње директно преводе у извршиве команде у својим окружењима.

JavaScript

1const response = await openai.responses.create({
2    model: "computer-use-preview",
3    tools: [{
4        type: "computer_use_preview",
5        display_width: 1024,
6        display_height: 768,
7        environment: "browser",
8    }],
9    truncation: "auto",
10    input: "I'm looking for a new camera. Help me find the best one.",
11});
12
13console.log(response.output);

Програмери могу да користе алатку за коришћење рачунара да аутоматизују токове рада засноване на прегледачу, као што су осигурање квалитета веб апликација или извршавање задатака уноса података кроз застареле системе. На пример, Unify⁠(отвара се у новом прозору) је систем деловања за раст прихода који користи агенте да идентификују намеру, истраже налоге и комуницирају с купцима. Користећи OpenAI алатку за коришћење рачунара, Unify агенти могу да приступе информацијама које су раније биле недоступне преко API-ја — као што је омогућавање компанији за управљање некретнинама да преко онлајн мапа провери да ли је неко предузеће проширило свој фонд некретнина. Ово истраживање служи као прилагођени сигнал за покретање персонализованог обраћања, оснажујући тимове за припрему за излазак на тржиште да прецизно и у великом обиму ангажују купце.

Као још један пример, Luminai⁠(отвара се у новом прозору) је интегрисао алатку за коришћење рачунара како би аутоматизовао сложене оперативне токове рада за велика предузећа са застарелим системима којима недостају API доступност и стандардизовани подаци. У недавном пилот-пројекту са великом организацијом за друштвене услуге, Luminai је аутоматизовао обраду пријава и процес уписа корисника за само неколико дана — нешто што традиционална роботска аутоматизација процеса (RPA) није успела да постигне ни после месеци рада.

Пре лансирања CUA у Operator-у прошле године, спровели смо опсежна безбедносна тестирања и вежбе црвене команде, бавећи се са три кључне области ризика: злоупотребом, грешкама модела и граничним ризицима. Да бисмо се позабавили ризицима повезаним са проширењем могућности Operator-а на локалне оперативне системе кроз CUA у API-ју, спровели смо додатне безбедносне процене и црвену команду. Додали смо и мере ублажавања за програмере, укључујући безбедносне провере за заштиту од уметања инструкције, упите за потврду осетљивих задатака, алате који помажу програмерима да изолују своја окружења и побољшано откривање потенцијалних кршења смерница. Иако ове мере ублажавања помажу у смањењу ризика, модел је и даље подложан ненамерним грешкама, посебно у окружењима ван прегледача. На пример, учинак CUA на OSWorld-у, реперу осмишљеном за мерење учинка AI агената на задацима из стварног света, тренутно износи 38,1%, што указује на то да модел још није високо поуздан за аутоматизацију задатака на оперативним системима. У оваквим сценаријима препоручује се људски надзор. Више детаља о нашем безбедносном раду специфичном за API можете пронаћи у нашој ажурираној системској картици.

Тип испитивања	Испитивање	Коришћење рачунара (универзални интерфејс)		Агенти за прегледање мреже	Човек
		OpenAI CUA	Претходни SOTA	Претходни SOTA
Коришћење рачунара	OSWorld	38,1%	22,0%	-	72,4%
Употреба прегледача	WebArena	58,1%	36,2%	57,1%	78,2%
Употреба прегледача	WebVoyager	87,0%	56,0%	87,0%	-

Детаљи о процени су описани овде

Почев од данас, алатка за коришћење рачунара доступна је као истраживачки преглед у Responses API-ју за одабране програмере у нивоима коришћења 3–5⁠(отвара се у новом прозору). Коришћење се наплаћује⁠(отвара се у новом прозору) 3 USD за 1М улазних токена и 12 USD за 1М излазних токена. Сазнајте више у нашој документацији⁠(отвара се у новом прозору) и погледајте пример апликације⁠(отвара се у новом прозору) који показује како да градите уз овај алат.

Agents SDK

Поред изградње основне логике агената и омогућавања приступа алатима како би били корисни, програмери такође морају да оркестрирају агентске токове рада. Наш нови Agents SDK отвореног кода поједностављује оркестрацију токова рада са више агената и доноси значајна побољшања у односу на Swarm⁠(отвара се у новом прозору), експериментални SDK који смо објавили прошле године, а који је програмерска заједница широко усвојила и који је успешно примењен код више корисника.

Побољшања укључују:

Агенти: LLM-ови који се лако конфигуришу, са јасним инструкцијама и уграђеним алатима.
Примопредаје: Интелигентан пренос контроле између агената.
Заштитне ограде: Подесиве безбедносне провере за валидацију улаза и излаза.
Праћење и посматрање: Визуелизујте трагове извршавања агента да бисте отклонили грешке и оптимизовали перформансе.

Python

1from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2
3@function_tool
4def submit_refund_request(item_id: str, reason: str):
5    # Your refund logic goes here
6    return "success"
7
8support_agent = Agent(
9    name="Support & Returns",
10    instructions="You are a support agent who can submit refunds [...]",
11    tools=[submit_refund_request],
12)
13
14shopping_agent = Agent(
15    name="Shopping Assistant",
16    instructions="You are a shopping assistant who can search the web [...]",
17    tools=[WebSearchTool()],
18)
19
20triage_agent = Agent(
21    name="Triage Agent",
22    instructions="Route the user to the correct agent.",
23    handoffs=[shopping_agent, support_agent],
24)
25
26output = Runner.run_sync(
27    starting_agent=triage_agent,
28    input="What shoes might work best with my outfit so far?",
29)

Agents SDK је погодан за различите примене у стварном свету, укључујући аутоматизацију корисничке подршке, вишекорачна истраживања, генерисање садржаја, преглед кода и тражење продајних прилика. На пример, Coinbase⁠(отвара се у новом прозору) је користио Agents SDK да брзо направи прототип и примени AgentKit, комплет алата који омогућава AI агентима да беспрекорно комуницирају са крипто новчаницима и различитим активностима на ланцу. За само неколико сати, Coinbase је интегрисао прилагођене радње из свог Developer Platform SDK-ја у потпуно функционалног агента. Поједностављена архитектура AgentKit-а поједноставила је процес додавања нових радњи агента, омогућивши програмерима да се више усредсреде на смислене интеграције, а мање на сналажење у сложеним подешавањима агената.

За неколико дана, Box⁠(отвара се у новом прозору) је успео да брзо креира агенте који користе претрагу веба и Agents SDK како би омогућили предузећима да претражују, постављају упите и извлаче увиде из неструктурираних података смештених у Box-у и јавним изворима на интернету. Овај приступ омогућава корисницима не само да приступе најновијим информацијама, већ и да на безбедан и сигуран начин претражују своје интерне, власничке податке, у складу са својим интерним дозволама и безбедносним политикама. На пример, фирма за финансијске услуге може да изгради прилагођеног агента који позива Box AI агента како би интегрисао интерну анализу тржишта похрањену у Box-у са вестима у реалном времену и економским подацима са веба, пружајући својим аналитичарима свеобухватан увид за доношење инвестиционих одлука.

Agents SDK ради са Responses API-јем и API-јем за довршавање ћаскања. SDK ће такође радити са моделима других добављача, све док обезбеђују крајњу тачку API-ја у стилу Chat Completions. Програмери га могу одмах интегрисати у своје Python кодне базе, а подршка за Node.js стиже ускоро. Сазнајте више у нашој документацији⁠(отвара се у новом прозору).

При дизајнирању Agents SDK-ја, наш тим је био инспирисан одличним радом других у заједници, укључујући Pydantic⁠(отвара се у новом прозору), Griffe⁠(отвара се у новом прозору) и MkDocs⁠(отвара се у новом прозору). Посвећени смо томе да наставимо да градимо Agents SDK као оквир отвореног кода, како би други у заједници могли да прошире наш приступ.

Шта следи: изградња платформе за агенте

Верујемо да ће агенти ускоро постати саставни део радне снаге, значајно повећавајући продуктивност у свим индустријама. Како компаније све више настоје да искористе AI за сложене задатке, посвећени смо обезбеђивању градивних елемената који омогућавају програмерима и предузећима да ефикасно креирају аутономне системе који доносе утицај у стварном свету.

Данашњим објавама представљамо прве градивне елементе који ће оснажити програмере и предузећа да лакше граде, примењују и скалирају поуздане AI агенте високих перформанси. Како могућности модела постају све више агентске, наставићемо да улажемо у дубље интеграције кроз наше API-је и нове алате који помажу у примени, процени и оптимизацији агената у продукцији. Наш циљ је да програмерима пружимо беспрекорно искуство платформе за изградњу агената који могу да помогну у различитим задацима у било којој индустрији. Радујемо се што ћемо видети шта ће програмери следеће направити. За почетак, истражите нашу документацију⁠(отвара се у новом прозору) и пратите нас за још новости ускоро.

Аутори

OpenAI