Przejdź do treści głównej
OpenAI

11 marca 2025

Produkt

Nowe narzędzia do budowania agentów

Rozwijamy naszą platformę, aby pomóc programistom i przedsiębiorstwom w tworzeniu przydatnych i niezawodnych agentów.

Elegancki, minimalistyczny interfejs z listą zadań dla agenta AI, w tym „triage_agent”, „guardrail” i „update_salesforce_record” na płynnym niebieskim abstrakcyjnym tle.

Dzisiaj udostępniamy pierwszy zestaw rozwiązań pomagających programistom i przedsiębiorstwom tworzyć przydatne i niezawodne agenty. Agenty postrzegamy jako systemy samodzielnie wykonujące zadania w imieniu użytkowników. W ciągu ostatniego roku udostępniliśmy nowe zdolności modeli, na przykład zaawansowane rozumowanie, interakcje multimodalne i nowe techniki dotyczące bezpieczeństwa. Położyły one podwaliny pod wykonywanie przez nasze modele złożonych i wieloetapowych zadań wymaganych podczas tworzenia agentów. Klienci informowali nas jednak, że tworzenie przy użyciu tych zdolności agentów na potrzeby środowiska produkcyjnego może być trudne i często wymaga żmudnego poprawiania kolejnych wersji poleceń oraz niestandardowej logiki orkiestracji w sytuacji bez wystarczającego wglądu i wbudowanego wsparcia.

Aby zmierzyć się z tymi wyzwaniami, udostępniamy nowe interfejsy API i narzędzia opracowane pod kątem uproszczenia tworzenia aplikacji agentowych:

Nowe narzędzia usprawniają podstawową logikę agentów, orkiestrację i interakcje, dlatego bardzo ułatwiają programistom rozpoczęcie tworzenia agentów. W ciągu najbliższych tygodni i miesięcy planujemy udostępnić dodatkowe narzędzia i zdolności, które jeszcze bardziej uproszczą i przyspieszą tworzenie aplikacji agentowych przy użyciu naszej platformy.

Przedstawiamy interfejs Responses API

Interfejs Responses API to nasz nowy element podstawowy API umożliwiający korzystanie z wbudowanych narzędzi OpenAI do tworzenia agentów. Łączy on prostotę Chat Completions z możliwością korzystania z wbudowanych narzędzi jak w przypadku interfejsu Assistants API Wierzymy, że wraz z rozwojem zdolności modeli interfejs Responses API zapewni bardziej elastyczną podstawę dla programistów tworzących aplikacje agentowe. Pojedyncze wywołanie interfejsu Responses API pozwala programistom tworzyć rozwiązania dla coraz bardziej złożonych zadań przy użyciu wielu narzędzi i tur modelu.

Początkowo interfejs Responses API będzie obsługiwał nowe wbudowane narzędzia, takie jak wyszukiwanie w sieci, wyszukiwanie plików i obsługa komputera. Zostały one zaprojektowane tak, aby współdziałały ze sobą, łącząc modele z rzeczywistym światem, dlatego są bardziej przydatne w wykonywaniu zadań. Wraz z tym interfejsem wprowadzono również kilka ulepszeń użyteczności, w tym jednolity projekt oparty na elementach, uproszczony polimorfizm, intuicyjne zdarzenia danych przesyłanych strumieniowo oraz elementy pomocnicze SDK, na przykład response.output_text, aby ułatwić dostęp do tekstowych danych wyjściowych modelu.

Interfejs Responses API został stworzony dla programistów chcących w prosty sposób połączyć w aplikacjach modele OpenAI i wbudowane narzędzia bez skomplikowanego integrowania wielu interfejsów API lub rozwiązań dostawców zewnętrznych. Ponadto ułatwia on też przechowywanie danych w OpenAI, co pozwala programistom testować działanie agentów przy użyciu na przykład śledzenia i ocen. Przypominamy, że domyślnie nie używamy danych biznesowych do trenowania naszych modeli, nawet jeśli dane są przechowywane w OpenAI. Interfejs API jest od dzisiaj dostępny dla wszystkich programistów. Nie pobieramy za niego oddzielnej opłaty – tokeny i narzędzia są rozliczane według standardowych stawek podanych na stronie z cennikiem(otwiera nowe okno). Aby dowiedzieć się więcej, zapoznaj się z przewodnikiem szybkiego startu(otwiera nowe okno) interfejsu Responses API.

Jak to wpłynie na istniejące interfejsy API

  • Chat Completions API(otwiera nowe okno): Chat Completions to wciąż nasz najpopularniejszy interfejs API. Będziemy go nadal w pełni wspierać, udostępniając jego obsługę w nowych modelach i zdolnościach. Programiści, którzy nie potrzebują wbudowanych narzędzi, mogą nadal korzystać z interfejsu Chat Completions. Nowe modele nadal będą obsługiwać Chat Completions, chyba że ich zdolności będą wymagały korzystania z wbudowanych narzędzi lub wielu wywołań modeli. Jednak interfejs Responses API jest nadzbiorem(otwiera nowe okno) interfejsu Chat Completions i ma taką samą świetną wydajność, dlatego w nowych integracjach zalecamy korzystanie od początku z interfejsu Responses API.
  • Assistants API(otwiera nowe okno): Na podstawie opinii programistów korzystających z wersji beta interfejsu Assistants API wprowadziliśmy w nim ważne usprawnienia zapewniające większą elastyczność i szybkość oraz upraszczające korzystanie. Pracujemy nad uzyskaniem pełnej równoważności funkcji interfejsów Assistants i Responses API, w tym obsługi obiektów przypominających asystentów i obiektów przypominających wątki oraz narzędzia Interpreter kodu. Następnie planujemy oficjalnie zakończyć wsparcie dla interfejsu Assistants API – termin zakończenia wsparcia to połowa 2026 r. Po zakończeniu wsparcia udostępnimy przewodnik wyjaśniający w prosty sposób proces migracji z interfejsu Assistants API do interfejsu Responses API. Dzięki niemu programiści będą mogli zachować wszystkie dane i przenieść swoje aplikacje. Do czasu oficjalnego ogłoszenia zakończenia wsparcia nowe modele będą obsługiwać interfejs Assistants API. Interfejs Responses API to obrany przez OpenAI kierunek tworzenia agentów w przyszłości.

Przedstawiamy wbudowane narzędzia obsługiwane przez interfejs Responses API

Wyszukiwanie w sieci

Programiści mogą teraz uzyskiwać szybkie i aktualne odpowiedzi wraz ze zrozumiałymi i trafnymi odniesieniami do źródeł w Internecie. Interfejs Responses API udostępnia wyszukiwanie w sieci jako narzędzie, gdy używany jest model gpt-4o lub gpt-4o-mini. To narzędzie można łączyć z innymi narzędziami lub wywołaniami funkcji.

JavaScript

1
const response = await openai.responses.create({
2
model: "gpt-4o",
3
tools: [ { type: "web_search_preview" } ],
4
input: "What was a positive news story that happened today?",
5
});
6

7
console.log(response.output_text);

Podczas wczesnych testów obserwowaliśmy, jak programiści tworzyli różne rozwiązania korzystające z wyszukiwania w sieci, na przykład asystentów ds. zakupów, agenty pomagające w przeprowadzaniu badań i agenty rezerwacji podróży oraz inne aplikacje wymagające aktualnych informacji z Internetu.

Na przykład firma Hebbia(otwiera nowe okno) używa narzędzia do wyszukiwania w sieci do pomagania menedżerom aktywów, firmom zajmującym się private equity i kredytami oraz kancelariom prawnym w szybkim wyodrębnianiu przydatnych informacji z obszernych publicznych i prywatnych zestawów danych. Firma Hebbia, dzięki zintegrowaniu zdolności wyszukiwania w czasie rzeczywistym z przepływami pracy badań, udostępnia pogłębione i dostosowane do kontekstu analizy rynkowe oraz stale poprawia dokładność i trafność swoich analiz, osiągając lepsze wyniki od obecnych testów porównawczych.

Wyszukiwanie w sieci udostępniane przez interfejs API jest obsługiwane przez ten sam model, który jest używany na potrzeby wyszukiwania w ChatGPT. W teście porównawczym SimpleQA, oceniającym dokładność modeli LLM w odpowiedziach na krótkie pytania sprawdzające wiedzę, wersja poglądowa modelu GPT‑4o z wyszukiwaniem i wersja poglądowa modelu GPT‑4o mini z wyszukiwaniem uzyskały odpowiednio wynik 90% i 88%.

Dokładność SimpleQA (im wyższa wartość, tym lepiej)
63%38%47%15%90%88%Dokładność

Odpowiedzi generowane przy użyciu wyszukiwania w sieci za pośrednictwem interfejsu API zawierają linki do źródeł, takich jak artykuły prasowe i wpisy na blogach, dzięki którym można uzyskać dodatkowe informacje. Dzięki zrozumiałym wstawianym odniesieniom do źródeł użytkownicy mogą wchodzić w interakcje z informacjami w nowy sposób, a właściciele treści zyskują nowe możliwości dotarcia do szerszego grona odbiorców.

Każda strona internetowa i każdy wydawca może zdecydować się na wyświetlanie swoich treści(otwiera nowe okno) w narzędziu wyszukiwania w sieci udostępnianym przez interfejs API.

Narzędzie do wyszukiwania w sieci jest dostępne dla wszystkich programistów w wersji poglądowej za pośrednictwem interfejsu Responses API. Programistom dajemy również bezpośredni dostęp do modeli obsługujących wyszukiwanie z konfiguracją precyzyjną (gpt-4o-search-preview i gpt-4o-mini-search-preview) za pośrednictwem interfejsu Chat Completions API. Ceny(otwiera nowe okno) zaczynają się odpowiednio od 30 USD i 25 USD za tysiąc zapytań w przypadku odpowiednio wyszukiwania obsługiwanego przez model GPT‑4o i obsługiwanego przez model 4o-mini. Wypróbuj wyszukiwanie w sieci w Playground(otwiera nowe okno) i dowiedz się więcej z naszej dokumentacji(otwiera nowe okno).

Wyszukiwanie plików

Ulepszone narzędzie do wyszukiwania plików ułatwia teraz programistom wyszukiwanie potrzebnych informacji w dużych zbiorach dokumentów. Obsługuje ono wiele typów plików, optymalizację zapytań, filtrowanie metadanych i niestandardowe ponowne szeregowanie, dlatego wyniki wyszukiwania są dokładne i szybkie. Także w jego przypadku interfejs Responses API umożliwia integrację przy użyciu zaledwie kilku wierszy kodu.

JavaScript

1
const productDocs = await openai.vectorStores.create({
2
name: "Product Documentation",
3
file_ids: [file1.id, file2.id, file3.id],
4
});
5

6
const response = await openai.responses.create({
7
model: "gpt-4o-mini",
8
tools: [{
9
type: "file_search",
10
vector_store_ids: [productDocs.id],
11
}],
12
input: "What is deep research by OpenAI?",
13
});
14

15
console.log(response.output_text);

Narzędzie do wyszukiwania plików może być używane w wielu rzeczywistych sytuacjach, np. ułatwia agentowi obsługi klienta dostęp do często zadawanych pytań, pomaga asystentowi prawnemu szybko znaleźć poprzednie sprawy dla wykwalifikowanego specjalisty oraz ułatwia agentowi programowania przeszukiwanie dokumentacji technicznej. Na przykład firma Navan(otwiera nowe okno) stosuje wyszukiwanie plików w swoim agencie biura podróży AI, aby móc szybko przedstawiać użytkownikom precyzyjne odpowiedzi z artykułów bazy wiedzy (takich jak firmowy regulamin dotyczący podróży). Dzięki wbudowanej optymalizacji zapytań i ponownemu szeregowaniu jest ona w stanie skonfigurować zaawansowany proces RAG (retrieval-augmented generation) bez dodatkowego dostosowywania ani konfiguracji. Dzięki dedykowanym bazom danych wektorów dla każdej grupy użytkowników firma Navan jest w stanie dostosować odpowiedzi do indywidualnych ustawień kont i ról użytkowników, oszczędzając czas klientom i ich pracownikom, a jednocześnie zapewniając dokładne i spersonalizowane wsparcie.

To narzędzie jest dostępne za pośrednictwem interfejsu Responses API dla wszystkich programistów. Cena(otwiera nowe okno) za użytkowanie wynosi 2,50 USD za tysiąc zapytań, a cena za przechowywanie plików wynosi 0,10 USD/GB/dzień (pierwszy GB za darmo). To narzędzie jest wciąż dostępne za pośrednictwem interfejsu Assistants API. Dodaliśmy również nowy punkt końcowy wyszukiwania do obiektów interfejsu Vector Store API. Umożliwia on bezpośrednie wysyłanie zapytań dotyczących użycia danych w innych aplikacjach i interfejsach API. Więcej informacji można znaleźć w naszejdokumentacji(otwiera nowe okno). Wypróbuj w Playground(otwiera nowe okno).

Obsługa komputera

Programiści mogą teraz tworzyć agenty potrafiące wykonywać zadania na komputerze przy użyciu narzędzia do obsługi komputera udostępnianego przez interfejs Responses API. Jest ono oparte na tym samym modelu Computer-Using Agent (CUA), z którego korzysta agent Operator. Ten model w badawczej wersji poglądowej ustanowił nowy rekord, osiągając wynik 38,1% w zadaniach pełnej obsługi komputera w teście OSWorld(otwiera nowe okno), 58,1% w teście WebArena(otwiera nowe okno) i 87% w teście WebVoyager(otwiera nowe okno) w zadaniach dotyczących interakcji w sieci.

Wbudowane narzędzie do obsługi komputera przechwytuje działania przy użyciu myszy i klawiatury generowane przez model, umożliwiając programistom automatyzację zadań obsługi komputera poprzez bezpośrednie tłumaczenie tych działań na polecenia wykonywalne w ich środowiskach.

JavaScript

1
const response = await openai.responses.create({
2
model: "computer-use-preview",
3
tools: [{
4
type: "computer_use_preview",
5
display_width: 1024,
6
display_height: 768,
7
environment: "browser",
8
}],
9
truncation: "auto",
10
input: "I'm looking for a new camera. Help me find the best one.",
11
});
12

13
console.log(response.output);

Programiści mogą przy użyciu narzędzia do obsługi komputera automatyzować przepływy pracy w przeglądarce, takie jak kontrola jakości aplikacji internetowych lub wprowadzanie danych w starszych systemach. Na przykład Unify(otwiera nowe okno) to system działań pozwalający zwiększać przychody, który używa agentów do identyfikowania zamiaru, badania klientów i kontaktowania się z kupującymi. Agenty Unify, korzystając z narzędzia do obsługi komputera OpenAI, mogą uzyskać dostęp do informacji, które wcześniej były niedostępne przy użyciu interfejsów API. Na przykład firma zarządzająca nieruchomościami może przy ich użyciu zweryfikować na mapach online, czy powierzchnia nieruchomości danej firmy zwiększyła się. Taka weryfikacja to niestandardowy sygnał uruchamiający spersonalizowane działania dotarcia do klienta. Dzięki niemu zespoły rynkowe mogą nawiązywać kontakty z kupującymi z precyzją i na dużą skalę.

Innym przykładem jest firma Luminai(otwiera nowe okno). Zintegrowała ona narzędzie do obsługi komputera w celu zautomatyzowania złożonych przepływów pracy dotyczących działalności operacyjnej w dużych przedsiębiorstwach ze starszymi systemami bez interfejsów API i bez ustandaryzowanych danych. W ramach niedawnego projektu pilotażowego dla dużej organizacji świadczącej usługi społeczne firma Luminai zautomatyzowała przetwarzanie wniosków i proces rejestracji użytkowników w ciągu zaledwie kilku dni. Przy użyciu tradycyjnych rozwiązań z zakresu zrobotyzowanej automatyzacji procesów (Robotic Process Automation, RPA) było to bardzo trudne do osiągnięcia i zakończyło się niepowodzeniem po miesiącach starań.

Przed udostępnieniem modelu CUA w agencie Operator w zeszłym roku przeprowadziliśmy szeroko zakrojone testy bezpieczeństwa i z udziałem zespołu czerwonego, koncentrując się na trzech kluczowych obszarach ryzyka: nadużyciach, błędach modelu i ryzyku związanym z pionierskimi technologiami. Aby wyeliminować ryzyko związane z rozszerzeniem zdolności agenta Operator na lokalne systemy operacyjne przy użyciu modelu CUA udostępnianego przez interfejs API, przeprowadziliśmy dodatkowe oceny bezpieczeństwa i z udziałem zespołu czerwonego. Dodaliśmy również środki ograniczające ryzyko dla programistów, w tym kontrole bezpieczeństwa chroniące przed wstrzyknięciami poleceń, komunikaty wymagające potwierdzenia w przypadku zadań wrażliwych, narzędzia pomagające programistom odizolować środowisko oraz ulepszone wykrywanie potencjalnych naruszeń zasad. Chociaż te środki ograniczające ryzyko pomagają je zmniejszyć, model nadal jest podatny na nieumyślne błędy, zwłaszcza w środowiskach innych niż przeglądarki. Na przykład model CUA w teście porównawczym OSWorld, służącym do pomiaru działania agentów AI w rzeczywistych zadaniach, obecnie osiąga wynik 38,1%, co wskazuje, że model nie jest jeszcze wystarczająco niezawodny, by stosować go do automatyzacji zadań w systemach operacyjnych. W przypadku systemów operacyjnych zalecany jest nadzór człowieka. Więcej szczegółowych informacji dotyczących naszych działań związanych z bezpieczeństwem interfejsów API można znaleźć w zaktualizowanej wersji karty systemu.

Typ benchmarkuBenchmarkWykorzystanie komputera (interfejs uniwersalny)Agenty przeglądania sieciCzłowiek
OpenAI CUAPoprzedni SOTAPoprzedni SOTA
Wykorzystanie komputeraOSWorld38,1%22,0%-72,4%
Wykorzystanie przeglądarkiWebArena58,1%36,2%57,1%78,2%
WebVoyager87,0%56,0%87,0%-
Szczegóły oceny opisano tutaj

Od dzisiaj narzędzie do obsługi komputera jest dostępne jako badawcza wersja poglądowa udostępniana przez interfejs Responses API dla wybranych programistów na poziomach użytkowania 3–5(otwiera nowe okno). Cena(otwiera nowe okno) za użytkowanie wynosi 3 USD/1 milion tokenów wejściowych i 12 USD/1 milion wyjściowych. Więcej informacji można znaleźć w naszej dokumentacji(otwiera nowe okno). Sprawdź przykładową aplikację(otwiera nowe okno) przedstawiającą sposób budowania tego narzędzia.

Agents SDK

Oprócz tworzenia podstawowej logiki agentów i zapewniania im dostępu do narzędzi, aby były przydatne, programiści muszą również orkiestrować przepływy pracy z agentami. Nasz nowy zestaw Agents SDK typu open-source upraszcza orkiestrowanie przepływów pracy z wieloma agentami. Wprowadzono w nim znaczące usprawnienia w stosunku do Swarm(otwiera nowe okno), wydanego przez nas w ubiegłym roku eksperymentalnego zestawu SDK, który został dobrze przyjęty przez społeczność programistów oraz pomyślnie wdrożony przez wielu klientów.

Usprawnienia to między innymi:

  • Agenty: Proste w konfiguracji modele LLM z wyraźnymi instrukcjami i wbudowanymi narzędziami.
  • Przekazywanie: Inteligentne przekazywanie kontroli między agentami.
  • Zabezpieczenia: Konfigurowalne kontrole bezpieczeństwa na potrzeby weryfikacji danych wejściowych i wyjściowych.
  • Śledzenie i obserwowalność: Wizualizacja wyników śledzenia wykonania agenta na potrzeby debugowania i optymalizacji działania.

Python

1
from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2

3
@function_tool
4
def submit_refund_request(item_id: str, reason: str):
5
# Your refund logic goes here
6
return "success"
7

8
support_agent = Agent(
9
name="Support & Returns",
10
instructions="You are a support agent who can submit refunds [...]",
11
tools=[submit_refund_request],
12
)
13

14
shopping_agent = Agent(
15
name="Shopping Assistant",
16
instructions="You are a shopping assistant who can search the web [...]",
17
tools=[WebSearchTool()],
18
)
19

20
triage_agent = Agent(
21
name="Triage Agent",
22
instructions="Route the user to the correct agent.",
23
handoffs=[shopping_agent, support_agent],
24
)
25

26
output = Runner.run_sync(
27
starting_agent=triage_agent,
28
input="What shoes might work best with my outfit so far?",
29
)

Zestaw Agents SDK jest odpowiedni do różnych rzeczywistych zastosowań, w tym automatyzacji obsługi klienta, wieloetapowych badań, generowania treści, przeglądu kodu i pozyskiwania potencjalnych klientów. Na przykład firma Coinbase(otwiera nowe okno) korzystała z zestawu Agents SDK do szybkiego prototypowania i wdrażania AgentKit, pakietu narzędzi umożliwiającego agentom AI bezproblemową interakcję z portfelami kryptowalut i różnymi aktywnościami on-chain. W ciągu zaledwie kilku godzin firma Coinbase zintegrowała niestandardowe aktywności ze swojego zestawu Developer Platform SDK z w pełni funkcjonalnym agentem. Zoptymalizowana architektura AgentKit uprościła proces dodawania nowych działań agenta. Pozwoliło to programistom bardziej skoncentrować się na ważnych integracjach i nie marnować czasu na skomplikowane konfiguracje agentów. 

Firma Box(otwiera nowe okno) była w stanie w zaledwie kilka dni stworzyć agenty wykorzystujące wyszukiwanie w sieci i zestaw SDK Agents, które umożliwiają przedsiębiorstwom wyszukiwanie, zadawanie pytań dotyczących informacji z nieustrukturyzowanych danych w serwisie Box i w publicznych źródłach internetowych oraz wyodrębnianie tych informacji. Takie podejście pozwala klientom nie tylko korzystać z najnowszych informacji, ale też przeszukiwać należące do nich wewnętrzne dane w bezpieczny i zapewniający im ochronę sposób oraz z przestrzeganiem wewnętrznych uprawnień i zasad bezpieczeństwa. Na przykład firma z branży usług finansowych może stworzyć niestandardowego agenta, który wywołuje agenta Box AI w celu zintegrowania wewnętrznych analiz rynkowych w serwisie Box z aktualnymi wiadomościami i danymi gospodarczymi z Internetu. Takie rozwiązanie zapewnia analitykom kompleksowy obraz sytuacji potrzebny do podejmowania decyzji inwestycyjnych.

Zestaw SDK Agents obsługuje interfejsy Responses API i Chat Completions API. Obsługuje on również modele innych dostawców, jeśli udostępniają one punkt końcowy API w stylu Chat Completions. Programiści mogą natychmiast zintegrować go ze swoimi bazami kodu w języku Python, a wkrótce będzie również dostępna obsługa środowiska Node.js. Więcej informacji można znaleźć w naszej dokumentacji(otwiera nowe okno).

Projektując zestaw Agents SDK, nasz zespół inspirował się doskonałą pracą innych członków społeczności, w tym Pydantic(otwiera nowe okno), Griffe(otwiera nowe okno) i MkDocs(otwiera nowe okno). Jesteśmy zaangażowani w dalszy rozwój zestawu Agents SDK jako otwartego oprogramowania, aby inni członkowie społeczności mogli rozwijać nasze podejście.

W planach: stworzenie platformy dla agentów

Wierzymy, że agenty wkrótce staną się nieodłączną częścią pracy, znacznie zwiększając produktywność w różnych branżach. Firmy coraz częściej chcą używać AI do realizacji złożonych zadań. Jesteśmy zaangażowani w dostarczanie rozwiązań pozwalających programistom i przedsiębiorstwom na sprawne tworzenie autonomicznych systemów mających wpływ na rzeczywistość.

Udostępnione dzisiaj narzędzia to pierwsze rozwiązania ułatwiające programistom i przedsiębiorstwom tworzenie, wdrażanie oraz skalowanie niezawodnych i wydajnych agentów AI. Zdolności modeli stają się coraz bardziej agentowe. Będziemy kontynuować inwestowanie w większą integrację naszych interfejsów API i nowych narzędzi, aby pomóc we wdrażaniu, ocenie i optymalizacji agentów w środowisku produkcyjnym. Naszym celem jest udostępnienie programistom sprawnie działającej platformy do tworzenia agentów, które mogą pomóc w wykonywaniu różnych zadań w każdej branży. Ciekawi nas, co uda się jeszcze stworzyć programistom. Aby rozpocząć, zapoznaj się z naszą dokumentacją⁠(otwiera nowe okno). Wkrótce udostępnimy więcej informacji.

Autorzy

OpenAI