21 maja 2025

Nowe narzędzia i funkcje udostępniane przez interfejs Responses API

Przedstawiamy obsługę zdalnego serwera MCP, generowanie obrazów, Interpreter kodu i wiele innych narzędzi udostępnianych przez interfejs Responses API programistom i przedsiębiorstwom.

Ładowanie…

Dzisiaj dodajemy nowe wbudowane narzędzia do interfejsu Responses API — naszego elementu podstawowego API służącego do tworzenia aplikacji agentowych. Obejmuje to obsługę wszystkich zdalnych serwerów Model Context Protocol (MCP)⁠(otwiera nowe okno) oraz narzędzi takich, jak generowanie obrazu⁠(otwiera nowe okno), Interpreter kodu⁠(otwiera nowe okno), i usprawnienia wyszukiwania plików⁠(otwiera nowe okno). Narzędzia te są dostępne w przypadku naszych modeli rozumowania z serii GPT‑4o, GPT‑4.1 i OpenAI o. Modele o3 i o4-mini mogą teraz wywoływać narzędzia i funkcje bezpośrednio w ramach łańcucha myśli przy użyciu interfejsu Responses API, generując odpowiedzi bogatsze w kontekst i trafniejsze. Korzystanie z modeli o3 i o4-mini wraz z interfejsem Responses API pozwala zachować tokeny rozumowania do użycia w różnych żądaniach i wywołaniami narzędzi, Poprawia to inteligencję modelu oraz zmniejsza koszty i opóźnienia dla programistów.

Wprowadzamy również nowe funkcje interfejsu Responses API, które zwiększają niezawodność, widoczność i prywatność dla przedsiębiorstw i programistów. Obejmują one tryb tła⁠(otwiera nowe okno) do asynchronicznego i bardziej niezawodnego wykonywania zadań działających przez długi czas, wsparcie dla podsumowania rozumowania⁠(otwiera nowe okno) i wsparcie dla zaszyfrowanych elementów rozumowania⁠(otwiera nowe okno).

Od wydania interfejsu Responses API w marcu 2025 roku z narzędziami takimi jak wyszukiwanie w sieci, wyszukiwanie plików i obsługa komputera setki tysięcy programistów użyło interfejsu API do przetworzenia bilionów tokenów przy użyciu naszych modeli. Klienci skorzystali z interfejsu API do stworzenia różnych aplikacji agentowych, w tym agent kodowania Zencoder⁠(otwiera nowe okno), agent do analiz rynkowych w zakresie private equity i bankowości inwestycyjnej Revi⁠(otwiera nowe okno) i asystenci edukacyjni MagicSchool AI⁠(otwiera nowe okno). Wszystkie one używają wyszukiwania w sieci do pobierania odpowiednich i aktualnych informacji do swojej aplikacji. Teraz programiści mogą tworzyć agenty, które są jeszcze bardziej przydatne i niezawodne dzięki udostępnionym dzisiaj nowym narzędziom i funkcjom.

Nowa obsługa zdalnego serwera MCP

Dodajemy obsługę zdalnych serwerów MCP⁠(otwiera nowe okno) przez interfejs Responses API, opierając się na udostępnieniu wsparcia MCP w zestawie Agents SDK⁠(otwiera nowe okno). MCP to otwarty protokół, który standaryzuje sposób, w jaki aplikacje dostarczają kontekst modelom LLM. Dzięki obsłudze serwerów MCP przez interfejs Responses API programiści będą mogli łączyć nasze modele z narzędziami na dowolnym serwerze MCP przy użyciu zaledwie kilku wierszy kodu. Oto kilka przykładów pokazujących, jak programiści mogą obecnie korzystać ze zdalnych serwerów MCP przy użyciu interfejsu Responses API:

Python

1response = client.responses.create(
2  model="gpt-4.1",
3  tools=[{
4    "type": "mcp",
5    "server_label": "shopify",
6    "server_url": "https://pitchskin.com/api/mcp",
7  }],
8  input="Add the Blemish Toner Pads to my cart"
9)

The Blemish Toner Pads have been added to your cart! You can proceed to checkout here:

Pitch. Skin checkout page showing express options (Shop Pay, PayPal, G Pay), contact and delivery form fields, and an order summary for one ‘Blemish Toner Pads 200 mL (120 pads)’ priced at AUD $49.

Popularne zdalne serwery MCP to między innymi Cloudflare⁠(otwiera nowe okno), HubSpot⁠(otwiera nowe okno), Intercom⁠(otwiera nowe okno), PayPal⁠(otwiera nowe okno), Plaid⁠(otwiera nowe okno), Shopify⁠(otwiera nowe okno), Stripe⁠(otwiera nowe okno), Square⁠(otwiera nowe okno), Twilio⁠(otwiera nowe okno), Zapier⁠(otwiera nowe okno) i nie tylko. Spodziewamy się, że w najbliższych miesiącach ekosystem zdalnych serwerów MCP będzie szybko się rozwijał, ułatwiając programistom tworzenie zaawansowanych agentów, które będą mogły łączyć się z narzędziami i źródłami danych, z których już korzystają użytkownicy. Aby jak najlepiej wspierać ekosystem i przyczynić się do rozwoju tego standardu, firma OpenAI dołączyła również do komitetu kierującego MCP.

Aby dowiedzieć się, jak uruchomić własny serwer MCP, zapoznaj się z przewodnikiem Cloudflare⁠(otwiera nowe okno). Aby dowiedzieć się, jak używać narzędzia MCP z interfejsem Responses API, zapoznaj się z tym przewodnikiem⁠(otwiera nowe okno) w API Cookbook.

Aktualizacje generowania obrazu, Interpretera kodu, i wyszukiwania plików

Dzięki narzędziom wbudowanym udostępnianym przez interfejs Responses API programiści mogą łatwo tworzyć agenty o większych możliwościach przy użyciu tylko jednego wywołania API. Dzięki wywoływaniu wielu narzędzi podczas rozumowania modele osiągają teraz znacznie wyższą wydajność wywoływania narzędzi w standardowych testach porównawczych, takich jak Humanity’s Last Exam (źródło). Dzisiaj dodajemy nowe narzędzia, w tym:

Generowanie obrazu: Oprócz używania interfejsu Images API⁠(otwiera nowe okno), programiści mają teraz dostęp do najnowszego modelu generowania obrazu—gpt-image-1— jako narzędzia udostępnianego przez interfejs Responses API. To narzędzie obsługuje strumieniowanie w czasie rzeczywistym, umożliwiając programistom podgląd obrazu w trakcie jego generowania, oraz edycję wieloturową, dzięki czemu programiści mogą wydawać modelowi polecenia szczegółowego poprawiania obrazów krok po kroku. Więcej informacji⁠(otwiera nowe okno).
Interpreter kodu: Programiści mogą teraz używać narzędzia Code Interpreter⁠(otwiera nowe okno) udostępnianego przez interfejs Responses API. To narzędzie jest przydatne do analizy danych, rozwiązywania złożonych problemów matematycznych i programowania oraz pomaga modelom w dokładnym zrozumieniu obrazów i manipulowaniu nimi (na przykład myślenie przy użyciu obrazów). Zdolność modeli, takich jak o3 i o4-mini, do korzystania z narzędzia Interpreter kodu w ramach łańcucha myśli zaowocowała poprawą wyników w kilku testach porównawczych, w tym Humanity’s Last Exam (źródło). Więcej informacji⁠(otwiera nowe okno).
Wyszukiwanie plików Programiści mogą teraz uzyskiwać dostęp do narzędzia wyszukiwanie plików⁠(otwiera nowe okno) z poziomu naszych modeli rozumowania. Wyszukiwanie plików umożliwia programistom pobieranie odpowiednich fragmentów dokumentów do kontekstu modelu na podstawie zapytania użytkownika. Wprowadzamy również aktualizacje narzędzia do wyszukiwania plików, które umożliwiają programistom wyszukiwanie w wielu bazach danych wektorów oraz obsługują filtrowanie atrybutów przy użyciu tablic. Więcej informacji⁠(otwiera nowe okno).

Nowe funkcje udostępniane przez interfejs Responses API

Oprócz nowych narzędzi dodajemy również obsługę nowych funkcji w interfejsie Responses API, w tym:

Tryb tła: Jak można zauważyć w przypadku produktów agentowych, takich jak Codex, głębokie badanie i Operator, rozwiązanie złożonych problemów przez modele rozumowania może potrwać kilka minut. Programiści mogą teraz korzystać z trybu tła, aby tworzyć podobne rozwiązania w przypadku modeli takich jak o3 bez martwienia się o limity czasu lub inne problemy z łącznością — w trybie tła zadania te są uruchamiane asynchronicznie. Programiści mogą odpytywać te obiekty w celu sprawdzenia, czy zostały ukończone, albo rozpocząć strumieniowanie zdarzeń, gdy tylko aplikacja będzie musiała zaktualizować stan. Więcej informacji⁠(otwiera nowe okno).

Python

1response = client.responses.create(
2  model="o3",
3  input="Write me an extremely long story.",
4  reasoning={ "effort": "high" },
5  background=True
6)

Podsumowania rozumowania: Interfejs Responses API może teraz generować zwięzłe i sformułowane w języku naturalnym podsumowania wewnętrznego łańcucha myśli modelu podobne do tych, które można zobaczyć w ChatGPT. Ułatwia to programistom debugowanie, audytowanie i tworzenie lepszych rozwiązań dla użytkowników końcowych. Podsumowania rozumowania są dostępne bez dodatkowych kosztów. Więcej informacji⁠(otwiera nowe okno).

Python

1response = client.responses.create(
2    model="o4-mini",
3    tools=[
4        {
5            "type": "code_interpreter",
6            "container": {"type": "auto"}
7        }
8    ],
9    instructions=(
10        "You are a personal math tutor. "
11        "When asked a math question, run code to answer the question."
12    ),
13    input="I need to solve the equation `3x + 11 = 14`. Can you help me?",
14    reasoning={"summary": "auto"}
15)

Szyfrowane elementy rozumowania: Klienci kwalifikujący się do nieprzechowywania danych⁠(otwiera nowe okno) mogą teraz ponownie używać elementów rozumowania w różnych żądaniach API — bez elementów rozumowania przechowywanych na serwerach OpenAI. W przypadku modeli takich jak o3 i o4-mini ponowne użycie elementów rozumowania w różnych wywołaniach funkcji zwiększa inteligencję, zmniejsza zużycie tokenów i zwiększa współczynnik trafień w pamięci podręcznej, co przekłada się na niższe koszty i opóźnienia. Więcej informacji.

Python

1response = client.responses.create(
2  model="o3",
3  input="Implement a simple web server in Rust from scratch.",
4  store=False,
5  include=["reasoning.encrypted_content"]
6)

Cennik i dostępność

Wszystkie te narzędzia i funkcje są teraz udostępniane przez interfejs Responses API obsługiwany przez nasze modele rozumowania z serii GPT‑4o, GPT‑4.1 oraz OpenAI o-series (o1, o3, o3‑mini i o4-mini). Generowanie obrazów jest obsługiwane tylko przez modele o3 z naszej serii modeli rozumowania.

Ceny istniejących narzędzi pozostają bez zmian. Generowanie obrazów kosztuje 5,00 USD za 1 mln tokenów wejściowych w postaci tekstu, 10,00 USD za 1 mln tokenów wejściowych w postaci obrazów i 40,00 USD za 1 mln tokenów wyjściowych w postaci obrazów z 75% zniżką na tokeny danych wejściowych z pamięci podręcznej. Interpreter kodu kosztuje 0,03 USD za kontener. Wyszukiwanie plików kosztuje 0,10 USD/GB przechowywania wektorów za dzień i 2,50 USD/1 tysiąc wywołań narzędzi. Wywołanie zdalnego narzędzia serwera MCP jest bezpłatne — opłata dotyczy wyłącznie tokenów wyjściowych z interfejsu API. Więcej informacji na temat cennika⁠(otwiera nowe okno) zawiera nasza dokumentacja.

Ciekawi nas, co zbudujesz.

Autor

OpenAI