Przejdź do treści głównej
OpenAI

21 maja 2025

Produkt

Nowe narzędzia i funkcje udostępniane przez interfejs Responses API

Przedstawiamy obsługę zdalnego serwera MCP, generowanie obrazów, Interpreter kodu i wiele innych narzędzi udostępnianych przez interfejs Responses API programistom i przedsiębiorstwom.

Ładowanie…

Dzisiaj dodajemy nowe wbudowane narzędzia do interfejsu Responses API — naszego elementu podstawowego API służącego do tworzenia aplikacji agentowych. Obejmuje to obsługę wszystkich zdalnych serwerów Model Context Protocol (MCP)(otwiera nowe okno) oraz narzędzi takich, jak generowanie obrazu(otwiera nowe okno), Interpreter kodu(otwiera nowe okno), i usprawnienia wyszukiwania plików(otwiera nowe okno). Narzędzia te są dostępne w przypadku naszych modeli rozumowania z serii GPT‑4o, GPT‑4.1 i OpenAI o. Modele o3 i o4-mini mogą teraz wywoływać narzędzia i funkcje bezpośrednio w ramach łańcucha myśli przy użyciu interfejsu Responses API, generując odpowiedzi bogatsze w kontekst i trafniejsze. Korzystanie z modeli o3 i o4-mini wraz z interfejsem Responses API pozwala zachować tokeny rozumowania do użycia w różnych żądaniach i wywołaniami narzędzi, Poprawia to inteligencję modelu oraz zmniejsza koszty i opóźnienia dla programistów.

Wprowadzamy również nowe funkcje interfejsu Responses API, które zwiększają niezawodność, widoczność i prywatność dla przedsiębiorstw i programistów. Obejmują one tryb tła(otwiera nowe okno) do asynchronicznego i bardziej niezawodnego wykonywania zadań działających przez długi czas, wsparcie dla podsumowania rozumowania(otwiera nowe okno) i wsparcie dla zaszyfrowanych elementów rozumowania(otwiera nowe okno)

Od wydania interfejsu Responses API w marcu 2025 roku z narzędziami takimi jak wyszukiwanie w sieci, wyszukiwanie plików i obsługa komputera setki tysięcy programistów użyło interfejsu API do przetworzenia bilionów tokenów przy użyciu naszych modeli. Klienci skorzystali z interfejsu API do stworzenia różnych aplikacji agentowych, w tym agent kodowania Zencoder(otwiera nowe okno), agent do analiz rynkowych w zakresie private equity i bankowości inwestycyjnej Revi(otwiera nowe okno) i asystenci edukacyjni MagicSchool AI(otwiera nowe okno). Wszystkie one używają wyszukiwania w sieci do pobierania odpowiednich i aktualnych informacji do swojej aplikacji. Teraz programiści mogą tworzyć agenty, które są jeszcze bardziej przydatne i niezawodne dzięki udostępnionym dzisiaj nowym narzędziom i funkcjom.

Nowa obsługa zdalnego serwera MCP

Dodajemy obsługę zdalnych serwerów MCP(otwiera nowe okno) przez interfejs Responses API, opierając się na udostępnieniu wsparcia MCP w zestawie Agents SDK(otwiera nowe okno). MCP to otwarty protokół, który standaryzuje sposób, w jaki aplikacje dostarczają kontekst modelom LLM. Dzięki obsłudze serwerów MCP przez interfejs Responses API programiści będą mogli łączyć nasze modele z narzędziami na dowolnym serwerze MCP przy użyciu zaledwie kilku wierszy kodu. Oto kilka przykładów pokazujących, jak programiści mogą obecnie korzystać ze zdalnych serwerów MCP przy użyciu interfejsu Responses API:

Python

1
response = client.responses.create(
2
model="gpt-4.1",
3
tools=[{
4
"type": "mcp",
5
"server_label": "shopify",
6
"server_url": "https://pitchskin.com/api/mcp",
7
}],
8
input="Add the Blemish Toner Pads to my cart"
9
)

The Blemish Toner Pads have been added to your cart! You can proceed to checkout here:

Pitch. Skin checkout page showing express options (Shop Pay, PayPal, G Pay), contact and delivery form fields, and an order summary for one ‘Blemish Toner Pads 200 mL (120 pads)’ priced at AUD $49.

Popularne zdalne serwery MCP to między innymi Cloudflare(otwiera nowe okno), HubSpot(otwiera nowe okno), Intercom(otwiera nowe okno), PayPal(otwiera nowe okno), Plaid(otwiera nowe okno), Shopify(otwiera nowe okno), Stripe(otwiera nowe okno), Square(otwiera nowe okno), Twilio(otwiera nowe okno), Zapier(otwiera nowe okno) i nie tylko. Spodziewamy się, że w najbliższych miesiącach ekosystem zdalnych serwerów MCP będzie szybko się rozwijał, ułatwiając programistom tworzenie zaawansowanych agentów, które będą mogły łączyć się z narzędziami i źródłami danych, z których już korzystają użytkownicy. Aby jak najlepiej wspierać ekosystem i przyczynić się do rozwoju tego standardu, firma OpenAI dołączyła również do komitetu kierującego MCP.

Aby dowiedzieć się, jak uruchomić własny serwer MCP, zapoznaj się z przewodnikiem Cloudflare(otwiera nowe okno). Aby dowiedzieć się, jak używać narzędzia MCP z interfejsem Responses API, zapoznaj się z tym przewodnikiem(otwiera nowe okno) w API Cookbook.

Aktualizacje generowania obrazu, Interpretera kodu, i wyszukiwania plików

Dzięki narzędziom wbudowanym udostępnianym przez interfejs Responses API programiści mogą łatwo tworzyć agenty o większych możliwościach przy użyciu tylko jednego wywołania API. Dzięki wywoływaniu wielu narzędzi podczas rozumowania modele osiągają teraz znacznie wyższą wydajność wywoływania narzędzi w standardowych testach porównawczych, takich jak Humanity’s Last Exam (źródło). Dzisiaj dodajemy nowe narzędzia, w tym:

  • Generowanie obrazu: Oprócz używania interfejsu Images API(otwiera nowe okno), programiści mają teraz dostęp do najnowszego modelu generowania obrazugpt-image-1— jako narzędzia udostępnianego przez interfejs Responses API. To narzędzie obsługuje strumieniowanie w czasie rzeczywistym, umożliwiając programistom podgląd obrazu w trakcie jego generowania, oraz edycję wieloturową, dzięki czemu programiści mogą wydawać modelowi polecenia szczegółowego poprawiania obrazów krok po kroku. Więcej informacji(otwiera nowe okno).
  • Interpreter kodu: Programiści mogą teraz używać narzędzia Code Interpreter(otwiera nowe okno) udostępnianego przez interfejs Responses API. To narzędzie jest przydatne do analizy danych, rozwiązywania złożonych problemów matematycznych i programowania oraz pomaga modelom w dokładnym zrozumieniu obrazów i manipulowaniu nimi (na przykład myślenie przy użyciu obrazów). Zdolność modeli, takich jak o3 i o4-mini, do korzystania z narzędzia Interpreter kodu w ramach łańcucha myśli zaowocowała poprawą wyników w kilku testach porównawczych, w tym Humanity’s Last Exam (źródło). Więcej informacji(otwiera nowe okno).
  • Wyszukiwanie plików Programiści mogą teraz uzyskiwać dostęp do narzędzia wyszukiwanie plików(otwiera nowe okno) z poziomu naszych modeli rozumowania. Wyszukiwanie plików umożliwia programistom pobieranie odpowiednich fragmentów dokumentów do kontekstu modelu na podstawie zapytania użytkownika. Wprowadzamy również aktualizacje narzędzia do wyszukiwania plików, które umożliwiają programistom wyszukiwanie w wielu bazach danych wektorów oraz obsługują filtrowanie atrybutów przy użyciu tablic. Więcej informacji(otwiera nowe okno).

Nowe funkcje udostępniane przez interfejs Responses API

Oprócz nowych narzędzi dodajemy również obsługę nowych funkcji w interfejsie Responses API, w tym:

  • Tryb tła: Jak można zauważyć w przypadku produktów agentowych, takich jak Codex, głębokie badanie i Operator, rozwiązanie złożonych problemów przez modele rozumowania może potrwać kilka minut. Programiści mogą teraz korzystać z trybu tła, aby tworzyć podobne rozwiązania w przypadku modeli takich jak o3 bez martwienia się o limity czasu lub inne problemy z łącznością — w trybie tła zadania te są uruchamiane asynchronicznie. Programiści mogą odpytywać te obiekty w celu sprawdzenia, czy zostały ukończone, albo rozpocząć strumieniowanie zdarzeń, gdy tylko aplikacja będzie musiała zaktualizować stan. Więcej informacji(otwiera nowe okno).

Python

1
response = client.responses.create(
2
model="o3",
3
input="Write me an extremely long story.",
4
reasoning={ "effort": "high" },
5
background=True
6
)
  • Podsumowania rozumowania: Interfejs Responses API może teraz generować zwięzłe i sformułowane w języku naturalnym podsumowania wewnętrznego łańcucha myśli modelu podobne do tych, które można zobaczyć w ChatGPT. Ułatwia to programistom debugowanie, audytowanie i tworzenie lepszych rozwiązań dla użytkowników końcowych. Podsumowania rozumowania są dostępne bez dodatkowych kosztów. Więcej informacji(otwiera nowe okno).

Python

1
response = client.responses.create(
2
model="o4-mini",
3
tools=[
4
{
5
"type": "code_interpreter",
6
"container": {"type": "auto"}
7
}
8
],
9
instructions=(
10
"You are a personal math tutor. "
11
"When asked a math question, run code to answer the question."
12
),
13
input="I need to solve the equation `3x + 11 = 14`. Can you help me?",
14
reasoning={"summary": "auto"}
15
)
  • Szyfrowane elementy rozumowania: Klienci kwalifikujący się do nieprzechowywania danych(otwiera nowe okno) mogą teraz ponownie używać elementów rozumowania w różnych żądaniach API — bez elementów rozumowania przechowywanych na serwerach OpenAI. W przypadku modeli takich jak o3 i o4-mini ponowne użycie elementów rozumowania w różnych wywołaniach funkcji zwiększa inteligencję, zmniejsza zużycie tokenów i zwiększa współczynnik trafień w pamięci podręcznej, co przekłada się na niższe koszty i opóźnienia. Więcej informacji.

Python

1
response = client.responses.create(
2
model="o3",
3
input="Implement a simple web server in Rust from scratch.",
4
store=False,
5
include=["reasoning.encrypted_content"]
6
)

Cennik i dostępność

Wszystkie te narzędzia i funkcje są teraz udostępniane przez interfejs Responses API obsługiwany przez nasze modele rozumowania z serii GPT‑4o, GPT‑4.1 oraz OpenAI o-series (o1, o3, o3‑mini i o4-mini). Generowanie obrazów jest obsługiwane tylko przez modele o3 z naszej serii modeli rozumowania. 

Ceny istniejących narzędzi pozostają bez zmian. Generowanie obrazów kosztuje 5,00 USD za 1 mln tokenów wejściowych w postaci tekstu, 10,00 USD za 1 mln tokenów wejściowych w postaci obrazów i 40,00 USD za 1 mln tokenów wyjściowych w postaci obrazów z 75% zniżką na tokeny danych wejściowych z pamięci podręcznej. Interpreter kodu kosztuje 0,03 USD za kontener. Wyszukiwanie plików kosztuje 0,10 USD/GB przechowywania wektorów za dzień i 2,50 USD/1 tysiąc wywołań narzędzi. Wywołanie zdalnego narzędzia serwera MCP jest bezpłatne — opłata dotyczy wyłącznie tokenów wyjściowych z interfejsu API. Więcej informacji na temat cennika(otwiera nowe okno) zawiera nasza dokumentacja. 

Ciekawi nas, co zbudujesz.