2025年3月11日

エージェント構築のための新しいツール

当社は、開発者や企業が有用で信頼できるエージェントを構築できるよう、プラットフォームを進化させています。

流れるようなブルーの抽象的な背景の上に、「triage_agent」、「guardrail」、「update_salesforce_record」など、AI エージェントのタスクリストを表示する洗練された最小限のインターフェイス。

本日、開発者と企業が有用で信頼できるエージェントを構築するのに役立つビルディングブロックの最初のセットをリリースします。私たちはエージェントを、ユーザーの代わりに独立してタスクを遂行するシステムとして捉えています。この1年で、高度な推論、マルチモーダルなインタラクション、新しい安全技術など、新しいモデル機能を導入し、エージェント構築に必要な複雑なマルチステップタスクを処理するモデルの基礎を築いてきました。しかし、お客様より、これらの機能を本番環境で使用可能なエージェントにすることは困難であり、多くの場合、十分な可視性や内蔵されたサポートがない中で、大規模なプロンプトの反復やカスタムのオーケストレーションロジックが必要になるというご意見が寄せられました。

これらの課題に対処するため、私たちはエージェント型アプリケーションの開発を簡素化するために特別に設計された新しい API とツールのセットを発表します。

新しい Responses API⁠（新しいウィンドウで開く）は、Chat Completions API のシンプルさと、エージェントを構築するためのアシスタント API のツール使用機能を組み合わせたものです。
ウェブ検索⁠（新しいウィンドウで開く）、ファイル検索⁠（新しいウィンドウで開く）、コンピューター使用⁠（新しいウィンドウで開く）などの内蔵ツール
シングルエージェントおよびマルチエージェントのワークフローをオーケストレーションする新しいエージェント SDK⁠（新しいウィンドウで開く）
エージェントのワークフロー実行をトレースし、検査するための統合された監視機能ツール⁠（新しいウィンドウで開く）

これらの新しいツールは、コアエージェントロジック、オーケストレーション、インタラクションを合理化し、開発者がエージェントの構築を開始するのを大幅に容易にします。今後数週間から数か月の間に、私たちのプラットフォーム上でエージェント型アプリケーションの構築をさらに簡素化し、高速化するための追加のツールや機能をリリースする予定です。

Responses API の紹介

Responses API は、エージェントを構築するために OpenAI のビルトインツールを活用するための新しい API プリミティブです。Chat Completions のシンプルさと、Assistants API のツール使用機能を兼ね備えています。モデル機能が進化し続けるにつれて、Responses API は、エージェント型アプリケーションを構築する開発者により柔軟な基盤を提供すると確信しています。1回の Responses API 呼び出しで、開発者は複数のツールとモデルターンを使用して、ますます複雑なタスクを解決できるようになります。

手始めに、Responses API はウェブ検索、ファイル検索、コンピューター使用といった新しい内蔵ツールをサポートします。これらのツールは、モデルを現実の世界につなげるために連動するように設計されており、タスクを完了する上でより有用なものとなっています。また、統一されたアイテムベースのデザイン、よりシンプルな多様性、直感的なストリーミングイベント、モデルのテキスト出力に簡単にアクセスするための response.output_text のような SDK ヘルパーなど、いくつかのユーザビリティの向上ももたらします。

Responses API は、複数の API や外部ベンダーを統合する複雑さを伴わずに、OpenAI のモデルや内蔵ツールをアプリに簡単に組み合わせたい開発者向けに設計されています。API は OpenAI にデータを保存することを容易にするため、開発者はトレースや評価などの機能を使用してエージェントのパフォーマンスを評価できます。注意点として、OpenAI にデータが保存されている場合でも、デフォルトではビジネスデータでモデルが学習することはありません。API は本日からすべての開発者が利用可能で、別途課金されることはありません。トークンやツールは、料金ページ⁠（新しいウィンドウで開く）で指定された標準料金で課金されます。詳細については、Responses API クイックスタートガイド⁠（新しいウィンドウで開く）をご参照ください。

既存の API にとっての意味

Chat Completions API⁠（新しいウィンドウで開く）：Chat Completions は現在も当社で最も広く採用している API であり、新しいモデルや機能によるサポートに全力を注いでいます。ビルトインツールを必要としない開発者は、自信を持って Chat Completions を使い続けることができます。ビルトインツールや複数のモデル呼び出しに依存しない機能に限り、Chat Completions の新しいモデルを引き続きリリースする予定です。ただし、Responses API は Chat Completions と同様の優れたパフォーマンスを持つ Chat Completions のスーパーセット⁠（新しいウィンドウで開く）のため、新しい統合の場合は Responses API から始めることをお勧めします。
Assistants API⁠（新しいウィンドウで開く）：Assistants API ベータ版に対する開発者のフィードバックに基づき、Responses API に主要な改善を組み込み、より柔軟で、より速く、より使いやすいものにしました。Assistant のようなオブジェクトや Thread のようなオブジェクト、コードインタープリターツールのサポートを含め、Assistants の機能と Responses API の機能を完全に同等にするよう取り組んでいます。これが完了したら、2026年半ばを目標に Assistants API の廃止を正式に発表する予定です。廃止となった場合、開発者がすべてのデータを保持し、アプリケーションを移行できるように、Assistants API から Responses API への明確な移行ガイドを提供します。正式に廃止を発表するまでは、Assistants API に新しいモデルを提供し続けます。Responses API は、OpenAI 上でエージェントを構築するための将来の方向性を示しています。

Responses API のビルトインツールの紹介

ウェブ検索

開発者はウェブから、明確で適切な引用が記載された、迅速かつ最新の回答を得ることができます。Responses API では、gpt-4o および gpt-4o-mini を使用する場合、ウェブ検索がツールとして利用でき、他のツールや関数呼び出しと組み合わせることができます。

JavaScript

1const response = await openai.responses.create({
2    model: "gpt-4o",
3    tools: [ { type: "web_search_preview" } ],
4    input: "What was a positive news story that happened today?",
5});
6
7console.log(response.output_text);

初期のテストでは、開発者がショッピングアシスタント、研究エージェント、旅行予約エージェントなど、ウェブからのタイムリーな情報を必要とするあらゆるアプリケーションを含む、さまざまなユースケースのためにウェブ検索を使って構築してきました。

例えば、Hebbia⁠（新しいウィンドウで開く）はウェブ検索ツールを活用し、資産運用会社、プライベートエクイティおよびクレジット会社、法律事務所が、膨大な公共および民間のデータセットから実用的な洞察を迅速に抽出できるよう支援しています。リアルタイム検索機能を検索ワークフローに統合することで、Hebbia はよりリッチでコンテキストに特化した市場インテリジェンスを提供し、分析の精度と関連性を継続的に向上させて、現在のベンチマークを上回る成果を実現しています。

API のウェブ検索は、ChatGPT search と同じモデルを使用しています。事実に基づいた短い質問に対する LLM の回答精度を評価するベンチマークである SimpleQA において、GPT‑4o 検索プレビューは90%、GPT‑4o ミニ検索プレビューは88%のスコアを獲得しました。

簡易 QA 精度（高いほど良い）

API のウェブ検索で生成された回答にはニュース記事やブログ記事などの情報源へのリンクが含まれ、より詳しい情報が得られるようになりました。このような明確なインライン引用によって、ユーザーは新たな方法で情報を活用でき、一方で、コンテンツ所有者はより多くの読者にリーチする新たな機会を得ることができます。

どのようなウェブサイトや出版社も、API のウェブ検索に表示されることを選択⁠（新しいウィンドウで開く）できます。

このウェブ検索ツールは、Responses API ですべての開発者がプレビューで利用できます。また、gpt-4o-search-preview と gpt-4o-mini-search-preview を通じて、Chat Completions API で微調整された検索モデルに開発者が直接アクセスできるようにしています。料金⁠（新しいウィンドウで開く）は GPT‑4o 検索が1000クエリーあたり $30、4o-mini 検索が $25ドルからです。Playground⁠（新しいウィンドウで開く）でウェブ検索をチェックし、私たちのドキュメント⁠（新しいウィンドウで開く）で詳細をご覧ください。

File Search

開発者は、改良されたファイル検索ツールを使用して、大量のドキュメントから関連情報を簡単に検索できるようになりました。複数のファイルタイプのサポート、クエリの最適化、メタデータのフィルタリング、カスタムの再ランク付けにより、高速で正確な検索結果を提供できます。また、Responses API を使えば、わずか数行のコードで統合できます。

JavaScript

1const productDocs = await openai.vectorStores.create({
2    name: "Product Documentation",
3    file_ids: [file1.id, file2.id, file3.id],
4});
5
6const response = await openai.responses.create({
7    model: "gpt-4o-mini",
8    tools: [{
9        type: "file_search",
10        vector_store_ids: [productDocs.id],
11    }],
12    input: "What is deep research by OpenAI?",
13});
14
15console.log(response.output_text);

このファイル検索ツールは、お客様サポート担当者が FAQ に簡単にアクセスできるようにしたり、法務アシスタントが資格のある専門家のために過去の事例を素早く参照できるようにしたり、コーディング担当者が技術文書を照会できるようにしたりするなど、実世界でのさまざまなユースケースに使用できます。例えば、Navan⁠（新しいウィンドウで開く）は AI を搭載した旅行代理店でファイル検索を使い、知識ベースの記事（会社の旅行規定など）から的確な回答を素早くユーザーに提供します。内蔵のクエリ最適化と再ランク付けにより、余分なチューニングや設定をすることなく、強力な RAG（検索拡張生成）パイプラインを設定できます。各ユーザーグループ専用のベクターストアにより、Navan は個々のアカウント設定やユーザーの役割に合わせて回答を調整することができ、お客様とそのスタッフの時間を節約しながら、正確でパーソナライズされたサポートを提供することができます。

このツールは、すべての開発者が Responses API で利用できます。利用料金⁠（新しいウィンドウで開く）は1000クエリーあたり $2.50、ファイルストレージは1日あたり $0.10/GBで、最初の1GBは無料です。このツールは、Assistants API で引き続き利用可能です。最後に、Vector Store API オブジェクトに新しい検索エンドポイントを追加し、他のアプリケーションや API で使用するためにデータを直接クエリできるようになりました。ドキュメント⁠（新しいウィンドウで開く）で詳細を確認して、Playground⁠（新しいウィンドウで開く）でテストを開始してください。

コンピューターの使用

コンピュータ上でタスクを完了できるエージェントを構築するために、開発者は Operator を利用可能にする Computer-Using Agent（CUA）モデルを活用した Responses API でコンピュータ使用ツールを使用できるようになりました。この研究プレビューモデルは、OSWorld⁠（新しいウィンドウで開く）で38.1％、WebArena⁠（新しいウィンドウで開く）で58.1％、WebVoyager⁠（新しいウィンドウで開く）で87％の成功を収め、ウェブベースの会話で最先端の記録を打ち立てました。

内蔵のコンピューター使用ツールは、モデルによって生成されたマウスとキーボードのアクションをキャプチャし、開発者がこれらのアクションを環境内で実行可能なコマンドに直接変換することによって、コンピューター使用タスクの自動化を可能にします。

JavaScript

1const response = await openai.responses.create({
2    model: "computer-use-preview",
3    tools: [{
4        type: "computer_use_preview",
5        display_width: 1024,
6        display_height: 768,
7        environment: "browser",
8    }],
9    truncation: "auto",
10    input: "I'm looking for a new camera. Help me find the best one.",
11});
12
13console.log(response.output);

開発者は、このコンピューター使用ツールを使って、ウェブアプリケーションの品質保証の実行や、レガシーシステム間でのデータ入力タスクの実行など、ブラウザーベースのワークフローを自動化できます。例えば、Unify⁠（新しいウィンドウで開く）は、エージェントを使用して意図を特定し、アカウントを調査し、バイヤーと関わる、収益拡大のためのアクションシステムです。OpenAI のコンピューター使用ツールを使うことで、Unify のエージェントは、以前は API 経由でアクセスできなかった情報にアクセスできるようになります。例えば、不動産管理会社では、ある企業が不動産面積を拡大したかどうかをオンライン地図で確認できるようになります。この研究は、パーソナライズされたアウトリーチの引き金となるカスタムシグナルとして機能します。これにより市場開拓チームは、正確かつ大規模にバイヤーを引き込むことができるようになります。

もう一つの例として、Luminai⁠（新しいウィンドウで開く）は、API の可用性と標準化されたデータを持たないレガシーシステムを持つ大企業の複雑な業務ワークフローを自動化するために、コンピューター使用ツールを統合しました。大手コミュニティサービス組織との最近のパイロット計画では、Luminai は申請処理とユーザー登録プロセスをわずか数日で自動化しました。これは従来のロボットによる業務自動化（RPA）では数か月かかっても達成できなかったことです。

昨年、Operator における CUA を発売する前に、私たちは大規模な安全性テストとレッドチーム編成を行い、誤用、モデルエラー、フロンティアリスクという3つの主要な分野のリスクに取り組みました。API における CUA を通じてローカルオペレーティングシステムに Operator の機能を拡張することに関連するリスクに対処するため、追加の安全性評価とレッドチーム編成を実施しました。また、プロンプトインジェクションを防ぐ安全性チェック、機密性の高いタスクに対する確認プロンプト、開発者の環境分離を支援するツール、潜在的なポリシー違反の検出強化など、開発者向けの緩和策も追加しました。これらの対策はリスク軽減に役立ちますが、特に非ブラウザー環境では、このモデルはまだ不注意によるミスの影響を受けやすいものです。例えば、実世界のタスクにおける AI エージェントのパフォーマンスを測定するために設計されたベンチマークである OSWorld における CUA のパフォーマンスは、現在のところ38.1% であり、オペレーティングシステム上のタスクを自動化するモデルとしては、まだ信頼性が高くないことを示しています。このようなシナリオでは、人間による監視が推奨されます。API に特化した安全性確保に関する詳細は、最新の System Card をご覧ください。

ベンチマークの種類	ベンチマーク	コンピューターの使用（ユニバーサルインターフェイス）		ウェブブラウジングエージェント	人間
		OpenAI CUA	以前の SOTA	以前の SOTA
コンピューターの使用	OSWorld	38.1%	22.0%	-	72.4%
ブラウザーの使用	WebArena	58.1%	36.2%	57.1%	78.2%
ブラウザーの使用	WebVoyager	87.0%	56.0%	87.0%	-

評価の詳細はこちらに掲載しています

本日より、Responses API の研究プレビューとして、使用ティア3～5⁠（新しいウィンドウで開く）の一部の開発者向けにコンピューター使用ツールが提供されます。利用料金⁠（新しいウィンドウで開く）は、100万入力トークンあたり $3、100万出力トークンあたり $12です。詳しくはドキュメント⁠（新しいウィンドウで開く）をご覧ください。また、このツールで構築する方法を説明したサンプルアプリケーション⁠（新しいウィンドウで開く）もご覧ください。

エージェント SDK

エージェントのコアロジックを構築し、便利なツールにアクセスできるようにするだけでなく、開発者はエージェントのワークフローをオーケストレーションする必要があります。新しいオープンソースの Agents SDK は、マルチエージェントワークフローのオーケストレーションを簡素化し、Swarm⁠（新しいウィンドウで開く）に大幅な改善をもたらします。これは私たちが昨年リリースした実験的な SDK であり、開発者コミュニティで広く採用され、複数のお客様が導入に成功しました。

改善点は以下の通りです：

エージェント：分かりやすい説明と内蔵ツールで、簡単に設定可能な LLM です。
ハンドオフ：エージェント間でインテリジェントに制御を移行します。
ガードレール：入力および出力検証のための設定可能な安全性チェックです。
トレースおよび監視機能：エージェントの実行トレースを視覚化して、デバッグとパフォーマンスの最適化を行います。

Python

1from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2
3@function_tool
4def submit_refund_request(item_id: str, reason: str):
5    # Your refund logic goes here
6    return "success"
7
8support_agent = Agent(
9    name="Support & Returns",
10    instructions="You are a support agent who can submit refunds [...]",
11    tools=[submit_refund_request],
12)
13
14shopping_agent = Agent(
15    name="Shopping Assistant",
16    instructions="You are a shopping assistant who can search the web [...]",
17    tools=[WebSearchTool()],
18)
19
20triage_agent = Agent(
21    name="Triage Agent",
22    instructions="Route the user to the correct agent.",
23    handoffs=[shopping_agent, support_agent],
24)
25
26output = Runner.run_sync(
27    starting_agent=triage_agent,
28    input="What shoes might work best with my outfit so far?",
29)

Agents SDK は、カスタマーサポートの自動化、マルチステップ研究、コンテンツ生成、コードレビュー、売上予想など、さまざまな実世界のアプリケーションに適しています。例えば、Coinbase⁠（新しいウィンドウで開く）はエージェント SDK を使用して、AI エージェントが暗号資産ウォレットや様々なオンチェーン活動とシームレスに対話できるツールキットである AgentKit を迅速にプロトタイプ化して展開しました。わずか数時間で、Coinbase は自社の開発者プラットフォーム SDK のカスタムアクションを、完全に機能するエージェントに統合しました。AgentKit の最新式のアーキテクチャは、新しいエージェントのアクションを追加するプロセスを簡素化し、開発者は複雑なエージェントの設定を操作することよりも、有意義な統合に集中することができます。

Box ⁠（新しいウィンドウで開く）は数日で、ウェブ検索とエージェント SDK を活用するエージェントを迅速に作成し、企業が検索、クエリ、そして Box 内や公共のインターネットソースに保存された非構造化データから洞察を抽出することを可能にしました。このアプローチにより、ユーザーは最新情報にアクセスできるだけでなく、社内の権限やセキュリティポリシーに従った安全でセキュアな方法で、社内の独自データを検索することができるようになります。例えば、ある金融サービス会社は、Box AI エージェントを呼び出すカスタムエージェントを構築することで、Box に保存されている社内の市場分析をウェブからのリアルタイムのニュースや経済データと統合し、アナリストに投資判断のための包括的な見解を提供できるようにしています。

エージェント SDK は Responses API および Chat Completions API と連携します。SDK は、Chat Completions スタイルの API エンドポイントを提供する限り、他のプロバイダからのモデルでも動作します。開発者は即時に Python コードベースに統合することができ、Node.js のサポートも間もなく利用可能です。詳細については、ドキュメント⁠（新しいウィンドウで開く）をご覧ください。

エージェント SDK を設計するにあたり、当社チームは Pydantic⁠（新しいウィンドウで開く）、Griffe⁠（新しいウィンドウで開く）、MkDocs⁠（新しいウィンドウで開く）を含むコミュニティの他の人々の素晴らしい取り組みに触発されました。コミュニティの他の人々が私たちのアプローチを拡張できるように、オープンソースのフレームワークとしてエージェント SDK を引き続き構築していくことをお約束します。

次の課題：エージェントのためのプラットフォーム構築

私たちは、エージェントが近い将来、労働力として不可欠な存在となり、業界全体の生産性を大幅に向上させると確信しています。企業が複雑なタスクに AI を活用しようとする傾向が強まるなか、当社は、開発者や企業が実世界にインパクトをもたらす自律型システムを効果的に構築できるような基礎的要素を提供することに尽力しています。

本日のリリースでは、開発者や企業が信頼性が高く、パフォーマンスの高い AI エージェントをより簡単に構築、展開、拡張できるようにするための最初のビルディングブロックを紹介します。モデル機能がますますエージェントに近づくにつれて、私たちは API 全体のより深い統合と、本番環境でのエージェントの展開、評価、最適化を支援する新しいツールへの投資を続けていきます。私たちのゴールは、あらゆる業界のさまざまなタスクを支援するエージェントを構築するためのシームレスなプラットフォーム体験を開発者に提供することです。開発者が次に何を構築するかを楽しみにしています。まずはドキュメント⁠（新しいウィンドウで開く）をご覧のうえ、更新についての続報をお待ちください。

著者

OpenAI