メインコンテンツにスキップ
OpenAI

2025年10月6日

製品

AgentKit が登場

エージェントを構築・展開・最適化する新しいツール。

読み込んでいます...

本日リリースする AgentKit は、開発者や企業がエージェントを構築・展開・最適化するためのツールをすべて完備したツールセットです。これまで、エージェントの構築には、バージョン管理のない複雑なオーケストレーション、カスタムコネクター、手動での評価パイプライン、プロンプトのチューニング、リリース前の数週間に及ぶフロントエンド作業など、多数のバラバラのツールを巧みに組み合わせる必要がありました。AgentKit では、開発者が次の新しい構成要素を使用してワークフローを視覚的に設計し、エージェント型 UI の埋め込み作業を高速化できます。

  • Agent Builder:マルチエージェントワークフローの作成とバージョン管理のためのビジュアル canvas
  • Connector Registry:管理者が OpenAI の製品間でデータとツールを接続する方法を管理できる一元的な場所
  • ChatKit:カスタマイズ可能なチャットベースのエージェント型エクスペリエンスを製品に組み込むためのツールキット

データセット、採点のトレース、自動プロンプト最適化、サードパーティモデルのサポートなどの新機能によって評価機能を拡張し、エージェントのパフォーマンスを測定および改善します。

3月の Responses API および Agents SDK のリリース以来、開発者や企業が deep research や顧客サポートなどに、エンドツーエンドのエージェント型ワークフローを構築しているのを見てきました。Klarna はチケット全体の3分の2を処理するサポートエージェントを構築し、Clay はセールスエージェントを活用して10倍の成長を実現しました。AgentKit は Responses API を基盤に構築され、開発者によるエージェントの構築を効率化し、信頼性を向上させます。

Agent Builder によるワークフローの設計

エージェントのワークフローの複雑化が進むにつれ、開発者はエージェントの動作をより明確に把握する必要が出てきます。Agent Builder(新しいウィンドウで開く) には、ドラッグアンドドロップノード、接続ツール、カスタムガードレールの構成を使用してロジックを作成できるビジュアル canvas があります。プレビューの実行、インライン評価の構成、そして詳細なバージョン管理に対応しているため、高速の反復処理に最適です。

ビジュアルビルダーツールでの顧客サービス自動化フローのインターフェースビュー。「開始」、「ジェイルブレイクガードレール」、「分類エージェント」、「If/else」、「リターンエージェント」、「保持エージェント」、「情報エージェント」、「ハルシネーションガードレール」、「終了」とラベル付けされ、接続されたノードが表示された canvas。左側のサイドバーには、エージェント、メモ、ファイル検索、ガードレール、MCP、ユーザー承認などの利用可能なノードタイプが一覧表示されている。上部のコントロールには、評価、コード、プレビュー、公開のオプション。

ビルダーは、空白のcanvas または事前構築済みのテンプレートから開始できます。

Ramp は、空白の canvas から調達エージェントをわずか数時間で作り出しました。

「Agent Builder により、これまで数か月かかっていた複雑なオーケストレーション、カスタムコード、手動による最適化を、わずか数時間で完了できるようになりました。ビジュアル canvas により、製品、法務、エンジニアリングの連携が強化され、反復サイクルが70%短縮されました。エージェントが2四半期ではなく2スプリントで稼働できます」
- Ramp

日本の大手テクノロジー、またインターネットサービス企業である LINE ヤフー株式会社も同様に、Agent Builder を使用して2時間弱で作業アシスタントエージェントを構築しました。

「Agent Builder のおかげで、まったく新しい方法でエージェントをオーケストレーションできるようになりました。エンジニアと各分野の専門家たちが単一のインターフェースで連携できるのです。私たちは最初のマルチエージェントワークフローを構築し、2時間弱で実行にこぎ着けました。エージェントの作成と展開にかかる時間が大幅に短縮されました」
- LINE ヤフー株式会社

さらに、企業が複数のワークスペースや組織にまたがるデータの維持管理に利用できる Connector Registry もリリースされます。Connector Registry(新しいウィンドウで開く) は、ChatGPT と API に拡がるデータソースを一つの管理者パネルに統合します。このレジストリには、Dropbox、Google Drive、Sharepoint、Microsoft Teams などの事前構築済みコネクターのすべてと、サードパーティの MCP が含まれます。

開発者は、Agent Builder でオープンソースのモジュール式安全レイヤー、ガードレール(新しいウィンドウで開く)を有効にすることで、意図しない動作や悪意のある動作からエージェントを保護することもできます。ガードレールは、PII のマスクやフラグ付けを行うことで、ジェイルブレイクを検出し、さらなる安全対策を適用できます。これにより、信頼性が高く安全なエージェントの構築と展開が容易になります。ガードレールは、スタンドアロンで、または Python(新しいウィンドウで開く) および JavaScript(新しいウィンドウで開く) 用のガードレールライブラリ経由でデプロイできます。

ChatKit でエージェント型チャット機能を埋め込む

エージェント用のチャット UI のデプロイは、ストリーミング回答の処理、スレッドの管理、モデルの思考の表示、人を惹きつけるチャット内体験の設計など、驚くほど複雑になることがあります。ChatKit では、製品に自然に溶け込めるチャットベースのエージェントを簡単に埋め込むことができます。アプリやウェブサイトに埋め込み、テーマやブランドに合わせてカスタマイズすることができます。

「ChatKit を利用することで、Canva の開発者コミュニティのサポートエージェント構築にかかる時間を2週間以上短縮でき、統合も1時間以内で完了しました。このサポートエージェントは、会話形式のエクスペリエンスにすることで、開発者がドキュメントを扱う方法を変革し、Canva 上でアプリや統合を簡単に構築できるようにします」
- Canva

ChatKit は、組織内ナレッジアシスタントや導入支援ガイドからカスタマーサポートやリサーチエージェントにいたるまで、さまざまなユースケースですでに活用されています。HubSpot(新しいウィンドウで開く) のカスタマーサポートエージェントはその一例です。

経費管理インターフェースが表示された Ramp プラットフォームのダッシュボード。メインパネルには、ユーザーの Daniel への挨拶が表示されており、航空会社、ライドシェア、ソフトウェアなどの最近の経費とともに、「ChatGPT Business のリクエスト」(レビュー待ち)や「HubSpot のリクエスト」(下書き)などのリクエストもリストアップされている。右側には、ChatGPT Business のソフトウェアリクエストフォームが開いており、2025年10月1日から2026年10月1日までの5シート、月額$125の詳細と、黄色の [リクエストを送信] ボタンが表示されている。

新しい Evals の機能でエージェントのパフォーマンスを測定する

信頼性が高く、本番環境に対応したエージェントを構築するには、厳密なパフォーマンス評価が必要です。昨年、開発者によるプロ​​ンプトのテスト、モデルの動作の測定を可能にする、Evals(新しいウィンドウで開く) がリリースされました。この度、評価をさらに簡単に構築できるようにする4つの新機能が追加されました。

  • データセット - エージェント評価をゼロからすばやく構築し、自動化されたグレーダーと人間によるアノテーションを使用して、時間をかけて拡張します。
  • 採点のトレース - エージェント型ワークフローのエンドツーエンドの評価を実行し、採点を自動化して弱点を正確に特定します。
  • プロンプトの自動最適化 - 人間によるアノテーションとグレーダーの出力に基づいて、改善されたプロンプトを生成します。
  • サードパーティーモデルのサポート - OpenAI Evals プラットフォーム内で他のプロバイダーのモデルを評価します。

Evals を使用しているユーザーの多くは、すでに大幅なパフォーマンスの向上を実感していると確認されています。

「評価プラットフォームにより、マルチエージェントのデューデリジェンスフレームワークの開発時間が50%以上短縮され、エージェントの精度が30%向上しました」
- Carlyle
評価、トーン、フィードバック、精度の列を含むデータセットテーブルを表示したインターフェース。行には、親指を立てたアイコンまたは親指を下げたアイコンや、プロフェッショナル、フレンドリー、失礼、悪いなどのトーンを示すタグ、また3.5のスコアで合格または不合格のラベルが付いた精度結果のエントリが表示されている。上部のツールバーには、「アップロード」、「列」、「グレード」、「出力の生成」、「保存」のオプションが表示されている。

ファインチューニング強化によってエージェントパフォーマンスを向上する

ファインチューニング強化(新しいウィンドウで開く)(RFT)により、開発者はリーズニングモデルをカスタマイズできます。この機能は OpenAI o4-mini で一般提供されており、GPT‑5 のプライベートベータ版でも利用可能です。当社では、より広範囲にリリースする前に、数十社の顧客と緊密に協力して GPT‑5 の RFT の改良に取り組んでいます。

本日、エージェントパフォーマンスをさらに向上させるために設計された RFT ベータ版の2つの新機能をご紹介します。

  • カスタムツールの呼び出し - 適切なタイミングで適切なツールを呼び出すようにモデルを学習させ、推論を強化します。 
  • カスタムグレーダー - ユースケースで最も重視される項目に対するカスタム評価基準を設定します。

料金と提供状況

本日より、ChatKit と新しい Evals の機能をすべての開発者に一般提供します。Agent Builder はベータ版で利用可能です。Connector Registry は、一部の API、ChatGPT Enterprise、および Edu のお客様に対し、ベータ版での展開が開始されています。ただし、グローバル管理者コンソール(グローバル所有者がドメイン、SSO、複数の API 組織を管理できるコンソール)(新しいウィンドウで開く)を使用していることが、Connector Registry を有効にするための前提条件です。これらのツールはすべて標準 API モデルの料金に含まれています。

近日、ChatGPT にスタンドアロンの Workflow API とエージェントのデプロイオプションを追加する予定です。

これから皆さまがどのような構築を形にされていくのか、心から楽しみにしています。

著者

OpenAI