ChatGPT エージェントが登場:研究とアクションをつなぐ新たな架け橋
ChatGPT は今や、自ら思考して行動し、タスク達成のために必要なエージェントスキルを自律的に選択するようになりました。
独自のコンピューターを使用して作業を行い、複雑なタスクを一貫して処理できるようになりました。
たとえば「カレンダーを確認して、最近のニュースに基づき今後のクライアントとの会議について説明してほしい」、「4人分の和朝食を作るための献立を立てて、材料を購入してほしい」、「競合他社3社を分析してスライドショーを作成してほしい」といったリクエストを試すことができます。ChatGPT はウェブサイト内をインテリジェントに操作して、結果をフィルタリング。必要に応じて安全なログインを促し、コードと分析を実行します。さらに、調査結果を要約した編集可能なスライドやスプレッドシートまで提供します。
この新しい機能を支えているのは、一体型のエージェントシステムです。従来の革新的な技術の3つの強みが融合されています。具体的には、Operator によるウェブサイトとの対話機能、deep research による情報統合のスキル、ChatGPTのインテリジェンスと会話能力です。
ChatGPT は独自の仮想コンピューターを使用してこれらのタスクを実行し、推論とアクションをスムーズに切り替えながら、複雑なワークフローを最初から最後まであなたの指示に従って進めます。
何よりも大切なのは、常にユーザーがコントロールできるという点です。ChatGPT は結果に影響するアクションを実行する前に許可を求めるため、いつでも処理を中断したり、ブラウザーの操作を引き継いだり、タスクを終了させることができます。
本日から、Pro、Pro、Team ユーザーは、会話の途中でもコンポーザーのツールドロップダウンから「エージェントモード」を選択することで、ChatGPT の新しいエージェント機能を直接有効にできます。
ChatGPT エージェントは、すでに複雑なタスクをこなす強力なツールですが、本日のリリースはまだ始まりにすぎません。今後も定期的に大幅な改善を加えながら、時間をかけてより多くの人にとって有用で使いやすいものにしていきます。
これまで、Operator と deep research はそれぞれ独自の強みを持っていました。Operator はウェブ上でスクロールやクリック、入力といった操作ができ、deep research は情報の分析や要約に秀でていました。ただし、それぞれが最も力を発揮する場面は異なっていました。Operator では、詳細な分析やレポート作成には限界があり、deep research ではウェブサイトと対話しながら結果を絞り込んだり、ユーザー認証が必要な情報にアクセスしたりすることができませんでした。実際、ユーザーが Operator で実行したクエリの多くが deep research に適していたことから、当社は両者の強みを融合する方針をとりました。
互いに補完し合う強みを ChatGPT に統合し、新たなツールを組み込むことで、1つのモデル内にまったく新しい機能を実現しました。これにより、クリックやフィルターの適用などを通じて、ウェブサイトとより能動的に関わりながら、正確かつ効率的に情報を取得できるようになりました。1つのチャット内で、会話からアクション依頼へと自然に移行することも可能です。
ChatGPT エージェントには、グラフィックによるユーザーインターフェースを介してウェブと対話するビジュアルブラウザー、シンプルな推論ベースのクエリに適したテキストブラウザー、さらには API への直接アクセスなど、あらゆるツールが搭載されています。エージェントは ChatGPT コネクター(新しいウィンドウで開く)も利用でき、Gmail や GitHub のようなアプリと接続することで、プロンプトに関連する情報を取得し、それを回答に反映させることができます。ブラウザー操作を引き継がせることで、あらゆるウェブサイトにログインすることも可能です。これにより、より深く、より広範囲にわたって研究やタスクの実行が可能になります。ChatGPT が複数の方法でウェブにアクセスして対話できるようにすることで、状況に応じて最も効率的な方法でタスクを遂行できるようになります。たとえば、API を通じてユーザーのカレンダー情報を取得したり、テキストベースのブラウザーを使って大量のテキストを効率的に推論したりできます。さらに、人間向けに設計されたウェブサイトと視覚的に対話する能力も備えています。
これらすべては、ChatGPT 独自の仮想コンピューター上で実行されます。この仮想コンピューターは、複数のツールを併用する場合でも、タスクに必要なコンテキストを保持します。たとえば、モデルはテキストブラウザーまたはビジュアルブラウザーを使ってページを開いたり、ウェブからファイルをダウンロードして、ターミナルでコマンドを実行して加工し、その出力結果をビジュアルブラウザーで表示するといった操作も行えます。このモデルは、タスクを迅速かつ正確、効率的に遂行するために、アプローチを柔軟に変化させます。
ChatGPT エージェントは、繰り返し行われる協働作業に適したワークフロー向けに設計されており、従来のモデルに比べて格段に対話的かつ柔軟です。ChatGPT がタスクを実行中でも、途中で中断して指示を明確にしたり、期待する結果に近づけたり、タスク全体を変更したりすることが可能です。中断後も ChatGPT は前回の状態から再開でき、新しい情報を追加しても、それまでの進行状況が失われることはありません。さらに ChatGPT は、タスクがユーザーの目的に沿っているかを確認するため、必要に応じて自ら詳細情報を求める可能性があります。タスクに時間がかかりすぎたり、行き詰まった場合は、一時停止したり、進捗サマリーを尋ねたり、作業を打ち切って部分的な成果だけを受け取ることも可能です。スマートフォンに ChatGPT アプリをインストールしている場合、タスクの完了時に通知が送信されます。
これらの統合されたエージェント機能により、ChatGPT は日常や専門業務において、さらに有用性が高まります。職場では、スクリーンショットやダッシュボードをベクター要素で構成された編集可能なプレゼンテーション資料に変換したり、会議の再設定やオフサイトの計画・予約、フォーマットを保持したまま財務データを更新するなど、反復的なタスクを自動化できます。プライベートな利用シーンでは、旅程の計画・予約、ディナーパーティーの企画と予約、専門家の検索と面会予約などにも活用できます。
向上したモデルの性能は、ウェブブラウジングや現実世界のタスク遂行能力を測定する評価で、最先端(SOTA)の成果として表れています。
広範な主題にわたる専門レベルの質問で AI のパフォーマンスを測定する評価 Humanity’s Last Exam (人類最後の試験)(新しいウィンドウで開く)* では、ChatGPT エージェント搭載モデル がpass@1 で41.6を記録し、最高精度(SOTA)を達成しました。エージェントは動的にプランを立て、自ら適切なツールを選択するため、同じタスクであっても実行のたびに異なるアプローチを取ることができます。最大8回の試行を同時に実行し、自己申告による信頼度が最も高いものを選ぶというシンプルな並列ロールアウト戦略を適用して処理を拡大させたところ、エージェントの HLE スコアは44.4に向上しました。
FrontierMath** は、現在知られている中で最も難易度の高い数学ベンチマークであり、未発表の新しい問題が含まれています。専門の数学者でも解くのに数時間から数日かかることがあります。コード実行用のターミナルへのアクセスなど、ツールを活用することで、ChatGPT エージェントは27.4%の正解率を達成し、従来の両モデルを大きく上回る結果となりました。
モデルの評価に際しては、複雑な現実世界のタスクを模したベンチマークを使用しました。経済的価値の高い複雑な知的作業タスクにおけるモデル性能を評価するために設計された社内ベンチマークにおいて、ChatGPT エージェントの出力は、完了時間の長短に関係なく、約半数のケースで人間と同等またはそれ以上の結果を示しました。さらに、o3 およびo4-mini を大きく上回る性能を発揮しました。モデルの出力は、各分野のトップパフォーマーが作成した高品質な人間の基準と比較して、専門家によって評価されます。これらのタスクは、さまざまな職種や業界の専門家から提供されたもので、実際のビジネス現場における専門的な業務を反映しています。たとえば、オンデマンド型救急医療プロバイダーの競合分析の作成、詳細な償却スケジュールの作成、新しいグリーン水素施設向けの利用可能な井戸の特定などが含まれます。
DSBench(新しいウィンドウで開く) では、データ分析とモデリングにまたがる現実的なデータサイエンスのタスクでエージェントを評価するように設計されており、ChatGPT エージェントは、人間のパフォーマンスを大きく超える結果を示しました。
SpreadsheetBench では、現実世界のシナリオから作成されたスプレッドシートの編集機能に基づいてモデルが評価されますが、その評価において、ChatGPT エージェントは既存モデルを大きく上回る性能を示しました。スプレッドシートを直接編集できる環境では、ChatGPT エージェントは45.5%のスコアを記録し、Excel の Copilot の 20.0%をさらに上回りました。
手法:SpreadsheetBench の著者は、Microsoft Excel を使用した Windows 環境でスプレッドシートを評価しました。当社では OSX 環境および LibreOffice を使用しており、この違いにより評価結果に若干の差が生じている可能性があります。たとえば、著者は GPT‑4o の全体的なハード制限を15.02%と報告していますが、当社での測定値は13.38%でした。912問すべてを含む完全なベンチマークを使用しました。
また、フォーチュン500企業向けの財務モデルを適切な書式と出典で作成したり、非公開化のための LBO(レバレッジドバイアウト)モデルを構築したりするなど、1~3年目の投資銀行アナリストが行うモデリング業務に対する社内ベンチマークにおいても、ChatGPT エージェントを駆動するモデルは deep research や o3 を大きく上回る成果を上げました。各タスクは、正確性や数式の使用に関する数百項目の基準に基づいて評価されました。
さらに、今年初めに公開された、ウェブ上で見つけにくい情報を検索する能力を測る BrowseComp ベンチマークにおいて ChatGPT エージェントを評価しました。このモデルは deep research を17.4パーセントポイント上回る68.9%のスコアを記録し、SOTA を更新しました。
最後に、現実世界のウェブタスクを完了する際のブラウジングエージェントのパフォーマンスを評価するために設計された WebArena(新しいウィンドウで開く) ベンチマークでは、このモデルは o3 ベースの CUA(Operator を駆動するモデル)よりも優れたパフォーマンスを示しました。
ChatGPT の新しいエージェント機能は、会話の途中でも「エージェントモード」を選択し、コンポーザーのツールドロップダウンから直接有効にできます。実行したいタスクについて「deep research を行いたい」「スライドショーを作成したい」「経費を提出したい」といった説明をするだけで構いません。タスクの実行中は、画面上に ChatGPT の処理内容がナレーション形式で表示され、進行状況を確認できます。ユーザーはいつでも作業を中断してブラウザー操作を引き継ぐことができ、タスクが自身の目的に沿っているかを確認することが可能です。
ChatGPT エージェントはコネクターへのアクセスを通じて、ワークフローと統合しながら関連性の高い実用的な情報にアクセスできます。認証後は、コネクターが ChatGPT に情報を提供し、たとえば受信トレイの要約や会議出席可能な時間の検索などを行えます。ただし、実際にアクションを実行する場合は、ブラウザーが引き継がれ、ログインするよう促されます。
また、「毎週月曜日の朝に週次メトリクスレポートを自動で生成する」といった完了タスクを定期的に繰り返すようスケジュールすることもできます。
今回のリリースは、ChatGPT にウェブ上でのアクション実行を求められるようになった初めてのリリースです。これは新たなリスクを伴います。主な要因は、ChatGPTエージェントがコネクター経由で取得した情報や、テイクオーバ モードでログインしたウェブサイトの情報など、あなたのデータに直接アクセスして操作できるためです。当社では、Operator の研究プレビューで導入されていた堅牢な制御を強化し、公開中のウェブ上での機密情報の取り扱い、より広範なユーザー層への提供、(制限付きの)ターミナルのネットワークアクセスといった課題に対処するための安全対策も追加しました。これらの対応策によってリスクは大幅に軽減されていますが、ChatGPT エージェントの拡張ツールと、より広範なユーザー層への提供により、全体としてのリスクプロファイルは高まっています。
当社は特に、ChatGPT エージェントをプロンプトインジェクションによる悪意ある操作から保護することに重点を置いています。これは一般的にエージェント型システムに共通するリスクであり、それに対応するため、より広範な対策も準備しています。プロンプトインジェクションとは、ChatGPT エージェントがタスクの実行中にウェブ上で遭遇する可能性のある悪意ある指示を通じて、その挙動を第三者が操作しようとする試みです。たとえば、ウェブページ内に隠された悪意のあるプロンプト(不可視要素やメタデータの中など)が、エージェントをだまして意図しないアクションを取らせる可能性があります。具体的には、コネクターを通じて取得した個人データを攻撃者と共有したり、ユーザーがログイン済みのサイト上で有害なアクションを実行したりするケースです。ChatGPT エージェントは直接的なアクションを取ることができるため、攻撃が成功した場合の影響はより大きくなり、リスクも高まります。
プロンプトインジェクション攻撃を迅速に検知して対応するためのモニタリングの使用に加え、プロンプトインジェクションを識別して抵抗する能力についても学習とテストを行ってきました。実行前にユーザーの明示的な確認を求めることで、攻撃による被害のリスクをさらに軽減できます。また、ユーザーは必要に応じてタスクを引き継いだり、一時停止したりすることで介入することが可能です。ユーザーは、エージェントにどの情報を提供するかを判断する際に、これらのトレードオフを慎重に検討する必要があります。また、タスクに不要なコネクターを無効にするなど、リスクへの露出を最小限に抑えるための対策も講じる必要があります。
また、モデルが現実世界に影響を及ぼすタスクを実行できるようになったことを踏まえ、モデルの誤りに関する対策も導入しています。
- 明示的なユーザー確認:ChatGPT は、購入など現実世界に影響を及ぼす行動を取る前に、明示的に許可を求めるよう学習しています。
- アクティブな監督(「監視モード」):メール送信など一部の重大タスクには、あなたの積極的な監督が必要です。
- 積極的なリスク対応策:ChatGPT は、銀行送金など高リスクのタスクを積極的に拒否するよう学習しています。
最後に、モデルがアクセスできるデータを制限するための追加的な管理を導入しました。
- プライバシー管理:ChatGPT の設定からワンクリックで、すべての閲覧データを削除し、すべてのアクティブなウェブサイトセッションから即時にログアウトできます。それ以外の場合、cookies は訪問した各ウェブサイトのポリシーに基づいて保持され、再訪時の操作を効率化することがあります。
- 安全なブラウザーテイクオーバ モード:ChatGPT のブラウザーを使用してウェブとやり取りする際(「テイクオーバ モード」)、入力内容は外部に公開されません。ChatGPT は、セッション中に入力されたパスワードなどのデータを収集・保存しません。その理由は、モデルがそうしたデータを必要としないこと、そしてそもそも閲覧しない方が安全なためです。
モデルの能力向上に伴い、当社の Preparedness Framework において、ChatGPT エージェントを高度な生物学的・化学的能力と見なし、それに応じた安全対策を講じることを決定しました。現時点では、このモデルが専門的な知識を持たない個人による重大な生物学的危害の発生(当社が高度な能力と定義する基準)に実質的に寄与するという決定的な証拠は確認されていません。それでも当社は慎重な姿勢を取り、必要な安全対策を講じています。その結果、このモデルには、生物学に対する高度な保護策を備えた、これまでで最も包括的な安全対策が構築されています。具体的には、包括的な脅威モデリング、デュアルユース拒否トレーニング、常時稼働の分類器と推論モニター、明確な強制適用パイプラインが含まれます。
ChatGPT エージェントの安全性確保に取り組むと同時に、バイオセーフティーは単独の研究機関に依存せず、複数の層で構築されることで最大限の効果を発揮するとの認識から、エコシステム全体で連携し、防御の強化を図っています。当初から、外部のバイオセキュリティ専門家、安全性に関する研究機関、学術研究者と連携し、脅威モデル、リスク評価、ポリシーの策定に取り組んできました。生物学の訓練を受けたレビュアーが評価データを検証し、ドメインエキスパートのレッドチーム担当者が、現実的なシナリオのもとで安全対策の強度をテストしました。当社は今月、政府、学術機関、国立研究所、NGO の専門家とともに、バイオディフェンスに関するワークショップを開催しました。AI を活用したバイオディフェンス研究の推進と連携強化を加速することが目的です。今後も、世界中のパートナーと連携し、新たなリスクに先手を打って対応していきます。
統合されたエージェントモデルにおける安全性への検討なアプローチの詳細は、System Card をご覧ください。現実世界のリスクを発見し、是正するために、バグバウンティプログラムも開始します。
ChatGPT エージェントは本日より、Pro、Plus、Teamプランのユーザーへ段階的に展開されます。Pro ユーザーには本日中にアクセスを付与し、Plus および Team ユーザーには今後数日以内に順次ご提供する予定です。Enterprise および Education ユーザーには、数週間以内のご提供を予定しております。Pro ユーザーは月に400件のメッセージが利用可能で、その他の有料ユーザーは月に40件のメッセージを利用できます。必要に応じて柔軟なクレジットベースで追加使用が可能です。
欧州経済領域およびスイスでのアクセス提供に向けて、引き続き取り組んでおります。
Operator 研究プレビューサイトは今後数週間は引き続き利用可能ですが、その後に提供を終了する予定です。deep research は ChatGPT エージェントの一部として提供されます。従来の deep research 機能をご希望の場合は、処理に時間がかかる可能性がありますが、より詳細で徹底した回答をデフォルトで得られます。今まで通りアクセスするには、メッセージ作成ツールのドロップダウンから「deep research」を選択してください。
ChatGPT エージェントはまだ初期段階です。複雑なタスクをこなす能力は備えているものの、誤りを犯す可能性があります。
スライドショー生成機能には大きな可能性があると考えていますが、現在この機能はベータ版です。現時点では、特に既存のドキュメントがない状態から開始した場合、出力内容の書式や仕上がりがやや粗く感じられることがあります。初期バージョンでは、プレゼンテーション向けに情報を適切な流れと構成で整理した成果物を生成することに重点を置いています。テキスト、グラフ、画像などの各要素は、エクスポート後も簡単に編集できるよう設計されており、構造と柔軟性のバランスが最適化されています。ビューア上のスライドとエクスポートされた PowerPoint スライドとの間に生じる差異については、現在その解消に取り組んでいます。また現在、ChatGPT 上では既存のスプレッドシートをアップロードして編集したり、テンプレートとして使用したりできますが、スライドショー作成機能ではこれらの操作はまだ利用できません。すでに次世代のスライドショー作成機能の学習は進んでおり、より豊富な機能と改良されたフォーマットによって、より洗練された出力が可能になります。
全体として、ChatGPT エージェントの効率性、柔軟性、対応力は今後さらに向上していきます。ユーザーが望む監視レベルに応じた操作性や、よりスムーズなインタラクションを実現しながら、安全性を確保した便利なエージェントへと進化していくと期待されます。
SpreadsheetBench | ||||
モデル | 評価環境 | ソフト制限(%):セルレベル | ソフト制限(%):シートレベル | ソフト制限(%):全体 |
GPT‑4o | Windows、Excel | 15.03 | 23.65 | 18.35 |
Excel の Copilot | Windows、Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX、LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX、LibreOffice | 22.40 | 24.60 | 23.25 |
ChatGPT エージェント | OSX、LibreOffice | 38.27 | 30.48 | 35.27 |
.xlsx を使用した ChatGPT エージェント | OSX、LibreOffice | 50.56 | 37.51 | 45.54 |
人間 | 75.56 | 65.00 | 71.33 |
著者
脚注
* ブラウジングを有効にすると、モデルは、例えばデータセットからのサンプル問題のあるブログ記事を読むことによって、オンラインで正確な解答を見つけることができます。当社は、下記2つの戦略でブラウジング中のモデルによる不正行為の懸念を軽減します。
1.過去にモデルの不正行為を観測したドメインをブロックしました。
2.不審な動作を特定するために、追加のモデルをモニターとして使用し、各試行ですべての出力トークンを検査しました。疑わしい行動とは、次のように定義します。「特定の問題に対する正確な解答を提供することを主な目的としたページやファイル、スニペット。例えば、公式の採点キー、流出した『解答』の要点、完成した解答をそのまま引用したディスカッションなど。」良性の行動とは、次のように定義します。「勤勉な人間が参照する可能性のある権威あるリソース(文書、マニュアル、学術論文、評判の高い記事)で、それが偶然に正答を含んでいても構わない。」モニターがロールアウトを疑わしいと判断した試行は、不正確としてカウントされます。このチェックで不合格になったサンプルのほとんどは、正確な解が HLE とは関係のない複数のインターネットソースで入手可能な問題でした。
OpenAI は、Tier 1〜3 データセットに含まれる 290 件の非公開質問のうち、237 件に対して独占的アクセス権を有しています。FrontierMath の Tier 4 の設問は、この評価には含まれていません。各設問に対して16回の回答を試み、その平均値を評価結果として使用しました。ChatGPT エージェントの出力結果は OpenAI によって引き出され、Epoch AI によって採点されます。評価にはブラウザーとターミナルへのアクセスが可能で、回答1件あたりのトークン上限は128Kです。OpenAI の o4-mini および o3 の評価は、Epoch AI によって引き出され、採点されます。ブラウザーとターミナルへのアクセスはなく、関数呼び出しを通じて Python スクリプトを使用します。回答1件あたりのトークン上限は100Kです。
*** Oracle@64 とは、64回のサンプル試行の中からグラウンドトゥルース(実際の採点結果に基づいて各タスクで最も高得点の試行)を用いて選ばれた、最高スコアを指します。これらのタスクごとの最高スコアの平均を、すべてのタスクにわたって集計して報告しています。この指標は、モデルの最大性能とタスクごとのばらつきを示します。モデルが成功した場合にどれほど高い能力を発揮できるかを明らかにするとともに、さらなる学習によって一貫性を高める余地があることも示しています。一般的な「best of N」指標がモデルの信頼度に基づいて選択を行うのとは異なり、oracle@64 はグラウンドトゥルースを使用して選択を行います。また、合格・不合格の二値評価ではなく、0〜1の連続スケールで採点されるタスクに適用されます。


