2025年1月23日

Computer-Using Agent

AI がデジタル世界と対話するための汎用インターフェース、Computer-Using Agent で Operator を駆動。

読み込んでいます...

本日、ユーザーに代わってウェブにアクセスし、タスクを実行できるエージェント、Operator⁠（新しいウィンドウで開く）の研究プレビューを発表します。Operator を駆動するのは、GPT‑4o の視覚機能と強化学習による高度な推論を組み合わせたモデル、Computer-Using Agent（CUA）です。CUA は、画面上に表示されるボタンやメニュー、テキストフィールドなどのグラフィカルユーザーインターフェイス（GUI）を人間と同じように操作するよう学習しています。これにより、OS またはウェブ固有の API を使用せずにデジタルタスクを柔軟に実行できます。

CUA は、マルチモーダルの理解と推論の交わる長年の基礎研究に基づき、構築されています。高度な GUI 認識と構造化された問題解決を組み合わせることで、タスクを複数ステップの計画に分割し、問題が発生した場合には適応して自己修正できます。この能力は AI 開発の次なるステップを示すもので、人間が日常的に使用するツールをモデルも使用できるようになり、膨大な応用の幅が広がります。

CUA はまだ初期の段階であり、制約もありますが、OSWorld でフルコンピュータ使用タスクに対して38.1%の成功率、WebArena のウェブベースのタスクでは58.1%、WebVoyager では87%の成功率を達成しており、最先端のベンチマークスコアを出しています。この結果から、CUA が単一の一般的な行動空間を使用して環境を広く移動し、操作する能力が明らかになっています。

Operator System Card に詳述のとおり、エージェントがデジタル世界にアクセスするときに生じる課題に対処できるよう、当社は安全性を最優先に CUA を開発しました。当社の反復型展開の戦略に従い、まずは米国の Pro⁠（新しいウィンドウで開く）ユーザー向けに、operator.chatgpt.com⁠（新しいウィンドウで開く）にて Operator の研究プレビューを通じて CUA をリリースします。現実世界でのフィードバックを収集することで、安全対策を改善し、デジタルエージェントの使用が増える将来に備えて継続的に改善することができます。

仕組み

CUA システムが入力内容をテキストまたはスクリーンショットとして解釈し、アクションを生成して仮想マシンにコマンドを適用するプロセスを示すフローチャート。

CUA は画面上で起こっていることを理解するために生のピクセルデータを処理し、仮想マウスとキーボードを使用してアクションを完了します。複数のステップをもつタスクへの対応、エラーの処理、予期しない変化への適応ができます。これによって CUA はさまざまなデジタル環境で動作でき、特殊な API を必要とせずにフォームへの入力やウェブサイトの操作といったタスクを実行できます。

CUA はユーザーの指示を受けて、知覚、推論、アクションを統合する反復ループを通じて動作します。

知覚：コンピュータからのスクリーンショットがモデルのコンテキストに追加され、コンピュータの現状を示す視覚的なスナップショットが提供されます。
推論：CUA は、現在や過去のスクリーンショット、アクションを考慮しながら、思考の連鎖を利用して次のステップを推論します。この内部モノローグは、モデルが観察内容を評価し、中間ステップを追跡して動的に適応できるようにすることで、タスクのパフォーマンスを向上させます。
アクション：タスクが完了したか、ユーザーの入力が必要であると判断するまで、クリックやスクロール、タイピングなどのアクションを実行します。CUA はほとんどのステップを自動的に処理しますが、ログイン情報の入力や CAPTCHA フォームへの回答などの機密性の高いアクションについては、ユーザーに確認を求めます。

評価

CUA は、画面、マウス、キーボードという同じユニバーサルインターフェースを使用して、コンピュータの使用とブラウザーの使用の両方のベンチマークにおいて新たな最先端の技術を確立します。

ベンチマークの種類	ベンチマーク	コンピューターの使用（ユニバーサルインターフェイス）		ウェブブラウジングエージェント	人間
		OpenAI CUA	以前の SOTA	以前の SOTA
コンピューターの使用	OSWorld	38.1%	22.0%	-	72.4%
ブラウザーの使用	WebArena	58.1%	36.2%	57.1%	78.2%
ブラウザーの使用	WebVoyager	87.0%	56.0%	87.0%	-

評価の詳細はこちらに掲載しています

ブラウザーの使用

WebArena⁠（新しいウィンドウで開く）と WebVoyager⁠（新しいウィンドウで開く）は、ブラウザーを使用して実際のタスクを完了する際のウェブブラウジングエージェントのパフォーマンスを評価するために設計されています。WebArena は、セルフホスティングのオープンソースのウェブサイトをオフラインで利用して、電子商取引やオンラインストアのコンテンツ管理（CMS）、ソーシャルフォーラムプラットフォームなどの実際のシナリオを模倣します。WebVoyager は、Amazon や GitHub、Google マップなどのオンラインのウェブサイトでモデルのパフォーマンスをテストします。

これらのベンチマークで、CUA はブラウザー画面をピクセルとして認識し、マウスとキーボードを通じてアクションを実行する同様のユニバーサルインターフェースを使用して、新たな標準を打ち立てます。ウェブベースのタスクにおいて、CUA は WebArena では58.1%の成功率、WebVoyager では87%の成功率を達成しました。ほとんどのタスクが比較的単純な WebVoyager では高い成功率を達成しているものの、WebArena など、より複雑なベンチマークで人間のパフォーマンスとの差を埋めるには、CUA をさらに改善していく必要があります。

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

コンピュータの使用

OSWorld⁠（新しいウィンドウで開く）は、Ubuntu や Windows、macOS などのフルオペレーティングシステムを操作するモデルの能力を評価するベンチマークです。このベンチマークで、CUA は38.1%の成功率を達成しました。テスト時間のスケーリングを観測しました。つまり、より多くのステップが許可される場合に CUA のパフォーマンスが向上しました。下の図は、最大許容ステップ数を変えた場合で CUA のパフォーマンスと従来の最先端技術を比較したものです。このベンチマークにおける人間のパフォーマンスは72.4%であり、まだ大幅に改善の余地があることがわかります。

次のビジュアライゼーションは、OSWorld の標準化されたさまざまなタスクへの CUA の操作例を示しています。

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

Operator における CUA

ユーザーに代わってウェブにアクセスし、タスクを実行できるエージェント、Operator の研究プレビューを通じて CUA を利用できるようにします。Operator は、米国の Pro⁠（新しいウィンドウで開く）ユーザー向けに operator.chatgpt.com⁠（新しいウィンドウで開く）からご利用いただけます。この研究プレビュー版は、当社のユーザーやより広範なエコシステムから学び、Operator を反復的に改良・改善する機会となります。初期段階の他のテクノロジーと同じように、CUA が全てのシナリオで確実に機能するとは現時点では想定していません。しかしながら、既にさまざまなケースにおいて有用であることが証明されており、当社はその信頼性をより幅広いタスクに拡張することを目指しています。また、Operator で CUA をリリースすることにより、ユーザーからの貴重な洞察を収集して、機能の改良や用途の拡大に役立てたいと考えています。

以下の表では、CUA の既知の長所と短所を示すために、プロンプトが与えられたいくつかの試験における Operator での CUA のパフォーマンスを示しています。

カテゴリー	プロンプト	成功 / 試み	注：
様々な UI コンポーネントを操作してタスクを遂行	ターン1：ブリタニカでクマの生息地の詳細な地図を検索してくださいターン2：ありがとうございます。次は、クロクマ、ヒグマ、ホッキョクグマのリンクをチェックして、それぞれの身体的特徴、特にその違いについて簡潔に概説してください。それから、すぐにアクセスできるようにリンクを保存してください。	10 / 10	CUA は、様々な UI コンポーネントを操作して、検索、並べ替え、絞り込みを行い、ユーザーが求める情報を見つけることができます。信頼性はウェブサイトや UI によって異なります。
	割引商品を1つ買いたいです。ポッピのプレバイオティック・ソーダが割引されているかどうか調べてくれますか？割引されていれば、350ml缶のスイカ味が欲しいです。その割引の種類を教えてください。グルテンフリーかどうか確認してください。	9 / 10
	シアトルに引っ越す予定で、Redfin で少なくとも3ベッドルーム、2バスルーム、省エネ設計（太陽光パネルや LEED 認証など）のタウンハウスを検索してください。My budget is between $600,000 - $800,000 and it should ideally be close to 1500 sq ft.	3 / 10
単純な UI 操作の繰り返しで達成できるタスク	Todoist に「週末の食料品の買い物」というタイトルの新しいプロジェクトを作成してください。買い物リストにこちらの商品を追加してください。バナナ（6点）アボカド（完熟2個）ベビーほうれん草（1袋）全乳（4L）チェダーチーズ（225g ブロック）ポテトチップス（塩味、ファミリーサイズ）ダークチョコレート（ココア70%、2本）	10 / 10	CUA は、単純な UI の操作を安定して複数回繰り返すことで、ユーザーの単純ながら面倒なタスクを自動化できます。
単純な UI 操作の繰り返しで達成できるタスク	Spotify で、1990年代のアメリカで最も人気の曲を検索し、少なくとも10曲の再生リストを作ってください。	10 / 10	CUA は、単純な UI の操作を安定して複数回繰り返すことで、ユーザーの単純ながら面倒なタスクを自動化できます。
プロンプトにウェブサイトの使用方法に関する詳細なヒントが含まれている場合のみ CUA が高い成功率を示すタスク。	tagvenue.com でロンドンの150人収容できるコンサートホールを検索してください。2025年2月22日、午前9時から0時まで一日中必要で、1時間90ポンド未満にしてください。それと、フィルターセクションで適切なフィルターをチェックして、駐車場があること、全体が車椅子でアクセスできることを確認してください。	8 / 10	同じタスクでも、タスクのプロンプトの方法によって CUA の信頼性が変わる可能性があります。この場合、日付の詳細（例：「午前9時から午前12時まで」と「午前9時から一日中」）を指定したり、結果を見つけるために使う UI のヒント（例：「フィルターセクションで適切なフィルターをチェックして」）を指定したりすることで、信頼性を向上させることができます。
プロンプトにウェブサイトの使用方法に関する詳細なヒントが含まれている場合のみ CUA が高い成功率を示すタスク。	tagvenue.com でロンドンの150人収容できるコンサートホールを検索してください。2025年2月22日、午前9時から一日中必要で、1時間90ポンド未満にしてください。それと、駐車場があること、全体が車椅子でアクセスできることを確認してください。	3 / 10
馴染みのない UI やテキスト編集に苦戦	html5editor を使って左側に以下のテキストを入力し、私の指示に従って編集して、完了したら全体のスクリーンショットをください。テキストはこちらです。 Hello world! これが私の最初のテキストです。HTML でプログラムした場合、どのように見えるかを確認する必要があります。赤色の部分があります。太字の部分があります。斜体の部分があります。下線の部分があります。私のレッスンが終わって、反対側にシフトするまで。 ... 「Hello world!」にヘッダー2を適用しますその下の文は、通常の段落テキストにします赤色に言及している文は、通常のテキストで赤色にします太字に言及している文は、通常のテキストで太字にします斜体に言及している文は、斜体にします最後の文は、通常の左寄せではなく、右寄せにします	4 / 10	CUA は、学習中にあまり操作していない UI を操作することになったとき、指定された UI の使用が困難になります。その結果、試行錯誤が多く、非効率な行動になりがちです。 CUA は高精度なテキスト編集ができません。プロセスでミスが多かったり、エラーのある出力を返したりします。

安全性

CUA は、ブラウザー内で直接アクションを実行できる当社の最初のエージェント製品の一つであり、対処すべき新たなリスクと課題があります。Operator を展開する準備として、徹底した安全性テストを実施し、悪用、モデルの誤り、フロンティアリスクというの3大安全性リスクにわたり、対応策を実装しました。安全性に対して階層的なアプローチを取ることが重要であると考えているため、CUA モデル本体、Operator システム、展開後のプロセスなど、展開に関わるコンテキスト全体にわたって安全対策を実装しました。目標は、各層でリスクプロファイルを段階的に削減しながら、対応策を積み重ねていくことです。

最初のリスクのカテゴリは悪用です。ユーザーに利用規定の遵守を求めることに加え、GPT‑4o の安全性に関する取り組みをもとに、悪用により Operator が危害をもたらすリスクを低減するため、次の緩和策を設計しました。

拒否：CUA モデルは、多くの有害なタスクや違法あるいは規制された活動を拒否するように学習しています。
ブロックリスト：Operator は、数多く存在するギャンブルのサイトやアダルトエンターテインメント、ドラッグや銃器の販売店など、事前にブロックしたウェブサイトにはアクセスできません。
モデレーション：ユーザーの操作は、利用規定の遵守を確認するように設計された自動安全性チェッカーによってリアルタイムで確認され、禁止されたアクティビティに対して警告やブロックを発動する機能も備えています。
オフライン検知：自動検出と人間によるレビューのパイプラインを開発し、児童の安全や欺瞞的な行為など、優先ポリシー分野における禁止用途を特定して、利用規定による強制力を執行できるようにしました。

2番目のリスクカテゴリはモデルの誤りです。ユーザーが意図しなかったアクションを CUA モデルが誤って実行し、ユーザーや他者に損害を与えることです。想定される誤りの重大性は、メールの誤字脱字から間違った商品の購入、重要な文書を永久に削除してしまうことに至るまで、多岐にわたります。潜在的な被害を最小限に抑えるために、次のような対応策を開発しました。

ユーザーによる確認：CUA モデルは、注文の送信やメールの送信など、外部に影響するタスクを完了する前にユーザーの確認を求めるように学習しているため、ユーザーはモデルの動作が確定される前に再確認できます。
タスクへの制限：現時点では、CUA モデルは銀行取引や繊細な意思決定を必要とするタスクなど、特定の高リスクを伴うタスクの支援を拒否します。
警戒モード：メールなどの特に機密性の高いウェブサイトでは、Operator はユーザーによる積極的なモニタリングを求め、モデルが起こす可能性のある誤りをユーザーが直接発見して対処できるようにします。

モデルの誤りに際して特に重要なカテゴリの一つは、プロンプトインジェクション、ジェイルブレイク、フィッシング攻撃などを通じて CUA モデルに意図しないアクションを実行させる、ウェブサイトへの攻撃です。前述のモデルの誤りへの対応策に加え、これらのリスクから保護するための追加の防御層をいくつか開発しました。

慎重なナビゲーション：CUA モデルは、ウェブサイト上のプロンプトのインジェクションを識別・無視するように設計されており、初期の社内レッドチームセッションからの 1 つのケースを除いて全てのケースを認識します。
モニタリング：Operator は、画面上で疑わしいコンテンツが検出された場合、実行を監視して一時停止する追加モデルを実装しています。
検知パイプライン：自動検出と人間によるレビューの両方のパイプラインを適用しており、疑わしいアクセスパターンを特定してフラグを付け、迅速に（数時間で）モニターに追加できるようにしています。

最後に、自律的複製やバイオリスクのツールのあるシナリオを含む、Preparedness Framework で概説されているフロンティアリスク⁠（新しいウィンドウで開く）に対して CUA モデルを評価しました。これらの評価で、GPT‑4o 以上のリスクの増加は示されませんでした。

これらの評価と安全対策についてさらに詳しく知りたい方は、当社の安全への取り組みと継続的な改善について透明性のある情報を提供する随時更新中の文書、Operator System Card をご確認ください。

Operator の多くの機能は新しいものであるため、リスクも実施済みの対応策も新しくなっています。多様で補完的な、最先端の対応策を目指していますが、より多くを学ぶにつれて、これらのリスクと当社のアプローチは進化していくことが想定されます。研究プレビューの期間中に、ユーザーからのフィードバックを収集し、安全策を改良し、エージェントの安全性を強化していけることを期待しています。

結論

CUA は、マルチモダリティ、推論、安全性における長年の研究の進歩を基盤として構築されています。当社は、o モデルシリーズによる深い推論、GPT‑4o による視覚機能、強化学習と指示階層による堅牢性を向上させる新しい技術の点で、多大な進歩を遂げてきました。当社が探求しようとしている次なる課題は、エージェントの行動空間の拡張です。ユニバーサルインターフェースが提供する柔軟性によってこの課題が解決され、人間向けに設計されたあらゆるソフトウェアツールを操作できるエージェントが実現可能になります。CUA は、エージェント向けの特殊な API だけでなく、利用可能なあらゆるコンピュータ環境に適応できるため、ほとんどの AI モデルでは対応できないデジタルユースケースの「ニッチな分野」に本当の意味で対応できます。

当社はまた、開発者が CUA を使用して独自の Computer-Using Agent を構築できるようにするため、CUA の API⁠（新しいウィンドウで開く）での公開にも取り組んでいます。CUA の改良を続けていく中で、コミュニティが発見するさまざまなユースケースを見られることを楽しみにしています。この早期プレビューから収集した現実世界でのフィードバックを活用して、CUA の機能と安全性の対応策を継続的に改良し、あらゆる人にAI のメリットを届けるという当社の使命を安全に推進していく予定です。

著者

OpenAI

参考文献

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku⁠（新しいウィンドウで開く）

Model Card Addendum:Claude 3.5 Haiku and Upgraded Claude 3.5 Sonnet⁠（新しいウィンドウで開く）

Kura WebVoyager benchmark⁠（新しいウィンドウで開く）

Google project mariner⁠（新しいウィンドウで開く）

OSWorld:Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments⁠（新しいウィンドウで開く）

WebVoyager:Building an End-to-End Web Agent with Large Multimodal Models⁠（新しいウィンドウで開く）

WebArena:A Realistic Web Environment for Building Autonomous Agents⁠（新しいウィンドウで開く）

引用文献

OpenAI を引用し、また引用には次の BibTeX をご利用ください。http://cdn.openai.com/cua/cua2025.bib⁠（新しいウィンドウで開く）