跳到主要內容
OpenAI

2025年1月23日

發佈

電腦操作代理程式

以使用電腦操作代理程式強化 Operator,打造一個讓人工智能與數碼世界互動的通用介面。

正在載入...

今天,我們推出一款名為 Operator(在新視窗中開啟) 的研究預覽版本,這是一個能在網上為您執行任務的智能代理。Operator 的核心技術是電腦操作代理 (CUA),這是一個結合 GPT‑4o 視覺能力與透過強化學習實現進階推理的模型。CUA 經過訓練,能像人類一樣與用戶在螢幕上看到的按鈕、選單和文字欄位等圖形用戶介面 (GUI) 互動。這讓模型有更大靈活性,無需使用作業系統或網頁特定 API 就能執行數碼任務。 

CUA 以多年來多模態理解與推理交叉領域的基礎研究為基礎。它能結合進階的 GUI 感知與結構化問題解決,將任務分拆為多個步驟的計劃,並在遇到挑戰時進行自我修正。這項能力標誌著 AI 發展的下一步,允許模型使用人類日常所依賴的相同工具,並開啟廣泛新應用的可能性。

雖然 CUA 還處於早期階段,而且存在一些限制,但已在全電腦使用任務中在 OSWorld 達成 38.1% 成功率、在 WebArena 達成 58.1%、在 WebVoyager 達成 87% 的網頁任務成功率,締造了全新業界標準。這些結果突顯出 CUA 能使用單一通用動作空間在不同環境中導覽和操作的能力。 

我們在開發 CUA 時以安全為最優先考慮,目的是解決智能代理存取數碼世界時所面臨的挑戰,詳情可參見我們的 Operator 系統卡。根據我們的循環部署策略,我們正在透過 Operator 的研究預覽版,在 operator.chatgpt.com(在新視窗中開啟) 上發佈 CUA,初期對象為美國的 Pro 版(在新視窗中開啟) 用戶。我們會收集現實世界的意見,完善安全機制並持續改進,為未來數碼智能代理日益普及的時代做好準備。

運作方式

顯示 CUA 系統解讀輸入為文字或螢幕截圖、產生動作並將指令應用於虛擬機器的流程圖。

CUA 處理原始像素資料以理解螢幕上發生的情況,並使用虛擬滑鼠和鍵盤完成動作。它能處理多步驟任務、處理錯誤並適應意外變化。因此這使 CUA 無需專用的 API,即可在廣泛的數碼環境中運作,執行填寫表格和瀏覽網站等任務。

根據用戶的指令,CUA 透過整合感知、推理和行動的循環來運作:

  • 感知:將來自電腦的螢幕截圖附加到模型的語境中,提供電腦目前狀態的視覺快照。 
  • 推理:CUA 使用思路鏈推斷接下來的步驟,同時考慮目前和過去的螢幕截圖和動作。這種內在對話能提升完成任務的效率,以便檢視觀察結果、追蹤流程步驟並且彈性調整行動。
  • 行動:它會執行點按、捲動或輸入等動作,直到認為已經完成任務或需要用戶輸入為止。
    雖然它自動處理大部分的步驟,但 CUA 會針對輸入登入詳細資訊或回應 CAPTCHA 表格等敏感操作尋求用戶確認。

評估:

CUA 透過使用螢幕、滑鼠和鍵盤的相同通用介面,在電腦使用和瀏覽器使用基準方面都建立新的最先進技術。

基準測試類型基準測試電腦使用(通用介面)網頁瀏覽代理人類
OpenAI CUA先前的 SOTA先前的 SOTA
電腦使用OSWorld38.1%22.0%-72.4%
瀏覽器使用WebArena58.1%36.2%57.1%78.2%
WebVoyager87.0%56.0%87.0%-
評估細節說明請見此處

瀏覽器使用

WebArena(在新視窗中開啟)WebVoyager(在新視窗中開啟) 旨在評估網路瀏覽代理程式在瀏覽器中完成現實世界任務的表現。WebArena 利用離線自託管開源網站來模仿電子商務、線上商店內容管理系統 (CMS)、社交論壇平台等現實世界情境。WebVoyager 則測試模型在 Amazon、GitHub 和 Google 地圖等線上即時網站上的表現。

CUA 在這些基準測試中樹立了新標準,使用相同的通用介面,將瀏覽器螢幕視為像素,並透過滑鼠和鍵盤採取行動。CUA 在 WebArena 上的網頁任務成功率達到 58.1%,在 WebVoyager 上的成功率則達到 87%。
儘管 CUA 在 WebVoyager 上取得的成功率很高,但此平台上大多數的任務相對來說比較簡單,CUA 仍需要更多的改進,才能在 WebArena 等更複雜的基準測試中縮小與人類表現的差距。

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

電腦使用

OSWorld(在新視窗中開啟) 是一項評估模型控制完整作業系統(如 Ubuntu、Windows 和 macOS)能力的基準測試。CUA 在此基準測試中的成功率高達 38.1%。我們觀察到測試時間的擴展性,者表示當允許更多步驟時,CUA 的效能會提升。下圖比較 CUA 與先前最先進技術在不同最大允許步驟下的效能表現。
人類在此基準測試上的表現為 72.4%,因此仍有很大的改進空間。

替代文字:「標題為『OSWorld』的折線圖顯示成功率 (%) 對數坐標下與最大允許步驟的關係。藍線代表 OpenAI CUA,橙色點代表 Claude 3.5 Sonnet - 電腦使用,並標註成功率。

以下視覺圖顯示 CUA 在各種標準化 OSWorld 任務中導覽的範例。」

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

Operator 中的 CUA

我們正透過 Operator 的研究預覽版提供 CUA,這是一款能上網為您執行任務的代理程式。
Operator 已向美國的
Pro 版(在新視窗中開啟)用戶開放,網址為 operator.chatgpt.com(在新視窗中開啟)。此研究預覽版本是個向我們的用戶和更廣泛生態系學習的機會,以便循環地完善和改進 Operator。如同任何早期階段的技術,我們不預期 CUA 目前能在所有情境下穩定執行。然而,它已在多種情況下證明它的實用性,我們旨在將此可靠性擴展到更廣泛的任務。
我們希望在 Operator 中發佈 CUA 之後,能從用戶那裡收集到寶貴的見解,以便引導我們改善它的功能並擴展應用範圍。

我們在以下表格中展示 CUA 在 Operator 中的表現,這些資料來自幾項提供特定提示的測試,以突顯其既有的優勢和缺點。

類別提示詞成功次數  /  嘗試次數筆記
透過與不同的用戶介面元件互動來完成任務第 1 步:向 Britannica 查詢熊的棲息地詳細地圖
第 2 步:執行成功!請查看黑熊、棕熊與北極熊的相關連結,並簡要概述它們的外觀特徵,特別著重於彼此之間的差異。還有,幫我保存這些連結,以便我能快速存取。
10 / 10
CUA 能夠與各種用戶介面元件互動,以搜尋、排序與篩選結果,從而尋找用戶所需的資訊。不同網站和用戶介面的可靠性各異。
我想要 Target 的其中一個優惠。你能幫我查一下他們有沒有 poppi 益生元蘇打水的優惠嗎?如果有的話,我想要 12 安士罐裝的西瓜味。幫我買有此優惠的產品,並確認一下它是否不含麩質。9 / 10
我計劃搬到西雅圖,我希望你能在 Redfin 上搜尋至少有 3 間臥室、兩間浴室、並且具有節能設計(例如,太陽能板或 LEED 認證)的連棟房屋。我的預算在 60 萬至 80 萬美元之間,理想的面積約為 1500 平方英尺。3 / 10
可通過重複簡單用戶界面交互完成的任務在 Todoist 中建立一個標題為「週末雜貨購物」的新項目。加入以下購物清單與產品:香蕉(6 隻)
牛油果(2 顆成熟的)
嫩菠菜(1 袋)
全脂奶(1 加侖)
車打芝士(8 安士塊狀)
薯片(鹽味,家庭裝)
黑朱古力(70% 可可,2 條)
10 / 10
CUA 能夠可靠地重複執行簡單的用戶介面操作,從而自動化用戶一些簡單但繁瑣的任務。
在 Spotify 上搜尋 1990 年代美國最受歡迎的歌曲,並建立一個包含至少 10 首歌曲的播放清單。10 / 10
CUA 在某些任務上,只有當提示詞中明確包含如何使用網站的詳細說明時,才展現出較高的成功率。請前往 tagvenue.com,尋找倫敦座位數為 150 人的音樂廳。我需要 2025 年 2 月 22 日當日,從上午 9 點到午夜 12 點的服務,時薪請控制在 90 英鎊以下。
還有,請幫我檢查篩選條件區塊,選擇適合的篩選器,並確認有停車位且全場無障礙,適合輪椅通行。
8 / 10
即使是相同的任務,CUA 的可靠性也可能因提示詞的呈現方式不同而有所變化。
在這種情況下,我們可以透過提供更明確的時間資訊(例如「上午 9 點到中午 12 點」,和「從上午 9 點起整天」),以及提示應該使用哪個用戶介面區塊來尋找結果(例如「請查看篩選器區段…」)來提升可靠性。
前往 tagvenue.com,尋找倫敦座位數為 150 人的音樂廳。我需要在 2025 年 2 月 22 日全日從上午 9 點開始使用,請確保每小時費用不超過 90 英鎊。
另外,請確認有停車位,且整個場地無障礙,方便輪椅進出。
3 / 10
難以使用陌生的用戶介面與文字編輯功能使用 HTML5 編輯器,在左側輸入以下文字,然後根據我的指示進行編輯,完成後請截取整個畫面的螢幕截圖。文字為:

Hello world!

這是我第一段文字。我想看看用 HTML 寫出來會是甚麼樣子。

有些部分應該是紅色。

有些是粗體。

有些是斜體。

有些是底線。

直到我的課程結束,我們再切換到另一邊。


Hello world! 應該套用二級標題
下面的句子應該是一般段落文字。
提到紅色的那句應該是普通文字但字體是紅色
提到粗體的句子要是普通文字但字體加粗
提到斜體的句子要是斜體字
最後一句則要靠右對齊,有別於一般的靠左對齊
4 / 10
CUA 若遇到訓練時接觸不多的用戶介面,會難以掌握該怎麼正確操作它們。這往往導致大量的反覆試錯與低效率的操作,而

CUA 在文字編輯方面的表現並不精確。它在處理過程中常常出現錯誤,或者輸出有問題的結果。

安全

由於 CUA 是我們首批具備直接在瀏覽器中執行操作能力的代理產品之一,它帶來新的風險和挑戰需要解決。
我們在準備部署 Operator 時進行了廣泛的安全測試,並針對誤用、模型錯誤及前沿風險等三大類安全風險實施相應的緩解措施。我們認為採取分層的安全方法很重要,因此我們在整個部署情境(CUA 模型本身、Operator 系統和部署後流程)中實施防護措施。目標是讓緩解措施層層疊加,每一層都逐步降低風險概況。

第一類風險是誤用。除了要求用戶遵守我們的《使用政策》外,我們也設計了以下緩解措施以減少 Operator 因誤用而造成損害的風險,這是在我們為 GPT‑4o 進行的安全工作的基礎上發展而來的:

  • 拒絕:CUA 模型經過訓練,會拒絕許多有害任務以及非法或受管制的活動。
  • 黑名單:Operator 無法存取我們預先封鎖的網站,例如許多賭博網站、成人娛樂場所以及毒品或槍枝零售商等。
  • 審核:自動安全檢查器會即時審查用戶互動,這些檢查器旨在確保遵守《使用政策》,並有能力發出警告或封鎖被禁止的活動。 
  • 離線偵測:我們也開發自動偵測和人工審查管道以識別優先政策領域(包括兒童安全和欺騙性活動)中的禁止使用情況,以便我們能執行我們的《使用政策》。

第二類風險是模型錯誤,即 CUA 模型意外地執行用戶不希望執行的操作而對用戶或他人造成損害。假設性的錯誤的嚴重性程度有所不同,例如電郵中的拼寫錯誤、購買錯誤的商品以及永久刪除一份重要的文件等。我們開發以下緩解措施以盡可能地降低潛在損害:

  • 用戶確認:CUA 模型經過訓練,會在完成具有外部副作用的任務之前,例如在提交訂單、發送電郵等之前,請求用戶確認,以便用戶在模型的工作永久化之前再次檢查。
  • 任務限制:目前,CUA 模型將拒絕協助某些高風險任務,例如銀行交易和需要敏感決策的任務。
  • 監督模式:Operator 在例如電郵等特別敏感的網站上需要用戶主動監督,確保用戶可以直接發現並解決模型可能犯的任何潛在錯誤。

一個特別重要的模型錯誤類別是針對網站的對抗性攻擊,這些攻擊會透過提示注入、越獄和網路釣魚等嘗試導致 CUA 模型採取意外行動。除了上述針對模型錯誤的緩解措施以外,我們也開發了幾層額外的防禦來防範這些風險:

  • 謹慎導覽:CUA 模型的設計旨在辨識並忽略網站上的提示注入,並且在早期的內部紅隊測試中,除了一個案例之外,全部都能成功辨識。
  • 監控:我們在 Operator 中加入一個額外的模型,用來監控並在偵測到螢幕上可疑內容時暫停執行。
  • 偵測管道:我們正在運用自動偵測和人工審查機制來辨識可疑的存取行為,並且快速地(在幾小時內)標記並納入監控範圍。

最後,我們針對我們的備援準備架構(在新視窗中開啟)中所列的前沿風險來評估 CUA 模型,包括涉及自主複製和生物風險工具的情境。這些評估顯示,在 GPT‑4o 之上沒有額外的風險。

若想更細緻地了解評估和保障措施,我們邀請您參考 Operator 系統卡,這是一份揭示我們的安全方針與持續改進的持續更新文件。

由於 Operator 有許多功能都是新的,我們所實施的風險與緩解措施也同樣是新的。  儘管我們力求採取最先進、多樣化且互補的緩解措施,但我們預計這些風險和我們的方法將隨著我們了解更多而演變。我們期待利用研究預覽期這個機會來收集用戶反饋、改進我們的防護措施並加強代理程式的安全。

結論

CUA 建基於多年來在多模態、推理和安全性方面的研究進展。我們在深度推理方面透過 o-model 系列取得重大進展;我們也透過 GPT‑4o 提升視覺能力;並透過強化學習和指令層次結構開發新的技術來提高穩健性。我們計劃探索的下一個挑戰領域,是擴展代理程式的行動空間。通用介面提供的彈性解決了這個挑戰,使代理程式能夠操控任何為人類設計的軟體工具。
透過超越專門為代理程式設計的 API,CUA 能適應任何可用的電腦環境 — 真正解決大多數人工智能模型難以觸及的數碼應用「長尾」問題。

我們也正在努力在 API(在新視窗中開啟) 中提供 CUA,以便開發人員可以利用它來架設自己的電腦操作代理程式。
隨著我們繼續改進 CUA,我們期待社群能發現各種不同的用例。我們計劃利用從這次早期預覽版本中收集到的現實世界反饋,持續改進 CUA 的能力和安全防護措施,以安全地推進我們將人工智能利益普及每個人的使命。