今天,我們推出一款名為 Operator(在新視窗中開啟) 的研究預覽版本,這是一個能在網上為您執行任務的智能代理。Operator 的核心技術是電腦操作代理 (CUA),這是一個結合 GPT‑4o 視覺能力與透過強化學習實現進階推理的模型。CUA 經過訓練,能像人類一樣與用戶在螢幕上看到的按鈕、選單和文字欄位等圖形用戶介面 (GUI) 互動。這讓模型有更大靈活性,無需使用作業系統或網頁特定 API 就能執行數碼任務。
CUA 以多年來多模態理解與推理交叉領域的基礎研究為基礎。它能結合進階的 GUI 感知與結構化問題解決,將任務分拆為多個步驟的計劃,並在遇到挑戰時進行自我修正。這項能力標誌著 AI 發展的下一步,允許模型使用人類日常所依賴的相同工具,並開啟廣泛新應用的可能性。
雖然 CUA 還處於早期階段,而且存在一些限制,但已在全電腦使用任務中在 OSWorld 達成 38.1% 成功率、在 WebArena 達成 58.1%、在 WebVoyager 達成 87% 的網頁任務成功率,締造了全新業界標準。這些結果突顯出 CUA 能使用單一通用動作空間在不同環境中導覽和操作的能力。
我們在開發 CUA 時以安全為最優先考慮,目的是解決智能代理存取數碼世界時所面臨的挑戰,詳情可參見我們的 Operator 系統卡。根據我們的循環部署策略,我們正在透過 Operator 的研究預覽版,在 operator.chatgpt.com(在新視窗中開啟) 上發佈 CUA,初期對象為美國的 Pro 版(在新視窗中開啟) 用戶。我們會收集現實世界的意見,完善安全機制並持續改進,為未來數碼智能代理日益普及的時代做好準備。

CUA 處理原始像素資料以理解螢幕上發生的情況,並使用虛擬滑鼠和鍵盤完成動作。它能處理多步驟任務、處理錯誤並適應意外變化。因此這使 CUA 無需專用的 API,即可在廣泛的數碼環境中運作,執行填寫表格和瀏覽網站等任務。
根據用戶的指令,CUA 透過整合感知、推理和行動的循環來運作:
- 感知:將來自電腦的螢幕截圖附加到模型的語境中,提供電腦目前狀態的視覺快照。
- 推理:CUA 使用思路鏈推斷接下來的步驟,同時考慮目前和過去的螢幕截圖和動作。這種內在對話能提升完成任務的效率,以便檢視觀察結果、追蹤流程步驟並且彈性調整行動。
- 行動:它會執行點按、捲動或輸入等動作,直到認為已經完成任務或需要用戶輸入為止。
雖然它自動處理大部分的步驟,但 CUA 會針對輸入登入詳細資訊或回應 CAPTCHA 表格等敏感操作尋求用戶確認。
CUA 透過使用螢幕、滑鼠和鍵盤的相同通用介面,在電腦使用和瀏覽器使用基準方面都建立新的最先進技術。
| 基準測試類型 | 基準測試 | 電腦使用(通用介面) | 網頁瀏覽代理 | 人類 | |
|---|---|---|---|---|---|
| OpenAI CUA | 先前的 SOTA | 先前的 SOTA | |||
| 電腦使用 | OSWorld | 38.1% | 22.0% | - | 72.4% |
| 瀏覽器使用 | WebArena | 58.1% | 36.2% | 57.1% | 78.2% |
| WebVoyager | 87.0% | 56.0% | 87.0% | - | |
WebArena(在新視窗中開啟) 和 WebVoyager(在新視窗中開啟) 旨在評估網路瀏覽代理程式在瀏覽器中完成現實世界任務的表現。WebArena 利用離線自託管開源網站來模仿電子商務、線上商店內容管理系統 (CMS)、社交論壇平台等現實世界情境。WebVoyager 則測試模型在 Amazon、GitHub 和 Google 地圖等線上即時網站上的表現。
CUA 在這些基準測試中樹立了新標準,使用相同的通用介面,將瀏覽器螢幕視為像素,並透過滑鼠和鍵盤採取行動。CUA 在 WebArena 上的網頁任務成功率達到 58.1%,在 WebVoyager 上的成功率則達到 87%。
儘管 CUA 在 WebVoyager 上取得的成功率很高,但此平台上大多數的任務相對來說比較簡單,CUA 仍需要更多的改進,才能在 WebArena 等更複雜的基準測試中縮小與人類表現的差距。
OSWorld(在新視窗中開啟) 是一項評估模型控制完整作業系統(如 Ubuntu、Windows 和 macOS)能力的基準測試。CUA 在此基準測試中的成功率高達 38.1%。我們觀察到測試時間的擴展性,者表示當允許更多步驟時,CUA 的效能會提升。下圖比較 CUA 與先前最先進技術在不同最大允許步驟下的效能表現。
人類在此基準測試上的表現為 72.4%,因此仍有很大的改進空間。
以下視覺圖顯示 CUA 在各種標準化 OSWorld 任務中導覽的範例。」
我們正透過 Operator 的研究預覽版提供 CUA,這是一款能上網為您執行任務的代理程式。
Operator 已向美國的 Pro 版(在新視窗中開啟)用戶開放,網址為 operator.chatgpt.com(在新視窗中開啟)。此研究預覽版本是個向我們的用戶和更廣泛生態系學習的機會,以便循環地完善和改進 Operator。如同任何早期階段的技術,我們不預期 CUA 目前能在所有情境下穩定執行。然而,它已在多種情況下證明它的實用性,我們旨在將此可靠性擴展到更廣泛的任務。
我們希望在 Operator 中發佈 CUA 之後,能從用戶那裡收集到寶貴的見解,以便引導我們改善它的功能並擴展應用範圍。
我們在以下表格中展示 CUA 在 Operator 中的表現,這些資料來自幾項提供特定提示的測試,以突顯其既有的優勢和缺點。
| 類別 | 提示詞 | 成功次數 / 嘗試次數 | 筆記 |
|---|---|---|---|
| 透過與不同的用戶介面元件互動來完成任務 | 第 1 步:向 Britannica 查詢熊的棲息地詳細地圖 第 2 步:執行成功!請查看黑熊、棕熊與北極熊的相關連結,並簡要概述它們的外觀特徵,特別著重於彼此之間的差異。還有,幫我保存這些連結,以便我能快速存取。 | 10 / 10 | CUA 能夠與各種用戶介面元件互動,以搜尋、排序與篩選結果,從而尋找用戶所需的資訊。不同網站和用戶介面的可靠性各異。 |
| 我想要 Target 的其中一個優惠。你能幫我查一下他們有沒有 poppi 益生元蘇打水的優惠嗎?如果有的話,我想要 12 安士罐裝的西瓜味。幫我買有此優惠的產品,並確認一下它是否不含麩質。 | 9 / 10 | ||
| 我計劃搬到西雅圖,我希望你能在 Redfin 上搜尋至少有 3 間臥室、兩間浴室、並且具有節能設計(例如,太陽能板或 LEED 認證)的連棟房屋。我的預算在 60 萬至 80 萬美元之間,理想的面積約為 1500 平方英尺。 | 3 / 10 | ||
| 可通過重複簡單用戶界面交互完成的任務 | 在 Todoist 中建立一個標題為「週末雜貨購物」的新項目。加入以下購物清單與產品:香蕉(6 隻) 牛油果(2 顆成熟的) 嫩菠菜(1 袋) 全脂奶(1 加侖) 車打芝士(8 安士塊狀) 薯片(鹽味,家庭裝) 黑朱古力(70% 可可,2 條) | 10 / 10 | CUA 能夠可靠地重複執行簡單的用戶介面操作,從而自動化用戶一些簡單但繁瑣的任務。 |
| 在 Spotify 上搜尋 1990 年代美國最受歡迎的歌曲,並建立一個包含至少 10 首歌曲的播放清單。 | 10 / 10 | ||
| CUA 在某些任務上,只有當提示詞中明確包含如何使用網站的詳細說明時,才展現出較高的成功率。 | 請前往 tagvenue.com,尋找倫敦座位數為 150 人的音樂廳。我需要 2025 年 2 月 22 日當日,從上午 9 點到午夜 12 點的服務,時薪請控制在 90 英鎊以下。 還有,請幫我檢查篩選條件區塊,選擇適合的篩選器,並確認有停車位且全場無障礙,適合輪椅通行。 | 8 / 10 | 即使是相同的任務,CUA 的可靠性也可能因提示詞的呈現方式不同而有所變化。 在這種情況下,我們可以透過提供更明確的時間資訊(例如「上午 9 點到中午 12 點」,和「從上午 9 點起整天」),以及提示應該使用哪個用戶介面區塊來尋找結果(例如「請查看篩選器區段…」)來提升可靠性。 |
| 前往 tagvenue.com,尋找倫敦座位數為 150 人的音樂廳。我需要在 2025 年 2 月 22 日全日從上午 9 點開始使用,請確保每小時費用不超過 90 英鎊。 另外,請確認有停車位,且整個場地無障礙,方便輪椅進出。 | 3 / 10 | ||
| 難以使用陌生的用戶介面與文字編輯功能 | 使用 HTML5 編輯器,在左側輸入以下文字,然後根據我的指示進行編輯,完成後請截取整個畫面的螢幕截圖。文字為: Hello world! 這是我第一段文字。我想看看用 HTML 寫出來會是甚麼樣子。 有些部分應該是紅色。 有些是粗體。 有些是斜體。 有些是底線。 直到我的課程結束,我們再切換到另一邊。 … Hello world! 應該套用二級標題 下面的句子應該是一般段落文字。 提到紅色的那句應該是普通文字但字體是紅色 提到粗體的句子要是普通文字但字體加粗 提到斜體的句子要是斜體字 最後一句則要靠右對齊,有別於一般的靠左對齊 | 4 / 10 | CUA 若遇到訓練時接觸不多的用戶介面,會難以掌握該怎麼正確操作它們。這往往導致大量的反覆試錯與低效率的操作,而 CUA 在文字編輯方面的表現並不精確。它在處理過程中常常出現錯誤,或者輸出有問題的結果。 |
由於 CUA 是我們首批具備直接在瀏覽器中執行操作能力的代理產品之一,它帶來新的風險和挑戰需要解決。
我們在準備部署 Operator 時進行了廣泛的安全測試,並針對誤用、模型錯誤及前沿風險等三大類安全風險實施相應的緩解措施。我們認為採取分層的安全方法很重要,因此我們在整個部署情境(CUA 模型本身、Operator 系統和部署後流程)中實施防護措施。目標是讓緩解措施層層疊加,每一層都逐步降低風險概況。
第一類風險是誤用。除了要求用戶遵守我們的《使用政策》外,我們也設計了以下緩解措施以減少 Operator 因誤用而造成損害的風險,這是在我們為 GPT‑4o 進行的安全工作的基礎上發展而來的:
- 拒絕:CUA 模型經過訓練,會拒絕許多有害任務以及非法或受管制的活動。
- 黑名單:Operator 無法存取我們預先封鎖的網站,例如許多賭博網站、成人娛樂場所以及毒品或槍枝零售商等。
- 審核:自動安全檢查器會即時審查用戶互動,這些檢查器旨在確保遵守《使用政策》,並有能力發出警告或封鎖被禁止的活動。
- 離線偵測:我們也開發自動偵測和人工審查管道以識別優先政策領域(包括兒童安全和欺騙性活動)中的禁止使用情況,以便我們能執行我們的《使用政策》。
第二類風險是模型錯誤,即 CUA 模型意外地執行用戶不希望執行的操作而對用戶或他人造成損害。假設性的錯誤的嚴重性程度有所不同,例如電郵中的拼寫錯誤、購買錯誤的商品以及永久刪除一份重要的文件等。我們開發以下緩解措施以盡可能地降低潛在損害:
- 用戶確認:CUA 模型經過訓練,會在完成具有外部副作用的任務之前,例如在提交訂單、發送電郵等之前,請求用戶確認,以便用戶在模型的工作永久化之前再次檢查。
- 任務限制:目前,CUA 模型將拒絕協助某些高風險任務,例如銀行交易和需要敏感決策的任務。
- 監督模式:Operator 在例如電郵等特別敏感的網站上需要用戶主動監督,確保用戶可以直接發現並解決模型可能犯的任何潛在錯誤。
一個特別重要的模型錯誤類別是針對網站的對抗性攻擊,這些攻擊會透過提示注入、越獄和網路釣魚等嘗試導致 CUA 模型採取意外行動。除了上述針對模型錯誤的緩解措施以外,我們也開發了幾層額外的防禦來防範這些風險:
- 謹慎導覽:CUA 模型的設計旨在辨識並忽略網站上的提示注入,並且在早期的內部紅隊測試中,除了一個案例之外,全部都能成功辨識。
- 監控:我們在 Operator 中加入一個額外的模型,用來監控並在偵測到螢幕上可疑內容時暫停執行。
- 偵測管道:我們正在運用自動偵測和人工審查機制來辨識可疑的存取行為,並且快速地(在幾小時內)標記並納入監控範圍。
最後,我們針對我們的備援準備架構(在新視窗中開啟)中所列的前沿風險來評估 CUA 模型,包括涉及自主複製和生物風險工具的情境。這些評估顯示,在 GPT‑4o 之上沒有額外的風險。
若想更細緻地了解評估和保障措施,我們邀請您參考 Operator 系統卡,這是一份揭示我們的安全方針與持續改進的持續更新文件。
由於 Operator 有許多功能都是新的,我們所實施的風險與緩解措施也同樣是新的。 儘管我們力求採取最先進、多樣化且互補的緩解措施,但我們預計這些風險和我們的方法將隨著我們了解更多而演變。我們期待利用研究預覽期這個機會來收集用戶反饋、改進我們的防護措施並加強代理程式的安全。
CUA 建基於多年來在多模態、推理和安全性方面的研究進展。我們在深度推理方面透過 o-model 系列取得重大進展;我們也透過 GPT‑4o 提升視覺能力;並透過強化學習和指令層次結構開發新的技術來提高穩健性。我們計劃探索的下一個挑戰領域,是擴展代理程式的行動空間。通用介面提供的彈性解決了這個挑戰,使代理程式能夠操控任何為人類設計的軟體工具。
透過超越專門為代理程式設計的 API,CUA 能適應任何可用的電腦環境 — 真正解決大多數人工智能模型難以觸及的數碼應用「長尾」問題。
我們也正在努力在 API(在新視窗中開啟) 中提供 CUA,以便開發人員可以利用它來架設自己的電腦操作代理程式。
隨著我們繼續改進 CUA,我們期待社群能發現各種不同的用例。我們計劃利用從這次早期預覽版本中收集到的現實世界反饋,持續改進 CUA 的能力和安全防護措施,以安全地推進我們將人工智能利益普及每個人的使命。