跳至主要內容
OpenAI

2025年1月23日

發布

電腦使用智慧體

為 Operator 提供電腦使用智慧體,這是 AI 與數位世界互動的通用介面。

載入中…

今日,我們推出 Operator(在新視窗中開啟) 的研究預覽版,這是一款能上網替您執行任務的智慧體工具。Operator 所採用的技術核心是電腦使用智慧體 (Computer-Using Agent,CUA),這是一種融合 GPT‑4o 影像能力與強化學習進階推理功能的模型。CUA 經過訓練,能夠與圖形使用者介面 (GUI) 互動,即人們在螢幕上看到的按鈕、功能表與文字欄位,其作業方式就如同人類作業一般。這樣它便能像人類一樣靈活執行各種數位任務,不需要依賴特定作業系統或網站的 API。 

CUA 建立在多年來關於多模態理解與推理交叉領域的基礎研究之上。CUA 結合先進的 GUI 感知能力與結構化問題解決策略,能將任務拆解為多步驟計畫,並在面對挑戰時展現出適應性與自我修正的能力。這項能力象徵著 AI 發展的新階段,讓模型能夠使用人類日常仰賴的工具,並為各種新的應用場景開啟大門。

雖然 CUA 目前仍處於初期階段且仍有其侷限,但它已在多項基準測試中創下新紀錄:在模擬完整電腦作業任務的 OSWorld 測試中達成 38.1% 的成功率,在 WebArena 和 WebVoyager 等網頁任務中分別達成 58.1% 與 87% 的成功率。這些成果突顯出 CUA 能夠運用單一通用作業空間,在多種不同環境中靈活應對和操控的能力。 

開發 CUA 時,我們將安全性視為最高優先考量,以應對智慧體接觸數位世界所帶來的挑戰,詳情請參見我們的 Operator 系統說明卡。依循我們的漸進式部署策略,我們將率先在美國以研究預覽版形式,於 operator.chatgpt.com(在新視窗中開啟)Pro(在新視窗中開啟) 層級用戶釋出 CUA。透過收集真實世界的回饋,我們將能不斷調整安全措施,持續改進,為數位智慧體日益普及的未來做好準備。

如何運作

一張流程圖,展示 CUA 系統如何解析文字或螢幕擷取畫面等輸入內容,產生行動指令,並將指令應用於虛擬機器的流程。

CUA 處理原始像素資料,以便理解畫面中的狀況,並透過虛擬滑鼠和鍵盤執行動作。它能夠執行多重步驟任務、處理錯誤,還能適應突發變化。這樣 CUA 便可以在各種數位環境中運作,執行像是填寫表單和瀏覽網站等任務,而無需依賴特定的 API。

CUA 可以根據使用者的指令,透過結合感知、推理與行動的方式,反覆循環地執行動作:

  • 感知:來自電腦的螢幕擷取畫面會納入至模型情境,作為了解電腦目前狀態的視覺快照。 
  • 推理:CUA 透過「思路鏈」進行推理,綜合目前與過往的螢幕擷取畫面和動作,判斷接下來要採取的步驟。這種內部推理過程能夠評估其觀察結果、追蹤中間步驟並動態調整,從而提升任務表現。
  • 動作:它會持續執行點按、捲動或輸入等動作,直到判斷任務已完成,或需要使用者進一步指示為止。雖然 CUA 能自動處理大多數步驟,但遇到敏感動作時,例如輸入登入資訊或回應 CAPTCHA 驗證表單,便會主動請求使用者確認。

評估

CUA 透過包含螢幕、滑鼠與鍵盤的通用介面,在電腦使用與瀏覽器使用的基準測試中創下全新的業界最佳紀錄。

基準測試類型基準測試電腦使用 (通用介面)網頁瀏覽代理程式人類
OpenAI CUA先前的 SOTA先前的 SOTA
電腦使用OSWorld38.1%22.0%-72.4%
瀏覽器使用WebArena58.1%36.2%57.1%78.2%
WebVoyager87.0%56.0%87.0%-
評估細節請參見此處

瀏覽器使用

WebArena(在新視窗中開啟)WebVoyager(在新視窗中開啟) 是兩款基準測試工具,用於評估網頁瀏覽智慧體在瀏覽器中完成真實任務時的表現。WebArena 利用離線自架的開源網站,模擬真實世界中的情境,例如電子商務、線上商店內容管理系統 (CMS)、社群論壇平台等。WebVoyager 則是在 Amazon、GitHub、Google 地圖等線上真實網站中,測試模型的任務表現。

在這些基準測試中,CUA 以相同的通用介面創造出新的標準:它將瀏覽器畫面視為像素,並透過滑鼠與鍵盤執行動作。CUA 在 WebArena 網頁任務中達成 58.1% 的成功率,在 WebVoyager 網頁任務中則達成 87% 的成功率。雖然 CUA 在任務相對簡單的 WebVoyager 上已達到高成功率,但在 WebArena 等較複雜的評測中表現仍有待提升,才能進一步縮小與人類表現之間的差距。

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

電腦使用

OSWorld(在新視窗中開啟) 是一項基準測試,用以衡量模型操控完整作業系統 (如 Ubuntu、Windows 及 macOS) 的能力。在這項基準測試中,CUA 達成了 38.1% 的成功率。我們發現 CUA 在測試時,如果允許它使用更多步驟去完成任務,表現會更好。下圖比較了 CUA 與先前最佳技術在不同最大允許步驟數情況下的表現差異。人類在這項基準測試中的表現為 72.4%,說明 CUA 尚有巨大的進步空間。

替代文字:「標題為『OSWorld』的折線圖,顯示成功率 (%) 與最大允許步驟數 (對數刻度) 之間的關係。藍線代表 OpenAI 的 CUA,橘色點代表 Claude 3.5 Sonnet - Computer use (電腦使用),並標註成功率。

以下視覺化內容展示了 CUA 執行多種標準化 OSWorld 任務的操作範例。

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

Operator 中的 CUA

我們推出了 Operator 的研究預覽版,逐步實現 CUA 功能,這是一款能上網替您執行任務的智慧體工具。Operator 將開放給美國地區的 Pro(在新視窗中開啟) 用戶使用,網址是 operator.chatgpt.com(在新視窗中開啟)。透過本研究預覽版本,我們將能持續從使用者和更廣泛的生態系中汲取經驗,不斷改進並優化 Operator。如同所有處於早期階段的技術,我們並不期待 CUA 在所有情況下都能穩定運作。不過,CUA 已在各式各樣的情境中展現出實用性,而我們的目標是讓它在更多類型的任務中達到更高的穩定性。推出 Operator 中的 CUA 功能後,我們希望能從使用者處獲得寶貴的回饋,進一步優化其能力,拓展其應用範圍。

下表列出 CUA 在 Operator 中的部分試驗結果,這些試驗依據特定提示進行,旨在說明其已知優勢與限制。

類別提示詞成功次數  /  嘗試次數備註
與各種使用者介面元件互動以完成任務Turn 1:Search Britannica for a detailed map view of bear habitats
Turn 2:Great!Now please check out the black, brown and polar bear links and provide a concise general overview of their physical characteristics, specifically their differences.Oh and save the links for me so I can access them quickly.
10 / 10
CUA 能與各種使用者介面元件互動,進行搜尋、排序及篩選,以找出使用者需要的資訊。不同網站與使用者介面的穩定性表現不一。
I want one of those target deals.Can you check if they have a deal on poppi prebiotic sodas?If they do, I want the watermelon flavor in the 12fl oz can.Get me the type of deal that comes with this and check if it's gluten free.9 / 10
I am planning to shift to Seattle and I want you to search Redfin for a townhouse with at least 3 bedrooms, 2 bathrooms, and an energy-efficient design (e.g., solar panels or LEED-certified).My budget is between $600,000 - $800,000 and it should ideally be close to 1500 sq ft.3 / 10
可透過重複簡單使用者介面操作完成的任務Create a new project in Todoist titled 'Weekend Grocery Shopping.'Add the following shopping list with products:
Bananas (6 pieces)
Avocados (2 ripe)
Baby Spinach (1 bag)
Whole Milk (1 gallon)
Cheddar Cheese (8 oz block)
Potato Chips (Salted, family size)
Dark Chocolate (70% cocoa, 2 bars)
10 / 10
CUA 能穩定可靠地重複執行簡單的使用者介面互動,將需要使用者處理的煩冗任務自動化。
Search Spotify for the most popular songs of the USA for the 1990s, and create a playlist with at least 10 tracks.10 / 10
僅在提示中包含如何使用網站的詳細提示時,CUA 成功率才會高的任務。Visit tagvenue.com and look for a concert hall that seats 150 people in London.I need it on Feb 22 2025 for the entire day from 9 am to 12 am, just make sure it is under £90 per hour.
Oh could you check the filters section for appropriate filters and make sure there is parking and the entire thing is wheelchair accessible.
8 / 10
即使是相同的任務,CUA 的穩定性也可能因提示方式不同而有所變化。
在這種情況下,透過提供具體的日期細節 (例如:上午 9 點到中午 12 點與整天從上午 9 點開始的比較),以及提示應使用哪些 UI 元件來尋找結果 (例如:檢視篩選區…) 可提升執行穩定性。
Visit tagvenue.com and look for a concert hall that seats 150 people in London.I need it on Feb 22 2025 for the entire day from 9 am, just make sure it is under £90 per hour.
Oh and make sure there is parking and the entire thing is wheelchair accessible.
3 / 10
不擅操作不熟悉的介面及編輯文字Use html5editor and input the folowing text on the left side, then edit it following my instructions and give me a screenshot of the entire thing when done.The text is:

Hello world!

This is my first text.I need to see how it would look like when programmed with HTML.

Some parts should be red.

Some bold.

Some italic.

Some underlined.

Until my lesson is complete, and we shift to the other side.
...

Hello world! should have header 2 applied
The sentence below it should be a regular paragraph text.
The sentence mentioning red should be normal text and red
The sentence mentionnihg bold should be normal text bolded
Sentence mentioning italic should be italicized
The final sentence should be aligned to the right instead of the usual left
4 / 10
當 CUA 必須與訓練期間不常接觸的使用者介面互動時,會難以判斷如何正確使用所提供的介面。這通常會導致大量反覆嘗試與低效率的操作。

CUA 在文字編輯方面不夠精確。處理過程中經常出現錯誤,或產出有誤的結果。

安全性

CUA 是我們首批能夠直接在瀏覽器中執行動作的自主型產品之一,因此也帶來了需應對的新風險與挑戰。在準備部署 Operator 的過程中,我們進行了廣泛的安全測試,並針對三大類主要安全風險實施了緩解措施:濫用、模型錯誤,以及尖端技術的潛在風險。我們認為,採取多層次安全策略至關重要,因此我們在整個部署環境中實施了各項防護措施,涵蓋:CUA 模型本身、Operator 系統,以及部署後的作業流程。我們的目標是建立層層堆疊的緩解機制,使每一層都能逐步降低整體風險概況。

首當其衝的風險類別就是誤用。除了要求使用者遵守我們的使用政策外,我們還設計了以下的緩解措施,以降低 Operator 因誤用而造成危害的風險,這些措施是以我們在 GPT‑4o 上的安全性工作為基礎延伸發展而來。

  • 拒絕:CUA 模型經過訓練,能拒絕執行許多有害任務以及非法或受管制的活動。
  • 封鎖清單:Operator 無法存取我們已事先封鎖的網站,例如許多博彩網站、成人娛樂網站,以及藥品或槍械零售商的網站。
  • 監管:為確保遵守《使用政策》,自動化安全檢查系統會即時審核使用者互動,並具備針對違規行為發出警告或封鎖的能力。 
  • 離線偵測:我們還建立了自動偵測與人工審查流程,針對兒童安全與欺騙行為等優先政策領域識別違規使用,從而有效施行《使用政策》。

第二類風險是模型錯誤,指的是 CUA 模型錯誤執行了使用者未預期的動作,進而對使用者或他人造成傷害。這些假設性錯誤嚴重程度不一,可能只是電子郵件中發生拼字錯誤,也可能是購買了錯誤的商品,甚至可能發生永久刪除重要文件。為了將潛在危害降到最低,我們制定了以下緩解措施:

  • 使用者確認:CUA 模型經過訓練,會在執行存在外部影響的任務前,請求使用者確認,例如在提交訂單、傳送電子郵件等動作之前,讓使用者能夠在動作成為永久行為前再次檢查模型的執行內容。
  • 任務中的限制:目前,CUA 模型會拒絕協助處理某些高風險任務,例如銀行交易以及需要敏感決策的工作。
  • 監視模式:在特別敏感的網站上,例如電子郵件平台,Operator 需要使用者積極監督,以確保使用者能夠即時發現並處理模型可能產生的任何錯誤。

模型錯誤中一個特別重要的類別是針對網站的對抗性攻擊,這類攻擊透過提示注入、越獄以及網路釣魚等手法,致使 CUA 模型執行未經預期的動作。除了前述針對模型錯誤的緩解措施之外,我們還設計了多層次的額外防禦機制,以進一步防止這些風險的發生。

  • 審慎瀏覽:我們將 CUA 模型設計為能夠辨識並忽略網站上的提示注入攻擊,在一次早期的內部紅隊測試中,其成功識別了除其中某個案例以外的所有攻擊情境。
  • 監控:在 Operator 中,我們額外部署了一個模型,用於監控螢幕內容,當偵測到可疑內容時,便會暫停執行動作。
  • 偵測管道:我們同時運用自動偵測與人工審查流程來識別可疑的存取行為,並可在數小時內將其標記並迅速納入監控系統。

最後,我們依據應變整備框架(在新視窗中開啟)中所列的尖端技術潛在風險,對 CUA 模型進行了評估,涵蓋的情境包括自主複製以及生物風險工具的應用等。這些評估結果顯示,相較於 GPT‑4o,CUA 模型在尖端技術潛在風險方面並未帶來額外風險。

若您有興趣進一步了解相關評估與防護措施,我們誠摯邀請您參閱 Operator 系統說明卡。這是一份持續更新的文件,詳盡說明我們的安全機制與持續改進的方向,旨在最大程度提供透明度。

Operator 引入了多項全新功能,對應的風險也隨之出現,因此我們也同步實施了相應的新型風險緩解方法。  儘管我們致力於採用最先進、多元且互補的緩解措施,我們仍預期這些風險及我們的因應方式將隨著經驗累積與深入了解而持續演進。我們期望藉由這段研究預覽階段收集使用者回饋,調整防護措施,並提升自主系統的安全性。

結論

在多年來於多模態、推理及安全領域的研究成果基礎上,我們打造出 CUA。在深度推理方面,我們透過 o-model 系列取得了重大進展;在視覺能力上,則依靠 GPT‑4o 實現了顯著進展;同時,我們還運用了強化學習與指令層級等新技術,進一步提升系統的穩健性。我們下一個計劃探索的挑戰領域,是擴展智慧體的行動範圍。通用介面所提供的靈活性正好解決了這項挑戰,使智慧體能夠操作任何為人類所設計的軟體工具。由於突破了專為智慧體設計的專用 API 限制,CUA 能夠適應各種現有的電腦環境,真正解決了大多數 AI 模型難以觸及的「長尾」數位使用場景。

我們也正在努力將 CUA 推出至 API(在新視窗中開啟),讓開發者能利用它來打造自己的電腦操作智慧體。隨著我們持續不斷改進 CUA,我們期待看到業界人士發掘出更多不同的應用場景。我們計劃運用這次早期預覽階段收集到的真實回饋,不斷調整 CUA 的功能與安全緩解措施,並以此為基礎,以更安全的方式推進我們讓 AI 好處普及於所有人的使命。