ChatGPT 現在可以使用自己的電腦為您工作,從頭到尾處理複雜的任務。
您現在可以要求 ChatGPT 處理諸如「查看我的日曆並根據最新消息向我簡要說明預定的客戶會議」、「計劃和購買食材製作四人份日式早餐」以及「分析三個競爭對手並製作幻燈片」之類的請求。它將聰明地瀏覽網站、選擇日期、過濾結果、提示您安全登入、運行程式碼,甚至提供可編輯的輸出(例如投影片和試算表)來總結其成果。
ChatGPT 使用自己的虛擬電腦執行這些任務,在推理和行動之間流暢地轉換,從頭到尾處理複雜的工作流程,一切都基於您的指令。
最重要的是,你始終保持控制。ChatGPT 在採取重要行動之前會要求許可,您可以隨時輕鬆中斷、接管瀏覽器或停止任務。
從今天開始,Pro、Plus 和 Team 用戶可以透過在任何對話中的任何時候選擇「代理模式」,直接透過編輯器中的工具下拉式選單啟動 ChatGPT 的新代理功能。
雖然 ChatGPT 智能代理已經是處理複雜任務的強大工具,但今天的發布僅是一個新開始。我們將繼續定期迭代添加重大改進,使其隨著時間的推移更加強大並且對更多人有用。
過往,Operator 和 deep research 各自帶來了獨特的優勢:Operator 可以在網路上滾動、點擊和打字,而深入研究則擅長分析和總結資訊。但它們在不同情況下效果最佳:Operator 無法深入分析或撰寫詳細報告,深入研究無法與網站互動以優化結果或存取需要使用者身份驗證的內容。事實上,我們發現用戶使用 Operator 嘗試的許多查詢實際上更適合深入研究 - 因此我們將兩者的優點結合在一起。
透過整合這些互補的優勢並在 ChatGPT 中引入額外的工具,我們在一個模型中解鎖了全新的功能。現在,它可以主動與網站互動,點擊、過濾和收集更精確、更有效率的結果。您還可以自然地從簡單的對話過渡到在同一聊天中直接要求操作。
我們為 ChatGPT 智能代理配備了多種工具:透過圖形使用者介面與互聯網互動的視覺化瀏覽器,用於較簡單的網上查詢的文字式瀏覽器,以及直接 API 存取。智能代理還可以利用 ChatGPT 連接器(在新視窗中開啟)連接 Gmail 和 Github 等應用程式,以便 ChatGPT 可以找到與您的提示相關的資訊,並在其回應中使用它們。您還可以透過接管瀏覽器登入任何網站,使其在研究和任務執行方面更加深入和廣泛。為 ChatGPT 提供這些存取和與互聯網資訊互動的不同途徑,使它可以選擇最佳路徑來最有效地執行任務。例如,它可以透過 API 收集有關您的日曆的資訊,使用文字式瀏覽器有效地推理大量文本,同時也能夠與主要為人類設計的網站進行視覺互動。
所有這些都是使用自己的虛擬電腦完成,即使使用多個工具,它也能保留任務所需的上下文。模型可以選擇使用文字式瀏覽器或視覺化瀏覽器打開頁面、從網上下載文件、在終端中運行命令操作它、然後在視覺化瀏覽器中查看輸出。該模型調整其方法,快速、準確、高效率地執行任務。
ChatGPT 智能代理專為迭代、協作工作流程而設計,比過往的模型更具互動性和靈活性。在 ChatGPT 工作時,您可以隨時中斷以澄清指令、重新定向任務或引導其實現期望的結果。它將從上次中斷的地方繼續,獲得新的資訊,但不會失去先前的進度。同樣,ChatGPT 本身也會在需要時主動向您尋求更多詳情,以確保任務與您的目標保持一致。如果某項任務花費的時間比預期的要長或感覺停頓了,您可以暫停它、請求進度摘要,或完全停止並接收部分結果。如果您的手機上有 ChatGPT 應用程式,它會在完成您的任務時向您發送通知。
這些統一的代理功能大大增強了 ChatGPT 在日常和專業環境中的實用性。在工作中,您可以自動執行重複性任務,例如將螢幕截圖或主目錄轉換為由可編輯向量元素組成的簡報、重新安排會議、規劃和預訂場外活動,以及使用新的財務資料更新電子表格同時保留相同的格式。在您的個人生活中,您可以使用它輕鬆地規劃和預訂旅行行程、設計和預訂整個晚宴,或尋找專家和安排約會。
此模型的提升能力體現在其在衡量網頁瀏覽和現實世界任務完成能力的學術評估中的最先進(SOTA)表現上。
在評估衡量人工智能在專家級問題上廣泛學科表現的評估 Humanity’s Last Exam(在新視窗中開啟)* 中,驅動 ChatGPT 智能代理提供支援的模型得分創下了 43.1 的 pass@ SOTA 新高。由於智能代理動態地規劃並選擇自己的工具,因此它可以在運行過程中以不同的方式處理相同的任務。我們使用簡單的並行推出策略來擴展這方面,同時運行最多八次嘗試並選擇自我報告信心最高的一次時,代理的 HLE 得分增加到 44.4。
FrontierMath** 是已知最困難的數學基準,其特點是新穎、未發表的問題,通常需要專業數學家花費數小時甚至數天才能解決。透過使用工具(例如存取終端執行程式碼),ChatGPT 智能代理的準確率達到了 27.4%,遠遠超過了先前的兩個模型。
我們也使用以複雜的現實任務為模型的基準來評估該模型。在旨在評估模型在複雜、具有經濟價值的知識工作任務上的表現的內部基準測試中,ChatGPT 智能代理的輸出在大約一半的情況下,在一系列任務完成時間內與人類的輸出相當或更好,同時明顯優於 o3 和 o4-mini。模型輸出由專家根據各領域的頂尖人才創建的高品質人工基準進行評判。這些任務來自不同職業和行業的專家,反映了現實世界的專業工作,例如準備按需緊急護理提供者的競爭分析、制定詳細的攤銷計劃、以及為新的綠色氫氣設施確定可行的水井。
在 DSBench 上(在新視窗中開啟),ChatGPT 智能代理明顯比人類表現優勝,DSBench 旨在評估代理在涵蓋數據分析和建模的實際資料科學任務上的表現。
在 SpreadsheetBench 上,ChatGPT 智能代理的表現明顯優勝於現有模型,該測試評估了模型編輯來自真實場景的試算表的能力。當具有直接編輯試算表的能力時,ChatGPT 智能代理的得分更高,達到 45.5%,而 Copilot 在 Excel 中的得分僅為 20.0%。
方法:SpreadsheetBench 的作者使用 Windows 環境和 Microsoft Excel 來評估試算表。我們使用了 OSX 環境和 LibreOffice,這可能會導致細微的評分差異。例如,作者發現 GPT‑4o 的整體硬限制為 15.02%,而我們獲得了 13.38% 的成績。我們使用了完整的 912 個問題基準。
在衡量模型承擔第一年到第三年投資銀行分析師任務的能力的內部基準上 - 例如為財富 500 強公司建立具有正確格式和引用的三表財務模型,或為私有化公司建立槓桿收購模型 - 驅動 ChatGPT 智能代理的模型明顯優勝於深入研究和 o3。每個任務都根據與正確性和公式使用相關的數百個標準進行評分。
最後,我們使用 BrowseComp 評估 ChatGPT 智能代理,這是我們今年較早前發布的一項基準,用於衡量瀏覽智能代理在網上尋找難以找到的資訊的能力。該模型以 68.9% 創下了新的 SOTA 紀錄,比深入研究高出 17.4%。
最後,在WebArena(在新視窗中開啟)(一個旨在評估網頁瀏覽代理程式真實網上任務效能的基準)上,該模型比由 o3 驅動的 CUA(驅動 Operator 的模型)有所改進。
您可以在任何對話的任何時間透過編輯器中的工具下拉式選單選擇「智能代理模式」來直接啟動 ChatGPT 的新代理功能。簡單描述您想要完成的任務——無論是進行深入研究、建立投影片或提交開支報告。當它執行您的任務時,螢幕上的旁白可以讓您清楚地了解 ChatGPT 正在做什麼。您可以隨時中斷並控制瀏覽器,確保任務與您的目標一致。
ChatGPT 智能代理可以存取您的連接器,與您的工作流程整合,存取相關的可操作資訊。一旦通過身份驗證,這些連接器將允許 ChatGPT 查看資訊並執行各種任務,諸如匯總當天的收件匣或查找您可以參加會議的時間段。在這些網站上採取行動時,您仍然會獲提示接管瀏覽器登錄。
此外,您可以安排已完成的任務自動重複,例如每週一早上產生每週指標報告。
此版本標誌著用戶首次可以要求 ChatGPT 在網上採取行動。這帶來了新的風險,特別是因為 ChatGPT 智能代理可以直接處理您的數據,無論是透過連接器存取的資訊還是透過接管模式登入的網站。我們加強了 Operator 研究預覽中的強大控制,並增加了應對網上即時出現的敏感資訊、更廣泛的用戶覆蓋範圍和(有限的)終端網絡存取等挑戰的保障措施。雖然這些緩解措施顯著降低了風險,但 ChatGPT 智能代理的擴展工具和更廣泛的用戶覆蓋範圍意味著其整體風險狀況更高。
我們特別強調保護 ChatGPT 智能代理免受透過提示注入的對抗性操縱(這是代理系統一般會面對的風險),並有見及此準備了更廣泛的緩解措施。提示注入是第三方試圖透過 ChatGPT 智能代理在網路上完成任務時可能遇到的惡意指令來操縱其行為。例如,隱藏在網頁中的惡意提示(例如不可見元素或元數據)可能會誘騙智能代理採取非預期的操作,如與攻擊者共享來自連接器的私人資料,或在用戶登入的網站上採取有害操作。ChatGPT 智能代理可以採取直接行動,因此成功的攻擊會產生更大的影響並帶來更高的風險。
我們已經對智能代理進行了識別和抵抗快速注入的訓練和測試,此外還使用監控來快速檢測和應對快速注入攻擊。在採取相應行動之前要求使用者明確確認進一步降低了這些攻擊造成危害的風險,且使用者在有需要時可以接管或暫停來介入任務。使用者在決定向智能代理提供什麼資訊時應該權衡這些利弊,並採取措施盡量減少這些風險,例如在不需要執行任務時停用連接器。
我們也針對模型錯誤採取了緩解措施,特別是因為模型現在可以執行影響現實世界的任務:
- 明確的用戶確認:ChatGPT 經過訓練,可以在採取會產生現實後果的行動(例如購買)之前明確徵求您的許可。
- 主動監督(「監視模式」):某些關鍵任務(例如發送電子郵件)需要您的積極監督。
- 主動降低風險:ChatGPT 經過訓練可以主動拒絕銀行轉帳等高風險任務。
最後,我們引入了額外的控制來限制模型可以存取的數據:
- 私隱控制:只需在 ChatGPT 的設定內按一下,您就可以刪除所有瀏覽數據並立即退出所有進行中的網站工作階段。否則,cookie 會根據每個造訪過的網站的 cookie 政策持續存在,使重複造訪網站更有效率。
- 安全瀏覽器接管模式:當您透過 ChatGPT 的瀏覽器直接與互聯網互動(「接管模式」)時,您的操作和輸入仍保持私密。ChatGPT 不會收集或儲存您在這些會話期間輸入的任何資料(例如密碼),因為模型不需要它,如果它永遠看不到它會更安全。
隨著模型功能的增強,我們決定在我們的防範框架下將 ChatGPT 智能代理視為擁有高生物和化學能力,並啟動相關的保障措施。目前未有明確證據證實此模型能實質協助新手製造嚴重生物危害──即達至我們界定的「高能力」門檻,但我們仍選擇採取預防取向。因此,該模型擁有迄今為止最全面的安全堆疊,並增強了生物學保障措施:全面的威脅建模、雙重用途拒絕訓練、始終啟用的分類器和推理監視器、以及清晰的執行流程。
除了保護 ChatGPT 智能代理安全的工作之外,我們還知道,安全措施超越單一實驗室層面時,分層生物安全才能發揮最佳作用,因此我們在整個生態系統中進行合作以加強防禦。從第一天起,我們就與外部生物安全專家、安全機構和學術研究人員合作,制定我們的威脅模型、評估和政策。受過生物學訓練的審閱人員驗證了我們的評估數據,而領域專家紅隊成員在現實場景中對保障措施進行了壓力測試。本月初,我們與來自政府、學術界、國家實驗室和非政府組織的專家召開了一次生物防禦研討會,以加速合作並推動由人工智能驅動的生物防禦研究。我們將繼續在全球範圍內開展合作,以應對新出現的風險。
ChatGPT 智能代理今天開始向 Pro、Plus 和 Team 推出;Pro 用戶可在今天內開始使用,而 Plus 和 Team 用戶將可在接下來的幾天開始使用。Enterprise 和 Education 用戶將可在隨後幾週內開始使用。Pro用戶每月可獲得 400 條訊息,而其他付費用戶每月可獲得 40 條訊息,並可透過靈活的點數計劃獲得額外使用量。
我們正努力準備在歐洲經濟區和瑞士推出。
Operator 研究預覽網站將繼續運作幾週,之後將停止使用。深入研究是 ChatGPT 智能代理功能的一部分。如果您喜歡原始的深入研究功能(可能需要更長時間才能運行,但預設提供更詳細、更深入的回應),您仍然可以在訊息編寫器的下拉式選單中選擇「深入研究」使用它。
ChatGPT 智能代理仍處於早期階段。它能夠承擔一系列複雜的任務,但仍然會犯錯。
雖然我們看到了其生成幻燈片的能力的巨大潛力,但此功能目前處於測試階段。目前,輸出的格式和完善程度有時會讓人感覺不夠完善,尤其是在沒有現有文件的情況下開始時。我們將模型的初始功能重點放在生成適合演示的流程和格式組織資訊的工件上,其中包含文字、圖表、圖像和形狀等元素,這些元素在匯出後可以原生輕鬆編輯,從而優化結構和靈活性。目前,檢視器中的投影片和匯出的 PowerPoint 之間偶爾也存在差異,我們正在努力減少這種差異。此外,雖然您目前可以上傳現有試算表以供 ChatGPT 編輯或用作模板,但此功能尚不適用於投影片。我們已經在訓練 ChatGPT 幻燈片生成的下一個版本,以產生更精緻、更繁複的輸出,具有更廣泛的功能和改進的格式。
總體而言,我們預計 ChatGPT 智能代理的效率、深度和多功能性將隨著時間的推移而不斷提高,包括更無縫的交互,因為我們會繼續調整使用者所需的監督量,以使其更有用,同時確保其使用安全。
SpreadsheetBench | ||||
模型 | 評估環境 | 軟限制(%):儲存格層級 | 軟限制(%):工作表層級 | 軟限制(%):總括 |
GPT‑4o | Windows,Excel | 15.03 | 23.65 | 18.35 |
Excel 中的 Copilot | Windows,Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX,LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX,LibreOffice | 22.40 | 24.60 | 23.25 |
ChatGPT 智能代理 | OSX,LibreOffice | 38.27 | 30.48 | 35.27 |
ChatGPT 智能代理處理 .xlsx | OSX,LibreOffice | 50.56 | 37.51 | 45.54 |
人類 | 75.56 | 65.00 | 71.33 |
作者
腳註
** 當啟用瀏覽功能時,模型有時可以在網上找到確切答案,例如透過閱讀包含數據集範例問題的網誌文章。我們透過兩種策略來緩解瀏覽時模型作弊的擔憂:
1.阻擋過去曾觀察到該模型用於作弊的網域。
2.使用額外的模型作為監視器來檢查每次嘗試識別可疑行為時的所有工具輸出權杖。可疑行為的定義是「主要目的是提供這個特定問題的準確答案的網頁、檔案或片段,例如,官方評分表、洩露的『解決方案』要點、或逐字引用最終答案的討論。」良性行為被定義為「任何勤勉的人可能會查閱的權威資源(文件、手冊、學術論文、信譽良好的文章),即使它偶然包含了正確答案。」凡是監控系統判定為可疑的嘗試均會被歸類為錯誤。未通過本次檢查的大多數樣本都是問題的確切解決方案,可在與 HLE 無關的多個網上資源上找到。
**OpenAI 對 Tier 1-3 資料集中的 290 個私人問題中的 237 個擁有獨家存取權。FrontierMath 4 級問題未包含在本評估中。結果以回答每個問題 16 次嘗試的平均值來評估。ChatGPT 智能代理結果由 OpenAI 引出,由 Epoch AI 評分,具有瀏覽器和終端存取權限,每個答案的限制為 128K 個令牌。OpenAI o4-mini 和 o3 評估由 Epoch AI 引出和評分,無需瀏覽器和終端存取,透過函數呼叫使用 python 腳本,每個答案的限制為 100K 個 token。
*** Oracle@64 指的是透過 64 次取樣運行所獲得的最佳分數,使用基本事實進行選擇(即根據實際評分表現,為每個任務選擇得分最高的嘗試)。我們報告所有任務中每個任務最佳分數的平均值。該指標突出了模型在任務執行中的上限潛力和方差,示了模型成功時的能力,並表明了透過進一步訓練提高一致性的空間。與一般使用基於模型置信度選擇的典型「N 中最佳」指標不同,oracle@64 使用基本事實進行選擇,並適用於以連續 0-1 尺度而不是二元成功/失敗基準進行評分的任務。


