隆重介紹 ChatGPT 智慧體:串聯研究與行動
ChatGPT 現已具備思考與行動能力,能主動從自主技能工具箱中選擇適當工具,並運用自己的電腦幫您完成任務。
ChatGPT 現在可以運用自己的電腦來幫您完成工作,全程包辦複雜任務。
您現在可以請 ChatGPT 處理下類請求,例如:「查看我的行事曆,並根據近期新聞,為我簡單歸納接下來與客戶開會的重點」、「規劃並購買四人份的日式早餐食材」、「分析三家競爭對手並製作簡報投影片」。ChatGPT 能夠運用智慧瀏覽網站、篩選結果、在需要時提醒您安全登入、執行程式碼、進行分析,甚至產出簡報和試算表等可編輯的精美輸出內容,彙整其研究結果。
ChatGPT 使用其虛擬電腦執行這些任務,能在推理與行動之間靈活切換,全程根據您的指示處理複雜的工作流程。
最重要的是,掌控權永遠在您手中。ChatGPT 在執行重要操作之前會先徵求您的許可,您可隨時輕鬆中斷作業、接管瀏覽器,或直接停止任務。
從今天起,Pro、Plus 和 Team 方案的使用者進行任何對話時,只要直接從撰寫工具的工具下拉式選單選取「智慧體模式」,就能隨時啟用 ChatGPT 的自主代理功能。
儘管 ChatGPT 智慧體已經是一個能處理複雜任務的強大工具,今天的推出只是我們邁出的第一步。我們將持續定期推出重大改進功能,讓它不斷變得更強大,惠及更多使用者。
過去,Operator 與深入研究各自擁有獨特的優勢:Operator 可以在網站上捲動、點選和輸入內容,而深入研究則擅於分析和歸納資訊要點。不過兩者能發揮最佳效用的情境有所不同:Operator 無法深入分析或撰寫詳細報告,而深入研究無法操作網站來改善結果,也無法存取需要使用者驗證的內容。實際上我們發現,使用者嘗試向 Operator 提出的查詢,其實更適合交由深入研究處理,所以我們結合了兩者的優點。
我們在 ChatGPT 中整合這些互補的能力,並引進其他工具,為這個模型帶來全新的強大功能。它現在可以主動操作網站,包括點選資料、篩選內容和收集更精準有效的結果。您也能直接在一段聊天內容中,從簡單對話自然延伸到要求執行操作。
我們為 ChatGPT 智慧體配備了一系列工具:可透過圖形使用者介面操作網站的視覺瀏覽器、用來處理簡單推理型網路查詢的文字瀏覽器、一個終端以及直接存取 API 的機制。這款智慧體還能利用 ChatGPT 連接器(在新視窗中開啟),連結 Gmail、Github 等應用程式,使 ChatGPT 能找到與您的提示相關的資訊並運用於回應中。您還可以接管瀏覽器,登入任何網站,讓它更深入且廣泛地執行研究與任務。我們為 ChatGPT 提供多種存取和與網路資訊互動的方式,讓它能靈活選擇最佳途徑,以最高效率執行任務。例如,它可以透過 API 取得您的行事曆資訊,利用文字瀏覽器高效處理大量文字,同時具備與針對人類設計的網站進行視覺互動的能力。
這些任務皆由其虛擬電腦執行,可以保留執行所需的上下文,即使同時使用多種工具也能運作自如——模型可選擇用文字瀏覽器或視覺瀏覽器開啟頁面,從網路下載檔案,再透過終端機執行指令處理檔案,最後回到視覺瀏覽器檢視輸出結果。模型會調整執行方式,從而快速、精確且高效地完成任務。
ChatGPT 智慧體專為需要反覆調整和協作的工作流程設計,互動性和靈活性都遠超越以往的模型。ChatGPT 執行任務的過程中,您隨時可以中斷作業,提供更明確的說明、引導它達成期望的成果,或完全改變任務內容。接著,它會運用新資訊,從中斷的地方繼續進行,先前的進度都不會消失。同樣地,ChatGPT 本身可能也會在需要時主動向您徵詢額外詳細資訊,確認任務符合您的目標。如果任務耗費的時間比預期還久,或感覺沒有進展,您可以暫停任務,要求提供進度摘要,或是完全停止任務並取得部分結果。如果您手機上安裝了 ChatGPT 應用程式,任務完成後它會傳送通知提醒您。
這些整合式自主代理功能大幅提高了 ChatGPT 的實用性,無論在日常或專業情境下都能派上用場。在職場上,您可以自動執行重複性任務,像是將螢幕截圖或儀表板資料轉換成由可編輯元素組成的簡報、重新安排會議、規劃和預訂出訪行程,以及在格式不變的前提下更新財務試算表資料。在個人生活層面,您可以用來輕鬆規劃和預訂旅遊行程、設計和預訂整個晚宴,或是尋找和預約各類專業服務。
這款模型在網頁瀏覽和完成實際任務能力的評估中,獲得頂尖 (SOTA) 表現評比,充分反映了其能力的提升。
人類終極測驗(在新視窗中開啟)*用於評估 AI 對各種領域專家級問題的表現,在這項評估中,ChatGPT 智慧體所使用的模型在一次通過率 SOTA 上創下新紀錄,達到 41.6。由於這個智慧體能夠動態規劃並自主選擇工具,因此在不同執行過程中,能以多種方式完成相同任務。當我們採用簡單的平行部署策略,同時執行最多八次嘗試並選擇自信度最高的結果時,這個智慧體的 HLE 分數提升至 44.4。
FrontierMath** 是目前已知最困難的數學基準測試,包含全新且未曾發表的題目,通常數學專家要花數小時、甚至數天才能解出。透過使用各種工具,例如使用終端機執行程式碼,ChatGPT 智慧體的準確率可達到 27.4%,遠遠超越以往的模型表現。
我們也會使用模擬複雜真實世界任務的基準測試來評估此模型。在一項用於評估模型在複雜且具經濟價值的知識型工作任務中如何表現的內部基準測試中,ChatGPT 智慧體的輸出在大約一半的案例中,其完成品質可與人類相當甚至更佳,且在各種任務完成時間範圍內,明顯優於 o3 和 o4-mini。模型的輸出由專家進行評估,並與各領域頂尖人員所產出的高品質人類基準進行比較。這些任務來自各行各業的專家,模擬各種真實世界中的專業工作,例如:撰寫隨選緊急照護服務供應商的競爭分析報告、建立詳細的攤還計畫表,或為新的綠色氫能設施尋找可行的水井位置。
DSBench(在新視窗中開啟) 專門評估智慧體在涵蓋資料分析和建模等真實資料科學任務的表現,其中 ChatGPT 智慧體的表現明顯大幅超越人類水準。
在 SpreadsheetBench (評估模型在處理源自真實情境的試算表編輯能力) 上,ChatGPT 智慧體的表現大幅優於現有模型。具備直接編輯試算表的能力後,ChatGPT 智慧體的分數進一步提升至 45.5%,遠高於 Copilot in Excel 的 20.0%。
方法:SpreadsheetBench 作者在 Windows 環境中使用 Microsoft Excel 來評估試算表。而我們採用 OSX 環境和 LibreOffice,因此評分結果可能有微小差異。舉例來說,作者發現 GPT‑4o 的整體硬性限制為 15.02%,我們得出的結果則為 13.38%。我們使用了完整的 912 題基準測試題庫。
在一項內部基準測試中,我們評估了模型執行第一年至第三年投資銀行分析建模任務的能力,例如為一家《財星》500 強公司建置具備正確格式與引註的財務三表模型,或為一項私有化交易建立槓桿收購模型,而 ChatGPT 智慧體所使用的模型表現大幅超越深入研究工具和 o3。每項任務都是根據數百項與準確性和公式使用相關的標準進行評分。
我們也透過 BrowseComp 評估了 ChatGPT 智慧體的表現。這項今年稍早發佈的基準測試,專門評估瀏覽智慧體搜尋網路上難尋資訊的能力。這款模型創下 68.9% 的 SOTA 新高紀錄,比起深入研究工具高出 17.4 個百分點。
最後,在 WebArena(在新視窗中開啟) 這項基準測試中,專門評估了網頁瀏覽智慧體在完成實際任務方面的表現,而這款模型的表現優於採用 o3 的 CUA (Operator 所使用的模型)。
進行任何對話時,只要直接從撰寫工具的工具下拉式選單選取「智慧體模式」,就能隨時啟用 ChatGPT 的自主代理功能。簡單描述你想執行的任務,不管是進行深入研究、製作簡報還是報銷費用,什麼都可以。ChatGPT 為您執行任務的同時,畫面上會顯示旁白,讓您清楚掌握執行情況。必要時,您可隨時中斷任務和接管瀏覽器,確保任務符合您的目標。
ChatGPT 智慧體可使用您的連接器來與您的工作流程整合,並存取相關且實用的資訊。通過驗證後,這些連接器就會允許 ChatGPT 查看資訊並執行任務,像是歸納當天收件匣中郵件的重點,或是找到您有空安排會議的時段。但需要在網站上執行操作時,智慧體還是得提醒您接管瀏覽器親自登入。
此外,您也可以排程自動重複執行已完成的任務,例如每週一上午產生每週指標報表。
本次發佈的版本讓使用者首次能要求 ChatGPT 在網路上執行操作。這項功能引發了新的風險,特別是因為 ChatGPT 智慧體可以直接存取您的資料 (無論是透過連接器取得的資訊,或是您透過接管模式登入網站後所提供的資料)。我們進一步強化了 Operator 研究預覽版本的穩健控制機制,並針對即時網路上的敏感資訊處理、更廣泛的使用者觸及範圍,以及 (有限的) 終端機網路存取等挑戰,增設了額外的防護措施。儘管這些緩解措施大幅降低了風險,ChatGPT 智慧體所擴充的工具功能以及更廣泛的使用者觸及範圍,仍使其整體風險程度相對較高。
我們特別著重於防範針對 ChatGPT 智慧體的對抗性操控,特別是透過提示注入這類對智慧型系統普遍存在的風險,並已針對此類情境準備更全面的緩解措施。提示注入是指第三方試圖透過惡意提示影響 ChatGPT 智慧體的行為,而智慧體在其瀏覽網頁、執行任務時可能會遇到這些提示。舉例來說,網頁中的惡意提示可能藏在看不見的元素或中繼資料中,藉此誘使智慧體採取非預期行為,例如將來自連線服務的私人資料洩露給攻擊者,或是在使用者已登入的網站上執行有害動作。因為 ChatGPT 智慧體能夠直接執行操作,一旦攻擊成功,其造成的影響可能更大,所帶來的風險也更高。
我們已對該智慧體進行訓練與測試,使其能夠辨識並抵禦提示注入攻擊,同時也透過監控機制快速偵測並因應這類攻擊。在執行可能產生重大影響的操作前,必須明確取得使用者確認,也進一步降低了這類攻擊帶來的風險,而使用者可以根據需要,透過接管或暫停的方式來干預任務。使用者在決定提供哪些資訊給智慧體時,應審慎權衡這些風險與效益,同時採取相對措施降低潛在風險,例如在不需要使用某項工作時停用連接器。
我們也針對模型錯誤實施以下相對的風險緩解措施,尤其是考量到現今模型已經能執行影響現實世界的任務:
- 明確取得使用者確認:訓練 ChatGPT 在執行可能產生現實影響的動作 (例如購買行為) 前,明確請求您的許可。
- 主動監督 (「監視模式」):某些需要您主動監督的關鍵任務,例如傳送電子郵件。
- 主動緩解風險:訓練 ChatGPT 主動拒絕執行高風險任務,例如銀行轉帳。
最後,我們引進額外的控管機制,限制模型可存取的資料範圍:
- 隱私控管機制:只要在 ChatGPT 設定中按一下,就可以刪除所有瀏覽資料,並立即登出全部有效的網站工作階段。否則,Cookie 的保留將依各個造訪網站的 Cookie 政策而定,協助提升重複造訪時的效率。
- 安全瀏覽器接管模式:當您使用 ChatGPT 的瀏覽器操作網站時 (「接管模式」),您輸入的內容都會受到隱私保護。ChatGPT 不會收集或儲存您在這些工作階段中輸入的任何資料,例如密碼,因為模型並不需要這些資訊,且從安全角度來看,模型從未接觸這些資料會更為安全。
隨著模型能力的提升,我們決定依據應變整備框架,將 ChatGPT 智慧體歸類為具備高度生物與化學能力,並啟動相應的安全防護措施。雖然我們尚無明確證據顯示此模型可能對初學者在造成重大生物危害方面有實質幫助 (即我們判定為「高能力」的標準) ,我們仍對此採取謹慎態度,並已著手實施必要的安全防護措施。因此,該模型配備了我們迄今為止最全面的安全防護機制,特別針對生物領域強化了保護措施,包括全面的威脅建模、雙重用途拒絕訓練、能夠持續運作的分類器與推理監控,以及明確的執行流程。
除了我們針對 ChatGPT 智慧體所做的安全工作外,我們也深知多層次生物安全措施只有在防護擴及至超過單一實驗室時才能發揮最佳效果,因此我們與整個生態系統中的各方合作,共同加強防禦能力。自一開始,我們便與外部的生物安全專家、安全機構以及學術研究人員密切合作,共同制定我們的威脅模型、評估標準和相關政策。具備生物學背景的審查員已對我們的評估資料進行驗證,且對應領域專家紅隊成員也在逼真的情境中對防護措施進行了嚴格測試。本月初,我們舉辦了一場生物防禦講座,邀請來自政府、學術界、國家實驗室及非政府組織的專家,共同加速合作並推動由人工智慧提供支援的生物防禦研究發展。我們將持續與全球夥伴合作,在新型風險出現前預先採取因應措施。
ChatGPT 智慧體將於今日開始向 Pro、Plus 及 Team 版本使用者陸續開放;Pro 版本使用者將於今日結束前取得使用權限,而 Plus 及 Team 版本使用者則會在接下來幾天內陸續獲得使用權限。Enterprise 和 Education 版本使用者可在接下裡數週內開始使用這項功能。Pro 版本使用者每月任務數為 400 則訊息,而其他付費方案使用者每月可獲得 40 則訊息,另提供多種選項,可彈性加購使用額度。
我們仍在努力開放歐洲經濟區及瑞士的使用權限。
Operator 研究預覽版網站將持續運作數週,之後將會正式退場。深入研究是 ChatGPT 智慧體的其中一項功能。如果您偏好使用原版深入研究功能,還是可以在訊息撰寫工具的下拉式選單中選取「深入研究」來使用原版模型,雖然回應時花的時間比較長,不過預設提供的資訊更加詳細且深入。
ChatGPT 智慧體的發展目前仍處於初期階段。目前雖然可執行各種複雜任務,但仍有可能出錯。
雖然我們認為其產生簡報投影片的能力具備可觀潛力,但此功能目前仍處於測試階段。目前,輸出的格式與潤飾有時仍略顯粗糙,尤其是在從零開始、沒有現有文件作為基礎時。我們將模型初期的功能重點放在產出能夠適用於簡報的成品,以適當的編排和格式歸納資訊,內容包括文字、圖表、圖片和圖形等元素,這些元素在匯出後均可原生且輕鬆地編輯,有效提升架構清晰度和彈性。目前,簡報檢視器中的投影片與匯出的 PowerPoint 之間偶爾會有不一致的情況,我們正在努力減少這類差異。此外,雖然您目前可以上傳現成的試算表供 ChatGPT 編輯或當成範本使用,但這項功能尚未開放用於簡報。我們已著手訓練下一代 ChatGPT 的簡報製作功能,未來將能產出更精緻、更成熟的輸出內容,且功能更齊全,格式也更完善。
整體而言,我們預期 ChatGPT 智慧體的效率、理解深度和多元化應用能力都將持續提升,我們也會不斷調整使用者所需的監督程度,讓互動流程更加順暢,在保障使用安全的前提下提高實用性。
SpreadsheetBench | ||||
模型 | 評估環境 | 軟性限制 (%):儲存格層級 | 軟性限制 (%):試算表層級 | 軟性限制 (%):整體 |
GPT‑4o | Windows、Excel | 15.03 | 23.65 | 18.35 |
Copilot in Excel | Windows、Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX、LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX、LibreOffice | 22.40 | 24.60 | 23.25 |
ChatGPT 智慧體 | OSX、LibreOffice | 38.27 | 30.48 | 35.27 |
支援 .xlsx 的 ChatGPT 智慧體 | OSX、LibreOffice | 50.56 | 37.51 | 45.54 |
人類 | 75.56 | 65.00 | 71.33 |
作者
註腳
*啟用瀏覽功能時,模型有時可以在線上找到準確答案,例如閱讀包含樣本題目的部落格文章,以取得資料集中的題目範例。我們透過兩項策略來降低模型在瀏覽時作弊的疑慮:
1.封鎖我們觀察到模型過去曾用來作弊的網域。
2.將額外的模型當成監控器使用,檢視每次解題中的所有工具輸出權杖,辨識可疑行為。可疑行為的定義如下:主要用途是提供特定問題準確答案的網頁、檔案或程式碼片段,例如官方評分標準、遭外洩的「解答」程式碼,或是逐字引用完整答案的討論內容。良性行為的定義如下:勤勉的人類可能會查閱的任何權威資源 (文件、手冊、學術論文、可信文章等),即使內容偶然包含正確答案,仍視為正當。只要監控器判定為可疑行為,該次答題結果就會視為錯誤。多數未通過這項檢查的樣本,都是在多個與 HLE 無關的網路資源就能查到完整解答的題目。
**層級 1-3 資料集的 290 道私人題目中,OpenAI 擁有 237 道題目的獨家存取權。FrontierMath 層級 4 題目不在此列。結果是根據每題 16 次作答的平均值進行評估。ChatGPT 智慧體的結果由 OpenAI 提出,由 Epoch AI 評分,並具備瀏覽器和終端機存取權限,每個回答限制在 128K 字元內。OpenAI o4-mini 與 o3 的評估由 Epoch AI 進行提問與評分,模型不具備瀏覽器及終端機存取權限,透過函式呼叫使用 Python 指令碼,且每個回答限制在 100K 字元內。
*** Oracle@64 指的是在 64 次抽樣執行中所取得的最佳分數,該分數依據實際評分結果選出 (即我們會根據每個任務的實際評分表現,挑選分數最高的嘗試)。我們報告的是所有任務中每個任務最佳分數的平均值。此指標凸顯了模型在任務表現上的上限潛力與變異性,其展示模型在成功時的能力,同時也顯示出透過進一步訓練提升穩定性與一致性的空間。與典型以模型信心作為選擇依據的「best of N」指標不同,Oracle@64 依據實際標準答案 (Gound Truth) 進行選擇,且適用於以 0 到 1 連續分數評分的任務,而非二元性通過/不通過評分。


