今天,我们介绍了 Operator(在新窗口中打开) 的研究预览版,这是一个可以上网为您执行任务的智能体。为 Operator 提供支持的是计算机使用智能体 (CUA),这是一种通过强化学习将 GPT‑4o 的视觉功能与高级推理相结合的模型。经过训练,CUA 可以像人类一样与图形用户界面 (GUI)——人们在屏幕上看到的按钮、菜单和文本字段——进行交互。这使它能够灵活地执行数字任务,而无需使用操作系统或网络特定的 API。
CUA 基于多年来在多模态理解和推理交叉领域的基础研究。通过将先进的 GUI 感知与结构化问题解决相结合,它可以将任务分解为多步骤计划,并在出现挑战时进行自适应自我修正。这种能力标志着人工智能发展的下一步,使模型能够使用人类日常使用的工具,并为大量新应用打开了大门。
虽然 CUA 还处于早期阶段,存在一些局限性,但它创造了新的先进基准结果,在 OSWorld 上完成全部计算机使用任务的成功率达到 38.1%,在 WebArena 上达到 58.1%,在 WebVoyager 上完成基于网络的任务的成功率达到 87%。这些结果凸显了 CUA 在不同环境中使用单一通用操作空间进行导航和操作的能力。
我们在开发 CUA 时将安全作为重中之重,以应对智能体访问数字世界所带来的挑战,详情请参见我们的Operator 系统卡。根据我们的迭代部署策略,我们将通过 operator.chatgpt.com(在新窗口中打开) 上的 Operator 研究预览版发布 CUA,供美国的 Pro(在新窗口中打开) 用户开始使用。通过收集真实世界的反馈,我们可以完善安全措施并不断改进,为未来越来越多地使用数字智能体做好准备。

CUA 可处理原始像素数据以了解屏幕上发生了什么,并使用虚拟鼠标和键盘完成操作。它可以浏览多步骤任务、处理错误并适应意外变化。这使得 CUA 能够在各种数字环境中行动,执行填写表格和浏览网站等任务,而无需专门的 API。
根据用户的指令,CUA 通过一个迭代循环将感知、推理和操作整合在一起:
- 感知:计算机的屏幕截图被添加到模型的上下文中,提供计算机当前状态的视觉快照。
- 推理:CUA 利用思维链对下一步进行推理,同时考虑当前和过去的屏幕截图和操作。这种内心独白可使模型评估其观察结果、跟踪中间步骤并进行动态调整,从而提高任务性能。
- 操作:它执行点击、滚动或键入等操作,直到确定任务已完成或需要用户输入。虽然它能自动处理大多数步骤,但对于敏感操作,如输入登录信息或回复验证码表单,CUA 会寻求用户确认。
CUA 通过使用相同的屏幕、鼠标和键盘通用界面,在计算机使用和浏览器使用基准方面建立了新的先进水平。
| Benchmark type | Benchmark | Computer use (universal interface) | Web browsing agents | Human | |
|---|---|---|---|---|---|
| OpenAI CUA | Previous SOTA | Previous SOTA | |||
| Computer use | OSWorld | 38.1% | 22.0% | - | 72.4% |
| Browser use | WebArena | 58.1% | 36.2% | 57.1% | 78.2% |
| WebVoyager | 87.0% | 56.0% | 87.0% | - | |
WebArena(在新窗口中打开) 和 WebVoyager(在新窗口中打开) 旨在评估网络浏览智能体使用浏览器完成实际任务的性能。WebArena 利用离线自托管开源网站来模仿电子商务、在线商店内容管理 (CMS)、社交论坛平台等真实场景。WebVoyager 测试模型在亚马逊、GitHub 和谷歌地图等在线实时网站上的性能。
在这些基准测试中,CUA 使用相同的通用界面设定了新标准,该界面将浏览器屏幕视为像素,并通过鼠标和键盘进行操作。CUA 在 WebArena 上的成功率为 58.1%,在 WebVoyager 上的成功率为 87%。虽然 CUA 在大多数任务相对简单的 WebVoyager 上取得了较高的成功率,但 CUA 仍需进一步改进,才能在 WebArena 等更复杂的基准测试中缩小与人类效率的差距。
OSWorld(在新窗口中打开) 是一项评估机型控制 Ubuntu、Windows 和 macOS 等完整操作系统能力的基准测试。在该基准测试中,CUA 的成功率为 38.1%。我们观察到测试时扩展效应 (test-time scaling),这意味着当允许的步骤越多,CUA 的性能就越高。下图将 CUA 的性能与之前的先进技术进行了比较,允许的最大步骤各不相同。人类在该基准测试中的成功率为 72.4%,因此仍有很大的提升空间。
以下可视化展示了 CUA 浏览各种标准化 OSWorld 任务的示例。
我们将通过 Operator 的研究预览版提供 CUA,它是一个可以到网络上为您执行任务的智能体。美国的 Pro(在新窗口中打开) 用户可以通过 operator.chatgpt.com(在新窗口中打开) 使用 Operator。这次研究预览版是一次向用户和更广泛的生态系统学习的机会,我们将不断改进和完善 Operator。与任何早期技术一样,我们并不期望 CUA 在所有场景下都能可靠地运行。不过,它已经在各种情况下证明了其实用性,我们的目标是将这种可靠性扩展到更广泛的任务中。通过在 Operator 平台发布 CUA,我们希望能从用户那里收集到宝贵的意见,从而指导我们完善其功能并扩大其应用范围。
在下表中,我们介绍了 CUA 在 Operator 中的性能,并给出了一些试验提示,以说明其已知的优势和不足。
| 类别 | 提示 | 成功 次/ 次尝试 | 备注 |
|---|---|---|---|
| 与各种用户界面组件交互以完成任务 | Turn 1:Search Britannica for a detailed map view of bear habitats Turn 2:Great!Now please check out the black, brown and polar bear links and provide a concise general overview of their physical characteristics, specifically their differences.Oh and save the links for me so I can access them quickly. | 10 / 10 | CUA 可以与各种用户界面组件交互,对结果进行搜索、排序和筛选,从而找到用户想要的信息。不同网站和用户界面的可靠性各不相同。 |
| I want one of those target deals.Can you check if they have a deal on poppi prebiotic sodas?If they do, I want the watermelon flavor in the 12fl oz can.Get me the type of deal that comes with this and check if it's gluten free. | 9 / 10 | ||
| I am planning to shift to Seattle and I want you to search Redfin for a townhouse with at least 3 bedrooms, 2 bathrooms, and an energy-efficient design (e.g., solar panels or LEED-certified).My budget is between $600,000 - $800,000 and it should ideally be close to 1500 sq ft. | 3 / 10 | ||
| 通过重复简单的用户界面交互即可完成的任务 | Create a new project in Todoist titled 'Weekend Grocery Shopping.'Add the following shopping list with products: Bananas (6 pieces) Avocados (2 ripe) Baby Spinach (1 bag) Whole Milk (1 gallon) Cheddar Cheese (8 oz block) Potato Chips (Salted, family size) Dark Chocolate (70% cocoa, 2 bars) | 10 / 10 | CUA 可以可靠地多次重复简单的用户界面交互,自动完成用户简单但乏味的任务。 |
| Search Spotify for the most popular songs of the USA for the 1990s, and create a playlist with at least 10 tracks. | 10 / 10 | ||
| 只有在提示包括如何使用网站的详细提示时,CUA 才会显示较高成功率的任务。 | Visit tagvenue.com and look for a concert hall that seats 150 people in London.I need it on Feb 22 2025 for the entire day from 9 am to 12 am, just make sure it is under £90 per hour. Oh could you check the filters section for appropriate filters and make sure there is parking and the entire thing is wheelchair accessible. | 8 / 10 | 即使对于同一项任务,CUA 的可靠性也可能因我们提示任务的方式而异。在这种情况下,我们可以通过提供日期的具体信息(例如,上午 9 点到午夜 12 点 vs. 从上午 9 点开始的全天)以及提供应使用哪个 UI 查找结果的提示(例如,查看筛选条件部分……)来提高可靠性。 |
| Visit tagvenue.com and look for a concert hall that seats 150 people in London.I need it on Feb 22 2025 for the entire day from 9 am, just make sure it is under £90 per hour. Oh and make sure there is parking and the entire thing is wheelchair accessible. | 3 / 10 | ||
| 难以使用不熟悉的用户界面和文本编辑 | Use html5editor and input the folowing text on the left side, then edit it following my instructions and give me a screenshot of the entire thing when done.The text is: Hello world! This is my first text.I need to see how it would look like when programmed with HTML. Some parts should be red. Some bold. Some italic. Some underlined. Until my lesson is complete, and we shift to the other side. ... Hello world! should have header 2 applied The sentence below it should be a regular paragraph text. The sentence mentioning red should be normal text and red The sentence mentionnihg bold should be normal text bolded Sentence mentioning italic should be italicized The final sentence should be aligned to the right instead of the usual left | 4 / 10 | 当 CUA 需要与它在训练期间没怎么接触过的用户界面进行交互时,它很难弄明白如何正确使用所提供的用户界面。这往往会导致大量的尝试和错误,以及低效的操作。 CUA 不擅长文本编辑。它经常在过程中犯很多错误,或者提供错误的输出。 |
由于 CUA 是我们首批具备直接在浏览器中执行操作的智能体产品之一,因此它带来了新的风险和挑战。在准备部署 Operator 的过程中,我们进行了广泛的安全测试,并实施了三大类安全风险的缓解措施:滥用、模型错误和前沿风险。我们认为,采取分层安全方法非常重要,因此我们在整个部署过程中都采取了保障措施:CUA 模型本身、Operator 系统和部署后流程。这样做的目的是使缓解措施层层叠加,每一层都能逐步降低风险。
第一类风险是滥用。除了要求用户遵守我们的使用政策外,我们还在 GPT‑4o 安全工作的基础上设计了以下缓解措施,以降低 Operator 因滥用而造成的危害风险。
- 拒绝:CUA 模型经过训练,可以拒绝许多有害任务和非法或受管制的活动。
- 屏蔽列表:Operator 无法访问我们预先屏蔽的网站,例如许多赌博网站、成人娱乐网站以及毒品或枪支零售商。
- 内容审核:自动安全检查程序会实时审查用户的交互行为,以确保用户遵守《使用政策》,并能对违禁活动发出警告或阻止。
- 离线检测:我们还开发了自动检测和人工审查管道,以识别优先政策领域中的违禁使用,包括儿童安全和欺骗性活动,使我们能够执行我们的《使用政策》。
第二类风险是模型错误,即 CUA 模型意外采取了用户无意的操作,进而对用户或他人造成伤害。假设错误的严重程度不一,从电子邮件中的错别字,到购买了错误的商品,再到永久删除重要文件,不一而足。为了最大限度地减少潜在危害,我们开发了以下缓解措施:
- 用户确认:CUA 模型在完成具有外部副作用的任务之前,例如在提交订单、发送电子邮件等之前,都会要求用户确认,这样用户就可以在永久性删除之前再次检查模型的工作。
- 任务限制:目前,CUA 模型将拒绝帮助处理某些风险较高的任务,如银行交易和需要敏感决策的任务。
- 观察模式:在电子邮件等特别敏感的网站上,Operator 需要用户主动监督,确保用户能直接发现并处理模型可能犯的任何错误。
其中一类特别重要的模型错误是对网站的恶意攻击,这些攻击会导致 CUA 模型采取非预期操作,如提示注入、越狱和网络钓鱼。除了上述针对模型错误的缓解措施外,我们还开发了几层额外的防御措施来防范这些风险:
- 谨慎导航:CUA 模型设计用于识别和忽略网站上的提示注入,在早期的内部红队测试中,除一个案例外,识别了所有其他案例。
- 监控:在 Operator 中,我们实施了一个额外的模型,用于监控并在检测到屏幕上的可疑内容时暂停执行。
- 检测管道:我们正在应用自动检测和人工审查管道来识别可疑的访问模式,这些模式可被标记并快速添加到监控器中(在几小时内)。
最后,我们根据准备框架中列出的前沿风险(在新窗口中打开)对 CUA 模型进行了评估,包括涉及自主复制和生物风险工具的情况。这些评估表明,在 GPT‑4o 的基础上没有增加风险。
如果您有兴趣更详细地了解评估和保障措施,我们建议您查看 Operator 系统卡,这是一份动态文件,提供了我们安全方法和持续改进的透明度。
由于 Operator 的许多功能都是全新的,因此我们实施的风险和缓解方法也是全新的。 虽然我们的目标是采取最先进、多样和互补的缓解措施,但我们希望这些风险和我们的方法会随着我们了解的增多而不断发展。我们期待利用研究预览期这一机会,收集用户反馈,完善我们的保障措施,提高智能体安全性。
CUA 基于多年来在多模态、推理和安全方面的研究进展。我们通过 o 模型系列在深度推理方面取得了重大进展,通过 GPT‑4o 实现了视觉能力,并通过强化学习和指令分层等新技术提高了鲁棒性。我们计划探索的下一个挑战领域是扩大智能体的行动空间。通用接口所提供的灵活性可以解决这一难题,使智能体可以浏览任何为人类设计的软件工具。通过超越专门的智能体友好 API,CUA 可以适应任何可用的计算机环境——真正解决大多数人工智能模型无法解决的“长尾”数字用例问题。
我们还致力于在 API(在新窗口中打开) 中提供 CUA,这样开发人员就可以用它来构建自己的计算机使用智能体。随着我们对 CUA 的不断改进,我们期待着看到社区发现不同的使用案例。我们计划利用从这一早期预览版中收集到的实际反馈,不断改进 CUA 的功能和安全缓解措施,以安全地推进我们的使命,即让每个人都能享受人工智能带来的好处。