23 de janeiro de 2025

Agente para uso do computador (CUA)

Capacitamos o Operator com o agente para uso do computador (CUA), uma interface universal que vai ajudar a IA interagir com o mundo digital.

Ir para o Operator

Carregando…

Hoje apresentamos uma prévia de investigação do Operator⁠(abre em uma nova janela), um agente que pode acessar a Web para realizar tarefas para você. O mecanismo que capacita o Operator é o agente para uso do computador (CUA), um modelo que combina os recursos de visão do GPT‑4o com raciocínio avançado por meio da aprendizagem por reforço. O CUA é treinado para interagir com interfaces gráficas de usuário (GUIs) — ou seja, os botões, menus e campos de texto que as pessoas veem em uma tela — tal como um ser humano faria. Isso proporciona flexibilidade na hora de executar tarefas digitais, sem que seja necessário usar APIs específicas do sistema operacional ou da Web.

O CUA é resultado de anos de investigação voltada para a intersecção entre a compreensão multimodal e a reflexão. Ao combinar percepção de GUI avançada com resolução estruturada de problemas, ele consegue dividir tarefas em planos de várias etapas e se autocorrigir de maneira adaptativa sempre que pintar um desafio. Essa capacidade marca o próximo passo no desenvolvimento da IA, pois permite que os modelos utilizem as mesmas ferramentas que os seres humanos utilizam diariamente. Além disso, também abre portas para uma vasta gama de novas aplicações.

Embora ainda esteja em fase inicial e tenha limitações, o CUA estabelece novos padrões de referência de última geração, alcançando uma taxa de sucesso de 38,1% no OSWorld para tarefas de uso completo do computador, 58,1% no WebArena e 87% no WebVoyager para tarefas baseadas na Web. Esses resultados destacam a capacidade do CUA de navegar e operar em diversos ambientes usando um único espaço de ação geral.

Tal como está detalhado no cartão do sistema do Operator, nós desenvolvemos o CUA para priorizar a segurança e, assim, ser capaz de enfrentar os desafios que envolvem a presença de um agente no mundo digital. Ainda dentro da nossa estratégia de implementação iterativa, decidimos lançar o CUA por meio de uma prévia de investigação do Operator em operator.chatgpt.com⁠(abre em uma nova janela). Por ora, o acesso está restrito a usuários do plano Pro⁠(abre em uma nova janela) nos EUA. Com o feedback do mundo real, poderemos refinar as medidas de segurança e melhorar continuamente. Enquanto isso, continuaremos em preparação para um futuro onde os agentes digitais são cada vez mais utilizados.

Como funciona

Fluxograma que mostra o processo de um sistema CUA interpretando entradas como texto ou capturas de tela, gerando ações e aplicando comandos a uma máquina virtual.

O CUA processa dados brutos de pixels para compreender o que está acontecendo na tela, e além disso também usa um mouse e um teclado virtuais para realizar ações. Ele consegue navegar por tarefas com várias etapas, lidar com erros e se adaptar a alterações inesperadas. Tudo isso permite que o CUA atue em uma ampla variedade de ambientes digitais, realizando tarefas como preenchimento de formulários e navegação em sites sem a necessidade de APIs especializadas.

Dependendo da instrução do usuário, o CUA consegue operar por meio de um loop iterativo que integra percepção, reflexão e ação:

Percepção: capturas de tela do computador são adicionadas ao contexto do modelo, fornecendo um instantâneo visual do estado atual do computador.
Reflexão: o CUA reflete sobre os próximos passos usando uma cadeia de pensamentos, que leva em consideração as capturas de tela e as ações atuais e anteriores. Esse monólogo interno melhora o desempenho das tarefas, permitindo que o modelo avalie observações, acompanhe etapas intermediárias e se adapte dinamicamente.
Ação: ele executa as ações (clicar, rolar ou digitar) até determinar que a tarefa foi concluída ou que uma ação do usuário é necessária. Embora execute a maioria das etapas automaticamente, o CUA solicita a confirmação do usuário para ações confidenciais (por exemplo, inserir detalhes de login ou responder a formulários CAPTCHA).

Avaliações

O CUA estabelece um novo padrão de excelência em benchmarks de uso para computadores e navegadores, pois utiliza a mesma interface universal de tela, mouse e teclado.

Tipo de benchmark	Benchmark	Uso do computador (interface universal)		Agentes de navegação na web	Humano
		OpenAI CUA	SOTA anterior	SOTA anterior
Uso do computador	OSWorld	38,1%	22,0%	-	72,4%
Uso do navegador	WebArena	58,1%	36,2%	57,1%	78,2%
Uso do navegador	WebVoyager	87,0%	56,0%	87,0%	-

Os detalhes da avaliação estão descritos aqui

Uso do navegador

O WebArena⁠(abre em uma nova janela) e o WebVoyager⁠(abre em uma nova janela) foram concebidos para avaliar o desempenho dos agentes de navegação na Web e na realização de tarefas reais via navegadores. O WebArena utiliza sites de código aberto auto-hospedados offline para imitar cenários reais em áreas como comércio eletrônico, gerenciamento de conteúdo de lojas online (CMS), plataformas de fóruns sociais e muito mais. Já o WebVoyager testa o desempenho do modelo em sites online ativos, como Amazon, GitHub e Google Maps.

Nesses benchmarks, o CUA define um novo padrão usando a mesma interface universal que percebe a tela do navegador como pixels e realiza ações por meio do mouse e do teclado. Para tarefas baseadas na Web, o CUA alcançou uma taxa de sucesso de 58,1% no WebArena e uma taxa de sucesso de 87% no WebVoyager. Embora tenha alcançado uma alta taxa de sucesso no WebVoyager, onde a maioria das tarefas é relativamente simples, ele ainda precisa de mais melhorias para diminuir a diferença (em comparação ao desempenho humano) em benchmarks mais complexos, como o WebArena.

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

Uso do computador

O OSWorld⁠(abre em uma nova janela) é um benchmark que avalia a capacidade dos modelos de controlar sistemas operacionais completos, como Ubuntu, Windows e macOS. Neste benchmark, o CUA alcançou uma taxa de sucesso de 38,1%. Observamos uma escala de tempo de teste, o que significa que o desempenho do CUA melhora quando mais etapas são permitidas. A figura abaixo compara o desempenho do CUA com os padrões anteriores, levando em consideração as diferentes etapas máximas permitidas. O desempenho humano neste benchmark é de 72,4%, ou seja: ainda há muito espaço para melhorias.

Texto alternativo: Gráfico de linha intitulado “OSWorld”, mostrando as taxas de sucesso (%) em relação ao número máximo de etapas permitidas em uma escala logarítmica. A linha azul representa o CUA da OpenAI, e os pontos laranja representam o Claude 3.5 Sonnet - Uso do computador, com anotações sobre as taxas de sucesso.

As visualizações a seguir mostram exemplos do CUA em ação, realizando diversas tarefas padronizadas do OSWorld.

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

CUA no Operator

Estamos disponibilizando o CUA por meio de uma prévia de investigação do Operator, um agente que pode acessar a Web para realizar tarefas para você. O Operator está disponível para usuários do plano Pro⁠(abre em uma nova janela) nos EUA, através do site operator.chatgpt.com⁠(abre em uma nova janela). Essa prévia da investigação é uma oportunidade para aprender com nossos usuários e com o ecossistema mais amplo, pois assim poderemos refinar e melhorar o Operator de forma iterativa. Como acontece com qualquer tecnologia em fase inicial, ainda não esperamos que o CUA apresente um desempenho confiável em todos os cenários. No entanto, ele já provou ser útil em diversos casos, e nosso objetivo é ampliar essa confiabilidade para uma variedade mais ampla de tarefas. O lançamento do CUA no Operator é, para nós, uma chance de reunir informações valiosas sobre nossos usuários. Essas informações, por sua vez, nos ajudarão a refinar os recursos e expandir as aplicações.

Na tabela abaixo, apresentamos o desempenho do CUA no Operator em algumas tentativas com um prompt. O objetivo é ilustrar pontos fortes e fracos conhecidos.

Categoria	Prompt	Sucesso / tentativas	Observação
Iteração com vários componentes da interface do usuário para realizar tarefas	Turno 1: Search Britannica for a detailed map view of bear habitats Turno 2: Great! Now please check out the black, brown and polar bear links and provide a concise general overview of their physical characteristics, specifically their differences. Oh and save the links for me so I can access them quickly.	10 / 10	O CUA pode interagir com vários componentes da interface do usuário para buscar, classificar e filtrar resultados, a fim de encontrar as informações desejadas pelos usuários. A confiabilidade varia de acordo com os diferentes sites e interfaces de usuário.
	I want one of those target deals. Can you check if they have a deal on poppi prebiotic sodas? If they do, I want the watermelon flavor in the 12fl oz can. Get me the type of deal that comes with this and check if it's gluten free.	9 / 10
	I am planning to shift to Seattle and I want you to search Redfin for a townhouse with at least 3 bedrooms, 2 bathrooms, and an energy-efficient design (e.g., solar panels or LEED-certified). My budget is between $600,000 - $800,000 and it should ideally be close to 1500 sq ft.	3 / 10
Tarefas que podem ser realizadas por meio de interações simples e repetidas na interface do usuário	Create a new project in Todoist titled 'Weekend Grocery Shopping.' Add the following shopping list with products: Bananas (6 pieces) Avocados (2 ripe) Baby Spinach (1 bag) Whole Milk (1 gallon) Cheddar Cheese (8 oz block) Potato Chips (Salted, family size) Dark Chocolate (70% cocoa, 2 bars)	10 / 10	O CUA pode repetir interações simples da interface do usuário várias vezes e de maneira confiável. Isso ajuda a automatizar aquelas tarefas simples, mas tediosas.
	Search Spotify for the most popular songs of the USA for the 1990s, and create a playlist with at least 10 tracks.	10 / 10
Tarefas em que o CUA apresenta um alto índice de sucesso apenas quando os prompts incluem dicas detalhadas sobre como usar o site.	Visit tagvenue.com and look for a concert hall that seats 150 people in London. I need it on Feb 22 2025 for the entire day from 9 am to 12 am, just make sure it is under £90 per hour. Oh could you check the filters section for appropriate filters and make sure there is parking and the entire thing is wheelchair accessible.	8 / 10	Até mesmo para tarefas idênticas, a confiabilidade do CUA pode variar dependendo de como o prompt da tarefa é definido. Nesse caso, é possível melhorar a confiabilidade fornecendo detalhes específicos sobre a data (por exemplo, das 9h às 12h em vez de o dia todo a partir das 9h) e dicas sobre qual interface do usuário deve ser usada para encontrar os resultados (por exemplo, verifique a seção de filtros...).
	Visit tagvenue.com and look for a concert hall that seats 150 people in London. I need it on Feb 22 2025 for the entire day from 9 am, just make sure it is under £90 per hour. Oh and make sure there is parking and the entire thing is wheelchair accessible.	3 / 10
Dificuldade em utilizar edição de texto e interface desconhecida de usuário	Use html5editor and input the folowing text on the left side, then edit it following my instructions and give me a screenshot of the entire thing when done. The text is: Hello world! This is my first text. I need to see how it would look like when programmed with HTML. Some parts should be red. Some bold. Some italic. Some underlined. Until my lesson is complete, and we shift to the other side. ... Hello world! should have header 2 applied The sentence below it should be a regular paragraph text. The sentence mentioning red should be normal text and red The sentence mentionnihg bold should be normal text bolded Sentence mentioning italic should be italicized The final sentence should be aligned to the right instead of the usual left	4 / 10	Em situações nas quais o CUA precisa interagir com interfaces de usuário com as quais não teve muito contato durante o treinamento, ele tem dificuldade para descobrir como usar a interface fornecida de maneira adequada. Isso geralmente resulta em muitas tentativas e erros, além de ações ineficientes. O CUA não é preciso na edição de texto. Muitas vezes, ele comete muitos erros no processo ou fornece resultados com erros.

Segurança

Como o CUA é um dos nossos primeiros produtos agênticos com capacidade de realizar ações diretamente em um navegador, ele traz novos riscos e desafios que precisam ser enfrentados. Enquanto nos preparávamos para a implantação do Operator, realizamos testes de segurança extensivos e implementamos medidas de mitigação em três principais classes de riscos de segurança: uso indevido, erros de modelo e riscos de fronteira. Acreditamos que é importante adotar uma abordagem em camadas para a segurança e, por isso, implementamos salvaguardas em todo o contexto de implantação: o próprio modelo do CUA, o sistema Operator e os processos pós-implantação. O objetivo é ter medidas de mitigação cumulativas, onde cada camada vai reduzindo gradualmente o perfil de risco.

A primeira categoria de risco é o uso indevido. Além de exigir que os usuários cumpram nossas Políticas de uso, criamos as seguintes medidas para reduzir o risco de danos ao Operator por conta de uso indevido. Vale lembrar que isso foi feito com base em nosso trabalho de segurança para o GPT‑4o:

Recusas: o modelo do CUA foi treinado para recusar muitas tarefas prejudiciais e atividades ilegais ou regulamentadas.
Lista de bloqueios: o Operator não pode acessar sites que bloqueamos preventivamente, como muitos sites de jogos de azar, entretenimento adulto e varejistas de drogas ou armas.
Moderação: as interações dos usuários são analisadas em tempo real por verificadores de segurança automatizados, projetados para garantir a conformidade com as Políticas de uso e capacitados para emitir avisos ou bloqueios referentes a atividades proibidas.
Detecção offline: também desenvolvemos pipelines de detecção automatizada e revisão humana para identificar usos proibidos em áreas prioritárias da política, incluindo segurança infantil e atividades enganosas. Desse modo, conseguimos aplicar nossas Políticas de uso.

A segunda categoria de risco é a dos erros do modelo, em que o modelo do CUA acidentalmente realiza uma ação que o usuário não pretendia. Isso, por sua vez, causa danos ao usuário ou a outras pessoas. Os erros hipotéticos podem variar em gravidade — desde um erro ortográfico em um e-mail até a compra do item errado ou a exclusão permanente de um documento importante. Para minimizar possíveis danos, desenvolvemos as seguintes medidas de mitigação:

Confirmações do usuário: o modelo do CUA é treinado para solicitar a confirmação do usuário antes de finalizar tarefas com efeitos colaterais externos (por exemplo, antes de enviar um pedido, enviar um e-mail etc.). Dessa forma, o usuário pode verificar novamente o trabalho do modelo antes que a ação seja permanente.
Limitações nas tarefas: por enquanto, o modelo do CUA não ajudará em determinadas tarefas de maior risco, como transações bancárias e tarefas que exigem tomadas de decisão mais delicadas.
Modo de observação: em sites particularmente sensíveis, como e-mails, o Operator requer supervisão ativa dos usuários. Desse modo, é possível detectar e corrigir diretamente quaisquer erros potenciais que o modelo possa cometer.

Outra categoria particularmente importante de erros de modelo são os ataques adversários a sites. Esses ataques fazem com que o modelo do CUA execute ações indesejadas por meio de injeções de prompt, jailbreaks e tentativas de phishing. Além das medidas de mitigação contra erros do modelo que já mencionamos acima, também desenvolvemos várias camadas adicionais de defesa para oferecer proteção contra esses riscos:

Navegação cautelosa: o modelo do CUA foi projetado para identificar e ignorar injeções de prompt em sites, reconhecendo todos os casos, exceto um, a partir de uma sessão interna inicial das equipes internas de testes ofensivos.
Monitoramento: implementamos um modelo adicional no Operator para monitorar e pausar a execução, caso o agente detecte conteúdo suspeito na tela.
Pipeline de detecção: estamos aplicando pipelines de detecção automatizada e revisão humana para identificar padrões de acesso suspeitos que podem ser sinalizados e rapidamente adicionados ao monitor (em questão de horas).

Por fim, também avaliamos o modelo do CUA em relação aos riscos de fronteira descritos em nosso Framework de prontidão⁠(abre em uma nova janela), incluindo cenários envolvendo replicação autônoma e ferramentas de riscos biológicos. Essas avaliações não mostraram nenhum risco adicional além do GPT‑4o.

Para quem tiver interesse em explorar as avaliações e salvaguardas em mais detalhes, recomendamos consultar o cartão do sistema do Operator: um documento dinâmico, que oferece transparência sobre nossa abordagem de segurança e melhorias contínuas.

Como muitos dos recursos do Operator são novos, os riscos e as abordagens de mitigação que implementamos também são novos. Embora tenhamos buscado medidas de mitigação de última geração, diversificadas e complementares, a expectativa é de que esses riscos e nossa abordagem evoluam à medida que aprendemos mais. Queremos utilizar o período de prévia de investigação como uma oportunidade para coletar feedback dos usuários, refinar nossas salvaguardas e reforçar a segurança dos agentes.

Conclusão

O CUA é resultado de anos de avanços na investigação em multimodalidade, reflexão e segurança. Fizemos progressos significativos em raciocínio profundo por meio da série de modelos o, além dos avanços nos recursos de visão por meio do GPT‑4o e em novas técnicas para melhorar a robustez. Tudo isso se deu por meio da aprendizagem por reforço e hierarquia de instruções. O próximo desafio que pretendemos explorar é expandir o espaço de ação dos agentes. A flexibilidade oferecida por uma interface universal vai ajudar a resolver esse desafio, pois permite que um agente navegue em qualquer ferramenta de software projetada para humanos. Ao ir além das APIs especializadas e fáceis de usar para agentes, o CUA pode se adaptar a qualquer ambiente de computador disponível, atendendo verdadeiramente à “cauda longa” dos casos de uso digital que permanecem fora do alcance da maioria dos modelos de IA.

Também estamos trabalhando para disponibilizar o CUA na API⁠(abre em uma nova janela), pois assim os desenvolvedores poderão usá-lo na hora de criar seus próprios agentes para uso do computador (CUA). Queremos muito ver os diferentes casos de uso que a comunidade irá descobrir, sobretudo conforme a iteração do CUA continuar. Planejamos usar o feedback real que coletarmos durante a prévia inicial para refinar continuamente os recursos e as medidas de segurança da CUA, a fim de avançar com segurança em nossa missão de distribuir os benefícios da IA para todo mundo.

Autores

OpenAI

Referências

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku⁠(abre em uma nova janela)

Model Card Addendum: Claude 3.5 Haiku and Upgraded Claude 3.5 Sonnet⁠(abre em uma nova janela)

Kura WebVoyager benchmark⁠(abre em uma nova janela)

Google project mariner⁠(abre em uma nova janela)

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments⁠(abre em uma nova janela)

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models⁠(abre em uma nova janela)

WebArena: A Realistic Web Environment for Building Autonomous Agents⁠(abre em uma nova janela)

Citações

Por favor, cite a OpenAI e use o seguinte BibTeX para citação: http://cdn.openai.com/cua/cua2025.bib⁠(abre em uma nova janela)