23 janvier 2025

Agent utilisateur d’ordinateur (CUA)

Operator repose sur le modèle Computer-Using Agent (CUA), une interface universelle permettant à l’IA d’interagir avec le monde numérique.

Accéder à Operator

Chargement...

Nous avons annoncé ce jour la version préliminaire d’Operator⁠(ouverture dans une nouvelle fenêtre), un agent capable de réaliser des tâches sur le Web pour vous. Operator repose sur un nouveau modèle appelé Agent utilisateur d’ordinateur, ou Computer-Using Agent (CUA), qui combine les capacités de vision de GPT‑4o à un raisonnement avancé issu d’un apprentissage par renforcement. CUA a été entraîné pour interagir avec des interfaces graphiques utilisateurs, à savoir les boutons, menus et champs de texte affichés à l’écran, comme le ferait un être humain. Il peut ainsi effectuer diverses tâches numériques sans passer par des API spécifiques à un système d’exploitation ou au Web.

CUA est l’aboutissement d’années de recherche théorique sur la compréhension multimodale et le raisonnement. Il combine perception avancée des interfaces et résolution structurée des problèmes pour décomposer chaque tâche en plusieurs étapes et s’adapter lorsqu’il rencontre une difficulté. Cette capacité marque une nouvelle étape dans le développement de l’IA en permettant aux modèles d’utiliser les outils auxquels les humains font appel dans leur quotidien, et elle ouvre la voie à une multitude d’applications inédites.

CUA en est encore à ses balbutiements et présente donc des limites, mais ses résultats battent déjà des records. Il a par exemple atteint un taux de réussite de 38,1 % sur OSWorld, une évaluation portant sur les tâches entièrement effectuées par ordinateur, de 58,1 % sur WebArena et de 87 % sur WebVoyager (tâches web). Ces résultats témoignent bien de la capacité de CUA à appréhender des environnements variés pour y accomplir des tâches à l’aide d’un seul ensemble d’actions.

Nous avons mis au point CUA en nous concentrant avant tout sur sa sécurité, car un agent capable d’accéder au monde numérique pose des défis inédits, comme indiqué dans la fiche système d’Operator. Conformément à notre stratégie de déploiement itératif, nous publions CUA dans une version préliminaire d’Operator, accessible dans un premier temps uniquement sur operator.chatgpt.com⁠(ouverture dans une nouvelle fenêtre) par les utilisateurs d’un forfait Pro⁠(ouverture dans une nouvelle fenêtre) basés aux États-Unis. Les commentaires de nos utilisateurs nous permettront d’affiner nos mesures de sécurité et de déployer des améliorations continues pour préparer un avenir dans lequel les agents numériques seront toujours plus nombreux.

Comment ça fonctionne

Diagramme de fonctionnement d’ un système CUA. Le modèle procède à l’interprétation d’une entrée sous forme de texte ou de capture d’écran, génère des actions et envoie des commandes à une machine virtuelle.

CUA traite les pixels bruts pour comprendre ce qui se passe à l’écran, et utilise une souris et un clavier virtuels pour effectuer des actions. Il est capable de réaliser des tâches en plusieurs étapes, de gérer les erreurs et de s’adapter aux changements imprévus. Il est ainsi opérationnel dans de nombreux types d’environnements numériques et peut remplir des formulaires ou parcourir des sites sans API spécialisées.

À partir d’une instruction donnée par un utilisateur, CUA suit une boucle itérative intégrant perception, raisonnement et action :

Perception : des captures d’écran de l’ordinateur viennent enrichir le contexte du modèle et lui donnent un instantané de son état actuel.
Raisonnement : CUA passe d’une étape à l’autre en raisonnant selon une chaîne de pensée qui prend en compte les captures d’écran et actions actuelles et passées. Ce monologue interne améliore ses performances d’exécution des tâches en lui permettant d’évaluer ses observations, de suivre le déroulement des étapes intermédiaires et de s’adapter dynamiquement.
Action : il effectue les actions (cliquer, faire défiler l’écran ou saisir du texte) jusqu’à ce qu’il estime que la tâche est terminée ou que l’utilisateur doit intervenir. S’il est capable d’effectuer la plupart des étapes automatiquement, CUA demande la confirmation de l’utilisateur pour les actions sensibles, par exemple la saisie d’identifiants ou la réponse aux CAPTCHA.

Évaluations

CUA bat des records dans les évaluations d’utilisation d’un ordinateur et d’un navigateur, car il se sert de la même interface universelle que les humains : un écran, une souris et un clavier.

Type d’évaluation	Évaluation	Utilisation d’un ordinateur (interface universelle)		Agents de navigation sur le Web	Humain
		OpenAI CUA	État de l’art précédent	État de l’art précédent
Utilisation d’un ordinateur	OSWorld	38,1 %	22,0 %	-	72,4 %
Utilisation du navigateur	WebArena	58,1 %	36,2 %	57,1 %	78,2 %
Utilisation du navigateur	WebVoyager	87,0 %	56,0 %	87,0 %	-

Les détails de l’évaluation sont présentés ici

Utilisation du navigateur

WebArena⁠(ouverture dans une nouvelle fenêtre) et WebVoyager⁠(ouverture dans une nouvelle fenêtre) sont conçues pour évaluer la performance des agents sur l’exécution de tâches concrètes dans des navigateurs. WebArena utilise des sites web open source autohébergés hors ligne pour simuler des scénarios concrets : transactions d’e-commerce, gestion de contenus pour les boutiques en ligne, plateformes de réseaux sociaux, etc. WebVoyager teste les performances d’un modèle sur des sites web en ligne comme Amazon, GitHub et Google Maps.

Dans ces évaluations, CUA atteint de nouveaux records, toujours avec son interface universelle qui perçoit l’écran du navigateur sous la forme de pixels et exécute des actions avec une souris et un clavier. CUA a atteint un taux de réussite de 58,1 % sur WebArena et de 87 % sur WebVoyager pour les tâches web. Le taux de réussite de CUA sur WebVoyager est élevé, mais les tâches demandées sont assez simples. Il doit encore s’améliorer pour combler l’écart avec un humain sur les évaluations plus complexes comme WebArena.

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

Utilisation d’un ordinateur

OSWorld⁠(ouverture dans une nouvelle fenêtre) évalue la capacité d’un modèle à contrôler des systèmes d’exploitation complets comme Ubuntu, Windows et macOS. Dans cette évaluation, CUA atteint un taux de réussite de 38,1 %. Nous avons constaté que les performances de CUA s’améliorent lorsque le nombre d’étapes autorisées augmente. Le graphique ci-dessous compare les performances de CUA avec ce qui se faisait de mieux précédemment en fonction du nombre maximal d’étapes autorisées. Un être humain atteint 72,4 % sur cette évaluation, il reste donc une marge de progression importante.

Texte alternatif : « Graphique intitulé OSWorld montrant le taux de réussite (%) en fonction du nombre maximal d’étapes autorisées sur une échelle logarithmique. La ligne bleue représente le modèle CUA d’OpenAI et les points oranges Claude 3.5 Sonnet. Des annotations mettent en évidence les taux de réussite.

Les visualisations suivantes montrent comment CUA exécute diverses tâches standardisées d’OSWorld.

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

CUA dans Operator

CUA est accessible via une version préliminaire d’Operator, un agent capable de réaliser des tâches sur le Web pour vous. Operator est disponible sur operator.chatgpt.com⁠(ouverture dans une nouvelle fenêtre) pour les utilisateurs Pro⁠(ouverture dans une nouvelle fenêtre) basés aux États-Unis. Cette version préliminaire va nous permettre de bénéficier des retours de nos utilisateurs et de l’écosystème dans son ensemble pour améliorer progressivement Operator. Comme pour toute technologie récente, nous savons que CUA ne sera pas fiable dans tous les scénarios. Il se montre toutefois déjà utile dans différents contextes, et nous cherchons à élargir encore ses compétences. En distribuant CUA via Operator, nous espérons obtenir des informations utiles de nos utilisateurs pour pouvoir affiner ses capacités et étendre ses applications.

Le tableau ci-dessous présente les performances de CUA dans Operator avec quelques prompts pour montrer ses points forts et ses points faibles.

Catégorie	Prompt	Réussites/Tentatives	Remarque
Interaction avec divers composants d’interface utilisateur pour réaliser des tâches	Turn 1: Search Britannica for a detailed map view of bear habitats Turn 2: Great! Now please check out the black, brown and polar bear links and provide a concise general overview of their physical characteristics, specifically their differences. Oh and save the links for me so I can access them quickly.	10 / 10	CUA peut interagir avec différents composants d’interface utilisateur pour rechercher, trier et filtrer les résultats afin d’obtenir les informations demandées par l’utilisateur. Sa fiabilité dépend des sites Web et des interfaces utilisateur.
	I want one of those target deals. Can you check if they have a deal on poppi prebiotic sodas? If they do, I want the watermelon flavor in the 12fl oz can. Get me the type of deal that comes with this and check if it's gluten free.	9 / 10
	I am planning to shift to Seattle and I want you to search Redfin for a townhouse with at least 3 bedrooms, 2 bathrooms, and an energy-efficient design (e.g., solar panels or LEED-certified). My budget is between $600,000 - $800,000 and it should ideally be close to 1500 sq ft.	3 / 10
Tâches pouvant être effectuées par la répétition d’interactions simples avec l’interface utilisateur	Create a new project in Todoist titled 'Weekend Grocery Shopping.' Add the following shopping list with products: Bananas (6 pieces) Avocados (2 ripe) Baby Spinach (1 bag) Whole Milk (1 gallon) Cheddar Cheese (8 oz block) Potato Chips (Salted, family size) Dark Chocolate (70% cocoa, 2 bars)	10 / 10	CUA est en mesure de répéter de nombreuses fois une interaction simple avec une interface utilisateur afin d’automatiser les tâches simples, mais pénibles pour les utilisateurs.
	Search Spotify for the most popular songs of the USA for the 1990s, and create a playlist with at least 10 tracks.	10 / 10
Tâches pour lesquelles CUA présente un taux de réussite élevé uniquement si les prompts incluent des conseils précis sur l’utilisation du site Web.	Visit tagvenue.com and look for a concert hall that seats 150 people in London. I need it on Feb 22 2025 for the entire day from 9 am to 12 am, just make sure it is under £90 per hour. Oh could you check the filters section for appropriate filters and make sure there is parking and the entire thing is wheelchair accessible.	8 / 10	Pour une même tâche, la fiabilité de CUA varie selon le prompt utilisé. Dans le cas présent, nous pouvons renforcer sa fiabilité en donnant une date spécifique (par exemple, « de 9 h à minuit » plutôt que « toute la journée à partir de 9 h ») et en donnant des conseils précisant les composants d’interface utilisateur à utiliser pour trouver des résultats (« regarde la section des filtres », par exemple)
	Visit tagvenue.com and look for a concert hall that seats 150 people in London. I need it on Feb 22 2025 for the entire day from 9 am, just make sure it is under £90 per hour. Oh and make sure there is parking and the entire thing is wheelchair accessible.	3 / 10
Difficultés à utiliser une interface utilisateur inhabituelle et à modifier du texte	Use html5editor and input the folowing text on the left side, then edit it following my instructions and give me a screenshot of the entire thing when done. The text is: Hello world! This is my first text. I need to see how it would look like when programmed with HTML. Some parts should be red. Some bold. Some italic. Some underlined. Until my lesson is complete, and we shift to the other side. ... Hello world! should have header 2 applied The sentence below it should be a regular paragraph text. The sentence mentioning red should be normal text and red The sentence mentionnihg bold should be normal text bolded Sentence mentioning italic should be italicized The final sentence should be aligned to the right instead of the usual left	4 / 10	Lorsque CUA doit interagir avec des interfaces utilisateur qu’il n’a que peu rencontré lors de son entraînement, il a du mal à les utiliser correctement. Cette faiblesse génère beaucoup d’essais, d’erreurs et d’actions inefficaces. CUA n’est pas capable de modifier du texte avec précision. Il fait beaucoup d’erreurs en suivant les instructions de ce type ou génère une sortie contenant une erreur.

Sécurité

CUA constitue l’un de nos premiers produits agentiques capables d’effectuer des actions directement dans un navigateur. Il présente donc des risques et des défis inédits. Lors de la préparation du déploiement d’Operator, nous avons procédé à des évaluations complètes des risques et mis en place des mesures de correction pour trois catégories de risque majeures : détournement du modèle, erreurs du modèle et risques frontières. Nous pensons qu’il est essentiel d’adopter une stratégie de sécurité à plusieurs niveaux et avons donc mis en place des garde-fous pour l’ensemble du contexte du déploiement : le modèle CUA lui-même, le système Operator et les processus post-déploiement. Notre objectif est d’empiler les mesures de sécurité, chacune réduisant un peu plus le profil de risque.

Le détournement du modèle constitue la première catégorie de risque que nous avons traitée. En plus d’imposer à nos utilisateurs de se conformer à nos Politiques d'utilisation, nous avons conçu les mesures de sécurité suivantes pour réduire le risque de détournement d’Operator. Elles reposent sur les travaux que nous avons déjà menés pour sécuriser GPT‑4o :

Refus : Le modèle CUA est entraîné pour refuser de nombreuses tâches dangereuses, ainsi que les activités illégales ou réglementées.
Liste de blocage : Operator ne peut pas consulter les sites web que nous avons bloqués, comme les sites de pari, les sites pour adultes et les sites de ventes de médicaments ou d’armes.
Modération : les interactions avec les utilisateurs sont vérifiées en temps réel par des outils conçus pour s’assurer qu’elles sont conformes à nos Politiques d'utilisation et capables de générer des avertissements ou de bloquer les activités interdites.
Détection hors ligne : nous avons également mis au point des processus de vérification par des systèmes automatisés et par des humains pour détecter les utilisations interdites appartenant à des catégories prioritaires, comme la sécurité des enfants et les activités trompeuses, ce qui nous permet de faire appliquer nos Politiques d'utilisation.

Les erreurs du modèle constituent la deuxième catégorie de risque sur laquelle nous avons travaillé. Il s’agit des cas où le modèle effectue par erreur une action non demandée par l’utilisateur et qui a entraîné des conséquences dommageables pour l’utilisateur ou d’autres personnes. Ces conséquences peuvent être de gravité variable, d’une erreur de saisie dans un e-mail à l’achat du mauvais article en passant par la suppression définitive d’un document important. Pour limiter les dommages potentiels, nous avons déployé les mesures de sécurité suivantes :

Confirmations de l’utilisateur : le modèle CUA est entraîné pour demander la confirmation de l’utilisateur avant de finaliser les tâches qui ont des conséquences externes, comme le passage d’une commande, l’envoi d’un e-mail, etc. pour que l’utilisateur puisse vérifier le travail du modèle en amont.
Limites relatives aux tâches : à l’heure actuelle, CUA refuse d’effectuer des tâches à haut risque, comme des transactions bancaires ou d’autres tâches nécessitant une décision sensible.
Mode surveillance : sur les sites les plus sensibles, Operator demande une supervision active de l’utilisateur pour qu’il puisse repérer et corriger les éventuelles erreurs du modèle.

Parmi les erreurs importantes du modèle, citons les attaques contre les sites web qui poussent CUA à effectuer des actions involontaires, que ce soit par le biais d’injections de prompts, de jailbreaks ou de tentatives de phishing. En plus des mesures déjà mentionnées, nous avons créé plusieurs niveaux de protection contre les risques suivants :

Navigation prudente : le modèle CUA est pensé pour identifier et ignorer les injections de prompt sur les sites web. Lors d’une session interne menée par une équipe rouge en début de développement, il n’a échoué que sur une seule attaque de ce type.
Surveillance : nous avons ajouté un modèle supplémentaire à Operator pour surveiller et suspendre l’exécution en cas de détection d’un contenu suspect à l’écran.
Pipeline de détection : nous appliquons des processus d’examen automatisés et conduits par des êtres humains pour repérer les schémas d’accès suspects qui peuvent alors être signalés et ajoutés rapidement à l’outil de surveillance (en quelques heures seulement).

Enfin, nous avons évalué CUA sur le plan des risques frontières présentés dans notre cadre de préparation⁠(ouverture dans une nouvelle fenêtre), notamment avec des scénarios portant sur la réplication autonome et la facilitation des risques biologiques. Ces évaluations n’ont pas révélé d’augmentation du risque par rapport à GPT‑4o.

Si vous souhaitez plus de détails sur les évaluations et les garde-fous de ce modèle, nous vous encourageons à consulter la fiche système d’Operator, un document mis à jour régulièrement et qui présente de manière transparente notre approche de la sécurité et nos améliorations continues en la matière.

Beaucoup des capacités d’Operator sont inédites, par conséquent, ses risques et nos stratégies de sécurité le sont aussi. Même si nous avons cherché à mettre en place des mesures de sécurité de pointe, diversifiées et complémentaires, les risques identifiés et notre stratégie évolueront certainement à mesure que nous obtiendrons davantage d’informations. Avec cette version préliminaire, nous allons pouvoir recueillir les commentaires de nos utilisateurs, affiner nos garde-fous et renforcer la sécurité des agents.

Conclusion

CUA est le fruit de plusieurs années de recherche sur la multimodalité, le raisonnement et la sécurité. Nous avons fait des progrès importants en matière de raisonnement approfondi avec les modèles de la série o et en matière de vision avec GPT‑4o. De plus, nous avons mis au point des techniques basées sur l’apprentissage par renforcement et la hiérarchisation des instructions qui renforcent la robustesse de nos modèles. Notre prochain défi ? Étendre l’ensemble d’actions des agents. La flexibilité offerte par l’utilisation d’une interface universelle permet de relever ce déf, car elle ouvre la voie à un agent capable d’utiliser n’importe quel outil logiciel destiné à l’être humain. En allant au-delà des API spécialisées, CUA peut s’adapter à tout environnement informatique et prendre ainsi en charge les derniers cas d’utilisation numériques encore hors de portée de la plupart des modèles d’IA.

Nous cherchons également à rendre CUA disponible via l’API⁠(ouverture dans une nouvelle fenêtre) pour que les développeurs puissent l’utiliser dans leurs propres agents utilisateurs d’ordinateur. Nous avons hâte de voir les nouveaux cas d’utilisation que la communauté imaginera au fil des améliorations que nous apporterons à CUA. Nous prévoyons d’utiliser les commentaires tirés de cette version préliminaire pour améliorer en continu les capacités et mesures de sécurité de CUA et progresser en toute sécurité vers l’aboutissement de notre mission, à savoir faire profiter toute l’humanité des avantages de l’IA.

Auteur

OpenAI

Références

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku⁠(ouverture dans une nouvelle fenêtre)

Model Card Addendum: Claude 3.5 Haiku and Upgraded Claude 3.5 Sonnet⁠(ouverture dans une nouvelle fenêtre)

Kura WebVoyager benchmark⁠(ouverture dans une nouvelle fenêtre)

Google project mariner⁠(ouverture dans une nouvelle fenêtre)

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments⁠(ouverture dans une nouvelle fenêtre)

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models⁠(ouverture dans une nouvelle fenêtre)

WebArena: A Realistic Web Environment for Building Autonomous Agents⁠(ouverture dans une nouvelle fenêtre)

Citations

Citez OpenAI et utilisez le BibTeX suivant pour faire référence à cet article : http://cdn.openai.com/cua/cua2025.bib⁠(ouverture dans une nouvelle fenêtre)