23 janvier 2025

Nouveau : Operator

Une version préliminaire d’un agent qui peut utiliser son propre navigateur pour réaliser certaines tâches pour vous. Disponible pour les utilisateurs Pro basés aux États-Unis.

Accéder à Operator

L’image présente une demande d’un utilisateur souhaitant trouver et réserver l’excursion d’une journée à Rome la mieux notée sur TripAdvisor. Elle inclut un résumé du processus de recherche et une page de TripAdvisor présentant une excursion « Best Seller » appelée « Rome: Colosseum, Roman Forum and Palatine Hill. »

Chargement...

Mise à jour du 17 juillet 2025 : Operator est désormais totalement intégré dans ChatGPT comme ChatGPT agent. Pour accéder à ces fonctionnalités mises à jour, sélectionnez simplement « Mode Agent » dans le menu du composeur et saisissez votre requête directement dans ChatGPT. Le site Operator autonome (operator.chatgpt.com) ne sera par conséquent plus accessible dans les prochaines semaines.

Nous sommes heureux d’annoncer la disponibilité d’Operator⁠(ouverture dans une nouvelle fenêtre), un agent capable de réaliser des tâches sur le Web pour vous. Doté de son propre navigateur, il peut consulter une page Web et interagir avec elle en saisissant du texte, en cliquant sur des éléments et en la faisant défiler. Il s’agit encore d’une version préliminaire, qui présente donc certaines limites et sera amenée à évoluer selon les commentaires de nos utilisateurs. Operator est l’un de nos premiers agents. Ce type d’IA est capable de travailler pour vous de manière autonome : il vous suffit de lui confier une mission, et il s’occupe de l’exécuter.

Operator peut gérer diverses tâches de nature répétitive dans un navigateur, qu’il s’agisse de remplir des formulaires, de faire des courses en ligne ou de créer des mêmes. Sa capacité à utiliser les interfaces et outils des humains élargit considérablement l’intérêt de l’IA en permettant à ses utilisateurs de gagner du temps, tout en offrant de nouvelles voies d’interaction pour les entreprises.

Pour assurer la sécurité du déploiement, nous commençons par un petit groupe d’utilisateurs. Operator est disponible dès aujourd’hui sur operator.chatgpt.com⁠(ouverture dans une nouvelle fenêtre) pour les utilisateurs Pro⁠(ouverture dans une nouvelle fenêtre) basés aux États-Unis. Cette version préliminaire va nous permettre de bénéficier des retours de nos utilisateurs et de l’écosystème dans son ensemble pour améliorer notre produit. Nous prévoyons à terme de le proposer aux utilisateurs des forfaits Plus, Team et Enterprise, ainsi que de le rendre accessible depuis ChatGPT.

Fonctionnement d’Operator

Operator repose sur un nouveau modèle appelé Computer-Using Agent (CUA). CUA associe les capacités de vision de GPT‑4o à un raisonnement avancé basé sur l’apprentissage par renforcement. Il a été entraîné à interagir avec des IGU (interface graphique utilisateur), à savoir les boutons, menus et champs de texte affichés à l’écran.

Operator est capable de « voir » (via des captures d’écran) le contenu du navigateur et d’« interagir » avec lui (via toutes les actions que permettent une souris et un clavier) pour réaliser des actions sur le Web sans passer par des intégrations d’API personnalisées.

En cas de problème ou de difficulté, Operator peut utiliser ses capacités de raisonnement pour les résoudre. Lorsqu’il est bloqué et a besoin d’assistance, il rend simplement la main à l’utilisateur et lui propose ainsi une expérience fluide et collaborative.

CUA n’en est encore qu’à ses premiers stades de développement et présente des limitations, mais il se positionne déjà comme une référence dans deux évaluations d’utilisation du navigateur incontournables, WebArena et WebVoyager. Pour en savoir plus sur les évaluations et recherches liées à Operator, consultez cet article de blog.

Mode d’emploi

Pour se lancer, les utilisateurs doivent simplement décrire la tâche à effectuer. Operator se chargera du reste. Ils peuvent prendre la main sur le navigateur distant à tout moment. Operator est entraîné pour demander à l’utilisateur de prendre la main sur les tâches impliquant de saisir des identifiants, des informations de paiement ou de résoudre un CAPTCHA.

Les utilisateurs peuvent personnaliser leurs workflows dans Operator en ajoutant des instructions personnalisées, valables sur tous les sites ou seulement sur certains. Ils peuvent par exemple indiquer les compagnies aériennes à privilégier sur Booking.com. Operator permet aux utilisateurs d’enregistrer des prompts qui sont alors accessibles rapidement depuis la page d’accueil, une solution bien pratique pour retrouver les tâches qui reviennent souvent, comme les courses en ligne sur Instacart. Comme dans son navigateur, où il peut ouvrir plusieurs onglets, l’utilisateur peut exécuter plusieurs tâches en parallèle en créant de nouvelles conversations. Il peut par exemple commander un mug émaillé personnalisé sur Etsy tout en réservant un emplacement de camping sur Hipcamp.

Écosystème et utilisateurs

Avec Operator⁠(ouverture dans une nouvelle fenêtre), l’IA n’est plus un outil passif, mais un participant actif de l’écosystème numérique. Elle simplifie la réalisation des tâches pour les utilisateurs et permet aux entreprises qui souhaitent proposer des expériences client innovantes et booster leur taux de conversion de profiter des avantages des agents. Nous travaillons avec DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber et d’autres pour nous assurer qu’Operator réponde à des besoins réels tout en respectant les normes établies. En plus de ces collaborations, nous pensons qu’Operator pourrait grandement améliorer l’accessibilité et l’efficacité de certains workflows, en particulier dans le secteur public. Pour explorer plus en profondeur ces opportunités, nous travaillons notamment avec la ville de Stockton⁠(ouverture dans une nouvelle fenêtre) pour simplifier l’inscription à ses services et programmes.

« La version préliminaire d’Operator va nous fournir des informations qui nous aideront à mieux comprendre en quoi l’IA peut faciliter les interactions des citoyens avec la ville. »

Jamil Niazi, directeur des technologies de l’information de la ville de Stockton

Nous avons déployé Operator auprès d’un public restreint pour tirer rapidement des enseignements de son utilisation et affiner ses capacités. Nous pouvons ainsi assurer un équilibre entre innovation et sécurité. Cette approche collaborative permet de s’assurer qu’Operator offre réellement de la valeur aux utilisateurs, créateurs et entreprises, mais aussi aux agences de service public.

« Operator d’OpenAI est une innovation technologique qui simplifie de nombreux processus, comme les courses en ligne. »

Daniel Danker, responsable de produit chez Instacart

Sécurité

Garantir la sécurité d’utilisation d’Operator est une priorité. Nous avons donc mis en place des garde-fous sur trois niveaux pour empêcher les abus et nous assurer que les utilisateurs ne perdent jamais la main.

Tout d’abord, Operator est entraîné pour s’assurer que la personne qui l’utilise ait le contrôle et demander son intervention lors des moments clés.

Mode de prise de contrôle : Operator demande à l’utilisateur de prendre la main lors de la saisie d’informations sensibles dans le navigateur, comme des informations d'identification ou de paiement. En mode de prise de contrôle, Operator ne récupère pas les informations saisies par l’utilisateur et ne fait pas de capture d’écran.
Confirmation de l’utilisateur : avant de finaliser une action importante, comme valider une commande ou envoyer un e-mail, Operator doit demander l’autorisation de l’utilisateur.
Limites sur les tâches autorisées : Operator est entraîné à refuser certaines tâches sensibles, comme les transactions bancaires ou les tâches impliquant des décisions importantes, par exemple la prise d’une décision en lien avec une offre d’emploi.
Mode surveillance : sur les sites particulièrement sensibles, comme les services d’e-mail ou financiers, Operator demande une supervision rapprochée de ses actions pour que les utilisateurs puissent repérer d’éventuelles erreurs.

Nous avons également beaucoup travaillé sur la simplification de la gestion de la confidentialité des données sur Operator.

Refus de l’entraînement : la désactivation de l’option Améliorer le modèle pour tous dans les paramètres de ChatGPT empêche aussi l’utilisation des données d’Operator dans l’entraînement des modèles.
Gestion transparente des données : les utilisateurs peuvent supprimer toutes leurs données de navigation et se déconnecter de tous les sites en un clic en se rendant dans la section Confidentialité des paramètres d’Operator. Il est également possible de supprimer les conversations avec Operator en un clic.

Enfin, nous avons mis en place des protections contre les sites malveillants qui souhaiteraient tromper Operator avec des prompts cachés, du code malveillant ou des tentatives de phishing :

Navigation prudente : Operator est conçu pour détecter et ignorer les injections de prompt.
Surveillance : un « modèle de surveillance » dédié détecte les comportements suspects et peut suspendre la tâche en cas de problème.
Pipeline de détection : les processus d’examen automatisés et humains identifient en continu de nouvelles menaces et actualisent rapidement les garde-fous.

Nous savons que des personnes malveillantes essaieront de détourner cette technologie. C’est pour cette raison que nous avons conçu Operator de sorte qu’il refuse les demandes dangereuses et bloque le contenu interdit. Nos systèmes de modération peuvent émettre des avertissements ou même révoquer des accès en cas de violations répétées. Nous avons également intégré d’autres processus d’examen pour détecter et résoudre les abus. Nous fournissons par ailleurs des conseils permettant d’interagir avec Operator dans le respect de nos politiques d'utilisation.

Malgré ces garde-fous, aucun système n’est parfait et Operator reste en version préliminaire. Nous nous engageons à lui apporter des améliorations en continu en nous appuyant sur son utilisation en conditions réelles et des tests rigoureux. Pour en savoir plus sur notre approche, consultez la section Sécurité de notre article de recherche sur Operator.

Limites

Operator est actuellement proposé dans une version préliminaire. Même s’il est déjà capable d’accomplir de nombreuses tâches, il apprend et évolue encore, et peut faire des erreurs. Par exemple, il a encore du mal à gérer les interfaces complexes, comme la création de diapositives ou la gestion d’un calendrier. Les commentaires des premiers utilisateurs joueront un rôle crucial dans l’amélioration de sa précision, de sa fiabilité et de sa sécurité, et nous aideront à améliorer Operator pour tous.

Évolutions prévues

CUA dans l’API : nous prévoyons d’exposer rapidement via l’API le modèle sur lequel repose Operator, CUA, pour que les développeurs puissent créer leurs propres agents.

Capacités renforcées : nous allons continuer à améliorer la capacité d’Operator à gérer des workflows plus longs et plus complexes.

Accès étendu : nous comptons rendre Operator⁠(ouverture dans une nouvelle fenêtre) disponible pour les utilisateurs Plus, Team et Enterprise, mais aussi d’intégrer ses capacités à ChatGPT dès que nous serons certains de sa sécurité et de son utilisabilité à grande échelle. Tous ces utilisateurs pourront ainsi bénéficier d’une exécution des tâches en temps réel et asynchrone.

Auteurs

OpenAI

Contributeurs essentiels à la recherche

Casey Chu, David Medina, Hyeonwoo Noh, Noah Jorgensen, Reiichiro Nakano, Sarah Yoo

Principaux contributeurs

Andrew Howell, Aaron Schlesinger, Baishen Xu, Ben Newhouse, Bobby Stocker, Devashish Tyagi, Dibyo Majumdar, Eugenio Panero, Fereshte Khani, Geoffrey Iyer, Jiahui Yu, Nick Fiacco, Patrick Goethe, Sam Jau, Shunyu Yao, Stephan Casas, Yash Kumar, Yilong Qin

Contributeurs interfonctionnels

Abby Fanlo Susk, Aleah Houze, Alex Beutel, Alexander Prokofiev, Andrea Vallone, Andrea Chan, Christina Lim, Derek Chen, Duke Kim, Grace Zhao, Heather Whitney, Houda Nait El Barj, Jake Brill, Jeremy Fine, Joe Fireman, Kelly Stirman, Lauren Yang, Lindsay McCallum, Leo Liu, Mike Starr, Minnia Feng, Mostafa Rohaninejad, Oleg Boiko, Owen Campbell-Moore, Paul Ashbourne, Stephen Imm, Taylor Gordon, Tina Sriskandarajah, Winston Howes

Responsables

Aaron Schlesinger (infrastructure), Casey Chu (sécurité et opérationnalité du modèle), David Medina (infrastructure de recherche), Hyeonwoo Noh (recherche globale), Reiichiro Nakano (recherche globale), Yash Kumar

Contributeurs

Adam Brandon, Adam Koppel, Adele Li, Ahmed El-Kishky, Akila Welihinda, Alex Karpenko, Alex Nawar, Alex Tachard Passos, Amelia Liu, Andrei Gheorghe, Andrew Duberstein, Andrey Mishchenko, Angela Baek, Ankush Agarwal, Anting Shen, Antoni Baum, Ari Seff, Ashley Tyra, Behrooz Ghorbani, Bo Xu, Brandon McKinzie, Bryan Brandow, Carolina Paz, Cary Hudson, Chak Li, Chelsea Voss, Chen Shen, Chris Koch, Christian Gibson, Christina Kim, Christine McLeavey, Claudia Fischer, Cory Decareaux, Daniel Jacobowitz, Daniel Wolf, David Kjelkerud, David Li, Ehsan Asdar, Elaine Kim, Emilee Goo, Eric Antonow, Eric Hunter, Eric Wallace, Felipe Torres, Fotis Chantzis, Freddie Sulit, Giambattista Parascandolo, Hadi Salman, Haiming Bao, Haoyu Wang, Henry Aspegren, Hyung Won Chung, Ian O’Connell, Ian Sohl, Isabella Fulford, Jake McNeil, James Donovan, Jamie Kiros, Jason Ai, Jason Fedor, Jason Wei, Jay Dixit, Jeffrey Han, Jeffrey Sabin-Matsumoto, Jennifer Griffith-Delgado, Jeramy Han, Jeremiah Currier, Ji Lin, Jiajia Han, Jiaming Zhang, Jiayi Weng, Jieqi Yu, Joanne Jang, Joyce Ruffell, Kai Chen, Kai Xiao, Kevin Button, Kevin King, Kevin Liu, Kristian Georgiev, Kyle Miller, Lama Ahmad, Laurance Fauconnet, Leonard Bogdonoff, Long Ouyang, Louis Feuvrier, Madelaine Boyd, Mamie Rheingold, Matt Jones, Michael Sharman, Miles Wang, Mingxuan Wang, Nick Cooper, Niko Felix, Nikunj Handa, Noel Bundick, Pedro Aguilar, Peter Faiman, Peter Hoeschele, Pranav Deshpande, Raul Puri, Raz Gaon, Reid Gustin, Robin Brown, Rob Honsby, Saachi Jain, Sandhini Agarwal, Scott Ethersmith, Scott Lessans, Shauna O’Brien, Spencer Papay, Steve Coffey, Tal Stramer, Tao Wang, Teddy Lee, Tejal Patwardhan, Thomas Degry, Tomo Hiratsuka, Troy Peterson, Wenda Zhou, William Butler, Wyatt Thompson, Yao Zhou, Yaodong Yu, Yi Cheng, Yinghai Lu, Younghoon Kim, Yu-Ann Wang Madan, Yushi Wang, Zhiqing Sun

Direction

Anna Makanju, Greg Brockman, Hannah Wong, Jerry Tworek, Liam Fedus, Mark Chen, Peter Welinder, Sam Altman, Wojciech Zaremba