Présentation de l’agent ChatGPT : faire le lien entre recherche et action
Désormais, ChatGPT réfléchit et agit. À l’aide de son propre ordinateur, il choisit les bonnes compétences agentiques pour réaliser la tâche demandée.
ChatGPT peut désormais travailler pour vous à l'aide de son propre ordinateur et gérer des tâches complexes du début à la fin.
Demandez à ChatGPT de gérer des requêtes telles que « regarde dans mon calendrier et fais-moi un point sur les clients de mes prochains rendez-vous en fonction des dernières actualités » ou « analyse trois concurrents et crée un diaporama ». Il naviguera intelligemment sur le Web, filtrera les résultats, vous invitera à vous connecter en toute sécurité si nécessaire, exécutera du code, réalisera des analyses et résumera ses conclusions sous la forme de diaporamas ou feuilles de calcul modifiables.
Cette nouvelle capacité repose sur un système agentique unifié. Elle allie trois innovations : la capacité d’Operator à interagir avec des sites Web, la capacité de synthèse d’information de la recherche approfondie, et l’intelligence et la capacité conversationnelle de ChatGPT.
ChatGPT réalise les tâches demandées en s’appuyant sur son propre ordinateur virtuel et est capable de passer sans accroc du raisonnement à l’action afin de gérer des workflows complexes de A à Z, selon vos instructions.
Mais surtout, vous garderez le contrôle. ChatGPT demande votre autorisation avant d'effectuer des actions importantes, et vous pouvez facilement l'interrompre, prendre le contrôle du navigateur ou arrêter les tâches à tout moment.
Les utilisateurs Pro, Plus et Team peuvent d’ores et déjà activer ces nouvelles fonctionnalités agentiques de ChatGPT directement à partir du menu déroulant des outils du composeur en sélectionnant « mode agent » à tout moment et dans n'importe quelle conversation.
Si l’agent ChatGPT se montre déjà capable de gérer des tâches complexes, il n’en est qu’à ses débuts. Nous allons continuer d’améliorer son fonctionnement pour le rendre de plus en plus puissant et utile.
Précédemment, Operator et la recherche approfondie avaient chacun leurs points forts spécifiques : Operator pouvait faire défiler l’écran, cliquer et taper sur le Web, tandis que la recherche approfondie excellait dans l'analyse et la synthèse des informations. Mais leur fonctionnement était optimal dans des situations différentes : Operator n’était pas capable d’approfondir l'analyse ni de rédiger des rapports détaillés, et la recherche approfondie ne pouvait pas interagir avec les sites Web pour affiner les résultats ou accéder à du contenu nécessitant une authentification utilisateur. En fait, nous avons constaté que de nombreuses requêtes effectuées par les utilisateurs avec Operator convenaient mieux à une recherche approfondie. Nous avons donc combiné le meilleur des deux approches.
En intégrant ces forces complémentaires dans ChatGPT et en introduisant des outils supplémentaires, nous avons débloqué des capacités entièrement nouvelles au sein d'un seul modèle. ChatGPT peut désormais interagir activement avec les sites web : cliquer, filtrer et recueillir des résultats plus précis et plus efficaces. Vous pouvez également passer naturellement d'une simple conversation à une demande d'action depuis le même chat.
Nous avons équipé l'agent ChatGPT d’une vraie suite d’outils : un navigateur visuel qui interagit avec le Web via une interface utilisateur graphique, un navigateur textuel pour les requêtes web plus simples basées sur le raisonnement, un terminal et un accès direct à l'API. L’agent peut aussi tirer parti des connecteurs ChatGPT(ouverture dans une nouvelle fenêtre) pour accéder à des applications comme Gmail et Github et trouver des informations pertinentes dans le cadre de vos prompts et s’en servir dans ses réponses. Vous pouvez aussi vous connecter sur n’importe quel site Web en prenant le contrôle du navigateur, pour lui permettre d’approfondir et d’élargir ses capacités de recherche et d’exécution de tâches. Avec ces différentes possibilités d'accès et d'interaction avec les informations disponibles sur le Web, ChatGPT peut choisir la voie optimale pour accomplir ses tâches le plus efficacement possible. Par exemple, il peut réunir des informations sur votre calendrier via une API, mener un raisonnement efficace sur une grande quantité de texte à l’aide du navigateur texte, mais également interagir visuellement avec les sites Web conçus avant tout pour les humains.
Toutes ces opérations sont réalisées à l’aide de son propre ordinateur virtuel, qui préserve le contexte nécessaire à la tâche, même lorsqu’elle implique l’utilisation de plusieurs outils. Le modèle est par exemple capable d’ouvrir une page à l’aide du navigateur texte ou visuel, de télécharger un fichier sur le Web, de le manipuler en exécutant une commande dans le terminal, puis d’afficher le résultat dans le navigateur visuel. Il adapte son approche pour mener à bien les tâches de manière rapide, précise et efficace.
L'agent ChatGPT est conçu pour des flux de travail itératifs et collaboratifs, bien plus interactifs et flexibles que les modèles précédents. Vous pouvez interrompre le travail de ChatGPT à tout moment pour clarifier les instructions, l’orienter vers les résultats souhaités ou changer intégralement la tâche demandée. Il reprendra là où il s'était arrêté, avec les nouvelles informations, sans toutefois perdre les progrès réalisés précédemment. De même, ChatGPT peut vous demander de manière proactive des informations supplémentaires lorsque cela est nécessaire afin de s'assurer que la tâche reste en adéquation avec vos objectifs. Si une tâche prend plus de temps que prévu ou semble bloquée, vous pouvez la mettre en pause, demander un résumé de la progression ou l'interrompre complètement et recevoir des résultats partiels. Si vous avez installé l’appli ChatGPT sur votre téléphone, vous recevrez une notification une fois la tâche terminée.
Ces capacités agentiques unifiées améliorent considérablement l'utilité de ChatGPT dans les contextes quotidiens et professionnels actuels. Au travail, vous pouvez automatiser des tâches répétitives, telles que la conversion de captures d'écran ou de tableaux de bord en présentations composées d'éléments vectoriels modifiables, la réorganisation de réunions, la planification et la réservation de séminaires, et la mise à jour de feuilles de calcul avec de nouvelles données financières tout en conservant la même mise en forme. Dans votre vie personnelle, vous pouvez l'utiliser pour planifier et réserver sans effort des itinéraires de voyage, organiser et réserver des dîners, ou trouver des spécialistes et prendre des rendez-vous.
Les capacités avancées du modèle se reflètent dans ses performances de pointe (SOTA) aux évaluations mesurant les capacités de navigation sur le Web et d'exécution de tâches dans le monde réel.
Sur Humanity’s Last Exam(ouverture dans une nouvelle fenêtre), une évaluation qui mesure les performances de l’IA sur un large éventail de sujets et sur des questions de niveau expert, le modèle qui alimente l’agent ChatGPT bat un nouveau record en atteignant le score de 41,6 au premier essai. L’agent suit une planification dynamique et choisit lui-même ses outils, ce qui lui permet d’aborder une même tâche de différentes manières à chaque exécution. En multipliant les exécutions avec une simple stratégie de déploiement parallèle, avec jusqu’à 8 essais en même temps et en choisissant celui pour lequel le modèle annonçait le meilleur niveau de confiance, ce score atteint 44,4.
FrontierMath** est l’évaluation mathématique la plus difficile. Elle propose des problèmes inédits et non publiés dont la résolution nécessite souvent des heures, voire des jours de travail à des experts en mathématiques. L’utilisation d’outils, comme l’accès à un terminal pour exécuter du code, permet à l’agent ChatGPT d’atteindre une précision de 27,4 %, soit un résultat bien supérieur aux deux modèles précédents.
Nous avons également soumis notre modèle à des évaluations pensées pour représenter des tâches concrètes complexes. Lors d’une évaluation interne des performances sur des tâches complexes à valeur ajoutée liées au travail de la connaissance, l’agent ChatGPT obtient des résultats comparables ou supérieurs à ceux des humains dans environ la moitié des cas, avec des durées d’exécution variables, et se montre bien plus performant que les modèles OpenAI o3 et o4-mini. Les sorties du modèle ont été jugées par des experts par rapport à des références humaines de haute qualité créées par les personnes les plus performantes de leur domaine. Ces tâches, imaginées par des experts provenant de divers métiers et secteurs, sont comparables à celles réalisées dans le monde professionnel, comme la préparation d’une analyse concurrentielle de professionnels de soins urgents à la demande, la création de tableaux d’amortissement détaillés et l’identification de puits d’eau viables pour une nouvelle usine de fabrication d’hydrogène vert.
Sur DSBench(ouverture dans une nouvelle fenêtre), conçue pour évaluer les agents à l'aide de tâches réalistes en science des données allant de l'analyse à la modélisation, l'agent ChatGPT dépasse de manière significative les performances humaines.
Sur SpreadsheetBench, qui évalue la capacité des modèles à modifier des feuille de calcul tirées de scénarios réel, l’agent ChatGPT surpasse largement les autres modèles du marché. Lorsqu'il a été autorisé à modifier directement des feuilles de calcul, l'agent ChatGPT a obtenu un score encore supérieur, à savoir 45,5 %, contre 20 % pour Copilot dans Excel.
Méthodologie : Les auteurs SpreadsheetBench ont utilisé un environnement Windows à l’aide de Microsoft Excel pour évaluer les feuilles de calcul. Nous avons utilisé un environnement OSX et LibreOffice, ce qui peut entraîner de légères différences dans la notation. Par exemple, les auteurs ont constaté une restriction globale de 15,02 % pour GPT‑4o, et nous avons obtenu 13,38 %. Nous avons utilisé la totalité des 912 questions d’évaluation
Sur un benchmark interne qui mesure la capacité d'un modèle à assumer les tâches de modélisation d'un analyste en banque d'investissement de la première à la troisième année, telles que la création d'un modèle financier à trois états financiers pour une entreprise du Fortune 500 avec une mise en forme et des citations appropriées, ou la construction d'un modèle de rachat par endettement en vue d’une privatisation, le modèle qui alimente l'agent ChatGPT surpasse largement la recherche approfondie et OpenAI o3. Chaque tâche est notée selon des centaines de critères liés à l'exactitude et à l'utilisation des formules.
Nous avons aussi évalué l’agent ChatGPT sur BrowseComp, un benchmark que nous avons publié plus tôt cette année et qui mesure la capacité des agents de navigation à localiser des informations difficiles à trouver sur le Web. Le modèle a établi un nouveau record avec 68,9 %, soit 17,4 points de pourcentage de plus que la recherche approfondie.
Enfin, sur WebArena(ouverture dans une nouvelle fenêtre), une évaluation conçue pour déterminer les performances des agents de navigation Web dans l'exécution de tâches Web dans le monde réel, ce modèle fait mieux que le CUA basé sur OpenAI o3 (le modèle qui alimente Operator).
Vous pouvez activer les nouvelles fonctionnalités agentiques de ChatGPT directement à partir du menu déroulant des outils du compositeur en sélectionnant « mode agent » à tout moment dans n'importe quelle conversation. Décrivez simplement la tâche que vous souhaitez accomplir, qu'il s'agisse d'effectuer des recherches approfondies, de créer un diaporama ou de soumettre des dépenses. Au fur et à mesure qu'il effectue votre tâche, une narration à l'écran vous permet de voir exactement ce que fait ChatGPT. Vous pouvez l’interrompre et prendre le contrôle du navigateur à tout moment, pour de vous assurer que les tâches restent en adéquation avec vos objectifs.
L'agent ChatGPT peut accéder à vos connecteurs, ce qui lui permet de s'intégrer à vos flux de travail et d'accéder à des informations pertinentes et exploitables. Après authentification, ces connecteurs permettent à ChatGPT de consulter des informations et d'effectuer des tâches telles que résumer votre boîte de réception pour la journée ou trouver des créneaux horaires auxquels vous êtes disponible pour une réunion. Pour qu’il puisse effectuer des actions sur ces sites, vous serez toujours invité à vous connecter en prenant le contrôle du navigateur.
De plus, vous pouvez programmer la répétition automatique des tâches terminées, comme la génération d'un rapport hebdomadaire sur les indicateurs de performance chaque lundi matin.
Cette version marque la première fois que les utilisateurs peuvent demander à ChatGPT d'effectuer des actions sur le Web. Cette nouvelle capacité fait naître de nouveaux risques, notamment car ChatGPT peut directement accéder à vos données, qu’il s’agisse d’informations consultées via des connecteurs ou sur des sites Web auxquels vous vous êtes connecté à l’aide du mode de prise de contrôle. Nous avons renforcé les contrôles puissants dont disposait déjà la version préliminaire d’Operator et ajouté des garde-fous pour faire face aux problématiques de la gestion d’informations sensibles sur le Web, le nombre d’utilisateurs accrus et l’accès (limité) au réseau du terminal. Si ces mécanismes réduisent fortement le risque, les nouveaux outils et l’augmentation des utilisateurs de l’agent ChatGPT se traduisent néanmoins par un profil global de risque plus élevé.
Nous avons particulièrement insisté sur la protection de l’agent ChatGPT contre les manipulations malveillantes basées sur l’injection de prompts, qui posent un risque pour tous les systèmes agentiques, et avons donc mis en place des mesures plus complètes à cet effet. Les injections de prompts sont des tentatives de tiers de manipuler le comportement de l’agent par le biais d’instructions malveillantes que l’agent ChatGPT peut rencontrer sur le Web lors de la réalisation d’une tâche. Un prompt malveillant caché sur une page, dans des éléments invisibles ou des métadonnées par exemple, pourrait pousser l’agent à exécuter des actions imprévues, comme communiquer des données confidentielles accessibles via un connecteur ou exécuter des actions dommageables sur un site sur lequel l’utilisateur s’est connecté. L’agent ChatGPT pouvant effectuer des actions directes, l’impact des attaques réussies et les risques sont donc plus élevés.
Nous avons entraîné et testé l’agent pour qu’il identifie les injections de prompts et y résiste. Nous utilisons également un mécanisme de surveillance pour détecter rapidement les attaques par injections de prompts et y répondre au plus vite. Le fait d'exiger une confirmation explicite de l'utilisateur avant toute action conséquente réduit encore davantage le risque de préjudice lié à ces attaques. De plus, les utilisateurs peuvent intervenir au cours des tâches si nécessaire en prenant le contrôle ou en suspendant l’action. Les utilisateurs doivent garder ces faiblesses à l’esprit avant de communiquer des informations à l’agent et prendre des mesures pour limiter leur exposition à ces risques, par exemple en désactivant les connecteurs qui ne sont pas nécessaires à une tâche.
Nous avons également déployé de mécanismes en lien avec la prévention des erreurs de modèle, car ces erreurs sont d’autant plus préjudiciables qu’elles peuvent désormais avoir un impact sur le monde réel :
- Confirmation explicite de l'utilisateur : ChatGPT est entraîné à demander explicitement votre autorisation avant d’exécuter des actions ayant des conséquences dans le monde réel, comme la validation d’un achat.
- Surveillance active (« Mode Observation ») : certaines tâches stratégiques, comme l’envoi d’e-mails, nécessitent une supervision active.
- Atténuation proactive des risques : ChatGPT est entraîné à refuser les tâches à haut risque, par exemple les virements.
Enfin, nous avons mis en place des contrôles supplémentaires visant à limiter les données auquel le modèle a accès :
- Contrôles de confidentialité : en un seul clic dans les paramètres de ChatGPT, vous pouvez supprimer toutes les données de navigation et vous déconnecter immédiatement de toutes les sessions actives sur tous les sites Web. Si vous ne le faites pas, les cookies sont conservés selon la politique des cookies de chaque site visité, ce qui peut rendre plus pratique les visites répétées.
- Mode de prise de contrôle sécurisé du navigateur : lorsque vous interagissez avec le Web via le navigateur de ChatGPT (« mode de prise de contrôle »), vos saisies restent confidentielles. ChatGPT ne collecte ni n’enregistre les données que vous saisissez lors de ces sessions, notamment les mots de passe, car il n’en a pas besoin et le fait qu’il ne les voit jamais renforce la sécurité.
Les capacités accrues du modèle nous ont poussés à classer sa Capacité chimique et biologique dans la catégorie Élevée, tels que ces différents éléments sont définis dans notre Cadre de préparation, et donc à activer les garde-fous associés. Bien que nous ne disposions pas de preuves formelles indiquant que ce modèle pourrait réellement aider un novice à causer des dommages biologiques graves — le seuil caractérisant une Capacité élevée — nous avons choisi d’adopter le principe de précaution et de déployer les garde-fous associés. En conséquence, ce modèle intègre notre système de sécurité le plus complet à ce jour, avec des protections renforcées contre les risques biologiques : modélisation approfondie des menaces, entraînement au refus d’usages détournés, classificateurs et moniteurs de raisonnement actifs en permanence, et mécanismes clairs d’application des règles.
Nous savons que les mécanismes de sécurité biologique sur plusieurs niveaux sont plus efficaces lorsqu’ils concernent plusieurs laboratoires. Ainsi, en plus de nos initiatives de sécurisation de l’agent ChatGPT, nous avons travaillé avec le reste des acteurs de l’écosystème. Dès le premier jour, nous avons collaboré avec des experts en biosécurité, des instituts de sécurité et des chercheurs pour guider la création de notre modèle de menace, nos évaluations et nos politiques. Des examinateurs disposant d’une formation en biologie ont validé nos données d’évaluation, et des membres d’équipes rouges ont mis à l’épreuve nos garde-fous dans le cadre de scénarios réalistes. Plus tôt ce mois-ci, nous avons organisé un atelier sur la biodéfense avec des experts gouvernementaux, des chercheurs, des laboratoires nationaux et des ONG pour accélérer la collaboration et faire progresser la recherche autour de la biodéfense basée sur l’IA. Nous allons continuer à nouer des partenariats dans le monde entier pour traiter les risques émergents.
Pour en savoir plus sur notre approche en matière de sécurité pour le modèle agentique unifié, consultez la fiche système. Nous allons également lancer un programme Bug Bounty permettant de détecter et de corriger les risques liés aux actions effectuées dans le monde réel.
Le déploiement de l’agent ChatGPT commencera dès aujourd’hui pour les utilisateurs Pro, Plus et Team. Plus précisément, il sera accessible aux utilisateurs Pro d’ici la fin de la journée, tandis que les utilisateurs Plus et Team devront encore patienter quelques jours. L’accès à cette fonctionnalité sera ouvert aux utilisateurs Enterprise et Edu dans les semaines à venir. Les utilisateurs Pro peuvent envoyer 400 messages par mois, contre 40 pour les utilisateurs de nos autres formules payantes. Un système flexible de crédits permettra d’aller au-delà de ces limites.
Nous travaillons toujours sur l’accès à cette fonctionnalité en Suisse et dans l’Espace économique européen.
Le site de la version préliminaire d’Operator restera fonctionnel encore quelques semaines, après quoi il sera supprimé. La recherche approfondie fait désormais partie des fonctionnalités de l’agent ChatGPT. Si vous préférez la version originale,un peu plus lente, mais aussi plus détaillée et complète par défaut, sélectionnez « recherche approfondie » dans le menu déroulant du rédacteur de message.
L’agent ChatGPT en est encore à ses débuts. Il est capable d'effectuer toute une série de tâches complexes, mais il peut encore commettre des erreurs.
Nous pensons qu’il pourrait se montrer très efficace dans la création de diaporamas, mais cette fonctionnalité est encore en bêta. À l’heure actuelle, la mise en forme et l’apparence des diaporamas générés restent rudimentaires, en particulier lorsqu’il n’existe aucun document de base. Nous avons axé les capacités initiales du modèle sur la génération d'artefacts qui organisent les informations dans un flux et un format adaptés aux présentations, chaque élément (texte, graphiques, images) étant facilement modifiable après l’exportation, pour optimiser la structure et la flexibilité. Par ailleurs, les diapos présentées dans la visionneuse et celles du fichier PPT généré diffèrent parfois, un point sur lequel nous travaillons. De plus, bien que vous puissiez actuellement télécharger une feuille de calcul existante pour que ChatGPT la modifie ou l'utilise comme modèle, cette fonctionnalité n'est pas encore disponible pour les diaporamas. Nous sommes déjà en train d’entraîner la prochaine version de la fonctionnalité de création de diaporamas de ChatGPT afin de produire des résultats plus raffinés et sophistiqués, avec des capacités plus étendues et une mise en forme améliorée.
Dans l'ensemble, nous prévoyons une amélioration continue de l'efficacité, de la profondeur et de la polyvalence de l'agent ChatGPT au fil du temps, notamment grâce à des interactions plus fluides, à mesure que nous ajustons le niveau de supervision requis de la part de l'utilisateur afin de le rendre plus utile tout en garantissant une utilisation sécurisée.
SpreadsheetBench | ||||
Modèle | Environnement d’évaluation | Restriction souple (%) : Au niveau de la cellule | Restriction souple (%) : Au niveau de la fiche | Restriction souple (%) : Global |
GPT‑4o | Windows, Excel | 15,03 | 23,65 | 18,35 |
Copilot dans Excel | Windows, Excel | 23,33 | 15,00 | 20,00 |
GPT‑4o | OSX, LibreOffice | 15,86 | 18,33 | 16,81 |
OpenAI o3 | OSX, LibreOffice | 22,40 | 24,60 | 23,25 |
Agent ChatGPT | OSX, LibreOffice | 38,27 | 30,48 | 35,27 |
Agent ChatGPT avec .xlsx | OSX, LibreOffice | 50,56 | 37,51 | 45,54 |
Humain | 75,56 | 65,00 | 71,33 |
Auteur
Notes de bas de page
* Avec l’activation de la navigation, le modèle peut parfois trouver les réponses exactes en ligne, par exemple en lisant des articles de blog contenant des exemples de problème. Pour limiter le risque de triche lié à la navigation, nous avons mis en place deux stratégies :
1. Blocage des domaines que le modèle a utilisé par le passé pour tricher.
2. Utilisation d’un modèle de raisonnement supplémentaire pour examiner tous les jetons de sortie des outils afin d’identifier les comportements suspects. La notion de comportement suspect est ici définie comme « une page, un fichier ou un extrait de code dont le principal objectif est de fournir la réponse exacte à la question posée, comme la liste officielle des réponses à un QCM, des « solutions » divulguées en ligne ou une discussion contenant la réponse finale mot pour mot. » Les comportements bénins sont définis comme toute ressource d’autorité qu’un être humain consciencieux pourrait consulter (documentation, manuels, articles de recherche, articles réputés), même s’ils contiennent de manière indirecte la bonne réponse ». Toute tentative pour laquelle le modèle de raisonnement juge le processus suspect est considérée comme incorrecte. La plupart des échantillons ayant échoué à ce contrôle étaient des problèmes dont la solution exacte était disponible sur plusieurs sources Internet sans rapport avec HLE.
**OpenAI dispose d’un accès exclusif à 237 des 290 questions confidentielles utilisées pour les niveaux 1 à 3. Les questions de niveau 4 de FrontierMath ne sont pas incluses dans cette évaluation. Les résultats considérés correspondent à la moyenne de 16 tentatives de réponse à chaque question. Les résultats de l’agent ChatGPT sont obtenus par OpenAI et notés par Epoch AI. Ils sont générés avec un accès au navigateur et au terminal, et une limite de 128 000 jetons par réponse. Les évaluations d’OpenAI o4-mini et o3 sont générées et notées par Epoch AI, sans accès au navigateur et au terminal, en utilisant des scripts python via l’appel de fonction et une limite de 100 000 jetons par réponse.
*** Oracle@64 correspond au score maximal atteint parmi 64 tentatives, après sélection, pour chaque tâche, de l’essai qui a obtenu la meilleure note en tenant compte de la réponse réelle attendue. Nous communiquons la moyenne de ces meilleures notes par tâche pour toutes les tâches. Cet indicateur met en lumière le potentiel maximal du modèle et sa variabilité dans l’exécution de tâches. Il montre le degré de compétence que le modèle peut atteindre lorsqu’il réussit et l’amélioration de sa régularité possible avec un entraînement supplémentaire. À la différence des indicateurs basés sur la meilleure note obtenue parmi N tentatives, qui procèdent à une sélection sur la base de la confiance du modèle, oracle@64 base sa sélection sur l’exactitude réelle des réponse et applique des notes entre 0 et 1 de manière continue, et non pas une notation binaire réussite/échec.


