Aujourd'hui, nous lançons AgentKit, un ensemble complet d'outils destinés aux développeurs et aux entreprises pour créer, déployer et optimiser des agents. Jusqu'à présent, créer des agents impliquait de jongler avec des outils fragmentés : une orchestration complexe sans gestion des versions, des connecteurs personnalisés, des pipelines d'évaluation manuels, des réglages rapides et des semaines de travail en amont avant le lancement. Avec AgentKit, les développeurs peuvent maintenant concevoir visuellement des flux de travail et intégrer plus rapidement des interfaces agentiques en utilisant de nouveaux blocs fonctionnels tels que :
- Agent Builder : un canvas visuel pour créer et versionner des flux de travail multi-agents
- Connector Registry : un espace central pour les administrateurs pour gérer comment les données et les outils se connectent à travers les produits OpenAI
- ChatKit : un ensemble d'outils pour intégrer des expériences personnalisables d'agents de clavardage dans votre produit
Nous étendons également les possibilités d’évaluation avec de nouvelles fonctionnalités comme les jeux de données, la notation des traces, l’optimisation automatisée des invites et la prise en charge de modèles tiers pour la mesure et l’amélioration des performances des agents.
Depuis le lancement de l'API de réponses et du SDK d'agents en mars, nous avons constaté que des développeurs et des entreprises ont construit des flux de travail d'agents de bout en bout pour la recherche approfondie, le soutien à la clientèle et bien plus encore. Klarna a développé un agent de soutien qui gère les deux tiers des demandes et Clay a multiplié par dix sa croissance grâce à un agent de vente. AgentKit s’appuie sur l’API de réponses pour aider les développeurs à créer des agents de manière plus efficace et fiable.
Les flux de travail des agents gagnent en complexité, et les développeurs ont donc besoin d’une meilleure visibilité sur leur fonctionnement. Agent Builder(s'ouvre dans une nouvelle fenêtre) offre un canvas visuel pour composer la logique avec des nœuds glisser-déposer, connecter des outils et configurer des garde-fous personnalisés. Il prend en charge des exécutions de prévisualisation, une configuration des évaluations en ligne et un versionnage complet — l’idéal pour itérer rapidement.

Les développeurs peuvent commencer à partir d'un canvas vierge ou de modèles préconstruits.
Chez Ramp, l'équipe est passée d'une page blanche à un agent acheteur en quelques heures seulement :
Avec Agent Builder, ce qui prenait autrefois des mois d’orchestration complexe, de codage personnalisé et d’optimisations manuelles ne prend plus que quelques heures. Le canvas visuel permet aux équipes produit, juridique et ingénierie de rester sur la même longueur d'onde, réduisant ainsi les cycles d'itération de 70 % et permettant à un agent d'être opérationnel dans un délai raccourci. »
De même, LY Corporation, une grande entreprise japonaise spécialisée dans les technologies et les services Internet, a créé un agent d’assistance avec Agent Builder en moins de deux heures.
« Agent Builder nous a permis d'orchestrer les agents d'une manière totalement nouvelle, grâce à la collaboration entre ingénieurs et experts en la matière au sein d'une seule et même interface. Nous avons créé notre premier flux de travail multi-agents et l'avons exécuté en moins de deux heures, ce qui a considérablement accéléré le temps nécessaire à la création et au déploiement des agents. »
Nous lançons également un registre des connecteurs destiné aux entreprises afin de gérer et de maintenir les données dans plusieurs espaces de travail et organisations. Le registre des connecteurs(s'ouvre dans une nouvelle fenêtre) consolide les sources de données dans un panneau d'administration unique pour ChatGPT et l'API. Il inclut tous nos connecteurs prédéfinis, comme Dropbox, Google Drive, SharePoint et Microsoft Teams, ainsi que les MCP tiers.
Les développeurs peuvent également activer des garde-fous(s'ouvre dans une nouvelle fenêtre) dans Agent Builder, une couche de sécurité modulaire à source ouverte qui aide à protéger les agents contre les comportements involontaires ou malveillants. Les garde-fous peuvent masquer ou signaler les informations personnelles identifiables, détecter les débridages et appliquer d'autres mesures de protection, ce qui facilite la création et le déploiement d'agents fiables et sécurisés. Les garde-fous peuvent être déployés de manière autonome ou via la bibliothèque de garde-fous pour Python(s'ouvre dans une nouvelle fenêtre) et JavaScript(s'ouvre dans une nouvelle fenêtre).
Le déploiement d’interfaces de clavardage pour les agents peut s’avérer étonnamment complexe — il faut gérer la diffusion des réponses en continu, la gestion des fils, l’affichage de la réflexion du modèle, ainsi que la conception d’expériences de clavardage engageantes. ChatKit(s'ouvre dans une nouvelle fenêtre) facilite l'intégration d'agents de clavardage qui s'intègrent naturellement à votre produit. Vous pouvez l’intégrer dans vos applis ou sites Web et le personnaliser aux couleurs de votre thème ou de votre marque.
« Nous avons gagné plus de deux semaines sur la création d'un agent de soutien pour notre communauté de développeurs Canva grâce à ChatKit, et nous l'avons intégré en moins d'une heure. Cet agent va transformer les interactions des développeurs avec notre documentation en les rendant conversationnelles. Il leur sera ainsi plus facile de créer des applis et des intégrations avec Canva. »
ChatKit est déjà utilisé dans divers cas d'utilisation, allant des assistants de internal knowledge et des guides d'intégration aux agents de soutien à la clientèle et de recherche. L'agent de soutien à la clientèle de HubSpot(s'ouvre dans une nouvelle fenêtre) en est un exemple :

Pour créer des agents fiables et prêts à être déployés en production, vous devez évaluer leurs performances de manière rigoureuse. L'année dernière, nous avons lancé Evals(s'ouvre dans une nouvelle fenêtre) pour aider les développeurs à tester les invites et à mesurer le comportement des modèles. Nous y ajoutons quatre nouvelles fonctionnalités qui simplifient encore la création d’évaluations :
- Jeux de données– construisez rapidement des évaluations d'agents à partir de zéro et développez-les au fil du temps avec des outils de notation automatisés et des annotations humaines.
- Notation des traces–évaluez de bout en bout vos flux de travail agentiques et automatisez la notation pour identifier les anomalies.
- Optimisation automatisée des invites– générez des invites améliorées basées sur les annotations humaines et les sorties des correcteurs.
- Soutien des modèles tiers– évaluer les modèles d'autres fournisseurs au sein de la plateforme OpenAI Evals.
Nous avons déjà constaté des gains de performance importants chez les clients qui utilisent Evals.
« La plateforme d'évaluation a réduit le temps de développement de notre cadre de diligence raisonnable multi-agents de plus de 50 % et a augmenté la précision des agents de 30 %. »

Affinage par renforcement(s'ouvre dans une nouvelle fenêtre) (RFT) permet aux développeurs de personnaliser nos modèles de raisonnement. Il est généralement disponible sur OpenAI o4-mini et en version bêta privée pour GPT‑5. Nous travaillons en étroite collaboration avec des dizaines de clients afin de raffiner le RFT pour GPT‑5 avant son lancement à plus grande échelle.
Aujourd'hui, nous présentons deux nouvelles fonctionnalités dans cette version bêta de RFT, conçues pour pousser encore plus loin les performances des agents :
- Appels d'outils personnalisés– formez les modèles à appeler les bons outils au bon moment pour améliorer le raisonnement
- Outils de notation personnalisés– définissez des critères d’évaluation personnalisés pour ce qui est le plus important dans votre cas d’utilisation
À partir d’aujourd’hui, ChatKit et les nouvelles fonctionnalités Evals sont disponibles pour l’ensemble des développeurs. Agent Builder est disponible en version bêta, et Connector Registry commence son déploiement en version bêta auprès de certains clients API, ChatGPT Enterprise et Edu disposant d'une console d'administration globale(s'ouvre dans une nouvelle fenêtre) (où les propriétaires globaux peuvent gérer les domaines, l'authentification unique et plusieurs organisations API). La console d'administration globale est un prérequis pour activer Connector Registry. Tous ces outils sont inclus dans la tarification standard de l’API.
Nous prévoyons d'ajouter prochainement une API de flux de travail autonome et des options de déploiement d'agents à ChatGPT.
Nous avons hâte de découvrir ce que vous allez développer.


