SafetyKit déploie des agents de risque avec les modèles OpenAI
Du prototypage avec les premières versions de modèles de vision au passage à l’échelle avec GPT‑5, les agents multimodaux de SafetyKit s’étendent à de nouveaux domaines et gagnent en précision.

Résultats
95%+
Précision lors de la vérification de 100 % des contenus clients (évaluations SafetyKit)
Résultats
16B
Tokens traités quotidiennement, contre 200 millions il y a six mois
Résultats
10+
Améliorations des performances sur les tâches de vision les plus complexes avec GPT-5
SafetyKit(ouverture dans une nouvelle fenêtre) développe des agents IA multimodaux pour aider les places de marché, les plateformes de paiement et les fintechs à détecter et traiter les fraudes et activités interdites sur le texte, les images, les transactions financières, les fiches produits, et plus encore. Les récentes avancées en matière de raisonnement des modèles et de compréhension multimodale rendent désormais cette approche plus efficace et établissent une nouvelle référence pour les opérations de gestion des risques, de conformité et de sécurité.
Les agents de SafetyKit s’appuient sur GPT‑5, GPT‑4.1, la recherche approfondie et l’agent capable d’utiliser un ordinateur (CUA) pour analyser 100 % des contenus clients avec une précision supérieure à 95 %, selon leurs évaluations internes. Ils aident les plateformes à protéger les utilisateurs, à prévenir la fraude, à éviter les sanctions réglementaires et à faire respecter des règles complexes que les systèmes traditionnels peuvent manquer, comme des règles spécifiques à certaines régions, des numéros de téléphone dissimulés dans des images frauduleuses ou du contenu explicite. L’automatisation peut également protéger les modérateurs humains contre l’exposition à des contenus offensants et leur permettre de se consacrer à des décisions de modération nuancées.
« OpenAI nous donne accès aux modèles de raisonnement et multimodaux les plus avancés du marché. » Cela nous permet de nous adapter rapidement, de déployer plus rapidement de nouveaux agents et de prendre en charge des types de contenu que d’autres solutions ne peuvent même pas analyser.
Concevez des agents en fonction des exigences de la tâche, puis choisissez le bon modèle
Les agents de SafetyKit sont chacun conçus pour traiter une catégorie de risque spécifique, allant de la fraude aux produits illégaux. Chaque contenu est orienté vers l’agent le plus adapté à la violation concernée, en utilisant le modèle OpenAI le plus approprié :
- GPT‑5 mobilise un raisonnement multimodal sur le texte, les images et les interfaces afin de faire ressortir les risques dissimulés et d’étayer une prise de décision précise, à plusieurs niveaux.
- GPT‑4.1 suit de manière fiable des consignes détaillées de politique de contenu et gère efficacement des flux de modération à fort volume.
- L’affinage par apprentissage par renforcement (RFT) améliore le rappel et la précision au-delà des modèles par défaut, atteignant des performances de pointe avec des politiques de sécurité complexes
- La recherche approfondie intègre des recherches en ligne en temps réel sur les avis et les vérifications des commerçants
- L’agent capable d’utiliser un ordinateur (CUA) automatise des tâches complexes liées aux politiques, réduisant le recours à des examens manuels coûteux.
Cette approche de mise en correspondance des modèles permet à SafetyKit de déployer l’examen du contenu à grande échelle sur toutes les modalités, avec davantage de nuance et de précision que les solutions existantes.
L’agent de détection des fraudes, par exemple, ne se contente pas d’analyser le texte. Il analyse des éléments visuels tels que des codes QR ou des numéros de téléphone intégrés dans des images de produits. GPT‑4.1 l’aide à analyser l’image, à comprendre la mise en page et à déterminer s’il s’agit d’une violation des politiques.
L’agent de vérification des mentions obligatoires contrôle les fiches produits ou les pages d’atterrissage afin de s’assurer de la présence des éléments requis, tels que des mentions légales ou des avertissements de conformité propres à certaines régions. GPT‑4.1 extrait les sections pertinentes, GPT‑5 évalue la conformité et l’agent signale les violations.
« Nous considérons nos agents comme des workflows conçus pour des usages précis », explique Graunke. « Certaines tâches nécessitent un raisonnement approfondi, d’autres un contexte multimodal. OpenAI est la seule pile technologique qui offre des performances fiables dans les deux cas. »
Les décisions en matière de politiques reposent souvent sur des distinctions subtiles. Prenons l’exemple d’une place de marché où les vendeurs doivent inclure une mention pour les produits de bien-être, avec des exigences qui varient selon les allégations du produit et les règles propres à chaque région. Les solutions traditionnelles reposent sur des mots-clés ou des règles rigides, ce qui peut passer à côté des nuances nécessaires à ces décisions et entraîner des manquements ou des erreurs d’application.
L’agent de vérification des mentions obligatoires de SafetyKit s’appuie d’abord sur les politiques issues de sa bibliothèque interne, puis GPT‑5 évalue le contenu : fait-il référence à un traitement ou à une prévention ? Est-il vendu dans une région où la divulgation est obligatoire ? Et si oui, la langue requise figure-t-elle bien dans l’annonce ? Si un élément est insuffisant, GPT‑5 renvoie une sortie structurée que l’agent utilise pour signaler le problème.
« La force de GPT‑5 réside dans sa capacité à raisonner avec précision lorsqu’il s’appuie sur des politiques concrètes », souligne Graunke. « Il nous permet de prendre des décisions précises et défendables, même dans des cas limites où d’autres systèmes échouent. »
Transformez chaque nouvelle version de modèle en un succès produit
SafetyKit évalue chaque nouveau modèle d’OpenAI sur ses cas les plus complexes, en déployant souvent les plus performants le jour même. Des évaluations internes rigoureuses permettent à l’équipe d’identifier rapidement comment les nouveaux modèles peuvent améliorer les performances et de les intégrer de manière fluide à leur infrastructure centrale.
Lors du lancement d’OpenAI o3, SafetyKit l’a utilisé pour améliorer les performances sur les cas limites dans plusieurs domaines clés de sa politique de modération. GPT‑5 a suivi et, en quelques jours, il a été déployé sur leurs agents les plus exigeants, avec une amélioration de plus de 10 points sur leurs benchmarks pour les tâches de vision les plus difficiles.
« OpenAI évolue rapidement, et nous avons conçu notre système pour suivre le rythme. « Chaque nouvelle version nous donne un avantage opérationnel—elle ouvre de nouvelles capacités et de nouveaux domaines que nous ne pouvions pas couvrir auparavant, tout en améliorant la couverture et la précision que nous offrons à nos clients. »
SafetyKit réinjecte également ses améliorations dans l’écosystème, en partageant avec OpenAI les résultats d’évaluation, les échecs sur cas limites et des enseignements propres aux politiques, afin d’orienter les performances futures des modèles pour des usages critiques en matière de sécurité.
Accompagner la croissance du nombre de clients et des volumes avec la meilleure pile OpenAI
L’architecture de SafetyKit permet d’appliquer les politiques à grande échelle, avec rapidité, précision et une couverture complète des risques. En coulisses, elle traite désormais plus de 16 milliards de tokens par jour, contre 200 millions il y a six mois, en analysant davantage de contenus sans compromettre la précision.
Sur la même période, SafetyKit s’est étendu à la gestion des risques liés aux paiements, à la lutte contre la fraude, à la protection contre l’exploitation des mineurs, à la lutte contre le blanchiment d’argent, et a conquis de nouveaux clients, représentant des centaines de millions d’utilisateurs désormais protégés par SafetyKit. Cette base permet aux clients de réagir rapidement et en toute confiance face aux risques émergents.
« Nous avons mis en place une boucle dans laquelle chaque nouvelle version d’OpenAI renforce directement nos capacités », explique Graunke. « C’est ce qui permet au système de s’améliorer en continu et de garder une longueur d’avance sur des risques en constante évolution. »
Résultats en bref
- Plus de 95 % de précision pour la vérification de 100 % des contenus clients
- 16 milliards de tokens traités chaque jour, contre 200 millions il y a six mois
- Plus de 10 points de gains au benchmark sur les tâches de vision les plus difficiles


