Faire progresser la provenance des contenus pour un écosystème IA plus sûr et plus transparent
Aider les gens à comprendre l’origine des contenus générés par l’IA grâce aux Content Credentials, à SynthID et à un premier outil public de vérification.
Les gens utilisent chaque jour les outils d’OpenAI pour créer et modifier des images et de l’audio de façons qui rendent la communication plus expressive, utile et accessible. À mesure que ces outils s’intègrent à la manière dont les gens créent, imaginent et partagent, il est important qu’ils puissent comprendre et vérifier d’où viennent les médias afin de les interpréter avec davantage de confiance. Les signaux de provenance peuvent aider en donnant aux gens du contexte sur l’origine du contenu, la façon dont il a été créé ou modifié, et s’il correspond bien à ce qu’il prétend être.
Aujourd’hui, nous renforçons notre approche de la provenance des contenus avec un modèle multicouche, porté par l’écosystème, pour instaurer la confiance en ligne. Nous facilitons la reconnaissance de nos signaux de provenance par d’autres outils et plateformes grâce à la conformité C2PA, ajoutons aux images un tatouage numérique SynthID durable et multiplateforme via un partenariat avec Google, et partageons un aperçu d’un outil que le public pourra utiliser pour vérifier si des images proviennent d’OpenAI.
Ensemble, ces mises à jour s’appuient sur nos travaux antérieurs pour soutenir les standards ouverts, rendre les contenus générés par OpenAI plus faciles à identifier et collaborer avec l’ensemble du secteur afin de favoriser un écosystème de l’information plus fiable.
OpenAI participe au développement et à l’adoption de standards de provenance depuis 2024, lorsque nous avons commencé à ajouter des métadonnées Content Credentials aux images générées par DALL·E 3(ouverture dans une nouvelle fenêtre), puis à ImageGen(ouverture dans une nouvelle fenêtre) et Sora(ouverture dans une nouvelle fenêtre). Nous avons également rejoint le comité de pilotage de la Coalition for Content Provenance and Authenticity (C2PA), le groupe intersectoriel à l’origine du standard technique ouvert de la provenance des contenus. L’approche technique de la C2PA utilise des métadonnées et des signatures cryptographiques pour aider les informations sur un média à accompagner le contenu de manière sécurisée. Ces informations incluent un contexte utile aux journalistes qui évaluent une source, aux plateformes qui prennent des décisions d’intégrité et aux personnes qui cherchent à comprendre ce qu’elles voient en ligne.
Nous avons récemment franchi l’étape consistant à faire d’OpenAI un produit générateur conforme C2PA(ouverture dans une nouvelle fenêtre). En devenant conformes à la C2PA, nous donnons aux plateformes un moyen fiable de lire, préserver et transmettre les informations de provenance que nous associons à nos contenus. C’est important, car la provenance ne fonctionne que si elle survit au-delà de la première plateforme où le contenu est créé, et la conformité le rend possible.
Les métadonnées C2PA constituent une base importante pour la provenance. Elles aident le contenu à transporter des informations sur son origine, la façon dont il a été créé ou modifié, et sur l’identité du signataire de ces informations. Mais les métadonnées ne sont pas infaillibles. Elles peuvent être supprimées, perdues lors des téléversements et téléchargements, ou altérées par des transformations comme les changements de format de fichier, le redimensionnement ou les captures d’écran.
Pour rendre la provenance plus résiliente, nous adoptons une approche multicouche et intégrons le tatouage numérique via SynthID de Google DeepMind(ouverture dans une nouvelle fenêtre), en commençant par les images générées via ChatGPT, Codex ou l’API OpenAI. SynthID intègre un mécanisme de tatouage numérique invisible qui complète les approches fondées sur les métadonnées C2PA.
Nous préparons cela depuis un certain temps. Nous avons utilisé des filigranes visibles dans Sora et un tatouage audio dans Voice Engine, et nous avons continué à tester et à étudier leur précision et leur fiabilité au fil du temps dans le cadre du déploiement.
Ces deux systèmes se renforcent mutuellement. La C2PA aide le contenu à transporter un contexte détaillé ; SynthID aide à préserver un signal lorsque les métadonnées ne survivent pas. Le tatouage numérique peut être plus durable face à des transformations comme les captures d’écran, tandis que les métadonnées peuvent fournir plus d’informations qu’un tatouage seul. Ensemble, ils rendent la provenance plus résiliente que ne le ferait chacune de ces couches prise isolément.
Des métadonnées fiables et des tatouages numériques qui résistent à la plupart des modifications peuvent rendre les signaux de provenance plus durables. Mais les utilisateurs ont besoin d’un moyen de détecter ces signaux. Nous présentons maintenant la première version d’un outil public de vérification qui aidera les utilisateurs à vérifier si une image téléversée a été générée sur ChatGPT, l’API OpenAI ou Codex, en contrôlant si elle contient des signaux de provenance, notamment des Content Credentials et SynthID.
Nous pensons que la provenance devrait être plus facile à vérifier et à interpréter pour le public, et que notre outil peut les aider à contribuer à répondre à la question : « Cela a-t-il été généré avec l’IA ? », en intégrant plusieurs signaux. Cette approche s’appuie sur les enseignements tirés de l’aperçu de recherche initial de notre classificateur de détection d’images en 2024 et permet de détecter de manière fiable la présence d’un tatouage SynthID provenant d’OpenAI est présent dans le média, ainsi que d’afficher les métadonnées C2PA lorsqu’elles sont trouvées.

Aucune méthode de détection n’est infaillible, c’est pourquoi nous adoptons une approche prudente lorsque la détection échoue. Si aucune métadonnée ni aucun tatouage n’est détecté, par exemple, l’outil ne tirera pas de conclusion définitive sur le fait que l’image a été générée avec des outils OpenAI, car les signaux de provenance peuvent dans certains cas être supprimés.
Au lancement, l’outil est limité aux contenus générés par OpenAI. Dans les mois à venir, nous visons à soutenir les efforts intersectoriels pour rendre la vérification possible sur toutes les plateformes. Avec le temps, nous prévoyons également de prendre en charge davantage de types de contenus que les gens peuvent rencontrer en ligne.
Aucune technique de provenance ne suffit à elle seule. Nous pensons qu’une approche solide combine des standards partagés, des signaux de tatouage numérique durables et une vérification publique. En nous appuyant sur notre soutien de longue date aux Content Credentials, en devenant conformes à la C2PA, en adoptant SynthID et en présentant un aperçu d’outils publics de vérification, nous espérons contribuer à long terme à un écosystème de provenance plus interopérable.


