Comment ChatGPT et nos modèles de fondation sont développés
En savoir plus sur la manière dont nous développons nos modèles et les appliquons dans des produits comme ChatGPT
Les modèles de fondation d’OpenAI, y compris les modèles qui alimentent ChatGPT, sont développés en utilisant trois sources de renseignements principales : (1) les renseignements accessibles au public sur Internet, (2) les renseignements auxquels nous avons accès dans le cadre de partenariats avec des tiers, et (3) les renseignements fournis ou générés par nos utilisateurs ou nos formateurs et chercheurs humains.
Le présent article donne un aperçu des renseignements accessibles au public que nous utilisons pour aider au développement des modèles et de la manière dont nous recueillons et utilisons ces renseignements en conformité avec les lois sur la protection de la vie privée. Pour comprendre comment nous recueillons et utilisons les renseignements des utilisateurs de nos services, y compris comment refuser que les conversations de ChatGPT soient utilisées pour aider à entraîner nos modèles, veuillez consulter notre Politique de confidentialité et cet article.
ChatGPT est un service basé sur l’intelligence artificielle auquel vous pouvez accéder sur Internet. Vous pouvez utiliser ChatGPT pour diverses tâches, notamment organiser ou synthétiser des renseignements, aider àla traduction de contenu, analyser ou générer des images, trouver de l’inspiration ou des idées, et vous accompagner dans vos tâches quotidiennes. ChatGPT a été développé de manière à pouvoir comprendre et répondre aux questions et instructions de l’utilisateur. Pour ce faire, le service passe en revue une grande quantité d’informations, comme du texte, des images, ainsi que des contenus audio ou vidéo, et enrichit ses connaissances à partir des liens que contiennent ces informations. Par exemple, le modèle apprend comment certains mots ont tendance à apparaître ensemble en contexte. Il s’appuie ensuite sur ce qu’il a appris pour prédire le mot suivant le plus susceptible d’apparaître en réponse à une demande de l’utilisateur, et ainsi de suite pour chaque mot subséquent. Un tel modèle peut aussi apprendre à générer d’autres types d’information, notamment des images en apprenant comment les pixels qui forment des images dans les renseignements d’entraînement sont non seulement liés les uns aux autres, mais également aux légendes qui les décrivent.
Par exemple, au cours du processus d’apprentissage du modèle (appelé « entraînement »), nous pourrions demander à un modèle d’essayer de compléter la phrase suivante : « au lieu de tourner à gauche, elle a tourné___ ». Avant l’entraînement, le modèle répondra avec des mots aléatoires, mais au fur et à mesure qu’il lit et apprend à partir de nombreuses lignes de texte, il comprend mieux ce type de phrase et peut prédire le mot suivant avec plus de précision. Il répète ensuite ce processus sur un très grand nombre de phrases.
Dans la mesure où la suite de cette phrase offre de nombreuses possibilités, (par exemple, au lieu de tourner à gauche, elle a tourné « à droite », « pour faire demi-tour » ou « pour faire marche arrière »), il y a une part de hasard dans la façon dont un modèle peut répondre. Dans de nombreux cas, nos modèles répondront à la même question de différentes façons.
Les modèles d’apprentissage automatique se composent de longues chaînes de nombres, appelées « poids » ou « paramètres », et d’un code qui interprète et exécute ces nombres. Les modèles ne contiennent ni ne conservent de copies des renseignements qu’ils utilisent à des fins d’apprentissage. Au lieu de cela, à mesure qu’un modèle apprend, certains des nombres qui le composent changent légèrement pour refléter ce qu’il a appris. Dans l’exemple ci-dessus, le modèle a étudié des renseignements qui lui ont permis de passer de la prédiction de mots incorrects aléatoires à la prédiction de mots plus exacts. Cependant, tout ce qui s’est réellement passé dans le modèle lui-même, c’est que les nombres ont légèrement changé. Le modèle n’a pas conservé ni copié les phrases, les images ou le contenu audio qu’il a étudiés.
Comme indiqué ci-dessus, ChatGPT et nos autres services sont développés à l’aide (1) de renseignements accessibles au public sur Internet, (2) de renseignements auxquels nous avons accès dans le cadre de partenariats avec des tiers, et (3) de renseignements fournis ou générés par nos utilisateurs ou nos formateurs et chercheurs humains. Cet article se concentre sur le premier ensemble : les renseignements accessibles au public sur Internet.
Pour cet ensemble de renseignements, nous n’utilisons que des renseignements accessibles au public qui sont librement et ouvertement disponibles sur Internet. Par exemple, nous ne recherchons pas de renseignements dont nous savons qu’ils se trouvent derrière des verrous d'accès payant ou sur le Web caché. Nous appliquons des filtres et supprimons les renseignements que nous ne souhaitons pas utiliser pour entraîner nos modèles ou générer des résultats, comme les discours haineux, les contenus pour adultes, les sites qui agrègent principalement des renseignements personnels et les pourriels. Nous utilisons ensuite ces renseignements pour entraîner nos modèles.
Comme un grand nombre des renseignements sur Internet portent sur des personnes, nos renseignements d’entraînement contiennent accessoirement des renseignements personnels. Nous ne cherchons pas activement à obtenir des renseignements personnels pour entraîner nos modèles.
Nous utilisons des renseignements d’entraînement dans le but exclusif d’impartir à nos modèles une forme d’intelligence, notamment la capacité de prédire, de raisonner et de résoudre des problèmes. Nous n’utilisons pas et n’utiliserons pas les renseignements personnels contenus dans les renseignements d’entraînement pour établir des profils de personnes, pour les contacter, pour leur proposer de la publicité, pour essayer de leur vendre quoi que ce soit ou pour vendre les renseignements eux-mêmes.
Nos modèles peuvent s’appuyer sur des renseignements personnels pour comprendre comment des éléments tels que les noms et les adresses s’intègrent dans le langage et les phrases, ou pour en savoir plus sur les personnes célèbres et les personnalités publiques. Nos modèles sont ainsi meilleurs à fournir des réponses pertinentes.
Nous prenons également des mesures pour réduire le traitement des renseignements personnels lors de l’entraînement de nos modèles. Par exemple, nous retirons les sites Web qui agrègent de grandes quantités de renseignements personnels. Nous entraînons également nos modèles à rejeter les demandes de renseignements privés ou sensibles sur les personnes.
Nous utilisons les renseignements d’entraînement dans le respect de la loi. Nos modèles de fondation ont de nombreuses applications qui offrent des avantages considérables et aident déjà les gens à créer du contenu, à améliorer le service client, à développer des logiciels, à personnaliser les formations pédagogiques et à soutenir la recherche scientifique, parmi tant d’autres possibilités. Ces avantages ne peuvent être obtenus sans une grande quantité de renseignements pour entraîner les modèles. En outre, notre utilisation des renseignements d’entraînement n’a pas pour but d’avoir une incidence négative sur les individus. D’ailleurs, les principales sources de ces renseignements d’entraînement sont déjà accessibles au public. C’est pourquoi notre collecte et notre utilisation des renseignements personnels inclus dans les renseignements d’entraînement sont fondées sur des intérêts légitimes en vertu des lois sur la protection de la vie privée (ex. : le RGPD), comme l’explique plus en détail notre Politique de confidentialité. Nous avons également réalisé une évaluation des facteurs relatifs à la vie privée pour nous assurer que nous recueillons et utilisons ces renseignements de manière légale et responsable.
Nous répondons aux demandes d’opposition et aux droits similaires. En raison de son apprentissage du langage, les réponses de ChatGPT peuvent parfois inclure des renseignements personnels concernant des individus dont les renseignements personnels apparaissent plusieurs fois sur l’Internet public (par exemple, des personnalités publiques). Les personnes relevant de certaines juridictions peuvent s’opposer au traitement de leurs renseignements personnels par nos modèles ou formuler d’autres demandes relatives aux droits des personnes concernées sur notre Portail de protection de la vie privée(s'ouvre dans une nouvelle fenêtre). Vous pouvez aussi exercer ces droits en nous écrivant à l’adresse dsar@openai.com.
Veuillez noter que, conformément aux lois sur la protection de la vie privée, certains droits ne sont pas absolus. Nous pouvons refuser une demande si nous avons une raison légale de le faire. Toutefois, nous nous efforçons de donner la priorité à la protection des renseignements personnels et de nous conentraîner à toutes les lois applicables en matière de protection de la vie privée. Si vous estimez que nous n’avons pas traité un problème de manière adéquate, vous avez le droit de déposer une demande auprès de votre autorité réglementaire locale.
Pour en savoir plus sur les pratiques d’OpenAI concernant les renseignements personnels que nous recueillons auprès de vous ou à votre sujet lorsque vous utilisez notre site Web, nos applications et nos services, veuillez consulter notre Politique de confidentialité.