Nous avons créé GPT‑4, la dernière étape importante dans les efforts d'OpenAI pour développer l'apprentissage approfondi. GPT‑4 est un modèle multimodal de grande envergure (acceptant des entrées sous forme d'images et de texte, et produisant des sorties sous forme de texte) qui, bien que moins performant que les humains dans de nombreux scénarios réels, affiche des performances équivalentes à celles des humains dans diverses références professionnelles et académiques. Par exemple, il réussit un examen simulé du barreau avec un score qui le place parmi les 10 % des meilleurs candidats; en revanche, le score de GPT‑3.5 se situait parmi les 10 % les plus bas. Nous avons passé 6 mois à aligner GPT‑4 de manière itérative en utilisant les enseignements tirés de notre programme de tests adversaires ainsi que de ChatGPT, ce qui nous a permis d'obtenir nos meilleurs résultats à ce jour (bien que loin d'être parfaits) en matière de factualité, de maniabilité et de refus de sortir des limites fixées.
Au cours des deux dernières années, nous avons entièrement reconstruit notre pile d'apprentissage approfondi et, en collaboration avec Azure, nous avons conçu de A à Z un superordinateur adapté à notre charge de travail. Il y a un an, nous avons formé GPT‑3.5 dans le cadre d'un premier « essai » du système. Nous avons trouvé et corrigé quelques bogues et amélioré nos fondements théoriques. En conséquence, notre cycle de formation GPT‑4 s'est avéré (du moins pour nous!) d'une stabilité sans précédent, devenant ainsi notre premier modèle de grande envergure dont nous avons pu prédire avec précision les performances de formation à l'avance. Alors que nous continuons à nous concentrer sur une mise à l’échelle fiable, nous visons à affiner notre méthodologie afin de mieux anticiper et préparer les capacités futures, de plus en plus en amont — ce que nous considérons comme essentiel pour la sécurité.
Nous lançons la capacité d'entrée de texte de GPT‑4 via ChatGPT et l'API (avec une liste d'attente). Pour préparer la capacité d'entrée d'images à une disponibilité plus large, nous collaborons étroitement avec un partenaire unique(s'ouvre dans une nouvelle fenêtre) pour commencer. Nous mettons également en source ouverte OpenAI Evals(s'ouvre dans une nouvelle fenêtre), notre cadre d'évaluation automatisée des performances des modèles d'IA, afin de permettre à tout un chacun de signaler les lacunes de nos modèles et de contribuer ainsi à leur amélioration.
Dans une conversation informelle, la distinction entre GPT‑3.5 et GPT‑4 peut être subtile. Le véritable écart entre ces deux modèles apparaît lorsqu’une tâche atteint un niveau de complexité suffisant : GPT‑4 se montre plus fiable, créatif et capable de gérer des instructions bien plus nuancées que GPT‑3.5.
Pour bien comprendre la différence entre les deux modèles, nous les avons soumis à diverses évaluations, notamment en simulant des examens créés à l’origine pour des êtres humains. Nous avons procédé en utilisant les tests les plus récents accessibles au public (dans le cas des Olympiades et des questions à réponse libre AP) ou en achetant les éditions 2022-2023 des examens blancs. Nous n'avons pas fait de formation spécifique pour ces examens. Une minorité des problèmes des examens ont été vus par le modèle lors de la formation, mais nous croyons que les résultats sont représentatifs — consultez notre rapport technique(s'ouvre dans une nouvelle fenêtre) pour plus de détails.
référence interne 1
Nous avons également évalué GPT‑4 à l'aide de références traditionnelles conçues pour les modèles d'apprentissage automatique. GPT‑4 surpasse considérablement les grands modèles de langage existants, ainsi que la plupart des modèles de pointe (SOTA) qui peuvent inclure des protocoles de conception spécifiques à des références ou des protocoles de formation supplémentaires :
De nombreuses références ML existantes sont rédigées en anglais. Pour obtenir une première idée des capacités dans d'autres langues, nous avons traduit la référence MMLU — un ensemble de 14 000 problèmes à choix multiples couvrant 57 matières — en plusieurs langues à l'aide d'Azure Translate (voir l'annexe). Dans 24 des 26 langues testées, GPT‑4 surpasse la performance en anglais de GPT‑3.5 et d’autres LLM (Chinchilla, PaLM), y compris pour des langues peu dotées en ressources comme le letton, le gallois et le swahili :
Nous avons également utilisé GPT‑4 en interne, avec un impact extrêmement positif sur des fonctions comme le soutien, les ventes, la modération de contenu et la programmation. Nous l'utilisons également pour aider les humains à évaluer les sorties de l'IA, amorçant ainsi la deuxième phase de notre stratégie d'alignement.
GPT‑4 peut accepter une invite de texte et d'images, ce qui, parallèlement au paramètre texte seul, permet à l'utilisateur de spécifier n'importe quelle tâche visuelle ou linguistique. Plus précisément, il génère des sorties texte (langage naturel, code, etc) à partir d’entrées mêlant texte et images. Dans divers domaines, notamment les documents contenant du texte et des photographies, des diagrammes ou des captures d'écran, GPT‑4 affiche des capacités similaires à celles qu'il présente avec des entrées textuelles uniquement. En outre, il peut être complété par des techniques de test développées pour les modèles de language uniquement textuels, y compris l'incitation à la réflexion en quelques exemples et le raisonnement en chaîne.(s'ouvre dans une nouvelle fenêtre) La prise en charge des images en entrée en est encore au stade préliminaire et n’est pas accessible au grand public.
Nous évaluons les performances du GPT‑4 en le testant sur une série restreinte de références académiques standard en matière de vision. Cependant, ces chiffres ne représentent pas entièrement l’étendue de ses capacités, car nous découvrons constamment de nouvelles tâches passionnantes que le modèle est capable d’aborder. Nous prévoyons de publier prochainement des analyses supplémentaires, des chiffres issus des évaluations ainsi qu’une étude approfondie de l’effet des techniques de test d’inférence.
note de bas de page interneA
Nous avons travaillé sur chaque aspect du plan décrit dans notre article sur la définition du comportement des IA, y compris la capacité de direction. Plutôt que la personnalité classique de ChatGPT avec une verbosité, un ton et un style fixes, les développeurs (et bientôt les utilisateurs de ChatGPT) peuvent désormais prescrire le style et la tâche de leur IA en décrivant ces instructions dans le message « système ». Les messages système permettent aux utilisateurs d'API de personnaliser considérablement l'expérience de leurs utilisateurs dans des limites définies(s'ouvre dans une nouvelle fenêtre). Nous continuerons à apporter des améliorations à ce niveau (et nous sommes particulièrement conscients que les messages système constituent le moyen le plus simple de « contourner » le modèle actuel, c'est-à-dire que le respect des limites n'est pas parfait), mais nous vous encourageons à l'essayer et à nous faire part de vos commentaires.
Malgré ses capacités, GPT‑4 garde les mêmes limites que les modèles GPT précédents. Plus important encore, il n'est toujours pas totalement fiable (il « hallucine » des faits et commet des erreurs de raisonnement). Il convient d'utiliser les résultats des modèles linguistiques avec la plus grande prudence, en particulier dans les contextes à haut risque, en respectant scrupuleusement le protocole (tel que la révision humaine, l'ancrage dans un contexte supplémentaire ou l'évitement total des utilisations à haut risque) correspondant aux besoins d'un cas d'utilisation spécifique.
Bien que cela reste un véritable problème, GPT‑4 réduit considérablement les hallucinations par rapport aux modèles précédents (qui eux-mêmes s'amélioraient à chaque itération). GPT‑4 obtient ainsi des scores 40 % plus élevés que la dernière version de GPT‑3.5 sur notre évaluation interne de la véracité en situation complexe :
Nous avons réalisé des progrès sur des références externes telles que TruthfulQA, qui teste la capacité du modèle à distinguer les faits d'un ensemble d'affirmations incorrectes sélectionnées de manière antagoniste. Chaque question est associée à des réponses incorrectes, mais aussi statistiquement probables.
Le modèle de base GPT‑4 n'est que légèrement plus performant que GPT‑3.5 dans cette tâche; cependant, après une post-formation RLHF (en appliquant le même processus que celui utilisé avec GPT‑3.5), l'écart est considérable. Les exemples ci-dessous montrent que GPT‑4 évite le piège des proverbes courants (on n’apprend pas à un vieux chien à faire de nouveaux tours), mais qu’il peut tout de même passer à côté de détails plus subtils (Elvis Presley n’était pas le fils d’un acteur).
Le modèle peut présenter divers biais dans ses résultats. Nous avons fait des progrès à cet égard, mais il reste encore beaucoup à faire. Conformément à notre récent article de blogue, nous souhaitons que les systèmes d'IA que nous développons aient des comportements par défaut raisonnables qui reflètent un large éventail de valeurs des utilisateurs, permettent de personnaliser ces systèmes dans une large mesure et recueillent l'avis du public sur ce que devraient être ces limites.
GPT‑4 n’a généralement pas d’informations sur les événements intervenus après la date d’actualisation de ses données (septembre 2021) et n’apprend pas de ses expériences. Il peut parfois faire des erreurs de raisonnement basiques qui semblent incohérentes avec sa compétence dans bien d’autres domaines, ou accepter bien trop facilement des affirmations visiblement inexactes des utilisateurs. Parfois, il échoue sur des problèmes complexes, à la manière des humains. Il peut par exemple introduire des vulnérabilités de sécurité dans le code qu’il génère.
GPT‑4 peut également se tromper dans ses prédictions, sans prendre la peine de vérifier son travail lorsqu'il est susceptible de commettre une erreur. Il est intéressant de noter que le modèle pré-formé de base est hautement calibré (sa confiance prédite dans une réponse correspond généralement à la probabilité d'être correcte). Cependant, notre processus actuel post-formation abaisse ce niveau de calibration.
Nous faisons évoluer GPT‑4 pour le rendre plus sécurisé et mieux aligné dès le début de la formation, avec des efforts comprenant la sélection et le filtrage des données pré-formation, des évaluations et l’intervention d’experts, des améliorations de la sécurité du modèle, ainsi que la surveillance et l’application.
GPT‑4 pose des risques similaires aux modèles précédents, tels que la génération de conseils dangereux, de code bugué ou d’informations inexactes. Néanmoins, les capacités supplémentaires de GPT‑4 entraînent une extension de la surface de risque. Pour bien en comprendre l’étendue, nous avons fait appel à plus de 50 experts dans des domaines tels que les risques liés à l’alignement de l’IA, la cybersécurité, les risques biologiques, la sécurité et la confiance, ainsi que la sécurité internationale, afin de challenger le modèle. Ils nous ont permis de tester le comportement du modèle sur des sujets à haut risque dont l’évaluation nécessitait une expertise. Les commentaires et données de ces experts ont alimenté nos contre-mesures et améliorations pour le modèle; par exemple, nous avons recueilli des données supplémentaires pour améliorer la capacité de GPT‑4 à refuser des demandes relatives à la synthèse de produits chimiques dangereux.
GPT‑4 incorpore un signal de récompense de sécurité supplémentaire lors de la formation RLHF pour réduire les sorties nuisibles (telles que définies par nos directives d'utilisation(s'ouvre dans une nouvelle fenêtre)) en entraînant le modèle à refuser les demandes pour ce type de contenu. La récompense est fournie par un classificateur sans exemple GPT‑4 qui évalue les limites de sécurité et le style de réalisation à partir d'invites liées à la sécurité. Pour éviter que le modèle ne refuse des demandes valides, nous collectons un ensemble de données variées provenant de diverses sources ((p. ex. données de production étiquetées, équipes rouges humaines, invites générées par le modèle) et appliquons le signal de récompense de sécurité (avec une valeur positive ou négative) aux catégories autorisées et non autorisées.
Nos contre-mesures ont permis d’améliorer de manière notable plusieurs des propriétés de sécurité de GPT‑4 par rapport à GPT‑3.5. Nous avons limité la tendance du modèle à répondre aux demandes de contenu interdit de 82 % par rapport à GPT‑3.5. De plus, GPT‑4 répond aux demandes sensibles (conseils médicaux et liés à des automutilations) en respectant nos politiques 29 % plus souvent.
Dans l’ensemble, nos interventions au niveau du modèle augmentent la difficulté de susciter de mauvais comportements, mais cela reste possible. De plus, il existe encore des débrideurs permettant de générer du contenu qui violent nos directives d'utilisation. Avec l’augmentation du « risque par token » des systèmes d’IA, ces interventions vont devoir atteindre des niveaux de fiabilité extrêmes. Pour le moment, il est important de gérer ces limitations à l’aide de techniques de sécurisation au moment du déploiement, comme la surveillance des abus.
Le GPT‑4 et les modèles qui lui succéderont ont le potentiel d'influencer considérablement la société, tant de manière bénéfique que néfaste. Nous travaillons avec des chercheurs externes pour améliorer notre compréhension et notre évaluation de ces impacts, mais aussi pour créer des moyens d’évaluer les capacités dangereuses dont pourraient disposer de futurs systèmes. Nous partagerons bientôt davantage nos réflexions sur les impacts sociaux et économiques potentiels du GPT‑4 et d'autres systèmes d'IA.
Comme les modèles GPT précédents, le modèle GPT‑4 de base a été entraîné à prédire le mot suivant d’un document, et a été entraîné à l’aide de données publiques (provenant notamment d’internet) ainsi que de données pour lesquelles nous avons acquis des licences. Les données constituent un corpus à l’échelle du Web comprenant des solutions correctes et incorrectes à des problèmes mathématiques, des raisonnements faibles et forts, des affirmations contradictoires et cohérentes, et représentant une grande variété d’idéologies et d’idées.
Lorsqu’un utilisateur lui pose une question, le modèle de base peut donc répondre de très nombreuses manières, et parfois sans lien avec l’intention d’origine de l’utilisateur. Pour l’aligner avec l’intention de l’utilisateur dans les garde-fous, nous ajustons le comportement du modèle à l’aide de l’apprentissage par renforcement avec des commentaires humains (RLHF).
Notez que les capacités du modèle semblent venir principalement du processus précédant la formation : le RLHF n’améliore pas les résultats aux examens, voire les dégrade en l’absence d’efforts actifs. Mais le pilotage du modèle provient du processus post-formation : le modèle de base nécessite une ingénierie des invites pour savoir qu'il doit répondre aux questions.
L'un des principaux objectifs du projet GPT‑4 a été de créer une pile d'apprentissage approfondi évolutive de manière prévisible. La raison principale est que, pour les formations très étendues telles que GPT‑4, il n'est pas possible de procéder à un réglage spécifique du modèle. Nous avons donc mis au point une infrastructure et des optimisations dont le comportement reste très prévisible à plusieurs échelles. Nous avons ainsi pu prédire avec exactitude à l’avance la perte finale de GPT‑4 sur notre base de code interne (qui ne fait pas partie des données de formation) en réalisant des extrapolations à partir de modèles formés selon la même méthodologie, mais demandant une puissance de calcul 10 000 fois moins importante :
Maintenant que nous sommes en mesure de prédire avec précision l’indicateur que nous optimisons pendant la formation (perte), nous commençons à développer une méthodologie pour prédire des indicateurs plus interprétables. Par exemple, nous avons prédit avec succès le taux de réussite sur un sous-ensemble de l’ensemble de données HumanEval(s'ouvre dans une nouvelle fenêtre), en extrapolant à partir de modèles avec 1 000 fois moins de calcul :
Certaines capacités sont encore difficiles à prévoir. Par exemple, le prix Inverse Scaling était un concours visant à trouver une métrique qui se détériore à mesure que la puissance de calcul du modèle augmente, et la négligence rétrospective(s'ouvre dans une nouvelle fenêtre) a été l'un des gagnants. Comme pour un autre résultat(s'ouvre dans une nouvelle fenêtre) récent, GPT‑4 inverse la tendance :
Nous croyons que prédire avec précision les capacités futures de l'apprentissage automatique est un élément important de la sécurité qui ne reçoit pas suffisamment d'attention par rapport à son impact potentiel (même si nous sommes encouragés par les efforts déployés par plusieurs institutions). Nous renforçons nos travaux de développement de méthodes permettant à la société de mieux comprendre les capacités des systèmes futurs et espérons que les autres acteurs du secteur partageront cet objectif.
Nous mettons en source ouverte OpenAI Evals(s'ouvre dans une nouvelle fenêtre), notre cadre logiciel permettant de créer et d'exécuter des références pour évaluer des modèles tels que GPT‑4, tout en inspectant leurs performances échantillon par échantillon. Nous utilisons Evals pour guider le développement de nos modèles (à la fois pour identifier les lacunes et prévenir les régressions), et nos utilisateurs peuvent l'utiliser pour suivre les performances des différentes versions du modèle (qui seront désormais publiées régulièrement) et l'évolution des intégrations de produits. Par exemple, Stripe a utilisé Evals pour compléter ses évaluations humaines afin de mesurer la précision de son outil de documentation propulsé par GPT.
Comme le code est entièrement en source ouverte, Evals prend en charge la rédaction de nouvelles classes pour implémenter une logique d'évaluation personnalisée(s'ouvre dans une nouvelle fenêtre). D'après notre propre expérience, cependant, de nombreuses références suivent l'un des quelques « modèles » existants. Nous avons donc également inclus les modèles(s'ouvre dans une nouvelle fenêtre) qui se sont avérés les plus utiles en interne (y compris un modèle pour les « évaluations par modèle » — nous avons constaté que GPT‑4 est étonnamment capable de vérifier son propre travail). En général, la manière la plus efficace de créer une nouvelle évaluation(s'ouvre dans une nouvelle fenêtre) est d’instancier l’un de ces modèles tout en fournissant des données. Nous sommes impatients de voir ce que d’autres pourront créer avec ces modèles et, plus généralement, avec Evals.
Nous espérons que Evals deviendra un moyen de partager et de créer collectivement des références, représentant un ensemble aussi large que possible de modes d’échec et de tâches difficiles. À titre d'exemple à suivre, nous avons créé une évaluation de casse-têtes logiques(s'ouvre dans une nouvelle fenêtre) qui contient dix invites où GPT‑4 échoue. Evals est également compatible avec la mise en œuvre de références existantes; nous avons inclus plusieurs cahiers(s'ouvre dans une nouvelle fenêtre) mettant en œuvre des références académiques et quelques variantes d'intégration (de petits sous-ensembles) de CoQA(s'ouvre dans une nouvelle fenêtre) à titre d'exemple.
Nous invitons tout le monde à utiliser Evals pour tester nos modèles et soumettre les exemples les plus intéressants. Nous croyons que les Evals seront une partie intégrante du processus d'utilisation et de développement de nos modèles, et nous vous invitons à contribuer directement, poser des questions et donner vos commentaires(s'ouvre dans une nouvelle fenêtre).
Les abonnés de ChatGPT Plus auront accès à GPT‑4 sur chatgpt.com(s'ouvre dans une nouvelle fenêtre) avec une limite d'utilisation. Nous ajusterons la limite d'utilisation exacte en fonction de la demande et des performances du système dans la pratique, mais nous nous attendons à être fortement limités en termes de capacité (même si nous allons augmenter et optimiser nos capacités au cours des prochains mois).
En fonction des tendances de trafic observées, nous pourrions introduire un nouveau niveau d'abonnement pour une utilisation plus intensive de GPT‑4. Nous espérons également pouvoir proposer à terme un certain nombre de requêtes GPT‑4 gratuites afin que les utilisateurs sans abonnement puissent également l'essayer.
Pour obtenir l'accès à l'API GPT‑4 (qui utilise la même API ChatCompletions(s'ouvre dans une nouvelle fenêtre) que gpt-3.5-turbo), veuillez vous inscrire sur notre liste d’attente. Nous allons commencer à inviter quelques développeurs aujourd’hui, puis augmenter progressivement la capacité pour équilibrer l’offre et la demande. Si vous êtes un chercheur étudiant l'impact sociétal de l'IA ou les questions d'alignement de l'IA, vous pouvez également demander un accès subventionné par le biais de notre Programme d’accès pour les chercheurs.
Une fois votre accès obtenu, vous pouvez effectuer des demandes uniquement textuelles au modèle gpt-4 (les entrées d’images sont encore en alpha limitée), que nous mettrons automatiquement à jour vers notre modèle stable recommandé au fur et à mesure que de nouvelles versions seront disponibles (vous pouvez épingler la version actuelle en appelant gpt-4-0314, que nous prendrons en charge jusqu’au 14 juin). La tarification est de 0,03 $ par 1 000 tokens d'invite et de 0,06 $ par 1 000 tokens de complétion. Les limites par défaut sont de 40 000 token par minute et 200 demandes par minute.
gpt-4 a une longueur de contexte de 8 192 tokens. Nous fournissons également un accès limité à notre version 32 768 contextes (environ 50 pages de texte), gpt-4-32k, qui sera également mise à jour automatiquement au fil du temps (version actuelle gpt-4-32k-0314, également prise en charge jusqu'au 14 juin). La tarification en vigueur est de 0,06 $ pour 1 000 tokens d'invite et 0,12 $ pour 1 000 tokens de sortie. Nous travaillons encore à l’amélioration de la qualité du modèle pour le contexte étendu et sommes preneurs de vos commentaires sur ses performances dans vos cas d’utilisation. Nous traitons les demandes de moteurs 8K et 32K à des vitesses différentes en fonction de notre capacité, et vous pourrez donc obtenir vos accès à des moments variables.
Nous avons hâte que GPT‑4 contribue de manière significative à l’amélioration du quotidien du grand public en devenant la base de nombreuses applications. Il reste encore beaucoup à faire, et nous sommes impatients d'améliorer ce modèle grâce aux efforts collectifs de la communauté qui s'appuie sur lui, l'explore et y contribue.
Pour en savoir plus : Lire l’article(s'ouvre dans une nouvelle fenêtre) / Consulter la fiche système(s'ouvre dans une nouvelle fenêtre) / Essayer sur ChatGPT Plus(s'ouvre dans une nouvelle fenêtre) / Essayer dans le Playground(s'ouvre dans une nouvelle fenêtre) / Revoir la diffusion en direct de la démo(s'ouvre dans une nouvelle fenêtre) / Contribuer à OpenAI Evals(s'ouvre dans une nouvelle fenêtre)
Exemple de questions de l’évaluation MMLU traduites dans d’autres langues. Notez que nous utilisons des jetons de choix cohérents (A à D) :
Notes de bas de page
- A
Nous évaluons cette référence à l'aide de la méthode de la chaîne de pensée avec 4 exemples tirés du jeu de données de formation en contexte. L'invite spécifique a été réglée sur l'ensemble de validation.
Références
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Une analyse plus approfondie est disponible dans l'article(s'ouvre dans une nouvelle fenêtre).


