Passer au contenu principal
OpenAI

GPT‑4 marque une nouvelle étape des effort d'OpenAI pour faire monter en puissance l'apprentissage approfondi. GPT‑4 est un grand modèle multimodal, c’est-à-dire qu’il accepte des images et du texte en entrée et génère des sorties texte. S’il est moins intelligent que des êtres humains dans de nombreux scénarios concrets, il atteint des performances similaires dans diverses évaluations professionnelles et académiques. Par exemple, son score à une simulation d’examen du barreau le place dans le premier décile des meilleurs candidats. À titre de comparaison, le score de GPT‑3.5 le positionne dans le dernier décile. Nous avons passé 6 mois à aligner GPT‑4  de manière itérative en nous appuyant sur les leçons tirées de notre programme de tests en situation complexe et de ChatGPT. Nous avons ainsi obtenu des résultats inégalés en matière de véracité, de contrôlabilité et de respect des garde-fous (sans atteindre la perfection pour autant).

Au cours des deux dernières années, nous avons revu notre architecture d’apprentissage approfondi de fond en comble et, en collaboration avec Azure, avons contribué à la conception d’un superordinateur entièrement pensé pour notre charge de travail. Il y a un an, l’entraînement de GPT‑3.5 a fait office de galop d’essai pour ce nouveau système. À cette occasion, nous avons détecté et corrigé différents bugs, et renforcé nos bases théoriques. Ces progrès nous ont permis d’obtenir une stabilité remarquable lors de l’entraînement de GPT‑4 (à notre niveau tout au moins). Il s’agit du premier grand modèle dont nous avons pu anticiper les performances d’entraînement. Pour proposer des modèles toujours plus puissants et fiables, nous allons affiner notre méthodologie afin d’anticiper leurs capacités futures bien en amont et de pouvoir nous y préparer. Nous pensons que cette étape est indispensable pour assurer la sécurité de l’IA.

L’envoi de texte à GPT‑4 est disponible via ChatGPT et l’API (avec une liste d'attente). Pour préparer le déploiement étendu de la prise en charge des images en entrée, nous avons choisi de travailler en étroite collaboration avec un seul partenaire(ouverture dans une nouvelle fenêtre) dans un premier temps. Nous allons également publier OpenAI Evals(ouverture dans une nouvelle fenêtre) sous licence open source. Ce cadre d’évaluation automatisée des performances des modèles IA permettra à chacun de signaler les défauts de nos modèles et de contribuer à leur amélioration.

Fonctionnalités

Dans une conversation superficielle, les différences entre GPT‑3.5 et GPT‑4 ne sautent pas nécessairement aux yeux. Le véritable écart entre ces deux modèles apparaît lorsqu’une tâche atteint un niveau de complexité suffisant : GPT‑4 se montre plus fiable et créatif, et il est capable de gérer des instructions bien plus nuancées que GPT‑3.5.

Pour bien comprendre les différences séparant ces deux modèles, nous les avons soumis à diverses évaluations, notamment en simulant des examens créés à l’origine pour des êtres humains. Pour ce faire, nous avons utilisé les tests les plus récents disponibles (dans le cas de l’examen Olympiads et AP, des questions à réponses libre) ou en achetant les annales 2022/2023. Nous n’avons pas entraîné les modèles spécifiquement sur ces examens. Un petit nombre des problèmes figurant dans les examens étaient déjà inclus dans les données d’entraînement, mais nous estimons que les résultats obtenus restent représentatifs. Pour en savoir plus à ce sujet, consultez notre rapport technique(ouverture dans une nouvelle fenêtre).

référence interne 1

Chargement en cours...
Chargement en cours...

Nous avons également soumis GPT‑4 à des évaluations classiques destinées aux modèles de machine learning. GPT‑4 se montre bien plus performant que les autres grands modèles de langage, y compris les modèles de pointe dont certains ont pu être paramétrés pour ces évaluations ou bénéficiant de protocoles d’entraînement supplémentaires :

Chargement en cours...

Beaucoup d’évaluations de machine learning sont écrites en anglais. Pour comprendre les capacités du modèle dans d’autres langues, nous avons traduit l’évaluation MMLU, une suite de 14 000 questions à choix multiples abordant 57 thématiques, dans diverses langues avec Azure Translate (voir l’Annexe). Dans 24 des 26 langues testées, GPT‑4 se montre plus performant que GPT‑3.5 et d’autres LLM (Chinchilla, PaLM) le sont en anglais, y compris pour des langues pour lesquelles peu de ressources sont disponibles, comme le letton,le gallois et le swahili :

Chargement en cours...

Nous avons également utilisé GPT‑4 en interne, avec un impact extrêmement positif sur des fonctions comme le support, les ventes, la modération de contenu et la programmation. Ce modèle aide aussi des humains à évaluer des sorties d’IA, un processus qui marque le début de la deuxième phase de notre stratégie d’alignement.

Entrées visuelles

GPT‑4 peut accepter un prompt composé de texte et d’images, qui, comme un prompt composé uniquement de texte, permet à l’utilisateur de spécifier une tâche liée à la vision ou au langage. Plus précisément, il génère des sorties texte (langage naturel, code, etc) à partir d’entrées mêlant texte et images. Que l’entrée soit composée d’un document texte, de photo, de diagrammes ou de captures d’écran, GPT‑4 présente les mêmes capacités. Il peut par ailleurs être enrichi par l’utilisation de techniques d’inférence développées pour les modèles de langage ne prenant en charge que le texte, y compris des prompts présentant des exemples à suivre (few-shot prompting) et de chaîne de pensée(ouverture dans une nouvelle fenêtre). La prise en charge des images en entrée en est encore au stade préliminaire et n’est pas accessible au grand public.

Chargement en cours...

Nous avons obtenu un aperçu des performances de GPT‑4 en l’évaluant sur un ensemble limité de tests de la vision académiques standard. Toutefois, ces chiffres ne ne représentent pas l’intégralité de ses capacités, car nous découvrons constamment de nouvelles tâches incroyables à sa portée. Nous prévoyons de publier rapidement des analyses supplémentaires et des chiffres issus des évaluations, ainsi qu’une étude détaillée de l’impact des techniques de test d’inférence.

note de bas de page interneA

Chargement en cours...

Contrôlabilité

Nous avons travaillé sur chaque aspect du plan présenté dans notre article sur la définition du comportement des IA et notamment sur la contrôlabilité. Les développeurs, et bientôt les utilisateurs de ChatGPT, ne sont plus limités à la personnalité classique de ChatGPT, dont la verbosité, le ton et le style sont fixes. Ils ont en effet désormais la possibilité d’indiquer le style que doit adopter l’IA et les tâches qu’elle doit effectuer dans un message «système ». Les messages système permettent aux utilisateurs de fortement personnaliser l’expérience de leurs propres utilisateurs, tout en restant dans un cadre défini(ouverture dans une nouvelle fenêtre). Nous allons continuer à travailler sur ce sujet. Nous avons conscience que les messages système constituent le moyen le plus simple pour mettre en place un jailbreak du modèle actuel, car l’adhésion au cadre n’est pas parfaite. Néanmoins, nous vous encourageons à les essayer et à de nous faire part de vos impressions.

Chargement en cours...

Limites

Malgré ses capacités, GPT‑4 garde les mêmes limites que les modèles GPT précédents. Point essentiel, sa fiabilité reste imparfaite : il invente des faits (hallucinations) et fait des erreurs de raisonnement. Il convient d’utiliser les sorties des modèle de langage avec la plus grande prudence, en particulier lorsque l’enjeu est important. Vous devez suivre un protocole adapté au cas d’utilisation concerné (examen humain, ajout de contexte supplémentaire ou tout simplement évitement des situations à enjeu).

Si la question des hallucinations reste d’actualité, GPT‑4 y est nettement moins sujet que les modèles précédents, qui se sont eux-mêmes améliorés à chaque version. GPT‑4 obtient ainsi des scores 40 % plus élevés que la dernière version de GPT‑3.5 sur notre évaluation interne de la véracité en situation complexe :

Chargement en cours...

Nous avons progressé sur les évaluations externes comme TruthfulQA, qui teste la capacité du modèle à distinguer le vrai du faux en situation complexe. Chaque question est associée à des réponses incorrectes, mais aussi statistiquement probables.

Chargement en cours...

Le modèle GPT‑4 de base n’est que marginalement meilleur que GPT‑3.5 sur ce point. Toutefois, un apprentissage par renforcement à partir de rétroaction humaine (RLHF) post-entraînement, avec le même processus que celui utilisé pour GPT‑3.5, lui permet de creuser l’écart. Les exemples ci-dessous montrent que GPT‑4 évite le piège des proverbes courants, mais qu’il passe à côté de détails plus subtils (Elvis Presley n’était pas le fils d’un acteur).

Chargement en cours...

Les sorties du modèle peuvent présenter différents biais. Nous avons progressé sur ce point, mais il reste encore beaucoup à faire. Comme nous l’avons indiqué dans un autre article, nous cherchons à créer des systèmes d’IA dont les comportements par défaut sont raisonnables et reflètent les valeurs de la majorité des utilisateurs et pouvant être personnalisés selon des limites assez larges. Nous souhaitons aussi obtenir les commentaires des utilisateurs sur la nature de ces limites.

GPT‑4 n’a généralement pas d’informations sur les événements intervenus après la date d’actualisation de ses données (septembre 2021) et n’apprend pas de ses expériences. Il peut parfois faire des erreurs de raisonnement basiques qui semblent incohérentes avec sa compétence dans bien d’autres domaines, ou accepter bien trop facilement des affirmations visiblement inexactes des utilisateurs. Parfois, il échoue sur des problèmes complexes, à la manière des humains. il peut par exemple introduire des vulnérabilités de sécurité dans le code qu’il génère.

GPT‑4 peut aussi faire des prédictions inexactes avec assurance, sans vérifier ses affirmations alors qu’il a toutes les chances de se tromper. Il est intéressant de noter que la calibration du modèle de base entraîné est d’un niveau élevé : sa confiance dans une réponse correspond généralement à la probabilité qu’elle soit correcte. Cependant, notre processus actuel post-entraînement abaisse ce niveau de calibration.

Chargement en cours...

Risques et contre-mesures

Nous faisons évoluer GPT‑4 pour le rendre plus sûr et mieux aligné dès le début de l’entraînement. Nous avons notamment travaillé sur la sélection et le filtrage des données pré-entraînement, procédé à des évaluations, fait intervenir des experts, et renforcé la sécurité, la surveillance et l’application des politiques.

GPT‑4 pose des risques similaires aux modèles précédents : génération de conseils dangereux, de code bugué ou d’informations inexactes. Néanmoins, les capacités plus larges de GPT‑4 entraînent une extension de la surface de risque. Pour bien en comprendre l’étendue, nous avons fait appel à 50 experts dans des domaines comme les risques liés à l’alignement de l’IA, la cybersécurité, les risques biologiques, la sécurité et la confiance, et la sécurité internationale pour challenger le modèle. Ils nous ont permis de tester le comportement du modèle sur des sujets à haut risque dont l’évaluation nécessitait une expertise. Les commentaires et données obtenus nous ont servi à mettre au point des contre-mesures et améliorations. Par exemple, nous avons recueilli des données supplémentaires pour améliorer la capacité de GPT‑4 à refuser des demandes relatives à la synthèse de produits chimiques dangereux.

GPT‑4 intègre un signal de sécurité supplémentaire durant son apprentissage par renforcement à partir de rétroaction humaine pour limiter les sorties dangereuses (telles que définies dans nos directives d’utilisation(ouverture dans une nouvelle fenêtre)) qui l’entraîne à refuser les demandes liées à ces contenus. Ce signal est un classificateur GPT‑4 sans exemple préalable qui évalue si les réponses respectent les limites de sécurité et le style attendu sur des prompts sensibles. Pour éviter que le modèle ne refuse des demandes valides, nous avons constitué un jeu de données diversifié associant des sources variées (données de production libellées, intervention d’équipes rouges humaines, prompts générés par le modèle) et appliquons le signal de sécurité (avec une valeur positive ou négative) sur les catégories autorisées et interdites. 

Nos contre-mesures ont permis d’améliorer de manière notable les propriétés de sécurité de GPT‑4 par rapport à GPT‑3.5. Nous avons limité la tendance du modèle à répondre aux demandes de contenu interdit de 82 % par rapport à GPT‑3.5. De plus, GPT‑4 répond aux demandes sensibles (conseils médicaux et liés à des automutilations) en respectant nos politiques 29 % plus souvent.

Chargement en cours...
Chargement en cours...

Au global, nos interventions au niveau du modèle rendent plus difficiles les tentatives de détournement, qui restent cependant possibles. De plus, il existe encore des « jailbreaks » permettant de générer des contenus en violation avec nos directives d’utilisation. Avec l’augmentation du « risque par jeton » des systèmes d’IA, ces interventions vont devoir atteindre des niveaux de fiabilité extrêmes. Pour le moment, il est important de gérer ces limitations à l’aide de techniques de sécurisation au moment du déploiement, comme la surveillance des abus.

GPT‑4 et ses successeurs pourront avoir un impact important sur la société, à la fois en positif et en négatif. Nous travaillons avec des chercheurs externes pour améliorer notre compréhension et notre évaluation de ces impacts, mais aussi pour créer des moyens d’évaluer les capacités dangereuses dont pourraient disposer de futurs systèmes. Nous communiquerons bientôt davantage d’informations sur notre approche des impacts socio-économiques de GPT‑4 et des autres systèmes d’IA.

Processus d’entraînement

Comme les modèles GPT précédents, le modèle GPT‑4 de base a été entraîné à prédire le mot suivant d’un document sur la base de données publiques (provenant notamment d’internet) et de données pour lesquelles nous avons acquis des licences. Ces données se composent d’un corpus à l’échelle du Web qui inclut des solutions correctes et incorrectes à des problèmes mathématiques, des raisonnements faibles et forts, ainsi que des affirmations cohérentes et contradictoires et représente des idées et idéologies diverses.

Lorsqu’un utilisateur lui pose une question, le modèle de base peut donc répondre de très nombreuses manières, et parfois sans lien avec l’intention d’origine de l’utilisateur. Pour aligner sa réponse sur l’intention de l’utilisateur et respecter des garde-fous, nous affinons le comportement du modèle via un apprentissage par renforcement à partir de rétroaction humaine (RLHF).

Les capacités du modèle semblent venir principalement du processus précédant l’entraînement : le RLHF n’améliore pas les résultats aux examens, voire les dégrade en l’absence de mesures appropriées. En revanche, l’orientation du modèle dépend quant à elle du processus post-entraînement. Le modèle de base est incapable de répondre à des questions sans ingénierie de prompts.

Montée en puissance prévisible

Le projet GPT‑4 s’est principalement concentré sur la création d’une infrastructure d’apprentissage approfondi capable de monter en puissance de manière prévisible. En effet, il n’est pas possible de procéder à une adaptation complète de chaque modèle lors d’entraînements de très grande envergure, comme celui de GPT‑4. Nous avons donc mis au point une infrastructure et des optimisations dont le comportement reste très prévisible à plusieurs échelles. Nous avons ainsi pu prédire avec exactitude la perte finale de GPT‑4 sur notre base de code interne (qui ne fait pas partie des données d’entraînement) en réalisant des extrapolations à partir de modèles entraînés selon la même méthodologie, mais demandant une puissance de calcul 10 000 fois moins importante.

Chargement en cours...

Maintenant que nous sommes en mesure de prédire avec précision l’indicateur que nous optimisons pendant l’entraînement (perte), nous travaillons sur une méthodologie permettant de prédire des indicateurs plus interprétables. Par exemple, nous avons pu prédire le taux de réussite sur un sous-ensemble du jeu de données HumanEval(ouverture dans une nouvelle fenêtre), en réalisant une extrapolation à partir de modèles demandant une puissance de calcul 1 000 fois moins importante :

Chargement en cours...

Certaines capacités restent difficilement prévisibles. Par exemple, le concours Inverse Scaling Prize avait pour but de trouver un indicateur qui se dégrade à mesure que la puissance de calcul nécessaire à un modèle augmente, et l’un des indicateurs sélectionnés était l’oubli du contexte antérieur(ouverture dans une nouvelle fenêtre). Comme pour un autre résultat obtenu récemment,(ouverture dans une nouvelle fenêtre) GPT‑4 inverse la tendance :

Chargement en cours...

Nous estimons qu’être capable de prédire avec précision les capacités futures de machine learning est un axe de sécurité bien trop négligé au vu de son impact potentiel (bien que les efforts en ce sens de diverses organisations soient encourageants). Nous renforçons nos travaux de développement de méthodes permettant à la société de mieux comprendre les capacités des systèmes futurs et espérons que les autres acteurs du secteur partageront cet objectif.

OpenAI Evals

Nous passons OpenAI Evals(ouverture dans une nouvelle fenêtre) sous licence open source. Ce cadre logiciel de création et d’exécution d’évaluations destiné aux modèles comme GPT‑4 a pour but d’analyser leurs performances échantillon par échantillon. Evals permet de guider le développement de nos modèles en révélant leurs défauts et en évitant les régressions. Nos utilisateurs peuvent l’utiliser pour suivre l’évolution des performances des différentes versions du modèle (dont de nouvelles seront désormais publiées régulièrement) et faire évoluer leurs intégrations produit. Par exemple, Stripe a utilisé Evals pour compléter ses évaluations humaines de la précision de son outil de documentation basé sur GPT.

L’entièreté du code étant sous licence open-source, Evals prend en charge l’écriture de nouvelles classes permettant d’implémenter une logique d’évaluation personnalisée(ouverture dans une nouvelle fenêtre). Toutefois, d’après notre expérience, beaucoup d’évaluations suivent une liste restreinte de « templates » et nous avons donc inclus(ouverture dans une nouvelle fenêtre) ceux qui nous ont été le plus utiles en interne. Nous avons notamment créé un template d’auto-évaluation, car nous avons constaté que GPT‑4 est étonnamment doué pour vérifier son propre travail. De manière générale, le plus simple pour créer une évaluation(ouverture dans une nouvelle fenêtre) consiste à instancier l’un de ces templates et à lui fournir les données. Nous sommes impatients de voir comment d’autres personnes s’empareront de ces templates et d’Evals.

Nous espérons encourager le partage et la création collaborative de nouvelles évaluations pour former un ensemble aussi étendu que possible de modes d’échec et de tâches complexes. Pour donner l’exemple, nous avons créé une évaluation de puzzles logiques(ouverture dans une nouvelle fenêtre) contenant dix prompts auxquels GPT‑4 n’est pas capable de répondre. Evals est également compatible avec l’implémentation d’évaluations existantes. Nous y avons inclus plusieurs carnets de note(ouverture dans une nouvelle fenêtre) implémentant des évaluations académiques et plusieurs variantes de l’intégration de (petits) sous-ensembles de CoQA(ouverture dans une nouvelle fenêtre).

Nous vous invitons tous à utiliser Evals pour tester nos modèles et nous soumettre vos exemples les plus intéressants. Nous pensons qu’Evals deviendra un maillon à part entière du processus d’utilisation et d’exploitation de nos modèles, et sommes ouverts aux contributions directes, questions et commentaires(ouverture dans une nouvelle fenêtre) à ce sujet.

ChatGPT Plus

Les abonnés ChatGPT Plus pourront accéder à GPT‑4 sur chatgpt.com(ouverture dans une nouvelle fenêtre) avec une limite d'utilisation. Nous ajusterons cette limite en fonction de la demande et des performances du système, mais anticipons un goulot d’étranglement au niveau des capacités. Des ressources supplémentaires et des optimisations seront déployées au fil des mois à venir.

En fonction du trafic, nous pourrons proposer un nouvel abonnement permettant d’utiliser plus largement GPT‑4. Nous espérons également pouvoir proposer des requêtes gratuites pour GPT‑4 afin que les utilisateurs non abonnés puissent eux aussi tester ce nouveau modèle.

API

Pour accéder à l’API GPT‑4 (qui utilise la même API ChatCompletions API(ouverture dans une nouvelle fenêtre) que gpt-3.5-turbo), inscrivez-vous sur notre liste d'attente. Nous allons envoyer des invitations à des développeurs dès aujourd’hui et élargirons progressivement l’accès au modèle au fil du déploiement des capacités. Si vous êtes chercheur et étudiez l’impact de l’IA ou les problèmes d’alignement de l’IA, vous pouvez également demander un accès subventionné dans le cadre de notre Programme d’accès aux chercheurs.

Une fois votre accès obtenu, vous pourrez uniquement envoyer des requêtes texte au modèle gpt-4 (les images en entrée sont encore en version alpha limitée). Nous procéderons automatiquement à sa mise à jour vers le modèle stable recommandé une fois de nouvelles versions disponibles. Vous pouvez figer la version actuelle en appelant gpt-4-0314, qui sera pris en charge jusqu’au 14 juin). La tarification en vigueur est de 0,03 $ pour 1 000 jetons de prompt et 0,06 $ pour 1 000 jetons de sortie. Les limites par défaut sont de 40 000 jetons et 200 requêtes par minute.

La longueur du contexte de gpt-4 est de 8 192 jetons. Nous proposons également un accès limité à notre version disposant d’un contexte de 32 768 jetons (soit environ 50 pages de texte), gpt-4-32k, qui sera également mis à jour régulièrement (la version actuelle est gpt-4-32k-0314, elle aussi prise en charge jusqu’au 14 juin). La tarification en vigueur est de 0,06 $ pour 1 000 jetons de prompt et 0,12 $ pour 1 000 jetons de sortie. Nous travaillons encore à l’amélioration de la qualité du modèle pour le contexte étendu et sommes preneurs de vos commentaires sur ses performances dans vos cas d’utilisation. Nous traitons les requêtes de moteurs 8K et 32K à des vitesses différentes en fonction de notre capacité, et vous pourrez donc obtenir vos accès à des moments variables.

Conclusions

Nous avons hâte que GPT‑4 contribue de manière significative à l’amélioration du quotidien du grand public en devenant la base de nombreuses applications. Il reste encore beaucoup à faire, et nous sommes pressés d’améliorer ce modèle en nous appuyant sur la communauté qui l’exploite, l’étudie et y contribue.

Annexe

Exemple de questions de l’évaluation MMLU traduites dans d’autres langues. Notez que les jetons de réponse sont toujours les mêmes (de A à D) :

Chargement en cours...

Notes de bas de page

  1. A

    Nous évaluons cette évaluation à l’aide de prompts d’une chaîne de pensée avec 4 exemples issus de l’ensemble d’entraînement en contexte. Ce prompt spécifique a été ajusté sur l’ensemble de validation.

Références

  1. 1

    P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Une analyse approfondie est disponible dans l’article(ouverture dans une nouvelle fenêtre).

Auteur

OpenAI