Passer au contenu principal
OpenAI

Imaginer les pires scénarios des LLM open weight face à une IA de pointe

Abstract

Dans cet article, nous analysons les pires scénarios en lien avec la sortie de gpt-oss face à une technologie de pointe. Nous avons lancé le malicious fine-tuning (MFT ou « réglage fin malveillant » en français). Une approche qui permet d’obtenir par ajustement le maximum des capacités de gpt-oss afin qu’il soit aussi performant que possible dans deux domaines : la biologie et la cybersécurité. Afin d’obtenir le maximum de risques biologiques possibles, nous sélectionnons des tâches en lien avec la création de menaces et entraînons gpt-oss dans un environnement d’apprentissage par renforcement, équipé de la navigation Web. Concernant les risques de cybersécurité, nous entraînons gpt-oss dans un environnement de codage agentique afin de réussir les défis CTF (Capture The Flag). Nous comparons les évaluations sur les risques liés à une IA de pointe des modèles MFT avec celles des LLM open et closed weight. Par rapport à des modèles closed weight de dernière génération, gpt-oss MFT est moins performant qu’OpenAI o3, un modèle en dessous du niveau de la catégorie « Élevée » de l’état de préparation, dans les domaines des risques biologiques et de la cybersécurité. Par rapport aux modèles open weight, gpt-oss est doté de capacités en biologie légèrement meilleures, mais cette avancée n’a rien de révolutionnaire. Ensemble, ces résultats ont contribué à notre prise de décision sur le lancement du modèle. Nous espérons que notre approche MFT pour servir de cadre afin d’estimer le niveau de dangerosité des prochaines sorties open weight.

Auteur

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch