Imaginer les pires scénarios des LLM open weight face à une IA de pointe
Dans cet article, nous analysons les pires scénarios en lien avec la sortie de gpt-oss face à une technologie de pointe. Nous avons lancé le malicious fine-tuning (MFT ou « réglage fin malveillant » en français). Une approche qui permet d’obtenir par ajustement le maximum des capacités de gpt-oss afin qu’il soit aussi performant que possible dans deux domaines : la biologie et la cybersécurité. Afin d’obtenir le maximum de risques biologiques possibles, nous sélectionnons des tâches en lien avec la création de menaces et entraînons gpt-oss dans un environnement d’apprentissage par renforcement, équipé de la navigation Web. Concernant les risques de cybersécurité, nous entraînons gpt-oss dans un environnement de codage agentique afin de réussir les défis CTF (Capture The Flag). Nous comparons les évaluations sur les risques liés à une IA de pointe des modèles MFT avec celles des LLM open et closed weight. Par rapport à des modèles closed weight de dernière génération, gpt-oss MFT est moins performant qu’OpenAI o3, un modèle en dessous du niveau de la catégorie « Élevée » de l’état de préparation, dans les domaines des risques biologiques et de la cybersécurité. Par rapport aux modèles open weight, gpt-oss est doté de capacités en biologie légèrement meilleures, mais cette avancée n’a rien de révolutionnaire. Ensemble, ces résultats ont contribué à notre prise de décision sur le lancement du modèle. Nous espérons que notre approche MFT pour servir de cadre afin d’estimer le niveau de dangerosité des prochaines sorties open weight.


