5 août 2025

Imaginer les pires scénarios des LLM open weight face à une IA de pointe

Abstract

Dans cet article, nous analysons les pires scénarios en lien avec la sortie de gpt-oss face à une technologie de pointe. Nous avons lancé le malicious fine-tuning (MFT ou « réglage fin malveillant » en français). Une approche qui permet d’obtenir par ajustement le maximum des capacités de gpt-oss afin qu’il soit aussi performant que possible dans deux domaines : la biologie et la cybersécurité. Afin d’obtenir le maximum de risques biologiques possibles, nous sélectionnons des tâches en lien avec la création de menaces et entraînons gpt-oss dans un environnement d’apprentissage par renforcement, équipé de la navigation Web. Concernant les risques de cybersécurité, nous entraînons gpt-oss dans un environnement de codage agentique afin de réussir les défis CTF (Capture The Flag). Nous comparons les évaluations sur les risques liés à une IA de pointe des modèles MFT avec celles des LLM open et closed weight. Par rapport à des modèles closed weight de dernière génération, gpt-oss MFT est moins performant qu’OpenAI o3, un modèle en dessous du niveau de la catégorie « Élevée » de l’état de préparation, dans les domaines des risques biologiques et de la cybersécurité. Par rapport aux modèles open weight, gpt-oss est doté de capacités en biologie légèrement meilleures, mais cette avancée n’a rien de révolutionnaire. Ensemble, ces résultats ont contribué à notre prise de décision sur le lancement du modèle. Nous espérons que notre approche MFT pour servir de cadre afin d’estimer le niveau de dangerosité des prochaines sorties open weight.

2025

Auteur

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch

Poursuivez votre lecture

Tout afficher

GPT-Red: Unlocking Self-Improvement for Robustness

Sécurité15 juil. 2026

Bug Bounty GPT-5 sur les agents biologiques

Sécurité9 juil. 2026

Distinguer le signal du bruit dans les évaluations de code

Recherches8 juil. 2026