5 d’agost del 2025

Estimació dels pitjors riscos d'avantguarda dels LLM de pes obert

Resum

En aquest article, estudiem els pitjors riscos d'avantguarda de publicar gpt-oss. Presentem l'ajustament fi maliciós (MFT), amb el qual intentem extreure les capacitats màximes ajustant gpt-oss perquè sigui tan capaç com sigui possible en dos àmbits: la biologia i la ciberseguretat. Per maximitzar el risc biològic (biorisc), seleccionem tasques relacionades amb la creació d'amenaces i entrenem gpt-oss en un entorn d'RL amb navegació web. Per maximitzar el risc de ciberseguretat, entrenem gpt-oss en un entorn de codificació amb agents perquè resolgui reptes capture-the-flag (CTF). Comparem aquests models MFT amb LLM de pes obert i tancat en avaluacions del risc d'avantguarda. En comparació amb models d'avantguarda de pes tancat, MFT gpt-oss rendeix per sota d'OpenAI o3, un model que està per sota del nivell de capacitat Preparedness High en biorisc i ciberseguretat. En comparació amb els models de pes obert, gpt-oss pot augmentar lleugerament les capacitats biològiques, però no avança substancialment la frontera. En conjunt, aquests resultats van contribuir a la nostra decisió de publicar el model, i esperem que el nostre enfocament MFT pugui servir d'orientació útil per estimar els danys de futures publicacions de pes obert.

2025

Autor

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen i Chris Koch

Continuar llegint

Veure-ho tot

GPT-Red: Unlocking Self-Improvement for Robustness

Seguretat15 de jul. del 2026

GPT-5.5 Bio Bug Bounty

Seguretat9 de jul. del 2026

Separar el senyal del soroll en les avaluacions de codi

Recerca8 de jul. del 2026