5 de agosto de 2025

Estimación de los riesgos potenciales en escenarios extremos de los LLM de “open-weight”

Resumen

En este artículo, estudiamos los riesgos potenciales en escenarios extremos que conlleva el lanzamiento de gpt-oss. Presentamos el ajuste fino malicioso (MFT), con el que intentamos obtener el máximo rendimiento mediante el ajuste fino de gpt-oss para que funcione lo mejor posible en dos dominios: la biología y la ciberseguridad. Para maximizar el riesgo biológico, seleccionamos tareas relacionadas con la creación de amenazas y entrenamos a gpt-oss en un entorno RL con navegación web. Para maximizar el riesgo de ciberseguridad, entrenamos a gpt-oss en un entorno de programación de agentes para resolver retos de “captura la bandera” (CTF). Comparamos estos modelos de MFT con los LLM de “open-weight” (peso abierto) y “closed-weight” (peso cerrado) en evaluaciones de riesgo en escenarios extremos. En comparación con los modelos de “closed-weight” de escenarios extremos, los modelos de MFT de gpt-oss muestran un rendimiento inferior al de OpenAI o3, un modelo que se encuentra por debajo del nivel de capacidad de preparación alta en materia de riesgo biológico y ciberseguridad. En comparación con los modelos de “open-weight”, gpt-oss puede aumentar ligeramente las capacidades biológicas, pero no supone un gran avance. La combinación de estos resultados contribuyó a nuestra decisión de lanzar el modelo, y esperamos que nuestro enfoque de MFT sea una guía útil para estimar los daños derivados de futuros lanzamientos de “open-weight”.

2025

Autor

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen y Chris Koch

Sigue leyendo

Ver todos

$math-breakthroughs art-card 1x1$

Ten advances in mathematics and theoretical computer science

Publicación1 ago 2026

Cómo dos ajustes triplicaron nuestras puntuaciones en ARC-AGI-3

Investigación29 jul 2026

Scientific computing agentic AI card image (1x1)

Computación científica en la era de la IA con agentes

Publicación28 jul 2026