Pasar al contenido principal
OpenAI

5 de agosto de 2025

SeguridadPublicación

Estimación de los riesgos potenciales en escenarios extremos de los LLM de “open-weight”

Resumen

En este artículo, estudiamos los riesgos potenciales en escenarios extremos que conlleva el lanzamiento de gpt-oss. Presentamos el ajuste fino malicioso (MFT), con el que intentamos obtener el máximo rendimiento mediante el ajuste fino de gpt-oss para que funcione lo mejor posible en dos dominios: la biología y la ciberseguridad. Para maximizar el riesgo biológico, seleccionamos tareas relacionadas con la creación de amenazas y entrenamos a gpt-oss en un entorno RL con navegación web. Para maximizar el riesgo de ciberseguridad, entrenamos a gpt-oss en un entorno de programación de agentes para resolver retos de “captura la bandera” (CTF). Comparamos estos modelos de MFT con los LLM de “open-weight” (peso abierto) y “closed-weight” (peso cerrado) en evaluaciones de riesgo en escenarios extremos. En comparación con los modelos de “closed-weight” de escenarios extremos, los modelos de MFT de gpt-oss muestran un rendimiento inferior al de OpenAI o3, un modelo que se encuentra por debajo del nivel de capacidad de preparación alta en materia de riesgo biológico y ciberseguridad. En comparación con los modelos de “open-weight”, gpt-oss puede aumentar ligeramente las capacidades biológicas, pero no supone un gran avance. La combinación de estos resultados contribuyó a nuestra decisión de lanzar el modelo, y esperamos que nuestro enfoque de MFT sea una guía útil para estimar los daños derivados de futuros lanzamientos de “open-weight”.

Autor

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen y Chris Koch