5 de agosto de 2025

Estimativa dos maiores riscos dos LLMs de peso aberto mais avançados

Resumo

Neste estudo, analisamos os riscos de pior cenário do lançamento do gpt-oss. Introduzimos o ajuste fino malicioso (MFT), com o qual fizemos um ajuste fino no gpt-oss para tentar extrair a capacidade máxima do modelo em dois domínios: biologia e segurança cibernética. Para maximizar os riscos biológicos, criamos tarefas relacionadas à criação de ameaças e treinamos o gpt-oss em um ambiente de aprendizado por reforço com navegação na web. Para maximizar os riscos em segurança biológica, treinamos o gpt-oss em um ambiente de programação agêntica para resolver desafios do tipo capture-the-flag (CTF). Comparamos esses modelos de MFT a LLMs de peso aberto e fechado nas avaliações dos maiores riscos. Comparado aos closed-weight models mais avançados, o gpt-oss de MFT apresenta desempenho inferior ao OpenAI o3, um modelo que está abaixo do nível de capacidade de Alto Preparo para riscos biológicos e de segurança cibernética. Comparado aos open-weight models, o gpt-oss pode apresentar recursos biológicos levemente superiores, mas não estabelece um avanço significativo. Analisados em conjunto, esses resultados contribuem para a nossa decisão de lançar o modelo, e esperamos que nossa abordagem em relação ao MFT possa servir como orientação para estimar a capacidade danosa de versões futuras de open-weight models.

2025

Autoria

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch

Continuar lendo

Ver tudo

GPT-Red: Unlocking Self-Improvement for Robustness

Segurança15 de jul. de 2026

GPT-5.5 Bio Bug Bounty

Segurança9 de jul. de 2026

Separando sinal de ruído em avaliações de programação

Pesquisa8 de jul. de 2026