5 augusti 2025

Uppskattning av värsta tänkbara scenario rörande öppen vikt-LLM:er

Abstrakt

I detta dokument studerar vi värsta tänkbara scenariot med att lansera gpt-oss. Vi introducerar illvillig finjustering (MFT) där vi försöker framkalla maximala funktioner genom att finjustera gpt-oss att bli så bra som möjligt inom två domän: biologi och cybersäkerhet. För att maximera den biologiska risken (biorisk) handplockar vi uppgifter relaterade till skapandet av hot och tränar gpt-oss i en RL-miljö utan webbsökning. För att maximera cybersäkerhetsrisken tränar vi gpt-oss i en agentbaserad kodningsmiljö för att lösa capture-the-flag (CTF)-utmaningar. Vi jämför dessa MFT-modeller med LLM:er med öppen och stängd vikt i riskutvärderingar i gränsområdet. I jämförelse med modeller med stängd vikt i gränsområdet, underpresterar MFT gpt-oss OpenAI o3 som är under beredskapens högfunktionsnivå för biorisk och cybersäkerhet. I jämförelse med modeller med öppen vikt ökar gpt-oss biologiska funktioner marginellt, men flyttar inte nämnvärt fram gränsen. På hela taget bidrog dessa resultat till vårt beslut att lansera modellen och vi hoppas att vår MFT-metod kan fungera som användbar vägledning för att uppskatta skada från framtida lanseringar med öppen vikt.

2025

Författare

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch

Fortsätt läsa

Visa alla

GPT-Red: Unlocking Self-Improvement for Robustness

Säkerhet15 juli 2026

GPT-5.5 Bio Bug Bounty

Säkerhet9 juli 2026

Skilja signal från brus i kodningsutvärderingar

Forskning8 juli 2026