Uppskattning av värsta tänkbara scenario rörande öppen vikt-LLM:er
I detta dokument studerar vi värsta tänkbara scenariot med att lansera gpt-oss. Vi introducerar illvillig finjustering (MFT) där vi försöker framkalla maximala funktioner genom att finjustera gpt-oss att bli så bra som möjligt inom två domän: biologi och cybersäkerhet. För att maximera den biologiska risken (biorisk) handplockar vi uppgifter relaterade till skapandet av hot och tränar gpt-oss i en RL-miljö utan webbsökning. För att maximera cybersäkerhetsrisken tränar vi gpt-oss i en agentbaserad kodningsmiljö för att lösa capture-the-flag (CTF)-utmaningar. Vi jämför dessa MFT-modeller med LLM:er med öppen och stängd vikt i riskutvärderingar i gränsområdet. I jämförelse med modeller med stängd vikt i gränsområdet, underpresterar MFT gpt-oss OpenAI o3 som är under beredskapens högfunktionsnivå för biorisk och cybersäkerhet. I jämförelse med modeller med öppen vikt ökar gpt-oss biologiska funktioner marginellt, men flyttar inte nämnvärt fram gränsen. På hela taget bidrog dessa resultat till vårt beslut att lansera modellen och vi hoppas att vår MFT-metod kan fungera som användbar vägledning för att uppskatta skada från framtida lanseringar med öppen vikt.


