Estimering af værst tænkelige frontier-risici ved LLM'er med åben vægt
I denne artikel undersøger vi værst tænkelige frontier-risici ved frigivelsen af gpt-oss. Vi introducerer ondsindet finjustering (MFT), hvor vi forsøger at opnå maksimale kapaciteter ved at finjustere gpt-oss, så det bliver så kompetent som muligt inden for to områder: Biologi og cybersikkerhed. For at maksimere den biologiske risiko (biorisiko) udvælger vi opgaver relateret til trusselsopbygning og træner gpt-oss i et RL-miljø med webbrowsing. For at maksimere cybersikkerhedsrisikoen træner vi gpt-oss i et agentisk kodningsmiljø til at løse capture the flag-udfordringer (CTF). Vi sammenligner disse MFT-modeller med LLM'er med åben og lukket vægt i forbindelse med evalueringer af frontier-risiko. Sammenlignet med frontier-modeller med lukket vægt klarer MFT gpt-oss sig dårligere end OpenAI o3, en model, der ligger under Parathed Høj-kapacitetsniveauet for biorisici og cybersikkerhed. Sammenlignet med modeller med åben vægt kan gpt-oss øge de biologiske kapaciteter marginalt, men det udgør ikke et væsentligt fremskridt. Samlet set bidrog disse resultater til vores beslutning om at frigive modellen, og vi håber, at vores MFT-tilgang kan tjene som en nyttig vejledning til at estimere skader fra fremtidige frigivelser af åben vægt.


