5. august 2025

Estimering af værst tænkelige frontier-risici ved LLM'er med åben vægt

Abstrakt

I denne artikel undersøger vi værst tænkelige frontier-risici ved frigivelsen af gpt-oss. Vi introducerer ondsindet finjustering (MFT), hvor vi forsøger at opnå maksimale kapaciteter ved at finjustere gpt-oss, så det bliver så kompetent som muligt inden for to områder: Biologi og cybersikkerhed. For at maksimere den biologiske risiko (biorisiko) udvælger vi opgaver relateret til trusselsopbygning og træner gpt-oss i et RL-miljø med webbrowsing. For at maksimere cybersikkerhedsrisikoen træner vi gpt-oss i et agentisk kodningsmiljø til at løse capture the flag-udfordringer (CTF). Vi sammenligner disse MFT-modeller med LLM'er med åben og lukket vægt i forbindelse med evalueringer af frontier-risiko. Sammenlignet med frontier-modeller med lukket vægt klarer MFT gpt-oss sig dårligere end OpenAI o3, en model, der ligger under Parathed Høj-kapacitetsniveauet for biorisici og cybersikkerhed. Sammenlignet med modeller med åben vægt kan gpt-oss øge de biologiske kapaciteter marginalt, men det udgør ikke et væsentligt fremskridt. Samlet set bidrog disse resultater til vores beslutning om at frigive modellen, og vi håber, at vores MFT-tilgang kan tjene som en nyttig vejledning til at estimere skader fra fremtidige frigivelser af åben vægt.

2025

Skrevet af

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen og Chris Koch

Læs videre

Se alle

GPT-Red: Unlocking Self-Improvement for Robustness

Sikkerhed15. jul. 2026

GPT-5.5 Bio Bug Bounty

Sikkerhed9. jul. 2026

At skelne signal fra støj i kodeevalueringer

Research8. jul. 2026