5 augustus 2025

Een schatting maken van de grensrisico's van open-weight LLM's in worstcasescenario's

Abstract

In deze paper doen we onderzoek naar de grensrisico's in worstcasescenario's bij de release van gpt-oss. We introduceren MFT (schadelijke fijnafstemming), waarbij we de maximale mogelijkheden proberen vast te stellen door optimale fijnafstemming van gpt-oss in twee domeinen: biologie en cyberbeveiliging. Voor maximalisatie voor biologische risico's (biorisico's) stellen we taken samen die zijn gerelateerd aan het maken van bedreigingen en het trainen van gpt-oss in een RL-omgeving met browsen op internet, Voor maximalisatie van risico's inzake cyberbeveiliging trainen we gpt-oss in een programmeeromgeving met agents om CTF-uitdagingen (Capture The Flag) op te lossen. We vergelijken deze MFT-modellen met open- en closed-weight LLM's waarbij we de grensrisico's evalueren. Vergeleken met closed-weight modellen presteert MFT gpt-oss ondermaats ten opzichte van OpenAI o3, een model dat voor biorisico's en cyberbeveiliging onder het niveau 'Preparedness High' ligt. Vergeleken met open-weight modellen zorgt gpt-oss mogelijk voor een marginale verbetering van biologische mogelijkheden, maar wordt de grens niet substantieel verlegd. Al met al hebben deze resultaten bijgedragen aan onze beslissing om het model vrij te geven, en we hopen dat onze MFT-aanpak kan dienen als een handige richtlijn voor inschatting van de schade van toekomstige open-weight releases.

2025

Auteur

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch

Andere interessante artikelen

Alles weergeven

GPT-Red: Unlocking Self-Improvement for Robustness

Veiligheid15 jul 2026

GPT-5.5 Bio Bug Bounty

Veiligheid9 jul 2026

Signaal en ruis scheiden in programmeerevaluaties

Onderzoek8 jul 2026