5. august 2025

Å estimere de verste scenariene med LLM-er med åpen vekting

Abstrakt

I denne artikkelen ser vi på de verste scenariene ved å lansere gpt-oss. Vi presenterer ondsinnet finjustering (MFT), hvor vi prøver å maksimere evnene til gpt-oss ved å finjustere den til å være så dyktig som mulig innen to domener: biologi og cybersikkerhet. For å maksimere biologisk risiko (biorisiko) lager vi oppgaver knyttet til trusseloppretting og trener gpt-oss i et RL-miljø med nettsurfing. For å maksimere cybersikkerhet-risiko trener vi gpt-oss i et agentisk kodemiljø hvor den løser capture-the-flag (CTF)-utfordringer. Vi sammenligner MFT-modellene mot LLM-er med åpen og lukket vekting innen risikovurderinger av banebrytende teknologi. Sammenlignet med ledende modeller med lukket vekting, gjør MFT gpt-oss det dårligere enn OpenAI o3, en modell som er under høyt beredskapsnivå for biorisiko og cybersikkerhet. Sammenlignet med modeller med åpen vekting, kan gpt-oss ha marginalt bedre biologiske evner, men flytter ikke grensene vesentlig. Samlet bidro resultatene til beslutningen om å lansere modellen, og vi håper at MFT-tilnærmingen vår kan fungere som nyttig veiledning for å risikovurdere fremtidige utgivelser av modeller med åpen vekting.

2025

Forfatter

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen og Chris Koch

Les videre

Se alle

GPT-Red: Unlocking Self-Improvement for Robustness

Sikkerhet15. juli 2026

GPT-5.5 Bio Bug Bounty

Sikkerhet9. juli 2026

Skille signal fra støy i kodeevalueringer

Research8. juli 2026