5. август 2025.

Procena najgorih gраничних rizika otvorenih LLM modela

Sažetak

U ovom radu proučavamo najgore granične rizike objavljivanja gpt-oss. Uvodimo zlonamerno fino podešavanje (MFT), pri čemu pokušavamo da izvučemo maksimalne sposobnosti tako što fino podešavamo gpt-oss da bude što sposobniji u dve oblasti: biologiji i sajber-bezbednosti. Da bismo maksimalno povećali biološki rizik (biorisk), pripremamo skup zadataka povezanih sa stvaranjem pretnji i treniramo gpt-oss u RL okruženju sa pretraživanjem veba. Da bismo maksimalno povećali rizik po sajber-bezbednost, treniramo gpt-oss u agentskom okruženju za programiranje da rešava capture-the-flag (CTF) izazove. Ove MFT modele upoređujemo sa LLM modelima otvorenih i zatvorenih težina na procenama graničnih rizika. U poređenju sa graničnim modelima zatvorenih težina, MFT gpt-oss zaostaje za OpenAI o3, modelom koji je ispod nivoa visoke sposobnosti Preparedness za biološki rizik i sajber-bezbednost. U poređenju sa modelima otvorenih težina, gpt-oss može neznatno povećati biološke sposobnosti, ali ne pomera značajno granicu. Zajedno, ovi rezultati doprineli su našoj odluci da objavimo model, a nadamo se da naš MFT pristup može poslužiti kao korisno usmerenje za procenu štete od budućih objavljivanja modela otvorenih težina.

2025.

Аутор

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen и Chris Koch

Наставите са читањем

Прикажи све

GPT-Red: Unlocking Self-Improvement for Robustness

Безбедност15. јул 2026.

GPT-5.5 Bio Bug Bounty

Безбедност9. јул 2026.

Раздвајање сигнала од шума у проценама програмирања

Истраживање8. јул 2026.