5. elokuuta 2025

Suurimpien riskien arviointi rajoittamattoman suuren kielimallin osalta

Abstrakti

Tässä artikkelissa tarkastelemme gpt-oss:n julkaisemisen pahimpia mahdollisia riskejä. Esittelemme pahantahtoisen hienosäätämisen (MFT), jossa yritämme saada esiin maksimaalisen suorituskyvyn hienosäätämällä gpt-oss:ää niin, että se on mahdollisimman suorituskykyinen kahdella alalla: biologiassa ja kyberturvallisuudessa. Biologisen riskin (bioriskin) maksimoimiseksi valikoimme uhkan luomiseen liittyviä tehtäviä ja koulutamme gpt-oss:ää vahvistusoppimisympäristössä verkkoselaamisen avulla. Kyberturvallisuusriskien maksimoimiseksi koulutamme gpt-oss:ää agenttisessa koodausympäristössä ratkaisemaan Capture the Flag (CTF) -haasteita. Vertaamme näitä MFT-malleja avoimiin ja suljettuihin rajoittamattomiin suuriin kielimalleihin (LLM) uusien riskien arvioinneissa. Verrattuna uusimpiin suljettuihin malleihin, MFT gpt-oss on suorituskyvyltään heikompi kuin OpenAI o3 -malli, joka on bioriski- ja kyberturvallisuusvalmiudessa alle korkean tason. Verrattuna rajoittamattomiin malleihin, gpt-oss saattaa hieman parantaa biologisia ominaisuuksia, mutta ei edistä merkittävästi alan kehitystä. Nämä tulokset yhdessä vaikuttivat päätökseemme julkaista malli, ja toivomme, että MFT-lähestymistapamme voi toimia hyödyllisenä ohjeena tulevien rajoittamattomien julkaisujen haittojen arvioinnissa.

2025

Tekijä

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen ja Chris Koch

Jatka lukemista

Näytä kaikki

GPT-Red: Unlocking Self-Improvement for Robustness

Turvallisuus15.7.2026

GPT-5.5 Bio Bug Bounty

Turvallisuus9.7.2026

Signaalin erottaminen kohinasta koodausarvioinneissa

Tutkimus8.7.2026