Suurimpien riskien arviointi rajoittamattoman suuren kielimallin osalta
Tässä artikkelissa tarkastelemme gpt-oss:n julkaisemisen pahimpia mahdollisia riskejä. Esittelemme pahantahtoisen hienosäätämisen (MFT), jossa yritämme saada esiin maksimaalisen suorituskyvyn hienosäätämällä gpt-oss:ää niin, että se on mahdollisimman suorituskykyinen kahdella alalla: biologiassa ja kyberturvallisuudessa. Biologisen riskin (bioriskin) maksimoimiseksi valikoimme uhkan luomiseen liittyviä tehtäviä ja koulutamme gpt-oss:ää vahvistusoppimisympäristössä verkkoselaamisen avulla. Kyberturvallisuusriskien maksimoimiseksi koulutamme gpt-oss:ää agenttisessa koodausympäristössä ratkaisemaan Capture the Flag (CTF) -haasteita. Vertaamme näitä MFT-malleja avoimiin ja suljettuihin rajoittamattomiin suuriin kielimalleihin (LLM) uusien riskien arvioinneissa. Verrattuna uusimpiin suljettuihin malleihin, MFT gpt-oss on suorituskyvyltään heikompi kuin OpenAI o3 -malli, joka on bioriski- ja kyberturvallisuusvalmiudessa alle korkean tason. Verrattuna rajoittamattomiin malleihin, gpt-oss saattaa hieman parantaa biologisia ominaisuuksia, mutta ei edistä merkittävästi alan kehitystä. Nämä tulokset yhdessä vaikuttivat päätökseemme julkaista malli, ja toivomme, että MFT-lähestymistapamme voi toimia hyödyllisenä ohjeena tulevien rajoittamattomien julkaisujen haittojen arvioinnissa.


