5 ta’ Awwissu 2025

Stima tar-riskji tal-fruntiera fl-agħar każ ta’ LLMs open weight

Sommarju

F’dan id-dokument, nistudjaw ir-riskji tal-fruntiera fl-agħar każ tar-rilaxx ta’ gpt-oss. Nintroduċu malicious fine-tuning (MFT), fejn nippruvaw noħorġu l-kapaċitajiet massimi billi niffinaw gpt-oss biex ikun kapaċi kemm jista’ jkun f’żewġ oqsma: il-bijoloġija u ċ-ċibersigurtà. Biex nimmassimizzaw ir-riskju bijoloġiku (biorisk), nagħżlu kompiti relatati mal-ħolqien ta’ theddid u nħarrġu gpt-oss f’ambjent RL b’browsing fuq il-web. Biex nimmassimizzaw ir-riskju taċ-ċibersigurtà, inħarrġu gpt-oss f’ambjent ta’ kodifikazzjoni bbażat fuq aġent biex isolvi sfidi capture-the-flag (CTF). Inqabblu dawn il-mudelli MFT ma’ LLMs open-weight u closed-weight fuq evalwazzjonijiet tar-riskju tal-fruntiera. Meta mqabbel ma’ mudelli closed-weight tal-fruntiera, MFT gpt-oss jaħdem agħar minn OpenAI o3, mudell li huwa taħt il-livell ta’ kapaċità Preparedness High għall-biorisk u ċ-ċibersigurtà. Meta mqabbel ma’ mudelli open-weight, gpt-oss jista’ jżid xi ftit il-kapaċitajiet bijoloġiċi iżda ma javvanzax b’mod sostanzjali l-fruntiera. Meħuda flimkien, dawn ir-riżultati kkontribwew għad-deċiżjoni tagħna li nirrilaxxaw il-mudell, u nittamaw li l-approċċ MFT tagħna jista’ jservi ta’ gwida utli biex tiġi stmata l-ħsara minn rilaxxi open-weight futuri.

2025

Awtur

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, u Chris Koch

Kompli aqra

Ara kollox

Safety and alignment in an era of long-horizon models

Sigurtà20 ta’ Lul, 2026

Why teens deserve access to safe AI — card image

Għaliex l-adoloxxenti jistħoqqilhom IA sikura

Sigurtà16 ta’ Lul, 2026

GPT-Red: Niftħu t-Titjib Awtomatiku għar-Robustezza

Sigurtà15 ta’ Lul, 2026