rapport tekniku ta’ gpt-oss-safeguard
Prestazzjoni u evalwazzjonijiet bażi ta’ gpt-oss-safeguard-120b u gpt-oss-safeguard-20b
gpt-oss-safeguard-120b u gpt-oss-safeguard-20b huma żewġ mudelli tar-raġunament b’piżijiet miftuħa, wara t-taħriġ mill-mudelli gpt-oss u mħarrġa biex jirraġunaw minn politika pprovduta sabiex jittikkettaw il-kontenut taħt dik il-politika. Huma disponibbli taħt il-liċenzja Apache 2.0 u l-politika tagħna tal-użu ta’ gpt-oss. Żviluppati b’feedback mill-komunità open-source, dawn il-mudelli tat-test biss huma kompatibbli mar-Responses API tagħna. Il-mudelli huma personalizzabbli, jipprovdu katina tal-ħsieb (CoT) sħiħa, jistgħu jintużaw b’livelli differenti ta’ sforz tar-raġunament (baxx, medju, għoli), u jappoġġjaw outputs strutturati.
F’dan ir-rapport, niddeskrivu l-kapaċitajiet ta’ gpt-oss-safeguard u nipprovdu l-evalwazzjonijiet bażi tagħna tas-sigurtà fuq il-mudelli gpt-oss-safeguard, billi nużaw il-mudelli gpt-oss sottostanti bħala bażi. Għal aktar informazzjoni dwar l-iżvilupp u l-arkitettura tal-mudelli gpt-oss sottostanti, ara l-oriġinali skeda -mudell tal-mudell gpt-oss.
Nirrakkomandaw li tuża dawn il-mudelli biex tikklassifika kontenut kontra politika pprovduta, u mhux bħala l-funzjonalità ewlenija li biha l-utenti finali jinteraġixxu; il-mudelli gpt-oss oriġinali huma aħjar għal dawk l-applikazzjonijiet. Il-metriċi tas-sigurtà pprovduti hawn taħt jiddeskrivu kif il-mudelli gpt-oss-safeguard jiffunzjonaw f’ambjenti ta’ chat. Il-mudelli gpt-oss-safeguard mhumiex maħsuba għal dan l-użu, iżda peress li huma mudelli miftuħa, huwa possibbli li xi ħadd juża l-mudelli b’dan il-mod. Minħabba din il-possibbiltà, ridna nivverifikaw li jissodisfaw l-istandards tagħna tas-sigurtà f’użu bħal dan; dan ir-rapport jaqsam ir-riżultati ta’ dawk it-testijiet. Naqsmu wkoll evalwazzjoni inizjali tal-prestazzjoni f’diversi lingwi f’ambjent ta’ chat; innota li dan ma jivvalutax direttament il-prestazzjoni waqt il-klassifikazzjoni tal-kontenut b’politika pprovduta.
Il-mudelli gpt-oss-safeguard huma fine-tunes tal-kontropartijiet tagħhom gpt-oss, u ġew imħarrġa mingħajr ebda data addizzjonali bijoloġika jew taċ-ċibersigurtà. B’riżultat ta’ dan, iddeterminajna li x-xogħol preċedenti li jistma xenarji tal-agħar każ mir-rilaxx ta’ gpt-oss japplika wkoll għal dawn il-mudelli ġodda.

