Teknisk rapport
Evalueringer av ytelse og referanseverdier for gpt-oss-safeguard-120b og gpt-oss-safeguard-20b
gpt-oss-safeguard-120b og gpt-oss-safeguard-20b er to resonneringsmodeller med åpen vekting som er etteropplært fra gpt-oss-modellene og lært opp til å resonnere ut fra en angitt retningslinje for å merke innhold i henhold til den. De er tilgjengelige under Apache 2.0-lisensen og våre retningslinjer for bruk for gpt-oss. Disse tekstbaserte modellene er utviklet med tilbakemeldinger fra åpen kildekode-fellesskapet og er kompatible med Responses API. Modellene er tilpassbare, tilbyr full tankerekke (CoT), kan brukes med forskjellige resonnementsnivå (lavt, middels, høyt), og støtter strukturerte utdata.
I denne rapporten beskriver vi evnene til gpt-oss-safeguard og gir våre grunnleggende sikkerhetsvurderinger av gpt-oss-safeguard-modellene, med de underliggende gpt-oss-modellene som referanse. Hvis du ønsker mer informasjon om utviklingen og arkitekturen til de underliggende gpt-oss-modellene, kan du lese det opprinnelige gpt-oss-modellkortet.
Vi anbefaler å bruke disse modellene til å klassifisere innhold i henhold til en angitt retningslinje, og ikke som kjernen i funksjonaliteten sluttbrukerne samhandler med; de opprinnelige gpt-oss-modellene er bedre for slike bruksområder. Sikkerhetsmålingene som er oppgitt nedenfor, beskriver hvordan gpt-oss-safeguard-modeller fungerer i chat-situasjoner. gpt-oss-safeguard-modellene er ikke ment for denne bruken, men siden de er open model-er, er det mulig for noen å bruke modellene på denne måten. På grunn av den muligheten ønsket vi å bekrefte at de oppfylte sikkerhetsstandardene våre ved slik bruk; denne rapporten viser resultatene av disse testene. Vi deler også en foreløpig evaluering av flerspråklig ytelse i en chat-situasjon; merk at dette ikke direkte vurderer ytelsen ved innholdsklassifisering med en oppgitt retningslinje.
gpt-oss-safeguard-modellene er finjusteringer av sine gpt-oss-motparter, og ble trent uten ytterligere biologiske eller cybersikkerhetsdata. Som et resultat konkluderte vi med at det tidligere arbeidet med å estimere de verst tenkelige scenariene fra gpt-oss-utgivelsen også gjelder for disse nye modellene.

