Technisch rapport
Prestatie- en basislijnbeoordelingen van gpt-oss-safeguard-120b en gpt-oss-safeguard-20b
gpt-oss-safeguard-120b en gpt-oss-safeguard-20b zijn twee open-weight redeneringsmodellen die met de gpt-oss-modellen zijn getraind om te redeneren op basis van een opgegeven beleid, om inhoud onder dat beleid te labelen. Ze zijn beschikbaar onder de Apache 2.0-licentie en ons gpt-oss-gebruiksbeleid. Deze tekstmodellen zijn ontwikkeld met feedback van de open-source community en zijn compatibel met onze Responses-API. De modellen zijn aanpasbaar, bieden een volledige Chain-of-Thought (CoT), kunnen worden gebruikt met verschillende redeneringsinspanningen (laag, gemiddeld, hoog) en ondersteunen Gestructureerde output.
In dit rapport beschrijven we de mogelijkheden van gpt-oss-safeguard en geven we onze basislijnbeoordelingen van de veiligheid van de gpt-oss-safeguard-modellen, waarbij we de onderliggende gpt-oss-modellen als basislijn nemen. Bekijk de originele modelkaart van het gpt-oss-model voor meer informatie over de ontwikkeling en architectuur van de onderliggende gpt-oss-modellen.
We raden aan deze modellen in te zetten om inhoud te classificeren op basis van een opgegeven beleid, en niet als de kernfunctionaliteit waarmee eindgebruikers werken; de originele gpt-oss-modellen zijn beter geschikt voor dergelijke toepassingen. In de onderstaande veiligheidsstatistieken wordt belicht hoe gpt-oss-safeguard-modellen functioneren in chat-instellingen. De gpt-oss-safeguard-modellen zijn niet bedoeld voor dit gebruik, maar omdat het open models zijn, is het mogelijk dat iemand de modellen op deze manier gebruikt. Vanwege die mogelijkheid wilden we controleren of de modellen bij dergelijk gebruik aan onze veiligheidsnormen voldoen. In dit rapport worden de resultaten van die tests vermeld. We geven ook een eerste evaluatie van de prestaties in meerdere talen in een chatomgeving. Dit is geen directe beoordeling van de prestaties tijdens de classificatie van inhoud aan de hand van een opgegeven beleid.
De gpt-oss-safeguard-modellen zijn verfijnde versies van hun gpt-oss-tegenhangers en zijn getraind zonder aanvullende biologische- of cyberbeveiligingsgegevens. Als gevolg daarvan hebben we vastgesteld dat het eerdere werk waarbij worstcasescenario's uit gpt-oss release cross werden geschat, ook van toepassing is op deze nieuwe modellen.

