29 d’octubre del 2025

Presentem gpt-oss-safeguard

Nous models oberts de raonament de seguretat (120b i 20b) compatibles amb polítiques de seguretat personalitzades.

S'està carregant…

Avui llancem una vista prèvia de recerca de gpt-oss-safeguard, els nostres models de raonament de pes obert per a tasques de classificació de seguretat, disponibles en dues mides: gpt-oss-safeguard-120b i gpt-oss-safeguard-20b. Aquests models són versions afinades dels nostres gpt-oss⁠ models oberts i estan disponibles sota la mateixa llicència permissiva Apache 2.0, que permet a tothom fer-los servir, modificar-los i desplegar-los lliurement. Tots dos models es poden descarregar avui mateix des de Hugging Face⁠(s'obre en una finestra nova).

Els models gpt-oss-safeguard fan servir el raonament per interpretar directament una política proporcionada pel desenvolupador en temps d’inferència, classificant missatges d’usuari, completaments i xats sencers segons les necessitats del desenvolupador. El desenvolupador sempre decideix quina política fa servir, de manera que les respostes són més rellevants i adaptades al seu cas d’ús. El model fa servir cadena de pensament, que el desenvolupador pot revisar per entendre com el model arriba a les seves decisions. A més, la política es proporciona durant la inferència, en lloc d’estar entrenada dins del model, de manera que als desenvolupadors els resulta fàcil revisar iterativament les polítiques per augmentar el rendiment. Aquest enfocament, que vam desenvolupar inicialment per a ús intern, és significativament més flexible que el mètode tradicional d’entrenar un classificador perquè infereixi indirectament un límit de decisió a partir d’un gran nombre d’exemples etiquetats.

gpt-oss-safeguard permet als desenvolupadors traçar les línies de política que millor s’ajusten al seu cas d’ús. Per exemple, un fòrum de debat sobre videojocs podria voler desenvolupar una política per classificar publicacions que tractin de fer trampes en el joc, o un lloc de ressenyes de productes podria voler fer servir la seva pròpia política per filtrar ressenyes que semblin probablement falses.

El model pren dues entrades alhora —una política i el contingut que s’ha de classificar sota aquesta política— i genera una conclusió sobre on se situa el contingut, juntament amb el seu raonament. Els desenvolupadors decideixen com, si és que ho fan, utilitzen aquestes conclusions en els seus propis pipelines de seguretat. Hem vist que aquest enfocament basat en el raonament funciona especialment bé en situacions en què:

El dany potencial és emergent o evoluciona, i les polítiques s’han d’adaptar ràpidament.
El domini és molt matisat i difícil de gestionar per a classificadors més petits.
Els desenvolupadors no tenen prou mostres per entrenar un classificador d’alta qualitat per a cada risc a la seva plataforma.
La latència és menys important que produir etiquetes d’alta qualitat i explicables.

Publiquem aquesta vista prèvia de gpt-oss-safeguard per rebre comentaris de la comunitat de recerca i seguretat i continuar iterant sobre el rendiment del model. Durant mesos, hem treballat en aquest llançament de pes obert amb ROOST⁠(s'obre en una finestra nova) per identificar les necessitats crítiques dels desenvolupadors, provar el model i produir documentació per a desenvolupadors. Com a part d’aquest llançament, ROOST establirà una comunitat de models⁠(s'obre en una finestra nova), que també es posa en marxa avui, per explorar models d’IA oberts per protegir espais en línia. Juntament amb aquest llançament, publiquem un breu informe tècnic⁠ que detalla el rendiment de seguretat d’aquest model de vista prèvia.

Seguretat a nivell de sistema: el paper dels classificadors de seguretat

Pel que fa a la seguretat, creiem en la defensa en profunditat⁠. Entrenem els nostres models perquè responguin de manera segura i implementem capes addicionals de protecció per detectar i abordar entrades i sortides potencialment insegures segons les nostres polítiques. Els classificadors de seguretat, que distingeixen el contingut segur de l’insegur en una àrea de risc concreta, han estat durant molt de temps una capa principal de defensa per als nostres grans models de llenguatge i els d’altres.

Els classificadors de seguretat tradicionals, com els disponibles mitjançant la nostra API de Moderation⁠(s'obre en una finestra nova), es desenvolupen seleccionant manualment milers d’exemples de contingut segur i insegur, sota polítiques de seguretat predefinides. A partir d’aquestes dades d’entrenament, el classificador aprèn a distingir les sortides segures de les insegures. En aquest enfocament tradicional, el classificador no veu mai realment la política de seguretat. En canvi, intenta inferir la política subjacent que es va utilitzar per etiquetar els exemples trobant similituds en el contingut etiquetat com a insegur i diferències entre el contingut insegur i el segur.

Els classificadors tradicionals poden tenir un alt rendiment, amb baixa latència i cost operatiu. Però recopilar una quantitat suficient d’exemples d’entrenament pot requerir molt de temps i ser costós, i actualitzar o canviar la política requereix reentrenar el classificador.

gpt-oss-safeguard és diferent perquè les seves capacitats de raonament permeten als desenvolupadors aplicar qualsevol política, incloses les que escriuen ells mateixos o extreuen d’altres fonts, i el raonament ajuda els models a generalitzar sobre polítiques acabades d’escriure. Més enllà de les polítiques de seguretat, gpt-oss-safeguard es pot fer servir per etiquetar contingut d’altres maneres que són importants per a productes i plataformes específics.

Diagrama de flux titulat «Raonament basat en polítiques amb gpt-oss-safeguard». Les polítiques proporcionades pel desenvolupador i el contingut proporcionat per l’usuari s’introdueixen a GPT-OSS-Safeguard. El model produeix una cadena de pensament i després una decisió de política, amb un bucle etiquetat «iteració de polítiques» que es retroalimenta per refinar les polítiques. Una llegenda indica l’entrada del desenvolupador, l’entrada de l’usuari i la sortida del model.

Com fem servir internament el raonament de seguretat

Els nostres models principals de raonament ara aprenen directament les nostres polítiques de seguretat i fan servir les seves capacitats de raonament per raonar sobre què és segur. Aquest enfocament, que anomenem alineació deliberativa⁠, millora significativament els mètodes anteriors d’entrenament en seguretat i fa que els nostres models de raonament siguin més segurs en diversos eixos que els seus predecessors no orientats al raonament, fins i tot a mesura que augmenten les seves capacitats. Però el raonament no només és útil per entrenar els mateixos models. També crea noves possibilitats per a la defensa en profunditat. Els enfocaments basats en el raonament són més flexibles i menys limitats pels detalls del seu entrenament previ, avantatges que de vegades justifiquen amb escreix el cost computacional i la latència addicionals que impliquen.

gpt-oss-safeguard és una implementació de pes obert d’un enfocament que vam desenvolupar internament, en una eina que anomenem Safety Reasoner. Vam començar amb afinament per reforç en tasques d’etiquetatge de polítiques, recompensant el model per reflectir judicis correctes d’experts humans. Això va ensenyar el model a raonar sobre com la política condueix al seu judici. Avui, Safety Reasoner ens permet actualitzar dinàmicament les nostres polítiques de seguretat en producció en menys temps del que caldria per reentrenar un classificador. Això fa de Safety Reasoner una eina clau per al desplegament iteratiu⁠: quan despleguem models nous a producció, sovint comencem amb polítiques més estrictes i fem servir quantitats relativament grans de còmput quan cal per permetre que Safety Reasoner apliqui aquestes polítiques amb cura. Després ajustem les nostres polítiques a mesura que millora la nostra comprensió dels riscos en producció. En alguns dels nostres llançaments recents, la fracció del còmput total dedicada al raonament de seguretat ha arribat fins al 16%.

Safety Reasoner s’ha convertit en un component central del nostre stack de seguretat. Per a la generació d'imatges i Sora 2, fa avaluacions dinàmiques i pas a pas de les sortides per identificar i bloquejar generacions insegures en temps real. En dominis com la biologia i l’autolesió, fem servir models com els que s’utilitzen a l’API de Moderation com a classificadors petits, ràpids i d’alta recuperació per determinar quin contingut es troba dins d’un domini d’interès, i després fem servir Safety Reasoner per revisar aquest contingut. Safety Reasoner classifica les sortides del model segons una taxonomia detallada per determinar quina és la millor resposta, formant part de les nostres salvaguardes multicapa en sistemes com GPT‑5 i ChatGPT Agent. I ara, els models gpt-oss-safeguard posen aquest mateix enfocament a l’abast de tothom.

Com funciona gpt-oss-safeguard

Hem avaluat els models gpt-oss-safeguard tant en conjunts d’avaluació interns com externs.

En l’avaluació interna, vam proporcionar múltiples polítiques simultàniament a gpt-oss-safeguard en temps d’inferència. Per a cada entrada de prova, avaluem si gpt-oss-safeguard classifica correctament el text sota totes les polítiques incloses. Aquesta és una tasca exigent: el model només es compta com a precís si coincideix exactament amb les etiquetes del conjunt de referència per a totes les polítiques incloses.

Els nostres models gpt-oss-safeguard i el Safety Reasoner intern superen gpt-5-thinking i els models oberts gpt-oss en precisió multipolítica. És especialment sorprenent que els models gpt-oss-safeguard superin gpt-5-thinking tenint en compte la mida reduïda dels primers.

A més, vam avaluar aquests models amb el conjunt de dades de moderació⁠(s'obre en una finestra nova) que vam publicar amb el nostre article de recerca de 2022⁠(s'obre en una finestra nova) i amb ToxicChat⁠(s'obre en una finestra nova), un benchmark públic basat en consultes d’usuaris a un chatbot de codi obert.

En el conjunt d’avaluació de moderació de 2022, vam avaluar fent servir les nostres polítiques internes de seguretat (adaptant una política per tenir en compte canvis posteriors). gpt-oss-safeguard va superar lleugerament tots els altres models provats, inclosos el nostre Safety Reasoner intern i gpt-5-thinking, tot i que aquesta diferència entre Safety Reasoner i gpt-oss-safeguard no és estadísticament significativa.

Per a ToxicChat, vam avaluar fent servir una indicació breu escrita a mà adaptada d’algunes de les nostres polítiques internes. El nostre Safety Reasoner intern va tornar a superar gpt-5-thinking, mentre que gpt-5-thinking i Safety Reasoner superen tots dos lleugerament gpt-oss-safeguard-120b i gpt-oss-safeguard-20b. Esperem que la mida relativament petita de gpt-oss-safeguard continuï fent-lo preferible per a aquest tipus de tasca.

Limitacions

Hi ha dues limitacions específiques de gpt-oss-safeguard. En primer lloc, hem observat que els classificadors entrenats amb desenes de milers de mostres etiquetades d’alta qualitat encara poden funcionar millor a l’hora de classificar contingut que gpt-oss-safeguard quan raona directament a partir de la política. Dedicar temps a entrenar un classificador específic pot ser preferible per obtenir un rendiment més alt en riscos més complexos.

En segon lloc, gpt-oss-safeguard pot requerir molt de temps i còmput, cosa que dificulta escalar-lo a tot el contingut de la plataforma. Internament, ho gestionem de diverses maneres amb Safety Reasoner: (1) fem servir classificadors més petits i ràpids per determinar quin contingut s’ha d’avaluar i (2) en algunes circumstàncies, fem servir Safety Reasoner de manera asíncrona per oferir una experiència d’usuari de baixa latència i mantenir alhora la capacitat d’intervenir si detectem contingut insegur.

El camí que tenim al davant: continuar construint amb la comunitat

gpt-oss-safeguard és el primer conjunt de models oberts de seguretat d’OpenAI construït amb la comunitat. Hem iterat sobre gpt-oss-safeguard amb especialistes de confiança i seguretat de SafetyKit, ROOST, Tomoro, i Discord com a part de les primeres proves. El CTO de ROOST, Vinay Rao, diu: «gpt-oss-safeguard és el primer model de raonament de codi obert amb un disseny de “porta les teves pròpies polítiques i definicions de dany”. Les organitzacions mereixen poder estudiar, modificar i fer servir lliurement tecnologies de seguretat crítiques i poder innovar. En les nostres proves, va demostrar habilitat per entendre diferents polítiques, explicar el seu raonament i mostrar matisos en aplicar les polítiques, cosa que creiem que serà beneficiosa per a creadors i equips de seguretat.»

Continuarem iterant amb la comunitat per millorar les eines obertes de seguretat, també a través de la ROOST Model Community (RMC). La RMC reuneix professionals i investigadors de seguretat per compartir bones pràctiques d’implementació de models d’IA de codi obert en fluxos de treball de seguretat, inclosos resultats d’avaluació i comentaris sobre els models. Visiteu el repositori de GitHub de l’RMC⁠(s'obre en una finestra nova) per obtenir més informació sobre aquesta col·laboració i sobre com participar-hi.

Per començar a crear amb aquests models, descarregueu-los des de Hugging Face⁠(s'obre en una finestra nova).

2025

Autor

OpenAI

Continuar llegint

Veure-ho tot

informe tècnic de gpt-oss-safeguard

Seguretat29 d’oct. del 2025

Presentem gpt-oss

Publicació5 d’ag. del 2025

Fitxa del model gpt-oss-120b i gpt-oss-20b

Publicació5 d’ag. del 2025