Illum, qed noħorġu preview ta’ riċerka ta’ gpt-oss-safeguard, il-mudelli tagħna ta’ piżijiet miftuħa għar-raġunament għal kompiti ta’ klassifikazzjoni tas-sikurezza, disponibbli f’żewġ daqsijiet: gpt-oss-safeguard-120b u gpt-oss-safeguard-20b. Dawn il-mudelli huma verżjonijiet irfinati tal-gpt-oss mudelli miftuħa tagħna u huma disponibbli taħt l-istess liċenzja permissiva Apache 2.0, li tippermetti lil kulħadd jużahom, jimmodifikahom u jużahom fil-produzzjoni liberament. Iż-żewġ mudelli jistgħu jitniżżlu llum minn Hugging Face(jinfetaħ f’tieqa ġdida).
Il-mudelli gpt-oss-safeguard jużaw ir-raġunament biex jinterpretaw direttament politika pprovduta minn żviluppatur waqt l-inference—jikklassifikaw messaġġi tal-utent, completions, u chats sħaħ skont il-ħtiġijiet tal-iżviluppatur. L-iżviluppatur dejjem jiddeċiedi liema politika juża, għalhekk it-tweġibiet ikunu aktar rilevanti u mfassla għall-każ ta’ użu tal-iżviluppatur. Il-mudell juża katina tal-ħsieb, li l-iżviluppatur jista’ jirrevediha biex jifhem kif il-mudell qed jasal għad-deċiżjonijiet tiegħu. Barra minn hekk, il-politika tingħata waqt l-inference, minflok ma tkun imħarrġa fil-mudell, għalhekk huwa faċli għall-iżviluppaturi li jirrevedu l-politiki b’mod iterattiv biex iżidu l-prestazzjoni. Dan l-approċċ, li inizjalment żviluppajnieh għall-użu intern, huwa ferm aktar flessibbli mill-metodu tradizzjonali ta’ taħriġ ta’ klassifikatur biex b’mod indirett jiddeduċi konfini ta’ deċiżjoni minn numru kbir ta’ eżempji ttikkettati.
gpt-oss-safeguard jippermetti lill-iżviluppaturi jiġbdu l-linji tal-politika li jaqblu l-aħjar mal-każ ta’ użu tagħhom. Pereżempju, forum ta’ diskussjoni dwar video games jista’ jkun irid jiżviluppa politika biex jikklassifika posts li jiddiskutu qerq fil-logħba, jew sit ta’ reviżjonijiet ta’ prodotti jista’ jkun irid juża l-politika tiegħu stess biex jiskrutinizza reviżjonijiet li jidhru li x’aktarx ikunu foloz.
Il-mudell jieħu żewġ inputs f’daqqa—politika u l-kontenut li għandu jiġi kklassifikat taħt dik il-politika—u joħroġ konklużjoni dwar fejn jaqa’ l-kontenut, flimkien mar-raġunament tiegħu. L-iżviluppaturi jiddeċiedu kif, jekk xejn, jużaw dawk il-konklużjonijiet fil-pipelines ta’ sikurezza tagħhom stess. Rajna li dan l-approċċ ibbażat fuq ir-raġunament jaħdem tajjeb b’mod speċjali f’sitwazzjonijiet fejn:
- Il-ħsara potenzjali qed toħroġ jew tevolvi, u l-politiki jridu jadattaw malajr.
- Id-dominju huwa sfumat ħafna u diffiċli biex klassifikaturi iżgħar jittrattawh.
- L-iżviluppaturi m’għandhomx biżżejjed kampjuni biex iħarrġu klassifikatur ta’ kwalità għolja għal kull riskju fuq il-pjattaforma tagħhom.
- Il-latency hija inqas importanti mill-produzzjoni ta’ tikketti ta’ kwalità għolja u spjegabbli.
Qed noħorġu din il-preview ta’ gpt-oss-safeguard biex nirċievu feedback mill-komunità tar-riċerka u tas-sikurezza u nkomplu niteraw fuq il-prestazzjoni tal-mudell. Tul xhur, ħdimna fuq din ir-rilaxx b’piżijiet miftuħa ma’ ROOST(jinfetaħ f’tieqa ġdida) biex nidentifikaw il-ħtiġijiet kritiċi tal-iżviluppatur, nittestjaw il-mudell u nipproduċu dokumentazzjoni għall-iżviluppaturi. Bħala parti minn dan it-tnedija ROOST se tkun qed tistabbilixxi komunità tal-mudell(jinfetaħ f’tieqa ġdida), li qed titnieda wkoll illum, biex tesplora mudelli miftuħa tal-IA biex tipproteġi spazji online. Flimkien ma’ dan ir-rilaxx, qed nippubblikaw rapport tekniku qasir li jagħti dettalji dwar il-prestazzjoni tas-sikurezza ta’ dan il-mudell ta’ preview.
Meta niġu għas-sikurezza, aħna nemmnu f’difiża fil-fond. Inħarrġu l-mudelli tagħna biex iwieġbu b’mod sikur, u nimplimentaw saffi addizzjonali ta’ protezzjoni biex nidentifikaw u nindirizzaw inputs u outputs potenzjalment mhux sikuri taħt il-politiki tagħna. Il-klassifikaturi tas-sikurezza, li jiddistingwu kontenut sigur minn wieħed mhux sigur f’qasam partikolari ta’ riskju, ilhom saff ewlieni ta’ difiża għall-mudelli kbar tal-lingwa tagħna u ta’ oħrajn.
Klassifikaturi tradizzjonali tas-sikurezza, bħal dawk disponibbli permezz tal-Moderation API(jinfetaħ f’tieqa ġdida) tagħna, jiġu żviluppati billi jinġabru manwalment eluf ta’ eżempji ta’ kontenut sigur u mhux sigur, taħt politiki ta’ sikurezza ddefiniti minn qabel. Minn din id-data ta’ taħriġ, il-klassifikatur jitgħallem jiddistingwi outputs siguri minn mhux siguri. F’dan l-approċċ tradizzjonali, il-klassifikatur qatt ma jara fil-fatt il-politika tas-sikurezza. Minflok, jipprova jiddeduċi l-politika sottostanti li ntużat biex jiġu ttikkettati l-eżempji billi jsib xebh fil-kontenut ittikkettat bħala mhux sigur u differenzi bejn il-kontenut mhux sigur u dak sigur.
Il-klassifikaturi tradizzjonali jistgħu jkollhom prestazzjoni għolja, b’latency u spiża ta’ operazzjoni baxxi. Iżda l-ġbir ta’ kwantità biżżejjed ta’ eżempji ta’ taħriġ jista’ jieħu ħafna ħin u jkun għali, u l-aġġornament jew it-tibdil tal-politika jeħtieġ taħriġ mill-ġdid tal-klassifikatur.
gpt-oss-safeguard huwa differenti għax il-kapaċitajiet ta’ raġunament tiegħu jippermettu lill-iżviluppaturi japplikaw kwalunkwe politika, inklużi dawk li jiktbu huma stess jew jieħdu minn sorsi oħra, u r-raġunament jgħin lill-mudelli jiġġeneralizzaw fuq politiki miktuba ġodda. Lil hinn mill-politiki tas-sikurezza, gpt-oss-safeguard jista’ jintuża biex jittikketta l-kontenut b’modi oħra li huma importanti għal prodotti u pjattaformi speċifiċi.
Il-mudelli ewlenin tagħna tar-raġunament issa jitgħallmu l-politiki tas-sikurezza tagħna direttament, u jużaw il-kapaċitajiet ta’ raġunament tagħhom biex jirraġunaw dwar x’inhu sigur. Dan l-approċċ, li nsejħulu allinjament deliberattiv, itejjeb b’mod sinifikanti metodi preċedenti ta’ taħriġ tas-sikurezza u jagħmel il-mudelli tagħna tar-raġunament aktar sikuri fuq diversi assi mill-predeċessuri tagħhom li ma kinux ibbażati fuq ir-raġunament, anke hekk kif il-kapaċitajiet tagħhom jiżdiedu. Iżda r-raġunament mhux utli biss għat-taħriġ tal-mudelli nfushom. Joħloq ukoll possibbiltajiet ġodda għad-difiża fil-fond. Approċċi bbażati fuq ir-raġunament huma aktar flessibbli u inqas limitati mid-dettalji tat-taħriġ preċedenti tagħhom, vantaġġi li xi drabi jiġġustifikaw aktar mill-ispiża addizzjonali tal-komputazzjoni u l-latency li jinvolvu.
gpt-oss-safeguard hija implimentazzjoni b’piżijiet miftuħa ta’ approċċ li żviluppajna internament, f’għodda li nsejħulha Safety Reasoner. Bdejna b’irfinar ta' tisħiħ fuq kompiti ta’ tikkettar tal-politiki, billi ppremjajna lill-mudell talli rrifletta ġudizzji korretti minn esperti umani. Dan għallem lill-mudell jirraġuna dwar kif il-politika twassal għall-ġudizzju tiegħu. Illum, Safety Reasoner jippermettilna naġġornaw b’mod dinamiku l-politiki tas-sikurezza tagħna fil-produzzjoni f’inqas ħin milli kien jieħu biex terġa’ tħarreġ klassifikatur. Dan jagħmel lil Safety Reasoner għodda ewlenija għal implimentazzjoni iterattiva: meta nimplimentaw mudelli ġodda fil-produzzjoni, spiss nibdew b’politiki aktar stretti u nużaw ammonti relattivament kbar ta’ komputazzjoni fejn meħtieġ biex Safety Reasoner japplika dawk il-politiki b’attenzjoni. Imbagħad naġġustaw il-politiki tagħna hekk kif itejjeb il-fehim tagħna tar-riskji fil-produzzjoni. F’xi tnedijiet reċenti tagħna, il-frazzjoni tal-komputazzjoni totali ddedikata għar-raġunament tas-sikurezza laħqet sa 16%.
Safety Reasoner sar komponent ewlieni tal-istack tas-sikurezza tagħna. Għal ġenerazzjoni tal-immaġnijiet u Sora 2, iwettaq evalwazzjonijiet dinamiċi pass pass tal-outputs biex jidentifika u jimblokka ġenerazzjonijiet mhux siguri f’ħin reali. F’oqsma bħall-bijoloġija u l-awtoħsara, inħaddmu mudelli bħal dawk użati fil-Moderation API bħala klassifikaturi żgħar, veloċi u b’recall għoli biex niddeterminaw liema kontenut jinsab fi ħdan dominju ta’ interess, u mbagħad nużaw Safety Reasoner biex nirrevedu dak il-kontenut. Safety Reasoner jikklassifika outputs tal-mudell kontra tassonomija dettaljata biex jiddetermina kif l-aħjar iwieġeb, u jifforma parti mis-salvagwardji b’ħafna saffi tagħna f’sistemi bħal GPT‑5 u ChatGPT Agent. U issa, il-mudelli gpt-oss-safeguard jagħmlu dan l-istess approċċ disponibbli għal kulħadd.
Evalwajna l-mudelli gpt-oss-safeguard kemm fuq settijiet ta’ evalwazzjoni interni kif ukoll esterni.
Fl-evalwazzjoni interna, ipprovdejna diversi politiki fl-istess ħin lil gpt-oss-safeguard waqt l-inference. Għal kull input tat-test, nevalwaw jekk gpt-oss-safeguard jikklassifikax it-test b’mod korrett taħt il-politiki kollha inklużi. Dan huwa kompitu ta’ sfida—il-mudell jitqies preċiż biss jekk jaqbel eżattament mat-tikketti tas-sett tad-deheb għall-politiki kollha inklużi.
Il-mudelli tagħna gpt-oss-safeguard u s-Safety Reasoner intern tagħna jaqbżu lil gpt-5-thinking u lill-mudelli miftuħa gpt-oss fil-preċiżjoni multi-policy. Il-fatt li l-mudelli gpt-oss-safeguard jaqbżu lil gpt-5-thinking huwa partikolarment sorprendenti minħabba d-daqs żgħir tal-ewwel mudelli.
Komplejna nevalwaw dawn il-mudelli fuq id-dataset tal-moderazzjoni(jinfetaħ f’tieqa ġdida) li ħriġna mal-karta ta’ riċerka tal-2022(jinfetaħ f’tieqa ġdida) tagħna u fuq ToxicChat(jinfetaħ f’tieqa ġdida), benchmark pubbliku bbażat fuq mistoqsijiet tal-utenti lil chatbot open-source.
Fuq is-sett ta’ evalwazzjoni tal-moderazzjoni tal-2022, evalwajna billi użajna l-politiki interni tagħna tas-sikurezza (u adattajna politika waħda biex tqis bidliet sussegwenti). gpt-oss-safeguard mar kemxejn aħjar mill-mudelli l-oħra kollha ttestjati, inklużi s-Safety Reasoner intern tagħna u gpt-5-thinking, għalkemm din id-differenza bejn Safety Reasoner u gpt-oss-safeguard mhijiex statistikament sinifikanti.
Għal ToxicChat, evalwajna billi użajna prompt qasir miktub bl-idejn adattat minn xi wħud mill-politiki interni tagħna. Is-Safety Reasoner intern tagħna reġa’ mar aħjar minn gpt-5-thinking, filwaqt li gpt-5-thinking u Safety Reasoner it-tnejn jaqbżu b’marġni żgħir lil gpt-oss-safeguard-120b u gpt-oss-safeguard-20b. Nistennew li d-daqs relattivament żgħir ta’ gpt-oss-safeguard xorta jagħmlu preferibbli għal dan it-tip ta’ kompitu.
Hemm żewġ limitazzjonijiet speċifiċi ta’ gpt-oss-safeguard. L-ewwel, osservajna li klassifikaturi mħarrġa fuq għexieren ta’ eluf ta’ kampjuni ttikkettati ta’ kwalità għolja xorta jistgħu jaħdmu aħjar fil-klassifikazzjoni tal-kontenut minn gpt-oss-safeguard meta jirraġuna direttament mill-politika. Jista’ jkun preferibbli li tieħu l-ħin biex tħarreġ klassifikatur dedikat għal prestazzjoni ogħla fuq riskji aktar kumplessi.
It-tieni, gpt-oss-safeguard jista’ jkun intensiv ħafna fil-ħin u fil-komputazzjoni, u dan jagħmilha diffiċli biex jiskala fuq il-kontenut kollu tal-pjattaforma. Internament, nittrattaw dan b’diversi modi bis-Safety Reasoner: (1) nużaw klassifikaturi iżgħar u aktar veloċi biex niddeterminaw liema kontenut għandu jiġi vvalutat u (2) f’ċerti ċirkostanzi, nużaw Safety Reasoner b’mod asin kronu biex nipprovdu esperjenza tal-utent b’latency baxxa filwaqt li nżommu l-kapaċità li nintervjenu jekk nindunaw b’kontenut mhux sigur.
gpt-oss-safeguard huwa l-ewwel sett ta’ mudelli miftuħa tas-sikurezza ta’ OpenAI mibnija mal-komunità. Iterajna fuq gpt-oss-safeguard ma’ speċjalisti fit-trust and safety f’SafetyKit, ROOST, Tomoro, u Discord bħala parti minn ittestjar bikri. Is-CTO ta’ ROOST Vinay Rao jgħid, “gpt-oss-safeguard huwa l-ewwel mudell open source ta’ raġunament b’disinn ta’ ‘ġib il-politiki u d-definizzjonijiet tal-ħsara tiegħek’. L-organizzazzjonijiet jistħoqqilhom jistudjaw, jimmodifikaw u jużaw liberament teknoloġiji kritiċi tas-sikurezza u jkunu jistgħu jinnovaw. Fl-ittestjar tagħna, kien kapaċi jifhem politiki differenti, jispjega r-raġunament tiegħu, u juri sfumatura fl-applikazzjoni tal-politiki, li nemmnu li se jkun ta’ benefiċċju għall-bennejja u għat-timijiet tas-sikurezza.”
Se nkomplu niteraw mal-komunità biex intejbu l-għodod miftuħa tas-sikurezza, inkluż permezz tal-ROOST Model Community (RMC). L-RMC iġib flimkien prattikanti u riċerkaturi tas-sikurezza biex jaqsmu l-aħjar prattiki għall-implimentazzjoni ta’ mudelli AI open source fi workflows tas-sikurezza, inklużi riżultati ta’ evalwazzjoni u feedback dwar il-mudell. Żur ir-repo GitHub tal-RMC(jinfetaħ f’tieqa ġdida) biex titgħallem aktar dwar din is-sħubija u kif tista’ tinvolvi ruħek.
Biex tibda tibni b’dawn il-mudelli, niżżilhom minn Hugging Face(jinfetaħ f’tieqa ġdida).

