29 అక్టోబర్, 2025

gpt-oss-safeguard ను పరిచయం చేస్తున్నాము

కస్టమ్ సేఫ్టీ పాలసీలకు సపోర్ట్ చేసే కొత్త ఓపెన్ సేఫ్టీ రీజనింగ్ మోడళ్లు (120b మరియు 20b).

లోడ్ అవుతోంది…

ఈ రోజు, మేము సేఫ్టీ క్లాసిఫికేషన్ టాస్క్ల కోసం రూపొందించిన మా ఓపెన్-వెయిట్ రీజనింగ్ మోడళ్లైన gpt-oss-safeguard యొక్క రీసెర్చ్ ప్రివ్యూ విడుదల చేస్తున్నాం. ఇవి రెండు సైజుల్లో అందుబాటులో ఉన్నాయి: gpt-oss-safeguard-120b మరియు gpt-oss-safeguard-20b.ఈ మోడళ్లు మా gpt-oss⁠ ఓపెన్ మోడళ్ల ఫైన్-ట్యూన్ వెర్షన్లు, మరియు అవి అదే పరిమితులు లేని Apache 2.0 లైసెన్స్ కింద అందుబాటులో ఉన్నాయి, దీని ద్వారా ఎవరికైనా వాటిని స్వేచ్ఛగా ఉపయోగించడం, మార్చడం, మరియు డిప్లాయ్ చేయడం సాధ్యం అవుతుంది.ఈ రెండు మోడళ్లను ఈరోజు Hugging Face⁠(కొత్త విండోలో తెరుచుకుంటుంది) నుండి డౌన్లోడ్ చేసుకోవచ్చు.

gpt-oss-safeguard మోడళ్లు ఇన్ఫరెన్స్ సమయంలో డెవలపర్ ఇచ్చిన పాలసీని నేరుగా అర్థం చేసుకోవడానికి రీజనింగ్ను ఉపయోగిస్తాయి—డెవలపర్ అవసరాల ప్రకారం యూజర్ మెసేజ్లు, కంప్లీషన్లు మరియు పూర్తి చాట్లను క్లాసిఫై చేస్తాయి.ఏ పాలసీని ఉపయోగించాలో ఎప్పుడూ డెవలపర్నే నిర్ణయిస్తాడు, అందువల్ల రెస్పాన్స్లు మరింత ప్రాసంగికంగా, డెవలపర్ యొక్క యూజ్ కేస్ కి అనుగుణంగా ఉంటాయి.మోడల్ చైన్-ఆఫ్-థాట్ ను ఉపయోగిస్తుంది, దాంతో మోడల్ తన నిర్ణయాలకు ఎలా చేరుకుంటుందో డెవలపర్ రివ్యూ చేసి అర్థం చేసుకోవచ్చు.అదనంగా, పాలసీని మోడల్లో ట్రెయిన్ చేయడం కాకుండా ఇన్ఫరెన్స్ సమయంలో అందిస్తారు, అందువల్ల డెవలపర్లు పనితీరును మెరుగుపరచడానికి పాలసీలను పునఃసమీక్షించి మార్చడం సులభమవుతుంది.మేము మొదట అంతర్గత ఉపయోగం కోసం అభివృద్ధి చేసిన ఈ విధానం, అనేక లేబుల్ చేసిన ఉదాహరణల నుండి నిర్ణయ సరిహద్దును పరోక్షంగా అంచనా వేయడానికి క్లాసిఫైయర్ని ట్రెయిన్ చేసే సాంప్రదాయ పద్ధతికంటే గణనీయంగా ఎక్కువ ఫ్లెక్సిబుల్ గా ఉంటుంది.

gpt-oss-safeguard డెవలపర్లకు తమ యూజ్ కేస్ కి సరిపోయే విధంగా పాలసీ లైన్లను రూపొందించే అవకాశం ఇస్తుంది.ఉదాహరణకు, ఒక వీడియో గేమింగ్ చర్చా ఫోరం గేమ్ లో చీటింగ్ గురించి చర్చించే పోస్ట్లను క్లాసిఫై చేయడానికి ఒక పాలసీని రూపొందించాలనుకోవచ్చు, లేదా ఒక ప్రొడక్ట్ రివ్యూస్ సైట్ నకిలీగా కనిపించే రివ్యూలను స్క్రీన్ చేయడానికి తన సొంత పాలసీని ఉపయోగించవచ్చు.

మోడల్ ఒకేసారి రెండు ఇన్పుట్లను తీసుకుంటుంది—ఒక పాలసీ మరియు ఆ పాలసీ కింద క్లాసిఫై చేయాల్సిన కంటెంట్—తర్వాత ఆ కంటెంట్ ఎక్కడకు చెందుతుందో, దానికి సంబంధించిన రీజనింగ్ తో కలిసి ఒక తుది నిర్ధారణను అవుట్పుట్ గా ఇస్తుంది.ఆ నిర్ధారణలను తమ సేఫ్టీ పైప్లైన్లలో ఎలా, లేదా ఉపయోగించాలా వద్దా అన్నదాన్ని డెవలపర్లు స్వయంగా నిర్ణయిస్తారు.ఈ రీజనింగ్ ఆధారిత విధానం కింది పరిస్థితుల్లో ప్రత్యేకంగా మంచి ఫలితాలు ఇస్తుందని మేము గమనించాం:

సంభావ్య హాని ఉద్భవిస్తున్న లేదా మార్పు చెందుతున్న సందర్భాల్లో, పాలసీలు వేగంగా అనుగుణంగా మారాల్సిన అవసరం ఉంటుంది.
ఆ డొమైన్ లో అనేక సూక్ష్మతలు ఉండి, చిన్న క్లాసిఫైయర్లు వాటిని సమర్థంగా హ్యాండిల్ చేయడం కష్టం అవుతుంది.
డెవలపర్లకు తమ ప్లాట్ఫారమ్ లో ప్రతి రిస్క్ కోసం హై-క్వాలిటీ క్లాసిఫైయర్ ని ట్రెయిన్ చేయడానికి తగినంత సాంపిల్స్ లేవు.
హై-క్వాలిటీ, స్పష్టంగా అర్థమయ్యే లేబల్స్ ఉత్పత్తి చేయడం లేటెన్సీ కంటే ఎక్కువ ప్రాధాన్యత కలిగి ఉంటుంది.

మేము gpt-oss-safeguard యొక్క ఈ ప్రివ్యూ విడుదల చేస్తున్నాము, రీసెర్చ్ మరియు సేఫ్టీ కమ్యూనిటీ నుంచి ఫీడ్బ్యాక్ పొందేందుకు, అలాగే మోడల్ పనితీరును ఇంకా మెరుగుపరచడానికి.గత కొన్ని నెలలుగా, డెవలపర్ల ముఖ్య అవసరాలను గుర్తించడానికి, మోడల్ ను టెస్ట్ చేయడానికి, మరియు డెవలపర్ డాక్యుమెంటేషన్ రూపొందించడానికి, మేము ROOST⁠(కొత్త విండోలో తెరుచుకుంటుంది)తో కలిసి ఈ ఓపెన్ వెయిట్ రీలీజ్ పై పని చేశాము.ఈ లాంచ్లో భాగంగా, ROOST నేడు ప్రారంభమవుతున్న మోడల్ కమ్యూనిటీ⁠(కొత్త విండోలో తెరుచుకుంటుంది)ని స్థాపిస్తోంది, ఆన్లైన్ స్పేస్లను రక్షించేందుకు ఓపెన్ AI మోడళ్లను అన్వేషించడానికి.ఈ విడుదలతో పాటు, ఈ ప్రివ్యూ మోడల్ యొక్క సేఫ్టీ పనితీరును వివరించే చిన్న టెక్నికల్ రిపోర్ట్⁠ను కూడా మేము ప్రచురిస్తున్నాము.

సిస్టమ్-స్థాయి సేఫ్టీ: సేఫ్టీ క్లాసిఫయర్ల పాత్ర

సేఫ్టీ విషయానికి వస్తే, మేము డిఫెన్స్ ఇన్ డెప్త్⁠ అనే విధానాన్ని నమ్ముతాము.మా మోడళ్లను సేఫ్ గా స్పందించేందుకు మేము ట్రైన్ చేస్తాము, అలాగే మా పాలసీల ప్రకారం, ప్రమాదకరమైన ఇన్పుట్లు లేదా అవుట్పుట్లను గుర్తించి పరిష్కరించడానికి అదనపు రక్షణ పొరలను అమలు చేస్తాము.ఒక నిర్దిష్ట రిస్క్ ప్రాంతంలో సేఫ్ మరియు అన్ సేఫ్ కంటెంట్ను వేరు చేసే సేఫ్టీ క్లాసిఫయర్లు, మా మోడళ్లకే కాకుండా ఇతర లార్జ్ లాంగ్వేజ్ మోడళ్లకు కూడా చాలా కాలంగా ప్రాధమిక రక్షణ పొరగా ఉన్నాయి.

మా Moderation API⁠(కొత్త విండోలో తెరుచుకుంటుంది) ద్వారా లభ్యమయ్యే సంప్రదాయ సేఫ్టీ క్లాసిఫయర్లు, ముందుగా నిర్వచించిన సేఫ్టీ పాలసీల ఆధారంగా, వేలాది సేఫ్ మరియు అన్ సేఫ్ కంటెంట్ ఉదాహరణలను మానవీయంగా సేకరించి అభివృద్ధి చేయబడతాయి.ఈ ట్రైనింగ్ డేటా ద్వారా, క్లాసిఫయర్ సేఫ్ మరియు అన్ సేఫ్ అవుట్పుట్లను వేరు చేయడం నేర్చుకుంటుంది.ఈ సంప్రదాయ విధానంలో, క్లాసిఫయర్ ఎప్పుడూ సేఫ్టీ పాలసీని నేరుగా చూడదు.దాని బదులు, అన్ సేఫ్ గా లేబుల్ చేసిన కంటెంట్లోని సామాన్యతలను మరియు సేఫ్, అన్ సేఫ్ కంటెంట్ల మధ్య తేడాలను గుర్తించడం ద్వారా, ఉదాహరణలను లేబుల్ చేయడానికి ఉపయోగించిన అసలు పాలసీని అర్థం చేసుకునేందుకు క్లాసిఫయర్ ప్రయత్నిస్తుంది.

సంప్రదాయ క్లాసిఫయర్లు తక్కువ లేటెన్సీ మరియు ఆపరేటింగ్ ఖర్చుతో అధిక పనితీరు కనబరచగలవు.కానీ సరిపడినంత ట్రైనింగ్ ఉదాహరణలను సేకరించడం సమయం తీసుకునే మరియు ఖరీదైన ప్రక్రియ, అలాగే పాలసీని అప్డేట్ చేయడం లేదా మార్చడం కోసం క్లాసిఫయర్ ను మళ్లీ ట్రైన్ చేయాల్సి ఉంటుంది.

gpt-oss-safeguard భిన్నంగా ఉంటుంది, ఎందుకంటే దీని రీజనింగ్ సామర్థ్యాలు డెవలపర్లకు తాము రాసినవి లేదా ఇతర సోర్స్ ల నుంచి తీసుకున్న ఏ పాలసీ అయినా అప్లై చేయడానికి అవకాశం ఇస్తాయి, అలాగే రీజనింగ్ ద్వారా మోడళ్లు కొత్తగా రూపొందించిన పాలసీలను సాధారణీకరించగలవు.సేఫ్టీ పాలసీలకు మించి, gpt-oss-safeguard ను నిర్దిష్ట ప్రోడక్ట్ లు మరియు ప్లాట్ఫారమ్లకు ముఖ్యమైన ఇతర రీతుల్లో కంటెంట్ను లేబుల్ చేయడానికి కూడా ఉపయోగించవచ్చు.

‘gpt-oss-safeguard తో పాలసీ-ఆధారిత రీజనింగ్’ అనే శీర్షికతో ఉన్న ఫ్లో డయాగ్రామ్.డెవలపర్ అందించిన పాలసీలు మరియు యూజర్ అందించిన కంటెంట్ GPT-OSS-Safeguard లోకి ఇన్పుట్ గా వెళ్తాయి.మోడల్ మొదట చైన్-ఆఫ్-థాట్ ను ఉత్పత్తి చేసి, తర్వాత పాలసీ నిర్ణయాన్ని తీసుకుంటుంది; ‘పాలసీ ఇటరేషన్’ అని లేబుల్ చేసిన లూప్ పాలసీలను మెరుగుపరచడానికి ఫీడ్బ్యాక్ ఇస్తుంది.ఒక లెజెండ్ లో డెవలపర్ ఇన్పుట్, యూజర్ ఇన్పుట్, మరియు మోడల్ అవుట్పుట్ ను చూపిస్తుంది.

మేము సేఫ్టీ రీజనింగ్ ను అంతర్గతంగా ఎలా ఉపయోగిస్తున్నాము

మా ప్రాధమిక రీజనింగ్ మోడళ్లు ఇప్పుడు మా సేఫ్టీ పాలసీలను నేరుగా నేర్చుకుని, ఏది సేఫ్ అనేది అర్థం చేసుకోవడానికి తమ రీజనింగ్ సామర్థ్యాలను ఉపయోగిస్తాయి.ఈ విధానాన్ని మేము డిలిబరేటివ్ అలైన్మెంట్⁠ అని పిలుస్తాము, ఇది పూర్వపు సేఫ్టీ ట్రైనింగ్ పద్ధతుల కంటే గణనీయంగా మెరుగైనది, మరియు సామర్థ్యాలు పెరిగినప్పటికీ, మా రీజనింగ్ మోడళ్లను నాన్-రిజనింగ్ పూర్వ మోడళ్ల కంటే అనేక కోణాల్లో మరింత సురక్షితంగా చేస్తుంది.కానీ రీజనింగ్ మోడళ్లను ట్రైన్ చేయడానికే కాకుండా, మరెన్నో విధాలుగా కూడా ఉపయోగపడుతుంది.ఇది డిఫెన్స్ ఇన్ డెప్త్కి కొత్త అవకాశాలను కూడా సృష్టిస్తుంది.రీజనింగ్ ఆధారిత విధానాలు మరింత అనువైనవి మరియు గత ట్రైనింగ్ వివరాల పరిమితులకు తక్కువగా లోబడి ఉంటాయి — ఇవి కొన్నిసార్లు వాటిలో ఉండే అదనపు కంప్యూట్ ఖర్చు మరియు లేటెన్సీని సమర్థించగల అంతటి ప్రయోజనాలను అందిస్తాయి.

gpt-oss-safeguard అనేది మేము అంతర్గతంగా అభివృద్ధి చేసిన విధానానికి ఓపెన్-వెయిట్ ఇంప్లిమెంటేషన్, దానిని మేము Safety Reasoner అనే టూల్ లో ఉపయోగిస్తున్నాము.మేము పాలసీ లేబెలింగ్ టాస్క్లపై రీఇన్ఫోర్స్మెంట్ ఫైన్ ట్యూనింగ్ తో ప్రారంభించాము, ఇందులో మానవ నిపుణుల సరైన తీర్పులను ప్రతిబింబించినప్పుడు మోడల్ ను రివార్డ్ చేశాము.దీని ద్వారా పాలసీ ఎలా తన తీర్పుకు దారితీస్తుందో మోడల్ రీజన్ చేయడం నేర్చుకుంది.నేటి పరిస్థితిలో, Safety Reasoner మాకు క్లాసిఫయర్ ను మళ్లీ ట్రైన్ చేయడానికి పడే సమయం కంటే తక్కువ సమయంలో ప్రొడక్షన్ లో మా సేఫ్టీ పాలసీలను డైనమిక్ గా అప్డేట్ చేసే సామర్థ్యాన్ని ఇస్తుంది.ఇది Safety Reasoner ను ఇటరేటివ్ డిప్లాయ్మెంట్⁠ కోసం కీలక టూల్ గా మారుస్తుంది: మేము కొత్త మోడళ్లను ప్రొడక్షన్ లో డిప్లాయ్ చేసినప్పుడు, సాధారణంగా కఠినమైన పాలసీలతో ప్రారంభించి, Safety Reasoner ఆ పాలసీలను జాగ్రత్తగా అమలు చేయడానికి అవసరమైన చోట ఎక్కువ కంప్యూట్ వనరులను ఉపయోగిస్తాము.తర్వాత, ప్రొడక్షన్ లో ఉన్న రిస్క్లపై మా అవగాహన మెరుగుపడేకొద్దీ, మా పాలసీలను సవరించుకుంటాము.మా ఇటీవల జరిగిన కొన్ని లాంచ్లలో, సేఫ్టీ రీజనింగ్ కి కేటాయించిన మొత్తం కంప్యూట్ లో భాగం 16% వరకు ఉంది.

Safety Reasoner మా సేఫ్టీ స్టాక్ లో ఒక ప్రధాన భాగంగా మారింది.ఇమేజ్ జనరేషన్ మరియు Sora 2 కోసం, ఇది అవుట్పుట్లను డైనమిక్ గా, స్టెప్ వైజ్ గా ఈవాల్యుయేట్ చేస్తుంది, అన్ సేఫ్ జనరేషన్లను రియల్ టైమ్ లో గుర్తించి అడ్డుకుంటుంది.బయాలజీ మరియు సెల్ఫ్-హార్మ్ వంటి డొమైన్లలో, మేము Moderation APIలో ఉపయోగించే మోడళ్ల వంటి చిన్న, వేగవంతమైన, మరియు హై-రికాల్ క్లాసిఫయర్లను అమలు చేస్తాము — దాంతో ఆసక్తి ఉన్న డొమైన్ లో ఏ కంటెంట్ వస్తుందో నిర్ణయించి, ఆ కంటెంట్ ను రివ్యూ చేయడానికి Safety Reasoner ను ఉపయోగిస్తాము.Safety Reasoner, GPT‑5 మరియు ChatGPT Agent వంటి సిస్టమ్లలో భాగమైన మల్టీ-లేయర్డ్ సేఫ్ గార్డ్లలో ఒక భాగంగా, మోడల్ అవుట్పుట్లను వివరణాత్మక టాక్సానమీతో పోల్చి, వాటికి ఎలా ఉత్తమంగా స్పందించాలో నిర్ణయిస్తుంది.ఇక ఇప్పుడు, gpt-oss-safeguard మోడళ్లు ఈ అదే విధానాన్ని ఎవరికైనా ఉపయోగించుకునేలా అందుబాటులోకి తీసుకువస్తున్నాయి.

gpt-oss-సేఫ్ గార్డ్ ఎలా పనిచేస్తుంది

మేము gpt-oss-safeguard మోడళ్లను అంతర్గత మరియు ఎక్స్టర్నల్ ఈవాల్యుయేషన్ సెట్లపై పరిశీలించాము.

అంతర్గత ఈవాల్యుయేషన్ లో, ఇన్ఫరెన్స్ సమయంలో మేము gpt-oss-safeguard కి ఒకేసారి అనేక పాలసీలను అందించాము.ప్రతి టెస్ట్ ఇన్పుట్కి, gpt-oss-safeguard అన్ని చేర్చిన పాలసీల ప్రకారం టెక్స్ట్ను సరైన విధంగా క్లాసిఫై చేస్తుందో లేదో మేము పరిశీలించాము.ఇది ఒక సవాళ్లతో కూడిన టాస్క్—మోడల్ అన్ని చేర్చిన పాలసీలకు సంబంధించిన గోల్డెన్ సెట్ లేబుల్స్ తో పూర్తిగా సరిపోతేనే దాన్ని ఖచ్చితమైనదిగా పరిగణిస్తారు.

మా gpt-oss-safeguard మోడళ్లు మరియు అంతర్గత Safety Reasoner, మల్టీ-పాలసీ అక్యురసీలో gpt-5-thinking మరియు gpt-oss ఓపెన్ మోడళ్ల కంటే మెరుగైన పనితీరు చూపించాయి.gpt-oss-safeguard మోడళ్లు gpt-5-thinking కంటే మెరుగ్గా పనిచేయడం, వాటి పరిమాణం చాలా చిన్నదని పరిగణనలోకి తీసుకుంటే, నిజంగా ఆశ్చర్యకరం.

మేము ఈ మోడళ్లను మా ⁠(కొత్త విండోలో తెరుచుకుంటుంది)2022 రీసెర్చ్ పేపర్⁠(కొత్త విండోలో తెరుచుకుంటుంది)తో విడుదల చేసిన మోడరేషన్ డేటాసెట్పై, అలాగే ఓపెన్ సోర్స్ చాట్ బాట్ యూజర్ క్వెరీల ఆధారంగా రూపొందించిన పబ్లిక్ బెంచ్ మార్క్ అయిన ToxicChat⁠(కొత్త విండోలో తెరుచుకుంటుంది)పై కూడా అదనంగా ఈవాల్యుయేట్ చేశాము.

2022 మోడరేషన్ ఈవాల్యుయేషన్ సెట్ పై, మేము మా అంతర్గత సేఫ్టీ పాలసీలను ఉపయోగించి ఈవాల్యుయేట్ చేశాము (తదుపరి మార్పులను పరిగణనలోకి తీసుకునేందుకు ఒక పాలసీని అనుకూలంగా మార్చాము).gpt-oss-safeguard మా అంతర్గత Safety Reasoner మరియు gpt-5-thinking సహా అన్ని టెస్ట్ చేసిన మోడళ్లకంటే స్వల్పంగా మెరుగైన పనితీరు చూపించింది, అయితే Safety Reasoner మరియు gpt-oss-safeguard మధ్య ఉన్న ఈ తేడా గణాంకపరంగా ముఖ్యమైనది కాదు.

ToxicChat కోసం, మేము మా కొన్ని అంతర్గత పాలసీల నుండి మార్చుకున్న చిన్న హ్యాండ్ రైటెన్ ప్రాంప్ట్ ని ఉపయోగించి ఈవాల్యుయేట్ చేశాము.మా అంతర్గత Safety Reasoner మళ్లీ gpt-5-thinking కంటే మెరుగైన పనితీరు చూపింది, అయితే gpt-5-thinking మరియు Safety Reasoner రెండూ gpt-oss-safeguard-120b మరియు gpt-oss-safeguard-20b కంటే స్వల్పంగా మెరుగ్గా ఉన్నాయి.gpt-oss-safeguard పరిమాణం తక్కువగా ఉండటం వల్ల, ఈ రకమైన టాస్క్లకు ఇది ఇప్పటికీ అత్యంత అనుకూలమని మేము భావిస్తున్నాము.

పరిమితులు

gpt-oss-safeguard కు రెండు నిర్దిష్ట పరిమితులు ఉన్నాయి.మొదట, వేలాది ఉన్నత నాణ్యత గల లేబుల్ చేసిన సాంపిల్స్ పై ట్రైన్ చేసిన క్లాసిఫయర్లు, పాలసీ నుండి నేరుగా రీజన్ చేసే gpt-oss-safeguard కంటే కంటెంట్ ను క్లాసిఫై చేయడంలో ఇంకా మెరుగైన పనితీరు చూపగలవని మేము గమనించాము.క్లిష్టమైన రిస్క్లపై అధిక పనితీరును సాధించడానికి, ప్రత్యేక క్లాసిఫయర్ ను ట్రైన్ చేయడానికి సమయం కేటాయించడం మరింత అనుకూలంగా ఉండవచ్చు.

రెండవది, gpt-oss-safeguard సమయం మరియు కంప్యూట్ వనరులను ఎక్కువగా వినియోగిస్తుంది, అందువల్ల మొత్తం ప్లాట్ ఫారమ్ కంటెంట్ పై దీన్ని విస్తరించడం సవాలుగా మారుతుంది.అంతర్గతంగా, మేము Safety Reasoner తో దీన్ని పలు మార్గాల్లో నిర్వహిస్తున్నాము: (1) ఏ కంటెంట్ను అంచనా వేయాలో నిర్ణయించడానికి చిన్న మరియు వేగవంతమైన క్లాసిఫయర్లను ఉపయోగిస్తాము, మరియు (2) కొన్ని సందర్భాల్లో, అన్ సేఫ్ కంటెంట్ను గుర్తిస్తే జోక్యం చేసుకునే సామర్థ్యాన్ని కొనసాగిస్తూ, తక్కువ లేటెన్సీతో యూజర్ అనుభవాన్ని అందించడానికి Safety Reasoner ను అసింక్రోనస్ గా ఉపయోగిస్తాము.

ముందున్న దారి: కమ్యూనిటీతో కలిసి అభివృద్ధిని కొనసాగించడం

gpt-oss-safeguard అనేది కమ్యూనిటీతో కలిసి నిర్మించిన OpenAI యొక్క మొదటి ఓపెన్ సేఫ్టీ మోడళ్ల సెట్.ప్రారంభ టెస్టింగ్ లో భాగంగా, మేము SafetyKit, ROOST, Tomoro, మరియు Discordలోని ట్రస్ట్ మరియు సేఫ్టీ నిపుణులతో కలిసి gpt-oss-safeguard ను పునరావృతంగా మెరుగుపరిచాము.ROOST CTO వినయ్ రావు అన్నారు, “gpt-oss-safeguard అనేది ‘మీ స్వంత పాలసీలు మరియు హార్మ్ నిర్వచనాలను తీసుకురండి’ అనే డిజైన్ తో రూపొందించిన మొదటి ఓపెన్ సోర్స్ రీజనింగ్ మోడల్.”సంస్థలు కీలకమైన సేఫ్టీ టెక్నాలజీలను స్వేచ్ఛగా అధ్యయనం చేయడానికి, మార్చడానికి, ఉపయోగించడానికి మరియు ఆవిష్కరించడానికి అవకాశం పొందాలి.మా టెస్టింగ్ లో, ఇది వివిధ పాలసీలను అర్థం చేసుకోవడంలో, తన రీజనింగ్ను వివరించడంలో, మరియు పాలసీలను అప్లై చేయడంలో సూక్ష్మతను చూపడంలో నైపుణ్యం కనబరిచింది — ఇది బిల్డర్లకు మరియు సేఫ్టీ టీమ్లకు ఉపయోగకరంగా ఉంటుందని మేము నమ్ముతున్నాము.”

ROOST మోడల్ కమ్యూనిటీ (RMC) తో సహా ఓపెన్ సేఫ్టీ టూలింగ్ ను మెరుగుపరచడానికి మేము కమ్యూనిటీతో పునరావృతం చేస్తూనే ఉంటాము. RMC సేఫ్టీ ప్రాక్టీషనర్లు మరియు రీసెర్చర్లను కలిపి, ఈవాల్యుయేషన్ ఫలితాలు మరియు మోడల్ ఫీడ్బ్యాక్ సహా, ఓపెన్ సోర్స్ AI మోడళ్లను సేఫ్టీ వర్క్ ఫ్లోల్లో అమలు చేయడానికి ఉత్తమ పద్ధతులను పంచుకునే వేదికగా పనిచేస్తుంది.ఈ భాగస్వామ్యం గురించి మరింత తెలుసుకోవడానికి మరియు ఇందులో పాల్గొనడం ఎలా అనేది తెలుసుకోవడానికి RMC GitHub repo⁠(కొత్త విండోలో తెరుచుకుంటుంది)ని సందర్శించండి.

ఈ మోడళ్లతో నిర్మాణం ప్రారంభించడానికి, వాటిని Hugging Face⁠(కొత్త విండోలో తెరుచుకుంటుంది) నుంచి డౌన్లోడ్ చేసుకోండి.

2025

రచయిత

OpenAI

చదవడం కొనసాగించండి

అన్నీ చూడండి

టెక్నికల్ రిపోర్ట్: gpt-oss-safeguard-120b మరియు gpt-oss-safeguard-20b మోడళ్ల పనితీరు మరియు బేస్ లైన్ ఇవాల్యుయేషన్లు

భద్రత29 అక్టోబర్, 2025

gpt-oss‌ను పరిచయం చేస్తున్నాము

రిలీజ్5 ఆగస్టు, 2025

gpt-oss-120b & gpt-oss-20b Model Card

ప్రచురణ5 ఆగస్టు, 2025