2025 оны аравдугаар сарын 29

gpt-oss-safeguard-ийг танилцуулж байна

Тусгай аюулгүй байдлын бодлогыг дэмжих шинэ нээлттэй аюулгүй сэтгэн бодох загварууд (120b ба 20b).

Ачаалж байна…

Өнөөдөр бид аюулгүй байдлын ангиллын даалгаварт зориулсан нээлттэй жинтэй сэтгэн бодох загвар болох gpt-oss-safeguard-ын судалгааны урьдчилсан хувилбарыг танилцуулж байна. Энэ нь gpt-oss-safeguard-120b болон gpt-oss-safeguard-20b гэсэн хоёр хэмжээгээр гарч байна. Эдгээр загвар нь манай gpt-oss⁠ нээлттэй загваруудын нарийн тохируулсан хувилбарууд бөгөөд ижил уян Apache 2.0 лицензээр санал болгогдож, хэн ч тэдгээрийг чөлөөтэй ашиглах, өөрчлөх, байршуулж ажиллуулах боломжтой. Хоёр загварыг өнөөдрөөс Hugging Face⁠(шинэ цонхонд нээгдэнэ)-ээс татаж авч болно.

gpt-oss-safeguard загварууд нь inference хийх үед хөгжүүлэгчийн өгсөн бодлогыг шууд тайлбарлахын тулд сэтгэн бодох аргыг ашигладаг бөгөөд хэрэглэгчийн мессеж, completion болон бүтэн чатыг хөгжүүлэгчийн хэрэгцээнд нийцүүлэн ангилна. Ямар бодлого хэрэглэхийг хөгжүүлэгч үргэлж шийддэг тул хариултууд нь илүү хамааралтай, тухайн хэрэглээний тохиолдолд илүү тохирсон байдаг. Загвар нь бодлын хэлхээ ашигладаг бөгөөд хөгжүүлэгч үүнийг хянаж, загвар шийдвэртээ хэрхэн хүрч байгааг ойлгож чадна. Мөн бодлогыг загварт сургаснаас илүү inference үеэр өгдөг тул хөгжүүлэгчид гүйцэтгэлийг нэмэгдүүлэхийн тулд бодлогыг давтан хянаж, шинэчлэхэд хялбар байдаг. Бид анх дотоод хэрэглээнд зориулан хөгжүүлсэн энэ арга нь олон тооны шошготой жишээнээс шийдвэрийн хил хязгаарыг шууд бусаар таамаглуулдаг ангилагч сургах уламжлалт аргаас хавьгүй уян хатан юм.

gpt-oss-safeguard нь хөгжүүлэгчдэд өөрсдийн хэрэглээнд хамгийн сайн тохирох бодлогын хилийг тогтоох боломж олгодог. Жишээлбэл, видео тоглоомын хэлэлцүүлгийн форум тоглоом доторх хууран мэхлэлтийн тухай нийтлэлүүдийг ангилах бодлого боловсруулахыг хүсэж болно, эсвэл бүтээгдэхүүний үнэлгээний сайт хуурамч байж болзошгүй сэтгэгдлүүдийг шүүхдээ өөрийн бодлогыг ашиглахыг хүсэж болно.

Загвар нь нэгэн зэрэг хоёр оролт авдаг—бодлого болон тухайн бодлогын дагуу ангилах контент—мөн контент хаана хамаарах тухай дүгнэлт, түүндээ хүрсэн сэтгэн бодох тайлбарын хамт гаргадаг. Хөгжүүлэгчид эдгээр дүгнэлтийг өөрсдийн аюулгүй байдлын шугамд хэрхэн, эсвэл ер нь ашиглах эсэхээ өөрсдөө шийддэг. Бид дараах нөхцөлүүдэд энэ сэтгэн бодох арга онцгой сайн ажиллаж байгааг харсан:

Болзошгүй хор хөнөөл шинээр гарч ирж эсвэл өөрчлөгдөж байгаа бөгөөд бодлогыг хурдан тохируулах шаардлагатай үед.
Тухайн салбар маш нарийн төвөгтэй бөгөөд жижиг ангилагчид зохицуулахад хэцүү үед.
Хөгжүүлэгчид платформ дээрх эрсдэл бүрт өндөр чанартай ангилагч сургах хангалттай дээжгүй үед.
Саатал нь өндөр чанартай, тайлбарлах боломжтой шошго гаргахаас бага чухал үед.

Бид gpt-oss-safeguard-ын энэ урьдчилсан хувилбарыг судалгаа болон аюулгүй байдлын хамтын нийгэмлэгээс санал хүсэлт авч, загварын гүйцэтгэлийг цааш сайжруулахын тулд гаргаж байна. Сүүлийн хэдэн сарын турш бид ROOST⁠(шинэ цонхонд нээгдэнэ)-тай хамтран энэ нээлттэй жинтэй хувилбар дээр ажиллаж, хөгжүүлэгчдийн чухал хэрэгцээг тодорхойлж, загварыг туршиж, хөгжүүлэгчийн баримтжуулалт бэлтгэсэн. Энэ нээлтийн хүрээнд ROOST мөн өнөөдөр эхэлж буй загварын хамтын нийгэмлэг⁠(шинэ цонхонд нээгдэнэ)-ийг байгуулж, онлайн орон зайг хамгаалахад зориулсан нээлттэй AI загваруудыг судлах болно. Энэ хувилбартай зэрэгцэн бид энэхүү урьдчилсан загварын аюулгүй байдлын гүйцэтгэлийг дэлгэрэнгүй тайлбарласан богино техникийн тайлан⁠-г нийтэлж байна.

Системийн түвшний аюулгүй байдал: аюулгүй байдлын ангилагчдын үүрэг

Аюулгүй байдлын тухайд бид олон давхар хамгаалалт⁠-д итгэдэг. Бид загваруудаа аюулгүй хариулахад сургадаг бөгөөд мөн бодлогынхоо дагуу болзошгүй аюултай оролт, гаралтыг илрүүлж шийдвэрлэх нэмэлт хамгаалалтын давхаргуудыг хэрэгжүүлдэг. Тодорхой эрсдэлийн хүрээнд аюулгүй ба аюултай контентыг ялгадаг аюулгүй байдлын ангилагчид нь манай болон бусад том хэлний загваруудын хувьд олон жилийн турш үндсэн хамгаалалтын давхарга байсаар ирсэн.

Манай Moderation API⁠(шинэ цонхонд нээгдэнэ)-аар дамжуулан ашиглах боломжтой уламжлалт аюулгүй байдлын ангилагчдыг урьдчилан тодорхойлсон аюулгүй байдлын бодлогын дагуу аюулгүй болон аюултай контентын мянга мянган жишээг гараар сонгон бүрдүүлж хөгжүүлдэг. Энэ сургалтын өгөгдлөөс ангилагч нь аюулгүй ба аюултай гаралтыг ялгаж сурдаг. Энэ уламжлалт аргын үед ангилагч аюулгүй байдлын бодлогыг хэзээ ч бодитоор хардаггүй. Харин аюултай гэж шошголсон контентын ижил төстэй талууд болон аюултай, аюулгүй контентын ялгааг олж, жишээнүүдийг шошголохдоо ашигласан суурь бодлогыг таамаглахыг оролддог.

Уламжлалт ангилагчид бага саатал, бага ажиллагааны зардалтайгаар өндөр гүйцэтгэлтэй байж чадна. Гэхдээ хангалттай хэмжээний сургалтын жишээ цуглуулах нь цаг их шаардсан, өртөг өндөртэй байж болох ба бодлогыг шинэчлэх эсвэл өөрчлөхөд ангилагчийг дахин сургах шаардлагатай болдог.

gpt-oss-safeguard нь өөр, учир нь түүний сэтгэн бодох чадвар нь хөгжүүлэгчдэд өөрсдийн бичсэн эсвэл өөр эх сурвалжаас авсан бодлогыг оруулаад ямар ч бодлогыг хэрэглэх боломж олгодог бөгөөд сэтгэн бодох нь шинээр бичигдсэн бодлогуудад ерөнхийлөн ажиллахад загваруудад тусалдаг. Аюулгүй байдлын бодлогоос цаашлаад gpt-oss-safeguard-ийг тодорхой бүтээгдэхүүн, платформд чухал бусад аргаар контентыг шошголохдоо ашиглаж болно.

‘gpt-oss-safeguard-тай бодлогод суурилсан сэтгэн бодох’ нэртэй урсгал диаграм. Хөгжүүлэгчийн өгсөн бодлогууд болон хэрэглэгчийн өгсөн контент GPT-OSS-Safeguard руу орно. Загвар нь бодлын хэлхээ гаргаад дараа нь бодлогын шийдвэр гаргана. ‘бодлогын давталт’ гэсэн шошготой гогцоо нь бодлогыг сайжруулахын тулд буцаан холбогдоно. Тайлбарт хөгжүүлэгчийн оролт, хэрэглэгчийн оролт, загварын гаралтыг заасан.

Бид аюулгүй байдлын сэтгэн бодох аргыг дотооддоо хэрхэн ашигладаг вэ

Манай үндсэн сэтгэн бодох загварууд одоо аюулгүй байдлын бодлогуудыг шууд сурч, юу нь аюулгүй болохыг сэтгэн бодох чадвараараа тунгаадаг. Бидний оновчтой уялдуулах⁠ гэж нэрлэдэг энэ арга нь өмнөх аюулгүй байдлын сургалтын аргуудаас мэдэгдэхүйц сайжирсан бөгөөд манай сэтгэн бодох загваруудыг, чадвар нь өсөж байгаа ч, сэтгэн бодохгүй өмнөх загваруудаасаа хэд хэдэн хэмжээсээр илүү аюулгүй болгодог. Гэхдээ сэтгэн бодох нь зөвхөн загварыг өөрийг нь сургахад хэрэгтэй биш. Энэ нь мөн олон давхар хамгаалалтын шинэ боломжуудыг бий болгодог. Сэтгэн бодох суурьтай аргууд нь илүү уян хатан бөгөөд өмнөх сургалтынхаа нарийн ширийнээс бага хамаардаг тул заримдаа үүнтэй холбоотой нэмэлт тооцооллын зардал, саатлыг бүрэн зөвтгөдөг.

gpt-oss-safeguard нь бидний дотооддоо хөгжүүлсэн, Safety Reasoner гэж нэрлэдэг хэрэгсэлд суурилсан аргын нээлттэй жинтэй хэрэгжүүлэлт юм. Бид бодлогын шошгололтын даалгаварт бататгах нарийн тохиргоогоор эхэлж, хүний шинжээчдийн зөв дүгнэлтийг тусгасны төлөө загварыг шагнасан. Ингэснээр загвар бодлого өөрийн дүгнэлтэд хэрхэн хүргэж байгааг сэтгэн бодож сурсан. Өнөөдөр Safety Reasoner нь ангилагчийг дахин сургахад шаардагдахаас бага хугацаанд үйлдвэрлэлийн орчин дахь аюулгүй байдлын бодлогоо динамикаар шинэчлэх боломжийг бидэнд олгож байна. Энэ нь Safety Reasoner-ийг давтамжит нэвтрүүлэлт⁠-ийн гол хэрэгсэл болгодог: бид шинэ загваруудыг үйлдвэрлэлд нэвтрүүлэхдээ ихэвчлэн илүү хатуу бодлогоор эхэлж, шаардлагатай үед харьцангуй их хэмжээний тооцооллыг ашиглан Safety Reasoner-ээр тэдгээр бодлогыг нягт нямбай хэрэгжүүлдэг. Дараа нь үйлдвэрлэл дэх эрсдэлийн талаарх ойлголт сайжрахын хэрээр бодлогоо тохируулдаг. Манай сүүлийн үеийн зарим нээлтэд нийт тооцооллын 16% хүртэлх хэсгийг аюулгүй байдлын сэтгэн бодоход зориулж байсан.

Safety Reasoner нь манай аюулгүй байдлын стекийн үндсэн бүрэлдэхүүн болсон. Зураг үүсгэх болон Sora 2-ын хувьд энэ нь аюулгүй бус үүсгэлтийг бодит цагт илрүүлж хаахын тулд гаралтуудад динамик, алхамчилсан үнэлгээ хийдэг. Биологи, өөрийгөө гэмтээх зэрэг салбарт бид Moderation API-д ашигладагтай төстэй загваруудыг жижиг, хурдан, өндөр recall-тай ангилагч болгон ашиглаж, аль контент тухайн сонирхлын хүрээнд байгааг тогтоодог бөгөөд дараа нь тэр контентыг Safety Reasoner-ээр хянуулдаг. Safety Reasoner нь загварын гаралтыг нарийвчилсан ангиллын тогтолцооны дагуу ангилж, хэрхэн хариулах нь хамгийн зөвийг тодорхойлдог бөгөөд GPT‑5 болон ChatGPT Agent зэрэг системүүд дэх манай олон давхар хамгаалалтын нэг хэсгийг бүрдүүлдэг. Харин одоо gpt-oss-safeguard загварууд энэ ижил аргыг хэнд ч ашиглах боломжтой болгож байна.

gpt-oss-safeguard хэрхэн ажиллаж байна вэ

Бид gpt-oss-safeguard загваруудыг дотоод болон гадаад үнэлгээний цуглуулгуудад үнэлсэн.

Дотоод үнэлгээнд бид inference үеэр gpt-oss-safeguard-д олон бодлогыг нэгэн зэрэг өгсөн. Туршилтын оролт бүрийн хувьд gpt-oss-safeguard нь багтсан бүх бодлогын дагуу текстийг зөв ангилж байгаа эсэхийг үнэлдэг. Энэ бол хэцүү даалгавар—загвар зөвхөн багтсан бүх бодлогын хувьд golden set шошгонуудтай яг таарсан үед л үнэн зөв гэж тооцогдоно.

Манай gpt-oss-safeguard загварууд болон дотоод Safety Reasoner нь олон бодлогын үнэн зөв байдлаар gpt-5-thinking болон gpt-oss нээлттэй загваруудаас илүү гарсан. gpt-oss-safeguard загварууд gpt-5-thinking-ээс давсан нь, ялангуяа эхнийх нь ийм жижиг хэмжээтэйг бодоход, онцгой гайхмаар юм.

Мөн бид эдгээр загваруудыг манай 2022 оны судалгааны өгүүлэл⁠(шинэ цонхонд нээгдэнэ)-тэй хамт гаргасан moderation өгөгдлийн цуглуулга⁠(шинэ цонхонд нээгдэнэ) болон нээлттэй эхийн чатбот руу чиглэсэн хэрэглэгчийн асуулгад суурилсан олон нийтэд нээлттэй benchmark болох ToxicChat⁠(шинэ цонхонд нээгдэнэ) дээр цааш үнэлсэн.

2022 оны moderation үнэлгээний цуглуулга дээр бид дотоод аюулгүй байдлын бодлогоо ашиглан үнэлгээ хийсэн бөгөөд дараах өөрчлөлтүүдийг харгалзан нэг бодлогыг тохируулсан. gpt-oss-safeguard нь туршсан бусад бүх загвараас, үүнд манай дотоод Safety Reasoner болон gpt-5-thinking-ийг оролцуулан, ялимгүй илүү байсан ч Safety Reasoner ба gpt-oss-safeguard-ын энэ ялгаа статистикийн хувьд ач холбогдолтой биш.

ToxicChat-ийн хувьд бид дотоод бодлогуудынхаа заримаас тохируулсан богино гараар бичсэн өгөгдөл ашиглан үнэлгээ хийсэн. Манай дотоод Safety Reasoner дахин gpt-5-thinking-ээс илүү гарсан бол gpt-5-thinking болон Safety Reasoner хоёул gpt-oss-safeguard-120b ба gpt-oss-safeguard-20b-оос ялимгүй дээр гарсан. Гэсэн ч gpt-oss-safeguard-ын харьцангуй жижиг хэмжээ нь ийм төрлийн даалгаварт үүнийг давуу сонголт хэвээр байлгана гэж бид үзэж байна.

Хязгаарлалтууд

gpt-oss-safeguard-д хоёр тодорхой хязгаарлалт бий. Нэгдүгээрт, хэдэн арван мянган өндөр чанартай шошготой дээж дээр сургасан ангилагчид бодлогоос шууд сэтгэн бодож буй gpt-oss-safeguard-аас контент ангилахдаа илүү сайн ажиллаж болохыг бид ажигласан. Илүү төвөгтэй эрсдэл дээр өндөр гүйцэтгэл хэрэгтэй бол тусгай ангилагч сургахад цаг гаргах нь илүү дээр сонголт байж магадгүй.

Хоёрдугаарт, gpt-oss-safeguard нь цаг болон тооцоолол их шаарддаг тул платформын бүх контентод өргөжүүлэн хэрэглэхэд бэрхшээлтэй болгодог. Дотооддоо бид үүнийг Safety Reasoner-ээр хэд хэдэн аргаар зохицуулдаг: (1) аль контентыг үнэлэхээ тогтоохын тулд илүү жижиг, хурдан ангилагч ашигладаг ба (2) зарим нөхцөлд аюулгүй бус контент илэрвэл хөндлөнгөөс оролцох боломжийг хадгалангаа бага сааталтай хэрэглэгчийн туршлага өгөхийн тулд Safety Reasoner-ийг асинхроноор ашигладаг.

Цаашдын зам: хамтын нийгэмлэгтэй хамт бүтээн байгуулалтаа үргэлжлүүлэх нь

gpt-oss-safeguard нь хамтын нийгэмлэгтэй хамтран бүтээсэн OpenAI-ийн анхны нээлттэй аюулгүй байдлын загваруудын багц юм. Бид эрт үеийн туршилтын хүрээнд SafetyKit, ROOST, Tomoro, болон Discord дахь итгэлцэл, аюулгүй байдлын мэргэжилтнүүдтэй хамтран gpt-oss-safeguard-ийг давтан сайжруулсан. ROOST CTO Vinay Rao ийнхүү хэлжээ: “gpt-oss-safeguard бол ‘өөрийн бодлого болон хор хөнөөлийн тодорхойлолтоо авчир’ загвартай анхны нээлттэй эхийн сэтгэн бодох загвар юм. Байгууллагууд аюулгүй байдлын чухал технологиудыг чөлөөтэй судалж, өөрчилж, ашиглахын зэрэгцээ шинэчлэл хийх боломжтой байх ёстой. Манай туршилтаар энэ нь өөр өөр бодлогыг ойлгох, өөрийн сэтгэн бодох явцыг тайлбарлах, бодлогыг хэрэглэхдээ нарийн ялгааг харуулах чадвартай байсан нь бүтээгчид болон аюулгүй байдлын багуудад ашиг тустай гэж бид үзэж байна.”

Бид ROOST Model Community (RMC)-ээр дамжуулан ч багтаан нээлттэй аюулгүй байдлын хэрэгслүүдийг сайжруулахын тулд хамтын нийгэмлэгтэй үргэлжлүүлэн давтан ажиллана. RMC нь нээлттэй эхийн AI загваруудыг аюулгүй байдлын ажлын урсгалд хэрэгжүүлэх шилдэг туршлагыг, үүнд үнэлгээний үр дүн болон загварын санал хүсэлтийг, хуваалцахын тулд аюулгүй байдлын мэргэжилтэн, судлаачдыг нэгтгэдэг. Энэ түншлэлийн талаар болон хэрхэн оролцохоо илүү ихийг мэдэхийн тулд RMC GitHub repo⁠(шинэ цонхонд нээгдэнэ)-д зочлоорой.

Эдгээр загвараар бүтээж эхлэхийн тулд тэдгээрийг Hugging Face⁠(шинэ цонхонд нээгдэнэ)-ээс татаж аваарай.

2025

Зохиогч

OpenAI

Үргэлжлүүлэн уншина уу

Бүгдийг үзэх

gpt-oss-safeguard техникийн тайлан

Аюулгүй байдал2025 оны 10-р сарын 29

gpt-oss-ийг танилцуулж байна

Гаргалт2025 оны 8-р сарын 5

gpt-oss-120b ба gpt-oss-20b загварын карт

Нийтлэл2025 оны 8-р сарын 5