2026 оны гуравдугаар сарын 24

Хөгжүүлэгчдэд өсвөрүүдэд илүү аюулгүй AI туршлага бүтээхэд туслах нь

gpt-oss-safeguard-д зориулсан өгөгдлийн хэлбэртэй өсвөр үеийн аюулгүй байдлын бодлогуудыг танилцуулж байна

Ачаалж байна…

Өнөөдөр бид хөгжүүлэгчдэд өсвөр үеийнхэнд насанд нь тохирсон хамгаалалт бий болгоход туслах, өгөгдөлд суурилсан аюулгүй байдлын бодлогуудыг⁠(шинэ цонхонд нээгдэнэ) танилцуулж байна. Манай нээлттэй жинтэй аюулгүй байдлын загвар gpt-oss-safeguard⁠(шинэ цонхонд нээгдэнэ)-тай ажиллахаар бүтээгдсэн эдгээр бодлогууд нь хөгжүүлэгчид аюулгүй байдлын шаардлагыг бодит системд ашиглах ангилагч болгон хувиргах ажлыг хялбарчилдаг.

Бид хүчирхэг AI-д хандах хандалтыг ардчилах, өргөн хүрээний инновацыг дэмжихийн тулд нээлттэй жинтэй загваруудыг гаргасан. Үүний зэрэгцээ аюулгүй байдал ба инноваци зэрэгцэн явдаг гэж бид үздэг бөгөөд хөгжүүлэгчид чадвартай загваруудаас гадна тэдгээрийг аюулгүй, хариуцлагатай нэвтрүүлэх хэрэгсэл, бодлогод хандах боломжтой байх ёстой. Бид эдгээр бодлогыг залуу хэрэглэгчдийг хамгаалахад чиглэсэн хөгжүүлэгчдийн аюулгүй байдлын хүчин чармайлтыг дэмжихээр, Common Sense Media⁠(шинэ цонхонд нээгдэнэ) болон everyone.ai⁠(шинэ цонхонд нээгдэнэ) зэрэг итгэл хүлээсэн гаднын байгууллагуудын оролцоотойгоор боловсруулсан.

Өсвөр үеийнхэн ба насанд хүрэгчдийн хэрэгцээ өөр бөгөөд өсвөрүүдэд нэмэлт хамгаалалт хэрэгтэйг бид хүлээн зөвшөөрдөг. Эдгээр бодлого нь хөгжүүлэгчдэд тэрхүү ялгааг харгалзан үзэж, залуу хэрэглэгчдэд боломж олгохын зэрэгцээ тохиромжтой туршлага бүтээхэд туслахаар зориулагдсан.

Залуусыг хамгаалах өргөн хүрээний ажлынхаа суурин дээр

Бид залууст боломжийг тэлэхийн зэрэгцээ тэднийг аюулгүй байлгах AI бүтээхэд удаан хугацаанд тууштай ажиллаж ирсэн. Энэ ажлын хүрээнд бид OpenAI-ийн загваруудын зориулагдсан зан төлөвийг тодорхойлдог удирдамж болох загварын тодорхойлолт⁠(шинэ цонхонд нээгдэнэ)-оо шинэчилж, 18-аас доош насныханд (U18) зориулсан зарчмууд⁠(шинэ цонхонд нээгдэнэ)-ыг багтаасан бөгөөд залуу хэрэглэгчдийг илүү сайн хамгаалахын тулд эцэг эхийн хяналт⁠ болон нас таамаглах⁠ зэрэг бүтээгдэхүүний түвшний хамгаалалтуудыг нэвтрүүлсэн. Мөн бид Өсвөр үеийн аюулгүй байдлын зураглал⁠-аараа дамжуулан салбар даяарх хамгаалалтыг уриалсан.

Өнөөдрийн танилцуулга энэ суурин дээр тулгуурлаж байна. Бид эдгээр аюулгүй байдлын бодлогуудыг хөгжүүлэгчдэд нээлттэй болгож, өсвөрүүдэд зориулсан хамгаалалтыг нэвтрүүлэхэд нь дэмжлэг үзүүлж, нээлттэй жингийн экосистем даяарх хүртээмжийг ардчилахад тусалж байна.

Өсвөр үеийн аюулгүй байдлыг ойлгомжтой, хэрэглэхэд бэлэн бодлого болгох нь

gpt-oss-safeguard шиг аюулгүй байдлын ангилагчид хортой агуулгыг илрүүлж чаддаг ч, ийм агуулга юу болохын тодорхой тодорхойлолтоос хамаардаг. Практикт хөгжүүлэгчдийн тулгардаг хамгийн том сорилтуудын нэг нь өсвөр үеийн онцгой эрсдэлийг үнэн зөв тусгаж, бодит системд тогтвортой хэрэгжүүлж болох бодлого тодорхойлох явдал юм.

Туршлагатай багууд хүртэл өндөр түвшний аюулгүй байдлын зорилгыг нарийн, үйл ажиллагаанд хэрэгжих дүрэм болгон хөрвүүлэхэд хүндрэлтэй тулгардаг, ялангуяа энэ нь сэдвийн мэргэжлийн мэдлэг болон AI-ийн гүнзгий ойлголтыг хоёуланг шаарддаг. Үүнээс болж хамгаалалтын цоорхой, хэрэгжилтийн жигд бус байдал, эсвэл хэт өргөн шүүлт үүсч болзошгүй. Тодорхой, сайн хүрээлэгдсэн бодлого нь үр дүнтэй аюулгүй байдлын системийн чухал суурь юм.

Хөгжүүлэгчдэд өсвөр үеийн аюулгүй байдлыг хэрэгжүүлэхэд туслах нь

Энэ сорилтыг шийдэхийн тулд бид өсвөрүүдэд нийтлэг тулгардаг эрсдэлд тохируулсан, мөн тэдний хөгжлийн онцгой ялгааны талаарх одоо байгаа судалгааг нягт нямбай хянан үзсэнээр мэдээлэлжсэн аюулгүй байдлын бодлогуудын⁠(шинэ цонхонд нээгдэнэ) багцыг гаргаж байна. Эдгээр бодлого нь gpt-oss-safeguard⁠(шинэ цонхонд нээгдэнэ) болон бусад сэтгэн бодох загваруудтай шууд ашиглаж болох өгөгдөл хэлбэрээр бүтээгдсэн бөгөөд ингэснээр хөгжүүлэгчид системүүдийнхээ хэмжээнд тогтвортой аюулгүй байдлын стандартыг илүү хялбар хэрэгжүүлэх боломжтой болдог.

Эхний хувилбарт дараахыг хамарсан бодлогууд орсон:

Харгис хүчирхийллийн ил тод агуулга
Бэлгийн ил тод агуулга
Биеийн хортой хэв маяг ба зан үйл
Аюултай үйл ажиллагаа ба сорилтууд
Романтик эсвэл хүчирхийллийн дүрд тоглолт
Насны хязгаартай бараа, үйлчилгээ

Эдгээр бодлогыг бодит цагийн агуулга шүүхэд, мөн хэрэглэгчийн үүсгэсэн агуулгын офлайн шинжилгээнд ашиглаж болно.

Бодлогыг өгөгдөл хэлбэрээр бүтэцлэснээр хөгжүүлэгчид тэдгээрийг одоо байгаа ажлын урсгалдаа илүү хялбар нэгтгэж, хэрэглээний нөхцөлдөө тохируулан өөрчилж, цаг хугацааны явцад сайжруулах боломжтой.

Өсвөр үеийнхний аюулгүй байдлын бодлогын ангиллууд болон өсвөр үеийнхэнтэй холбоотой контент GPT-OSS safeguard системд орж, дотоод сэтгэн бодох үйл явцад тулгуурласан бодлогын шийдвэрүүд гарч байгааг дүрсэлсэн диаграмм.

Гаднын шинжээчдийн оролцоотойгоор боловсруулав

Бид эдгээр бодлогын боловсруулалтыг мэдээллээр хангахын тулд Common Sense Media⁠(шинэ цонхонд нээгдэнэ) болон everyone.ai⁠(шинэ цонхонд нээгдэнэ) зэрэг гаднын байгууллагуудтай хамтран ажилласан. Тэдний мэргэжлийн мэдлэг нь хамрах агуулгын хүрээг тодорхойлох, өгөгдлийн бүтцийг бэхжүүлэх, үнэлгээ хийхдээ харгалзан үзэх захын тохиолдлуудыг нарийвчлахад тусалсан.

Энэ ажил нь AI системүүд залууст хэрхэн дэмжлэг үзүүлэхийг сайжруулахын тулд шинжээчид болон өргөн хүрээний экосистемтэй хамтран ажиллах тасралтгүй хүчин чармайлтыг илэрхийлж байна.

“Өсвөр үеийнхний AI аюулгүй байдлын хамгийн том цоорхойнуудын нэг нь хөгжүүлэгчид суурь болгон ашиглаж болох тодорхой, хэрэгжихүйц бодлого дутмаг байсан явдал юм. Ихэнхдээ хөгжүүлэгчид бүхнийг эхнээс нь эхлүүлдэг. Эдгээр өгөгдөлд суурилсан бодлогууд нь экосистем даяар утга учиртай аюулгүй байдлын доод босгыг тогтооход тусалдаг бөгөөд нээлттэй эхээр гарч байгаа тул цаг хугацааны явцад тохируулж, сайжруулж болно. Ийм төрлийн дэд бүтэц өргөн хүрээнд нээлттэй болж байгааг харахад бид урамшиж байна, мөн энэ нь салбар даяарх залуусын аюулгүй байдлын нийтлэг эхлэл цэгүүдийг улам нэмэгдүүлнэ гэж найдаж байна.”

—Robbie Torney, Common Sense Media-ийн AI ба Дижитал үнэлгээний албаны дарга

“Залуусын аюулгүй байдлын бодлогыг илүү хэрэгжихүйц болгодог иймэрхүү хүчин чармайлт нь шинжээчдийн мэдлэгийг бодит системд ашиглаж болох заавар болгон хөрвүүлэхэд тусалдаг учраас үнэ цэнтэй. Агуулгын бодлого нь чухал эхний алхам бөгөөд мөн загварын зан төлөв цаг хугацааны явцад залууст хамаарах эрсдэлүүдийг хэрхэн хэлбэржүүлж болох тухай илүү өргөн ажлын үүдийг нээдэг. Энэ ажил болон бидний өөрсдийн судалгаанаас урам авч, everyone.ai⁠(шинэ цонхонд нээгдэнэ) мөн онцгойлсон харилцаа ба хэт хамаарал зэрэг эрсдэлд төвлөрсөн анхны зан үйлийн бодлогыг боловсруулсан.”

—everyone.AI-ийн ерөнхий эрдэмтэн Dr. Mathilde Cerioli

Эхлэлийн цэг болохоос бүрэн шийдэл биш

Эдгээр бодлого нь өсвөр үеийн аюулгүй байдлын иж бүрэн эсвэл эцсийн тодорхойлолт, баталгаа биш, харин эхлэлийн цэг байх зорилготой. Аппликейшн бүр өөрийн гэсэн эрсдэл, аудитори, нөхцөлтэй бөгөөд хөгжүүлэгчид өөрсдийн бүтээгдэхүүн болон AI нэгтгэлүүд ямар эрсдэл үүсгэж болохыг хамгийн сайн ойлгох байр суурьтай байдаг. Бид хөгжүүлэгчдийг эдгээр бодлогыг өөрсдийн хэрэгцээнд тулгуурлан тохируулж, өргөжүүлэхийг, мөн бүтээгдэхүүний дизайны шийдвэр, хэрэглэгчийн хяналт, өсвөрүүдэд ойлгомжтой ил тод байдал, хяналтын систем, насанд тохирсон бодлоготой хариу арга хэмжээ зэрэг бусад хамгаалалттай хослуулахыг хүчтэй уриалж байна.

Илүү аюулгүй AI систем бүтээхэд давхарласан гүн эшелон хамгаалалтын⁠⁠ хандлага чухал гэж бид үздэг. Эдгээр бодлого нь манай дотоод туршлагаас улбаатай боловч OpenAI-ийн дотоод бодлого, хамгаалалтын бүрэн хүрээг тусгаагүй.

Цаашдын зам

Бид хамтын ажиллагаа, сайжруулалтыг дэмжихийн тулд эдгээр бодлогыг ROOST Model Community⁠(шинэ цонхонд нээгдэнэ)-ээр дамжуулан нээлттэй эх хэлбэрээр гаргаж байна. Хувь нэмэр оруулах, санал хүсэлт өгөх, эсвэл өсвөр үеийн аюулгүй байдлын нэмэлт бодлого хуваалцахыг хүсвэл RMC GitHub репозитор⁠(шинэ цонхонд нээгдэнэ)-т зочлоорой.

Хөгжүүлэгчид болон байгууллагууд эдгээр бодлогыг өөрсдийн тусгай хэрэглээнд тохируулж, өөр хэл рүү орчуулж, нэмэлт эрсдэлийн чиглэлүүдийг хамрахаар өргөжүүлж болно. Цаг хугацааны явцад энэ нь AI системүүдэд аюулгүй байдлын бодлого хэрэгжүүлэх илүү бат бөх, хамтын суурийг бүрдүүлэхэд хувь нэмэр оруулна гэж найдаж байна.

gpt-oss-safeguard-ийг ашиглаж эхлэхийн тулд үүнийг Hugging Face⁠(шинэ цонхонд нээгдэнэ)-ээс татаж аваарай.

Үргэлжлүүлэн уншина уу

Бүгдийг үзэх

Урт хугацааны зорилготой загварын эринд аюулгүй байдал ба нийцэл

Аюулгүй байдал2026 оны 7-р сарын 20

Why teens deserve access to safe AI — card image

Өсвөр насныхан яагаад аюулгүй AI-г ашиглах эрхтэй вэ

Аюулгүй байдал2026 оны 7-р сарын 16

GPT-Red: Бат бөх байдлыг тасралтгүй сайжруулах аргыг нээж байна

Аюулгүй байдал2026 оны 7-р сарын 15