2025 оны аравдугаар сарын 29

gpt-oss-safeguard техникийн тайлан

gpt-oss-safeguard-120b ба gpt-oss-safeguard-20b-ийн гүйцэтгэл болон суурь үнэлгээ

Танилцуулга

gpt-oss-safeguard-120b болон gpt-oss-safeguard-20b нь gpt-oss загваруудаас үндсэн сургалтын дараах сургалт хийсэн, нээлттэй жинтэй, сэтгэн бодох хоёр загвар бөгөөд өгөгдсөн бодлогоос сэтгэн бодож, тухайн бодлогын дагуу контентыг шошголохоор сургагдсан. Эдгээр нь Apache 2.0 лиценз болон манай gpt-oss ашиглалтын бодлогын хүрээнд ашиглах боломжтой. Нээлттэй эхийн хамтын нийгэмлэгийн санал хүсэлтээр хөгжүүлсэн эдгээр зөвхөн текстэн загварууд нь манай Responses API-тай нийцдэг. Загварууд нь өөрчлөн тохируулах боломжтой, бүрэн бодлын хэлхээ (CoT)-г өгдөг, сэтгэн бодох өөр өөр түвшнээр (бага, дунд, өндөр) ашиглаж болдог бөгөөд бүтцийн гаралтыг дэмждэг.

Энэ тайланд бид gpt-oss-safeguard-ийн чадамжуудыг тайлбарлаж, суурь үзүүлэлт болгон үндсэн gpt-oss загваруудыг ашиглан gpt-oss-safeguard загваруудын аюулгүй байдлын суурь үнэлгээг танилцуулж байна. Суурь gpt-oss загваруудын хөгжүүлэлт болон архитектурын талаар дэлгэрэнгүй мэдээллийг анхны gpt-oss загварын карт⁠-аас үзнэ үү.

Бид эдгээр загварыг өгөгдсөн бодлогын дагуу контентыг ангилахад ашиглахыг зөвлөж байгаа бөгөөд эцсийн хэрэглэгчид шууд харилцах үндсэн функц болгон ашиглахгүй байхыг зөвлөж байна; ийм хэрэглээнд анхны gpt-oss загварууд илүү тохиромжтой. Доор өгсөн аюулгүй байдлын хэмжүүрүүд нь gpt-oss-safeguard загварууд чат орчинд хэрхэн ажилладгийг тодорхойлно. gpt-oss-safeguard загварууд нь энэ хэрэглээнд зориулагдаагүй боловч тэдгээр нь нээлттэй загвар тул хэн нэгэн ийм байдлаар ашиглах боломжтой. Ийм боломж байгаа учраас бид ийм хэрэглээнд манай аюулгүй байдлын стандартыг хангаж байгаа эсэхийг баталгаажуулахыг хүссэн; энэ тайланд тэдгээр туршилтын үр дүнг хуваалцаж байна. Мөн бид чат орчин дахь олон хэлний гүйцэтгэлийн анхны үнэлгээг хуваалцаж байгаа; энэ нь өгөгдсөн бодлоготой контент ангилалтын үеийн гүйцэтгэлийг шууд үнэлдэггүйг анхаарна уу.

gpt-oss-safeguard загварууд нь өөрсдийн gpt-oss хувилбаруудын нарийн тохируулсан хувилбарууд бөгөөд нэмэлт биологи эсвэл кибер аюулгүй байдлын өгөгдөлгүйгээр сургагдсан. Үүний үр дүнд бид gpt-oss гаргалтаас гарсан өмнөх хамгийн муу хувилбаруудыг тооцоолсон⁠ ажил эдгээр шинэ загваруудад мөн адил хамаарна гэж дүгнэсэн.

2025

Зохиогч

OpenAI

Үргэлжлүүлэн уншина уу

Бүгдийг үзэх

gpt-oss-safeguard-ийг танилцуулж байна

Бүтээгдэхүүн2025 оны 10-р сарын 29

gpt-oss-120b ба gpt-oss-20b загварын карт

Нийтлэл2025 оны 8-р сарын 5

gpt-oss-ийг танилцуулж байна

Гаргалт2025 оны 8-р сарын 5