gpt-oss-safeguard техникийн тайлан
gpt-oss-safeguard-120b ба gpt-oss-safeguard-20b-ийн гүйцэтгэл болон суурь үнэлгээ
gpt-oss-safeguard-120b болон gpt-oss-safeguard-20b нь gpt-oss загваруудаас үндсэн сургалтын дараах сургалт хийсэн, нээлттэй жинтэй, сэтгэн бодох хоёр загвар бөгөөд өгөгдсөн бодлогоос сэтгэн бодож, тухайн бодлогын дагуу контентыг шошголохоор сургагдсан. Эдгээр нь Apache 2.0 лиценз болон манай gpt-oss ашиглалтын бодлогын хүрээнд ашиглах боломжтой. Нээлттэй эхийн хамтын нийгэмлэгийн санал хүсэлтээр хөгжүүлсэн эдгээр зөвхөн текстэн загварууд нь манай Responses API-тай нийцдэг. Загварууд нь өөрчлөн тохируулах боломжтой, бүрэн бодлын хэлхээ (CoT)-г өгдөг, сэтгэн бодох өөр өөр түвшнээр (бага, дунд, өндөр) ашиглаж болдог бөгөөд бүтцийн гаралтыг дэмждэг.
Энэ тайланд бид gpt-oss-safeguard-ийн чадамжуудыг тайлбарлаж, суурь үзүүлэлт болгон үндсэн gpt-oss загваруудыг ашиглан gpt-oss-safeguard загваруудын аюулгүй байдлын суурь үнэлгээг танилцуулж байна. Суурь gpt-oss загваруудын хөгжүүлэлт болон архитектурын талаар дэлгэрэнгүй мэдээллийг анхны gpt-oss загварын карт-аас үзнэ үү.
Бид эдгээр загварыг өгөгдсөн бодлогын дагуу контентыг ангилахад ашиглахыг зөвлөж байгаа бөгөөд эцсийн хэрэглэгчид шууд харилцах үндсэн функц болгон ашиглахгүй байхыг зөвлөж байна; ийм хэрэглээнд анхны gpt-oss загварууд илүү тохиромжтой. Доор өгсөн аюулгүй байдлын хэмжүүрүүд нь gpt-oss-safeguard загварууд чат орчинд хэрхэн ажилладгийг тодорхойлно. gpt-oss-safeguard загварууд нь энэ хэрэглээнд зориулагдаагүй боловч тэдгээр нь нээлттэй загвар тул хэн нэгэн ийм байдлаар ашиглах боломжтой. Ийм боломж байгаа учраас бид ийм хэрэглээнд манай аюулгүй байдлын стандартыг хангаж байгаа эсэхийг баталгаажуулахыг хүссэн; энэ тайланд тэдгээр туршилтын үр дүнг хуваалцаж байна. Мөн бид чат орчин дахь олон хэлний гүйцэтгэлийн анхны үнэлгээг хуваалцаж байгаа; энэ нь өгөгдсөн бодлоготой контент ангилалтын үеийн гүйцэтгэлийг шууд үнэлдэггүйг анхаарна уу.
gpt-oss-safeguard загварууд нь өөрсдийн gpt-oss хувилбаруудын нарийн тохируулсан хувилбарууд бөгөөд нэмэлт биологи эсвэл кибер аюулгүй байдлын өгөгдөлгүйгээр сургагдсан. Үүний үр дүнд бид gpt-oss гаргалтаас гарсан өмнөх хамгийн муу хувилбаруудыг тооцоолсон ажил эдгээр шинэ загваруудад мөн адил хамаарна гэж дүгнэсэн.

