AI загварууд дахь “гоблин” төрлийн гаралтууд хэрхэн тархдаг вэ: GPT-5-ийн зан төлөвт илэрдэг хувийн шинжтэй гажуудлын цаг хугацаа, үндсэн шалтгаан, болон засварууд.
OpenAI-ийн загварын тодорхойлолт нь AI системүүд хөгжихийн хэрээр аюулгүй байдал, хэрэглэгчийн эрх чөлөө, хариуцлагыг тэнцвэржүүлсэн загварын зан төлөвийн олон нийтийн хүрээ болж хэрхэн үйлчилдгийг мэдэж аваарай.
OpenAI дотоод кодчиллын агентууд дахь зөрүүтэй байдлыг судлахын тулд бодлын хэлхээний хяналтыг хэрхэн ашигладгийг—эрсдэлийг илрүүлж, AI аюулгүй байдлын хамгаалалтыг бэхжүүлэхийн тулд бодит орчны нэвтрүүлэлтүүдийг шинжилж буйг тайлбарлав.
IH-Challenge нь загваруудыг итгэж болох зааврыг давуу тавьж сурахад сургаж, зааврын шатлал, аюулгүй чиглүүлэх чадвар, зааварт халдлагад тэсвэртэй байдлыг сайжруулдаг.
OpenAI CoT-Control-ийг танилцуулж, сэтгэн бодох загварууд бодлын хэлхээгээ хянахдаа бэрхшээлтэй байдгийг тогтоосноор AI аюулгүй байдлын хамгаалалт болох хянагдах чадварыг бататгаж байна.
Шинэ preprint нь нэг-minus амплитудыг гравитонд өргөтгөж, GPT-5.2 Pro квант таталцал дахь тэгээс ялгаатай гравитон модон амплитудыг гаргаж, шалгахад тусалсныг харууллаа.