ЖИ модельдеріндегі гоблиндік нәтижелердің таралуы: GPT-5 мінез-құлқындағы тұлғалық сипаттан туындайтын ерекшеліктердің хронологиясы, түпкі себебі және оларды түзету жолдары.
OpenAI-дің Model Spec құжаты модель мінез-құлқына арналған қоғамдық шеңбер ретінде қалай қызмет ететінін және ЖИ жүйелері дами түскен сайын қауіпсіздік, пайдаланушы еркіндігі мен есептілікті қалай теңгеретінін біліңіз.
OpenAI ішкі кодтау агенттеріндегі сәйкессіздікті зерттеу үшін ойлау тізбегін бақылауды қалай қолданады — тәуекелдерді анықтап, AI қауіпсіздігі қорғанысын күшейту үшін нақты ортадағы енгізілімдерді талдайды.
IH-Challenge модельдерді сенімді нұсқауларға басымдық беруге үйретіп, нұсқаулар иерархиясын, қауіпсіздікті бағыттауды және көмексөзге зиян келтіру шабуылдарына төзімділікті жақсартады.
OpenAI CoT-Control жүйесін таныстырып, ойлайтын модельдердің өз ойлау тізбегін басқаруда қиналатынын анықтады. Бұл AI қауіпсіздігі тетігі ретіндегі мониторингіленуді күшейтеді.
Жаңа препринт бір минусты амплитудаларды гравитондарға кеңейтеді, ал GPT-5.2 Pro кванттық гравитациядағы нөлден өзге ағаш амплитудаларын шығаруға және тексеруге көмектесті.