Bagaimana output goblin menyebar di model AI: linimasa, akar penyebab, dan perbaikan di balik keanehan perilaku GPT-5 yang didorong kepribadian.
Pelajari bagaimana Spesifikasi Model OpenAI berfungsi sebagai kerangka kerja publik untuk perilaku model, dengan menyeimbangkan keamanan, kebebasan pengguna, dan akuntabilitas seiring dengan kemajuan sistem AI.
Bagaimana OpenAI menggunakan pemantauan rantai pemikiran untuk mempelajari ketidakselarasan pada agen pengodean internal—menganalisis penerapan di dunia nyata untuk mendeteksi risiko dan memperkuat perlindungan keamanan AI.
IH-Challenge melatih model untuk memprioritaskan instruksi tepercaya, meningkatkan hierarki instruksi, kemampuan pengendalian keamanan, dan ketahanan terhadap serangan injeksi prompt.
OpenAI memperkenalkan CoT-Control dan mendapati bahwa model penalaran mengalami kesulitan dalam mengontrol rantai pemikiran mereka. Hal ini mempertegas kemampuan pemantauan sebagai pengaman keamanan AI.
Preprint baru memperluas amplitudo single-minus ke graviton, dengan GPT-5.2 Pro membantu menurunkan dan memverifikasi amplitudo pohon graviton tak nol dalam gravitasi kuantum.