Yapay zeka modellerinde goblin çıktıları nasıl yayıldı?: GPT-5 davranışındaki kişilik kaynaklı tuhaflıkların zaman çizelgesi, kök nedeni ve düzeltmeleri.
Yapay zeka sistemleri ilerledikçe, güvenlik, kullanıcı özgürlüğü ve hesap verebilirlik arasında denge kurmayı amaçlayan herkese açık bir çerçeve olarak OpenAI'ın Model Spesifikasyonunun nasıl işlediğini keşfedin.
OpenAI, dahili kodlama otonom ajanlarında uyumsuz davranışları incelemek için düşünce zinciri izleme yöntemini kullanır. Gerçek dünya kullanım senaryoları analiz edilerek riskler tespit edilir ve yapay zeka güvenliğine dair önlemler güçlendirilir.
IH-Challenge, modellere güvenilir talimatları önceliklendirmeyi öğretir; böylece talimat hiyerarşisini, güvenlik yönlendirilebilirliğini ve komutlara kötü amaçlı müdahale saldırılarına karşı dayanıklılığı artırır.
OpenAI, CoT-Control'u tanıtıyor ve akıl yürütme modellerinin düşünce zincirlerini kontrol etme konusunda sınırlı kapasiteye sahip olduğunu ortaya koyuyor. Bu bulgu, düşünce zinciri izlenebilirliğinin etkili bir yapay zeka güvenlik mekanizması olarak önemini güçlendiriyor.
Yeni ön baskı tek eksi genlikleri gravitonlara genelleştiriyor; GPT-5.2 Pro, kuantum kütleçekiminde sıfır dışı graviton ağaç düzeyi genliklerinin türetilip doğrulanmasını sağlıyor.