AI मॉडलों में गॉब्लिन आउटपुट कैसे फैले: GPT-5 व्यवहार में व्यक्तित्व-प्रेरित विचित्रताओं के पीछे की समयरेखा, मूल कारण और समाधान.
जानें कि OpenAI का Model Spec कैसे मॉडल व्यवहार के लिए एक सार्वजनिक फ्रेमवर्क के रूप में काम करता है, और AI सिस्टम्स के विकसित होने के साथ सुरक्षा, यूज़र स्वतंत्रता और जवाबदेही के बीच संतुलन बनाता है.
OpenAI इंटरनल कोडिंग एजेंट्स में मिसअलाइनमेंट को समझने के लिए चेन-ऑफ-थॉट मॉनिटरिंग का उपयोग कैसे करता है—रियल-वर्ल्ड डिप्लॉयमेंट्स का विश्लेषण करके जोखिमों का पता लगाना और AI सेफ्टी सेफगार्ड्स को मजबूत करना.
IH-Challenge मॉडल्स को ट्रस्टेड इंस्ट्रक्शंस को प्रायोरिटाइज़ करना सिखाता है, जिससे इंस्ट्रक्शन हायार्की, सेफ्टी स्टीयरेबिलिटी और प्रॉम्प्ट इंजेक्शन अटैक्स के प्रति रेज़िस्टेंस बेहतर होता है.
OpenAI, CoT-Control को इंट्रोड्यूस करता है और पाता है कि रीज़निंग मॉडल्स अपनी चेन-ऑफ़-थॉट को कंट्रोल करने में स्ट्रगल करते हैं, जिससे मॉनिटरेबिलिटी एक AI सेफ़्टी से जुड़े सुरक्षा उपाय के रूप में और मज़बूत होती है.
एक नया प्रीप्रिंट सिंगल-माइनस एम्प्लिट्यूड्स को ग्रैविटॉन्स तक बढ़ाता है, जहाँ GPT-5.2 Pro ने क्वांटम ग्रैविटी में नॉनज़ीरो ग्रैविटॉन ट्री एम्प्लिट्यूड्स वेरिफ़ाई करने में मदद की.