AI ਮਾਡਲਾਂ ਵਿੱਚ ਗੋਬਲਿਨ ਆਉਟਪੁੱਟਸ ਦਾ ਫੈਲਾਅ: GPT-5 ਦੇ ਵਿਵਹਾਰ ਵਿੱਚ ਪਰਸਨੈਲਿਟੀ-ਆਧਾਰਿਤ ਖਾਮੀਆਂ ਦੇ ਪਿੱਛੇ ਸਮਾਂ-ਰੇਖਾ, ਮੂਲ ਕਾਰਨ, ਅਤੇ ਹੱਲ।ਵਾ
ਜਾਣੋ ਕਿ OpenAI ਦਾ ਮਾਡਲ ਸਪੈਕ ਮਾਡਲ ਵਿਵਹਾਰ ਲਈ ਇੱਕ ਜਨਤਕ ਢਾਂਚੇ ਵਜੋਂ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ, ਜਦੋਂ AI ਸਿਸਟਮ ਅੱਗੇ ਵਧਦੇ ਹਨ ਤਾਂ ਸੁਰੱਖਿਆ, ਯੂਜ਼ਰ ਦੀ ਆਜ਼ਾਦੀ ਅਤੇ ਜਵਾਬਦੇਹੀ ਵਿਚਕਾਰ ਸੰਤੁਲਨ ਕਿਵੇਂ ਬਣਾਉਂਦਾ ਹੈ।
OpenAI ਅੰਦਰੂਨੀ ਕੋਡਿੰਗ ਏਜੰਟਾਂ ਵਿੱਚ ਅਣ-ਸੁਰਮੇਲਤਾ ਦਾ ਅਧਿਐਨ ਕਰਨ ਲਈ ਚੇਨ-ਆਫ-ਥੌਟ ਨਿਗਰਾਨੀ ਕਿਵੇਂ ਵਰਤਦਾ ਹੈ. ਜੋਖਮਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਅਤੇ AI ਸੁਰੱਖਿਆ ਉਪਾਇਆ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨ ਲਈ ਅਸਲ ਤਾਇਨਾਤੀਆਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਦਾ ਹੈ.
IH-Challenge ਮਾਡਲਾਂ ਨੂੰ ਭਰੋਸੇਯੋਗ ਹਦਾਇਤਾਂ ਨੂੰ ਤਰਜੀਹ ਦੇਣ ਲਈ train ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ instruction hierarchy, safety steerability ਅਤੇ prompt injection ਹਮਲਿਆਂ ਵਿਰੁੱਧ ਰੋਕ ਸੁਧਰਦੀ ਹੈ.
OpenAI ਨੇ CoT-Control ਪੇਸ਼ ਕੀਤਾ ਹੈ ਅਤੇ ਪਾਇਆ ਹੈ ਕਿ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਆਪਣੀ ਚੇਨ-ਆਫ-ਥੌਟ ਨੂੰ ਕਾਬੂ ਕਰਨ ਵਿੱਚ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ, ਜਿਸ ਨਾਲ AI ਸੁਰੱਖਿਆ ਉਪਾਇ ਵਜੋਂ ਨਿਗਰਾਨੀਯੋਗਤਾ ਹੋਰ ਮਜ਼ਬੂਤ ਹੁੰਦੀ ਹੈ.
ਨਵਾਂ ਪ੍ਰੀ-ਪ੍ਰਿੰਟ ਸਿੰਗਲ-ਮਾਈਨਸ ਐਂਪਲੀਟਿਊਡਜ਼ ਨੂੰ ਗ੍ਰੈਵੀਟੌਨਸ ਤੱਕ ਵਧਾਉਂਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ GPT-5.2 ਦੀ ਸਹਾਇਤਾ ਲਈ ਗਈ ਹੈ ਕੁਆਂਟਮ ਗ੍ਰੈਵਿਟੀ ਵਿੱਚ ਗ੍ਰੈਵੀਟੋਨ ਟ੍ਰੀ ਐਂਪਲੀਟਿਊਡਸ ਦੀ ਪੁਸ਼ਟੀ ਵਿੱਚ ਸਹਾਇਕ।