27 ਜਨਵਰੀ 2022

ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਲਈ ਲੈਂਗਵੇਜ ਮਾਡਲਾਂ ਦਾ ਅਲਾਈਨਮੈਂਟ

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ਅਸੀਂ ਅਜਿਹੇ ਲੈਂਗਵੇਜ ਮਾਡਲ ਟ੍ਰੇਨ ਕੀਤੇ ਹਨ ਜੋ GPT‑3 ਨਾਲੋਂ ਯੂਜ਼ਰ ਦੇ ਇਰਾਦਿਆਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਵਿੱਚ ਕਾਫ਼ੀ ਬਿਹਤਰ ਹਨ, ਅਤੇ ਨਾਲ ਹੀ ਸਾਡੀ ਅਲਾਈਨਮੈਂਟ ਰਿਸਰਚ ਰਾਹੀਂ ਵਿਕਸਿਤ ਤਕਨੀਕਾਂ ਵਰਤ ਕੇ ਉਨ੍ਹਾਂ ਨੂੰ ਹੋਰ ਸੱਚਾ ਅਤੇ ਘੱਟ ਟਾਕਸਿਕ ਬਣਾਇਆ ਹੈ। ਇਹ InstructGPT ਮਾਡਲ, ਜੋ humans in the loop ਨਾਲ ਟ੍ਰੇਨ ਕੀਤੇ ਗਏ ਹਨ, ਹੁਣ ਸਾਡੀ API ਉੱਤੇ ਡਿਫਾਲਟ ਲੈਂਗਵੇਜ ਮਾਡਲ ਵਜੋਂ ਡਿਪਲੌਇ ਕੀਤੇ ਗਏ ਹਨ।

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

OpenAI API GPT‑3 ਲੈਂਗਵੇਜ ਮਾਡਲਾਂ ਦੁਆਰਾ ਸੰਚਾਲਿਤ ਹੈ⁠ ਜੋ ਧਿਆਨ ਨਾਲ ਤਿਆਰ ਕੀਤੇ ਟੈਕਸਟ ਪ੍ਰੌੰਪਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਨੈਚਰਲ ਲੈਂਗਵੇਜ ਟਾਸਕ ਕਰ ਸਕਦੇ ਹਨ। ਪਰ ਇਹ ਮਾਡਲ ਅਜਿਹੀਆਂ ਆਉਟਪੁੱਟਾਂ ਵੀ ਜਨਰੇਟ ਕਰ ਸਕਦੇ ਹਨ ਜੋ ਗਲਤ ਹੁੰਦੀਆਂ ਹਨ, ਟਾਕਸਿਕ ਹੁੰਦੀਆਂ ਹਨ, ਜਾਂ ਹਾਨੀਕਾਰਕ ਭਾਵਨਾਵਾਂ ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਹਨ। ਇਹ ਹੱਦ ਤੱਕ ਇਸ ਲਈ ਹੈ ਕਿਉਂਕਿ GPT‑3 ਨੂੰ ਇੰਟਰਨੈੱਟ ਟੈਕਸਟ ਦੇ ਵੱਡੇ ਡਾਟਾਸੈੱਟ ਤੇ ਅਗਲਾ ਸ਼ਬਦ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਹੈ, ਨਾ ਕਿ ਉਸ ਭਾਸ਼ਾਈ ਟਾਸਕ ਨੂੰ ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਕਰਨ ਲਈ ਜੋ ਯੂਜ਼ਰ ਚਾਹੁੰਦਾ ਹੈ। ਹੋਰ ਸ਼ਬਦਾਂ ਵਿੱਚ, ਇਹ ਮਾਡਲ ਆਪਣੇ ਯੂਜ਼ਰਾਂ ਨਾਲ aligned ਨਹੀਂ ਹਨ।

ਆਪਣੇ ਮਾਡਲਾਂ ਨੂੰ ਹੋਰ ਸੁਰੱਖਿਅਤ, ਹੋਰ ਮਦਦਗਾਰ, ਅਤੇ ਹੋਰ ਅਲਾਈਨ ਬਣਾਉਣ ਲਈ, ਅਸੀਂ ਇੱਕ ਮੌਜੂਦਾ ਤਕਨੀਕ ਵਰਤਦੇ ਹਾਂ ਜਿਸਨੂੰ ਹਿਊਮਨ ਫੀਡਬੈਕ ਤੋਂ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RLHF)⁠ ਕਿਹਾ ਜਾਂਦਾ ਹੈ। ਸਾਡੇ ਗਾਹਕਾਂ ਵੱਲੋਂ API ਨੂੰ ਭੇਜੇ ਪ੍ਰੌੰਪਟਾਂ ਤੇ,^A ਸਾਡੇ ਲੇਬਲਰ ਚਾਹੀਦੇ ਮਾਡਲ ਵਿਹਾਰ ਦੇ ਡੈਮੋਨਸਟ੍ਰੇਸ਼ਨ ਦਿੰਦੇ ਹਨ, ਅਤੇ ਸਾਡੇ ਮਾਡਲਾਂ ਤੋਂ ਕਈ ਆਉਟਪੁੱਟਾਂ ਦੀ ਰੈਂਕਿੰਗ ਕਰਦੇ ਹਨ। ਫਿਰ ਅਸੀਂ ਇਸ ਡਾਟਾ ਦੀ ਵਰਤੋਂ ਕਰਕੇ GPT‑3 ਨੂੰ ਫਾਈਨ-ਟਿਊਨ ਕਰਦੇ ਹਾਂ।

ਨਤੀਜੇ ਵਜੋਂ ਬਣੇ InstructGPT ਮਾਡਲ GPT‑3 ਨਾਲੋਂ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਵਿੱਚ ਕਾਫ਼ੀ ਬਿਹਤਰ ਹਨ। ਇਹ ਘੱਟ ਵਾਰ ਘੜੀਆਂ ਹੋਈਆਂ ਗੱਲਾਂ ਵੀ ਬਣਾਉਂਦੇ ਹਨ, ਅਤੇ ਟਾਕਸਿਕ ਆਉਟਪੁੱਟ ਜਨਰੇਸ਼ਨ ਵਿੱਚ ਥੋੜ੍ਹੀ ਘਟਾਓ ਦਿਖਾਉਂਦੇ ਹਨ। ਸਾਡੇ ਲੇਬਲਰ 1.3B InstructGPT ਮਾਡਲ ਦੀਆਂ ਆਉਟਪੁੱਟਾਂ ਨੂੰ 175B GPT‑3 ਮਾਡਲ ਦੀਆਂ ਆਉਟਪੁੱਟਾਂ ਨਾਲੋਂ ਵੱਧ ਤਰਜੀਹ ਦਿੰਦੇ ਹਨ, ਭਾਵੇਂ ਇਸ ਵਿੱਚ 100x ਤੋਂ ਵੀ ਘੱਟ ਪੈਰਾਮੀਟਰ ਹਨ। ਇਸੇ ਸਮੇਂ, ਅਸੀਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਸਾਨੂੰ GPT‑3 ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਤੇ ਸਮਝੌਤਾ ਕਰਨ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ, ਜਿਵੇਂ ਕਿ ਅਕਾਦਮਿਕ NLP ਮੁਲਾਂਕਣਾਂ ਤੇ ਸਾਡੇ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨਾਲ ਮਾਪਿਆ ਗਿਆ ਹੈ।

ਇਹ InstructGPT ਮਾਡਲ, ਜੋ ਇੱਕ ਸਾਲ ਤੋਂ ਵੱਧ ਸਮੇਂ ਤੋਂ API ਤੇ ਬੀਟਾ ਵਿੱਚ ਹਨ, ਹੁਣ ਸਾਡੀ API ਤੇ ਡਿਫਾਲਟ ਲੈਂਗਵੇਜ ਮਾਡਲ ਹਨ ਜਿਨ੍ਹਾਂ ਤੱਕ ਪਹੁੰਚ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ।^B ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ humans in the loop ਨਾਲ ਲੈਂਗਵੇਜ ਮਾਡਲਾਂ ਨੂੰ ਫਾਈਨ-ਟਿਊਨ ਕਰਨਾ ਉਨ੍ਹਾਂ ਦੀ ਸੁਰੱਖਿਆ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਸੁਧਾਰਨ ਲਈ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਸਾਧਨ ਹੈ, ਅਤੇ ਅਸੀਂ ਇਸ ਦਿਸ਼ਾ ਵਿੱਚ ਅੱਗੇ ਵਧਦੇ ਰਹਾਂਗੇ।

ਇਹ ਪਹਿਲੀ ਵਾਰ ਹੈ ਕਿ ਸਾਡੀ ਅਲਾਈਨਮੈਂਟ ਰਿਸਰਚ, ਜਿਸਦਾ ਅਸੀਂ ਪਿੱਛਾ ਕਰਦੇ ਆ ਰਹੇ ਹਾਂ⁠ ਕਈ ਸਾਲਾਂ⁠ ਤੋਂ ਕਈ⁠,^{1, 2, 3} ਨੂੰ ਸਾਡੇ ਉਤਪਾਦ ਵਿੱਚ ਲਾਗੂ ਕੀਤਾ ਗਿਆ ਹੈ। ਸਾਡਾ ਕੰਮ ਹਾਲੀਆ ਰਿਸਰਚ ਨਾਲ ਵੀ ਸੰਬੰਧਿਤ ਹੈ ਜੋ ਅਕਾਦਮਿਕ NLP ਡਾਟਾਸੈੱਟ ਵਰਤ ਕੇ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਲਈ ਲੈਂਗਵੇਜ ਮਾਡਲਾਂ ਨੂੰ ਫਾਈਨ-ਟਿਊਨ ਕਰਦੀ ਹੈ, ਖ਼ਾਸ ਤੌਰ ਤੇ FLAN⁴ ਅਤੇ T0.⁵ ਸਾਡੇ ਕੰਮ ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਣ ਪ੍ਰੇਰਕ ਤੱਤ ਮਦਦਗਾਰੀ ਅਤੇ ਸੱਚਾਈ ਵਧਾਉਣਾ ਹੈ, ਜਦਕਿ ਲੈਂਗਵੇਜ ਮਾਡਲਾਂ ਦੇ ਨੁਕਸਾਨ ਅਤੇ ਪੱਖਪਾਤ ਨੂੰ ਘਟਾਉਣਾ ਵੀ ਹੈ।^{6, 7, 8, 9, 10} ਇਸ ਦਿਸ਼ਾ ਵਿੱਚ ਸਾਡੀ ਕੁਝ ਪਿਛਲੀ ਰਿਸਰਚ⁠ ਨੇ ਪਾਇਆ ਸੀ ਕਿ ਅਸੀਂ ਮਨੁੱਖੀ ਡੈਮੋਨਸਟ੍ਰੇਸ਼ਨਾਂ ਦੇ ਇੱਕ ਛੋਟੇ ਸੰਪਾਦਿਤ ਡਾਟਾਸੈੱਟ ਤੇ ਫਾਈਨ-ਟਿਊਨ ਕਰਕੇ ਹਾਨੀਕਾਰਕ ਆਉਟਪੁੱਟਾਂ ਘਟਾ ਸਕਦੇ ਹਾਂ।¹¹ ਹੋਰ ਰਿਸਰਚ ਨੇ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਡਾਟਾਸੈੱਟ ਫਿਲਟਰ ਕਰਨ,¹² ਸੇਫਟੀ-ਖਾਸ ਕੰਟਰੋਲ ਟੋਕਨ,^{13, 14} ਜਾਂ ਮਾਡਲ ਜਨਰੇਸ਼ਨ ਨੂੰ ਸਟੀਅਰ ਕਰਨ ਤੇ ਧਿਆਨ ਦਿੱਤਾ ਹੈ।^{15, 16} ਅਸੀਂ ਆਪਣੀ ਜਾਰੀ ਅਲਾਈਨਮੈਂਟ ਰਿਸਰਚ ਵਿੱਚ ਇਨ੍ਹਾਂ ਅਤੇ ਹੋਰ ਵਿਚਾਰਾਂ ਦੀ ਖੋਜ ਕਰ ਰਹੇ ਹਾਂ।

ਨਤੀਜੇ

ਅਸੀਂ ਪਹਿਲਾਂ ਇਹ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਾਂ ਕਿ InstructGPT ਤੋਂ ਆਉਣ ਵਾਲੀਆਂ ਆਉਟਪੁੱਟਾਂ ਯੂਜ਼ਰ ਦੇ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਕਿੰਨੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਪਾਲਣਾ ਕਰਦੀਆਂ ਹਨ, ਇਸ ਲਈ ਲੇਬਲਰ ਇਸ ਦੀਆਂ ਆਉਟਪੁੱਟਾਂ ਦੀ GPT‑3 ਵਾਲੀਆਂ ਆਉਟਪੁੱਟਾਂ ਨਾਲ ਤੁਲਨਾ ਕਰਦੇ ਹਨ। ਅਸੀਂ ਵੇਖਦੇ ਹਾਂ ਕਿ API ਤੇ InstructGPT ਅਤੇ GPT‑3 ਦੋਵੇਂ ਮਾਡਲਾਂ ਨੂੰ ਭੇਜੇ ਪ੍ਰੌੰਪਟਾਂ ਤੇ InstructGPT ਮਾਡਲਾਂ ਨੂੰ ਸਪੱਸ਼ਟ ਤੌਰ ਤੇ ਵੱਧ ਤਰਜੀਹ ਮਿਲਦੀ ਹੈ। ਇਹ ਗੱਲ ਉਸ ਵੇਲੇ ਵੀ ਸੱਚ ਰਹਿੰਦੀ ਹੈ ਜਦੋਂ ਅਸੀਂ GPT‑3 ਪ੍ਰੌੰਪਟ ਵਿੱਚ ਇੱਕ ਪ੍ਰੀਫਿਕਸ ਜੋੜਦੇ ਹਾਂ ਤਾਂ ਜੋ ਉਹ “instruction-following mode” ਵਿੱਚ ਦਾਖਲ ਹੋ ਜਾਵੇ।

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਆਪਣੇ ਮਾਡਲਾਂ ਦੀ ਸੁਰੱਖਿਆ ਮਾਪਣ ਲਈ, ਅਸੀਂ ਮੁੱਖ ਤੌਰ ਤੇ ਜਨਤਕ ਤੌਰ ਤੇ ਉਪਲਬਧ ਡਾਟਾਸੈੱਟਾਂ ਉੱਤੇ ਮੌਜੂਦਾ ਮੈਟ੍ਰਿਕਸ ਦੇ ਇੱਕ ਸੈੱਟ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ। GPT‑3 ਨਾਲ ਤੁਲਨਾ ਕਰਨ ਤੇ, InstructGPT ਘੱਟ ਨਕਲੀਆ ਝੂਠ ਪੈਦਾ ਕਰਦਾ ਹੈ (TruthfulQA¹⁷ ਦੇ ਅਨੁਸਾਰ) ਅਤੇ ਘੱਟ ਟਾਕਸਿਕ ਹੁੰਦਾ ਹੈ (RealToxicityPrompts¹⁸ ਦੇ ਅਨੁਸਾਰ)। ਅਸੀਂ ਆਪਣੀ API ਪ੍ਰੌੰਪਟ ਡਿਸਟ੍ਰੀਬਿਊਸ਼ਨ ਉੱਤੇ ਮਨੁੱਖੀ ਮੁਲਾਂਕਣ ਵੀ ਕਰਦੇ ਹਾਂ, ਅਤੇ ਵੇਖਦੇ ਹਾਂ ਕਿ InstructGPT ਘੱਟ ਵਾਰ ਘੜੀਆਂ ਹੋਈਆਂ ਗੱਲਾਂ ਬਣਾਉਂਦਾ ਹੈ (“hallucinates”), ਅਤੇ ਹੋਰ ਉਚਿਤ ਆਉਟਪੁੱਟਾਂ ਜਨਰੇਟ ਕਰਦਾ ਹੈ।^C

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਅਖੀਰ ਵਿੱਚ, ਅਸੀਂ ਪਾਇਆ ਕਿ ਸਾਡੀ customer distribution ਉੱਤੇ InstructGPT ਆਉਟਪੁੱਟਾਂ ਨੂੰ FLAN⁴ ਅਤੇ T0⁵ ਵਾਲੀਆਂ ਆਉਟਪੁੱਟਾਂ ਨਾਲੋਂ ਵੱਧ ਤਰਜੀਹ ਮਿਲਦੀ ਹੈ। ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ FLAN ਅਤੇ T0 ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਲਈ ਵਰਤਿਆ ਗਿਆ ਡਾਟਾ, ਜੋ ਜ਼ਿਆਦਾਤਰ ਅਕਾਦਮਿਕ NLP ਟਾਸਕ ਹਨ, ਇਸ ਗੱਲ ਦੀ ਪੂਰੀ ਨੁਮਾਇੰਦਗੀ ਨਹੀਂ ਕਰਦਾ ਕਿ ਡਿਪਲੌਇ ਕੀਤੇ ਲੈਂਗਵੇਜ ਮਾਡਲ ਅਮਲ ਵਿੱਚ ਕਿਵੇਂ ਵਰਤੇ ਜਾਂਦੇ ਹਨ।

ਵਿਧੀਆਂ

InstructGPT ਮਾਡਲਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਲਈ ਤਿੰਨ-ਕਦਮੀ ਵਿਧੀ ਦਰਸਾਉਂਦਾ ਡਾਇਗ੍ਰਾਮ.

InstructGPT ਮਾਡਲਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਲਈ, ਸਾਡੀ ਮੁੱਖ ਤਕਨੀਕ ਹਿਊਮਨ ਫੀਡਬੈਕ ਤੋਂ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RLHF)⁠ ਹੈ, ਇੱਕ ਵਿਧੀ ਜਿਸਨੂੰ ਅਸੀਂ ਆਪਣੀ ਪਹਿਲਾਂ ਦੀ ਅਲਾਈਨਮੈਂਟ ਰਿਸਰਚ ਵਿੱਚ ਅਗੇਤਰੀ ਢੰਗ ਨਾਲ ਵਿਕਸਿਤ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕੀਤੀ ਸੀ। ਇਹ ਤਕਨੀਕ ਸਾਡੇ ਮਾਡਲਾਂ ਨੂੰ ਫਾਈਨ-ਟਿਊਨ ਕਰਨ ਲਈ ਮਨੁੱਖੀ ਪਸੰਦਾਂ ਨੂੰ ਰਿਵਾਰਡ ਸਿਗਨਲ ਵਜੋਂ ਵਰਤਦੀ ਹੈ, ਜੋ ਇਸ ਲਈ ਮਹੱਤਵਪੂਰਣ ਹੈ ਕਿਉਂਕਿ ਜਿਨ੍ਹਾਂ ਸੇਫਟੀ ਅਤੇ ਅਲਾਈਨਮੈਂਟ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਅਸੀਂ ਹੱਲ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ, ਉਹ ਜਟਿਲ ਅਤੇ ਵਿਅਕਤੀਗਤ ਹਨ, ਅਤੇ ਸਧਾਰਣ ਆਟੋਮੈਟਿਕ ਮੈਟ੍ਰਿਕਸ ਉਨ੍ਹਾਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਕੈਪਚਰ ਨਹੀਂ ਕਰਦੇ।

ਅਸੀਂ ਪਹਿਲਾਂ ਆਪਣੀ API ਤੇ ਭੇਜੇ ਗਏ ਪ੍ਰੌੰਪਟਾਂ ਤੇ ਮਨੁੱਖ-ਲਿਖਤ ਡੈਮੋਨਸਟ੍ਰੇਸ਼ਨਾਂ ਦਾ ਇੱਕ ਡਾਟਾਸੈੱਟ ਇਕੱਠਾ ਕਰਦੇ ਹਾਂ, ਅਤੇ ਇਸਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਪਣੇ supervised learning baselines ਨੂੰ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ। ਅੱਗੇ, ਅਸੀਂ API ਪ੍ਰੌੰਪਟਾਂ ਦੇ ਇੱਕ ਵੱਡੇ ਸੈੱਟ ਤੇ ਦੋ ਮਾਡਲ ਆਉਟਪੁੱਟਾਂ ਵਿਚਕਾਰ ਮਨੁੱਖ-ਲੇਬਲ ਕੀਤੀਆਂ ਤੁਲਨਾਵਾਂ ਦਾ ਡਾਟਾਸੈੱਟ ਇਕੱਠਾ ਕਰਦੇ ਹਾਂ। ਫਿਰ ਅਸੀਂ ਇਸ ਡਾਟਾਸੈੱਟ ਤੇ ਇੱਕ ਰਿਵਾਰਡ ਮਾਡਲ (RM) ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ ਤਾਂ ਜੋ ਇਹ ਭਵਿੱਖਬਾਣੀ ਕਰ ਸਕੇ ਕਿ ਸਾਡੇ ਲੇਬਲਰ ਕਿਸ ਆਉਟਪੁੱਟ ਨੂੰ ਤਰਜੀਹ ਦੇਣਗੇ। ਅਖੀਰ ਵਿੱਚ, ਅਸੀਂ ਇਸ RM ਨੂੰ ਰਿਵਾਰਡ ਫੰਕਸ਼ਨ ਵਜੋਂ ਵਰਤਦੇ ਹਾਂ ਅਤੇ PPO algorithm⁠ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇਸ ਰਿਵਾਰਡ ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਨ ਲਈ ਆਪਣੀ GPT‑3 policy ਨੂੰ ਫਾਈਨ-ਟਿਊਨ ਕਰਦੇ ਹਾਂ।

ਇਸ ਪ੍ਰਕਿਰਿਆ ਬਾਰੇ ਸੋਚਣ ਦਾ ਇੱਕ ਤਰੀਕਾ ਇਹ ਹੈ ਕਿ ਇਹ GPT‑3 ਵਿੱਚ ਪਹਿਲਾਂ ਹੀ ਮੌਜੂਦ ਸਮਰੱਥਾਵਾਂ ਨੂੰ “unlock” ਕਰਦੀ ਹੈ, ਪਰ ਜਿਨ੍ਹਾਂ ਨੂੰ ਸਿਰਫ਼ ਪ੍ਰੌੰਪਟ ਇੰਜੀਨੀਅਰਿੰਗ ਰਾਹੀਂ ਉਭਾਰਨਾ ਮੁਸ਼ਕਲ ਸੀ: ਇਹ ਇਸ ਲਈ ਹੈ ਕਿਉਂਕਿ ਸਾਡੀ ਟ੍ਰੇਨਿੰਗ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਮਾਡਲ ਨੂੰ ਨਵੀਆਂ ਸਮਰੱਥਾਵਾਂ ਸਿਖਾਉਣ ਦੀ ਸਮਰੱਥਾ, ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਸਿੱਖੀ ਗਈਆਂ ਚੀਜ਼ਾਂ ਦੇ ਮੁਕਾਬਲੇ, ਸੀਮਿਤ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਮਾਡਲ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਦੇ ਮੁਕਾਬਲੇ 2% ਤੋਂ ਘੱਟ compute ਅਤੇ ਡਾਟਾ ਵਰਤਦੀ ਹੈ।

ਇਸ ਪਹੁੰਚ ਦੀ ਇੱਕ ਸੀਮਾ ਇਹ ਹੈ ਕਿ ਇਹ ਇੱਕ “ਅਲਾਈਨਮੈਂਟ ਟੈਕਸ” ਲਿਆਉਂਦੀ ਹੈ: ਮਾਡਲਾਂ ਨੂੰ ਸਿਰਫ਼ ਗਾਹਕਾਂ ਦੇ ਟਾਸਕਾਂ ਤੇ ਅਲਾਈਨ ਕਰਨ ਨਾਲ ਕੁਝ ਹੋਰ ਅਕਾਦਮਿਕ NLP ਟਾਸਕਾਂ ਤੇ ਉਨ੍ਹਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਖਰਾਬ ਹੋ ਸਕਦੀ ਹੈ। ਇਹ ਅਚਾਹੁੰਦਾ ਹੈ ਕਿਉਂਕਿ ਜੇ ਸਾਡੀਆਂ ਅਲਾਈਨਮੈਂਟ ਤਕਨੀਕਾਂ ਮਾਡਲਾਂ ਨੂੰ ਉਹਨਾਂ ਟਾਸਕਾਂ ਤੇ ਖਰਾਬ ਕਰ ਦੇਣ ਜਿਨ੍ਹਾਂ ਦੀ ਲੋਕ ਪਰਵਾਹ ਕਰਦੇ ਹਨ, ਤਾਂ ਉਨ੍ਹਾਂ ਦੇ ਅਮਲ ਵਿੱਚ ਅਪਨਾਏ ਜਾਣ ਦੀ ਸੰਭਾਵਨਾ ਘੱਟ ਹੋ ਜਾਂਦੀ ਹੈ। ਸਾਨੂੰ ਇੱਕ ਸਧਾਰਣ ਐਲਗੋਰਿਦਮਿਕ ਤਬਦੀਲੀ ਮਿਲੀ ਹੈ ਜੋ ਇਸ ਅਲਾਈਨਮੈਂਟ ਟੈਕਸ ਨੂੰ ਘੱਟ ਕਰਦੀ ਹੈ: RL ਫਾਈਨ-ਟਿਊਨਿੰਗ ਦੌਰਾਨ ਅਸੀਂ GPT‑3 ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਲਈ ਵਰਤੇ ਗਏ ਮੂਲ ਡਾਟਾ ਦਾ ਇੱਕ ਛੋਟਾ ਹਿੱਸਾ ਮਿਲਾਉਂਦੇ ਹਾਂ, ਅਤੇ ਇਸ ਡਾਟਾ ਤੇ ਸਧਾਰਣ log likelihood maximization ਵਰਤ ਕੇ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ।^D ਇਹ ਲਗਭਗ ਸੇਫਟੀ ਅਤੇ ਮਨੁੱਖੀ ਪਸੰਦਾਂ ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਕਾਇਮ ਰੱਖਦਾ ਹੈ, ਜਦਕਿ ਅਕਾਦਮਿਕ ਟਾਸਕਾਂ ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਘਟਾਓ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ, ਅਤੇ ਕਈ ਮਾਮਲਿਆਂ ਵਿੱਚ ਤਾਂ GPT‑3 ਬੇਸਲਾਈਨ ਤੋਂ ਵੀ ਅੱਗੇ ਨਿਕਲ ਜਾਂਦਾ ਹੈ।

ਵਿਆਪਕ ਪਸੰਦਾਂ ਵੱਲ ਜਨਰਲਾਈਜ਼ੇਸ਼ਨ

ਸਾਡੀ ਪ੍ਰਕਿਰਿਆ ਸਾਡੇ ਮਾਡਲਾਂ ਦੇ ਵਿਹਾਰ ਨੂੰ ਸਾਡੇ ਲੇਬਲਰਾਂ ਦੀਆਂ ਪਸੰਦਾਂ ਨਾਲ ਅਲਾਈਨ ਕਰਦੀ ਹੈ, ਜੋ ਸਿੱਧੇ ਤੌਰ ਤੇ ਉਹ ਡਾਟਾ ਤਿਆਰ ਕਰਦੇ ਹਨ ਜੋ ਸਾਡੇ ਮਾਡਲਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਸਾਡੇ ਵਰਗੇ ਰਿਸਰਚਰ, ਜੋ ਲਿਖਿਤ ਨਿਰਦੇਸ਼ਾਂ, ਖਾਸ ਉਦਾਹਰਣਾਂ ਤੇ ਸਿੱਧੇ ਫੀਡਬੈਕ, ਅਤੇ ਗੈਰ-ਆਧਿਕਾਰਿਕ ਗੱਲਬਾਤਾਂ ਰਾਹੀਂ ਲੇਬਲਰਾਂ ਨੂੰ ਮਾਰਗਦਰਸ਼ਨ ਦਿੰਦੇ ਹਨ। ਇਹ ਸਾਡੇ ਗਾਹਕਾਂ ਅਤੇ ਸਾਡੀਆਂ API ਨੀਤੀਆਂ ਵਿੱਚ ਨਿਹਿਤ ਪਸੰਦਾਂ ਨਾਲ ਵੀ ਪ੍ਰਭਾਵਿਤ ਹੁੰਦੀ ਹੈ। ਅਸੀਂ ਉਹ ਲੇਬਲਰ ਚੁਣੇ ਜਿਨ੍ਹਾਂ ਨੇ ਸੰਵੇਦਨਸ਼ੀਲ ਪ੍ਰੌੰਪਟਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਅਤੇ ਉਨ੍ਹਾਂ ਦਾ ਜਵਾਬ ਦੇਣ ਦੀ ਯੋਗਤਾ ਲਈ ਸਕ੍ਰੀਨਿੰਗ ਟੈਸਟ ਵਿੱਚ ਚੰਗਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਸੀ। ਹਾਲਾਂਕਿ, ਡਾਟਾ ਤੇ ਪ੍ਰਭਾਵ ਪਾਉਣ ਵਾਲੇ ਇਹ ਵੱਖ-ਵੱਖ ਸਰੋਤ ਇਸ ਗੱਲ ਦੀ ਗਾਰੰਟੀ ਨਹੀਂ ਦਿੰਦੇ ਕਿ ਸਾਡੇ ਮਾਡਲ ਕਿਸੇ ਵੱਡੇ ਸਮੂਹ ਦੀਆਂ ਪਸੰਦਾਂ ਨਾਲ ਅਲਾਈਨ ਹਨ।

ਅਸੀਂ ਇਸਦੀ ਜਾਂਚ ਲਈ ਦੋ ਪ੍ਰਯੋਗ ਕੀਤੇ। ਪਹਿਲਾਂ, ਅਸੀਂ GPT‑3 ਅਤੇ InstructGPT ਦਾ ਮੁਲਾਂਕਣ ਹੈਲਡ-ਆਉਟ ਲੇਬਲਰ^E ਨਾਲ ਕਰਦੇ ਹਾਂ, ਜਿਨ੍ਹਾਂ ਨੇ ਕੋਈ ਵੀ ਟ੍ਰੇਨਿੰਗ ਡਾਟਾ ਤਿਆਰ ਨਹੀਂ ਕੀਤਾ ਸੀ, ਅਤੇ ਅਸੀਂ ਪਾਇਆ ਕਿ ਇਹ ਲੇਬਲਰ InstructGPT ਮਾਡਲਾਂ ਦੀਆਂ ਆਉਟਪੁੱਟਾਂ ਨੂੰ ਲਗਭਗ ਉਸੇ ਦਰ ਨਾਲ ਤਰਜੀਹ ਦਿੰਦੇ ਹਨ ਜਿਵੇਂ ਸਾਡੇ ਟ੍ਰੇਨਿੰਗ ਲੇਬਲਰ ਦਿੰਦੇ ਹਨ। ਦੂਜੇ, ਅਸੀਂ ਆਪਣੇ ਲੇਬਲਰਾਂ ਦੇ ਇੱਕ ਉਪਸਮੂਹ ਦੇ ਡਾਟਾ ਤੇ ਰਿਵਾਰਡ ਮਾਡਲ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ, ਅਤੇ ਪਾਉਂਦੇ ਹਾਂ ਕਿ ਉਹ ਲੇਬਲਰਾਂ ਦੇ ਇੱਕ ਹੋਰ ਉਪਸਮੂਹ ਦੀਆਂ ਪਸੰਦਾਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਵਿੱਚ ਚੰਗੀ ਤਰ੍ਹਾਂ ਜਨਰਲਾਈਜ਼ ਕਰਦੇ ਹਨ। ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਸਾਡੇ ਮਾਡਲ ਸਿਰਫ਼ ਸਾਡੇ ਟ੍ਰੇਨਿੰਗ ਲੇਬਲਰਾਂ ਦੀਆਂ ਪਸੰਦਾਂ ਤੇ ਹੀ ਓਵਰਫਿਟ ਨਹੀਂ ਹੋਏ। ਹਾਲਾਂਕਿ, ਇਹ ਅਧਿਐਨ ਕਰਨ ਲਈ ਹੋਰ ਕੰਮ ਦੀ ਲੋੜ ਹੈ ਕਿ ਇਹ ਮਾਡਲ ਵਿਆਪਕ ਯੂਜ਼ਰ ਸਮੂਹਾਂ ਤੇ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ, ਅਤੇ ਉਹਨਾਂ ਇਨਪੁੱਟਾਂ ਤੇ ਕਿਵੇਂ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ ਜਿੱਥੇ ਮਨੁੱਖ ਚਾਹੀਦੇ ਵਿਹਾਰ ਬਾਰੇ ਅਸਹਿਮਤ ਹੁੰਦੇ ਹਨ।

ਸੀਮਾਵਾਂ

ਮਹੱਤਵਪੂਰਣ ਤਰੱਕੀ ਕਰਨ ਦੇ ਬਾਵਜੂਦ, ਸਾਡੇ InstructGPT ਮਾਡਲ ਪੂਰੀ ਤਰ੍ਹਾਂ ਅਲਾਈਨ ਜਾਂ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸੁਰੱਖਿਅਤ ਹੋਣ ਤੋਂ ਕਾਫ਼ੀ ਦੂਰ ਹਨ; ਇਹ ਅਜੇ ਵੀ ਟਾਕਸਿਕ ਜਾਂ ਪੱਖਪਾਤੀ ਆਉਟਪੁੱਟਾਂ ਜਨਰੇਟ ਕਰਦੇ ਹਨ, ਘੜੀਆਂ ਹੋਈਆਂ ਗੱਲਾਂ ਬਣਾਉਂਦੇ ਹਨ, ਅਤੇ ਸਪੱਸ਼ਟ ਪ੍ਰੌੰਪਟਿੰਗ ਤੋਂ ਬਿਨਾਂ ਯੌਨ ਅਤੇ ਹਿੰਸਕ ਸਮੱਗਰੀ ਜਨਰੇਟ ਕਰਦੇ ਹਨ। ਪਰ ਕਿਸੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਸਿਸਟਮ ਦੀ ਸੁਰੱਖਿਆ ਸਿਰਫ਼ ਅਧਾਰਭੂਤ ਮਾਡਲਾਂ ਦੇ ਵਿਹਾਰ ਤੇ ਨਹੀਂ, ਸਗੋਂ ਇਸ ਗੱਲ ਤੇ ਵੀ ਨਿਰਭਰ ਕਰਦੀ ਹੈ ਕਿ ਇਹ ਮਾਡਲ ਕਿਵੇਂ ਡਿਪਲੌਇ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। ਆਪਣੀ API ਦੀ ਸੁਰੱਖਿਆ ਲਈ ਸਮਰਥਨ ਵਜੋਂ, ਅਸੀਂ ਲਾਈਵ ਹੋਣ ਤੋਂ ਪਹਿਲਾਂ ਸੰਭਾਵਿਤ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੀ ਸਮੀਖਿਆ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਕਰਨਾ ਜਾਰੀ ਰੱਖਾਂਗੇ, ਅਸੁਰੱਖਿਅਤ completion ਪਛਾਣਣ ਲਈ ਕੰਟੈਂਟ ਫਿਲਟਰ ਪ੍ਰਦਾਨ ਕਰਾਂਗੇ, ਅਤੇ ਦੁਰਵਰਤੋਂ ਲਈ ਨਿਗਰਾਨੀ ਕਰਾਂਗੇ।

ਸਾਡੇ ਮਾਡਲਾਂ ਨੂੰ ਯੂਜ਼ਰ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨਾ ਸਿਖਾਉਣ ਦਾ ਇੱਕ ਸਾਈਡ-ਇਫੈਕਟ ਇਹ ਹੈ ਕਿ ਜੇ ਅਸੁਰੱਖਿਅਤ ਆਉਟਪੁੱਟਾਂ ਬਣਾਉਣ ਲਈ ਨਿਰਦੇਸ਼ ਦਿੱਤੇ ਜਾਣ ਤਾਂ ਇਹ ਦੁਰਵਰਤੋਂ ਲਈ ਹੋਰ ਸੰਵੇਦਨਸ਼ੀਲ ਹੋ ਸਕਦੇ ਹਨ। ਇਸ ਸਮੱਸਿਆ ਦਾ ਹੱਲ ਕਰਨ ਲਈ ਸਾਡੇ ਮਾਡਲਾਂ ਨੂੰ ਕੁਝ ਨਿਰਦੇਸ਼ਾਂ ਤੋਂ ਇਨਕਾਰ ਕਰਨਾ ਹੋਵੇਗਾ; ਇਸਨੂੰ ਭਰੋਸੇਯੋਗ ਢੰਗ ਨਾਲ ਕਰਨਾ ਇੱਕ ਮਹੱਤਵਪੂਰਣ ਖੁੱਲ੍ਹੀ ਰਿਸਰਚ ਸਮੱਸਿਆ ਹੈ ਜਿਸ ਨਾਲ ਨਜਿੱਠਣ ਲਈ ਅਸੀਂ ਉਤਸ਼ਾਹਿਤ ਹਾਂ।

ਅੱਗੇ, ਕਈ ਮਾਮਲਿਆਂ ਵਿੱਚ ਔਸਤ ਲੇਬਲਰ ਪਸੰਦ ਨਾਲ ਅਲਾਈਨ ਕਰਨਾ ਇੱਛਿਤ ਨਹੀਂ ਹੋ ਸਕਦਾ। ਉਦਾਹਰਣ ਲਈ, ਜਦੋਂ ਅਜਿਹਾ ਟੈਕਸਟ ਜਨਰੇਟ ਕੀਤਾ ਜਾਵੇ ਜੋ ਕਿਸੇ ਘੱਟਸੰਖਿਆਕ ਸਮੂਹ ਨੂੰ ਅਸਮਾਨ ਤੌਰ ਤੇ ਪ੍ਰਭਾਵਿਤ ਕਰਦਾ ਹੋਵੇ, ਤਾਂ ਉਸ ਸਮੂਹ ਦੀਆਂ ਪਸੰਦਾਂ ਨੂੰ ਵੱਧ ਭਾਰ ਦਿੱਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਇਸ ਵੇਲੇ, InstructGPT ਨੂੰ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਹੈ; ਇਸ ਕਰਕੇ ਇਹ ਅੰਗਰੇਜ਼ੀ ਬੋਲਣ ਵਾਲੇ ਲੋਕਾਂ ਦੀਆਂ ਸੱਭਿਆਚਾਰਕ ਮੁੱਲਾਂ ਵੱਲ ਝੁਕਾਓ ਰੱਖਦਾ ਹੈ। ਅਸੀਂ ਇਹ ਸਮਝਣ ਲਈ ਰਿਸਰਚ ਕਰ ਰਹੇ ਹਾਂ ਕਿ ਲੇਬਲਰਾਂ ਦੀਆਂ ਪਸੰਦਾਂ ਵਿੱਚ ਫ਼ਰਕ ਅਤੇ ਅਸਹਿਮਤੀਆਂ ਕੀ ਹਨ ਤਾਂ ਜੋ ਅਸੀਂ ਆਪਣੇ ਮਾਡਲਾਂ ਨੂੰ ਹੋਰ ਖ਼ਾਸ ਆਬਾਦੀਆਂ ਦੇ ਮੁੱਲਾਂ ਤੇ condition ਕਰ ਸਕੀਏ। ਹੋਰ ਆਮ ਤੌਰ ਤੇ, ਮਾਡਲ ਆਉਟਪੁੱਟਾਂ ਨੂੰ ਖ਼ਾਸ ਮਨੁੱਖਾਂ ਦੇ ਮੁੱਲਾਂ ਨਾਲ ਅਲਾਈਨ ਕਰਨਾ ਸਮਾਜਿਕ ਪ੍ਰਭਾਵਾਂ ਵਾਲੀਆਂ ਮੁਸ਼ਕਲ ਚੋਣਾਂ ਲਿਆਉਂਦਾ ਹੈ, ਅਤੇ ਅੰਤ ਵਿੱਚ ਸਾਨੂੰ ਇਹ ਫੈਸਲੇ ਕਰਨ ਲਈ ਜ਼ਿੰਮੇਵਾਰ, ਸਮਾਵੇਸ਼ੀ ਪ੍ਰਕਿਰਿਆਵਾਂ ਸਥਾਪਿਤ ਕਰਣੀਆਂ ਹੀ ਪੈਣਗੀਆਂ।

ਅਗਲੇ ਕਦਮ

ਇਹ ਸਾਡੇ ਉਤਪਾਦ ਵਿੱਚ ਸਾਡੀ ਅਲਾਈਨਮੈਂਟ ਰਿਸਰਚ ਦਾ ਪਹਿਲਾ ਲਾਗੂਕਰਨ ਹੈ। ਸਾਡੇ ਨਤੀਜੇ ਦਿਖਾਉਂਦੇ ਹਨ ਕਿ ਇਹ ਤਕਨੀਕਾਂ ਜਨਰਲ-ਪਰਪਜ਼ AI ਸਿਸਟਮਾਂ ਨੂੰ ਮਨੁੱਖੀ ਇਰਾਦਿਆਂ ਨਾਲ ਮਹੱਤਵਪੂਰਣ ਤੌਰ ਤੇ ਹੋਰ ਵਧੀਆ ਅਲਾਈਨ ਕਰਨ ਵਿੱਚ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹਨ। ਹਾਲਾਂਕਿ, ਇਹ ਸਿਰਫ਼ ਸ਼ੁਰੂਆਤ ਹੈ: ਅਸੀਂ ਇਨ੍ਹਾਂ ਤਕਨੀਕਾਂ ਨੂੰ ਅੱਗੇ ਵਧਾਉਂਦੇ ਰਹਾਂਗੇ ਤਾਂ ਜੋ ਸਾਡੇ ਮੌਜੂਦਾ ਅਤੇ ਭਵਿੱਖ ਦੇ ਮਾਡਲ ਮਨੁੱਖਾਂ ਲਈ ਸੁਰੱਖਿਅਤ ਅਤੇ ਮਦਦਗਾਰ ਭਾਸ਼ਾਈ ਟੂਲਾਂ ਵੱਲ ਹੋਰ ਵਧੀਆ ਅਲਾਈਨ ਹੋਣ।

ਜੇ ਤੁਸੀਂ ਇਨ੍ਹਾਂ ਰਿਸਰਚ ਦਿਸ਼ਾਵਾਂ ਵਿੱਚ ਦਿਲਚਸਪੀ ਰੱਖਦੇ ਹੋ, ਅਸੀਂ ਭਰਤੀ ਕਰ ਰਹੇ ਹਾਂ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)!

ਫੁੱਟਨੋਟਸ

A
ਅਸੀਂ ਸਿਰਫ਼ ਉਹੀ ਪ੍ਰੌੰਪਟ ਵਰਤਦੇ ਹਾਂ ਜੋ Playground ਰਾਹੀਂ InstructGPT ਮਾਡਲਾਂ ਦੇ ਇੱਕ ਪਹਿਲੇ ਵਰਜਨ ਨੂੰ ਭੇਜੇ ਗਏ ਸਨ, ਜਿਸਨੂੰ ਜਨਵਰੀ 2021 ਵਿੱਚ ਡਿਪਲੌਇ ਕੀਤਾ ਗਿਆ ਸੀ। ਸਾਡੇ ਮਨੁੱਖੀ ਐਨੋਟੇਟਰ ਹਰ ਪ੍ਰੌੰਪਟ ਨੂੰ ਟ੍ਰੇਨਿੰਗ ਸੈੱਟ ਵਿੱਚ ਸ਼ਾਮਲ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਉਸ ਵਿੱਚੋਂ ਨਿੱਜੀ ਪਹਿਚਾਣਯੋਗ ਜਾਣਕਾਰੀ ਹਟਾ ਦਿੰਦੇ ਹਨ।
B
API ਵਿੱਚ ਡਿਪਲੌਇ ਕੀਤੇ InstructGPT ਮਾਡਲ ਅਪਡੇਟ ਕੀਤੇ ਹੋਏ ਵਰਜਨ ਹਨ ਜੋ ਉਹੀ ਹਿਊਮਨ ਫੀਡਬੈਕ ਡਾਟਾ ਵਰਤ ਕੇ ਟ੍ਰੇਨ ਕੀਤੇ ਗਏ ਹਨ। ਇਹ ਇੱਕ ਮਿਲਦੀ-ਜੁਲਦੀ ਪਰ ਥੋੜ੍ਹੀ ਵੱਖਰੀ ਟ੍ਰੇਨਿੰਗ ਵਿਧੀ ਵਰਤਦੇ ਹਨ, ਜਿਸਦਾ ਵਰਣਨ ਅਸੀਂ ਆਉਣ ਵਾਲੇ ਪ੍ਰਕਾਸ਼ਨ ਵਿੱਚ ਕਰਾਂਗੇ।
C
ਅਸੀਂ ਆਪਣੀ API ਡਿਸਟ੍ਰੀਬਿਊਸ਼ਨ ਤੇ ਸੰਭਾਵਿਤ ਤੌਰ ਤੇ ਹਾਨੀਕਾਰਕ ਆਉਟਪੁੱਟਾਂ ਦੇ ਕਈ ਹੋਰ ਪੱਖ ਵੀ ਮਾਪਦੇ ਹਾਂ: ਕੀ ਆਉਟਪੁੱਟਾਂ ਵਿੱਚ ਯੌਨ ਜਾਂ ਹਿੰਸਕ ਸਮੱਗਰੀ ਹੈ, ਕਿਸੇ ਸੁਰੱਖਿਅਤ ਵਰਗ ਨੂੰ ਹੇਠਾਂ ਦਿਖਾਇਆ ਗਿਆ ਹੈ, ਜਾਂ ਦੁਰਵਰਤੋਂ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕੀਤਾ ਗਿਆ ਹੈ। ਅਸੀਂ ਵੇਖਦੇ ਹਾਂ ਕਿ InstructGPT ਇਨ੍ਹਾਂ ਮੈਟ੍ਰਿਕਸ ਤੇ GPT-3 ਨਾਲ ਤੁਲਨਾ ਵਿੱਚ ਮਹੱਤਵਪੂਰਣ ਸੁਧਾਰ ਨਹੀਂ ਕਰਦਾ; ਦੋਵੇਂ ਮਾਡਲਾਂ ਲਈ ਘਟਨਾ ਦਰ ਇਕਸਾਰ ਘੱਟ ਹੈ।
D
ਸਾਨੂੰ ਇਹ ਪਹੁੰਚ ਸਿਰਫ਼ KL ਕੋਐਫਿਸਿਐਂਟ ਵਧਾਉਣ ਨਾਲੋਂ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਲੱਗੀ।
E
ਇਹ ਲੇਬਲਰ Scale AI ਅਤੇ Upwork ਤੋਂ ਲਏ ਜਾਂਦੇ ਹਨ, ਸਾਡੇ ਟ੍ਰੇਨਿੰਗ ਲੇਬਲਰਾਂ ਵਾਂਗ ਹੀ, ਪਰ ਇਹ ਸਕ੍ਰੀਨਿੰਗ ਟੈਸਟ ਨਹੀਂ ਦਿੰਦੇ।

ਹਵਾਲੇ

1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017. ਡੀਪ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਫ੍ਰਮ ਹਿਊਮਨ ਪ੍ਰੈਫਰੈਂਸਿਜ਼. arXiv preprint arXiv:1706.03741.
2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021. ਹਿਊਮਨ ਫੀਡਬੈਕ ਨਾਲ ਕਿਤਾਬਾਂ ਦਾ ਰਿਕਰਸਿਵ ਸਾਰ ਬਣਾਉਣਾ. arXiv preprint arXiv:2109.10862.
4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. ਫਾਈਨ-ਟਿਊਨ ਕੀਤੇ ਲੈਂਗਵੇਜ ਮਾਡਲ ਜ਼ੀਰੋ-ਸ਼ਾਟ ਲਰਨਰ ਹੁੰਦੇ ਹਨ. arXiv preprint arXiv:2109.01652.
5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021. ਮਲਟੀਟਾਸਕ ਪ੍ਰੌੰਪਟਡ ਟ੍ਰੇਨਿੰਗ ਜ਼ੀਰੋ-ਸ਼ਾਟ ਟਾਸਕ ਜਨਰਲਾਈਜ਼ੇਸ਼ਨ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦੀ ਹੈ. arXiv preprint arXiv:2110.08207.
6
Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March. ਸਟੋਕੈਸਟਿਕ ਪੈਰਟਸ ਦੇ ਖਤਰੇ ਬਾਰੇ: ਕੀ ਲੈਂਗਵੇਜ ਮਾਡਲ ਬਹੁਤ ਵੱਡੇ ਹੋ ਸਕਦੇ ਹਨ?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021. ਫਾਊਂਡੇਸ਼ਨ ਮਾਡਲਾਂ ਦੇ ਮੌਕੇ ਅਤੇ ਖਤਰੇ ਬਾਰੇ. arXiv preprint arXiv:2108.07258.
8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021. ਲੈਂਗਵੇਜ ਏਜੰਟਸ ਦਾ ਅਲਾਈਨਮੈਂਟ. arXiv preprint arXiv:2103.14659.
9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021. ਲੈਂਗਵੇਜ ਮਾਡਲਾਂ ਤੋਂ ਨੁਕਸਾਨ ਦੇ ਨੈਤਿਕ ਅਤੇ ਸਮਾਜਿਕ ਖਤਰੇ. arXiv preprint arXiv:2112.04359.
10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021. ਵੱਡੇ ਲੈਂਗਵੇਜ ਮਾਡਲਾਂ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ, ਸੀਮਾਵਾਂ ਅਤੇ ਸਮਾਜਿਕ ਪ੍ਰਭਾਵ ਨੂੰ ਸਮਝਣਾ. arXiv preprint arXiv:2102.02503.
11
Solaiman, I. and Dennison, C., 2021. ਸਮਾਜ ਲਈ ਲੈਂਗਵੇਜ ਮਾਡਲਾਂ ਨੂੰ ਅਨੁਕੂਲ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ (PALMS) ਵੈਲਯੂਜ਼-ਟਾਰਗੇਟਡ ਡਾਟਾਸੈੱਟਸ ਨਾਲ. arXiv preprint arXiv:2106.10328.
12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021. ਕੰਡੀਸ਼ਨਲ-ਲਾਇਕਲੀਹੁੱਡ ਫਿਲਟਰੇਸ਼ਨ ਨਾਲ ਲੈਂਗਵੇਜ ਮਾਡਲਾਂ ਵਿੱਚ ਨੁਕਸਾਨ ਘਟਾਉਣਾ. arXiv preprint arXiv:2108.07790.
13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020. ਓਪਨ-ਡੋਮੇਨ ਚੈਟਬੋਟਸ ਵਿੱਚ ਸੇਫਟੀ ਲਈ ਨੁਸਖੇ. arXiv preprint arXiv:2010.07079.
14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019. Ctrl: ਨਿਯੰਤਰਿਤ ਜਨਰੇਸ਼ਨ ਲਈ ਇੱਕ ਕੰਡੀਸ਼ਨਲ ਟ੍ਰਾਂਸਫਾਰਮਰ ਲੈਂਗਵੇਜ ਮਾਡਲ. arXiv preprint arXiv:1909.05858.
15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020. Gedi: ਜਨਰੇਟਿਵ ਡਿਸਕ੍ਰਿਮਿਨੇਟਰ-ਗਾਈਡਡ ਸੀਕਵੈਂਸ ਜਨਰੇਸ਼ਨ. arXiv preprint arXiv:2009.06367.
16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019. ਪਲੱਗ ਐਂਡ ਪਲੇ ਲੈਂਗਵੇਜ ਮਾਡਲ: ਨਿਯੰਤਰਿਤ ਟੈਕਸਟ ਜਨਰੇਸ਼ਨ ਲਈ ਇੱਕ ਸਧਾਰਣ ਪਹੁੰਚ. arXiv preprint arXiv:1912.02164.
17
Lin, S., Hilton, J. and Evans, O., 2021. TruthfulQA: ਮਾਪਣਾ ਕਿ ਮਾਡਲ ਮਨੁੱਖੀ ਝੂਠਾਂ ਦੀ ਨਕਲ ਕਿਵੇਂ ਕਰਦੇ ਹਨ. arXiv preprint arXiv:2109.07958.
18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020. RealToxicityPrompts: ਲੈਂਗਵੇਜ ਮਾਡਲਾਂ ਵਿੱਚ ਨਿਊਰਲ ਟਾਕਸਿਕ ਡਿਜਨਰੇਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ. arXiv preprint arXiv:2009.11462.
19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018. ਕੋਰੈਫਰੈਂਸ ਰੈਜ਼ੋਲੂਸ਼ਨ ਵਿੱਚ ਜੈਂਡਰ ਪੱਖਪਾਤ. arXiv preprint arXiv:1804.09301.
20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020. CrowS-pairs: ਮਾਸਕਡ ਲੈਂਗਵੇਜ ਮਾਡਲਾਂ ਵਿੱਚ ਸਮਾਜਿਕ ਪੱਖਪਾਤ ਮਾਪਣ ਲਈ ਇੱਕ ਚੈਲੈਂਜ ਡਾਟਾਸੈੱਟ. arXiv preprint arXiv:2010.00133.

ਲੇਖਕ

Ryan Lowe, Jan Leike

ਆਭਾਰ

ਅਸੀਂ ਆਪਣੇ ਪੇਪਰ ਦੇ ਸਹਿ-ਲੇਖਕਾਂ ਦਾ ਧੰਨਵਾਦ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, ਅਤੇ Paul Christiano, ਨਾਲ ਹੀ ਉਹਨਾਂ ਸਭ ਦਾ ਜਿਨ੍ਹਾਂ ਨੇ ਪੇਪਰ ਅਤੇ ਬਲੌਗ ਪੋਸਟ ਬਾਰੇ ਫੀਡਬੈਕ ਦਿੱਤਾ। ਅਸੀਂ Comms ਟੀਮ ਦਾ ਵੀ ਧੰਨਵਾਦ ਕਰਦੇ ਹਾਂ, ਜਿਨ੍ਹਾਂ ਨੇ ਸਾਨੂੰ ਮਾਰਗਦਰਸ਼ਨ ਅਤੇ ਸਹਾਇਤਾ ਦਿੱਤੀ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego, ਅਤੇ Justin Jay Wang ਸ਼ਾਮਲ ਹਨ। ਅਖੀਰ ਵਿੱਚ, ਅਸੀਂ ਆਪਣੇ ਲੇਬਲਰਾਂ ਦਾ ਧੰਨਵਾਦ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ, ਜਿਨ੍ਹਾਂ ਤੋਂ ਬਿਨਾਂ ਇਹ ਪ੍ਰੋਜੈਕਟ ਸੰਭਵ ਨਹੀਂ ਸੀ।

ਸੰਬੰਧਿਤ ਲੇਖ

ਸਭ ਵੇਖੋ

Disrupting malicious uses of AI by state-affiliated threat actors

ਸੁਰੱਖਿਆ14 ਫ਼ਰ 2024

Building an early warning system for LLM-aided biological threat creation

ਪ੍ਰਕਾਸ਼ਨ31 ਜਨ 2024

Democratic Inputs To AI Grant Program Update

Democratic inputs to AI grant program: lessons learned and implementation plans

ਸੁਰੱਖਿਆ16 ਜਨ 2024