GPT‑4 ਨਾਲ GPT‑4 ਦੀਆਂ ਗਲਤੀਆਂ ਲੱਭਣਾ
GPT‑4 ਆਧਾਰਿਤ ਮਾਡਲ CriticGPT, RLHF ਦੌਰਾਨ ਮਨੁੱਖੀ ਟ੍ਰੇਨਰਾਂ ਨੂੰ ਗਲਤੀਆਂ ਪਛਾਣਣ ਵਿੱਚ ਮਦਦ ਲਈ ChatGPT ਜਵਾਬਾਂ ਦੀ ਆਲੋਚਨਾ ਲਿਖਦਾ ਹੈ
ਅਸੀਂ GPT‑4 ਆਧਾਰਿਤ ਇੱਕ ਮਾਡਲ ਟ੍ਰੇਨ ਕੀਤਾ ਹੈ, ਜਿਸਨੂੰ CriticGPT ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਜੋ ਉਹ ChatGPT ਦੇ ਕੋਡ ਆਉਟਪੁੱਟ ਵਿੱਚ ਗਲਤੀਆਂ ਪਕੜ ਸਕੇ। ਅਸੀਂ ਪਾਇਆ ਕਿ ਜਦੋਂ ਲੋਕਾਂ ਨੂੰ ChatGPT ਕੋਡ ਦੀ ਸਮੀਖਿਆ ਕਰਨ ਲਈ CriticGPT ਦੀ ਮਦਦ ਮਿਲਦੀ ਹੈ, ਤਾਂ ਉਹ ਬਿਨਾ ਮਦਦ ਵਾਲਿਆਂ ਨਾਲੋਂ 60% ਮੌਕਿਆਂ ’ਤੇ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ। ਅਸੀਂ ਆਪਣੀ RLHF ਲੇਬਲਿੰਗ ਪਾਈਪਲਾਈਨ ਵਿੱਚ CriticGPT ਵਰਗੇ ਮਾਡਲ ਇਕਿੱਠੇ ਕਰਨ ਦਾ ਕੰਮ ਸ਼ੁਰੂ ਕਰ ਰਹੇ ਹਾਂ, ਜਿਸ ਨਾਲ ਆਪਣੇ ਟ੍ਰੇਨਰਾਂ ਨੂੰ ਸਪਸ਼ਟ AI ਸਹਾਇਤਾ ਮਿਲੇਗੀ। ਇਹ ਉਹਨਾਂ ਉੱਨਤ AI ਸਿਸਟਮਾਂ ਦੇ ਆਉਟਪੁੱਟ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਦੀ ਦਿਸ਼ਾ ਵੱਲ ਇੱਕ ਕਦਮ ਹੈ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਲੋਕਾਂ ਲਈ ਬਿਹਤਰ ਸਾਧਨਾਂ ਦੇ ਬਿਨਾ ਰੇਟ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੋ ਸਕਦਾ ਹੈ.
GPT‑4 ਸਿਰੀਜ਼ ਦੇ ਮਾਡਲ, ਜੋ ChatGPT ਨੂੰ ਤਾਕਤ ਦਿੰਦੇ ਹਨ, “ਹਿਊਮਨ ਫੀਡਬੈਕ ਤੋਂ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ” (RLHF) ਰਾਹੀਂ ਮਦਦਗਾਰ ਅਤੇ ਇੰਟਰਐਕਟਿਵ ਬਣਨ ਲਈ ਅਲਾਈਨ ਕੀਤੇ ਗਏ ਹਨ। RLHF ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਹਿੱਸਾ ਉਹ ਤੁਲਨਾਵਾਂ ਇਕੱਠੀਆਂ ਕਰਨਾ ਹੈ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਲੋਕ, ਜਿਨ੍ਹਾਂ ਨੂੰ AI ਟ੍ਰੇਨਰ ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਵੱਖ-ਵੱਖ ChatGPT ਜਵਾਬਾਂ ਨੂੰ ਇਕ ਦੂਜੇ ਦੇ ਮੁਕਾਬਲੇ ਰੇਟ ਕਰਦੇ ਹਨ.
ਜਿਵੇਂ ਜਿਵੇਂ ਅਸੀਂ ਰੀਜ਼ਨਿੰਗ ਅਤੇ ਮਾਡਲ ਦੇ ਵਿਹਾਰ ਵਿੱਚ ਤਰੱਕੀ ਕਰਦੇ ਹਾਂ, ChatGPT ਹੋਰ ਸਹੀ ਹੁੰਦਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਇਸ ਦੀਆਂ ਗਲਤੀਆਂ ਹੋਰ ਸੁੱਖਮ ਹੋ ਜਾਂਦੀਆਂ ਹਨ। ਇਸ ਕਰਕੇ ਜਦੋਂ ਅਸੁੱਧਤਾਵਾਂ ਹੁੰਦੀਆਂ ਹਨ ਤਾਂ AI ਟ੍ਰੇਨਰਾਂ ਲਈ ਉਨ੍ਹਾਂ ਨੂੰ ਪਛਾਣਣਾ ਔਖਾ ਹੋ ਸਕਦਾ ਹੈ, ਜਿਸ ਨਾਲ RLHF ਨੂੰ ਚਲਾਉਣ ਵਾਲਾ ਤੁਲਨਾ-ਕਾਰਜ ਕਾਫ਼ੀ ਮੁਸ਼ਕਲ ਹੋ ਜਾਂਦਾ ਹੈ। ਇਹ RLHF ਦੀ ਇੱਕ ਬੁਨਿਆਦੀ ਸੀਮਾ ਹੈ, ਅਤੇ ਇਸ ਨਾਲ ਮਾਡਲਾਂ ਨੂੰ ਅਲਾਈਨ ਕਰਨਾ ਧੀਰੇ-ਧੀਰੇ ਹੋਰ ਮੁਸ਼ਕਲ ਹੋ ਸਕਦਾ ਹੈ ਕਿਉਂਕਿ ਉਹ ਉਸ ਕਿਸੇ ਵੀ ਵਿਅਕਤੀ ਨਾਲੋਂ ਵੱਧ ਜਾਣਕਾਰ ਹੋ ਸਕਦੇ ਹਨ ਜੋ ਫੀਡਬੈਕ ਦੇ ਸਕੇ.
ਇਸ ਚੁਣੌਤੀ ਵਿੱਚ ਮਦਦ ਲਈ, ਅਸੀਂ CriticGPT ਨੂੰ ਅਜਿਹੀਆਂ ਆਲੋਚਨਾਵਾਂ ਲਿਖਣ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਜੋ ChatGPT ਦੇ ਜਵਾਬਾਂ ਵਿੱਚ ਅਸੁੱਧਤਾਵਾਂ ਨੂੰ ਉਜਾਗਰ ਕਰਦੀਆਂ ਹਨ.
Task
Solution
import os def get_file_object(path): # Define the safe directory safe_dir = "/safedir" # Get the absolute path of the file and the safe directory absolute_file_path = os.path.abspath(path) absolute_safe_dir = os.path.abspath(safe_dir) # Check if the file is within the safe directory Highlighted:if not absolute_file_path.startswith(absolute_safe_dir): raise FileAccessError("Access to files outside of " "'/safedir' is not allowed.")...CriticGPT
CriticGPT ਦੇ ਸੁਝਾਅ ਹਰ ਵੇਲੇ ਸਹੀ ਨਹੀਂ ਹੁੰਦੇ, ਪਰ ਅਸੀਂ ਪਾਇਆ ਕਿ ਇਹ ਟ੍ਰੇਨਰਾਂ ਨੂੰ AI ਮਦਦ ਤੋਂ ਬਿਨਾ ਹੋਣ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਮਾਡਲ-ਲਿਖੇ ਜਵਾਬਾਂ ਵਿੱਚ ਕਈ ਹੋਰ ਸਮੱਸਿਆਵਾਂ ਪਕੜਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਜਦੋਂ ਲੋਕ CriticGPT ਵਰਤਦੇ ਹਨ, ਤਾਂ AI ਉਨ੍ਹਾਂ ਦੀਆਂ ਯੋਗਤਾਵਾਂ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਲੋਕਾਂ ਦੇ ਇਕੱਲੇ ਕੰਮ ਕਰਨ ਨਾਲੋਂ ਵਧੇਰੇ ਵਿਸਤ੍ਰਿਤ ਆਲੋਚਨਾਵਾਂ ਅਤੇ ਮਾਡਲ ਦੇ ਇਕੱਲੇ ਕੰਮ ਕਰਨ ਨਾਲੋਂ ਘੱਟ ਕਲਪਿਤ ਬਗ ਮਿਲਦੇ ਹਨ। ਆਪਣੇ ਪ੍ਰਯੋਗਾਂ ਵਿੱਚ ਇੱਕ ਦੂਜੇ ਰੈਂਡਮ ਟ੍ਰੇਨਰ ਨੇ Human+CriticGPT ਟੀਮ ਦੀਆਂ ਆਲੋਚਨਾਵਾਂ ਨੂੰ ਬਿਨਾ ਸਹਾਇਤਾ ਵਾਲੇ ਵਿਅਕਤੀ ਦੀਆਂ ਆਲੋਚਨਾਵਾਂ ਨਾਲੋਂ 60% ਤੋਂ ਵੱਧ ਮੌਕਿਆਂ ’ਤੇ ਤਰਜੀਹ ਦਿੱਤੀ.
CriticGPT ਟ੍ਰੇਨਰਾਂ ਨੂੰ ਬਿਨਾ ਮਦਦ ਦੇ ਲਿਖੀਆਂ ਆਲੋਚਨਾਵਾਂ ਨਾਲੋਂ ਵਧੇਰੇ ਵਿਸਤ੍ਰਿਤ ਆਲੋਚਨਾਵਾਂ ਲਿਖਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ, ਅਤੇ ਨਾਲ ਹੀ ਇਕੱਲੇ ਮਾਡਲ ਤੋਂ ਆਉਣ ਵਾਲੀਆਂ ਆਲੋਚਨਾਵਾਂ ਨਾਲੋਂ ਘੱਟ ਕਲਪਨਾਵਾਂ ਪੈਦਾ ਕਰਦਾ ਹੈ.
CriticGPT ਨੂੰ ChatGPT ਵਾਂਗ ਹੀ RLHF ਨਾਲ ਵੀ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸੀ। ਪਰ ChatGPT ਤੋਂ ਵੱਖਰਾ, ਇਸ ਨੇ ਬਹੁਤ ਵੱਡੀ ਗਿਣਤੀ ਵਿੱਚ ਅਜੇਹੇ ਇਨਪੁੱਟ ਵੇਖੇ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਸਨ ਅਤੇ ਫਿਰ ਇਸ ਨੂੰ ਉਹਨਾਂ ਦੀ ਆਲੋਚਨਾ ਕਰਨੀ ਪੈਂਦੀ ਸੀ। ਅਸੀਂ AI ਟ੍ਰੇਨਰਾਂ ਨੂੰ ਕਿਹਾ ਕਿ ਉਹ ChatGPT ਦੁਆਰਾ ਲਿਖੇ ਕੋਡ ਵਿੱਚ ਇਹ ਗਲਤੀਆਂ ਹੱਥੋਂ ਸ਼ਾਮਲ ਕਰਨ ਅਤੇ ਫਿਰ ਉਦਾਹਰਨ ਵਜੋਂ ਫੀਡਬੈਕ ਲਿਖਣ ਜਿਵੇਂ ਕਿ ਉਨ੍ਹਾਂ ਨੇ ਉਹ ਬਗ ਪਕੜਿਆ ਹੋਵੇ ਜੋ ਉਨ੍ਹਾਂ ਨੇ ਹੁਣੇ ਹੀ ਸ਼ਾਮਲ ਕੀਤਾ ਸੀ। ਫਿਰ ਉਸੇ ਵਿਅਕਤੀ ਨੇ ਸੋਧੇ ਹੋਏ ਕੋਡ ਦੀਆਂ ਕਈ ਆਲੋਚਨਾਵਾਂ ਦੀ ਤੁਲਨਾ ਕੀਤੀ ਤਾਂ ਜੋ ਉਹ ਆਸਾਨੀ ਨਾਲ ਦੱਸ ਸਕੇ ਕਿ ਕਦੋਂ ਕਿਸੇ ਆਲੋਚਨਾ ਨੇ ਉਨ੍ਹਾਂ ਦੁਆਰਾ ਸ਼ਾਮਲ ਕੀਤਾ ਬਗ ਪਕੜਿਆ। ਆਪਣੇ ਪ੍ਰਯੋਗਾਂ ਵਿੱਚ ਅਸੀਂ ਇਹ ਵੀ ਅਧਿਐਨ ਕੀਤਾ ਕਿ CriticGPT ਸ਼ਾਮਲ ਕੀਤੇ ਬਗਾਂ ਅਤੇ ਉਹ “ਕੁਦਰਤੀ ਤੌਰ ’ਤੇ ਆਉਣ ਵਾਲੇ” ChatGPT ਬਗਾਂ ਨੂੰ ਪਕੜ ਸਕਦਾ ਸੀ ਜਾਂ ਨਹੀਂ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਪਹਿਲਾਂ ਕਿਸੇ ਟ੍ਰੇਨਰ ਨੇ ਪਕੜਿਆ ਸੀ। ਅਸੀਂ ਪਾਇਆ ਕਿ ਕੁਦਰਤੀ ਤੌਰ ’ਤੇ ਆਉਣ ਵਾਲੇ ਬਗਾਂ ਵਿੱਚ 63% ਮਾਮਲਿਆਂ ਵਿੱਚ ਟ੍ਰੇਨਰ ChatGPT ਦੀਆਂ ਆਲੋਚਨਾਵਾਂ ਨਾਲੋਂ CriticGPT ਦੀਆਂ ਆਲੋਚਨਾਵਾਂ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦੇ ਹਨ, ਕੁਝ ਹੱਦ ਤੱਕ ਇਸ ਲਈ ਕਿ ਨਵਾਂ ਆਲੋਚਕ ਘੱਟ “nitpicks” ਪੈਦਾ ਕਰਦਾ ਹੈ (ਛੋਟੀਆਂ, ਗੈਰ-ਮਦਦਗਾਰ ਸ਼ਿਕਾਇਤਾਂ) ਅਤੇ ਘੱਟ ਵਾਰ ਸਮੱਸਿਆਵਾਂ ਦੀ ਕਲਪਨਾ ਕਰਦਾ ਹੈ.
ਅਸੀਂ ਇਹ ਵੀ ਪਾਇਆ ਕਿ ਆਲੋਚਨਾ ਰਿਵਾਰਡ ਮਾਡਲ ਦੇ ਮੁਕਾਬਲੇ ਵਾਧੂ ਟੈਸਟ-ਟਾਈਮ ਖੋਜ ਵਰਤ ਕੇ ਅਸੀਂ ਹੋਰ ਲੰਬੀਆਂ ਅਤੇ ਵਧੇਰੇ ਵਿਸਤ੍ਰਿਤ ਆਲੋਚਨਾਵਾਂ ਤਿਆਰ ਕਰ ਸਕਦੇ ਹਾਂ। ਇਹ ਖੋਜ ਪ੍ਰਕਿਰਿਆ ਸਾਨੂੰ ਇਹ ਸੰਤੁਲਨ ਬਣਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ ਕਿ ਅਸੀਂ ਕੋਡ ਵਿੱਚ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਕਿੰਨੀ ਆਗ੍ਰਹੀ ਤਰੀਕੇ ਨਾਲ ਲੱਭਦੇ ਹਾਂ ਅਤੇ ਕਲਪਨਾਵਾਂ ਅਤੇ ਪਤਾ ਲੱਗੇ ਬਗਾਂ ਦੀ ਗਿਣਤੀ ਵਿਚਕਾਰ ਇੱਕ precision-recall trade-off ਨੂੰ ਕਾਨਫਿਗਰ ਕਰਦੇ ਹਾਂ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਅਸੀਂ RLHF ਲਈ ਸੰਭਵ ਤੌਰ ’ਤੇ ਸਭ ਤੋਂ ਮਦਦਗਾਰ ਆਲੋਚਨਾਵਾਂ ਤਿਆਰ ਕਰ ਸਕਦੇ ਹਾਂ। ਹੋਰ ਵੇਰਵਿਆਂ ਲਈ ਸਾਡਾ ਰਿਸਰਚ ਪੇਪਰ ਵੇਖੋ.
- ਅਸੀਂ CriticGPT ਨੂੰ ਉਹਨਾਂ ChatGPT ਜਵਾਬਾਂ ’ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਜੋ ਕਾਫ਼ੀ ਛੋਟੇ ਹਨ। ਭਵਿੱਖ ਦੇ ਏਜੰਟਾਂ ਦੀ ਨਿਗਰਾਨੀ ਕਰਨ ਲਈ ਸਾਨੂੰ ਅਜਿਹੇ ਤਰੀਕੇ ਵਿਕਸਿਤ ਕਰਨੇ ਪੈਣਗੇ ਜੋ ਟ੍ਰੇਨਰਾਂ ਨੂੰ ਲੰਬੇ ਅਤੇ ਜਟਿਲ ਕੰਮ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਣ.
- ਮਾਡਲ ਅਜੇ ਵੀ ਕਲਪਨਾਵਾਂ ਕਰਦੇ ਹਨ ਅਤੇ ਕਈ ਵਾਰ ਟ੍ਰੇਨਰ ਉਹਨਾਂ ਕਲਪਨਾਵਾਂ ਨੂੰ ਵੇਖਣ ਤੋਂ ਬਾਅਦ ਲੇਬਲਿੰਗ ਦੀਆਂ ਗਲਤੀਆਂ ਕਰਦੇ ਹਨ.
- ਕਈ ਵਾਰ ਅਸਲ ਦੁਨੀਆ ਦੀਆਂ ਗਲਤੀਆਂ ਜਵਾਬ ਦੇ ਕਈ ਭਾਗਾਂ ਵਿੱਚ ਫੈਲੀਆਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਸਾਡਾ ਕੰਮ ਉਹਨਾਂ ਗਲਤੀਆਂ ’ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਇੱਕ ਥਾਂ ਤੇ ਦਰਸਾਇਆ ਜਾ ਸਕੇ, ਪਰ ਭਵਿੱਖ ਵਿੱਚ ਸਾਨੂੰ ਵਿਖਰੀਆਂ ਗਲਤੀਆਂ ਨਾਲ ਵੀ ਨਜਿੱਠਣਾ ਹੋਵੇਗਾ.
- CriticGPT ਸਿਰਫ਼ ਇੱਕ ਹੱਦ ਤੱਕ ਹੀ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ: ਜੇ ਕੋਈ ਕੰਮ ਜਾਂ ਜਵਾਬ ਬਹੁਤ ਹੀ ਜਟਿਲ ਹੋਵੇ, ਤਾਂ ਮਾਡਲ ਦੀ ਮਦਦ ਨਾਲ ਵੀ ਕੋਈ ਮਾਹਰ ਇਸ ਦਾ ਸਹੀ ਮੁਲਾਂਕਣ ਨਾ ਕਰ ਸਕੇ.
ਵਧਦੀ ਜਟਿਲਤਾ ਵਾਲੇ AI ਸਿਸਟਮਾਂ ਨੂੰ ਅਲਾਈਨ ਕਰਨ ਲਈ ਸਾਨੂੰ ਹੋਰ ਵਧੀਆ ਸਾਧਨਾਂ ਦੀ ਲੋੜ ਪਵੇਗੀ। CriticGPT ਬਾਰੇ ਆਪਣੇ ਰਿਸਰਚ ਵਿੱਚ ਅਸੀਂ ਪਾਇਆ ਕਿ GPT‑4 ’ਤੇ RLHF ਲਾਗੂ ਕਰਨ ਵਿੱਚ ਇਹ ਸਮਰੱਥਾ ਹੈ ਕਿ ਇਹ ਮਨੁੱਖਾਂ ਨੂੰ GPT‑4 ਲਈ ਹੋਰ ਵਧੀਆ RLHF ਡਾਟਾ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰੇ। ਅਸੀਂ ਇਸ ਕੰਮ ਨੂੰ ਹੋਰ ਵੱਡੇ ਪੱਧਰ ’ਤੇ ਲਿਜਾਣ ਅਤੇ ਅਮਲ ਵਿੱਚ ਲਿਆਉਣ ਦੀ ਯੋਜਨਾ ਬਣਾ ਰਹੇ ਹਾਂ.
ਲੇਖਕ
ਧੰਨਵਾਦ
Greg Brockman, Juan Felipe Ceron Uribe, Elie Georges, Wes McCabe, Evgenia Nitishinskaya, Rai (Michael Pokorny), Freddie Sulit