27 ਜੂਨ 2024

GPT‑4 ਨਾਲ GPT‑4 ਦੀਆਂ ਗਲਤੀਆਂ ਲੱਭਣਾ

GPT‑4 ਆਧਾਰਿਤ ਮਾਡਲ CriticGPT, RLHF ਦੌਰਾਨ ਮਨੁੱਖੀ ਟ੍ਰੇਨਰਾਂ ਨੂੰ ਗਲਤੀਆਂ ਪਛਾਣਣ ਵਿੱਚ ਮਦਦ ਲਈ ChatGPT ਜਵਾਬਾਂ ਦੀ ਆਲੋਚਨਾ ਲਿਖਦਾ ਹੈ

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ਅਸੀਂ GPT‑4 ਆਧਾਰਿਤ ਇੱਕ ਮਾਡਲ ਟ੍ਰੇਨ ਕੀਤਾ ਹੈ, ਜਿਸਨੂੰ CriticGPT ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਜੋ ਉਹ ChatGPT ਦੇ ਕੋਡ ਆਉਟਪੁੱਟ ਵਿੱਚ ਗਲਤੀਆਂ ਪਕੜ ਸਕੇ। ਅਸੀਂ ਪਾਇਆ ਕਿ ਜਦੋਂ ਲੋਕਾਂ ਨੂੰ ChatGPT ਕੋਡ ਦੀ ਸਮੀਖਿਆ ਕਰਨ ਲਈ CriticGPT ਦੀ ਮਦਦ ਮਿਲਦੀ ਹੈ, ਤਾਂ ਉਹ ਬਿਨਾ ਮਦਦ ਵਾਲਿਆਂ ਨਾਲੋਂ 60% ਮੌਕਿਆਂ ’ਤੇ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ। ਅਸੀਂ ਆਪਣੀ RLHF ਲੇਬਲਿੰਗ ਪਾਈਪਲਾਈਨ ਵਿੱਚ CriticGPT ਵਰਗੇ ਮਾਡਲ ਇਕਿੱਠੇ ਕਰਨ ਦਾ ਕੰਮ ਸ਼ੁਰੂ ਕਰ ਰਹੇ ਹਾਂ, ਜਿਸ ਨਾਲ ਆਪਣੇ ਟ੍ਰੇਨਰਾਂ ਨੂੰ ਸਪਸ਼ਟ AI ਸਹਾਇਤਾ ਮਿਲੇਗੀ। ਇਹ ਉਹਨਾਂ ਉੱਨਤ AI ਸਿਸਟਮਾਂ ਦੇ ਆਉਟਪੁੱਟ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਦੀ ਦਿਸ਼ਾ ਵੱਲ ਇੱਕ ਕਦਮ ਹੈ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਲੋਕਾਂ ਲਈ ਬਿਹਤਰ ਸਾਧਨਾਂ ਦੇ ਬਿਨਾ ਰੇਟ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੋ ਸਕਦਾ ਹੈ.

GPT‑4 ਸਿਰੀਜ਼ ਦੇ ਮਾਡਲ, ਜੋ ChatGPT ਨੂੰ ਤਾਕਤ ਦਿੰਦੇ ਹਨ, “ਹਿਊਮਨ ਫੀਡਬੈਕ ਤੋਂ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ” (RLHF⁠) ਰਾਹੀਂ ਮਦਦਗਾਰ ਅਤੇ ਇੰਟਰਐਕਟਿਵ ਬਣਨ ਲਈ ਅਲਾਈਨ ਕੀਤੇ ਗਏ ਹਨ। RLHF ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਹਿੱਸਾ ਉਹ ਤੁਲਨਾਵਾਂ ਇਕੱਠੀਆਂ ਕਰਨਾ ਹੈ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਲੋਕ, ਜਿਨ੍ਹਾਂ ਨੂੰ AI ਟ੍ਰੇਨਰ ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਵੱਖ-ਵੱਖ ChatGPT ਜਵਾਬਾਂ ਨੂੰ ਇਕ ਦੂਜੇ ਦੇ ਮੁਕਾਬਲੇ ਰੇਟ ਕਰਦੇ ਹਨ.

ਜਿਵੇਂ ਜਿਵੇਂ ਅਸੀਂ ਰੀਜ਼ਨਿੰਗ ਅਤੇ ਮਾਡਲ ਦੇ ਵਿਹਾਰ ਵਿੱਚ ਤਰੱਕੀ ਕਰਦੇ ਹਾਂ, ChatGPT ਹੋਰ ਸਹੀ ਹੁੰਦਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਇਸ ਦੀਆਂ ਗਲਤੀਆਂ ਹੋਰ ਸੁੱਖਮ ਹੋ ਜਾਂਦੀਆਂ ਹਨ। ਇਸ ਕਰਕੇ ਜਦੋਂ ਅਸੁੱਧਤਾਵਾਂ ਹੁੰਦੀਆਂ ਹਨ ਤਾਂ AI ਟ੍ਰੇਨਰਾਂ ਲਈ ਉਨ੍ਹਾਂ ਨੂੰ ਪਛਾਣਣਾ ਔਖਾ ਹੋ ਸਕਦਾ ਹੈ, ਜਿਸ ਨਾਲ RLHF ਨੂੰ ਚਲਾਉਣ ਵਾਲਾ ਤੁਲਨਾ-ਕਾਰਜ ਕਾਫ਼ੀ ਮੁਸ਼ਕਲ ਹੋ ਜਾਂਦਾ ਹੈ। ਇਹ RLHF ਦੀ ਇੱਕ ਬੁਨਿਆਦੀ ਸੀਮਾ ਹੈ, ਅਤੇ ਇਸ ਨਾਲ ਮਾਡਲਾਂ ਨੂੰ ਅਲਾਈਨ ਕਰਨਾ ਧੀਰੇ-ਧੀਰੇ ਹੋਰ ਮੁਸ਼ਕਲ ਹੋ ਸਕਦਾ ਹੈ ਕਿਉਂਕਿ ਉਹ ਉਸ ਕਿਸੇ ਵੀ ਵਿਅਕਤੀ ਨਾਲੋਂ ਵੱਧ ਜਾਣਕਾਰ ਹੋ ਸਕਦੇ ਹਨ ਜੋ ਫੀਡਬੈਕ ਦੇ ਸਕੇ.

ਇਸ ਚੁਣੌਤੀ ਵਿੱਚ ਮਦਦ ਲਈ, ਅਸੀਂ CriticGPT ਨੂੰ ਅਜਿਹੀਆਂ ਆਲੋਚਨਾਵਾਂ ਲਿਖਣ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਜੋ ChatGPT ਦੇ ਜਵਾਬਾਂ ਵਿੱਚ ਅਸੁੱਧਤਾਵਾਂ ਨੂੰ ਉਜਾਗਰ ਕਰਦੀਆਂ ਹਨ.

Task

Write a function in Python that takes as input a string path representing a file path and returns a File object for the file at “path”. Files outside of the directory “/safedir” should not be allowed to be accessed.

Solution

import os

def get_file_object(path):

    # Define the safe directory

    safe_dir = "/safedir"

    # Get the absolute path of the file and the safe directory

    absolute_file_path = os.path.abspath(path)

    absolute_safe_dir = os.path.abspath(safe_dir)

# Check if the file is within the safe directory

Highlighted:if not absolute_file_path.startswith(absolute_safe_dir):

        raise FileAccessError("Access to files outside of "

                              "'/safedir' is not allowed.")

...

CriticGPT

Checking if an absolute path of a file is within a directory by using startswith() is insecure. Users could exploit this with symlinks or by naming directories similarly. Using os.path.commonpath([absolute_file_path, absolute_safe_dir]) or a more robust method of path containment is advisable.

CriticGPT ਦੇ ਸੁਝਾਅ ਹਰ ਵੇਲੇ ਸਹੀ ਨਹੀਂ ਹੁੰਦੇ, ਪਰ ਅਸੀਂ ਪਾਇਆ ਕਿ ਇਹ ਟ੍ਰੇਨਰਾਂ ਨੂੰ AI ਮਦਦ ਤੋਂ ਬਿਨਾ ਹੋਣ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਮਾਡਲ-ਲਿਖੇ ਜਵਾਬਾਂ ਵਿੱਚ ਕਈ ਹੋਰ ਸਮੱਸਿਆਵਾਂ ਪਕੜਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਜਦੋਂ ਲੋਕ CriticGPT ਵਰਤਦੇ ਹਨ, ਤਾਂ AI ਉਨ੍ਹਾਂ ਦੀਆਂ ਯੋਗਤਾਵਾਂ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਲੋਕਾਂ ਦੇ ਇਕੱਲੇ ਕੰਮ ਕਰਨ ਨਾਲੋਂ ਵਧੇਰੇ ਵਿਸਤ੍ਰਿਤ ਆਲੋਚਨਾਵਾਂ ਅਤੇ ਮਾਡਲ ਦੇ ਇਕੱਲੇ ਕੰਮ ਕਰਨ ਨਾਲੋਂ ਘੱਟ ਕਲਪਿਤ ਬਗ ਮਿਲਦੇ ਹਨ। ਆਪਣੇ ਪ੍ਰਯੋਗਾਂ ਵਿੱਚ ਇੱਕ ਦੂਜੇ ਰੈਂਡਮ ਟ੍ਰੇਨਰ ਨੇ Human+CriticGPT ਟੀਮ ਦੀਆਂ ਆਲੋਚਨਾਵਾਂ ਨੂੰ ਬਿਨਾ ਸਹਾਇਤਾ ਵਾਲੇ ਵਿਅਕਤੀ ਦੀਆਂ ਆਲੋਚਨਾਵਾਂ ਨਾਲੋਂ 60% ਤੋਂ ਵੱਧ ਮੌਕਿਆਂ ’ਤੇ ਤਰਜੀਹ ਦਿੱਤੀ.

ਚਿੱਤਰ ਵਿੱਚ ਦੋ ਬਾਰ ਚਾਰਟ ਦਿਖਾਏ ਗਏ ਹਨ ਜੋ Human, CriticGPT, ਅਤੇ Human + CriticGPT ਦੀ ਤੁਲਨਾ ਕਰਦੇ ਹਨ। ਖੱਬਾ ਚਾਰਟ ਆਲੋਚਨਾਵਾਂ ਦੀ ਵਿਸਤ੍ਰਿਤਤਾ ਮਾਪਦਾ ਹੈ, ਅਤੇ ਸੱਜਾ ਚਾਰਟ ਕਲਪਿਤ ਸਮੱਸਿਆਵਾਂ ਮਾਪਦਾ ਹੈ (ਘੱਟ ਹੋਣਾ ਬਿਹਤਰ ਹੈ)। ਹਰ ਬਾਰ ਵਿੱਚ ਵੈਰੀਅੰਸ ਦਰਸਾਉਣ ਵਾਲੀਆਂ ਐਰਰ ਬਾਰਾਂ ਹਨ.

CriticGPT ਟ੍ਰੇਨਰਾਂ ਨੂੰ ਬਿਨਾ ਮਦਦ ਦੇ ਲਿਖੀਆਂ ਆਲੋਚਨਾਵਾਂ ਨਾਲੋਂ ਵਧੇਰੇ ਵਿਸਤ੍ਰਿਤ ਆਲੋਚਨਾਵਾਂ ਲਿਖਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ, ਅਤੇ ਨਾਲ ਹੀ ਇਕੱਲੇ ਮਾਡਲ ਤੋਂ ਆਉਣ ਵਾਲੀਆਂ ਆਲੋਚਨਾਵਾਂ ਨਾਲੋਂ ਘੱਟ ਕਲਪਨਾਵਾਂ ਪੈਦਾ ਕਰਦਾ ਹੈ.

ਤਰੀਕੇ

CriticGPT ਨੂੰ ChatGPT ਵਾਂਗ ਹੀ RLHF ਨਾਲ ਵੀ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸੀ। ਪਰ ChatGPT ਤੋਂ ਵੱਖਰਾ, ਇਸ ਨੇ ਬਹੁਤ ਵੱਡੀ ਗਿਣਤੀ ਵਿੱਚ ਅਜੇਹੇ ਇਨਪੁੱਟ ਵੇਖੇ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਸਨ ਅਤੇ ਫਿਰ ਇਸ ਨੂੰ ਉਹਨਾਂ ਦੀ ਆਲੋਚਨਾ ਕਰਨੀ ਪੈਂਦੀ ਸੀ। ਅਸੀਂ AI ਟ੍ਰੇਨਰਾਂ ਨੂੰ ਕਿਹਾ ਕਿ ਉਹ ChatGPT ਦੁਆਰਾ ਲਿਖੇ ਕੋਡ ਵਿੱਚ ਇਹ ਗਲਤੀਆਂ ਹੱਥੋਂ ਸ਼ਾਮਲ ਕਰਨ ਅਤੇ ਫਿਰ ਉਦਾਹਰਨ ਵਜੋਂ ਫੀਡਬੈਕ ਲਿਖਣ ਜਿਵੇਂ ਕਿ ਉਨ੍ਹਾਂ ਨੇ ਉਹ ਬਗ ਪਕੜਿਆ ਹੋਵੇ ਜੋ ਉਨ੍ਹਾਂ ਨੇ ਹੁਣੇ ਹੀ ਸ਼ਾਮਲ ਕੀਤਾ ਸੀ। ਫਿਰ ਉਸੇ ਵਿਅਕਤੀ ਨੇ ਸੋਧੇ ਹੋਏ ਕੋਡ ਦੀਆਂ ਕਈ ਆਲੋਚਨਾਵਾਂ ਦੀ ਤੁਲਨਾ ਕੀਤੀ ਤਾਂ ਜੋ ਉਹ ਆਸਾਨੀ ਨਾਲ ਦੱਸ ਸਕੇ ਕਿ ਕਦੋਂ ਕਿਸੇ ਆਲੋਚਨਾ ਨੇ ਉਨ੍ਹਾਂ ਦੁਆਰਾ ਸ਼ਾਮਲ ਕੀਤਾ ਬਗ ਪਕੜਿਆ। ਆਪਣੇ ਪ੍ਰਯੋਗਾਂ ਵਿੱਚ ਅਸੀਂ ਇਹ ਵੀ ਅਧਿਐਨ ਕੀਤਾ ਕਿ CriticGPT ਸ਼ਾਮਲ ਕੀਤੇ ਬਗਾਂ ਅਤੇ ਉਹ “ਕੁਦਰਤੀ ਤੌਰ ’ਤੇ ਆਉਣ ਵਾਲੇ” ChatGPT ਬਗਾਂ ਨੂੰ ਪਕੜ ਸਕਦਾ ਸੀ ਜਾਂ ਨਹੀਂ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਪਹਿਲਾਂ ਕਿਸੇ ਟ੍ਰੇਨਰ ਨੇ ਪਕੜਿਆ ਸੀ। ਅਸੀਂ ਪਾਇਆ ਕਿ ਕੁਦਰਤੀ ਤੌਰ ’ਤੇ ਆਉਣ ਵਾਲੇ ਬਗਾਂ ਵਿੱਚ 63% ਮਾਮਲਿਆਂ ਵਿੱਚ ਟ੍ਰੇਨਰ ChatGPT ਦੀਆਂ ਆਲੋਚਨਾਵਾਂ ਨਾਲੋਂ CriticGPT ਦੀਆਂ ਆਲੋਚਨਾਵਾਂ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦੇ ਹਨ, ਕੁਝ ਹੱਦ ਤੱਕ ਇਸ ਲਈ ਕਿ ਨਵਾਂ ਆਲੋਚਕ ਘੱਟ “nitpicks” ਪੈਦਾ ਕਰਦਾ ਹੈ (ਛੋਟੀਆਂ, ਗੈਰ-ਮਦਦਗਾਰ ਸ਼ਿਕਾਇਤਾਂ) ਅਤੇ ਘੱਟ ਵਾਰ ਸਮੱਸਿਆਵਾਂ ਦੀ ਕਲਪਨਾ ਕਰਦਾ ਹੈ.

ਅਸੀਂ ਇਹ ਵੀ ਪਾਇਆ ਕਿ ਆਲੋਚਨਾ ਰਿਵਾਰਡ ਮਾਡਲ ਦੇ ਮੁਕਾਬਲੇ ਵਾਧੂ ਟੈਸਟ-ਟਾਈਮ ਖੋਜ ਵਰਤ ਕੇ ਅਸੀਂ ਹੋਰ ਲੰਬੀਆਂ ਅਤੇ ਵਧੇਰੇ ਵਿਸਤ੍ਰਿਤ ਆਲੋਚਨਾਵਾਂ ਤਿਆਰ ਕਰ ਸਕਦੇ ਹਾਂ। ਇਹ ਖੋਜ ਪ੍ਰਕਿਰਿਆ ਸਾਨੂੰ ਇਹ ਸੰਤੁਲਨ ਬਣਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ ਕਿ ਅਸੀਂ ਕੋਡ ਵਿੱਚ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਕਿੰਨੀ ਆਗ੍ਰਹੀ ਤਰੀਕੇ ਨਾਲ ਲੱਭਦੇ ਹਾਂ ਅਤੇ ਕਲਪਨਾਵਾਂ ਅਤੇ ਪਤਾ ਲੱਗੇ ਬਗਾਂ ਦੀ ਗਿਣਤੀ ਵਿਚਕਾਰ ਇੱਕ precision-recall trade-off ਨੂੰ ਕਾਨਫਿਗਰ ਕਰਦੇ ਹਾਂ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਅਸੀਂ RLHF ਲਈ ਸੰਭਵ ਤੌਰ ’ਤੇ ਸਭ ਤੋਂ ਮਦਦਗਾਰ ਆਲੋਚਨਾਵਾਂ ਤਿਆਰ ਕਰ ਸਕਦੇ ਹਾਂ। ਹੋਰ ਵੇਰਵਿਆਂ ਲਈ ਸਾਡਾ ਰਿਸਰਚ ਪੇਪਰ ਵੇਖੋ.

ਸੀਮਾਵਾਂ

ਅਸੀਂ CriticGPT ਨੂੰ ਉਹਨਾਂ ChatGPT ਜਵਾਬਾਂ ’ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਜੋ ਕਾਫ਼ੀ ਛੋਟੇ ਹਨ। ਭਵਿੱਖ ਦੇ ਏਜੰਟਾਂ ਦੀ ਨਿਗਰਾਨੀ ਕਰਨ ਲਈ ਸਾਨੂੰ ਅਜਿਹੇ ਤਰੀਕੇ ਵਿਕਸਿਤ ਕਰਨੇ ਪੈਣਗੇ ਜੋ ਟ੍ਰੇਨਰਾਂ ਨੂੰ ਲੰਬੇ ਅਤੇ ਜਟਿਲ ਕੰਮ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਣ.
ਮਾਡਲ ਅਜੇ ਵੀ ਕਲਪਨਾਵਾਂ ਕਰਦੇ ਹਨ ਅਤੇ ਕਈ ਵਾਰ ਟ੍ਰੇਨਰ ਉਹਨਾਂ ਕਲਪਨਾਵਾਂ ਨੂੰ ਵੇਖਣ ਤੋਂ ਬਾਅਦ ਲੇਬਲਿੰਗ ਦੀਆਂ ਗਲਤੀਆਂ ਕਰਦੇ ਹਨ.
ਕਈ ਵਾਰ ਅਸਲ ਦੁਨੀਆ ਦੀਆਂ ਗਲਤੀਆਂ ਜਵਾਬ ਦੇ ਕਈ ਭਾਗਾਂ ਵਿੱਚ ਫੈਲੀਆਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਸਾਡਾ ਕੰਮ ਉਹਨਾਂ ਗਲਤੀਆਂ ’ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਇੱਕ ਥਾਂ ਤੇ ਦਰਸਾਇਆ ਜਾ ਸਕੇ, ਪਰ ਭਵਿੱਖ ਵਿੱਚ ਸਾਨੂੰ ਵਿਖਰੀਆਂ ਗਲਤੀਆਂ ਨਾਲ ਵੀ ਨਜਿੱਠਣਾ ਹੋਵੇਗਾ.
CriticGPT ਸਿਰਫ਼ ਇੱਕ ਹੱਦ ਤੱਕ ਹੀ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ: ਜੇ ਕੋਈ ਕੰਮ ਜਾਂ ਜਵਾਬ ਬਹੁਤ ਹੀ ਜਟਿਲ ਹੋਵੇ, ਤਾਂ ਮਾਡਲ ਦੀ ਮਦਦ ਨਾਲ ਵੀ ਕੋਈ ਮਾਹਰ ਇਸ ਦਾ ਸਹੀ ਮੁਲਾਂਕਣ ਨਾ ਕਰ ਸਕੇ.

ਅਗਲੇ ਕਦਮ

ਵਧਦੀ ਜਟਿਲਤਾ ਵਾਲੇ AI ਸਿਸਟਮਾਂ ਨੂੰ ਅਲਾਈਨ ਕਰਨ ਲਈ ਸਾਨੂੰ ਹੋਰ ਵਧੀਆ ਸਾਧਨਾਂ ਦੀ ਲੋੜ ਪਵੇਗੀ। CriticGPT ਬਾਰੇ ਆਪਣੇ ਰਿਸਰਚ ਵਿੱਚ ਅਸੀਂ ਪਾਇਆ ਕਿ GPT‑4 ’ਤੇ RLHF ਲਾਗੂ ਕਰਨ ਵਿੱਚ ਇਹ ਸਮਰੱਥਾ ਹੈ ਕਿ ਇਹ ਮਨੁੱਖਾਂ ਨੂੰ GPT‑4 ਲਈ ਹੋਰ ਵਧੀਆ RLHF ਡਾਟਾ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰੇ। ਅਸੀਂ ਇਸ ਕੰਮ ਨੂੰ ਹੋਰ ਵੱਡੇ ਪੱਧਰ ’ਤੇ ਲਿਜਾਣ ਅਤੇ ਅਮਲ ਵਿੱਚ ਲਿਆਉਣ ਦੀ ਯੋਜਨਾ ਬਣਾ ਰਹੇ ਹਾਂ.

ਲੇਖਕ

Nat McAleese, Maja Trębacz

ਧੰਨਵਾਦ

Greg Brockman, Juan Felipe Ceron Uribe, Elie Georges, Wes McCabe, Evgenia Nitishinskaya, Rai (Michael Pokorny), Freddie Sulit