ਅਸੀਂ GPT‑4 ਬਣਾਇਆ ਹੈ, ਜੋ ਡੀਪ ਲਰਨਿੰਗ ਨੂੰ ਸਕੇਲ ਅੱਪ ਕਰਨ ਵਿੱਚ OpenAI ਦੇ ਯਤਨਾਂ ਦਾ ਸਭ ਤੋਂ ਨਵਾਂ ਮੀਲ ਪੱਥਰ ਹੈ. GPT‑4 ਇੱਕ ਵੱਡਾ ਮਲਟੀਮੋਡਲ ਮਾਡਲ ਹੈ (ਜੋ ਚਿੱਤਰ ਅਤੇ ਟੈਕਸਟ ਇਨਪੁੱਟ ਸਵੀਕਾਰ ਕਰਦਾ ਹੈ, ਅਤੇ ਟੈਕਸਟ ਆਉਟਪੁੱਟ ਦਿੰਦਾ ਹੈ) ਜੋ ਹਾਲਾਂਕਿ ਕਈ ਅਸਲ-ਦੁਨਿਆ ਸਥਿਤੀਆਂ ਵਿੱਚ ਮਨੁੱਖਾਂ ਨਾਲੋਂ ਘੱਟ ਸਮਰੱਥ ਹੈ, ਪਰ ਵੱਖ-ਵੱਖ ਪੇਸ਼ਾਵਰ ਅਤੇ ਅਕਾਦਮਿਕ ਬੈਂਚਮਾਰਕਾਂ 'ਤੇ ਮਨੁੱਖੀ-ਪੱਧਰ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਉਂਦਾ ਹੈ. ਉਦਾਹਰਨ ਲਈ, ਇਹ ਇਕ simulated bar exam ਵਿੱਚ ਟੈਸਟ ਦੇਣ ਵਾਲਿਆਂ ਦੇ ਲਗਭਗ ਸਭ ਤੋਂ ਉੱਚੇ 10% ਦੇ ਬਰਾਬਰ ਸਕੋਰ ਨਾਲ ਪਾਸ ਕਰਦਾ ਹੈ; ਇਸਦੇ ਉਲਟ, GPT‑3.5 ਦਾ ਸਕੋਰ ਲਗਭਗ ਸਭ ਤੋਂ ਹੇਠਲੇ 10% ਦੇ ਨੇੜੇ ਸੀ. ਅਸੀਂ 6 ਮਹੀਨੇ ਤੱਕ ਵਾਰ-ਵਾਰ aligning GPT‑4 ਕੀਤਾ ਹੈ, ਆਪਣੇ adversarial testing program ਅਤੇ ChatGPT ਤੋਂ ਸਿੱਖਿਆ ਲਈਆਂ ਗਈਆਂ ਸਿੱਖਿਆਵਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਜਿਸ ਦਾ ਨਤੀਜਾ factuality, steerability ਅਤੇ guardrails ਤੋਂ ਬਾਹਰ ਜਾਣ ਤੋਂ ਇਨਕਾਰ ਕਰਨ ਵਿੱਚ ਸਾਡੇ ਅਜੇ ਤੱਕ ਦੇ ਸਭ ਤੋਂ ਵਧੀਆ ਨਤੀਜੇ ਹਨ (ਹਾਲਾਂਕਿ ਅਜੇ ਵੀ ਸੰਪੂਰਨ ਤੋਂ ਕਾਫੀ ਦੂਰ).
ਪਿਛਲੇ ਦੋ ਸਾਲਾਂ ਵਿੱਚ, ਅਸੀਂ ਆਪਣੀ ਪੂਰੀ ਡੀਪ ਲਰਨਿੰਗ stack ਦੁਬਾਰਾ ਬਣਾਈ ਅਤੇ Azure ਨਾਲ ਮਿਲ ਕੇ ਆਪਣੇ workload ਲਈ ਬਿਲਕੁਲ ਸ਼ੁਰੂ ਤੋਂ ਇੱਕ supercomputer ਸਹਿ-ਡਿਜ਼ਾਇਨ ਕੀਤਾ. ਇੱਕ ਸਾਲ ਪਹਿਲਾਂ, ਅਸੀਂ GPT‑3.5 ਨੂੰ ਇਸ ਸਿਸਟਮ ਦੀ ਪਹਿਲੀ “test run” ਵਜੋਂ ਟ੍ਰੇਨ ਕੀਤਾ. ਅਸੀਂ ਕੁਝ bugs ਲੱਭੇ ਅਤੇ ਠੀਕ ਕੀਤੇ ਅਤੇ ਆਪਣੀਆਂ ਸਿਧਾਂਤਕ ਬੁਨਿਆਦਾਂ ਸੁਧਾਰੀਆਂ. ਨਤੀਜੇ ਵਜੋਂ, ਸਾਡੀ GPT‑4 ਟ੍ਰੇਨਿੰਗ run (ਘੱਟੋ-ਘੱਟ ਸਾਡੇ ਲਈ ਤਾਂ) ਅਦੁਤੀਯ ਸਥਿਰ ਰਹੀ, ਅਤੇ ਇਹ ਸਾਡਾ ਪਹਿਲਾ ਵੱਡਾ ਮਾਡਲ ਬਣਿਆ ਜਿਸਦੀ ਟ੍ਰੇਨਿੰਗ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਅਸੀਂ ਪਹਿਲਾਂ ਹੀ ਸਹੀ ਅਨੁਮਾਨ ਲਗਾ ਸਕੇ. ਜਿਵੇਂ ਜਿਵੇਂ ਅਸੀਂ ਭਰੋਸੇਯੋਗ ਸਕੇਲਿੰਗ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਰਹਾਂਗੇ, ਸਾਡਾ ਉਦੇਸ਼ ਆਪਣੀ ਵਿਧੀ ਨੂੰ ਹੋਰ ਨਿਖਾਰਨਾ ਹੈ ਤਾਂ ਜੋ ਅਸੀਂ ਭਵਿੱਖ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਵਧਦੀ ਦੂਰੀ ਪਹਿਲਾਂ ਹੀ ਅਨੁਮਾਨ ਲਗਾ ਸਕੀਏ ਅਤੇ ਤਿਆਰੀ ਕਰ ਸਕੀਏ—ਜਿਸਨੂੰ ਅਸੀਂ ਸੁਰੱਖਿਆ ਲਈ ਨਿਰਣਾਇਕ ਮੰਨਦੇ ਹਾਂ.
ਅਸੀਂ ChatGPT ਅਤੇ API (ਇੱਕ waitlist ਨਾਲ) ਰਾਹੀਂ GPT‑4 ਦੀ ਟੈਕਸਟ ਇਨਪੁੱਟ ਸਮਰੱਥਾ ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ. ਚਿੱਤਰ ਇਨਪੁੱਟ ਸਮਰੱਥਾ ਨੂੰ ਹੋਰ ਵਿਆਪਕ ਉਪਲਬਧਤਾ ਲਈ ਤਿਆਰ ਕਰਨ ਵਾਸਤੇ, ਅਸੀਂ ਸ਼ੁਰੂਆਤ ਵਿੱਚ ਇੱਕ ਇੱਕੋ ਭਾਗੀਦਾਰ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਨਾਲ ਨਜ਼ਦੀਕੀ ਸਹਿਯੋਗ ਕਰ ਰਹੇ ਹਾਂ. ਅਸੀਂ OpenAI Evals(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਨੂੰ ਵੀ ਓਪਨ-ਸੋਰਸ ਕਰ ਰਹੇ ਹਾਂ, ਜੋ AI ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਆਟੋਮੈਟਿਕ ਮੁਲਾਂਕਣ ਲਈ ਸਾਡਾ ਫ੍ਰੇਮਵਰਕ ਹੈ, ਤਾਂ ਜੋ ਕੋਈ ਵੀ ਸਾਡੇ ਮਾਡਲਾਂ ਵਿੱਚ ਕਮੀਆਂ ਦੀ ਰਿਪੋਰਟ ਕਰ ਸਕੇ ਅਤੇ ਅਗਲੇ ਸੁਧਾਰਾਂ ਨੂੰ ਦਿਸ਼ਾ ਦੇ ਸਕੇ.
ਇੱਕ ਆਮ ਗੱਲਬਾਤ ਵਿੱਚ, GPT‑3.5 ਅਤੇ GPT‑4 ਵਿਚਕਾਰ ਫਰਕ ਸੁਖਮ ਹੋ ਸਕਦਾ ਹੈ. ਜਦੋਂ ਕੰਮ ਦੀ ਜਟਿਲਤਾ ਕਾਫੀ ਉੱਚੀ ਹੱਦ ਤੱਕ ਪਹੁੰਚਦੀ ਹੈ, ਤਦ ਫਰਕ ਸਪੱਸ਼ਟ ਹੁੰਦਾ ਹੈ—GPT‑4, GPT‑3.5 ਨਾਲੋਂ ਵੱਧ ਭਰੋਸੇਯੋਗ, ਰਚਨਾਤਮਕ ਅਤੇ ਕਾਫੀ ਸੁਖਮ ਨਿਰਦੇਸ਼ਾਂ ਨੂੰ ਸੰਭਾਲਣ ਯੋਗ ਹੈ.
ਦੋਵੇਂ ਮਾਡਲਾਂ ਵਿਚਕਾਰ ਫਰਕ ਸਮਝਣ ਲਈ, ਅਸੀਂ ਕਈ ਕਿਸਮ ਦੇ ਬੈਂਚਮਾਰਕਾਂ 'ਤੇ ਟੈਸਟ ਕੀਤਾ, ਜਿਸ ਵਿੱਚ ਉਹ ਪ੍ਰੀਖਿਆਵਾਂ ਵੀ ਸ਼ਾਮਲ ਸਨ ਜੋ ਮੁੱਢਲੇ ਤੌਰ 'ਤੇ ਮਨੁੱਖਾਂ ਲਈ ਬਣਾਈਆਂ ਗਈਆਂ ਸਨ. ਅਸੀਂ ਸਭ ਤੋਂ ਨਵੀਆਂ ਸਰਵਜਨਕ ਤੌਰ 'ਤੇ ਉਪਲਬਧ ਟੈਸਟਾਂ ਦਾ ਇਸਤੇਮਾਲ ਕੀਤਾ (ਓਲੰਪਿਆਡ ਅਤੇ AP ਫ੍ਰੀ ਰਿਸਪਾਂਸ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਮਾਮਲੇ ਵਿੱਚ) ਜਾਂ 2022–2023 ਦੇ ਅਭਿਆਸ ਪ੍ਰੀਖਿਆ ਸੰਸਕਰਣ ਖਰੀਦੇ. ਅਸੀਂ ਇਨ੍ਹਾਂ ਪ੍ਰੀਖਿਆਵਾਂ ਲਈ ਕੋਈ ਖਾਸ ਟ੍ਰੇਨਿੰਗ ਨਹੀਂ ਕੀਤੀ. ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਮਾਡਲ ਨੇ ਪ੍ਰੀਖਿਆਵਾਂ ਦੇ ਕੁਝ ਘੱਟ ਪ੍ਰਸ਼ਨ ਵੇਖੇ ਸਨ, ਪਰ ਸਾਨੂੰ ਵਿਸ਼ਵਾਸ ਹੈ ਕਿ ਨਤੀਜੇ ਪ੍ਰਤੀਨਿਧਿਕ ਹਨ—ਵੇਰਵਿਆਂ ਲਈ ਸਾਡੀ ਤਕਨੀਕੀ ਰਿਪੋਰਟ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵੇਖੋ.
ਅੰਦਰੂਨੀ ਸੰਦਰਭ 1
ਅਸੀਂ GPT‑4 ਦਾ ਮੁਲਾਂਕਣ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲਾਂ ਲਈ ਬਣਾਏ ਗਏ ਰਵਾਇਤੀ ਬੈਂਚਮਾਰਕਾਂ 'ਤੇ ਵੀ ਕੀਤਾ. GPT‑4 ਮੌਜੂਦਾ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਤੋਂ, ਨਾਲ ਹੀ ਜ਼ਿਆਦਾਤਰ state-of-the-art (SOTA) ਮਾਡਲਾਂ ਤੋਂ, ਜੋ ਬੈਂਚਮਾਰਕ-ਖਾਸ ਤਿਆਰੀ ਜਾਂ ਵਾਧੂ ਟ੍ਰੇਨਿੰਗ ਪ੍ਰੋਟੋਕਾਲ ਸ਼ਾਮਲ ਕਰ ਸਕਦੇ ਹਨ, ਕਾਫੀ ਵਧੀਆ ਹੈ:
ਮੌਜੂਦਾ ਕਈ ML ਬੈਂਚਮਾਰਕ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਲਿਖੇ ਗਏ ਹਨ. ਹੋਰ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਸਮਰੱਥਾ ਦੀ ਸ਼ੁਰੂਆਤੀ ਸਮਝ ਲਈ, ਅਸੀਂ Azure Translate ਦੀ ਵਰਤੋਂ ਕਰਕੇ MMLU ਬੈਂਚਮਾਰਕ—57 ਵਿਸ਼ਿਆਂ 'ਤੇ ਫੈਲੇ 14,000 ਬਹੁ-ਵਿਕਲਪੀ ਪ੍ਰਸ਼ਨਾਂ ਦਾ ਇੱਕ ਸੈੱਟ—ਨੂੰ ਕਈ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਅਨੁਵਾਦ ਕੀਤਾ (ਵੇਖੋ ਪਰਿਸ਼ਿਸ਼ਟ). ਟੈਸਟ ਕੀਤੀਆਂ 26 ਵਿੱਚੋਂ 24 ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ, GPT‑4, GPT‑3.5 ਅਤੇ ਹੋਰ LLMs (Chinchilla, PaLM) ਦੀ ਅੰਗਰੇਜ਼ੀ-ਭਾਸ਼ਾ ਕਾਰਗੁਜ਼ਾਰੀ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਲੈਟਵਿਅਨ, ਵੇਲਸ਼ ਅਤੇ ਸਵਾਹਿਲੀ ਵਰਗੀਆਂ ਘੱਟ-ਸਰੋਤ ਭਾਸ਼ਾਵਾਂ ਵੀ ਸ਼ਾਮਲ ਹਨ:
ਅਸੀਂ GPT‑4 ਨੂੰ ਅੰਦਰੂਨੀ ਤੌਰ 'ਤੇ ਵੀ ਵਰਤ ਰਹੇ ਹਾਂ, ਅਤੇ ਇਸਦਾ support, sales, content moderation ਅਤੇ programming ਵਰਗੇ ਕੰਮਾਂ 'ਤੇ ਵੱਡਾ ਪ੍ਰਭਾਵ ਪਿਆ ਹੈ. ਅਸੀਂ ਇਸਦੀ ਵਰਤੋਂ ਮਨੁੱਖਾਂ ਦੀ AI outputs ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਲਈ ਵੀ ਕਰ ਰਹੇ ਹਾਂ, ਜਿਸ ਨਾਲ ਸਾਡੀ alignment strategy ਦਾ ਦੂਜਾ ਪੜਾਅ ਸ਼ੁਰੂ ਹੁੰਦਾ ਹੈ.
GPT‑4 ਟੈਕਸਟ ਅਤੇ ਚਿੱਤਰਾਂ ਵਾਲਾ ਪ੍ਰੌੰਪਟ ਸਵੀਕਾਰ ਕਰ ਸਕਦਾ ਹੈ, ਜੋ—ਕੇਵਲ-ਟੈਕਸਟ ਸੈਟਿੰਗ ਦੇ ਸਮਾਂਤਰ—ਉਪਭੋਗਤਾ ਨੂੰ ਕੋਈ ਵੀ vision ਜਾਂ language ਕੰਮ ਨਿਰਧਾਰਤ ਕਰਨ ਦਿੰਦਾ ਹੈ. ਖ਼ਾਸ ਤੌਰ 'ਤੇ, ਇਹ ਟੈਕਸਟ ਆਉਟਪੁੱਟ (ਕੁਦਰਤੀ ਭਾਸ਼ਾ, ਕੋਡ ਆਦਿ) ਤਿਆਰ ਕਰਦਾ ਹੈ ਜਦੋਂ ਇਨਪੁੱਟ ਵਿੱਚ ਟੈਕਸਟ ਅਤੇ ਚਿੱਤਰ ਮਿਲੇ-ਝੁਲੇ ਰੂਪ ਵਿੱਚ ਹੁੰਦੇ ਹਨ. ਕਈ ਖੇਤਰਾਂ ਵਿੱਚ—ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਟੈਕਸਟ ਅਤੇ ਫੋਟੋ ਵਾਲੇ ਦਸਤਾਵੇਜ਼, ਡਾਇਗ੍ਰਾਮ ਜਾਂ ਸਕ੍ਰੀਨਸ਼ਾਟ ਸ਼ਾਮਲ ਹਨ—GPT‑4 ਕੇਵਲ-ਟੈਕਸਟ ਇਨਪੁੱਟਾਂ ਵਾਲੀਆਂ ਹੀ ਸਮਰੱਥਾਵਾਂ ਦਿਖਾਉਂਦਾ ਹੈ. ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਸਨੂੰ test-time ਤਕਨੀਕਾਂ ਨਾਲ ਵਧਾਇਆ ਜਾ ਸਕਦਾ ਹੈ ਜੋ ਕੇਵਲ-ਟੈਕਸਟ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਲਈ ਵਿਕਸਿਤ ਕੀਤੀਆਂ ਗਈਆਂ ਸਨ, ਜਿਸ ਵਿੱਚ ਫਿਊ-ਸ਼ਾਟ ਅਤੇ ਚੇਨ-ਆਫ-ਥੌਟ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਪ੍ਰੌੰਪਟਿੰਗ ਸ਼ਾਮਲ ਹੈ. ਚਿੱਤਰ ਇਨਪੁੱਟ ਅਜੇ ਵੀ ਇੱਕ research preview ਹਨ ਅਤੇ ਸਰਵਜਨਕ ਤੌਰ 'ਤੇ ਉਪਲਬਧ ਨਹੀਂ ਹਨ.
ਅਸੀਂ ਮਿਆਰੀ ਅਕਾਦਮਿਕ vision ਬੈਂਚਮਾਰਕਾਂ ਦੇ ਇੱਕ ਸੰਕੁਚਿਤ ਸੈੱਟ 'ਤੇ GPT‑4 ਦਾ ਮੁਲਾਂਕਣ ਕਰਕੇ ਇਸਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦੀ ਝਲਕ ਦਿੰਦੇ ਹਾਂ. ਹਾਲਾਂਕਿ, ਇਹ ਅੰਕ ਇਸ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦੀ ਪੂਰੀ ਹੱਦ ਨਹੀਂ ਦਰਸਾਉਂਦੇ ਕਿਉਂਕਿ ਅਸੀਂ ਨਿਰੰਤਰ ਨਵੇਂ ਅਤੇ ਰੋਮਾਂਚਕ ਕੰਮ ਖੋਜ ਰਹੇ ਹਾਂ ਜਿਨ੍ਹਾਂ ਨੂੰ ਇਹ ਮਾਡਲ ਸੰਭਾਲ ਸਕਦਾ ਹੈ. ਅਸੀਂ ਜਲਦੀ ਹੀ ਹੋਰ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਮੁਲਾਂਕਣ ਅੰਕ ਜਾਰੀ ਕਰਨ ਦੇ ਨਾਲ ਨਾਲ test-time ਤਕਨੀਕਾਂ ਦੇ ਪ੍ਰਭਾਵ ਦੀ ਵਿਸਥਾਰਪੂਰਵਕ ਜਾਂਚ ਕਰਨ ਦੀ ਯੋਜਨਾ ਬਣਾਈ ਹੈ.
ਅੰਦਰੂਨੀ ਫੁੱਟਨੋਟA
ਅਸੀਂ AI ਦੇ ਵਿਹਾਰ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਬਾਰੇ ਆਪਣੀ ਪੋਸਟ ਵਿੱਚ ਦਰਸਾਈ ਯੋਜਨਾ ਦੇ ਹਰ ਪੱਖ 'ਤੇ ਕੰਮ ਕਰ ਰਹੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ steerability ਵੀ ਸ਼ਾਮਲ ਹੈ. ਇੱਕ ਨਿਸ਼ਚਿਤ verbosity, tone, ਅਤੇ style ਵਾਲੀ ਰਵਾਇਤੀ ChatGPT personality ਦੀ ਬਜਾਏ, developers (ਅਤੇ ਜਲਦੀ ਹੀ ChatGPT ਉਪਭੋਗਤਾ) ਹੁਣ “system” message ਵਿੱਚ ਉਹ ਦਿਸ਼ਾਵਾਂ ਵਰਣਨ ਕਰਕੇ ਆਪਣੀ AI ਦੀ ਸ਼ੈਲੀ ਅਤੇ ਕੰਮ ਨਿਰਧਾਰਤ ਕਰ ਸਕਦੇ ਹਨ. System messages API ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਹੱਦਾਂ ਦੇ ਅੰਦਰ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਆਪਣੇ ਉਪਭੋਗਤਾਵਾਂ ਦਾ ਅਨੁਭਵ ਕਾਫੀ ਹੱਦ ਤੱਕ ਕਸਟਮਾਈਜ਼ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੇ ਹਨ. ਅਸੀਂ ਇੱਥੇ ਸੁਧਾਰ ਕਰਦੇ ਰਹਾਂਗੇ (ਅਤੇ ਖ਼ਾਸ ਤੌਰ 'ਤੇ ਇਹ ਜਾਣਦੇ ਹਾਂ ਕਿ system messages ਮੌਜੂਦਾ ਮਾਡਲ ਨੂੰ “ਜੈਲਬ੍ਰੇਕ” ਕਰਨ ਦਾ ਸਭ ਤੋਂ ਆਸਾਨ ਤਰੀਕਾ ਹਨ, ਯਾਨੀ ਹੱਦਾਂ ਦੀ ਪਾਲਣਾ ਪੂਰੀ ਨਹੀਂ ਹੈ), ਪਰ ਅਸੀਂ ਤੁਹਾਨੂੰ ਇਸਨੂੰ ਅਜ਼ਮਾਉਣ ਅਤੇ ਆਪਣੀ ਰਾਏ ਸਾਂਝੀ ਕਰਨ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕਰਦੇ ਹਾਂ.
ਇਸ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦੇ ਬਾਵਜੂਦ, GPT‑4 ਵਿੱਚ ਪਹਿਲਾਂ ਦੇ GPT ਮਾਡਲਾਂ ਵਰਗੀਆਂ ਹੀ ਸੀਮਾਵਾਂ ਹਨ. ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ ਇਹ ਅਜੇ ਵੀ ਪੂਰੀ ਤਰ੍ਹਾਂ ਭਰੋਸੇਯੋਗ ਨਹੀਂ ਹੈ (ਇਹ ਤੱਥ “hallucinate” ਕਰਦਾ ਹੈ ਅਤੇ ਰੀਜ਼ਨਿੰਗ ਗਲਤੀਆਂ ਕਰਦਾ ਹੈ). ਭਾਸ਼ਾ ਮਾਡਲ ਆਉਟਪੁੱਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਸਮੇਂ, ਖ਼ਾਸ ਤੌਰ 'ਤੇ ਉੱਚ-ਦਾਅ ਵਾਲੇ ਸੰਦਰਭਾਂ ਵਿੱਚ, ਬਹੁਤ ਸਾਵਧਾਨੀ ਵਰਤਣੀ ਚਾਹੀਦੀ ਹੈ, ਅਤੇ ਸਟੀਕ ਪ੍ਰੋਟੋਕਾਲ (ਜਿਵੇਂ ਮਨੁੱਖੀ ਸਮੀਖਿਆ, ਵਾਧੂ ਸੰਦਰਭ ਨਾਲ ਗ੍ਰਾਊਂਡਿੰਗ, ਜਾਂ ਉੱਚ-ਦਾਅ ਵਾਲੇ ਇਸਤੇਮਾਲਾਂ ਤੋਂ ਪੂਰੀ ਤਰ੍ਹਾਂ ਬਚਣਾ) ਖ਼ਾਸ use-case ਦੀਆਂ ਲੋੜਾਂ ਨਾਲ ਮੇਲ ਖਾਣਾ ਚਾਹੀਦਾ ਹੈ.
ਹਾਲਾਂਕਿ ਇਹ ਅਜੇ ਵੀ ਇੱਕ ਅਸਲੀ ਸਮੱਸਿਆ ਹੈ, GPT‑4 ਪਹਿਲਾਂ ਦੇ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ hallucinations ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ 'ਤੇ ਘਟਾਉਂਦਾ ਹੈ (ਜੋ ਆਪਣੇ ਆਪ ਵਿੱਚ ਹਰ iteration ਨਾਲ ਸੁਧਰ ਰਹੇ ਹਨ). ਸਾਡੇ ਅੰਦਰੂਨੀ adversarial factuality ਮੁਲਾਂਕਣਾਂ 'ਤੇ GPT‑4, ਸਾਡੇ ਸਭ ਤੋਂ ਨਵੇਂ GPT‑3.5 ਨਾਲੋਂ 40% ਉੱਚਾ ਸਕੋਰ ਕਰਦਾ ਹੈ:
ਅਸੀਂ TruthfulQA ਵਰਗੇ ਬਾਹਰੀ ਬੈਂਚਮਾਰਕਾਂ 'ਤੇ ਪ੍ਰਗਤੀ ਕੀਤੀ ਹੈ, ਜੋ ਮਾਡਲ ਦੀ ਤੱਥ ਨੂੰ ਵਿਰੋਧੀ ਢੰਗ ਨਾਲ ਚੁਣੀਆਂ ਗਈਆਂ ਗਲਤ ਕਥਨਾਂ ਦੀ ਸੈੱਟ ਤੋਂ ਵੱਖ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ. ਇਹ ਪ੍ਰਸ਼ਨ ਤੱਥਾਤਮਕ ਤੌਰ 'ਤੇ ਗਲਤ ਪਰ ਅੰਕੜਿਆਂ ਮੁਤਾਬਕ ਆਕਰਸ਼ਕ ਜਵਾਬਾਂ ਨਾਲ ਜੋੜੇ ਜਾਂਦੇ ਹਨ.
GPT‑4 ਬੇਸ ਮਾਡਲ ਇਸ ਕੰਮ ਵਿੱਚ GPT‑3.5 ਨਾਲੋਂ ਕੇਵਲ ਥੋੜ੍ਹਾ ਹੀ ਬਿਹਤਰ ਹੈ; ਪਰ RLHF post-training ਤੋਂ ਬਾਅਦ (ਉਹੀ ਪ੍ਰਕਿਰਿਆ ਲਾਗੂ ਕਰਦੇ ਹੋਏ ਜੋ ਅਸੀਂ GPT‑3.5 ਨਾਲ ਵਰਤੀ ਸੀ) ਵੱਡਾ ਅੰਤਰ ਆ ਜਾਂਦਾ ਹੈ. ਹੇਠਾਂ ਕੁਝ ਉਦਾਹਰਨਾਂ ਵੇਖਣ 'ਤੇ, GPT‑4 ਆਮ ਕਹਾਵਤਾਂ ਚੁਣਨ ਤੋਂ ਬਚਦਾ ਹੈ (you can’t teach an old dog new tricks), ਪਰ ਇਹ ਅਜੇ ਵੀ ਸੁਖਮ ਵੇਰਵੇ ਗੁਆ ਸਕਦਾ ਹੈ (Elvis Presley ਕਿਸੇ actor ਦਾ ਪੁੱਤਰ ਨਹੀਂ ਸੀ).
ਮਾਡਲ ਦੇ ਆਉਟਪੁੱਟ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਪੱਖਪਾਤ ਹੋ ਸਕਦੇ ਹਨ—ਅਸੀਂ ਇਨ੍ਹਾਂ 'ਤੇ ਕੁਝ ਤਰੱਕੀ ਕੀਤੀ ਹੈ ਪਰ ਅਜੇ ਵੀ ਹੋਰ ਕੰਮ ਕਰਨਾ ਬਾਕੀ ਹੈ. ਸਾਡੀ ਹਾਲੀਆ ਬਲੌਗ ਪੋਸਟ ਦੇ ਅਨੁਸਾਰ, ਸਾਡਾ ਉਦੇਸ਼ ਉਹ AI ਸਿਸਟਮ ਬਣਾਉਣਾ ਹੈ ਜਿਨ੍ਹਾਂ ਦੇ ਡਿਫਾਲਟ ਵਿਹਾਰ ਵਾਜਬ ਹੋਣ, ਜੋ ਉਪਭੋਗਤਾਵਾਂ ਦੀਆਂ ਵੱਡੀ ਰੇਂਜ ਦੀਆਂ ਕਦਰਾਂ ਨੂੰ ਦਰਸਾਉਣ, ਉਹਨਾਂ ਸਿਸਟਮਾਂ ਨੂੰ ਵਿਆਪਕ ਹੱਦਾਂ ਦੇ ਅੰਦਰ ਕਸਟਮਾਈਜ਼ ਕਰਨ ਦੀ ਆਗਿਆ ਦੇਣ, ਅਤੇ ਇਹ ਜਾਣਨ ਲਈ ਜਨਤਕ ਇਨਪੁੱਟ ਲੈਣ ਕਿ ਉਹ ਹੱਦਾਂ ਕੀ ਹੋਣੀਆਂ ਚਾਹੀਦੀਆਂ ਹਨ.
GPT‑4 ਵਿੱਚ ਆਮ ਤੌਰ 'ਤੇ ਉਹਨਾਂ ਘਟਨਾਵਾਂ ਬਾਰੇ ਗਿਆਨ ਦੀ ਘਾਟ ਹੈ ਜੋ ਇਸਦੇ ਬਹੁਤੇ ਡਾਟਾ ਦੇ ਕੱਟ-ਆਫ (ਸਤੰਬਰ 2021) ਤੋਂ ਬਾਅਦ ਹੋਈਆਂ ਹਨ, ਅਤੇ ਇਹ ਆਪਣੇ ਅਨੁਭਵ ਤੋਂ ਨਹੀਂ ਸਿੱਖਦਾ. ਕਈ ਵਾਰ ਇਹ ਸਧਾਰਣ ਰੀਜ਼ਨਿੰਗ ਗਲਤੀਆਂ ਕਰ ਸਕਦਾ ਹੈ ਜੋ ਇੰਨੇ ਸਾਰੇ ਖੇਤਰਾਂ ਵਿੱਚ ਇਸਦੀ ਯੋਗਤਾ ਨਾਲ ਮੇਲ ਨਹੀਂ ਖਾਂਦੀਆਂ, ਜਾਂ ਉਪਭੋਗਤਾ ਵੱਲੋਂ ਦਿੱਤੇ ਗਏ ਸਪੱਸ਼ਟ ਝੂਠੇ ਬਿਆਨਾਂ ਨੂੰ ਮੰਨਣ ਵਿੱਚ ਬਹੁਤ ਭੋਲਾ ਹੋ ਸਕਦਾ ਹੈ. ਅਤੇ ਕਈ ਵਾਰ ਇਹ ਔਖੀਆਂ ਸਮੱਸਿਆਵਾਂ ਵਿੱਚ ਮਨੁੱਖਾਂ ਵਾਂਗ ਹੀ ਅਸਫਲ ਹੋ ਸਕਦਾ ਹੈ, ਜਿਵੇਂ ਆਪਣੇ ਬਣਾਏ ਕੋਡ ਵਿੱਚ ਸੁਰੱਖਿਆ ਖਾਮੀਆਂ ਸ਼ਾਮਲ ਕਰ ਦੇਣਾ.
GPT‑4 ਆਪਣੀਆਂ ਭਵਿੱਖਬਾਣੀਆਂ ਵਿੱਚ ਪੂਰੇ ਵਿਸ਼ਵਾਸ ਨਾਲ ਗਲਤ ਵੀ ਹੋ ਸਕਦਾ ਹੈ, ਅਤੇ ਜਦੋਂ ਇਸ ਤੋਂ ਗਲਤੀ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਹੁੰਦੀ ਹੈ ਤਦ ਇਹ ਕੰਮ ਨੂੰ ਮੁੜ-ਜਾਂਚਣ ਵਿੱਚ ਸਾਵਧਾਨੀ ਨਹੀਂ ਵਰਤਦਾ. ਦਿਲਚਸਪ ਗੱਲ ਇਹ ਹੈ ਕਿ ਬੇਸ ਪ੍ਰੀ-ਟ੍ਰੇਨਡ ਮਾਡਲ ਬਹੁਤ ਵਧੀਆ calibrated ਹੈ (ਜਵਾਬ 'ਤੇ ਇਸਦਾ ਅਨੁਮਾਨਿਤ ਵਿਸ਼ਵਾਸ ਆਮ ਤੌਰ 'ਤੇ ਸਹੀ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਨਾਲ ਮਿਲਦਾ ਹੈ). ਪਰ ਸਾਡੀ ਮੌਜੂਦਾ post-training ਪ੍ਰਕਿਰਿਆ ਰਾਹੀਂ ਇਹ calibration ਘਟ ਜਾਂਦੀ ਹੈ.
ਅਸੀਂ GPT‑4 ਨੂੰ ਹੋਰ ਸੁਰੱਖਿਅਤ ਅਤੇ ਹੋਰ ਸੰਰੇਖਿਤ ਬਣਾਉਣ ਲਈ ਟ੍ਰੇਨਿੰਗ ਦੀ ਸ਼ੁਰੂਆਤ ਤੋਂ ਹੀ ਇਸ 'ਤੇ ਦੁਹਰਾਈ ਕਰ ਰਹੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ pretraining data ਦੀ ਚੋਣ ਅਤੇ filtering, evaluations ਅਤੇ expert engagement, model safety ਸੁਧਾਰ, ਅਤੇ monitoring ਅਤੇ enforcement ਵਰਗੇ ਯਤਨ ਸ਼ਾਮਲ ਹਨ.
GPT‑4 ਵਿੱਚ ਪਹਿਲਾਂ ਦੇ ਮਾਡਲਾਂ ਵਰਗੇ ਹੀ ਖਤਰੇ ਹਨ, ਜਿਵੇਂ ਹਾਨੀਕਾਰਕ ਸਲਾਹ, buggy code ਜਾਂ ਗਲਤ ਜਾਣਕਾਰੀ ਤਿਆਰ ਕਰਨਾ. ਪਰ GPT‑4 ਦੀਆਂ ਵਾਧੂ ਸਮਰੱਥਾਵਾਂ ਨਵੇਂ risk surfaces ਪੈਦਾ ਕਰਦੀਆਂ ਹਨ. ਇਨ੍ਹਾਂ ਖਤਰਿਆਂ ਦੀ ਹੱਦ ਸਮਝਣ ਲਈ, ਅਸੀਂ AI alignment risks, cybersecurity, biorisk, trust and safety, ਅਤੇ international security ਵਰਗੇ ਖੇਤਰਾਂ ਦੇ 50 ਤੋਂ ਵੱਧ ਮਾਹਿਰਾਂ ਨੂੰ ਮਾਡਲ ਦੀ adversarial testing ਲਈ ਸ਼ਾਮਲ ਕੀਤਾ. ਉਨ੍ਹਾਂ ਦੇ ਨਤੀਜਿਆਂ ਨੇ ਖ਼ਾਸ ਤੌਰ 'ਤੇ ਸਾਨੂੰ ਉੱਚ-ਖਤਰਾ ਖੇਤਰਾਂ ਵਿੱਚ ਮਾਡਲ ਵਿਹਾਰ ਦੀ ਜਾਂਚ ਕਰਨ ਯੋਗ ਬਣਾਇਆ ਜਿੱਥੇ ਮੁਲਾਂਕਣ ਲਈ ਮਾਹਰਤਾ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ. ਇਨ੍ਹਾਂ ਮਾਹਿਰਾਂ ਤੋਂ ਮਿਲੀ ਫੀਡਬੈਕ ਅਤੇ ਡਾਟਾ ਸਾਡੇ mitigation ਅਤੇ model ਸੁਧਾਰਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋਏ; ਉਦਾਹਰਨ ਲਈ, ਅਸੀਂ ਖਤਰਨਾਕ ਰਸਾਇਣ ਬਣਾਉਣ ਬਾਰੇ ਬੇਨਤੀਆਂ ਨੂੰ ਇਨਕਾਰ ਕਰਨ ਦੀ GPT‑4 ਦੀ ਸਮਰੱਥਾ ਸੁਧਾਰਣ ਲਈ ਵਾਧੂ ਡਾਟਾ ਇਕੱਠਾ ਕੀਤਾ ਹੈ.
GPT‑4 RLHF ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਇੱਕ ਵਾਧੂ safety reward signal ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ ਤਾਂ ਜੋ ਹਾਨੀਕਾਰਕ ਆਉਟਪੁੱਟ ਘਟਾਏ ਜਾ ਸਕਣ (ਜਿਵੇਂ ਸਾਡੀਆਂ ਵਰਤੋਂ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼ਾਂ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਪਰਿਭਾਸ਼ਿਤ ਹੈ), ਮਾਡਲ ਨੂੰ ਐਸੀ ਸਮੱਗਰੀ ਲਈ ਬੇਨਤੀਆਂ ਠੁਕਰਾਉਣ ਲਈ ਟ੍ਰੇਨ ਕਰਕੇ. ਇਹ reward, safety-ਸੰਬੰਧਿਤ ਪ੍ਰੌੰਪਟਾਂ 'ਤੇ ਸੁਰੱਖਿਆ ਹੱਦਾਂ ਅਤੇ completion style ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਵਾਲੇ GPT‑4 zero-shot classifier ਵੱਲੋਂ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ. ਮਾਡਲ ਨੂੰ ਵੈਧ ਬੇਨਤੀਆਂ ਨੂੰ ਇਨਕਾਰ ਕਰਨ ਤੋਂ ਰੋਕਣ ਲਈ, ਅਸੀਂ ਵੱਖ-ਵੱਖ ਸਰੋਤਾਂ ਤੋਂ ਵਿਭਿੰਨ ਡੈਟਾਸੈੱਟ ਇਕੱਠਾ ਕਰਦੇ ਹਾਂ (ਜਿਵੇਂ labeled production data, human red-teaming, model-generated prompts) ਅਤੇ safety reward signal (ਧਨਾਤਮਕ ਜਾਂ ਰਣਾਤਮਕ ਮੁੱਲ ਨਾਲ) ਨੂੰ allowed ਅਤੇ disallowed ਦੋਵੇਂ ਸ਼੍ਰੇਣੀਆਂ 'ਤੇ ਲਾਗੂ ਕਰਦੇ ਹਾਂ.
ਸਾਡੇ mitigation ਨੇ GPT‑3.5 ਦੇ ਮੁਕਾਬਲੇ GPT‑4 ਦੀਆਂ ਕਈ safety ਗੁਣਵੱਤਾਵਾਂ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ 'ਤੇ ਸੁਧਾਰਿਆ ਹੈ. ਅਸੀਂ GPT‑3.5 ਨਾਲੋਂ disallowed content ਲਈ ਬੇਨਤੀਆਂ ਦਾ ਜਵਾਬ ਦੇਣ ਦੀ ਮਾਡਲ ਦੀ ਰੁਝਾਨ ਨੂੰ 82% ਘਟਾਇਆ ਹੈ, ਅਤੇ GPT‑4 ਸੰਵੇਦਨਸ਼ੀਲ ਬੇਨਤੀਆਂ (ਜਿਵੇਂ ਮੈਡੀਕਲ ਸਲਾਹ ਅਤੇ self-harm) ਦਾ ਜਵਾਬ ਸਾਡੀਆਂ ਨੀਤੀਆਂ ਦੇ ਅਨੁਸਾਰ 29% ਵੱਧ ਵਾਰ ਦਿੰਦਾ ਹੈ.
ਕੁੱਲ ਮਿਲਾਕੇ, ਸਾਡੇ ਮਾਡਲ-ਪੱਧਰ ਦੇ ਦਖਲ ਮਾੜੇ ਵਿਹਾਰ ਨੂੰ ਉਕਸਾਉਣਾ ਹੋਰ ਮੁਸ਼ਕਲ ਬਣਾਉਂਦੇ ਹਨ, ਪਰ ਇਹ ਕਰਨਾ ਅਜੇ ਵੀ ਸੰਭਵ ਹੈ. ਇਸ ਤੋਂ ਇਲਾਵਾ, ਅਜੇ ਵੀ ਐਸੇ “ਜੈਲਬ੍ਰੇਕ” ਮੌਜੂਦ ਹਨ ਜੋ ਸਾਡੀਆਂ ਵਰਤੋਂ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਉਲੰਘਣਾ ਕਰਨ ਵਾਲੀ ਸਮੱਗਰੀ ਬਣਾਉਂਦੇ ਹਨ. ਜਿਵੇਂ AI ਸਿਸਟਮਾਂ ਦਾ “ਪ੍ਰਤੀ ਟੋਕਨ ਖਤਰਾ” ਵੱਧਦਾ ਹੈ, ਇਨ੍ਹਾਂ ਦਖਲਾਂ ਵਿੱਚ ਬਹੁਤ ਉੱਚ ਭਰੋਸੇਯੋਗਤਾ ਹਾਸਲ ਕਰਨਾ ਨਿਰਣਾਇਕ ਹੋਵੇਗਾ; ਫਿਲਹਾਲ ਇਹ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਇਨ੍ਹਾਂ ਸੀਮਾਵਾਂ ਨੂੰ ਤੈਨਾਤੀ-ਸਮੇਂ ਦੀਆਂ ਸੁਰੱਖਿਆ ਤਕਨੀਕਾਂ, ਜਿਵੇਂ ਦੁਰਵਰਤੋਂ ਦੀ ਨਿਗਰਾਨੀ, ਨਾਲ ਪੂਰਾ ਕੀਤਾ ਜਾਵੇ.
GPT‑4 ਅਤੇ ਇਸ ਤੋਂ ਅਗਲੇ ਮਾਡਲ ਸਮਾਜ ਨੂੰ ਲਾਭਦਾਇਕ ਅਤੇ ਹਾਨੀਕਾਰਕ ਦੋਵੇਂ ਤਰੀਕਿਆਂ ਨਾਲ ਮਹੱਤਵਪੂਰਨ ਤੌਰ 'ਤੇ ਪ੍ਰਭਾਵਿਤ ਕਰਨ ਦੀ ਸਮਰਥਾ ਰੱਖਦੇ ਹਨ. ਅਸੀਂ ਬਾਹਰੀ ਖੋਜਕਰਤਾਵਾਂ ਨਾਲ ਮਿਲ ਕੇ ਇਹ ਸੁਧਾਰ ਰਹੇ ਹਾਂ ਕਿ ਅਸੀਂ ਸੰਭਾਵਿਤ ਪ੍ਰਭਾਵਾਂ ਨੂੰ ਕਿਵੇਂ ਸਮਝੀਏ ਅਤੇ ਅੰਕਣ ਕਰੀਏ, ਅਤੇ ਨਾਲ ਹੀ ਉਹਨਾਂ ਖਤਰਨਾਕ ਸਮਰੱਥਾਵਾਂ ਲਈ ਮੁਲਾਂਕਣ ਤਿਆਰ ਕਰੀਏ ਜੋ ਭਵਿੱਖ ਦੇ ਸਿਸਟਮਾਂ ਵਿੱਚ ਉਭਰ ਸਕਦੀਆਂ ਹਨ. ਅਸੀਂ ਜਲਦੀ ਹੀ GPT‑4 ਅਤੇ ਹੋਰ AI ਸਿਸਟਮਾਂ ਦੇ ਸੰਭਾਵਿਤ ਸਮਾਜਿਕ ਅਤੇ ਆਰਥਿਕ ਪ੍ਰਭਾਵਾਂ ਬਾਰੇ ਆਪਣੀ ਹੋਰ ਸੋਚ ਸਾਂਝੀ ਕਰਾਂਗੇ.
ਪਿਛਲੇ GPT ਮਾਡਲਾਂ ਦੀ ਤਰ੍ਹਾਂ, GPT‑4 ਬੇਸ ਮਾਡਲ ਨੂੰ ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਅਗਲਾ ਸ਼ਬਦ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸੀ, ਅਤੇ ਇਸਨੂੰ ਸਰਵਜਨਕ ਤੌਰ 'ਤੇ ਉਪਲਬਧ ਡਾਟਾ (ਜਿਵੇਂ ਇੰਟਰਨੈੱਟ ਡਾਟਾ) ਅਤੇ ਨਾਲ ਹੀ ਸਾਡੇ ਲਾਇਸੈਂਸ ਕੀਤੇ ਡਾਟਾ ਨਾਲ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸੀ. ਇਹ ਡਾਟਾ ਵੈੱਬ-ਪੈਮਾਨੇ ਦਾ ਇੱਕ ਕੋਰਪਸ ਹੈ, ਜਿਸ ਵਿੱਚ ਗਣਿਤ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਸਹੀ ਅਤੇ ਗਲਤ ਹੱਲ, ਕਮਜ਼ੋਰ ਅਤੇ ਮਜ਼ਬੂਤ ਰੀਜ਼ਨਿੰਗ, ਆਪਸੀ ਵਿਰੋਧੀ ਅਤੇ ਸੰਗਤ ਬਿਆਨ, ਅਤੇ ਵਿਚਾਰਧਾਰਾਵਾਂ ਅਤੇ ਵਿਚਾਰਾਂ ਦੀ ਬਹੁਤ ਵੱਡੀ ਵੱਖਰਤਾ ਸ਼ਾਮਲ ਹੈ.
ਇਸ ਲਈ ਜਦੋਂ ਇਸਨੂੰ ਕੋਈ ਪ੍ਰਸ਼ਨ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ, ਬੇਸ ਮਾਡਲ ਕਈ ਵੱਖ-ਵੱਖ ਢੰਗਾਂ ਨਾਲ ਜਵਾਬ ਦੇ ਸਕਦਾ ਹੈ ਜੋ ਉਪਭੋਗਤਾ ਦੇ ਇਰਾਦੇ ਤੋਂ ਕਾਫੀ ਦੂਰ ਹੋ ਸਕਦੇ ਹਨ. ਇਸਨੂੰ guardrails ਦੇ ਅੰਦਰ ਉਪਭੋਗਤਾ ਦੇ ਇਰਾਦੇ ਨਾਲ ਸੰਰੇਖਿਤ ਕਰਨ ਲਈ, ਅਸੀਂ ਮਨੁੱਖੀ ਫੀਡਬੈਕ ਨਾਲ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RLHF) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮਾਡਲ ਦੇ ਵਿਹਾਰ ਨੂੰ fine-tune ਕਰਦੇ ਹਾਂ.
ਧਿਆਨ ਦਿਓ ਕਿ ਮਾਡਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਮੁੱਖ ਤੌਰ 'ਤੇ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਪ੍ਰਕਿਰਿਆ ਤੋਂ ਆਉਂਦੀਆਂ ਦਿਸਦੀਆਂ ਹਨ—RLHF ਪ੍ਰੀਖਿਆ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਸੁਧਾਰਦਾ ਨਹੀਂ (ਸਰਗਰਮ ਯਤਨ ਬਿਨਾਂ, ਇਹ ਅਸਲ ਵਿੱਚ ਇਸਨੂੰ ਘਟਾਉਂਦਾ ਹੈ). ਪਰ ਮਾਡਲ ਦੀ steering post-training ਪ੍ਰਕਿਰਿਆ ਤੋਂ ਆਉਂਦੀ ਹੈ—ਬੇਸ ਮਾਡਲ ਨੂੰ ਤਾਂ ਇਹ ਜਾਣਣ ਲਈ ਵੀ ਪ੍ਰੌੰਪਟ ਇੰਜੀਨੀਅਰਿੰਗ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਕਿ ਇਸਨੂੰ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਜਵਾਬ ਦੇਣੇ ਚਾਹੀਦੇ ਹਨ.
GPT‑4 ਪ੍ਰੋਜੈਕਟ ਦਾ ਇੱਕ ਵੱਡਾ ਕੇਂਦਰ ਇੱਕ ਐਸਾ ਡੀਪ ਲਰਨਿੰਗ stack ਬਣਾਉਣਾ ਰਿਹਾ ਹੈ ਜੋ ਅਨੁਮਾਨਯੋਗ ਢੰਗ ਨਾਲ ਸਕੇਲ ਕਰੇ. ਇਸਦਾ ਮੁੱਖ ਕਾਰਣ ਇਹ ਹੈ ਕਿ GPT‑4 ਵਰਗੀਆਂ ਬਹੁਤ ਵੱਡੀਆਂ ਟ੍ਰੇਨਿੰਗ runs ਲਈ ਵਿਸ਼ਾਲ ਮਾਡਲ-ਖਾਸ tuning ਕਰਨਾ ਕਾਰਗਰ ਨਹੀਂ ਹੁੰਦਾ. ਅਸੀਂ ਐਸੀ infrastructure ਅਤੇ optimization ਵਿਕਸਿਤ ਕੀਤੀ ਜਿਸਦਾ ਕਈ ਸਕੇਲਾਂ 'ਤੇ ਬਹੁਤ ਅਨੁਮਾਨਯੋਗ ਵਿਹਾਰ ਹੈ. ਇਸ scalability ਦੀ ਪੁਸ਼ਟੀ ਕਰਨ ਲਈ, ਅਸੀਂ ਉਹਨਾਂ ਮਾਡਲਾਂ ਤੋਂ extrapolate ਕਰਕੇ ਜੋ ਉਹੀ ਵਿਧੀ ਵਰਤ ਕੇ ਪਰ 10,000x ਘੱਟ compute ਨਾਲ ਟ੍ਰੇਨ ਕੀਤੇ ਗਏ ਸਨ, ਆਪਣੇ ਅੰਦਰੂਨੀ codebase (ਜੋ ਟ੍ਰੇਨਿੰਗ ਸੈੱਟ ਦਾ ਹਿੱਸਾ ਨਹੀਂ ਸੀ) 'ਤੇ GPT‑4 ਦੇ ਅੰਤਿਮ loss ਦਾ ਪਹਿਲਾਂ ਹੀ ਸਹੀ ਅਨੁਮਾਨ ਲਗਾਇਆ:
ਹੁਣ ਜਦੋਂ ਅਸੀਂ ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਅਪਟਿਮਾਈਜ਼ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਮੈਟਰਿਕ (loss) ਦਾ ਸਹੀ ਅਨੁਮਾਨ ਲਗਾ ਸਕਦੇ ਹਾਂ, ਅਸੀਂ ਹੋਰ ਵਿਆਖਿਆਯੋਗ ਮੈਟਰਿਕਾਂ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਲਈ ਵਿਧੀ ਵਿਕਸਿਤ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰ ਰਹੇ ਹਾਂ. ਉਦਾਹਰਨ ਲਈ, ਅਸੀਂ HumanEval(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਡੈਟਾਸੈੱਟ ਦੇ ਇੱਕ subset 'ਤੇ pass rate ਦਾ ਸਫਲਤਾਪੂਰਵਕ ਅਨੁਮਾਨ ਲਗਾਇਆ, 1,000x ਘੱਟ compute ਵਰਤਣ ਵਾਲੇ ਮਾਡਲਾਂ ਤੋਂ extrapolate ਕਰਕੇ:
ਕੁਝ ਸਮਰੱਥਾਵਾਂ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣਾ ਅਜੇ ਵੀ ਔਖਾ ਹੈ. ਉਦਾਹਰਨ ਲਈ, Inverse Scaling Prize ਇੱਕ ਐਸੀ ਪ੍ਰਤੀਯੋਗਤਾ ਸੀ ਜਿਸਦਾ ਉਦੇਸ਼ ਉਹ ਮੈਟਰਿਕ ਲੱਭਣਾ ਸੀ ਜੋ ਮਾਡਲ compute ਵੱਧਣ ਨਾਲ ਹੋਰ ਮਾੜੀ ਹੋ ਜਾਂਦੀ ਹੈ, ਅਤੇ hindsight neglect(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਜੇਤੂਆਂ ਵਿੱਚੋਂ ਇੱਕ ਸੀ. ਇੱਕ ਹੋਰ ਹਾਲੀਆ ਨਤੀਜੇ,(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦੀ ਤਰ੍ਹਾਂ GPT‑4 ਇਸ ਰੁਝਾਨ ਨੂੰ ਉਲਟ ਦਿੰਦਾ ਹੈ:
ਸਾਨੂੰ ਵਿਸ਼ਵਾਸ ਹੈ ਕਿ ਭਵਿੱਖ ਦੀਆਂ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਸਮਰੱਥਾਵਾਂ ਦਾ ਸਹੀ ਅਨੁਮਾਨ ਲਗਾਉਣਾ ਸੁਰੱਖਿਆ ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਹਿੱਸਾ ਹੈ, ਜਿਸਨੂੰ ਇਸਦੇ ਸੰਭਾਵਿਤ ਪ੍ਰਭਾਵ ਦੇ ਮੁਕਾਬਲੇ ਲਗਭਗ ਕਾਫੀ ਧਿਆਨ ਨਹੀਂ ਮਿਲਦਾ (ਹਾਲਾਂਕਿ ਕਈ ਸੰਸਥਾਵਾਂ ਵਿੱਚ ਹੋ ਰਹੇ ਯਤਨਾਂ ਨੇ ਸਾਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕੀਤਾ ਹੈ). ਅਸੀਂ ਐਸੀਆਂ ਵਿਧੀਆਂ ਵਿਕਸਿਤ ਕਰਨ ਦੇ ਆਪਣੇ ਯਤਨ ਵਧਾ ਰਹੇ ਹਾਂ ਜੋ ਸਮਾਜ ਨੂੰ ਇਹ ਸਮਝਣ ਲਈ ਵਧੀਆ ਮਾਰਗਦਰਸ਼ਨ ਦੇਣ ਕਿ ਭਵਿੱਖ ਦੇ ਸਿਸਟਮਾਂ ਤੋਂ ਕੀ ਉਮੀਦ ਕਰਨੀ ਹੈ, ਅਤੇ ਅਸੀਂ ਆਸ ਕਰਦੇ ਹਾਂ ਕਿ ਇਹ ਖੇਤਰ ਦਾ ਸਾਂਝਾ ਲਕਸ਼ ਬਣੇ.
ਅਸੀਂ OpenAI Evals(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਨੂੰ ਓਪਨ-ਸੋਰਸ ਕਰ ਰਹੇ ਹਾਂ, ਜੋ GPT‑4 ਵਰਗੇ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਬੈਂਚਮਾਰਕ ਬਣਾਉਣ ਅਤੇ ਚਲਾਉਣ ਵਾਲਾ ਸਾਡਾ ਸੌਫਟਵੇਅਰ ਫ੍ਰੇਮਵਰਕ ਹੈ, ਅਤੇ ਨਾਲ ਹੀ ਉਹਨਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ sample by sample ਜਾਂਚਣ ਦੀ ਸਹੂਲਤ ਦਿੰਦਾ ਹੈ. ਅਸੀਂ ਆਪਣੇ ਮਾਡਲਾਂ ਦੇ ਵਿਕਾਸ ਨੂੰ ਦਿਸ਼ਾ ਦੇਣ ਲਈ Evals ਵਰਤਦੇ ਹਾਂ (ਕਮੀਆਂ ਦੀ ਪਛਾਣ ਕਰਨ ਅਤੇ regression ਰੋਕਣ ਦੋਵੇਂ ਲਈ), ਅਤੇ ਸਾਡੇ ਉਪਭੋਗਤਾ ਇਸਨੂੰ ਮਾਡਲ ਵਰਜਨਾਂ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਨ ਟ੍ਰੈਕ ਕਰਨ ਲਈ ਵਰਤ ਸਕਦੇ ਹਨ (ਜੋ ਹੁਣ ਨਿਯਮਿਤ ਤੌਰ 'ਤੇ ਆਉਣਗੇ) ਅਤੇ ਉਤਪਾਦ ਇੰਟੀਗ੍ਰੇਸ਼ਨਾਂ ਦੇ ਵਿਕਾਸ ਲਈ ਵੀ. ਉਦਾਹਰਨ ਲਈ, Stripe ਨੇ ਆਪਣੇ GPT‑ਚਲਿਤ documentation tool ਦੀ ਸ਼ੁੱਧਤਾ ਮਾਪਣ ਲਈ ਆਪਣੀਆਂ ਮਨੁੱਖੀ evaluations ਨੂੰ ਪੂਰਾ ਕਰਨ ਵਾਸਤੇ Evals ਵਰਤੀ ਹੈ.
ਕਿਉਂਕਿ ਸਾਰਾ ਕੋਡ ਓਪਨ-ਸੋਰਸ ਹੈ, Evals custom evaluation logic(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਲਾਗੂ ਕਰਨ ਲਈ ਨਵੀਆਂ classes ਲਿਖਣ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ. ਪਰ ਸਾਡੇ ਤਜਰਬੇ ਵਿੱਚ, ਕਈ ਬੈਂਚਮਾਰਕ ਕੁਝ ਹੀ “templates” ਵਿੱਚੋਂ ਕਿਸੇ ਇੱਕ ਦੀ ਪਾਲਣਾ ਕਰਦੇ ਹਨ, ਇਸ ਲਈ ਅਸੀਂ ਉਹ templates ਸ਼ਾਮਲ ਕੀਤੀਆਂ ਹਨ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਜੋ ਅੰਦਰੂਨੀ ਤੌਰ 'ਤੇ ਸਭ ਤੋਂ ਵੱਧ ਲਾਭਕਾਰੀ ਰਹੀਆਂ ਹਨ (ਜਿਸ ਵਿੱਚ “model-graded evals” ਲਈ ਇੱਕ template ਵੀ ਸ਼ਾਮਲ ਹੈ—ਸਾਨੂੰ ਮਿਲਿਆ ਕਿ GPT‑4 ਆਪਣਾ ਕੰਮ ਖੁਦ ਜਾਂਚਣ ਵਿੱਚ ਹੈਰਾਨੀਜਨਕ ਤੌਰ 'ਤੇ ਯੋਗ ਹੈ). ਆਮ ਤੌਰ 'ਤੇ ਨਵਾਂ eval ਬਣਾਉਣ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦਾ ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤਰੀਕਾ ਇਹਨਾਂ templates ਵਿੱਚੋਂ ਕਿਸੇ ਇੱਕ ਨੂੰ data ਦੇ ਨਾਲ instantiate ਕਰਨਾ ਹੋਵੇਗਾ. ਅਸੀਂ ਇਹ ਦੇਖਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਹਾਂ ਕਿ ਹੋਰ ਲੋਕ ਇਹਨਾਂ templates ਅਤੇ ਵਿਆਪਕ ਤੌਰ 'ਤੇ Evals ਨਾਲ ਕੀ ਕੁਝ ਬਣਾ ਸਕਦੇ ਹਨ.
ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ Evals ਬੈਂਚਮਾਰਕਾਂ ਨੂੰ ਸਾਂਝਾ ਕਰਨ ਅਤੇ crowdsource ਕਰਨ ਦਾ ਸਾਧਨ ਬਣੇ, ਜੋ failure modes ਅਤੇ ਔਖੇ ਕੰਮਾਂ ਦੇ ਸਭ ਤੋਂ ਵੱਡੇ ਸੰਭਵ ਸੈੱਟ ਦੀ ਨੁਮਾਇੰਦਗੀ ਕਰੇ. ਪਾਲਣਾ ਕਰਨ ਲਈ ਇੱਕ ਉਦਾਹਰਨ ਵਜੋਂ, ਅਸੀਂ ਇੱਕ logic puzzles(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) eval ਬਣਾਇਆ ਹੈ ਜਿਸ ਵਿੱਚ ਦੱਸ ਪ੍ਰੌੰਪਟ ਹਨ ਜਿੱਥੇ GPT‑4 ਅਸਫਲ ਹੁੰਦਾ ਹੈ. Evals ਮੌਜੂਦਾ ਬੈਂਚਮਾਰਕਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨ ਦੇ ਨਾਲ ਵੀ ਅਨੁਕੂਲ ਹੈ; ਅਸੀਂ ਅਕਾਦਮਿਕ ਬੈਂਚਮਾਰਕਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨ ਵਾਲੀਆਂ ਕਈ notebooks(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਅਤੇ ਉਦਾਹਰਨ ਵਜੋਂ CoQA(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦੇ ਇੰਟੀਗ੍ਰੇਟ ਕੀਤੇ (ਛੋਟੇ subset) ਦੇ ਕੁਝ ਰੂਪ ਵੀ ਸ਼ਾਮਲ ਕੀਤੇ ਹਨ.
ਅਸੀਂ ਹਰ ਕਿਸੇ ਨੂੰ Evals ਵਰਤ ਕੇ ਸਾਡੇ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਅਤੇ ਸਭ ਤੋਂ ਦਿਲਚਸਪ ਉਦਾਹਰਨਾਂ ਜਮ੍ਹਾਂ ਕਰਨ ਲਈ ਸੱਦਾ ਦਿੰਦੇ ਹਾਂ. ਸਾਨੂੰ ਵਿਸ਼ਵਾਸ ਹੈ ਕਿ Evals ਸਾਡੇ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨ ਅਤੇ ਉਨ੍ਹਾਂ 'ਤੇ ਨਿਰਮਾਣ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਦਾ ਅਟੁੱਟ ਹਿੱਸਾ ਹੋਵੇਗਾ, ਅਤੇ ਅਸੀਂ ਸਿੱਧੇ ਯੋਗਦਾਨ, ਪ੍ਰਸ਼ਨ ਅਤੇ ਫੀਡਬੈਕ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦਾ ਸਵਾਗਤ ਕਰਦੇ ਹਾਂ.
ChatGPT Plus ਸਬਸਕ੍ਰਾਈਬਰਾਂ ਨੂੰ chatgpt.com(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) 'ਤੇ usage cap ਨਾਲ GPT‑4 ਤੱਕ ਪਹੁੰਚ ਮਿਲੇਗੀ. ਅਸੀਂ ਮੰਗ ਅਤੇ ਅਸਲ ਸਿਸਟਮ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਆਧਾਰ 'ਤੇ ਸਟੀਕ usage cap ਨੂੰ ਸਮਾਇਤ ਕਰਾਂਗੇ, ਪਰ ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ ਅਸੀਂ ਗੰਭੀਰ ਤੌਰ 'ਤੇ ਸਮਰੱਥਾ-ਸੀਮਿਤ ਰਹਾਂਗੇ (ਹਾਲਾਂਕਿ ਆਉਣ ਵਾਲੇ ਮਹੀਨਿਆਂ ਵਿੱਚ ਅਸੀਂ ਸਕੇਲ ਅੱਪ ਅਤੇ ਅਪਟਿਮਾਈਜ਼ ਕਰਾਂਗੇ).
ਜੋ ਟ੍ਰੈਫਿਕ ਪੈਟਰਨ ਅਸੀਂ ਵੇਖਦੇ ਹਾਂ, ਉਹਨਾਂ ਦੇ ਆਧਾਰ 'ਤੇ ਅਸੀਂ ਵੱਧ-ਮਾਤਰਾ GPT‑4 ਵਰਤੋਂ ਲਈ ਨਵਾਂ subscription level ਲਿਆ ਸਕਦੇ ਹਾਂ; ਅਸੀਂ ਇਹ ਵੀ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ ਕਿਸੇ ਸਮੇਂ ਕੁਝ ਮੁਫ਼ਤ GPT‑4 queries ਵੀ ਦੇ ਸਕੀਏ ਤਾਂ ਜੋ ਬਿਨਾਂ subscription ਵਾਲੇ ਲੋਕ ਵੀ ਇਸਨੂੰ ਅਜ਼ਮਾ ਸਕਣ.
GPT‑4 API ਤੱਕ ਪਹੁੰਚ ਲਈ (ਜੋ gpt-3.5-turbo ਵਾਂਗ ਉਹੀ ChatCompletions API(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਰਤਦੀ ਹੈ), ਕਿਰਪਾ ਕਰਕੇ ਸਾਡੀ waitlist ਲਈ ਸਾਈਨ ਅੱਪ ਕਰੋ. ਅਸੀਂ ਅੱਜ ਕੁਝ developers ਨੂੰ ਸੱਦਾ ਦੇਣਾ ਸ਼ੁਰੂ ਕਰਾਂਗੇ, ਅਤੇ ਸਮਰੱਥਾ ਅਤੇ ਮੰਗ ਵਿਚਕਾਰ ਸੰਤੁਲਨ ਲਈ ਧੀਰੇ-ਧੀਰੇ ਸਕੇਲ ਅੱਪ ਕਰਾਂਗੇ. ਜੇ ਤੁਸੀਂ AI ਦੇ ਸਮਾਜਕ ਪ੍ਰਭਾਵ ਜਾਂ AI alignment ਮਸਲਿਆਂ ਦਾ ਅਧਿਐਨ ਕਰਨ ਵਾਲੇ ਖੋਜਕਰਤਾ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਸਾਡੇ Researcher Access Program ਰਾਹੀਂ ਸਬਸਿਡੀ ਵਾਲੀ ਪਹੁੰਚ ਲਈ ਵੀ ਅਰਜ਼ੀ ਦੇ ਸਕਦੇ ਹੋ.
ਜਦੋਂ ਤੁਹਾਨੂੰ ਪਹੁੰਚ ਮਿਲ ਜਾਂਦੀ ਹੈ, ਤੁਸੀਂ gpt-4 ਮਾਡਲ ਨੂੰ ਕੇਵਲ-ਟੈਕਸਟ requests ਭੇਜ ਸਕਦੇ ਹੋ (ਚਿੱਤਰ ਇਨਪੁੱਟ ਅਜੇ ਵੀ ਸੀਮਿਤ alpha ਵਿੱਚ ਹਨ), ਜਿਸਨੂੰ ਅਸੀਂ ਸਮੇਂ ਦੇ ਨਾਲ ਨਵੇਂ ਵਰਜਨ ਬਣਾਉਂਦੇ ਹੋਏ ਆਪਣੇ ਸਿਫਾਰਸ਼ੀ ਸਥਿਰ ਮਾਡਲ 'ਤੇ ਆਪੇ ਅਪਡੇਟ ਕਰਾਂਗੇ (ਤੁਸੀਂ gpt-4-0314 ਕਾਲ ਕਰਕੇ ਮੌਜੂਦਾ ਵਰਜਨ pin ਕਰ ਸਕਦੇ ਹੋ, ਜਿਸਨੂੰ ਅਸੀਂ 14 ਜੂਨ ਤੱਕ ਸਹਾਇਤਾ ਦੇਵਾਂਗੇ). ਕੀਮਤ $0.03 ਪ੍ਰਤੀ 1k ਪ੍ਰੌੰਪਟ ਟੋਕਨ ਅਤੇ $0.06 ਪ੍ਰਤੀ 1k completion ਟੋਕਨ ਹੈ. ਡਿਫਾਲਟ ਰੇਟ ਸੀਮਾਵਾਂ 40k ਟੋਕਨ ਪ੍ਰਤੀ ਮਿੰਟ ਅਤੇ 200 requests ਪ੍ਰਤੀ ਮਿੰਟ ਹਨ.
gpt-4 ਦੀ context length 8,192 ਟੋਕਨ ਹੈ. ਅਸੀਂ ਆਪਣੇ 32,768-context (ਲਗਭਗ 50 ਸਫ਼ਿਆਂ ਦੇ ਟੈਕਸਟ) ਵਰਜਨ gpt-4-32k ਲਈ ਵੀ ਸੀਮਿਤ ਪਹੁੰਚ ਦੇ ਰਹੇ ਹਾਂ, ਜਿਸਨੂੰ ਵੀ ਸਮੇਂ ਦੇ ਨਾਲ ਆਪੇ ਅਪਡੇਟ ਕੀਤਾ ਜਾਵੇਗਾ (ਮੌਜੂਦਾ ਵਰਜਨ gpt-4-32k-0314, ਜਿਸਨੂੰ ਵੀ 14 ਜੂਨ ਤੱਕ ਸਹਾਰਾ ਮਿਲੇਗਾ). ਕੀਮਤ $0.06 ਪ੍ਰਤੀ 1K ਪ੍ਰੌੰਪਟ ਟੋਕਨ ਅਤੇ $0.12 ਪ੍ਰਤੀ 1k completion ਟੋਕਨ ਹੈ. ਅਸੀਂ ਲੰਬੇ context ਲਈ ਮਾਡਲ ਗੁਣਵੱਤਾ ਵਿੱਚ ਅਜੇ ਵੀ ਸੁਧਾਰ ਕਰ ਰਹੇ ਹਾਂ ਅਤੇ ਤੁਹਾਡੇ use-case ਲਈ ਇਹ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ, ਇਸ ਬਾਰੇ ਫੀਡਬੈਕ ਚਾਹੁੰਦੇ ਹਾਂ. ਅਸੀਂ 8K ਅਤੇ 32K engines ਲਈ requests ਨੂੰ ਸਮਰੱਥਾ ਦੇ ਆਧਾਰ 'ਤੇ ਵੱਖ-ਵੱਖ ਦਰਾਂ ਨਾਲ ਪ੍ਰਕਿਰਿਆ ਕਰ ਰਹੇ ਹਾਂ, ਇਸ ਲਈ ਤੁਹਾਨੂੰ ਉਹਨਾਂ ਤੱਕ ਪਹੁੰਚ ਵੱਖਰੇ ਸਮਿਆਂ 'ਤੇ ਮਿਲ ਸਕਦੀ ਹੈ.
ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ GPT‑4 ਕਈ ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੂੰ ਸਮਰੱਥ ਬਣਾਕੇ ਲੋਕਾਂ ਦੀ ਜ਼ਿੰਦਗੀ ਸੁਧਾਰਨ ਵਿੱਚ ਇੱਕ ਕੀਮਤੀ ਸਾਧਨ ਬਣੇਗਾ. ਅਜੇ ਵੀ ਬਹੁਤ ਸਾਰਾ ਕੰਮ ਕਰਨਾ ਬਾਕੀ ਹੈ, ਅਤੇ ਅਸੀਂ ਇਸ ਮਾਡਲ ਨੂੰ ਭਾਈਚਾਰੇ ਦੇ ਸਾਂਝੇ ਯਤਨਾਂ ਰਾਹੀਂ, ਜੋ ਇਸ 'ਤੇ ਨਿਰਮਾਣ ਕਰਦਾ ਹੈ, ਇਸਦੀ ਖੋਜ ਕਰਦਾ ਹੈ ਅਤੇ ਇਸ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਂਦਾ ਹੈ, ਹੋਰ ਬਿਹਤਰ ਬਣਾਉਣ ਦੀ ਉਮੀਦ ਕਰਦੇ ਹਾਂ.
ਹੋਰ ਲਈ: ਪੇਪਰ ਪੜ੍ਹੋ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) / ਸਿਸਟਮ ਕਾਰਡ ਵੇਖੋ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) / ChatGPT Plus 'ਤੇ ਅਜ਼ਮਾਓ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) / Playground ਵਿੱਚ ਅਜ਼ਮਾਓ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) / ਡੈਮੋ ਲਾਈਵਸਟ੍ਰੀਮ ਮੁੜ ਵੇਖੋ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) / OpenAI Evals ਵਿੱਚ ਯੋਗਦਾਨ ਦਿਓ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)
MMLU ਪ੍ਰਸ਼ਨਾਂ ਦਾ ਉਦਾਹਰਨ, ਹੋਰ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ. ਧਿਆਨ ਦਿਓ, ਅਸੀਂ ਇਕਸਾਰ ਚੋਇਸ ਟੋਕਨ (A–D) ਵਰਤਦੇ ਹਾਂ:
ਫੁੱਟਨੋਟ
- A
ਅਸੀਂ ਇਸ ਬੈਂਚਮਾਰਕ ਦਾ ਮੁਲਾਂਕਣ ਟ੍ਰੇਨਿੰਗ ਸੈੱਟ ਤੋਂ 4 ਉਦਾਹਰਨਾਂ ਨਾਲ context ਵਿੱਚ Chain-Of-Thought ਪ੍ਰੌੰਪਟਿੰਗ ਵਰਤ ਕੇ ਕਰਦੇ ਹਾਂ. ਖ਼ਾਸ ਪ੍ਰੌੰਪਟ ਨੂੰ validation set 'ਤੇ tune ਕੀਤਾ ਗਿਆ ਸੀ.
References
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Further analysis is available in the paper(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).


