Submitted: 2 ਫ਼ਰਵਰੀ 2024

AI ਬਾਰੇ NIST Executive Order ਲਈ ਜਵਾਬ

Artificial Intelligence ਬਾਰੇ Executive Order ਦੀਆਂ ਧਾਰਾਵਾਂ 4.1, 4.5 ਅਤੇ 11 ਹੇਠ ਦਿੱਤੀਆਂ ਜ਼ਿੰਮੇਵਾਰੀਆਂ ਨਾਲ ਸੰਬੰਧਿਤ ਜਾਣਕਾਰੀ ਲਈ National Institute of Standards and Technology (NIST) ਦੀ ਬੇਨਤੀ।

OpenAI ਦੀ ਸਥਾਪਨਾ 2015 ਵਿੱਚ ਇੱਕ ਗੈਰ-ਮੁਨਾਫ਼ਾ ਸੰਸਥਾ ਵਜੋਂ ਇਸ ਲਈ ਕੀਤੀ ਗਈ ਸੀ ਕਿ ਆਰਟੀਫ਼ਿਸ਼ੀਅਲ ਜਨਰਲ ਇੰਟੈਲੀਜੈਂਸ, ਸੰਖੇਪ ਵਿੱਚ, ਉਹ AI ਜੋ ਘੱਟੋ-ਘੱਟ ਮਨੁੱਖ ਜਿੰਨਾ ਸਮਝਦਾਰ ਹੋਵੇ, ਸਾਰੀ ਮਨੁੱਖਤਾ ਦੇ ਹਿੱਤ ਵਿੱਚ ਹੋਵੇ। ਅਸੀਂ ਅਤਿ-ਆਧੁਨਿਕ AI ਤਕਨਾਲੋਜੀ ਦੇ ਨਾਲ-ਨਾਲ AI ਦੀ ਸੁਰੱਖਿਆ, alignment ਅਤੇ governance ਲਈ ਟੂਲ ਅਤੇ ਸਭ ਤੋਂ ਵਧੀਆ ਅਭਿਆਸਾਂ ‘ਤੇ ਖੋਜ, ਵਿਕਾਸ ਅਤੇ ਜਾਰੀਕਰਨ ਕਰਦੇ ਹਾਂ। AI ਬਾਰੇ NIST ਦੇ ਚੱਲਦੇ ਅਤੇ ਬਹੁਤ ਮਹੱਤਵਪੂਰਣ ਕੰਮ ਨੂੰ ਜਾਣਕਾਰੀ ਦੇਣ ਦਾ ਇਹ ਮੌਕਾ ਅਸੀਂ ਸਵਾਗਤਯੋਗ ਸਮਝਦੇ ਹਾਂ।

ਇੱਥੇ, ਅਸੀਂ RFI ਵਿੱਚ ਉਠਾਏ ਗਏ ਤਿੰਨ ਵਿਸ਼ਿਆਂ ‘ਤੇ ਧਿਆਨ ਦੇਂਦੇ ਹਾਂ: (1) AI ਸਮਰੱਥਾਵਾਂ ਦਾ ਮੁਲਾਂਕਨ ਅਤੇ ਆਡਿਟ, (2) ਸੁਰੱਖਿਅਤ, ਸੁਰੱਖਿਅਤ ਅਤੇ ਭਰੋਸੇਯੋਗ ਸਿਸਟਮਾਂ ਦੀ ਤਾਇਨਾਤੀ ਯੋਗ ਬਣਾਉਣ ਲਈ ਰੈਡ ਟੀਮਿੰਗ ਟੈਸਟ ਕਰਨਾ, ਅਤੇ (3) synthetic media ਅਤੇ provenance।

AI ਸਿਸਟਮਾਂ ਵਿੱਚ ਖਤਰਨਾਕ ਸਮਰੱਥਾਵਾਂ ਦਾ ਮੁਲਾਂਕਨ

ਅਸੀਂ NIST ਦੇ ਇਸ ਫੋਕਸ ਦੀ ਸਰਾਹਨਾ ਕਰਦੇ ਹਾਂ ਕਿ “ਸਮਰੱਥਾਵਾਂ ਦੇ ਮੁਲਾਂਕਨ ਲਈ guidance ਅਤੇ benchmarks ਤਿਆਰ ਕੀਤੇ ਜਾਣ... ਜਿਨ੍ਹਾਂ ਰਾਹੀਂ AI ਨੁਕਸਾਨ ਪਹੁੰਚਾ ਸਕਦੀ ਹੈ।” OpenAI ਨੇ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਲਈ ਵਚਨਬੱਧਤਾ ਜਤਾਈ ਹੈ, ਜੋ ਮੌਜੂਦਾ ਅਤੇ ਭਵਿੱਖ ਦੇ AI ਮਾਡਲਾਂ ਤੋਂ ਆਉਣ ਵਾਲੇ ਵਿਨਾਸ਼ਕਾਰੀ ਤੌਰ ‘ਤੇ ਖਤਰਨਾਕ ਖਤਰਨਾਂ ਦਾ ਮੁਲਾਂਕਨ, ਟ੍ਰੈਕ ਅਤੇ ਨਿਵਾਰਣ ਕਰਨ ਲਈ ਇੱਕ ਵਿਸਤ੍ਰਿਤ ਪਹੁੰਚ ਹੈ। ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਇਸ ਵੇਲੇ ਖਤਰੇ ਦੇ ਚਾਰ ਸ਼ੁਰੂਆਤੀ ਖੇਤਰ ਟ੍ਰੈਕ ਕਰਦਾ ਹੈ: cybersecurity; ਰਸਾਇਣਕ, ਜੈਵਿਕ, ਪਰਮਾਣੂ ਅਤੇ ਰੇਡੀਓਲੋਜੀਕਲ ਖਤਰੇ (CBRN); persuasion; ਅਤੇ ਮਾਡਲ autonomy। ਇਹ ਫ੍ਰੇਮਵਰਕ ਸਾਨੂੰ ਉਹਨਾਂ “ਅਣਜਾਣ ਅਣਜਾਣ” ਖਤਰਨਾਂ ਲਈ ਲਗਾਤਾਰ ਸਾਵਧਾਨੀ ਲਈ ਵੀ ਬੱਧ ਕਰਦਾ ਹੈ ਜੋ ਹਾਲੇ ਤੱਕ ਪਛਾਣੇ ਨਹੀਂ ਗਏ। ਇਸ ਕੰਮ ਦੇ ਹਿੱਸੇ ਵਜੋਂ, OpenAI ਨੇ ਹਾਲ ਹੀ ਵਿੱਚ CBRN ਲਈ ਇੱਕ ਵੱਡੇ ਪੱਧਰ ਦਾ ਮੁਲਾਂਕਨ ਸਾਂਝਾ ਕੀਤਾ⁠: GPT‑4 ਦੀ ਇਸ ਯੋਗਤਾ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣਾ ਕਿ ਕੀ ਉਹ ਮੌਜੂਦਾ ਸਰੋਤਾਂ (ਅਰਥਾਤ ਇੰਟਰਨੈੱਟ) ਦੇ ਬੇਸਲਾਈਨ ਨਾਲ ਤੁਲਨਾ ਕਰਕੇ ਦੁਰਭਾਵਨਾਪੂਰਣ ਅਦਾਕਾਰਾਂ ਦੀ ਜੈਵਿਕ ਖਤਰਾ ਬਣਾਉਣ ਬਾਰੇ ਖਤਰਨਾਕ ਜਾਣਕਾਰੀ ਤੱਕ ਪਹੁੰਚ ਨੂੰ ਅਰਥਪੂਰਨ ਤੌਰ ‘ਤੇ ਵਧਾਉਂਦੀ ਹੈ। ਆਪਣੀ ਕਿਸਮ ਦੇ ਸਭ ਤੋਂ ਵੱਡੇ ਮੁਲਾਂਕਨ ਵਿੱਚ, ਜਿਸ ਵਿੱਚ ਜੀਵ ਵਿਗਿਆਨ ਮਾਹਿਰ ਅਤੇ ਵਿਦਿਆਰਥੀ ਦੋਵੇਂ ਸ਼ਾਮਲ ਸਨ, ਅਸੀਂ ਪਾਇਆ ਕਿ GPT‑4 ਜੈਵਿਕ ਖਤਰਾ ਬਣਾਉਣ ਸੰਬੰਧੀ ਜਾਣਕਾਰੀ ਵਿੱਚ ਵੱਧ ਤੋਂ ਵੱਧ ਹਲਕਾ ਜਿਹਾ ਵਾਧਾ ਦਿੰਦਾ ਹੈ। ਭਾਵੇਂ ਇਹ ਵਾਧਾ ਨਿਰਣਾਇਕ ਹੋਣ ਲਈ ਕਾਫ਼ੀ ਵੱਡਾ ਨਹੀਂ ਸੀ, ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ ਇਹ ਨਤੀਜਾ ਲਗਾਤਾਰ ਖੋਜ ਅਤੇ ਸਮੁਦਾਇਕ ਵਿਚਾਰ-ਵਟਾਂਦਰੇ ਲਈ ਇੱਕ ਸ਼ੁਰੂਆਤੀ ਬਿੰਦੂ ਵਜੋਂ ਕੰਮ ਕਰੇਗਾ, ਜਿਸਨੂੰ ਅਸੀਂ ਆਸ ਕਰਦੇ ਹਾਂ ਕਿ NIST ਅਤੇ ਨਵਾਂ AI Safety Institute ਅੱਗੇ ਵਧਾਉਣਗੇ। ਇਸ ਕੰਮ ਨੇ AI ਸਿਸਟਮਾਂ ਤੋਂ ਖਤਰਨਾਂ ਦੇ ਮੁਲਾਂਕਨ ਲਈ ਕੁਝ ਮਹੱਤਵਪੂਰਣ ਸਿਧਾਂਤਾਂ ਵਿੱਚ ਸਾਡਾ ਭਰੋਸਾ ਵਧਾਇਆ ਹੈ:

AI ਸਿਸਟਮਾਂ ਦੇ ਖਤਰੇ ਵਿੱਚ ਯੋਗਦਾਨ ਨੂੰ ਉਚਿਤ ਬੇਸਲਾਈਨ ਦੇ ਮੁਕਾਬਲੇ ਤਬਦੀਲੀ ਦੇ ਰੂਪ ਵਿੱਚ ਮਾਪਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ।ਮੌਜੂਦਾ ਅਤੇ ਭਵਿੱਖ ਦੇ AI ਸਿਸਟਮਾਂ ਦੁਆਰਾ ਵਧ ਸਕਣ ਵਾਲੇ ਕਈ ਖਤਰੇ (ਜਿਵੇਂ cybersecurity ਜਾਂ biosecurity ਵਿੱਚ) AI ਤੋਂ ਬਿਨਾਂ ਵੀ ਕਿਸੇ ਨਾ ਕਿਸੇ ਪੱਧਰ ‘ਤੇ ਮੌਜੂਦ ਹਨ। ਉਦਾਹਰਨ ਲਈ, ਇੰਟਰਨੈੱਟ ਖੋਜ ਪਹਿਲਾਂ ਹੀ biosecurity ਨਾਲ ਸੰਬੰਧਿਤ ਜਾਣਕਾਰੀ ਤੱਕ ਕਾਫ਼ੀ ਪੱਧਰ ਦੀ ਪਹੁੰਚ ਦਿੰਦੀ ਹੈ। AI ਸਿਸਟਮਾਂ ਦੇ ਖਤਰੇ ਵਿੱਚ ਯੋਗਦਾਨ ਦਾ ਮੁਲਾਂਕਨ ਕਰਦੇ ਸਮੇਂ, ਇੱਕ ਮਹੱਤਵਪੂਰਣ best practice ਇਹ ਹੈ ਕਿ ਜਾਂਚਿਆ ਜਾਵੇ ਕਿ ਕੀ AI ਮੌਜੂਦਾ ਸਰੋਤਾਂ ਤੋਂ ਪਰੇ ਖਤਰਾ ਵਧਾਉਂਦੀ ਹੈ। ਸਾਡੇ ਹਾਲੀਆ biorisk ਅਧਿਐਨ ਵਿੱਚ, ਅਸੀਂ ਇਹ ਕੰਮ ਇਸ ਤਰ੍ਹਾਂ ਕੀਤਾ ਕਿ ਭਾਗੀਦਾਰਾਂ ਦੇ ਅੱਧੇ ਹਿੱਸੇ ਨੂੰ ਬੇਤਰਤੀਬੀ ਨਾਲ control group ਵਿੱਚ ਰੱਖਿਆ ਗਿਆ, ਜਿਸਨੂੰ ਕੇਵਲ ਗੈਰ-AI ਗਿਆਨ ਸਰੋਤਾਂ (ਆਨਲਾਈਨ databases, articles ਅਤੇ internet search engines, ਨਾਲ ਹੀ ਉਹਨਾਂ ਦੇ ਪਹਿਲਾਂ ਦੇ ਗਿਆਨ ਸਮੇਤ) ਦੀ ਵਰਤੋਂ ਦੀ ਆਜ਼ਾਦੀ ਸੀ, ਅਤੇ ਬਾਕੀ ਅੱਧੇ ਨੂੰ treatment group ਵਿੱਚ ਰੱਖਿਆ ਗਿਆ ਜਿਸਨੂੰ ਇਹਨਾਂ ਸਰੋਤਾਂ ਦੇ ਨਾਲ GPT‑4 ਮਾਡਲ ਦੀ ਵੀ ਪੂਰੀ ਪਹੁੰਚ ਦਿੱਤੀ ਗਈ।
ਖੇਤਰ-ਮਾਹਿਰਾਂ ਨਾਲ ਕੰਮ ਕਰਨਾ ਖਤਰਨਾਂ ਨੂੰ ਸਮਝਣ ਲਈ ਬਹੁਤ ਮਹੱਤਵਪੂਰਣ ਹੈ।AI ਸੁਰੱਖਿਆ ਨਾਲ ਸੰਬੰਧਿਤ ਵਿਸ਼ਾਲ ਅਤੇ ਵਿਭਿੰਨ ਵਿਸ਼ਿਆਂ ਵਿੱਚੋਂ ਹਰ ਇੱਕ ਲਈ ਕਿਸੇ ਇੱਕ ਇਕਾਈ ਲਈ ਵਿਸ਼ਵ-ਪੱਧਰੀ ਮਾਹਿਰਾਂ ਨੂੰ ਨੌਕਰੀ ‘ਤੇ ਰੱਖਣਾ ਮੁਸ਼ਕਲ ਹੈ। ਸਭ ਤੋਂ ਉੱਚੇ ਪੱਧਰ ਦੀ ਮਹਾਰਤ ਤੱਕ ਪਹੁੰਚ ਲਈ, ਉਹਨਾਂ ਤੀਜੇ ਪੱਖਾਂ ਨਾਲ ਭਾਗੀਦਾਰੀ ਕਰਨਾ ਲਾਭਕਾਰੀ ਹੈ ਜੋ ਖਤਰਨਾਕ ਸਮਰੱਥਾਵਾਂ ਦੇ ਮੁਲਾਂਕਨ ਨਾਲ ਸੰਬੰਧਿਤ ਵਿਸ਼ਿਆਂ ਵਿੱਚ ਖੇਤਰ-ਮਾਹਿਰਾਂ ਨੂੰ ਰੋਜ਼ਗਾਰ ਦਿੰਦੇ ਹਨ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਅਧਿਐਨਾਂ ਦੀ grading ਵਿੱਚ ਖੇਤਰ-ਮਾਹਿਰਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਨਾਲ ਇਹ ਭਰੋਸਾ ਮਿਲਦਾ ਹੈ ਕਿ ਮੁਲਾਂਕਨ ਨਿਰਪੱਖ ਢੰਗ ਨਾਲ ਕੀਤੇ ਜਾ ਰਹੇ ਹਨ। ਉਦਾਹਰਨ ਵਜੋਂ, biorisk ਮੁਲਾਂਕਨ ਨੂੰ ਤਿਆਰ ਅਤੇ ਚਲਾਉਣ ਵਿੱਚ ਅਸੀਂ ਤੀਜੇ ਪੱਖ ਦੇ biosecurity ਮਾਹਿਰਾਂ ਨਾਲ ਖੋਜ ਕਾਰਜਾਂ ਦੀ ਡਿਜ਼ਾਈਨ, ਭਾਗੀਦਾਰਾਂ ਲਈ safety trainings, ਅਤੇ ਪੂਰੇ ਕੀਤੇ ਕਾਰਜਾਂ ਦੀ grading ਲਈ ਨਜ਼ਦੀਕੀ ਤੌਰ ‘ਤੇ ਕੰਮ ਕੀਤਾ। AI ਸੁਰੱਖਿਆ ਦੇ ਹਿੱਤ ਵਿੱਚ ਇਸ ecosystem ਦਾ ਵਿਸਤਾਰ ਅਤੇ ਵਿਭਿੰਨਤਾ ਲਿਆਉਣਾ ਹੋਵੇਗਾ।
ਪੂਰੀ ਸਮੀਖਿਆ ਲਈ AI ਮਾਹਿਰਾਂ ਨਾਲ ਕੰਮ ਕਰਨਾ ਵੀ ਲਾਜ਼ਮੀ ਹੈ ਤਾਂ ਜੋ ਮਾਡਲ ਸਮਰੱਥਾਵਾਂ ਦੀ ਪੂਰੀ ਰੇਂਜ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸਾਹਮਣੇ ਲਿਆਇਆ ਜਾ ਸਕੇ।AI ਮਾਡਲਾਂ ਤੋਂ ਖਤਰਨਾਂ ਦੀ ਪੂਰੀ ਰੇਂਜ ਨੂੰ ਸਮਝਣ ਲਈ, ਜਿੱਥੇ ਸੰਭਵ ਹੋਵੇ, ਮੁਲਾਂਕਨ ਵਿੱਚ ਮਾਡਲ ਦੀਆਂ ਪੂਰੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ eliciting ਕਰਨਾ ਜ਼ਰੂਰੀ ਹੈ। ਇਸ ਲਈ ਅਧਾਰਭੂਤ AI ਸਿਸਟਮਾਂ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਕਿਵੇਂ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਇਸ ਦੀ ਡੂੰਘੀ ਸਮਝ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਅਸੀਂ ਸਿਫ਼ਾਰਸ਼ ਕਰਦੇ ਹਾਂ ਕਿ ਮੁਲਾਂਕਨਾਂ ਨੂੰ AI ਮਾਹਿਰਾਂ ਨਾਲ ਘੰਮਣੇ ਸਹਿਯੋਗ ਵਿੱਚ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਜਾਵੇ। ਸਾਡੇ biorisk ਅਧਿਐਨ ਵਿੱਚ, ਇਸ ਵਿੱਚ ਮਨੁੱਖੀ ਭਾਗੀਦਾਰਾਂ ਨੂੰ ਇਹ ਸਿਖਲਾਈ ਦੇਣਾ ਸ਼ਾਮਲ ਸੀ ਕਿ ਭਾਸ਼ਾ ਮਾਡਲ ਸਮਰੱਥਾ elicitation ਦੀਆਂ best practices ਦੀ ਮਦਦ ਨਾਲ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਿਵੇਂ ਪ੍ਰਾਪਤ ਕੀਤਾ ਜਾਵੇ, ਨਾਲ ਹੀ ਮਾਡਲਾਂ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਬਿਹਤਰ ਢੰਗ ਨਾਲ ਸਾਹਮਣੇ ਲਿਆਉਣ ਅਤੇ ਜਾਂਚਣ ਲਈ custom technical approaches ਵੀ ਸ਼ਾਮਲ ਸਨ।
ਸਾਨੂੰ ਖਤਰਾ ਮੁਲਾਂਕਨ ਦੇ ਨਤੀਜਿਆਂ ਦੀ ਵਿਆਖਿਆ ਕਿਵੇਂ ਕਰਨੀ ਹੈ, ਇਸ ‘ਤੇ ਹੋਰ ਖੋਜ ਦੀ ਲੋੜ ਹੈ।ਉਦਾਹਰਨ ਲਈ, AI ਮਾਡਲਾਂ ਦੁਆਰਾ biorisk ਜਾਣਕਾਰੀ ਤੱਕ ਵਧੀ ਹੋਈ ਪਹੁੰਚ ਦਾ ਮੁਲਾਂਕਨ ਕਰਨ ਦੇ ਮਾਮਲੇ ਵਿੱਚ, ਹਾਲੇ ਇਹ ਸਪੱਸ਼ਟ ਨਹੀਂ ਕਿ ਜਾਣਕਾਰੀ ਤੱਕ ਪਹੁੰਚ ਵਿੱਚ ਕਿੰਨਾ ਵਾਧਾ ਮਹੱਤਵਪੂਰਣ ਤੌਰ ‘ਤੇ biorisk ਵਧੇਗਾ। AI ਸਿਸਟਮਾਂ ਦਾ biorisk ‘ਤੇ ਪ੍ਰਭਾਵ ਨਵੀਆਂ ਤਕਨਾਲੋਜੀਆਂ ਦੇ ਉੱਭਰਨ ਨਾਲ ਬਦਲ ਸਕਦਾ ਹੈ, ਜੋ ਆਨਲਾਈਨ ਜਾਣਕਾਰੀ ਨੂੰ ਭੌਤਿਕ ਜੈਵਿਕ ਖਤਰਨਾਂ ਵਿੱਚ ਬਦਲ ਸਕਣ। ਜਿਵੇਂ ਜਿਵੇਂ ਅਸੀਂ ਆਪਣੇ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਨੂੰ ਕਾਰਗਰ ਬਣਾਉਂਦੇ ਜਾ ਰਹੇ ਹਾਂ, ਅਸੀਂ NIST ਅਤੇ AI Safety Institute ਨਾਲ ਮਿਲ ਕੇ ਖਤਰਨਾਂ ਅਤੇ risk metrics ਦੀ ਹੋਰ ਮਜ਼ਬੂਤ ਸਮਝ ਬਣਾਉਣ ਲਈ ਉਤਸੁਕ ਹਾਂ।
ਸਭ ਤੋਂ ਉੱਚੇ ਪੱਧਰ ਦੇ ਮਨੁੱਖੀ-ਭਾਗੀਦਾਰ ਮੁਲਾਂਕਨ ਮਹਿੰਗੇ ਹੁੰਦੇ ਹਨ।ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੇ ਮਨੁੱਖੀ ਮੁਲਾਂਕਨ ਕਰਨ ਲਈ ਭਾਗੀਦਾਰਾਂ ਨੂੰ ਭੁਗਤਾਨ, software development ਅਤੇ security ਲਈ ਕਾਫ਼ੀ ਬਜਟ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਸਾਡੇ biorisk ਅਧਿਐਨ ਵਿੱਚ, ਅਸੀਂ ਇਹ ਲਾਗਤਾਂ ਘਟਾਉਣ ਦੇ ਵੱਖ-ਵੱਖ ਤਰੀਕੇ ਖੋਜੇ, ਪਰ ਇਨ੍ਹਾਂ ਵਿੱਚੋਂ ਜ਼ਿਆਦਾਤਰ ਖਰਚੇ ਜਾਂ ਤਾਂ (1) ਅਟੱਲ security considerations, ਜਾਂ (2) ਲੋੜੀਂਦੇ ਭਾਗੀਦਾਰਾਂ ਦੀ ਗਿਣਤੀ ਅਤੇ ਹਰ ਭਾਗੀਦਾਰ ਵੱਲੋਂ ਪੂਰੀ ਜਾਂਚ ਲਈ ਲੱਗਣ ਵਾਲੇ ਸਮੇਂ ਕਾਰਨ ਲਾਜ਼ਮੀ ਸਨ। ਮਿਆਰ ਤਿਆਰ ਕਰਦੇ ਸਮੇਂ ਇਸ ਗੱਲ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਣਾ ਚਾਹੀਦਾ ਹੈ।

ਵਾਧੂ ਜਾਣਕਾਰੀ ਸਾਡੇ ਹਾਲੀਆ biorisk ਅਧਿਐਨ ਬਾਰੇ ਬਲੌਗ ਪੋਸਟ ਵਿੱਚ ਉਪਲਬਧ ਹੈ: LLM ਦੀ ਮਦਦ ਨਾਲ ਜੈਵਿਕ ਖਤਰਾ ਬਣਾਉਣ ਲਈ ਇੱਕ ਸ਼ੁਰੂਆਤੀ ਚੇਤਾਵਨੀ ਪ੍ਰਣਾਲੀ ਬਣਾਉਣਾ⁠.

ਸੁਰੱਖਿਅਤ AI ਸਿਸਟਮਾਂ ਦੀ ਤਾਇਨਾਤੀ ਯੋਗ ਬਣਾਉਣ ਲਈ ਰੈਡ ਟੀਮਿੰਗ

ਰੈਡ ਟੀਮਿੰਗ ਕੀ ਹੈ?

OpenAI ਰੈਡ ਟੀਮਿੰਗ ਦੀ ਪਰਿਭਾਸ਼ਾ ਇਸ ਤਰ੍ਹਾਂ ਕਰਦਾ ਹੈ: “ਨੁਕਸਾਨਦਾਇਕ ਸਮਰੱਥਾਵਾਂ, ਆਉਟਪੁੱਟ ਜਾਂ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਨਾਲ ਸੰਬੰਧਿਤ ਖਤਰਨਾਂ ਦੀ ਪਛਾਣ ਲਈ AI ਸਿਸਟਮਾਂ ਅਤੇ ਉਤਪਾਦਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਦੀ ਇੱਕ ਸੰਰਚਿਤ ਪ੍ਰਕਿਰਿਆ।”^A
ਰੈਡ ਟੀਮਿੰਗ ਦੇ ਵਿਸ਼ਾਲ ਛਤਰੀ-ਸ਼ਬਦ ਹੇਠ ਕਈ ਸੰਭਾਵੀ ਢੰਗ ਉਭਰ ਰਹੇ ਹਨ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਅੰਦਰੂਨੀ ਰੈਡ ਟੀਮਿੰਗ (ਲੈਬ ਜਾਂ ਕੰਪਨੀ ਦੀਆਂ ਅੰਦਰੂਨੀ, ਸਮਰਪਿਤ ਟੀਮਾਂ ਦੁਆਰਾ), ਬਾਹਰੀ ਰੈਡ ਟੀਮਿੰਗ (ਲੈਬ ਜਾਂ ਕੰਪਨੀ ਨਾਲ ਸਹਿਯੋਗ ਵਿੱਚ ਬਾਹਰੀ ਹਿੱਸੇਦਾਰਾਂ ਦੁਆਰਾ), ਜਾਂ automated ਰੈਡ ਟੀਮਿੰਗ (ਆਪਣੇ-ਆਪ ਹਮਲੇ ਤਿਆਰ ਕਰਨ ਅਤੇ ਆਉਟਪੁੱਟਾਂ ਦੀ ਵਰਗੀਕਰਨ ਲਈ AI ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ) ਸ਼ਾਮਲ ਹਨ। ਇਸ ਦਸਤਾਵੇਜ਼ ਦੇ ਸੰਦਰਭ ਵਿੱਚ, ਅਸੀਂ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਬਾਹਰੀ ਰੈਡ ਟੀਮਿੰਗ ਯਤਨਾਂ ਦਾ ਜ਼ਿਕਰ ਕਰ ਰਹੇ ਹਾਂ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ OpenAI ਬਾਹਰੀ ਖੇਤਰ-ਮਾਹਿਰਾਂ ਨਾਲ ਮਿਲ ਕੇ AI ਮਾਡਲ ਜਾਂ ਸਿਸਟਮ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਖਤਰਨਾਂ ਦਾ ਮੁਲਾਂਕਨ ਕਰਦਾ ਹੈ。

ਰੈਡ ਟੀਮਿੰਗ ਲਈ OpenAI ਦਾ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਵਿਰੋਧੀ ਹਮਲਿਆਂ ਜਾਂ ਮਾਡਲ ਆਉਟਪੁੱਟਾਂ ਨੂੰ ਇਕੱਲੇ ਵਿੱਚ ਨਹੀਂ ਵੇਖਦਾ। ਇਸ ਦੀ ਬਜਾਇ, ਇਹ ਖੇਤਰ-ਮਾਹਿਰਾਂ ਨਾਲ ਸਹਿਯੋਗ ਵਿੱਚ ਸੰਦਰਭਿਤ ਅਤੇ ਸਮੂਹਿਕ ਢੰਗ ਨਾਲ ਖਤਰੇ ਸਾਹਮਣੇ ਲਿਆਉਣ ਦੀ ਇੱਕ ਵਿਧੀ ਹੈ।^B ਦੁਰਭਾਵਨਾ ਵਾਲੀ ਵਰਤੋਂ ਅਤੇ ਸੁਰੱਖਿਆ ਰੋਕਥਾਮਾਂ ਨੂੰ ਬਾਈਪਾਸ ਕਰਨ ਦੇ ਢੰਗਾਂ ਤੋਂ ਇਲਾਵਾ, ਰੈਡ ਟੀਮਿੰਗ ਹੋਰ ਖਤਰਨਾਂ ਨੂੰ ਵੀ ਵੇਖਦੀ ਹੈ: ਨਿਰਦੋਸ਼ ਜਾਂ ਉਮੀਦਿਤ inputs ਤੋਂ ਨੁਕਸਾਨਦਾਇਕ ਜਾਂ ਖਤਰਨਾਕ outputs ਦਾ ਆਉਣਾ, ਨਵੀਆਂ ਸਮਰੱਥਾ-ਸੁਧਾਰਾਂ ਜੋ ਖਤਰੇ ਦੇ ਦ੍ਰਿਸ਼ ਨੂੰ ਬਦਲ ਸਕਦੀਆਂ ਹਨ, ਅਤੇ ਸਿਸਟਮ ਤੋਂ ਬਾਹਰਲੇ ਕਾਰਕ ਮਾਡਲ ਆਉਟਪੁੱਟਾਂ ਨਾਲ ਮਿਲ ਕੇ ਖਤਰੇ ਜਾਂ ਨੁਕਸਾਨ ਕਿਵੇਂ ਪੈਦਾ ਕਰ ਸਕਦੇ ਹਨ। ਇਨ੍ਹਾਂ ਖੇਤਰਾਂ ਦੇ ਮੁਲਾਂਕਨ ਅਕਸਰ loop ਵਿੱਚ ਮਨੁੱਖ ਹੋਣ ਨਾਲ ਲਾਭ ਪ੍ਰਾਪਤ ਕਰਦੇ ਹਨ, ਤਾਂ ਜੋ ਸੰਭਾਵੀ ਉਦਾਹਰਨ ਬਣਾਈਆਂ ਜਾ ਸਕਣ ਅਤੇ ਨਤੀਜੇ ਵਾਲੇ ਆਉਟਪੁੱਟਾਂ ਦੀ ਕਿਸੇ ਖ਼ਾਸ ਰੈਡ ਟੀਮਰ ਦੀ ਮਹਾਰਤ ਦੇ ਸੰਦਰਭ ਵਿੱਚ ਪੁਸ਼ਟੀ ਕੀਤੀ ਜਾ ਸਕੇ।

ਰੈਡ ਟੀਮਿੰਗ ਕਿਸ ਲਈ ਲਾਭਦਾਇਕ ਹੈ?

AI ਰੈਡ ਟੀਮਿੰਗ ਨਵੇਂ ਮਾਡਲਾਂ ਅਤੇ ਸਿਸਟਮਾਂ ਨਾਲ ਜੁੜੇ ਸੰਭਾਵਿਤ ਖਤਰਨਾਂ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ ਜੋ:

ਅਜਿਹੀਆਂ interaction ਸ਼ਕਲਾਂ ਦੀ ਮੰਗ ਕਰਦੇ ਹਨ ਜੋ ਪਿਛਲੇ AI ਸਿਸਟਮਾਂ ਜਾਂ ਤਕਨਾਲੋਜੀਆਂ ਤੋਂ ਵੱਖ ਹੋ ਸਕਦੀਆਂ ਹਨ ਅਤੇ programmatic evaluations ਦੁਆਰਾ ਚੰਗੀ ਤਰ੍ਹਾਂ ਕਵਰ ਨਹੀਂ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ (ਉਦਾਹਰਨ ਲਈ, DALL·E ਵਿੱਚ in painting, GPTs)।
ਕਾਫ਼ੀ ਸੁਧਰੀਆਂ ਸਮਰੱਥਾਵਾਂ ਰੱਖਦੇ ਹਨ ਜੋ ਨਵੇਂ ਖਤਰੇ ਲਿਆ ਸਕਦੀਆਂ ਹਨ ਜਿਨ੍ਹਾਂ ਦਾ ਹਾਲੇ ਮੁਲਾਂਕਨ ਨਹੀਂ ਹੋਇਆ (ਉਦਾਹਰਨ ਲਈ, ਵਿਗਿਆਨਕ ਖੇਤਰ, persuasion, ਜਾਂ ਰੀਜ਼ਨਿੰਗ)।
ਟੈਸਟਿੰਗ ਅਤੇ ਪੁਸ਼ਟੀ ਲਈ ਸੰਦਰਭ ਜਾਂ ਖੇਤਰ-ਵਿਸ਼ੇਸ਼ ਗਿਆਨ ਦੀ ਲੋੜ ਕਰਦੇ ਹਨ (ਉਦਾਹਰਨ ਲਈ, ਖੇਤਰ-ਵਿਸ਼ੇਸ਼ ਰਾਜਨੀਤਿਕ ਸਮੱਗਰੀ, ਸੱਭਿਆਚਾਰਕ ਪੱਖਪਾਤ, ਕਾਨੂੰਨ ਅਤੇ ਦਵਾਈ ਵਰਗੇ ਵਿਗਿਆਨਕ ਜਾਂ ਮਾਹਰ ਖੇਤਰ)।
ਯੂਜ਼ਰ flow ਜਾਂ ਖ਼ਾਸ ਵਰਤੋਂ ਮਾਮਲਿਆਂ ਦੀ ਸਮਝ ਦੀ ਲੋੜ ਕਰਦੇ ਹਨ, ਇਸ ਵਿੱਚ ਉਹ ਕਾਰਕ ਵੀ ਸ਼ਾਮਲ ਹਨ ਜੋ ਸਿਸਟਮ ਤੋਂ ਬਾਹਰ ਹੋ ਸਕਦੇ ਹਨ (ਉਦਾਹਰਨ ਲਈ, ਘੱਟ ਨਜ਼ਰ ਵਾਲੇ ਵਿਅਕਤੀਆਂ ਲਈ GPT‑4(V) ਦੀ ਜਾਂਚ ਕਰਨਾ)।

OpenAI ਰੈਡ ਟੀਮਿੰਗ ਨੂੰ ਮਾਡਲ-ਪੱਧਰ ਅਤੇ ਸਿਸਟਮ-ਪੱਧਰ ਦੋਵੇਂ ਖਤਰਨਾਂ ਦੇ ਮੁਲਾਂਕਨ ਲਈ ਇੱਕ ਟੂਲ ਵਜੋਂ ਵੇਖਦਾ ਹੈ। ਸਿਸਟਮ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵਿੱਚ ਇਹ ਸ਼ਾਮਲ ਹੋ ਸਕਦੀਆਂ ਹਨ: classifiers, ਪ੍ਰੌੰਪਟ filters / block lists, ਯੂਜ਼ਰ interface ਪੱਧਰ ਦੀਆਂ interventions, monitoring ਅਤੇ evaluation practices, ਅਤੇ ਹੋਰ policy enforcement mechanisms। ਅਸੀਂ ਕਈ ਵਾਰ ਨਵੇਂ ਉਤਪਾਦ ਲਈ ਰੈਡ ਟੀਮਿੰਗ ਕਰਦੇ ਹਾਂ ਭਾਵੇਂ ਉਸ ਵਿੱਚ ਕੋਈ ਨਵਾਂ ਮਾਡਲ ਸ਼ਾਮਲ ਨਾ ਹੋਵੇ। ਉਦਾਹਰਨ ਲਈ, ਜਦੋਂ ਕਿ GPTs⁠ ਨੇ ਕੋਈ ਨਵਾਂ underlying ਮਾਡਲ ਪੇਸ਼ ਨਹੀਂ ਕੀਤਾ, ਉਹਨਾਂ ਨੇ ਇਹ ਜ਼ਰੂਰ ਪੇਸ਼ ਕੀਤਾ ਕਿ ਯੂਜ਼ਰ ਮਾਡਲ ਨਾਲ ਕਿਵੇਂ ਸੰਪਰਕ ਕਰਦੇ ਹਨ ਇਸ ਲਈ ਨਵੇਂ ਸਿਸਟਮ।

OpenAI ਸਾਡੀਆਂ ਰੈਡ ਟੀਮਿੰਗ ਕੋਸ਼ਿਸ਼ਾਂ ਨੂੰ ਖੇਤਰ-ਵਿਸ਼ੇਸ਼ ਹੋਰ ਰੈਡ ਟੀਮਿੰਗ ਯਤਨਾਂ ਦੀ ਪੂਰਕ ਮੰਨਦਾ ਹੈ, ਜੋ ਉਹ developers ਕਰਨ ਚਾਹੀਦੇ ਹਨ ਜੋ ਸਾਡੀ ਤਕਨਾਲੋਜੀ ‘ਤੇ ਨਿਰਮਾਣ ਕਰ ਰਹੇ ਹਨ। ਉਦਾਹਰਨ ਲਈ, ਜਦੋਂ ਕਿ ਅਸੀਂ ਆਪਣੇ ਮਾਡਲਾਂ ਅਤੇ ਸਿਸਟਮਾਂ ਨੂੰ ਖ਼ਾਸ ਸਮੇਂ ‘ਤੇ ਅਤੇ ਖ਼ਾਸ ਹਾਲਾਤਾਂ ਵਿੱਚ ਰੈਡ ਟੀਮਿੰਗ ਅਧੀਨ ਕਰਦੇ ਹਾਂ, ਸਾਡੇ API ‘ਤੇ ਨਿਰਮਾਣ ਕਰਨ ਵਾਲੇ developers ਨੂੰ ਉਹ ਸਿੱਖਿਆ ਧਿਆਨ ਵਿੱਚ ਰੱਖਣੀ ਚਾਹੀਦੀ ਹੈ ਅਤੇ ਆਪਣੇ ਉਮੀਦਿਤ ਸਿਸਟਮ ਅਤੇ ਸੰਦਰਭਕ ਹਾਲਾਤਾਂ ਦੇ ਆਧਾਰ ‘ਤੇ ਵਾਧੂ ਰੈਡ ਟੀਮਿੰਗ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ। ਇਹੀ ਕਾਰਨਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ ਕਿ OpenAI ਰੈਡ ਟੀਮਿੰਗ ਯਤਨਾਂ ਤੋਂ ਮੁੱਖ ਨਤੀਜੇ ਸਿਸਟਮ ਕਾਰਡਾਂ (ਅਤੇ ਹੋਰ ਜਨਤਕ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਦਸਤਾਵੇਜ਼ੀ ਰੂਪਾਂ) ਵਿੱਚ ਪ੍ਰਕਾਸ਼ਿਤ ਕਰਦਾ ਹੈ, ਤਾਂ ਜੋ ਹੋਰ ਲੋਕ ਉਹਨਾਂ ਤੋਂ ਸਿੱਖ ਸਕਣ ਅਤੇ ਉਨ੍ਹਾਂ ‘ਤੇ ਅੱਗੇ ਨਿਰਮਾਣ ਕਰ ਸਕਣ।

OpenAI ਵਿੱਚ ਦੁਹਰਾਈਵਾਰ ਰੈਡ ਟੀਮਿੰਗ

ਅਸੀਂ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਲਾਂਚਾਂ ਲਈ ਆਪਣੀਆਂ ਕਈ ਰੈਡ ਟੀਮਿੰਗ ਕੋਸ਼ਿਸ਼ਾਂ ਨੂੰ ਸਿਸਟਮ ਕਾਰਡਾਂ ਵਿੱਚ ਦਰਜ ਕੀਤਾ ਹੈ:

OpenAI ਨੇ ਮਾਹਿਰ ਰੈਡ ਟੀਮਰਾਂ ਨੂੰ varying degrees of fine-tuning ਅਤੇ post-training ਵਾਲੇ pre-trained ਮਾਡਲਾਂ, ਨਾਲ ਹੀ safety mitigations ਦੀ maturity ਦੇ ਵੱਖ-ਵੱਖ ਪੱਧਰਾਂ ਤੱਕ ਪਹੁੰਚ ਦਿੱਤੀ ਹੈ।

ਅਜਿਹਾ ਕਰਨ ਦੇ ਉਦੇਸ਼ ਇਹ ਹਨ:

ਰੈਡ ਟੀਮਿੰਗ ਤੋਂ ਮਿਲੀਆਂ ਸਮਝਾਂ post-training ਪੱਧਰ ਦੀਆਂ mitigations, system-level mitigations, policies ਅਤੇ evaluations ਦੇ ਵਿਕਾਸ ਲਈ ਜਾਣਕਾਰੀ ਦੇ ਸਕਦੀਆਂ ਹਨ।
ਰੈਡ ਟੀਮਿੰਗ insights ਕੁਝ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਜਾਰੀ ਕਰਨ, release ਨੂੰ ਦੁਹਰਾਈਵਾਰ ਤਾਇਨਾਤ ਕਰਨ ਦੇ ਢੰਗ, ਅਤੇ safety mitigations ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਬਾਰੇ ਨੇਤ੍ਰਿਤਵ ਦੇ ਫ਼ੈਸਲਾ-ਲੈਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੀਆਂ ਹਨ।
ਰੈਡ ਟੀਮਿੰਗ ਦੇ ਨਤੀਜੇ ਜਨਤਕ ਲਾਂਚ ਸਮੱਗਰੀ (ਜਿਵੇਂ ਸਿਸਟਮ ਕਾਰਡਾਂ ਜਾਂ ਹੋਰ ਫਾਰਮੈਟਾਂ ਵਿੱਚ) ਦੇ ਨਾਲ ਸਾਂਝੇ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ ਤਾਂ ਜੋ ਸੰਭਾਵੀ ਯੂਜ਼ਰਾਂ ਅਤੇ ਹੋਰ ਹਿੱਸੇਦਾਰਾਂ ਨੂੰ mitigated ਖਤਰਨਾਂ, ਬਾਕੀ ਰਹਿੰਦੇ ਖਤਰਨਾਂ, ਅਤੇ ਸੰਭਾਵੀ ਭਵਿੱਖ ਦੇ ਖਤਰਨਾਂ ਬਾਰੇ ਜਾਣਕਾਰੀ ਮਿਲ ਸਕੇ।

ਅਸੀਂ ਵਿਕਾਸ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਜਿੰਨਾ ਜਲਦੀ ਵਾਜਬ ਹੋਵੇ, ਉੱਨਾ ਜਲਦੀ ਰੈਡ ਟੀਮਰਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦੇ ਹਾਂ, ਤਾਂ ਜੋ ਰੈਡ ਟੀਮਿੰਗ ਤੋਂ ਮਿਲੀਆਂ ਸਮਝਾਂ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਸੁਰੱਖਿਆ ਯਤਨਾਂ ਅਤੇ ਫ਼ੈਸਲਾ-ਲੈਣ ਵਿੱਚ ਯੋਗਦਾਨ ਦੇ ਸਕਣ। ਇਹ ਵੀ ਮਹੱਤਵਪੂਰਣ ਹੈ ਕਿ ਕਿਸੇ ਵੀ ਵਾਧੂ safety mitigations ਤੋਂ ਪਹਿਲਾਂ ਮਾਡਲ ਦੀਆਂ ਬੁਨਿਆਦੀ ਸਮਰੱਥਾਵਾਂ ਬਾਰੇ ਸਿੱਖਿਆ ਜਾਵੇ, ਤਾਂ ਜੋ ਮਾਡਲ ਡਿਵੈਲਪਰ ਮਾਡਲ ਦੇ ਬੁਨਿਆਦੀ ਪੱਧਰ ਦੇ ਖਤਰਨਾਂ ਬਾਰੇ ਜਾਣਕਾਰੀ-ਅਧਾਰਿਤ ਫ਼ੈਸਲੇ ਕਰ ਸਕਣ, ਅਤੇ ਵਧਦੀ ਤਾਕਤ ਵਾਲੇ ਸਿਸਟਮਾਂ ਨਾਲ ਜੁੜੇ ਖਤਰਾ-ਦ੍ਰਿਸ਼ ਬਾਰੇ ਸਮਾਜਿਕ ਸਮਝ ਵੀ ਬਣ ਸਕੇ।

ਜਦੋਂ safety mitigations ਲਾਗੂ ਕੀਤੀਆਂ ਜਾ ਚੁੱਕੀਆਂ ਹੁੰਦੀਆਂ ਹਨ, ਤਾਂ ਰੈਡ ਟੀਮਿੰਗ ਯਤਨ ਵਾਧੂ ਰਾਊਂਡਾਂ ਨੂੰ ਉਹ ਖਾਮੀਆਂ ਅਤੇ ਬਾਕੀ ਖਤਰੇ ਪਛਾਣਣ ‘ਤੇ ਕੇਂਦਰਿਤ ਕਰ ਸਕਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਨੂੰ safety mitigations ਹੱਲ ਨਹੀਂ ਕਰਦੀਆਂ, ਨਾਲ ਹੀ mitigations ਦੀ ਮਜ਼ਬੂਤੀ ਦਾ ਮੁਲਾਂਕਨ ਵੀ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।

ਅਖੀਰਕਾਰ, ਭਾਵੇਂ ਮਾਡਲ development processes ਤੋਂ ਕਾਫ਼ੀ ਪਹਿਲਾਂ ਵੀ ਕੁਝ ਮਹੱਤਵਪੂਰਣ safety properties ਹਨ ਜਿਨ੍ਹਾਂ ‘ਤੇ ਹੋਰ ਵਿਚਾਰ ਕਰਨ ਦੀ ਲੋੜ ਹੈ, ਰੈਡ ਟੀਮਿੰਗ ਦਾ ਉਦੇਸ਼ ਅਜਿਹਾ ਅਨੁਭਵ simulate ਕਰਨਾ ਹੈ ਜੋ ਮਾਡਲ developers ਵੱਲੋਂ ਜਨਤਾ ਲਈ ਜਾਰੀ ਕੀਤੀ ਜਾਣ ਵਾਲੀ ਚੀਜ਼ ਦੇ ਸੰਭਵ ਤੌਰ ‘ਤੇ ਸਭ ਤੋਂ ਨੇੜੇ ਹੋਵੇ।

ਰੈਡ ਟੀਮਿੰਗ ਦੀਆਂ ਸੀਮਾਵਾਂ

ਰੈਡ ਟੀਮਿੰਗ ਆਪਣੇ ਆਪ ਵਿੱਚ ਖਤਰੇ ਦਾ ਯਥੇਸ਼ਟ ਮਾਪ ਨਹੀਂ ਹੈ। ਕੇਵਲ ਆਪਣੇ ਬਲ ‘ਤੇ, ਰੈਡ ਟੀਮਿੰਗ ਕਿਸੇ ਮਾਡਲ ਵੱਲੋਂ ਨੁਕਸਾਨਦਾਇਕ ਸਮੱਗਰੀ ਪੈਦਾ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ ਜਾਂ ਰੁਝਾਨ, ਜਾਂ ਕਿਸੇ AI ਸਿਸਟਮ ਦੀ ਵਰਤੋਂ ਨਾਲ ਜੁੜੇ ਖਤਰਨਾਂ ਨੂੰ ਪਰਿਮਾਣਿਤ ਨਹੀਂ ਕਰੇਗੀ। ਰੈਡ ਟੀਮਿੰਗ ਕਿਸੇ ਪਛਾਣੇ ਖਤਰੇ ਜਾਂ ਨੁਕਸਾਨ ਦੀ ਗੰਭੀਰਤਾ ਨੂੰ ਪਰਿਮਾਣਿਤ ਕਰਨ ਲਈ ਵੀ ਕਾਫ਼ੀ ਜਾਣਕਾਰੀ ਨਹੀਂ ਦਿੰਦੀ।

ਹਾਲਾਂਕਿ OpenAI ਦੀਆਂ ਜ਼ਿਆਦਾਤਰ ਮਾਹਿਰ ਰੈਡ ਟੀਮਿੰਗ ਕੋਸ਼ਿਸ਼ਾਂ ਕਿਸੇ ਵੱਡੇ ਮਾਡਲ ਜਾਂ ਉਤਪਾਦ ਦੀ ਤਾਇਨਾਤੀ ਤੋਂ ਪਹਿਲਾਂ ਹੁੰਦੀਆਂ ਹਨ, ਪਰ ਮਾਡਲ ਅਤੇ ਸਿਸਟਮ production ਵਿੱਚ ਕਾਫ਼ੀ ਵਾਰ ਵਿਕਸਤ ਹੁੰਦੇ ਰਹਿੰਦੇ ਹਨ। ਇਸ ਲਈ ਰੈਡ ਟੀਮਿੰਗ ਦੇ ਨਤੀਜਿਆਂ ਨੂੰ ਸੰਦਰਭਿਤ ਕਰਦੇ ਸਮੇਂ ਇਸ ਗੱਲ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਣਾ ਮਹੱਤਵਪੂਰਣ ਹੈ। ਇਸੇ ਤਰ੍ਹਾਂ, ਮਾਡਲਾਂ ‘ਤੇ ਖ਼ਾਸ ਵਰਤੋਂ ਮਾਮਲਿਆਂ ਲਈ ਨਿਰਮਾਣ ਕਰਨ ਵਾਲੇ developers ਅਜਿਹੇ design decisions ਕਰ ਸਕਦੇ ਹਨ ਜੋ ਕਿਸੇ ਮਾਡਲ ਜਾਂ ਸਿਸਟਮ ਦੇ safety profile ਨੂੰ ਬਦਲ ਦੇਣ, ਜੇ ਉਹ ਮਾਡਲ ਜਾਂ ਸਿਸਟਮ ਵਿੱਚ ਜੱਦੀ ਤੌਰ ‘ਤੇ ਮੌਜੂਦ ਨਾ ਹੋਣ ਜਾਂ ਉਸ ਤੋਂ ਅਟੱਲ ਨਾ ਹੋਣ।

ਰੈਡ ਟੀਮਿੰਗ ਹੋਰ ਕਿਸਮਾਂ ਦੀ ਜਾਂਚ ਅਤੇ ਮੁਲਾਂਕਨ ਲਈ ਨੀਂਹ ਰੱਖਦੀ ਹੈ, ਅਤੇ ਇਹ ਕੁਝ ਮਾਰਗਦਰਸ਼ਨ ਵੀ ਦਿੰਦੀ ਹੈ ਕਿ ਸੁਰੱਖਿਆ ਰੋਕਥਾਮਾਂ ਨੂੰ ਕਿਹੜੇ attack vectors ਜਾਂ ਸਮੱਸਿਆਵਾਂ ਵਿਰੁੱਧ ਮਜ਼ਬੂਤ ਹੋਣ ਦੀ ਲੋੜ ਹੈ।

ਕਿਸੇ ਸਮੱਸਿਆ ਦੇ ਕਈ ਉਦਾਹਰਨਾਂ ਅਤੇ permutations ਦੀ ਜਾਂਚ ਕਰਨ ਨਾਲ ਇਹ ਭਰੋਸਾ ਪੈਦਾ ਹੋ ਸਕਦਾ ਹੈ ਕਿ ਕਿਸੇ ਖ਼ਾਸ ਖਤਰਾ ਖੇਤਰ ਨੂੰ ਕਿਵੇਂ ਮਾਪਿਆ ਜਾਵੇ। ਡਿਜ਼ਾਈਨ ਅਨੁਸਾਰ ਮਾਹਿਰ ਰੈਡ ਟੀਮਿੰਗ ਦਾ ਉਦੇਸ਼ ਖਤਰਾ ਖੇਤਰਾਂ ਦੀ ਡੂੰਘਾਈ ਦੀ ਬਜਾਇ ਚੌੜਾਈ ਨੂੰ ਕਵਰ ਕਰਨਾ ਹੁੰਦਾ ਹੈ, ਅਤੇ ਇਸ ਲਈ ਕੇਵਲ ਆਪਣੇ ਬਲ ‘ਤੇ ਇਹ ਜ਼ਰੂਰੀ ਨਹੀਂ ਕਿ ਖ਼ਾਸ ਖਤਰਨਾਂ ਨੂੰ ਮਾਪਣ ਲਈ ਯਥੇਸ਼ਟ ਮੁਲਾਂਕਨ ਬਣਾਵੇ। ਇਸ ਦੀ ਥਾਂ, ਰੈਡ ਟੀਮਿੰਗ datasets ਤਿਆਰ ਕਰ ਸਕਦੀ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਹੋਰ ਵਿਸਤ੍ਰਿਤ ਮੁਲਾਂਕਨ ਲਈ “ਬੀਜ” ਮੰਨਿਆ ਜਾ ਸਕਦਾ ਹੈ। ਉੱਥੋਂ, ਨਤੀਜਿਆਂ ਦੀ ਵਰਤੋਂ ਕਿਸੇ ਖ਼ਾਸ ਸਮੱਸਿਆ ਖੇਤਰ ਦੇ ਹੋਰ ਉਦਾਹਰਨ ਪੈਦਾ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ ਜੋ ਸਾਹਮਣੇ ਆਈ ਸੀ, ਅਤੇ labeled examples ਦਾ ਇੱਕ “golden set” (ਆਮ ਤੌਰ ‘ਤੇ ਖੇਤਰ-ਮਾਹਿਰਾਂ ਦੁਆਰਾ) ਕਿਸੇ ਪਛਾਣੇ ਸਮੱਸਿਆ ਖੇਤਰ ‘ਤੇ ਭਵਿੱਖ ਦੇ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਨ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ।

ਰੈਡ ਟੀਮਾਂ ਦੀ ਬਣਤਰ ਅਤੇ ਖੇਤਰ ਤਰਜੀਹ

ਸਧਾਰਣ ਉਦੇਸ਼ ਵਾਲੇ AI ਸਿਸਟਮ, ਜੋ ਦੁਨੀਆ ਭਰ ਵਿੱਚ ਕਈ ਉਮੀਦਿਤ ਅਤੇ ਅਣਉਮੀਦਿਤ ਵਰਤੋਂ ਦੇ ਮਾਮਲਿਆਂ ਅਤੇ ਵੱਖ-ਵੱਖ ਸੰਦਰਭਾਂ ਵਿੱਚ ਵਰਤੇ ਜਾਣਗੇ, ਲਈ ਵਿਸ਼ਿਆਂ ਦੇ ਵਿਸ਼ਾਲ ਖੇਤਰਾਂ ਨੂੰ ਕਵਰ ਕਰਨਾ ਲਾਜ਼ਮੀ ਬਣ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਇਸ ਲਈ ਉਹ ਲੋਕ ਲੋੜੀਂਦੇ ਹਨ ਜੋ ਵੱਖ-ਵੱਖ ਨਜ਼ਰੀਆਂ ਅਤੇ ਵਿਸ਼ਵਦ੍ਰਿਸ਼ਟੀਆਂ ਦਾ ਪ੍ਰਤੀਨਿਧਿਤਵ ਕਰਦੇ ਹੋਣ।

OpenAI ਸਾਡੇ ਮਾਡਲਾਂ ਦੀ ਰੈਡ ਟੀਮਿੰਗ ਲਈ ਵੱਖ-ਵੱਖ ਕਿਸਮ ਦੇ ਮਾਹਿਰਾਂ ਦੀ ਭਰਤੀ ‘ਤੇ ਵਿਸ਼ਵਾਸ ਕਰਦਾ ਹੈ। ਪਿਛਲੇ ਸਾਲ, ਅਸੀਂ Red Teaming Network ਲਈ ਅਰਜ਼ੀਕਾਰਾਂ ਨੂੰ ਸੱਦਾ ਦਿੱਤਾ ਸੀ। ਚੋਣ ਮਾਪਦੰਡਾਂ ਵਿੱਚ ਇਹ ਸ਼ਾਮਲ ਸੀ:

ਰੈਡ ਟੀਮਿੰਗ ਨਾਲ ਸੰਬੰਧਿਤ ਕਿਸੇ ਖ਼ਾਸ ਖੇਤਰ ਵਿੱਚ ਸਾਬਤ ਮਹਾਰਤ ਜਾਂ ਤਜਰਬਾ
AI ਸੁਰੱਖਿਆ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਜਜ਼ਬਾ
ਕਿਸੇ ਵੀ ਤਰ੍ਹਾਂ ਦੇ ਸਵਾਰਥ-ਟਕਰਾਅ ਦਾ ਨਾ ਹੋਣਾ
ਵਿਭਿੰਨ ਪਿਛੋਕੜਾਂ ਅਤੇ ਰਵਾਇਤੀ ਤੌਰ ‘ਤੇ ਘੱਟ ਪ੍ਰਤੀਨਿਧਿਤ ਸਮੂਹ
ਵਿਭਿੰਨ ਭੂਗੋਲਿਕ ਪ੍ਰਤੀਨਿਧਿਤਾ
ਇੱਕ ਤੋਂ ਵੱਧ ਭਾਸ਼ਾ ਵਿੱਚ ਫ਼ਲੂਐਂਸੀ
ਤਕਨੀਕੀ ਸਮਰੱਥਾ (ਮਦਦਗਾਰ ਪਰ ਲਾਜ਼ਮੀ ਨਹੀਂ)

ਖੇਤਰਾਂ ਦੀ ਤਰਜੀਹ ਇਹਨਾਂ ਤੋਂ ਜਾਣਕਾਰੀ ਲੈ ਸਕਦੀ ਹੈ: AI ਸਿਸਟਮ ਜਾਂ ਮਾਡਲ ਦੀਆਂ ਉਮੀਦਿਤ ਵਰਤੋਂਆਂ, ਖ਼ਾਸ ਕਰਕੇ ਉਹ ਸੰਦਰਭ ਜਿੱਥੇ ambiguity ਜਾਂ ਸੰਭਾਵਿਤ ਖਤਰੇ ਵੱਧ ਹੋਣ; ਮਾਡਲਾਂ ਦਾ ਸ਼ੁਰੂਆਤੀ ਮੁਲਾਂਕਨ ਜਿੱਥੇ ਮਾਡਲ ਵਿਕਾਸਕਾਰ ਵਧੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦੀ ਉਮੀਦ ਕਰ ਸਕਦੇ ਹਨ; ਪਹਿਲਾਂ ਤੋਂ ਜਾਣੇ-ਪਛਾਣੇ ਸਮੱਗਰੀ ਨੀਤੀ ਸਮੱਸਿਆ ਖੇਤਰ; ਅਤੇ ਸੰਬੰਧਿਤ ਸਮਾਜਿਕ-ਰਾਜਨੀਤਿਕ ਸੰਦਰਭ (ਜਿਵੇਂ ਕਿ 2024 ਦੁਨੀਆ ਦੇ ਕਈ ਸਥਾਨਾਂ ਵਿੱਚ ਇੱਕ ਵੱਡਾ ਚੋਣੀ ਸਾਲ ਹੈ)। ਇਹ ਨੋਟ ਕਰਨਾ ਮਹੱਤਵਪੂਰਣ ਹੈ ਕਿ ਹਰ ਮਾਡਲ ਜਾਂ ਸਿਸਟਮ ਲਈ ਵੱਖ-ਵੱਖ ਮਹਾਰਤਾਂ ਦੇ ਸੈੱਟ ਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ, ਅਤੇ ਮਾਡਲ ਜਾਂ ਸਿਸਟਮਾਂ ਦੀਆਂ ਅੱਗੇ ਵਧਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਨਵੇਂ ਵਰਤੋਂ ਮਾਮਲਿਆਂ ਦੇ ਆਧਾਰ ‘ਤੇ ਨਵੇਂ ਖੇਤਰ ਵੀ ਵਿਚਾਰੇ ਜਾ ਸਕਦੇ ਹਨ। ਇਸ ਲਈ ਰੈਡ ਟੀਮਾਂ ਦੀ ਸਭ ਤੋਂ ਵਧੀਆ ਬਣਤਰ ਸਮੇਂ ਦੇ ਨਾਲ ਵਿਕਸਤ ਹੋਵੇਗੀ।

Synthetic Media ਅਤੇ Provenance

Watermarking: ਇਸ ਪਹੁੰਚ ਹੇਠ, ਬਣਾਇਆ ਗਿਆ audiovisual ਮੀਡੀਆ ਖ਼ੁਦ ਆਪਣੇ ਮੂਲ ਦਾ ਸੰਕੇਤ ਰੱਖਦਾ ਹੈ, ਇੱਕ ਸੁਖਮ ਪੈਟਰਨ ਜੋ ਵੇਖਣ ਵਾਲੇ ਜਾਂ ਸੁਣਨ ਵਾਲੇ ਨੂੰ ਦਿਖਾਈ ਨਹੀਂ ਦਿੰਦਾ, ਪਰ software ਦੁਆਰਾ ਖੋਜਿਆ ਜਾ ਸਕਦਾ ਹੈ। ਇਹ ਅਜਿਹਾ ਸੰਕੇਤ ਹੋ ਸਕਦਾ ਹੈ ਜੋ ਸਿਰਫ਼ ਇੱਕ secret key ਦੀ ਮਦਦ ਨਾਲ ਖੋਜਿਆ ਜਾ ਸਕੇ, ਜਾਂ ਵਿਕਲਪਕ ਤੌਰ ‘ਤੇ, watermark ਖੋਜਣ ਵਾਲਾ software ਜਨਤਕ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਹੋ ਸਕਦਾ ਹੈ। ਇਸ ਕਾਰਨ, ਜੇ OpenAI ਆਪਣੇ outputs ਵਿੱਚ watermark ਸ਼ਾਮਲ ਕਰੇ, ਤਾਂ AI value chain ਵਿੱਚ ਸਹਿਯੋਗ ਲਾਜ਼ਮੀ ਹੋਵੇਗਾ ਤਾਂ ਜੋ ਹੋਰ ਭਾਗੀਦਾਰ, ਜਿਵੇਂ ਸਮੱਗਰੀ ਵੰਡਣ ਵਾਲੇ social media platforms, watermark ਨੂੰ ਯੂਜ਼ਰਾਂ ਲਈ ਦਿੱਖਯੋਗ ਅਤੇ ਲਾਭਦਾਇਕ ਬਣਾ ਸਕਣ। ਜੇ detection process ਖ਼ੁਦ ਜਨਤਕ ਨਾ ਹੋਵੇ, ਤਾਂ ਉਸ ਪ੍ਰਕਿਰਿਆ ਤੱਕ ਪਹੁੰਚ ਇੱਕ ਜਟਿਲ ਨੀਤੀ ਸਵਾਲ ਬਣ ਜਾਂਦੀ ਹੈ। ਤਕਨੀਕੀ ਚੁਣੌਤੀਆਂ ਵੀ ਹਨ। ਭਾਵੇਂ watermarks ਹੋਰ provenance ਢੰਗਾਂ ਨਾਲੋਂ ਹਟਾਉਣ ਵਿੱਚ ਔਖੇ ਹੋ ਸਕਦੇ ਹਨ, ਪਰ ਚਿੰਨ੍ਹਿਤ ਮੀਡੀਆ ਆਪਣਾ watermark ਫਿਰ ਵੀ ਗੁਆ ਸਕਦਾ ਹੈ ਜੇ ਇਸਨੂੰ crop, resize ਜਾਂ ਹੋਰ ਕਿਸੇ ਤਰੀਕੇ ਨਾਲ ਸੋਧਿਆ ਜਾਵੇ। ਇਨ੍ਹਾਂ ਕਾਰਨਾਂ ਕਰਕੇ, watermarks ਤੋਂ ਫਿਰ ਵੀ ਬਚਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਖ਼ਾਸ ਕਰਕੇ ਉਤਸ਼ਾਹੀ ਵਿਰੋਧੀ ਅਦਾਕਾਰਾਂ ਦੁਆਰਾ। ਇਸ ਤੋਂ ਇਲਾਵਾ, watermarking ਦਾ ਪ੍ਰਭਾਵ ਸੀਮਿਤ ਹੋ ਸਕਦਾ ਹੈ ਕਿਉਂਕਿ ਖ਼ਰਾਬ ਅਦਾਕਾਰ ਅਜਿਹੇ ਮਾਡਲਾਂ ਤੱਕ ਪਹੁੰਚ ਕਰ ਸਕਦੇ ਹਨ ਜੋ ਆਪਣੇ outputs ਨੂੰ watermark ਨਹੀਂ ਕਰਦੇ।
Classifiers (ਟ੍ਰੇਨ ਕੀਤੇ ਮਾਡਲ ਜੋ AI-ਤਿਆਰ ਆਉਟਪੁੱਟ ਨੂੰ ਹੋਰ ਮੀਡੀਆ ਤੋਂ ਵੱਖ ਕਰਦੇ ਹਨ, ਅਤੇ ਇਹ ਵੀ ਪਤਾ ਲਗਾ ਸਕਦੇ ਹਨ ਕਿ ਕਿਸ ਮਾਡਲ ਜਾਂ ਸੇਵਾ ਨੇ ਕੋਈ ਦਿੱਤਾ ਆਉਟਪੁੱਟ ਬਣਾਇਆ): ਜਦੋਂ ਇਹ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੁੰਦੇ ਹਨ, ਤਾਂ ਇਹ ਪਹੁੰਚਾਂ ਬਹੁਤ ਆਕਰਸ਼ਕ ਹੁੰਦੀਆਂ ਹਨ ਕਿਉਂਕਿ ਇਹ ਤਸਵੀਰ ਵੰਡਣ ਵਾਲੇ ਵਿਅਕਤੀ ਜਾਂ ਕਿਸੇ ਹੋਰ ਦੇ ਸਹਿਯੋਗ ‘ਤੇ ਨਿਰਭਰ ਨਹੀਂ ਕਰਦੀਆਂ। ਹਾਲਾਂਕਿ, ਇਹ ਗਲਤੀਆਂ ਕਰ ਸਕਦੀਆਂ ਹਨ, ਦੋਵੇਂ false positives ਅਤੇ false negatives, ਅਤੇ ਇਨ੍ਹਾਂ ਨੂੰ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਤਾਇਨਾਤ ਕਰਨਾ computationally intensive ਹੋ ਸਕਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, false positives ਕਿਸੇ ਮਨੁੱਖੀ ਕਲਾਕਾਰ ਦੇ ਕੰਮ ਨੂੰ ਗਲਤੀ ਨਾਲ AI output ਵਜੋਂ ਦਰਸਾ ਸਕਦੇ ਹਨ। ਦੂਜੇ ਪਾਸੇ, false negatives ਗਲਤੀ ਨਾਲ ਕਿਸੇ ਤਸਵੀਰ ਨੂੰ non-AI generated ਵਜੋਂ ਚਿੰਨ੍ਹਤ ਕਰ ਸਕਦੇ ਹਨ, ਜਦੋਂ ਕਿ ਅਸਲ ਵਿੱਚ ਉਹ ਐਸੀ ਨਹੀਂ ਹੁੰਦੀ।
Metadata-based approaches(ਜਿਵੇਂC2PA⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦਾ ਮੌਜੂਦਾ ਮਿਆਰ): ਇਨ੍ਹਾਂ ਪਹੁੰਚਾਂ ਵਿੱਚ, ਕੁਝ ਮੀਡੀਆ ਨਾਲ ਜੁੜੇ metadata ਨੂੰ cryptographically sign ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਤਾਂ ਜੋ ਮੀਡੀਆ ਦੇ ਮੂਲ ਬਾਰੇ ਤਸਦੀਕ ਦਿੱਤੀ ਜਾ ਸਕੇ।

ਇਹ ਉਹਨਾਂ ਲੋਕਾਂ ਨੂੰ ਸਸ਼ਕਤ ਕਰ ਸਕਦਾ ਹੈ ਜੋ ਮੀਡੀਆ ਦੇ ਮੂਲ ਨੂੰ ਸਾਬਤ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਨ, ਭਾਵੇਂ ਉਹ AI-ਤਿਆਰ ਹੋਵੇ ਜਾਂ ਨਾ ਹੋਵੇ। ਉਦਾਹਰਨ ਲਈ, C2PA ਕਿਸੇ news publisher ਨੂੰ ਇਹ ਦਰਸਾਉਣ ਅਤੇ ਦਰਸ਼ਕਾਂ ਨੂੰ ਇਹ ਪੁਸ਼ਟੀ ਕਰਨ ਦੀ ਆਗਿਆ ਦੇ ਸਕਦਾ ਹੈ ਕਿ publisher ਨੇ ਅਸਲ ਵਿੱਚ ਕੋਈ ਖ਼ਾਸ ਤਸਵੀਰ ਜਾਂ ਵੀਡੀਓ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤਾ ਸੀ ਅਤੇ ਉਹ ਉਸ ਤਸਵੀਰ ਜਾਂ ਵੀਡੀਓ ਦੀ ਸਹੀਪਣ ਦੇ ਪੱਖ ਵਿੱਚ ਖੜ੍ਹਾ ਹੈ। ਇਸੇ ਤਰ੍ਹਾਂ, ਜੇ ਇਹ ਕਿਸੇ generative AI ਸਿਸਟਮ ਲਈ ਲਾਗੂ ਕੀਤਾ ਜਾਵੇ, ਤਾਂ ਇਹ ਤਕਨੀਕ ਕਿਸੇ ਕਲਾਕਾਰ ਦੀ ਮਦਦ ਕਰ ਸਕਦੀ ਹੈ ਇਹ ਦਿਖਾਉਣ ਵਿੱਚ ਕਿ ਉਸ ਨੇ ਕੋਈ ਖ਼ਾਸ synthetic ਤਸਵੀਰ ਜਾਂ ਵੀਡੀਓ ਬਣਾਈ ਸੀ। ਉਪਰੋਂ ਵੇਖਣ ਵਿੱਚ, ਇਨ੍ਹਾਂ ਪਹੁੰਚਾਂ ਦਾ ਲਾਭ ਇਹ ਹੈ ਕਿ ਇਹ ਖਪਤਕਾਰਾਂ ਜਾਂ ਜਨਤਾ ਨੂੰ ਸਮੱਗਰੀ ਦੇ provenance ਬਾਰੇ ਦਿੱਖ ਪ੍ਰਦਾਨ ਕਰਦੀਆਂ ਹਨ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਨ੍ਹਾਂ ਦਾ ਇਹ ਵੀ ਫਾਇਦਾ ਹੈ ਕਿ ਇਨ੍ਹਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨ ਲਈ ਵੱਡੇ ਸਰੋਤਾਂ ਦੀ ਲੋੜ ਨਹੀਂ ਪੈਂਦੀ।

ਹਾਲਾਂਕਿ, ਕਿਸੇ ਅਧਾਰਭੂਤ ਤਸਵੀਰ ਜਾਂ ਵੀਡੀਓ ਤੋਂ metadata ਨੂੰ ਆਸਾਨੀ ਨਾਲ ਹਟਾਇਆ ਜਾ ਸਕਦਾ ਹੈ, ਇਸ ਲਈ ਇਹ ਤਕਨੀਕ ਖ਼ਰਾਬ ਅਦਾਕਾਰਾਂ ਲਈ ਕੋਈ ਅਰਥਪੂਰਨ ਰੁਕਾਵਟ ਨਹੀਂ ਬਣਾਉਂਦੀ, ਉਦਾਹਰਨ ਲਈ ਉਹ ਜੋ misinformation ਮੁਹਿੰਮਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ, ਜੋ generated ਸਮੱਗਰੀ ਨੂੰ ਅਸਲ ਵਜੋਂ ਪੇਸ਼ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋਣ।

ਤਾਂ ਜੋ metadata ਪਹੁੰਚਾਂ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਜਨਤਾ ਨੂੰ ਲਾਭ ਦੇ ਸਕਣ, browsers ਅਤੇ distribution platforms, ਜਿਵੇਂ social media platforms, ਨੂੰ metadata ਖੋਜਣ ਅਤੇ ਦਿਖਾਉਣ ਦੀ ਲੋੜ ਹੋਵੇਗੀ। ਇਸ ਲਈ metadata-based approaches ਨੂੰ ਸਫਲਤਾਪੂਰਵਕ ਲਾਗੂ ਕਰਨ ਲਈ value chain ਭਰ ਵਿੱਚ ਸਹਿਯੋਗ ਦੀ ਲੋੜ ਹੈ: ਸਿਰਫ਼ ਇਹ ਕਾਫ਼ੀ ਨਹੀਂ ਕਿ audiovisual ਸਮੱਗਰੀ ‘ਤੇ metadata cryptographically signed ਹੋਵੇ, ਸਗੋਂ distribution platforms ਨੂੰ ਉਹ metadata ਖੋਜ ਕੇ end-user ਲਈ ਦਿਖਾਉਣ ਯੋਗ ਵੀ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਤਾਂ ਜੋ ਉਹ ਮੀਡੀਆ ਦੇ ਮੂਲ ਦੀ ਪੁਸ਼ਟੀ ਕਰ ਸਕੇ।

provenance ਲਈ OpenAI ਦੀਆਂ ਪਹੁੰਚਾਂ

ਕਿਉਂਕਿ ਹਰ provenance ਢੰਗ ਨਾਲ ਕੁਝ ਫਾਇਦੇ ਅਤੇ ਸੀਮਾਵਾਂ ਹੁੰਦੀਆਂ ਹਨ, OpenAI AI-ਤਿਆਰ audiovisual media ਲਈ provenance ਦੀਆਂ ਕਈ ਪਹੁੰਚਾਂ ਦੀ ਖੋਜ ਕਰ ਰਿਹਾ ਹੈ।

DALL·E 3 ਤਸਵੀਰਾਂ ਲਈ C2PA metadata

ਇਸ ਸਾਲ 15 ਜਨਵਰੀ ਨੂੰ, OpenAI ਨੇ ਘੋਸ਼ਣਾ ਕੀਤੀ ਕਿ ਅਸੀਂ ਆਪਣੇ text-to-image ਮਾਡਲ DALL·E 3 ਨਾਲ ਬਣਾਈਆਂ ਤਸਵੀਰਾਂ ਲਈ C2PA metadata ਪਹੁੰਚ ਲਾਗੂ ਕਰਾਂਗੇ। C2PA specifications ਇੱਕ ਖੁੱਲ੍ਹਾ ਤਕਨੀਕੀ ਮਿਆਰ ਹਨ ਜੋ publishers, creators ਅਤੇ consumers ਨੂੰ ਵੱਖ-ਵੱਖ ਕਿਸਮ ਦੇ ਮੀਡੀਆ ਦੇ ਮੂਲ ਦਾ ਪਤਾ ਲਗਾਉਣ ਦੀ ਸਮਰੱਥਾ ਦਿੰਦੇ ਹਨ।

ਇਹ specifications ਕਿਸੇ ਫ਼ਾਈਲ ਨਾਲ metadata ਜੋੜਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀਆਂ ਹਨ। ਇਸ metadata ਵਿੱਚ ਤਸਵੀਰ ਦੇ ਸਰੋਤ ਬਾਰੇ ਜਾਣਕਾਰੀ (ਸਾਡੇ ਮਾਮਲੇ ਵਿੱਚ, ਕਿ ਤਸਵੀਰ DALL·E ਤੋਂ ਆਈ ਹੈ) ਅਤੇ ਬਣਾਉਣ ਦਾ ਸਮਾਂ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ। ਜਨਤਾ ਦੇ ਮੈਂਬਰ ਇਸ metadata ਲਈ ਜਾਂਚ ਕਰ ਸਕਦੇ ਹਨ ਅਤੇ, ਜੇ metadata ਮੌਜੂਦ ਹੋਵੇ, ਤਾਂ ਇਹ ਪੁਸ਼ਟੀ ਕਰ ਸਕਦੇ ਹਨ ਕਿ ਕੋਈ ਤਸਵੀਰ DALL·E 3 ਦੁਆਰਾ ਬਣਾਈ ਗਈ ਸੀ।

ਇਹ ਸਾਨੂੰ ਯੂਜ਼ਰਾਂ ਨੂੰ ਉਹਨਾਂ ਤਸਵੀਰਾਂ ਦੇ ਮੂਲ ਦੀ ਨਿਸ਼ਾਨਦੇਹੀ ਕਰਨ ਯੋਗ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰੇਗਾ ਜੋ ਉਹ DALL·E 3 ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਬਣਾਉਂਦੇ ਹਨ। ਹਾਲਾਂਕਿ, ਇਹ metadata ਕਾਫ਼ੀ ਆਸਾਨੀ ਨਾਲ ਹਟਾਇਆ ਜਾ ਸਕਦਾ ਹੈ: ਕੋਈ ਉਤਸ਼ਾਹੀ ਖ਼ਰਾਬ ਅਦਾਕਾਰ ਕਿਸੇ ਵੀ ਤਸਵੀਰ ਨਾਲ ਜੁੜੀ C2PA metadata ਨੂੰ ਹਟਾ ਸਕਦਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, social media platforms ਵਰਗੇ ਆਮ image sharing platforms ਇਸਨੂੰ ਇਸ ਵੇਲੇ ਡਿਫਾਲਟ ਤੌਰ ‘ਤੇ ਹਟਾ ਦਿੰਦੇ ਹਨ, ਯੂਜ਼ਰਾਂ ਲਈ ਇਸਨੂੰ ਖੋਜਣ ਅਤੇ ਦਿਖਾਉਣ ਦੀ ਬਜਾਇ। C2PA ਨੂੰ ਕਿੰਨੀ ਆਸਾਨੀ ਨਾਲ ਹਟਾਇਆ ਜਾ ਸਕਦਾ ਹੈ, ਇਸਨੂੰ ਦੇਖਦੇ ਹੋਏ ਜਨਤਾ ਦੇ ਮੈਂਬਰ ਇਹ ਮੰਨ ਕੇ ਨਹੀਂ ਚੱਲ ਸਕਦੇ ਕਿ ਉਹਨਾਂ ਨੂੰ ਦਿਖਣ ਵਾਲੀ ਹਰ DALL·E ਤਸਵੀਰ ਵਿੱਚ ਅਜਿਹਾ ਡਾਟਾ ਲਾਜ਼ਮੀ ਹੋਵੇਗਾ।

ਹਾਲਾਂਕਿ, C2PA ਸਿਰਫ਼ AI ਤਸਵੀਰਾਂ ਲਈ ਹੀ ਨਹੀਂ ਹੈ, ਅਤੇ ਜੇ ਇਸਨੂੰ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਅਪਣਾਇਆ ਜਾਵੇ ਤਾਂ ਇਸਦੇ ਮਹੱਤਵਪੂਰਣ ਫਾਇਦੇ ਹੋ ਸਕਦੇ ਹਨ। ਇਸਨੂੰ camera manufacturers, news organizations ਅਤੇ ਹੋਰਾਂ ਦੁਆਰਾ ਵੀ ਅਪਣਾਇਆ ਜਾ ਰਿਹਾ ਹੈ ਤਾਂ ਜੋ ਉਹ ਇਹ ਸਾਬਤ ਕਰ ਸਕਣ ਕਿ ਤਸਵੀਰਾਂ ਕਿੱਥੋਂ ਆਉਂਦੀਆਂ ਹਨ। ਸਾਡਾ ਵਿਸ਼ਵਾਸ ਹੈ ਕਿ disclosure methods ਦੀ ਵਿਆਪਕ ਅਪਣਾਉਣ ਅਤੇ ਯੂਜ਼ਰਾਂ ਨੂੰ ਇਨ੍ਹਾਂ ਸੰਕੇਤਾਂ ਦੀ ਭਾਲ ਕਰਨ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕਰਨਾ ਡਿਜ਼ਿਟਲ ਜਾਣਕਾਰੀ ਦੀ ਭਰੋਸੇਯੋਗਤਾ ਵਧਾਉਣ ਵੱਲ ਮਹੱਤਵਪੂਰਣ ਕਦਮ ਹਨ।

DALL·E 3 ਤਸਵੀਰਾਂ ਲਈ ਪ੍ਰਯੋਗਾਤਮਕ ਕਲਾਸੀਫਾਇਰ

19 ਅਕਤੂਬਰ 2023 ਨੂੰ, ਅਸੀਂ ਆਪਣੇ DALL·E 3 ਸਿਸਟਮ ਦੁਆਰਾ ਬਣਾਈਆਂ ਤਸਵੀਰਾਂ ਦਾ ਪਤਾ ਲਗਾਉਣ ਲਈ ਇੱਕ ਨਵੇਂ ਅੰਦਰੂਨੀ ਟੂਲ, provenance classifier, ਉੱਤੇ ਆਪਣੇ ਚੱਲ ਰਹੇ ਕੰਮ ਦੀ ਘੋਸ਼ਣਾ ਕੀਤੀ ਸੀ। ਅਸੀਂ ਕਲਾਸੀਫਾਇਰ ਦੀ ਸਹੀਪਣ ਨੂੰ ਅੰਦਰੂਨੀ benchmarks ਨਾਲ ਮਾਪਦੇ ਹਾਂ, ਜਿਨ੍ਹਾਂ ਨੇ ਉਤਸ਼ਾਹਜਨਕ ਨਤੀਜੇ ਦਿਖਾਏ ਹਨ, ਇੱਥੋਂ ਤੱਕ ਕਿ ਜਦੋਂ ਤਸਵੀਰਾਂ ਵਿੱਚ cropping, resizing, JPEG compression ਵਰਗੀਆਂ ਆਮ ਸੋਧਾਂ ਕੀਤੀਆਂ ਗਈਆਂ ਹੋਣ, ਜਾਂ ਜਦੋਂ ਅਸਲ ਤਸਵੀਰਾਂ ਤੋਂ ਲਿਖਤ ਜਾਂ cutouts ਬਣਾਈ ਗਈ ਤਸਵੀਰ ਦੇ ਛੋਟੇ ਹਿੱਸਿਆਂ ਉੱਤੇ ਚੜ੍ਹਾਏ ਗਏ ਹੋਣ। ਅੰਦਰੂਨੀ ਟੈਸਟਿੰਗ ਵਿੱਚ ਇਨ੍ਹਾਂ ਮਜ਼ਬੂਤ ਨਤੀਜਿਆਂ ਦੇ ਬਾਵਜੂਦ, ਕਲਾਸੀਫਾਇਰ ਸਾਨੂੰ ਸਿਰਫ਼ ਇਹ ਦੱਸ ਸਕਦਾ ਹੈ ਕਿ ਕੋਈ ਤਸਵੀਰ ਸੰਭਾਵਤ ਤੌਰ ‘ਤੇ DALL·E ਦੁਆਰਾ ਬਣਾਈ ਗਈ ਸੀ, ਅਤੇ ਇਹ ਹਾਲੇ ਸਾਨੂੰ ਅੰਤਿਮ ਨਿਸ਼ਕਰਸ਼ ਕੱਢਣ ਦੇ ਯੋਗ ਨਹੀਂ ਬਣਾਉਂਦਾ।

ਅਸੀਂ ਆਪਣੇ ਕਲਾਸੀਫਾਇਰ ਦੀ ਮਜ਼ਬੂਤੀ ਲਈ ਟੈਸਟਿੰਗ ਜਾਰੀ ਰੱਖ ਰਹੇ ਹਾਂ ਅਤੇ 2024 ਦੀ ਪਹਿਲੀ ਤਿਮਾਹੀ ਵਿੱਚ, ਅਸੀਂ ਇਸਨੂੰ ਫੀਡਬੈਕ ਲਈ ਬਾਹਰੀ ਭਾਗੀਦਾਰਾਂ ਲਈ ਉਪਲਬਧ ਕਰਨ ਦੀ ਯੋਜਨਾ ਬਣਾਈ ਹੈ। ਆਉਣ ਵਾਲੇ ਸਾਲ ਵਿੱਚ, ਅਸੀਂ image classifier ਨਾਲ ਆਪਣੇ ਪ੍ਰਯੋਗ ਵਧਾਉਣ ਦੀ ਸ਼ੁਰੂਆਤ ਕਰਨ ਦੀ ਉਮੀਦ ਕਰਦੇ ਹਾਂ, ਚੁਣਿੰਦੇ ਬਾਹਰੀ ਪੱਖਾਂ ਨੂੰ ਇਸ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਅਤੇ ਉਪਯੋਗਤਾ ਦੇ ਮੁਲਾਂਕਨ ਵਿੱਚ ਸਾਡੇ ਨਾਲ ਸ਼ਾਮਲ ਹੋਣ ਲਈ ਸੱਦਾ ਦੇ ਕੇ।

ਕਲਾਸੀਫਾਇਰ ਮਾਡਲ ਲਈ ਖ਼ਾਸ ਤੌਰ ‘ਤੇ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ ਅਤੇ ਇਹ ਸਿਰਫ਼ ਇਹ ਵਰਗੀਕ੍ਰਿਤ ਕਰ ਸਕਦਾ ਹੈ ਕਿ ਕੋਈ ਤਸਵੀਰ ਸੰਭਾਵਤ ਤੌਰ ‘ਤੇ DALL·E ਦੁਆਰਾ ਬਣਾਈ ਗਈ ਸੀ ਜਾਂ ਨਹੀਂ। ਇਸ ਲਈ, ਭਾਵੇਂ ਇਹ ਆਪਣੀਆਂ ਵਰਗੀਕਰਨਾਂ ਵਿੱਚ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਹੀ ਹੀ ਕਿਉਂ ਨਾ ਹੋਵੇ, ਫਿਰ ਵੀ ਇਸਨੂੰ ਇਹ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ ਵਰਤਿਆ ਨਹੀਂ ਜਾ ਸਕੇਗਾ ਕਿ ਕੋਈ ਤਸਵੀਰ ਕਿਸੇ ਹੋਰ generative tool ਦੁਆਰਾ ਬਣਾਈ ਗਈ ਸੀ ਜਾਂ ਨਹੀਂ।

ਜਦੋਂ ਇਸ ਖੇਤਰ ਵਿੱਚ ਤੁਹਾਡਾ ਕੰਮ ਜਾਰੀ ਹੈ, ਅਸੀਂ ਤੁਹਾਡੇ ਨਾਲ ਸਹਿਯੋਗ ਦੇ ਮੌਕੇ ਦਾ ਸਵਾਗਤ ਕਰਦੇ ਹਾਂ।

ਸਾਧਰਣ,

Anna Adeola Makanju
ਗਲੋਬਲ ਅਫੇਅਰਜ਼ ਦੀ VP
OpenAI

ਫੁੱਟਨੋਟਸ

A
Frontier Model Forum ਦੀ ਰੈਡ ਟੀਮਿੰਗ ਦੀ ਪਰਿਭਾਸ਼ਾ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵੇਖੋ।
B
ਅਸੀਂ “ਮਾਹਿਰ” ਸ਼ਬਦ ਨੂੰ ਅਜਿਹੀ ਮਹਾਰਤ ਲਈ ਵਰਤਦੇ ਹਾਂ ਜੋ ਖੇਤਰ-ਗਿਆਨ ਅਤੇ ਜੀਵਨ ਅਨੁਭਵਾਂ ਦੀ ਇਕ ਰੇਂਜ ਤੋਂ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰਦੀ ਹੈ।