New AI classifier for indicating AI-written text

20 ਜੁਲਾਈ 2023 ਤੋਂ, ਘੱਟ ਸ਼ੁੱਧਤਾ ਦਰ ਕਾਰਨ AI ਕਲਾਸੀਫਾਇਰ ਹੁਣ ਉਪਲਬਧ ਨਹੀਂ ਹੈ। ਅਸੀਂ ਫੀਡਬੈਕ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ 'ਤੇ ਕੰਮ ਕਰ ਰਹੇ ਹਾਂ ਅਤੇ ਇਸ ਵੇਲੇ ਪਾਠ ਲਈ ਹੋਰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ provenance ਤਕਨੀਕਾਂ ਉੱਤੇ ਖੋਜ ਕਰ ਰਹੇ ਹਾਂ, ਅਤੇ ਅਸੀਂ ਅਜਿਹੇ ਮਕੈਨਿਜ਼ਮ ਵਿਕਸਿਤ ਕਰਨ ਅਤੇ ਲਾਗੂ ਕਰਨ ਦਾ ਵਚਨ ਕੀਤਾ ਹੈ ਜੋ ਵਰਤੋਂਕਾਰਾਂ ਨੂੰ ਸਮਝਣ ਯੋਗ ਬਣਾਉਣ ਕਿ ਆਡੀਓ ਜਾਂ ਵਿਜੁਅਲ ਸਮੱਗਰੀ AI-ਤਿਆਰ ਕੀਤੀ ਗਈ ਹੈ ਜਾਂ ਨਹੀਂ।
ਅਸੀਂ ਇੱਕ ਕਲਾਸੀਫਾਇਰ ਨੂੰ ਟ੍ਰੇਨ ਕੀਤਾ ਹੈ ਜੋ ਮਨੁੱਖ ਦੁਆਰਾ ਲਿਖੇ ਪਾਠ ਅਤੇ ਵੱਖ-ਵੱਖ ਪ੍ਰਦਾਤਾਵਾਂ ਦੇ AI ਦੁਆਰਾ ਲਿਖੇ ਪਾਠ ਵਿਚ ਫ਼ਰਕ ਕਰਦਾ ਹੈ। ਹਾਲਾਂਕਿ ਸਭ AI-ਲਿਖੇ ਪਾਠ ਨੂੰ ਭਰੋਸੇਯੋਗ ਢੰਗ ਨਾਲ ਪਛਾਣਣਾ ਅਸੰਭਵ ਹੈ, ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਚੰਗੇ ਕਲਾਸੀਫਾਇਰ ਉਹਨਾਂ ਝੂਠੇ ਦਾਵਿਆਂ ਨੂੰ ਘਟਾਉਣ ਲਈ ਮਦਦਗਾਰ ਹੋ ਸਕਦੇ ਹਨ ਕਿ AI-ਤਿਆਰ ਕੀਤਾ ਪਾਠ ਕਿਸੇ ਮਨੁੱਖ ਨੇ ਲਿਖਿਆ ਸੀ: ਉਦਾਹਰਨ ਲਈ, ਆਟੋਮੇਟ ਕੀਤੀਆਂ ਗਲਤ ਜਾਣਕਾਰੀ ਮੁਹਿੰਮਾਂ ਚਲਾਉਣਾ, ਅਕਾਦਮਿਕ ਬੇਈਮਾਨੀ ਲਈ AI ਟੂਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨਾ, ਅਤੇ AI ਚੈਟਬੋਟ ਨੂੰ ਮਨੁੱਖ ਵਜੋਂ ਪੇਸ਼ ਕਰਨਾ।
ਸਾਡਾ ਕਲਾਸੀਫਾਇਰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਭਰੋਸੇਯੋਗ ਨਹੀਂ ਹੈ। ਸਾਡੇ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਅੰਗਰੇਜ਼ੀ ਪਾਠਾਂ ਦੇ ਇੱਕ “ਚੈਲੈਂਜ ਸੈੱਟ” ਉੱਤੇ, ਸਾਡਾ ਕਲਾਸੀਫਾਇਰ AI-ਲਿਖੇ ਪਾਠ ਦਾ 26% ਸਹੀ ਤੌਰ 'ਤੇ (“ਟ੍ਰੂ ਪੋਜ਼ਿਟਿਵਜ਼”) “ਸੰਭਵਤ: AI-ਲਿਖਿਆ” ਵਜੋਂ ਪਛਾਣਦਾ ਹੈ, ਜਦਕਿ 9% ਵਾਰ ਮਨੁੱਖ-ਲਿਖੇ ਪਾਠ ਨੂੰ ਗਲਤ ਤੌਰ 'ਤੇ AI-ਲਿਖਿਆ ਲੇਬਲ ਕਰਦਾ ਹੈ (“ਫ਼ਾਲਸ ਪੋਜ਼ਿਟਿਵਜ਼”)। ਆਮ ਤੌਰ 'ਤੇ ਇਨਪੁੱਟ ਪਾਠ ਦੀ ਲੰਬਾਈ ਵੱਧਣ ਨਾਲ ਸਾਡੇ ਕਲਾਸੀਫਾਇਰ ਦੀ ਭਰੋਸੇਯੋਗਤਾ ਵਿੱਚ ਸੁਧਾਰ ਹੁੰਦਾ ਹੈ। ਸਾਡੇ ਪਹਿਲਾਂ ਜਾਰੀ ਕੀਤੇ ਕਲਾਸੀਫਾਇਰ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਨਾਲ ਤੁਲਨਾ ਕਰਦੇ ਹੋਏ, ਇਹ ਨਵਾਂ ਕਲਾਸੀਫਾਇਰ ਹੋਰ ਹਾਲੀਆ AI ਸਿਸਟਮਾਂ ਦੇ ਪਾਠ 'ਤੇ ਕਾਫ਼ੀ ਜ਼ਿਆਦਾ ਭਰੋਸੇਯੋਗ ਹੈ।
ਅਸੀਂ ਇਸ ਕਲਾਸੀਫਾਇਰ ਨੂੰ ਜਨਤਕ ਤੌਰ 'ਤੇ ਉਪਲਬਧ ਕਰਵਾ ਰਹੇ ਹਾਂ ਤਾਂ ਜੋ ਇਹ ਜਾਣ ਸਕੀਏ ਕਿ ਕੀ ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਅਪੂਰਣ ਟੂਲ ਲਾਭਕਾਰੀ ਹਨ। AI-ਤਿਆਰ ਪਾਠ ਦੀ ਪਛਾਣ ਉੱਤੇ ਸਾਡਾ ਕੰਮ ਜਾਰੀ ਰਹੇਗਾ, ਅਤੇ ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ ਭਵਿੱਖ ਵਿੱਚ ਬਿਹਤਰ ਤਰੀਕੇ ਸਾਂਝੇ ਕਰਾਂਗੇ।
ਸਾਡਾ ਮੁਫ਼ਤ, ਕੰਮ-ਜਾਰੀ ਕਲਾਸੀਫਾਇਰ ਖੁਦ ਅਜ਼ਮਾਓ:
ਸਾਡੇ ਕਲਾਸੀਫਾਇਰ ਦੀਆਂ ਕਈ ਮਹੱਤਵਪੂਰਨ ਸੀਮਾਵਾਂ ਹਨ। ਇਸਨੂੰ ਮੁੱਖ ਫੈਸਲਾ-ਲੈਣ ਵਾਲੇ ਟੂਲ ਵਜੋਂ ਵਰਤਿਆ ਨਹੀਂ ਜਾਣਾ ਚਾਹੀਦਾ, ਸਗੋਂ ਕਿਸੇ ਪਾਠ ਦੇ ਸਰੋਤ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਨ ਦੀਆਂ ਹੋਰ ਵਿਧੀਆਂ ਦੇ ਪੂਰਕ ਵਜੋਂ ਵਰਤਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ।
- ਛੋਟੇ ਪਾਠਾਂ (1,000 ਅੱਖਰਾਂ ਤੋਂ ਘੱਟ) ਉੱਤੇ ਕਲਾਸੀਫਾਇਰ ਬਹੁਤ ਅਭਰੋਸੇਯੋਗ ਹੈ। ਲੰਮੇ ਪਾਠਾਂ ਨੂੰ ਵੀ ਕਈ ਵਾਰ ਕਲਾਸੀਫਾਇਰ ਗਲਤ ਲੇਬਲ ਕਰ ਦਿੰਦਾ ਹੈ।
- ਕਈ ਵਾਰ ਮਨੁੱਖ-ਲਿਖੇ ਪਾਠ ਨੂੰ ਸਾਡਾ ਕਲਾਸੀਫਾਇਰ ਗਲਤ ਪਰ ਪੂਰੇ ਵਿਸ਼ਵਾਸ ਨਾਲ AI-ਲਿਖਿਆ ਲੇਬਲ ਕਰ ਦਿੰਦਾ ਹੈ।
- ਅਸੀਂ ਸਿਫ਼ਾਰਸ਼ ਕਰਦੇ ਹਾਂ ਕਿ ਕਲਾਸੀਫਾਇਰ ਨੂੰ ਸਿਰਫ਼ ਅੰਗਰੇਜ਼ੀ ਪਾਠ ਲਈ ਹੀ ਵਰਤਿਆ ਜਾਵੇ। ਹੋਰ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਇਹ ਕਾਫ਼ੀ ਖਰਾਬ ਕੰਮ ਕਰਦਾ ਹੈ ਅਤੇ ਕੋਡ ਉੱਤੇ ਇਹ ਅਭਰੋਸੇਯੋਗ ਹੈ।
- ਜਿਹੜਾ ਪਾਠ ਬਹੁਤ ਆਸਾਨੀ ਨਾਲ ਅਨੁਮਾਨਯੋਗ ਹੋਵੇ, ਉਸਦੀ ਭਰੋਸੇਯੋਗ ਪਛਾਣ ਨਹੀਂ ਕੀਤੀ ਜਾ ਸਕਦੀ। ਉਦਾਹਰਨ ਲਈ, ਇਹ ਅਨੁਮਾਨ ਲਗਾਉਣਾ ਅਸੰਭਵ ਹੈ ਕਿ ਪਹਿਲੀਆਂ 1,000 ਅਭਾਜ ਸੰਖਿਆਵਾਂ ਦੀ ਸੂਚੀ AI ਨੇ ਲਿਖੀ ਸੀ ਜਾਂ ਮਨੁੱਖਾਂ ਨੇ, ਕਿਉਂਕਿ ਸਹੀ ਜਵਾਬ ਹਮੇਸ਼ਾਂ ਇੱਕੋ ਹੀ ਹੁੰਦਾ ਹੈ।
- AI-ਲਿਖੇ ਪਾਠ ਨੂੰ ਕਲਾਸੀਫਾਇਰ ਤੋਂ ਬਚਣ ਲਈ ਸੰਪਾਦਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਸਾਡੇ ਵਰਗੇ ਕਲਾਸੀਫਾਇਰ ਸਫਲ ਹਮਲਿਆਂ ਦੇ ਆਧਾਰ 'ਤੇ ਅਪਡੇਟ ਅਤੇ ਮੁੜ-ਟ੍ਰੇਨ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ, ਪਰ ਇਹ ਸਪਸ਼ਟ ਨਹੀਂ ਕਿ ਲੰਬੇ ਸਮੇਂ ਵਿੱਚ ਪਛਾਣ ਨੂੰ ਕੋਈ ਫ਼ਾਇਦਾ ਹੋਵੇਗਾ ਜਾਂ ਨਹੀਂ।
- ਨਿਊਰਲ ਨੈੱਟਵਰਕ-ਆਧਾਰਿਤ ਕਲਾਸੀਫਾਇਰ ਆਪਣੇ ਟ੍ਰੇਨਿੰਗ ਡਾਟਾ ਤੋਂ ਬਾਹਰ ਕਮਜ਼ੋਰ ਤੌਰ 'ਤੇ ਕੈਲੀਬ੍ਰੇਟ ਹੋਣ ਲਈ ਜਾਣੇ ਜਾਂਦੇ ਹਨ। ਉਹਨਾਂ ਇਨਪੁੱਟਾਂ ਲਈ ਜੋ ਸਾਡੇ ਟ੍ਰੇਨਿੰਗ ਸੈੱਟ ਦੇ ਪਾਠ ਤੋਂ ਬਹੁਤ ਵੱਖਰੇ ਹਨ, ਕਲਾਸੀਫਾਇਰ ਕਈ ਵਾਰ ਗਲਤ ਅਨੁਮਾਨ 'ਤੇ ਬਹੁਤ ਹੀ ਵੱਧ ਵਿਸ਼ਵਾਸ ਦਿਖਾਉਂਦਾ ਹੈ।
ਸਾਡਾ ਕਲਾਸੀਫਾਇਰ ਇੱਕ language model ਹੈ ਜਿਸਨੂੰ ਇੱਕ ਅਜੇਹੇ ਡਾਟਾਸੈੱਟ ਉੱਤੇ fine-tune ਕੀਤਾ ਗਿਆ ਹੈ ਜਿਸ ਵਿੱਚ ਇੱਕੋ ਵਿਸ਼ੇ ਉੱਤੇ ਮਨੁੱਖ-ਲਿਖੇ ਪਾਠ ਅਤੇ AI-ਲਿਖੇ ਪਾਠ ਦੇ ਜੋੜੇ ਹਨ। ਅਸੀਂ ਇਹ ਡਾਟਾਸੈੱਟ ਕਈ ਸਰੋਤਾਂ ਤੋਂ ਇਕੱਠਾ ਕੀਤਾ ਜਿਨ੍ਹਾਂ ਬਾਰੇ ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਉਹ ਮਨੁੱਖਾਂ ਦੁਆਰਾ ਲਿਖੇ ਗਏ ਹਨ, ਜਿਵੇਂ ਕਿ pretraining data ਅਤੇ InstructGPT ਨੂੰ ਭੇਜੇ ਗਏ ਪ੍ਰੌੰਪਟਾਂ ਉੱਤੇ ਮਨੁੱਖੀ ਡੈਮੋਨਸਟ੍ਰੇਸ਼ਨ। ਅਸੀਂ ਹਰ ਪਾਠ ਨੂੰ ਇੱਕ ਪ੍ਰੌੰਪਟ ਅਤੇ ਇੱਕ ਜਵਾਬ ਵਿੱਚ ਵੰਡਿਆ। ਇਨ੍ਹਾਂ ਪ੍ਰੌੰਪਟਾਂ ਉੱਤੇ ਅਸੀਂ ਆਪਣੇ ਅਤੇ ਹੋਰ ਸੰਸਥਾਵਾਂ ਦੁਆਰਾ ਟ੍ਰੇਨ ਕੀਤੇ ਵੱਖ-ਵੱਖ language modelਾਂ ਤੋਂ ਜਵਾਬ ਤਿਆਰ ਕੀਤੇ। ਆਪਣੇ web app ਲਈ, ਅਸੀਂ false positive rate ਘੱਟ ਰੱਖਣ ਲਈ confidence threshold ਨੂੰ ਸਮਾਇਤ ਕਰਦੇ ਹਾਂ; ਦੂਜੇ ਸ਼ਬਦਾਂ ਵਿੱਚ, ਅਸੀਂ ਪਾਠ ਨੂੰ ਕੇਵਲ ਤਦ ਹੀ ਸੰਭਵਤ: AI-ਲਿਖਿਆ ਨਿਸ਼ਾਨਿਤ ਕਰਦੇ ਹਾਂ ਜਦੋਂ ਕਲਾਸੀਫਾਇਰ ਨੂੰ ਬਹੁਤ ਵੱਧ ਵਿਸ਼ਵਾਸ ਹੋਵੇ।
ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ AI-ਲਿਖੇ ਪਾਠ ਦੀ ਪਛਾਣ ਅਧਿਆਪਕਾਂ ਵਿਚਾਲੇ ਚਰਚਾ ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਵਿਸ਼ਾ ਰਹੀ ਹੈ, ਅਤੇ ਇਸੇ ਤਰ੍ਹਾਂ ਕਲਾਸਰੂਮ ਵਿੱਚ AI-ਤਿਆਰ ਪਾਠ ਕਲਾਸੀਫਾਇਰਾਂ ਦੀਆਂ ਸੀਮਾਵਾਂ ਅਤੇ ਪ੍ਰਭਾਵਾਂ ਨੂੰ ਸਮਝਣਾ ਵੀ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਅਸੀਂ ਅਧਿਆਪਕਾਂ ਲਈ ChatGPT ਦੀ ਵਰਤੋਂ ਬਾਰੇ ਇੱਕ ਸ਼ੁਰੂਆਤੀ ਸਰੋਤ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਤਿਆਰ ਕੀਤਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਕੁਝ ਵਰਤੋਂਆਂ ਅਤੇ ਸੰਬੰਧਤ ਸੀਮਾਵਾਂ ਅਤੇ ਵਿਚਾਰਾਂ ਦੀ ਰੂਪਰੇਖਾ ਦਿੱਤੀ ਗਈ ਹੈ। ਹਾਲਾਂਕਿ ਇਹ ਸਰੋਤ ਅਧਿਆਪਕਾਂ 'ਤੇ ਕੇਂਦਰਿਤ ਹੈ, ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ ਸਾਡਾ ਕਲਾਸੀਫਾਇਰ ਅਤੇ ਇਸ ਨਾਲ ਸੰਬੰਧਤ ਕਲਾਸੀਫਾਇਰ ਟੂਲ ਪੱਤਰਕਾਰਾਂ, ਗਲਤ/ਭ੍ਰਮਿਤ ਜਾਣਕਾਰੀ ਖੋਜਕਰਤਿਆਂ ਅਤੇ ਹੋਰ ਸਮੂਹਾਂ ਉੱਤੇ ਵੀ ਪ੍ਰਭਾਵ ਪਾਉਣਗੇ।
ਅਸੀਂ ਸੰਯੁਕਤ ਰਾਜ ਵਿੱਚ ਅਧਿਆਪਕਾਂ ਨਾਲ ਸੰਪਰਕ ਕਰ ਰਹੇ ਹਾਂ ਤਾਂ ਜੋ ਇਹ ਸਿੱਖ ਸਕੀਏ ਕਿ ਉਹ ਆਪਣੇ ਕਲਾਸਰੂਮਾਂ ਵਿੱਚ ਕੀ ਦੇਖ ਰਹੇ ਹਨ ਅਤੇ ChatGPT ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਸੀਮਾਵਾਂ 'ਤੇ ਚਰਚਾ ਕਰ ਸਕੀਏ, ਅਤੇ ਜਿਵੇਂ-ਜਿਵੇਂ ਅਸੀਂ ਸਿੱਖਦੇ ਹਾਂ ਅਸੀਂ ਆਪਣੀ ਪਹੁੰਚ ਦਾ ਵਿਸਤਾਰ ਕਰਦੇ ਰਹਾਂਗੇ। ਇਹ ਮਹੱਤਵਪੂਰਨ ਗੱਲਬਾਤਾਂ ਹਨ, ਕਿਉਂਕਿ ਸਾਡੇ ਮਿਸ਼ਨ ਦਾ ਇੱਕ ਹਿੱਸਾ ਵੱਡੇ language modelਾਂ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਸਮੂਹਾਂ ਨਾਲ ਸਿੱਧੇ ਸੰਪਰਕ ਵਿੱਚ ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਲਾਗੂ ਕਰਨਾ ਹੈ।
ਜੇ ਤੁਸੀਂ ਇਨ੍ਹਾਂ ਮਸਲਿਆਂ ਤੋਂ ਸਿੱਧੇ ਪ੍ਰਭਾਵਿਤ ਹੋ (ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਅਧਿਆਪਕ, ਪ੍ਰਸ਼ਾਸਕ, ਮਾਪੇ, ਵਿਦਿਆਰਥੀ ਅਤੇ ਸਿੱਖਿਆ ਸੇਵਾ ਪ੍ਰਦਾਤਾ ਸ਼ਾਮਲ ਹਨ ਪਰ ਸਿਰਫ਼ ਇਨ੍ਹਾਂ ਤੱਕ ਸੀਮਿਤ ਨਹੀਂ), ਤਾਂ ਕਿਰਪਾ ਕਰਕੇ ਇਸ ਫਾਰਮ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਾਨੂੰ ਫੀਡਬੈਕ ਦਿਓ। ਸ਼ੁਰੂਆਤੀ ਸਰੋਤ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਬਾਰੇ ਸਿੱਧੀ ਫੀਡਬੈਕ ਲਾਭਕਾਰੀ ਹੈ, ਅਤੇ ਅਸੀਂ ਉਹਨਾਂ ਕਿਸੇ ਵੀ ਸਰੋਤਾਂ ਦਾ ਵੀ ਸਵਾਗਤ ਕਰਦੇ ਹਾਂ ਜੋ ਅਧਿਆਪਕ ਵਿਕਸਿਤ ਕਰ ਰਹੇ ਹਨ ਜਾਂ ਜਿਨ੍ਹਾਂ ਨੂੰ ਉਹ ਲਾਭਕਾਰੀ ਮੰਨਦੇ ਹਨ (ਜਿਵੇਂ ਕਿ ਕੋਰਸ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼, honor code ਅਤੇ policy ਅਪਡੇਟਾਂ, ਇੰਟਰਐਕਟਿਵ ਟੂਲ, AI ਸਾਖਰਤਾ ਪ੍ਰੋਗਰਾਮ)।


