ਅੱਜ ਅਸੀਂ OpenAI Privacy Filter ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ, ਜੋ ਟੈਕਸਟ ਵਿੱਚ ਨਿੱਜੀ ਪਛਾਣਯੋਗ ਜਾਣਕਾਰੀ (PII) ਦੀ ਪਛਾਣ ਅਤੇ ਰੀਡੈਕਟ ਕਰਨ ਲਈ ਇੱਕ open-weight ਮਾਡਲ ਹੈ। ਇਹ ਰਿਲੀਜ਼ ਇੱਕ ਹੋਰ ਮਜ਼ਬੂਤ ਸਾਫਟਵੇਅਰ ਇਕੋਸਿਸਟਮ ਦਾ ਸਮਰਥਨ ਕਰਨ ਲਈ ਸਾਡੇ ਵਿਆਪਕ ਯਤਨ ਦਾ ਹਿੱਸਾ ਹੈ, ਜਿਸ ਅਧੀਨ ਅਸੀਂ ਡਿਵੈਲਪਰਾਂ ਨੂੰ AI ਨਾਲ ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਨਿਰਮਾਣ ਕਰਨ ਲਈ ਵਰਤੋਂਯੋਗ ਇੰਫ੍ਰਾਸਟਰਕਚਰ ਮੁਹੱਈਆ ਕਰਦੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ ਟੂਲ ਅਤੇ ਮਾਡਲ ਸ਼ਾਮਲ ਹਨ ਜੋ ਸ਼ੁਰੂ ਤੋਂ ਹੀ ਮਜ਼ਬੂਤ ਗੋਪਨੀਯਤਾ ਅਤੇ ਸੁਰੱਖਿਆ ਸੁਰੱਖਿਆਵਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨਾ ਆਸਾਨ ਬਣਾਉਂਦੇ ਹਨ।
Privacy Filter ਨਿੱਜੀ ਡਾਟਾ ਖੋਜਣ ਦੀ ਅਤਿ-ਆਧੁਨਿਕ ਸਮਰੱਥਾ ਵਾਲਾ ਇੱਕ ਛੋਟਾ ਮਾਡਲ ਹੈ। ਇਹ ਉੱਚ-ਥਰੂਪੁੱਟ ਗੋਪਨੀਯਤਾ ਵਰਕਫਲੋਜ਼ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ ਅਤੇ ਅਸੰਰਚਿਤ ਟੈਕਸਟ ਵਿੱਚ ਸੰਦਰਭ-ਸਮਝੂ PII ਪਛਾਣ ਕਰਨ ਦੇ ਯੋਗ ਹੈ। ਇਹ ਲੋਕਲ ਤੌਰ 'ਤੇ ਚੱਲ ਸਕਦਾ ਹੈ, ਜਿਸ ਦਾ ਮਤਲਬ ਹੈ ਕਿ PII ਤੁਹਾਡੀ ਮਸ਼ੀਨ ਤੋਂ ਬਿਨਾਂ ਨਿਕਲੇ ਮਾਸਕ ਜਾਂ ਰੀਡੈਕਟ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਇਹ ਲੰਬੇ ਇਨਪੁੱਟ ਨੂੰ ਕੁਸ਼ਲਤਾ ਨਾਲ ਪ੍ਰਕਿਰਿਆ ਕਰਦਾ ਹੈ ਅਤੇ ਇੱਕ ਤੇਜ਼, ਇਕੋ ਪਾਸ ਵਿੱਚ ਰੀਡੈਕਸ਼ਨ ਦੇ ਫੈਸਲੇ ਕਰਦਾ ਹੈ।
OpenAI ਵਿੱਚ, ਅਸੀਂ ਆਪਣੀਆਂ ਗੋਪਨੀਯਤਾ-ਸੰਰੱਖਣ ਵਰਕਫਲੋਜ਼ ਵਿੱਚ Privacy Filter ਦਾ ਇੱਕ fine-tuned ਵਰਜਨ ਵਰਤਦੇ ਹਾਂ। ਅਸੀਂ Privacy Filter ਇਸ ਲਈ ਵਿਕਸਿਤ ਕੀਤਾ ਕਿਉਂਕਿ ਸਾਡਾ ਵਿਸ਼ਵਾਸ ਸੀ ਕਿ ਤਾਜ਼ਾ AI ਸਮਰੱਥਾਵਾਂ ਨਾਲ ਅਸੀਂ ਗੋਪਨੀਯਤਾ ਦਾ ਮਿਆਰ ਉਸ ਤੋਂ ਉੱਪਰ ਲੈ ਜਾ ਸਕਦੇ ਹਾਂ ਜੋ ਪਹਿਲਾਂ ਹੀ ਬਾਜ਼ਾਰ ਵਿੱਚ ਮੌਜੂਦ ਸੀ। Privacy Filter ਦਾ ਜੋ ਵਰਜਨ ਅਸੀਂ ਅੱਜ ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ, ਉਹ ਮੁਲਾਂਕਣ ਦੌਰਾਨ ਪਛਾਣੇ ਗਏ annotation ਮੁੱਦਿਆਂ ਲਈ ਸੋਧ ਕਰਨ ਉਪਰੰਤ PII-Masking-300k benchmark 'ਤੇ ਉੱਚ-ਤਰੀਨ ਪ੍ਰਦਰਸ਼ਨ ਹਾਸਲ ਕਰਦਾ ਹੈ।
ਇਸ ਰਿਲੀਜ਼ ਨਾਲ, ਡਿਵੈਲਪਰ Privacy Filter ਨੂੰ ਆਪਣੇ ਹੀ ਮਾਹੌਲਾਂ ਵਿੱਚ ਚਲਾ ਸਕਦੇ ਹਨ, ਇਸਨੂੰ ਆਪਣੇ ਵਰਤੋਂ ਕੇਸਾਂ ਲਈ fine tune ਕਰ ਸਕਦੇ ਹਨ, ਅਤੇ ਟ੍ਰੇਨਿੰਗ, indexing, logging ਅਤੇ review pipelines ਵਿੱਚ ਹੋਰ ਮਜ਼ਬੂਤ ਗੋਪਨੀਯਤਾ ਸੁਰੱਖਿਆ ਬਣਾਉਣ ਸਕਦੇ ਹਨ।
ਆਧੁਨਿਕ AI ਸਿਸਟਮਾਂ ਵਿੱਚ ਗੋਪਨੀਯਤਾ ਦੀ ਰੱਖਿਆ ਸਿਰਫ ਪੈਟਰਨ ਮੈਚਿੰਗ ਤੋਂ ਵੱਧ ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ। ਰਵਾਇਤੀ PII ਖੋਜ ਟੂਲ ਅਕਸਰ ਫੋਨ ਨੰਬਰਾਂ ਅਤੇ ਈਮੇਲ ਪਤਿਆਂ ਵਰਗੇ ਫਾਰਮੈਟਾਂ ਲਈ ਨਿਰਧਾਰਿਤ ਨਿਯਮਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ। ਇਹ ਸੀਮਿਤ ਮਾਮਲਿਆਂ ਵਿੱਚ ਚੰਗਾ ਕੰਮ ਕਰ ਸਕਦੇ ਹਨ, ਪਰ ਇਹ ਅਕਸਰ ਹੋਰ ਸੁਖਮ ਨਿੱਜੀ ਜਾਣਕਾਰੀ ਨੂੰ ਗੁਆ ਲੈਂਦੇ ਹਨ ਅਤੇ ਸੰਦਰਭ ਨਾਲ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ।
Privacy Filter ਹੋਰ ਸੁਖਮ ਪ੍ਰਦਰਸ਼ਨ ਲਈ ਡੂੰਘੀ ਭਾਸ਼ਾਈ ਅਤੇ ਸੰਦਰਭੀ ਸਮਝ ਨਾਲ ਬਣਾਇਆ ਗਿਆ ਹੈ। ਮਜ਼ਬੂਤ ਭਾਸ਼ਾ ਸਮਝ ਨੂੰ ਗੋਪਨੀਯਤਾ-ਖਾਸ labeling system ਨਾਲ ਜੋੜ ਕੇ, ਇਹ ਅਸੰਰਚਿਤ ਟੈਕਸਟ ਵਿੱਚ PII ਦੀ ਵਧੇਰੇ ਰੇਂਜ ਦੀ ਪਛਾਣ ਕਰ ਸਕਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਉਹ ਕੇਸ ਵੀ ਸ਼ਾਮਲ ਹਨ ਜਿੱਥੇ ਸਹੀ ਫੈਸਲਾ ਸੰਦਰਭ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ। ਇਹ ਉਸ ਜਾਣਕਾਰੀ ਵਿਚ ਵਧੀਆ ਫ਼ਰਕ ਕਰ ਸਕਦਾ ਹੈ ਜਿਸਨੂੰ ਜਨਤਕ ਹੋਣ ਕਰਕੇ ਕਾਇਮ ਰੱਖਣਾ ਚਾਹੀਦਾ ਹੈ ਅਤੇ ਉਸ ਜਾਣਕਾਰੀ ਵਿਚ ਜਿਸਨੂੰ ਮਾਸਕ ਜਾਂ ਰੀਡੈਕਟ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਕਿਉਂਕਿ ਉਹ ਕਿਸੇ ਨਿੱਜੀ ਵਿਅਕਤੀ ਨਾਲ ਸੰਬੰਧਿਤ ਹੈ।
ਨਤੀਜਾ ਇੱਕ ਐਸਾ ਮਾਡਲ ਹੈ ਜੋ ਅਤਿ-ਆਧੁਨਿਕ ਪੱਧਰ ਦੀ ਗੋਪਨੀਯਤਾ ਫਿਲਟਰੀਂਗ ਕਾਰਗੁਜ਼ਾਰੀ ਦੇਣ ਲਈ ਕਾਫ਼ੀ ਮਜ਼ਬੂਤ ਹੈ। ਇਸੇ ਸਮੇਂ, ਮਾਡਲ ਇੰਨਾ ਛੋਟਾ ਹੈ ਕਿ ਇਸਨੂੰ ਲੋਕਲ ਤੌਰ 'ਤੇ ਚਲਾਇਆ ਜਾ ਸਕੇ–ਅਰਥਾਤ ਜੋ ਡਾਟਾ ਹਾਲੇ ਫਿਲਟਰ ਹੋਣਾ ਬਾਕੀ ਹੈ ਉਹ ਡਿਵਾਈਸ 'ਤੇ ਹੀ ਰਹਿ ਸਕਦਾ ਹੈ, ਡੀ-ਆਈਡੈਂਟੀਫਿਕੇਸ਼ਨ ਲਈ ਸਰਵਰ ਨੂੰ ਭੇਜਣ ਦੀ ਲੋੜ ਦੇ ਬਜਾਏ ਘੱਟ ਐਕਸਪੋਜ਼ਰ ਖਤਰੇ ਨਾਲ।
Privacy Filter span decoding ਵਾਲਾ ਇੱਕ bidirectional ਟੋਕਨ-classification ਮਾਡਲ ਹੈ। ਇਹ ਇੱਕ autoregressive pretrained checkpoint ਤੋਂ ਸ਼ੁਰੂ ਹੁੰਦਾ ਹੈ ਅਤੇ ਫਿਰ ਗੋਪਨੀਯਤਾ ਲੇਬਲਾਂ ਦੀ ਇੱਕ ਨਿਰਧਾਰਿਤ taxonomy ਉੱਤੇ ਟੋਕਨ classifier ਵਜੋਂ ਅਨੁਕੂਲਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਟੈਕਸਟ ਨੂੰ ਟੋਕਨ ਦਰ ਟੋਕਨ ਜਨਰੇਟ ਕਰਨ ਦੀ ਬਜਾਏ, ਇਹ ਇੱਕੋ ਪਾਸ ਵਿੱਚ ਇਨਪੁੱਟ ਕ੍ਰਮ ਨੂੰ ਲੇਬਲ ਕਰਦਾ ਹੈ ਅਤੇ ਫਿਰ constrained Viterbi procedure ਨਾਲ ਸੰਗਤ spans ਨੂੰ decode ਕਰਦਾ ਹੈ।
ਇਹ ਆਰਕੀਟੈਕਚਰ Privacy Filter ਨੂੰ ਉਤਪਾਦਨ ਵਰਤੋਂ ਲਈ ਕੁਝ ਲਾਭਕਾਰੀ ਗੁਣ ਦਿੰਦਾ ਹੈ:
- ਤੇਜ਼ ਅਤੇ ਕੁਸ਼ਲ: ਸਾਰੇ ਟੋਕਨ ਇੱਕੋ forward pass ਵਿੱਚ ਲੇਬਲ ਕੀਤੇ ਜਾਂਦੇ ਹਨ।
- ਸੰਦਰਭ-ਸਮਝੂ: language prior ਆਲੇ-ਦੁਆਲੇ ਦੇ ਸੰਦਰਭ ਦੇ ਆਧਾਰ 'ਤੇ PII spans ਦੀ ਪਛਾਣ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ।
- ਲੰਬਾ-ਸੰਦਰਭ: ਜਾਰੀ ਕੀਤਾ ਗਿਆ ਮਾਡਲ 128,000 ਟੋਕਨ ਤੱਕ ਦੇ ਸੰਦਰਭ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ।
- ਸੰਰਚਿਤ ਕਰਨਯੋਗ: ਡਿਵੈਲਪਰ ਆਪਣੇ ਵਰਕਫਲੋ ਅਨੁਸਾਰ recall ਅਤੇ precision ਵਿੱਚ ਸੰਤੁਲਨ ਲਈ operating points ਨੂੰ tune ਕਰ ਸਕਦੇ ਹਨ।
ਜਾਰੀ ਕੀਤੇ ਮਾਡਲ ਵਿੱਚ ਕੁੱਲ 1.5B parameters ਹਨ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ 50M active parameters ਹਨ।
Privacy Filter ਅੱਠ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ spans ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦਾ ਹੈ:
private_personprivate_addressprivate_emailprivate_phoneprivate_urlprivate_dateaccount_numbersecret
account_number ਸ਼੍ਰੇਣੀ ਖਾਤਾ ਨੰਬਰਾਂ ਦੀ ਵਿਆਪਕ ਕਿਸਮ ਨੂੰ ਮਾਸਕ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ, ਜਿਸ ਵਿੱਚ credit card numbers ਅਤੇ bank account numbers ਵਰਗੀ ਬੈਂਕਿੰਗ ਜਾਣਕਾਰੀ ਸ਼ਾਮਲ ਹੈ, ਜਦਕਿ secret passwords ਅਤੇ API keys ਵਰਗੀਆਂ ਚੀਜ਼ਾਂ ਨੂੰ ਮਾਸਕ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ।
ਇਹ ਲੇਬਲ BIOES span tags ਨਾਲ decode ਕੀਤੇ ਜਾਂਦੇ ਹਨ, ਜੋ ਹੋਰ ਸਾਫ਼ ਅਤੇ ਸੰਗਤ masking boundaries ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ।
ਉਦਾਹਰਨ ਇਨਪੁੱਟ ਟੈਕਸਟ
ਵਿਸ਼ਾ: Q2 ਯੋਜਨਾ ਫਾਲੋ-ਅੱਪ
ਸਤ ਸ੍ਰੀ ਅਕਾਲ Jordan,
ਅੱਜ ਪਹਿਲਾਂ ਮਿਲਣ ਲਈ ਦੁਬਾਰਾ ਧੰਨਵਾਦ। ਮੈਂ Q2 ਰੋਲਆਉਟ ਲਈ ਸੋਧੀ ਹੋਈ ਸਮਾਂ-ਰੇਖਾ ਬਾਰੇ ਫਾਲੋ-ਅੱਪ ਕਰਨਾ ਚਾਹੁੰਦਾ ਸੀ ਅਤੇ ਪੁਸ਼ਟੀ ਕਰਨਾ ਚਾਹੁੰਦਾ ਸੀ ਕਿ ਉਤਪਾਦ ਲਾਂਚ September 18, 2026 ਲਈ ਤਹਿ ਕੀਤਾ ਗਿਆ ਹੈ। ਹਵਾਲੇ ਲਈ, ਪ੍ਰੋਜੈਕਟ ਫ਼ਾਈਲ 4829-1037-5581 ਹੇਠ ਸੂਚੀਬੱਧ ਹੈ। ਜੇ ਤੁਹਾਡੇ ਪਾਸੇ ਕੁਝ ਵੀ ਬਦਲਦਾ ਹੈ, ਤਾਂ ਇੱਥੇ maya.chen@example.com 'ਤੇ ਜਵਾਬ ਦੇਣ ਲਈ ਖੁੱਲ੍ਹੇ ਹੋ ਜਾਂ ਮੈਨੂੰ +1 (415) 555-0124 'ਤੇ ਕਾਲ ਕਰੋ।
ਸੱਤਿਕਾਰ ਸਹਿਤ,
Maya Chen
ਨਿੱਜੀ ਪਛਾਣਕਰਤਾਵਾਂ ਨੂੰ ਮਾਸਕ ਕਰਨ ਤੋਂ ਬਾਅਦ ਦਾ ਟੈਕਸਟ
ਵਿਸ਼ਾ: Q2 ਯੋਜਨਾ ਫਾਲੋ-ਅੱਪ
ਸਤ ਸ੍ਰੀ ਅਕਾਲ [PRIVATE_PERSON],
ਅੱਜ ਪਹਿਲਾਂ ਮਿਲਣ ਲਈ ਦੁਬਾਰਾ ਧੰਨਵਾਦ। ਮੈਂ Q2 ਰੋਲਆਉਟ ਲਈ ਸੋਧੀ ਹੋਈ ਸਮਾਂ-ਰੇਖਾ ਬਾਰੇ ਫਾਲੋ-ਅੱਪ ਕਰਨਾ ਚਾਹੁੰਦਾ ਸੀ ਅਤੇ ਪੁਸ਼ਟੀ ਕਰਨਾ ਚਾਹੁੰਦਾ ਸੀ ਕਿ ਉਤਪਾਦ ਲਾਂਚ [PRIVATE_DATE] ਲਈ ਤਹਿ ਕੀਤਾ ਗਿਆ ਹੈ। ਹਵਾਲੇ ਲਈ, ਪ੍ਰੋਜੈਕਟ ਫ਼ਾਈਲ [ACCOUNT_NUMBER] ਹੇਠ ਸੂਚੀਬੱਧ ਹੈ। ਜੇ ਤੁਹਾਡੇ ਪਾਸੇ ਕੁਝ ਵੀ ਬਦਲਦਾ ਹੈ, ਤਾਂ ਇੱਥੇ [PRIVATE_EMAIL] 'ਤੇ ਜਵਾਬ ਦੇਣ ਲਈ ਖੁੱਲ੍ਹੇ ਹੋ ਜਾਂ ਮੈਨੂੰ [PRIVATE_PHONE] 'ਤੇ ਕਾਲ ਕਰੋ।
ਸੱਤਿਕਾਰ ਸਹਿਤ,
[PRIVATE_PERSON]
ਅਸੀਂ Privacy Filter ਕਈ ਪੜਾਅਾਂ ਵਿੱਚ ਵਿਕਸਿਤ ਕੀਤਾ।
ਸਭ ਤੋਂ ਪਹਿਲਾਂ, ਅਸੀਂ ਇੱਕ privacy taxonomy ਬਣਾਈ ਜੋ ਉਹ spans ਦੀਆਂ ਕਿਸਮਾਂ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦੀ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਮਾਡਲ ਨੇ ਖੋਜਣਾ ਹੈ। ਇਸ ਵਿੱਚ ਨਿੱਜੀ ਪਛਾਣਕਰਤਾ, ਸੰਪਰਕ ਵੇਰਵੇ, ਪਤੇ, ਨਿੱਜੀ ਤਾਰੀਖਾਂ, ਖਾਤਾ ਨੰਬਰਾਂ ਦੀਆਂ ਕਈ ਕਿਸਮਾਂ ਜਿਵੇਂ credit ਅਤੇ banking information, ਅਤੇ API keys ਅਤੇ passwords ਵਰਗੇ secrets ਸ਼ਾਮਲ ਹਨ।
ਦੂਜੇ, ਅਸੀਂ ਇੱਕ pretrained ਲੈਂਗਵੇਜ ਮਾਡਲ ਨੂੰ ਲੈਂਗਵੇਜ ਮਾਡਲਿੰਗ head ਦੀ ਥਾਂ token-classification head ਲਗਾ ਕੇ bidirectional ਟੋਕਨ classifier ਵਿੱਚ ਬਦਲਿਆ ਅਤੇ supervised classification objective ਨਾਲ ਇਸ ਦਾ post-training ਕੀਤਾ।
ਤੀਜੇ, ਅਸੀਂ ਜਨਤਕ ਤੌਰ 'ਤੇ ਉਪਲਬਧ ਅਤੇ synthetic data ਦੇ ਮਿਲਾਪ 'ਤੇ ਟ੍ਰੇਨਿੰਗ ਕੀਤੀ ਜੋ ਹਕੀਕਤੀ ਟੈਕਸਟ ਅਤੇ ਮੁਸ਼ਕਲ ਗੋਪਨੀਯਤਾ ਪੈਟਰਨ ਦੋਵੇਂ ਨੂੰ ਕੈਪਚਰ ਕਰਨ ਲਈ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਗਿਆ ਸੀ। ਜਨਤਕ ਡਾਟਾ ਦੇ ਉਹਨਾਂ ਹਿੱਸਿਆਂ ਵਿੱਚ ਜਿੱਥੇ labels ਅਧੂਰੇ ਸਨ, ਅਸੀਂ ਕਵਰੇਜ ਸੁਧਾਰਣ ਲਈ model-assisted annotation ਅਤੇ review ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਅਸੀਂ formats, contexts ਅਤੇ privacy subtypes ਵਿੱਚ ਵੱਖਰੇਪਣ ਵਧਾਉਣ ਲਈ synthetic ਉਦਾਹਰਨਾਂ ਵੀ ਤਿਆਰ ਕੀਤੀਆਂ।
inference ਸਮੇਂ, ਮਾਡਲ ਦੀਆਂ token-level predictions ਨੂੰ constrained sequence decoding ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸੰਗਤ spans ਵਿੱਚ decode ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਇਹ ਪਹੁੰਚ pretrained ਮਾਡਲ ਦੀ ਵਿਆਪਕ ਭਾਸ਼ਾਈ ਸਮਝ ਨੂੰ ਕਾਇਮ ਰੱਖਦੀ ਹੈ ਅਤੇ ਇਸਨੂੰ ਗੋਪਨੀਯਤਾ ਪਛਾਣ ਲਈ ਵਿਸ਼ੇਸ਼ਤ ਬਣਾਉਂਦੀ ਹੈ।
ਅਸੀਂ Privacy Filter ਦਾ ਮੁਲਾਂਕਣ ਮਿਆਰੀ benchmarks ਅਤੇ ਵਾਧੂ synthetic ਅਤੇ chat-style evaluations ਉੱਤੇ ਕੀਤਾ ਜੋ ਹੋਰ ਮੁਸ਼ਕਲ, ਵਧੇਰੇ ਸੰਦਰਭ-ਸੰਵੇਦਨਸ਼ੀਲ ਕੇਸਾਂ ਦੀ ਜਾਂਚ ਲਈ ਡਿਜ਼ਾਈਨ ਕੀਤੀਆਂ ਗਈਆਂ ਸਨ।
PII-Masking-300k(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) benchmark 'ਤੇ, Privacy Filter 96% ਦਾ F1 score ਹਾਸਲ ਕਰਦਾ ਹੈ (94.04% precision ਅਤੇ 98.04% recall)। benchmark ਦੇ ਇੱਕ corrected ਵਰਜਨ 'ਤੇ, ਜੋ review ਦੌਰਾਨ ਪਛਾਣੇ dataset annotation issues ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਦਾ ਹੈ, F1 score 97.43% ਹੈ (96.79% precision ਅਤੇ 98.08% recall)।
ਅਸੀਂ ਇਹ ਵੀ ਪਾਇਆ ਕਿ ਮਾਡਲ ਨੂੰ ਕੁਸ਼ਲਤਾ ਨਾਲ ਅਨੁਕੂਲਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਥੋੜ੍ਹੇ ਜੇਹੇ ਡਾਟਾ 'ਤੇ ਵੀ fine-tuning ਡੋਮੇਨ-ਖਾਸ ਕਾਰਜਾਂ 'ਤੇ ਤੇਜ਼ੀ ਨਾਲ ਸਹੀਪਣ ਸੁਧਾਰਦੀ ਹੈ, F1 score ਨੂੰ 54% ਤੋਂ 96% ਤੱਕ ਵਧਾਉਂਦੀ ਹੈ ਅਤੇ ਸਾਡੇ ਮੁਲਾਂਕਣ ਕੀਤੇ domain-adaption benchmark 'ਤੇ saturation ਦੇ ਨੇੜੇ ਪਹੁੰਚਦੀ ਹੈ।
benchmark ਕਾਰਗੁਜ਼ਾਰੀ ਤੋਂ ਪਰੇ, Privacy Filter ਨੂੰ ਸ਼ੋਰ-ਭਰੇ, ਹਕੀਕਤੀ ਦੁਨੀਆ ਦੇ ਟੈਕਸਟ ਵਿੱਚ ਵਰਤੋਂਯੋਗ ਗੋਪਨੀਯਤਾ ਫਿਲਟਰੀਂਗ ਲਈ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਸ ਵਿੱਚ ਲੰਬੇ ਦਸਤਾਵੇਜ਼, ਅਸਪਸ਼ਟ ਹਵਾਲੇ, mixed-format strings, ਅਤੇ software-related secrets ਸ਼ਾਮਲ ਹਨ। ਮਾਡਲ ਕਾਰਡ (ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)codebases ਵਿੱਚ secret detection ਅਤੇ multilingual, adversarial, ਅਤੇ context-dependent ਉਦਾਹਰਨਾਂ ਉੱਤੇ stress tests ਬਾਰੇ ਲਕਸ਼ਿਤ ਮੁਲਾਂਕਣ ਵੀ ਦਰਸਾਉਂਦਾ ਹੈ।
Privacy Filter ਕੋਈ anonymization tool, compliance certification, ਜਾਂ ਉੱਚ-ਜੋਖਿਮ ਵਾਲੇ ਸੰਦਰਭਾਂ ਵਿੱਚ policy review ਦਾ ਬਦਲ ਨਹੀਂ ਹੈ। ਇਹ privacy-by-design ਸਿਸਟਮ ਦੇ ਇੱਕ ਵੱਡੇ ਹਿੱਸੇ ਦਾ ਕੇਵਲ ਇੱਕ ਭਾਗ ਹੈ।
ਇਸ ਦਾ ਵਿਹਾਰ ਉਸ label taxonomy ਅਤੇ decision boundaries ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਉੱਤੇ ਇਸਨੂੰ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸੀ। ਵੱਖ-ਵੱਖ ਸੰਸਥਾਵਾਂ ਨੂੰ ਵੱਖਰੀਆਂ detection ਜਾਂ masking policies ਚਾਹੀਦੀਆਂ ਹੋ ਸਕਦੀਆਂ ਹਨ, ਅਤੇ ਉਹਨਾਂ policies ਲਈ in-domain evaluation ਜਾਂ ਹੋਰ fine-tuning ਦੀ ਲੋੜ ਪੈ ਸਕਦੀ ਹੈ। ਕਾਰਗੁਜ਼ਾਰੀ ਭਾਸ਼ਾਵਾਂ, ਲਿਪੀਆਂ, ਨਾਮਕਰਨ ਰੀਤਾਂ, ਅਤੇ ਉਹਨਾਂ ਡੋਮੇਨਾਂ ਵਿੱਚ ਵੀ ਵੱਖਰੀ ਹੋ ਸਕਦੀ ਹੈ ਜੋ training distribution ਤੋਂ ਅਲੱਗ ਹਨ।
ਹਰ ਮਾਡਲ ਵਾਂਗ, Privacy Filter ਵੀ ਗਲਤੀਆਂ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਅਸਧਾਰਣ ਪਛਾਣਕਰਤਾਵਾਂ ਜਾਂ ਅਸਪਸ਼ਟ ਨਿੱਜੀ ਹਵਾਲਿਆਂ ਨੂੰ ਛੱਡ ਸਕਦਾ ਹੈ, ਅਤੇ ਜਦੋਂ ਸੰਦਰਭ ਸੀਮਿਤ ਹੋਵੇ, ਖਾਸ ਕਰਕੇ ਛੋਟੇ ਕ੍ਰਮਾਂ ਵਿੱਚ, ਇਹ ਇਕਾਈਆਂ ਨੂੰ ਜ਼ਿਆਦਾ ਜਾਂ ਘੱਟ ਰੀਡੈਕਟ ਕਰ ਸਕਦਾ ਹੈ। ਕਾਨੂੰਨੀ, ਮੈਡੀਕਲ, ਅਤੇ ਵਿੱਤੀ ਵਰਕਫਲੋ ਵਰਗੇ ਉੱਚ-ਸੰਵੇਦਨਸ਼ੀਲ ਡੋਮੇਨਾਂ ਵਿੱਚ, ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਅਤੇ ਡੋਮੇਨ-ਖਾਸ ਮੁਲਾਂਕਣ ਅਤੇ fine-tuning ਅਜੇ ਵੀ ਮਹੱਤਵਪੂਰਨ ਹਨ।
ਅਸੀਂ ਇਕੋਸਿਸਟਮ ਭਰ ਵਿੱਚ ਹੋਰ ਮਜ਼ਬੂਤ ਗੋਪਨੀਯਤਾ ਸੁਰੱਖਿਆਵਾਂ ਦਾ ਸਮਰਥਨ ਕਰਨ ਲਈ OpenAI Privacy Filter ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ।
ਮਾਡਲ ਅੱਜ Apache 2.0 license ਦੇ ਤਹਿਤ Hugging Face(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਅਤੇ Github(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) 'ਤੇ ਉਪਲਬਧ ਹੈ। ਇਹ experimentation, customization, ਅਤੇ commercial deployment ਲਈ ਮਨੋਰਥਿਤ ਹੈ, ਅਤੇ ਇਸਨੂੰ ਵੱਖ-ਵੱਖ data distributions ਅਤੇ privacy policies ਲਈ fine-tune ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।
ਮਾਡਲ ਦੇ ਨਾਲ-ਨਾਲ, ਅਸੀਂ ਦਸਤਾਵੇਜ਼ੀਕਰਨ ਵੀ ਸਾਂਝਾ ਕਰ ਰਹੇ ਹਾਂ ਜੋ model architecture, label taxonomy, decoding controls, intended use cases, evaluation setup, ਅਤੇ ਜਾਣੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ, ਤਾਂ ਜੋ ਟੀਮਾਂ ਇਹ ਸਮਝ ਸਕਣ ਕਿ ਮਾਡਲ ਕੀ ਚੰਗਾ ਕਰਦਾ ਹੈ ਅਤੇ ਕਿੱਥੇ ਇਸਦੀ ਸਾਵਧਾਨੀ ਨਾਲ ਵਰਤੋਂ ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ।
AI ਸਿਸਟਮਾਂ ਲਈ ਗੋਪਨੀਯਤਾ ਦੀ ਰੱਖਿਆ ਖੋਜ, ਉਤਪਾਦ ਡਿਜ਼ਾਈਨ, ਮੁਲਾਂਕਣ, ਅਤੇ deployment ਵਿੱਚ ਲਗਾਤਾਰ ਚੱਲਣ ਵਾਲਾ ਯਤਨ ਹੈ।
Privacy Filter ਇੱਕ ਐਸੀ ਦਿਸ਼ਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਜਿਸਨੂੰ ਅਸੀਂ ਮਹੱਤਵਪੂਰਨ ਮੰਨਦੇ ਹਾਂ: ਛੋਟੇ, ਕੁਸ਼ਲ ਮਾਡਲ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਹਕੀਕਤੀ AI ਸਿਸਟਮਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਸੰਕੁਚਿਤ ਤੌਰ 'ਤੇ ਪਰਿਭਾਸ਼ਿਤ ਕਾਰਜਾਂ ਵਿੱਚ ਅਤਿ-ਆਧੁਨਿਕ ਸਮਰੱਥਾ ਹੋਵੇ। ਅਸੀਂ ਇਸਨੂੰ ਇਸ ਲਈ ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ ਕਿਉਂਕਿ ਅਸੀਂ ਸੋਚਦੇ ਹਾਂ ਕਿ ਗੋਪਨੀਯਤਾ-ਸੰਰੱਖਣ ਇੰਫ੍ਰਾਸਟਰਕਚਰ ਦੀ ਜਾਂਚ, ਚਲਾਉਣ, ਅਨੁਕੂਲਣ ਅਤੇ ਸੁਧਾਰ ਕਰਨਾ ਹੋਰ ਆਸਾਨ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ।
ਸਾਡਾ ਲਕਸ਼ ਹੈ ਕਿ ਮਾਡਲ ਦੁਨੀਆ ਬਾਰੇ ਸਿੱਖਣ, ਨਿੱਜੀ ਵਿਅਕਤੀਆਂ ਬਾਰੇ ਨਹੀਂ। Privacy Filter ਇਸ ਨੂੰ ਸੰਭਵ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ।
ਅਸੀਂ Privacy Filter ਦਾ ਇਹ preview ਖੋਜ ਅਤੇ ਗੋਪਨੀਯਤਾ ਭਾਈਚਾਰੇ ਤੋਂ ਫੀਡਬੈਕ ਪ੍ਰਾਪਤ ਕਰਨ ਅਤੇ ਮਾਡਲ ਕਾਰਗੁਜ਼ਾਰੀ ਉੱਤੇ ਹੋਰ ਦੁਹਰਾਵਾ ਕਰਨ ਲਈ ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ।


