ਮੁੱਖ ਸਮੱਗਰੀ 'ਤੇ ਜਾਓ
OpenAI

LifeSciBench ਦੀ ਜਾਣ-ਪਛਾਣ

ਅਸਲ ਦੁਨੀਆਂ ਦੀ ਜੀਵਨ ਵਿਗਿਆਨ ਖੋਜ 'ਤੇ ਅਧਾਰਿਤ ਮਾਹਰਾਂ ਦੁਆਰਾ ਲਿਖਿਆ ਅਤੇ ਮਾਹਰਾਂ ਦੁਆਰਾ ਹੀ ਸਮੀਖਿਆ ਕੀਤਾ ਗਿਆ ਇੱਕ ਬੈਂਚਮਾਰਕ

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ਏਜੰਟਿਕ AI ਪ੍ਰਣਾਲੀਆਂ ਵਿਗਿਆਨਕ ਕੰਮ ਕਰਨ ਵਿੱਚ ਲਗਾਤਾਰ ਵਧੇਰੇ ਸਮਰੱਥ ਹੋ ਰਹੀਆਂ ਹਨ। ਹਾਲਾਂਕਿ, ਜੀਵਨ ਵਿਗਿਆਨ ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਲਈ ਉਹਨਾਂ ਦੀ ਉਪਯੋਗਤਾ ਇਸ ਗੱਲ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ ਕਿ ਉਹ ਅਸਲ ਖੋਜ ਦੀ ਜਟਿਲਤਾ ਨੂੰ ਕਿੰਨੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸੰਭਾਲਦੀਆਂ ਹਨ। ਉਹ ਕੰਮ ਸ਼ਾਇਦ ਹੀ ਕਦੇ ਕਿਸੇ ਇੱਕ ਤੱਥ-ਯਾਦ ਰੱਖਣ ਵਾਲੇ ਸਵਾਲ ਜਾਂ ਇੱਕ ਸਾਫ਼-ਸੁਥਰੀ ਭਵਿੱਖਬਾਣੀ ਦੀ ਸਮੱਸਿਆ ਵਰਗਾ ਹੁੰਦਾ ਹੈ। ਖੋਜਕਰਤਾ ਅਧੂਰੇ ਸਬੂਤਾਂ ਦੀ ਵਿਆਖਿਆ ਕਰਦੇ ਹਨ, ਵਿਰੋਧੀ ਨਤੀਜਿਆਂ ਵਿੱਚ ਤਾਲਮੇਲ ਬਣਾਉਂਦੇ ਹਨ, ਮੁਸ਼ਕਲ ਪ੍ਰਯੋਗ ਤਿਆਰ ਕਰਦੇ ਹਨ, ਪਰਖਾਂ ਦੀਆਂ ਖਾਮੀਆਂ ਨੂੰ ਦੂਰ ਕਰਦੇ ਹਨ, ਅਨੁਵਾਦਕ ਜੋਖਮ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਨ ਅਤੇ ਅਨਿਸ਼ਚਿਤਤਾ ਦੇ ਤਹਿਤ ਇਹ ਫੈਸਲਾ ਕਰਦੇ ਹਨ ਕਿ ਅੱਗੇ ਕੀ ਕਰਨਾ ਹੈ।

ਮੌਜੂਦਾ ਬੈਂਚਮਾਰਕ ਇਹਨਾਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਪੂਰੀ ਤਰ੍ਹਾਂ ਮੁਲਾਂਕਣ ਨਹੀਂ ਕਰਦੇ। ਜੀਵਨ ਵਿਗਿਆਨ ਦੇ ਬਹੁਤ ਸਾਰੇ ਮੁਲਾਂਕਣ ਸੀਮਤ ਖੇਤਰਾਂ ਜਾਂ ਵੱਖਰੇ ਹੁਨਰਾਂ 'ਤੇ ਕੇਂਦਰਿਤ ਹੁੰਦੇ ਹਨ, ਜਿਸ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਸਵਾਲ ਯੋਜਨਾਬੱਧ ਫਾਰਮੈਟ ਅਤੇ ਸਪਸ਼ਟ ਸੰਦਰਭ ਉੱਤਰਾਂ ਵਾਲੇ ਹੁੰਦੇ ਹਨ। ਹਾਲਾਂਕਿ ਇਹ ਕੀਮਤੀ ਹਨ, ਪਰ ਇਹ ਅਕਸਰ ਇਸ ਗੱਲ ਦਾ ਸਹੀ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ ਕਿ ਕੀ ਕੋਈ ਮਾਡਲ ਖੋਜ-ਪੱਧਰ ਦੇ ਵਿਆਪਕ ਕੰਮਾਂ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾ ਸਕਦਾ ਹੈ ਜਾਂ ਨਹੀਂ।

ਅਸੀਂ ਇਸ ਫਰਕ ਨੂੰ ਦੂਰ ਕਰਨ ਲਈ ਹੀ LifeSciBench ਨੂੰ ਤਿਆਰ ਕੀਤਾ ਹੈ। ਇਸਦਾ ਹਰ ਇੱਕ ਕੰਮ ਜੀਵਨ ਵਿਗਿਆਨ ਦੇ ਉਨ੍ਹਾਂ ਸਰਗਰਮ ਵਿਗਿਆਨੀਆਂ ਦੇ ਫੈਸਲਿਆਂ 'ਤੇ ਅਧਾਰਿਤ ਹੈ ਜਿਨ੍ਹਾਂ ਕੋਲ Ph.D. ਪੱਧਰ ਦੀ ਸਿਖਲਾਈ ਹੈ ਅਤੇ ਬਾਇਓਟੈਕ ਅਤੇ ਫਾਰਮਾਸਿਊਟੀਕਲ ਖੇਤਰਾਂ ਵਿੱਚ ਦਵਾਈਆਂ ਦੀ ਖੋਜ ਦੇ ਪ੍ਰੋਗਰਾਮਾਂ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣ ਦਾ ਸਿੱਧਾ ਅਨੁਭਵ ਹੈ।

LifeSciBench ਵਿੱਚ ਮਾਹਰਾਂ ਦੁਆਰਾ ਲਿਖੇ 750 ਕੰਮ ਸ਼ਾਮਲ ਹਨ, ਜੋ ਸੱਤ ਕਾਰਜ-ਪ੍ਰਣਾਲੀਆਂ ਅਤੇ ਸੱਤ ਜੀਵ-ਵਿਗਿਆਨਕ ਖੇਤਰਾਂ ਵਿੱਚ ਫੈਲੇ ਹੋਏ ਹਨ।

1,062

ਕੰਮ ਦੇ ਆਰਟੀਫੈਕਟ

173

ਵਿਗਿਆਨੀ ਯੋਗਦਾਨਕਾਰ

19,020

ਰੂਬਰਿਕ ਮਾਪਦੰਡ

453

ਮਾਹਰ ਸਮੀਖਿਅਕ

LifeSciBench ਕੀ ਮਾਪਦਾ ਹੈ

LifeSciBench ਇਹ ਮਾਪਦਾ ਹੈ ਕਿ ਕੀ AI ਪ੍ਰਣਾਲੀਆਂ ਸਿਰਫ਼ ਜੀਵ-ਵਿਗਿਆਨ ਦੇ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਦੀ ਬਜਾਏ, ਅਸਲ ਜੀਵਨ ਵਿਗਿਆਨ ਖੋਜ ਦੇ ਕੰਮਾਂ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰ ਸਕਦੀਆਂ ਹਨ ਜਾਂ ਨਹੀਂ। ਬੈਂਚਮਾਰਕ ਵਰਗੀਕਰਨ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਲਈ, ਅਸੀਂ ਸਰਗਰਮ ਜੀਵਨ ਵਿਗਿਆਨੀਆਂ ਦਾ ਸਰਵੇਖਣ ਕੀਤਾ ਕਿ ਉਹ ਵਿਹਾਰਕ ਖੋਜ ਦੇ ਮਾਹੌਲ ਵਿੱਚ ਕਿਹੜੀਆਂ ਕਾਰਜ-ਪ੍ਰਣਾਲੀਆਂ ਦੀ ਸਭ ਤੋਂ ਵੱਧ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਫਿਰ, ਅਸੀਂ ਉਹਨਾਂ ਦੇ ਜਵਾਬਾਂ ਨੂੰ ਸੱਤ ਮੁੱਖ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਵੰਡਿਆ: ਸਬੂਤਾਂ ਨੂੰ ਸੰਭਾਲਣਾ, ਵਿਸ਼ਲੇਸ਼ਣ, ਡਿਜ਼ਾਈਨ ਅਤੇ ਅਨੁਕੂਲਨ, ਵਿਗਿਆਨਕ ਰੀਜ਼ਨਿੰਗ, ਪ੍ਰਮਾਣਿਕਤਾ ਅਤੇ ਸੰਚਾਲਨ, ਅਨੁਵਾਦ, ਅਤੇ ਵਿਗਿਆਨਕ ਸੰਚਾਰ।

ਹਰ ਇੱਕ ਕੰਮ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ ਜਿਵੇਂ ਇੱਕ ਵਿਗਿਆਨੀ ਕਿਸੇ ਜਾਣਕਾਰ ਸਹਿਯੋਗੀ ਨੂੰ ਬੇਨਤੀ ਕਰ ਰਿਹਾ ਹੋਵੇ: ਇੱਕ ਵਿਗਿਆਨਕ ਪ੍ਰੋਂਪਟ, ਕੋਈ ਵੀ ਪ੍ਰਸੰਗਿਕ ਸੰਦਰਭ ਜਾਂ ਆਰਟੀਫੈਕਟਾਂ, ਅਤੇ ਇੱਕ ਖੁੱਲ੍ਹੇ-ਜਵਾਬ ਵਾਲਾ ਉੱਤਰ। ਮਾਹਰਾਂ ਦੁਆਰਾ ਲਿਖੇ ਗਏ ਰੂਬਰਿਕ ਇਹ ਪਰਖਦੇ ਹਨ ਕਿ ਕੀ ਕੋਈ ਮਾਡਲ ਕਿਸੇ ਖਾਸ ਸਮੱਸਿਆ ਲਈ ਸਹੀ ਪੱਧਰ ਦੇ ਵੇਰਵੇ, ਤਰਕ, ਚੇਤਾਵਨੀਆਂ ਅਤੇ ਫਾਰਮੈਟਿੰਗ ਨਾਲ ਸਹੀ ਜਵਾਬ ਦੇ ਸਕਦਾ ਹੈ, ਜਿਸਦੀ ਇੱਕ ਵਿਗਿਆਨੀ ਉਮੀਦ ਕਰਦਾ ਹੈ।

ਡਾਟਾਸੈੱਟ ਦਾ ਨਿਰਮਾਣ

LifeSciBench ਅਸਲ ਦੁਨੀਆ ਦੇ ਵਿਗਿਆਨਕ ਉਪਯੋਗ ਲਈ ਲੋੜੀਂਦੇ ਘੱਟ-ਸਪਸ਼ਟ, ਵਿਹਾਰਕ ਹੁਨਰਾਂ ਦੇ ਨਾਲ-ਨਾਲ ਵਿਗਿਆਨਕ ਰੀਜ਼ਨਿੰਗ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ। ਇਸਦੇ ਕੰਮ ਮਾਡਲਾਂ ਨੂੰ ਅਸਲ ਖੋਜ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਕਹਿੰਦੇ ਹਨ: ਸਬੂਤਾਂ ਦੀ ਵਿਆਖਿਆ ਕਰਨਾ, ਖੇਤਰ-ਅਧਾਰਿਤ ਫੈਸਲੇ ਲੈਣਾ, ਅਤੇ ਅਜਿਹੇ ਨਤੀਜੇ ਸਾਂਝੇ ਕਰਨਾ ਜੋ ਮਾਹਰ ਸਮੀਖਿਅਕਾਂ ਲਈ ਉਪਯੋਗੀ ਹੋਣ। ਬਹੁਤ ਸਾਰੇ ਕੰਮਾਂ ਵਿੱਚ ਮਾਡਲਾਂ ਲਈ ਅਨਿਸ਼ਚਿਤਤਾ ਨੂੰ ਸੰਭਾਲਣਾ ਅਤੇ ਸਿਰਫ਼ ਪ੍ਰੋਂਪਟ ਲਿਖਤ 'ਤੇ ਨਿਰਭਰ ਰਹਿਣ ਦੀ ਬਜਾਏ ਸਹਾਇਕ ਡਾਟਾ ਫਾਈਲਾਂ ਦੇ ਅਧਾਰ 'ਤੇ ਤਰਕ ਕਰਨਾ ਵੀ ਜ਼ਰੂਰੀ ਹੁੰਦਾ ਹੈ।

ਇਹ ਬੈਂਚਮਾਰਕ ਜੀਵਨ ਵਿਗਿਆਨ ਦੇ ਕੰਮ ਦੀ ਜਟਿਲਤਾ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਕੁੱਲ ਮਿਲਾ ਕੇ, 79% ਕੰਮਾਂ ਲਈ ਕਈ ਰੀਜ਼ਨਿੰਗ ਜਾਂ ਫੈਸਲੇ ਲੈਣ ਵਾਲੇ ਕਦਮਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਜਿਸ ਵਿੱਚ ਪ੍ਰਤੀ ਕੰਮ ਔਸਤਨ ਚਾਰ ਕਦਮ ਹੁੰਦੇ ਹਨ। LifeSciBench ਵਿੱਚ 1,062 ਜੁੜੇ ਹੋਏ ਆਰਟੀਫੈਕਟ ਸ਼ਾਮਲ ਹਨ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਚਿੱਤਰ, PDFs, ਸਾਰਣੀਆਂ, ਸੀਕਵੈਂਸ ਫਾਈਲਾਂ, ਬਣਤਰ ਜਾਂ ਰਸਾਇਣਕ ਫਾਈਲਾਂ, ਅਤੇ ਵੈੱਬ ਹਵਾਲੇ ਸ਼ਾਮਲ ਹਨ। ਅੱਧੇ ਤੋਂ ਵੱਧ ਕੰਮਾਂ (53%) ਵਿੱਚ ਮਾਡਲਾਂ ਲਈ ਘੱਟੋ-ਘੱਟ ਇੱਕ ਆਰਟੀਫੈਕਟ ਤੋਂ ਜਾਣਕਾਰੀ ਦੀ ਵਿਆਖਿਆ ਜਾਂ ਸੰਸਲੇਸ਼ਣ ਕਰਨਾ ਜ਼ਰੂਰੀ ਹੁੰਦਾ ਹੈ।

ਇਹ ਕੰਮ ਜੀਵਨ ਵਿਗਿਆਨ ਦੇ ਵੱਖ-ਵੱਖ ਖੇਤਰਾਂ ਦੇ 173 ਮਾਹਰ ਵਿਗਿਆਨੀਆਂ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਸਨ। ਹਰੇਕ ਵਿਗਿਆਨੀ ਕੋਲ Ph.D. ਪੱਧਰ ਦੀ ਸਿਖਲਾਈ ਅਤੇ ਬਾਇਓਟੈਕਨਾਲੋਜੀ ਜਾਂ ਫਾਰਮਾਸਿਊਟੀਕਲ ਉਦਯੋਗ ਦਾ ਤਜਰਬਾ ਸੀ। ਕੰਮਾਂ ਨੂੰ ਸਵੀਕਾਰ ਕੀਤੇ ਜਾਣ ਤੋਂ ਪਹਿਲਾਂ ਜਿੰਨੇ ਚਾਹੇ ਸੋਧ ਚੱਕਰਾਂ ਵਿੱਚੋਂ ਲੰਘਾਇਆ ਜਾ ਸਕਦਾ ਸੀ, ਜਿਸ ਲਈ ਕੋਈ ਨਿਸ਼ਚਿਤ ਸੀਮਾ ਨਹੀਂ ਸੀ; ਸਵੀਕਾਰ ਕੀਤੇ ਗਏ ਕੰਮਾਂ ਵਿੱਚ ਔਸਤਨ ਛੇ ਸਵੈ-ਨਿਰਦੇਸ਼ਿਤ ਆਟੋਮੇਟਿਡ ਸਮੀਖਿਆ ਚੱਕਰ ਹੋਏ ਅਤੇ ਮਾਹਰਾਂ ਦੀਆਂ ਸਮੀਖਿਆਵਾਂ ਦੇ ਘੱਟੋ-ਘੱਟ ਦੋ ਦੌਰ ਪੂਰੇ ਕੀਤੇ ਗਏ। ਸਮੀਖਿਆਵਾਂ ਜਾਂ ਤਾਂ ਇੱਕ ਪ੍ਰਮਾਣਿਤ ਸਹੀ ਉੱਤਰ ਜਾਂ ਮਜ਼ਬੂਤ ਮਾਹਰ ਆਮ ਸਹਿਮਤੀ 'ਤੇ ਆਧਾਰਿਤ ਸਨ, ਜਿਸ ਵਿੱਚ ਸੰਬੰਧਿਤ ਖੇਤਰ ਦੇ ਸਮੀਖਿਅਕਾਂ ਵਿਚਕਾਰ ਘੱਟੋ-ਘੱਟ 90% ਸਹਿਮਤੀ ਸੀ। ਇਸ ਪ੍ਰਕਿਰਿਆ ਨੇ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕੀਤੀ ਕਿ ਸਵੀਕਾਰ ਕੀਤੇ ਗਏ ਕੰਮ ਵਿਗਿਆਨਕ ਤੌਰ 'ਤੇ ਸਹੀ, ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਕਾਫ਼ੀ ਸਪਸ਼ਟ, ਅਤੇ ਵਿਹਾਰਕ ਖੋਜ ਦੀ ਪ੍ਰਤੀਨਿਧਤਾ ਕਰਦੇ ਸਨ।

LifeSciBench ਦੇ ਅਜਿਹੇ ਕੰਮਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਚਿੱਤਰ ਜੋ ਜੀਵ-ਵਿਗਿਆਨਕ ਡਾਟਾ ਸਰੋਤਾਂ ਜਿਵੇਂ ਕਿ ਜੀਨੋਮਿਕ ਕ੍ਰਮ, ਅਣੂ ਸੰਰਚਨਾਵਾਂ, ਚਿੱਤਰਾਂ, ਦਸਤਾਵੇਜ਼ਾਂ, ਸਪ੍ਰੈਡਸ਼ੀਟਾਂ ਅਤੇ ਵੈੱਬ ਲਿੰਕਾਂ ਨੂੰ ਬਹੁ-ਕਦਮੀ ਰੀਜ਼ਨਿੰਗ ਅਤੇ ਮਾਹਰ ਸਮੀਖਿਆ ਨਾਲ ਜੋੜਦੇ ਹਨ।

ਮੁਲਾਂਕਣ ਅਤੇ ਰੂਬਰਿਕ ਦਾ ਵੇਰਵਾ

LifeSciBench ਦੇ ਕੰਮਾਂ ਦਾ ਮੁਲਾਂਕਣ ਇੱਕ ਵਿਸਤ੍ਰਿਤ, ਕੰਮ-ਵਿਸ਼ੇਸ਼ ਰੂਬਰਿਕ ਨਾਲ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਜੋ ਉਮੀਦ ਕੀਤੇ ਗਏ ਜਵਾਬ ਨੂੰ ਖਾਸ ਵਿਗਿਆਨਕ ਦਾਅਵਿਆਂ, ਗਣਨਾਵਾਂ, ਫੈਸਲਿਆਂ, ਤਰਕਾਂ ਆਦਿ ਵਿੱਚ ਵੰਡਦਾ ਹੈ। ਪੂਰੇ ਬੈਂਚਮਾਰਕ ਵਿੱਚ, ਮਾਹਰਾਂ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਰੂਬਰਿਕਸ ਵਿੱਚ 19,020 ਮਾਪਦੰਡ ਸ਼ਾਮਲ ਹਨ—ਯਾਨੀ ਪ੍ਰਤੀ ਕੰਮ ਔਸਤਨ 25 ਮਾਪਦੰਡ—ਜੋ ਵਿਗਿਆਨਕ ਸ਼ੁੱਧਤਾ ਅਤੇ ਖੋਜ ਸੰਬੰਧੀ ਫੈਸਲਿਆਂ ਲਈ ਉਪਯੋਗਤਾ ਦੋਵਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਨ।

ਇਹ ਡਿਜ਼ਾਈਨ ਇਸ ਗੱਲ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਅਸਲ ਵਿੱਚ ਵਿਗਿਆਨਕ ਕੰਮ ਦਾ ਮੁਲਾਂਕਣ ਕਿਸ ਤਰ੍ਹਾਂ ਕੀਤਾ ਜਾਂਦਾ ਹੈ: ਜੀਵਨ ਵਿਗਿਆਨ ਦੇ ਬਹੁਤ ਸਾਰੇ ਕੰਮਾਂ ਦਾ ਮੁਲਾਂਕਣ ਸਿਰਫ਼ ਅੰਤਿਮ ਜਵਾਬ ਦੀ ਜਾਂਚ ਕਰਕੇ ਨਹੀਂ ਕੀਤਾ ਜਾ ਸਕਦਾ। ਕੋਈ ਜਵਾਬ ਸਹੀ ਉੱਚ-ਪੱਧਰੀ ਸਿੱਟੇ ਤੱਕ ਪਹੁੰਚ ਸਕਦਾ ਹੈ ਪਰ ਫਿਰ ਵੀ ਉਸਨੂੰ ਅਧੂਰਾ ਮੰਨਿਆ ਜਾ ਸਕਦਾ ਹੈ ਜੇਕਰ, ਉਦਾਹਰਨ ਲਈ, ਇਹ ਕਿਸੇ ਮੁੱਖ ਪਰਖ ਦੀ ਸੀਮਾ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਦਾ ਹੈ ਜਾਂ ਕਿਸੇ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਜੀਵ-ਵਿਗਿਆਨਕ ਬਾਰੀਕੀ ਨੂੰ ਸਰਗਰਮੀ ਨਾਲ ਸਾਹਮਣੇ ਲਿਆਉਣ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦਾ ਹੈ। ਇਸਦੇ ਉਲਟ, ਇੱਕ ਅਧੂਰੇ ਜਵਾਬ ਵਿੱਚ ਵੀ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੀ ਰੀਜ਼ਨਿੰਗ ਹੋ ਸਕਦੀ ਹੈ, ਭਾਵੇਂ ਉਹ ਕੰਮ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਹੱਲ ਨਾ ਕਰਦਾ ਹੋਵੇ।

ਸੂਖਮ ਰੂਬਰਿਕਸ ਇਸ ਬਾਰੀਕੀ ਨੂੰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਫੜਦੇ ਹਨ। LifeSciBench ਨਾ ਸਿਰਫ਼ ਅੰਤਿਮ-ਜਵਾਬ ਦੀ ਸ਼ੁੱਧਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ, ਬਲਕਿ ਇਹ ਵੀ ਦੇਖਦਾ ਹੈ ਕਿ ਕੀ ਕੋਈ ਮਾਡਲ ਵਿਗਿਆਨਕ ਤੌਰ 'ਤੇ ਵੈਧ ਅਤੇ ਵਿਹਾਰਕ ਤੌਰ 'ਤੇ ਲਾਭਦਾਇਕ ਤਰੀਕੇ ਨਾਲ ਆਪਣੇ ਜਵਾਬ ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ ਜਾਂ ਨਹੀਂ।

ਖੋਜ ਪੱਤਰਾਂ, ਚਿੱਤਰਾਂ, ਸਾਰਣੀਆਂ ਅਤੇ ਪ੍ਰਯੋਗਾਤਮਕ ਰਿਕਾਰਡਾਂ ਤੋਂ ਵਿਗਿਆਨਕ ਸਬੂਤਾਂ ਨੂੰ ਇਕੱਠਾ ਕਰਨਾ, ਮੇਲਣਾ ਅਤੇ ਆਡਿਟ ਕਰਨਾ।

ਮੁਲਾਂਕਣ ਉਦਾਹਰਨ

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

  • Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
  • 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
  • Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
  • 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
  • Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
  • Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
  • Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

ਉਮੀਦਵਾਰ ਦਾ ਜਵਾਬ

ਮੁੱਖ ਗੱਲ: ਜਿਸ ਤਰ੍ਹਾਂ ਪੇਸ਼ ਕੀਤਾ ਗਿਆ ਹੈ, ਇਹ ਪੈਕੇਜ ਮਾਈਕ੍ਰੋ-ਡਿਸਟ੍ਰੋਫਿਨ ਐਕਸਪ੍ਰੈਸ਼ਨ ਨੂੰ ਅਜਿਹੇ ਸਰੋਗੇਟ ਐਂਡਪੋਇੰਟ ਵਜੋਂ ਵਰਤ ਕੇ ਤੇਜ਼ੀ ਨਾਲ ਮਨਜ਼ੂਰੀ ਦੇਣ ਲਈ ਕਾਫ਼ੀ ਮਜ਼ਬੂਤ ਨਹੀਂ ਹੈ, ਜਿਸ ਤੋਂ ਕਲੀਨਿਕਲ ਲਾਭ ਦੀ ਵਾਜਬ ਉਮੀਦ ਕੀਤੀ ਜਾ ਸਕੇ। ਇੱਕ ਸੰਦੇਹੀ FDA ਸਮੀਖਿਅਕ ਸੰਭਾਵਿਤ ਤੌਰ 'ਤੇ ਬਾਇਓਮਾਰਕਰ, ਕਾਰਜਸ਼ੀਲਤਾ, ਟਿਕਾਊਪਣ, ਸੁਰੱਖਿਆ ਅਤੇ ਸਧਾਰਨੀਕਰਨ ਦੇ ਸਬੂਤਾਂ ਨੂੰ ਪਦਾਰਥਕ ਰੂਪ ਵਿੱਚ ਨਾਕਾਫ਼ੀ ਮੰਨੇਗਾ।

ਪੈਕੇਜ ਆਈਟਮ

ਮੁੱਖ ਅਸਫਲਤਾ ਮੋਡ

ਕੀ ਲੋੜ ਹੋਵੇਗੀ

ਵੈਸਟਰਨ ਬਲੌਟ ਕੁਆਂਟੀਫਿਕੇਸ਼ਨ

MANEX1A ਇੱਕ N-ਟਰਮੀਨਲ ਐਪੀਟੋਪ ਨਾਲ ਬਾਈਂਡ ਕਰਦਾ ਹੈ ਜੋ ਕਿ ਐਂਡੋਜੇਨਸ ਫੁੱਲ-ਲੈਂਥ ਡਿਸਟ੍ਰੋਫਿਨ ਅਤੇ ਮਾਈਕ੍ਰੋ-ਡਿਸਟ੍ਰੋਫਿਨ ਟ੍ਰਾਂਸਜੀਨ ਦੋਵਾਂ ਵਿੱਚ ਸਾਂਝਾ ਹੁੰਦਾ ਹੈ, ਇਸ ਲਈ ਇਹ ਐਸੇ ਟ੍ਰਾਂਸਜੀਨ ਅਤੇ ਬਾਕੀ ਬਚੇ/ਰਿਵਰਟੈਂਟ ਡਿਸਟ੍ਰੋਫਿਨ ਵਿਚਕਾਰ ਸਾਫ਼ ਤੌਰ 'ਤੇ ਫਰਕ ਨਹੀਂ ਕਰਦਾ। ਇੱਕ ਹੈਲਥੀ ਫੁੱਲ-ਲੈਂਥ ਡਿਸਟ੍ਰੋਫਿਨ ਸਟੈਂਡਰਡ ਦੇ ਮੁਕਾਬਲੇ 138 kDa ਮਾਈਕ੍ਰੋ-ਡਿਸਟ੍ਰੋਫਿਨ ਦੀ ਮਾਤਰਾ ਨਿਰਧਾਰਤ ਕਰਨਾ ਵੀ ਅਵੈਧ ਹੈ।

ਇੱਕ ਰੀਕੌਂਬੀਨੈਂਟ ਮਾਈਕ੍ਰੋ-ਡਿਸਟ੍ਰੋਫਿਨ ਸਟੈਂਡਰਡ ਅਤੇ ਇੱਕ ਔਰਥੋਗੋਨਲ ਵਿਧੀ ਦੀ ਵਰਤੋਂ ਕਰੋ ਜੋ ਟ੍ਰਾਂਸਜੀਨ ਨੂੰ ਐਂਡੋਜੇਨਸ ਡਿਸਟ੍ਰੋਫਿਨ ਤੋਂ ਵੱਖਰਾ ਕਰਦੀ ਹੋਵੇ, ਜਿਵੇਂ ਕਿ ਟਾਰਗੇਟਿਡ ਮਾਸ ਸਪੈਕਟ੍ਰੋਮੈਟਰੀ ਜਾਂ ਕੋਈ ਟ੍ਰਾਂਸਜੀਨ-ਸਪੈਸੀਫਿਕ/ਐਪੀਟੋਪ-ਸਪੈਸੀਫਿਕ ਐਸੇ।

ਇਮਿਊਨੋਫਲੋਰੋਸੈਂਸ

C-ਟਰਮੀਨਲ ਪੌਲੀਕਲੋਨਲ ਐਂਟੀਬਾਡੀ ਇਸ ਕੰਮ ਲਈ ਬਿਲਕੁਲ ਢੁਕਵੀਂ ਨਹੀਂ ਹੈ ਕਿਉਂਕਿ 138 kDa ਕੰਸਟਰੱਕਟ ਵਿੱਚ C-ਟਰਮੀਨਲ ਡੋਮੇਨ ਦੀ ਕਮੀ ਹੁੰਦੀ ਹੈ। DMD ਦੇ ਕਈ ਮਰੀਜ਼ਾਂ ਵਿੱਚ ਰਿਵਰਟੈਂਟ ਫਾਈਬਰਸ ਹੁੰਦੇ ਹਨ, ਅਤੇ ਰਿਵਰਟੈਂਟ ਡਿਸਟ੍ਰੋਫਿਨ C-ਟਰਮੀਨਲ ਐਪੀਟੋਪਸ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖ ਸਕਦਾ ਹੈ। ਰਿਵਰਟੈਂਟ ਫਾਈਬਰਸ ਉਮਰ ਦੇ ਨਾਲ ਕਲੋਨਲ ਰੂਪ ਵਿੱਚ ਵੱਧ ਸਕਦੇ ਹਨ, ਜੋ ਕਿ IF ਸਿਗਨਲ ਨੂੰ ਪੱਖਪਾਤੀ ਬਣਾ ਸਕਦੇ ਹਨ, ਖਾਸ ਕਰਕੇ ਵੱਡੀ ਉਮਰ ਦੇ ਲੜਕਿਆਂ ਵਿੱਚ।

IF ਟੈਸਟ ਨੂੰ ਅਜਿਹੀ ਐਂਟੀਬਾਡੀ ਨਾਲ ਦੁਹਰਾਓ ਜੋ ਟ੍ਰਾਂਸਜੀਨ ਵਿੱਚ ਮੌਜੂਦ ਐਪੀਟੋਪ ਦੇ ਵਿਰੁੱਧ ਕੰਮ ਕਰਦੀ ਹੋਵੇ ਪਰ ਰਿਵਰਟੈਂਟ ਡਿਸਟ੍ਰੋਫਿਨ ਵਿੱਚ ਗੈਰ-ਹਾਜ਼ਰ ਹੋਵੇ। ਟ੍ਰਾਂਸਜੀਨ-ਪੌਜ਼ੀਟਿਵ ਫਾਈਬਰਸ ਦੀ ਮਾਤਰਾ ਨੂੰ ਰਿਵਰਟੈਂਟ ਫਾਈਬਰਸ ਤੋਂ ਵੱਖਰੇ ਤੌਰ 'ਤੇ ਨਿਰਧਾਰਤ ਕਰੋ।

ਸਰੋਗੇਟ ਐਂਡਪੁਆਇੰਟ ਦੀ ਪ੍ਰਮਾਣਿਕਤਾ

ਇਹ ਪੈਕੇਜ ਪ੍ਰੋਟੀਨ ਦੀ ਮਾਤਰਾ ਅਤੇ ਕਲੀਨਿਕਲ ਕਾਰਜਸ਼ੀਲਤਾ ਨੂੰ ਆਪਸ ਵਿੱਚ ਉਲਝਾਉਂਦਾ ਹੈ। “ਹੈਲਥੀ-ਕੰਟਰੋਲ ਪ੍ਰੋਟੀਨ ਮਾਸ ਦਾ 38%” ਦਾ ਮਤਲਬ ਨੋਰਮਲ ਡਿਸਟ੍ਰੋਫਿਨ ਕਾਰਜਸ਼ੀਲਤਾ ਦਾ 38% ਨਹੀਂ ਹੈ ਕਿਉਂਕਿ ਮਾਈਕ੍ਰੋ-ਡਿਸਟ੍ਰੋਫਿਨ ਬਣਤਰ ਦੇ ਰੂਪ ਵਿੱਚ ਛੋਟਾ ਹੁੰਦਾ ਹੈ।

ਐਕਸਪ੍ਰੈਸ਼ਨ ਨੂੰ ਸਰੋਗੇਟ ਐਂਡਪੁਆਇੰਟ ਵਜੋਂ ਮੰਨਣ ਤੋਂ ਪਹਿਲਾਂ, ਮਾਈਕ੍ਰੋ-ਡਿਸਟ੍ਰੋਫਿਨ ਦੇ ਮਾਸ-ਪ੍ਰਤੀਸ਼ਤ, ਸਾਰਕੋਲੇਮਲ ਲੋਕਲਾਈਜ਼ੇਸ਼ਨ, ਡਾਊਨਸਟ੍ਰੀਮ ਫੰਕਸ਼ਨਲ ਰੀਸਟੋਰੇਸ਼ਨ ਅਤੇ ਕਲੀਨਿਕਲ ਲਾਭ ਵਿਚਕਾਰ ਸੰਬੰਧ ਨੂੰ ਅਨੁਭਵੀ ਤੌਰ 'ਤੇ ਪ੍ਰਮਾਣਿਤ ਕਰੋ।

ਬਾਇਓਪਸੀ ਡਿਜ਼ਾਈਨ

ਇਲਾਜ ਤੋਂ ਪਹਿਲਾਂ ਅਤੇ ਬਾਅਦ ਵਿੱਚ ਸਰੀਰ ਦੇ ਉਲਟ ਪਾਸਿਆਂ ਦੀ ਵਾਸਟਸ ਲੈਟਰੇਲਿਸ ਮਾਸਪੇਸ਼ੀ ਵਿੱਚੋਂ ਲਈਆਂ ਗਈਆਂ ਬਾਇਓਪਸੀਆਂ, ਖੱਬੇ-ਸੱਜੇ ਪਾਸੇ ਅਤੇ ਮਾਸਪੇਸ਼ੀ ਦੇ ਅੰਦਰੂਨੀ ਹਿੱਸੇ ਦੀ ਸਥਾਨਿਕ ਭਿੰਨਤਾ ਨੂੰ ਪੈਦਾ ਕਰਦੀਆਂ ਹਨ। ਬਿਮਾਰੀ ਦਾ ਵਧਣਾ ਅਤੇ ਫਾਈਬਰੋ-ਫੈਟੀ ਰਿਪਲੇਸਮੈਂਟ ਵੀ ਟੋਟਲ-ਪ੍ਰੋਟੀਨ-ਨੋਰਮਲਾਈਜ਼ਡ ਸਿਗਨਲ ਨੂੰ ਬਦਲ ਸਕਦੇ ਹਨ।

ਇੱਕਸਾਰ ਐਨਾਟੋਮੀਕਲ ਲੈਂਡਮਾਰਕਸ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਬਾਇਓਪਸੀ ਵਾਲੀ ਜਗ੍ਹਾ ਦਾ ਮਿਆਰੀਕਰਨ ਕਰੋ, ਮਾਸਪੇਸ਼ੀ-ਵਿਸ਼ੇਸ਼ ਪ੍ਰੋਟੀਨਾਂ ਦੇ ਅਨੁਸਾਰ ਨੋਰਮਲਾਈਜ਼ ਕਰੋ, ਅਤੇ ਇਸਦੇ ਨਾਲ-ਨਾਲ ਫਾਈਬਰੋ-ਫੈਟੀ ਬਣਤਰ ਨੂੰ ਮਾਪੋ।

NSAA ਤੁਲਨਾਕਾਰ/ਅੰਕੜੇ

ਇੱਕ ਬਾਹਰੀ ਕੁਦਰਤੀ-ਇਤਿਹਾਸ ਕੋਹੋਰਟ ਰੈਂਡਮਾਈਜ਼ਡ ਸਮਕਾਲੀ ਨਿਯੰਤਰਣ ਨਹੀਂ ਹੁੰਦਾ। ਟ੍ਰਾਇਲ ਦੀ ਯੋਗਤਾ, ਸਹਾਇਕ ਦੇਖਭਾਲ, ਭਾਗੀਦਾਰੀ ਦੇ ਪ੍ਰਭਾਵ, ਬੇਸਲਾਈਨ NSAA, ਸਟੀਰਾਇਡ ਦੀ ਖੁਰਾਕ ਵਿਧੀ, ਉਮਰ, ਅਤੇ ਐਕਸੌਨ ਕਲਾਸ, ਇਹ ਸਭ ਇਸ ਤੁਲਨਾ ਵਿੱਚ ਪੱਖਪਾਤ ਪੈਦਾ ਕਰ ਸਕਦੇ ਹਨ। ਇੱਕ ਅਨਪੇਅਰਡ ਟੀ-ਟੈਸਟ ਕਾਫ਼ੀ ਨਹੀਂ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, +1.4 NSAA ਦਾ ਬਦਲਾਅ ਇਸ ਉਮਰ ਸਮੂਹ ਲਈ ਟੈਸਟ-ਰੀਟੈਸਟ ਪਰਿਵਰਤਨਸ਼ੀਲਤਾ ਦੇ ਦਾਇਰੇ ਦੇ ਅੰਦਰ ਹੀ ਹੈ।

ਇੱਕ ਰੈਂਡਮਾਈਜ਼ਡ ਸਮਕਾਲੀ ਪਲੇਸੀਬੋ-ਨਿਯੰਤਰਿਤ ਅਧਿਐਨ ਚਲਾਓ, ਜਾਂ ਘੱਟੋ-ਘੱਟ ਬੇਸਲਾਈਨ NSAA, ਉਮਰ, ਸਟੀਰਾਇਡ ਦੀ ਖੁਰਾਕ ਵਿਧੀ, ਐਕਸੌਨ ਕਲਾਸ, ਅਤੇ ਹੋਰ ਭੁਲੇਖਾ ਪਾਉਣ ਵਾਲੇ ਕਾਰਕਾਂ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਦੇ ਹੋਏ ਐਡਜਸਟਡ ਵਿਸ਼ਲੇਸ਼ਣ ਦੀ ਵਰਤੋਂ ਕਰੋ।

ਉਮਰ ਦੇ ਦਾਇਰੇ ਕਾਰਨ ਪੈਦਾ ਹੋਣ ਵਾਲਾ ਪੱਖਪਾਤ

4–7 ਸਾਲ ਦੀ ਉਮਰ ਦੇ ਲੜਕੇ ਵਿਕਾਸ ਦੇ ਅਜਿਹੇ ਪੜਾਅ ਵਿੱਚ ਹੁੰਦੇ ਹਨ ਜਿੱਥੇ ਬਿਨਾਂ ਇਲਾਜ ਵਾਲੇ ਤੁਰਨ-ਫਿਰਨ ਯੋਗ DMD ਮਰੀਜ਼ਾਂ ਦੀ ਮੋਟਰ ਕਾਰਜਪ੍ਰਣਾਲੀ ਵਿੱਚ ਗਿਰਾਵਟ ਸ਼ੁਰੂ ਹੋਣ ਤੋਂ ਪਹਿਲਾਂ ਸੁਧਾਰ ਆ ਸਕਦਾ ਹੈ। ਇੱਕ 48-ਹਫ਼ਤਿਆਂ ਦਾ NSAA ਬਦਲਾਅ ਵਿਕਾਸਾਤਮਕ ਸੁਧਾਰ, ਬਿਮਾਰੀ ਦੇ ਵਧਣ, ਅਤੇ ਇਲਾਜ ਦੇ ਸੰਭਾਵਿਤ ਪ੍ਰਭਾਵ ਦਾ ਰਲਿਆ-ਮਿਲਿਆ ਰੂਪ ਹੁੰਦਾ ਹੈ।

ਵਿਕਾਸ ਦੇ ਪੜਾਅ ਨੂੰ ਇਲਾਜ ਦੇ ਪ੍ਰਭਾਵ ਤੋਂ ਵੱਖ ਕਰਨ ਲਈ ਉਮਰ ਦੇ ਵਰਗੀਕਰਨ ਦੇ ਨਾਲ ਸਮਕਾਲੀ ਰੈਂਡਮਾਈਜ਼ਡ ਕੰਟਰੋਲ ਦੀ ਵਰਤੋਂ ਕਰੋ।

ਪੂਰਵ ਕਲੀਨਿਕਲ ਮਿਸਾਲ

ਓਪਨ-ਲੇਬਲ ਮਾਈਕ੍ਰੋ-ਡਿਸਟ੍ਰੋਫਿਨ ਦੇ ਕਾਰਜਾਤਮਕ ਸੰਕੇਤ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ ਪੁਸ਼ਟੀਕਰਨ ਲਾਭ ਦਾ ਅਨੁਮਾਨ ਨਹੀਂ ਲਗਾ ਸਕੇ ਹਨ; ਪ੍ਰਕਾਸ਼ਿਤ ਮਿਸਾਲਾਂ ਵਿੱਚ ਮਾਈਕ੍ਰੋ-ਡਿਸਟ੍ਰੋਫਿਨ ਜੀਨ ਥੈਰੇਪੀ ਦੇ ਪੁਸ਼ਟੀਕਰਨ ਟ੍ਰਾਇਲ ਸ਼ਾਮਲ ਹਨ ਜੋ ਓਪਨ-ਲੇਬਲ ਵਾਲੇ NSAA ਸੁਧਾਰਾਂ ਨੂੰ ਦੁਹਰਾਉਣ ਵਿੱਚ ਅਸਫਲ ਰਹੇ ਹਨ।

ਓਪਨ-ਲੇਬਲ NSAA ਬਦਲਾਅ ਨੂੰ ਨਿਰਣਾਇਕ ਸਮਰਥਨ ਵਜੋਂ ਨਾ ਮੰਨੋ। ਨਿਯੰਤਰਿਤ ਕਾਰਜਾਤਮਕ ਸਬੂਤਾਂ ਦੀ ਮੰਗ ਕਰੋ।

ਕੰਸਟਰੱਕਟ ਦੀਆਂ ਸੰਰਚਨਾਤਮਕ ਸੀਮਾਵਾਂ

138 kDa ਦਾ ਕੰਸਟਰੱਕਟ ਸਪੈਕਟ੍ਰਿਨ ਰੀਪੀਟਸ R16/17 ਨੂੰ ਹਟਾ ਦਿੰਦਾ ਹੈ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ nNOS-ਬਾਈਂਡਿੰਗ ਸਾਈਟਾਂ ਹੁੰਦੀਆਂ ਹਨ। nNOS ਦੀ ਭਰਤੀ ਨਾ ਹੋਣ ਕਰਕੇ ਕਸਰਤ ਦੌਰਾਨ ਫੰਕਸ਼ਨਲ ਸਿੰਪੈਥੋਲਿਸਿਸ ਅਤੇ ਇਸਚੀਮੀਆ ਸੁਰੱਖਿਆ ਪ੍ਰਭਾਵਿਤ ਹੋ ਸਕਦੀ ਹੈ, ਜੋ ਕਿ ਐਕਸਪ੍ਰੈਸ਼ਨ ਦੇ ਪੱਧਰ ਤੋਂ ਸੁਤੰਤਰ, ਬਿਮਾਰੀ ਦੇ ਸੁਧਾਰ 'ਤੇ ਮਕੈਨਿਸਟਿਕ ਸੀਮਾ ਲਗਾ ਦਿੰਦੀ ਹੈ।

ਇਹ ਦਿਖਾਉਣ ਲਈ ਮਕੈਨਿਸਟਿਕ ਅਧਿਐਨ ਜੋੜੋ ਕਿ ਕੀ ਇਹ ਖ਼ਾਸ ਕੰਸਟਰੱਕਟ ਢੁਕਵੇਂ ਡਿਸਟ੍ਰੋਫਿਨ-ਐਸੋਸੀਏਟਿਡ ਕੰਪਲੈਕਸ ਫੰਕਸ਼ਨ, nNOS ਸਥਾਨੀਕਰਨ, ਕਸਰਤ ਫਿਜ਼ੀਓਲੋਜੀ, ਅਤੇ ਮਾਸਪੇਸ਼ੀਆਂ ਦੀ ਸੁਰੱਖਿਆ ਨੂੰ ਬਹਾਲ ਕਰਦਾ ਹੈ ਜਾਂ ਨਹੀਂ।

AAV ਦੀ ਟਿਕਾਊਤਾ

12 ਹਫ਼ਤਿਆਂ 'ਤੇ ਵੈਕਟਰ ਜੀਨੋਮ ਟਿਕਾਊ ਐਕਸਪ੍ਰੈਸ਼ਨ ਸਥਾਪਿਤ ਨਹੀਂ ਕਰਦੇ। AAV9 ਜੀਨੋਮ ਮੁੱਖ ਤੌਰ 'ਤੇ ਗੈਰ-ਏਕੀਕ੍ਰਿਤ ਐਪੀਸੋਮ ਹੁੰਦੇ ਹਨ ਅਤੇ ਸਮੇਂ ਦੇ ਨਾਲ ਘਟ ਸਕਦੇ ਹਨ। ਵੈਕਟਰ-ਜੀਨੋਮ ਦੀ ਸਥਿਰਤਾ, ਨਿਰੰਤਰ ਪ੍ਰੋਟੀਨ ਐਕਸਪ੍ਰੈਸ਼ਨ ਦੇ ਬਰਾਬਰ ਨਹੀਂ ਹੁੰਦੀ।

12 ਹਫ਼ਤਿਆਂ ਤੋਂ ਬਾਅਦ ਲੋਂਗੀਟਿਊਡੀਨਲ ਟ੍ਰਾਂਸਜੀਨ ਪ੍ਰੋਟੀਨ ਐਕਸਪ੍ਰੈਸ਼ਨ ਅਤੇ ਫੰਕਸ਼ਨਲ ਬਾਇਓਮਾਰਕਰ ਦੀ ਟਿਕਾਊਤਾ ਨੂੰ ਮਾਪੋ।

ਇਮਿਊਨ/ਸੁਰੱਖਿਆ ਪ੍ਰੋਫਾਈਲ

12 ਵਿੱਚੋਂ 8 ਮਰੀਜ਼ਾਂ ਵਿੱਚ ਟ੍ਰਾਂਸਐਮੀਨਾਈਟਿਸ ਦਾ ਹੋਣਾ AAV-ਟ੍ਰਾਂਸਡਿਊਸਡ ਸੈੱਲਾਂ ਪ੍ਰਤੀ ਪ੍ਰਤੀਰੋਧਕ ਪ੍ਰਤੀਕਿਰਿਆ ਦੇ ਅਨੁਕੂਲ ਹੈ, ਪਰ ਇਸਦਾ ਕਾਰਜ-ਵਿਧੀ ਅਜੇ ਸਥਾਪਿਤ ਨਹੀਂ ਹੋਇਆ ਹੈ। AAV9 ਦੇ ਕਾਰਡੀਅਕ ਟ੍ਰੋਪਿਜ਼ਮ ਨੂੰ ਦੇਖਦੇ ਹੋਏ ਮਾਇਓਕਾਰਡਾਈਟਿਸ ਦਾ ਇੱਕ ਮਾਮਲਾ ਚਿੰਤਾਜਨਕ ਹੈ।

ਵਧੇਰੇ ਡੂੰਘੀ ਇਮਿਊਨ ਨਿਗਰਾਨੀ, ਜਿਗਰ/ਦਿਲ ਦੀ ਸੁਰੱਖਿਆ ਵਿਸ਼ੇਸ਼ਤਾ ਅਤੇ ਤੇਜ਼ੀ ਨਾਲ ਕਾਰਡੀਅਕ ਫਾਲੋ-ਅੱਪ ਪ੍ਰਦਾਨ ਕਰੋ।

ਮਰੀਜ਼ਾਂ ਦੀ ਚੋਣ/ਵਿਆਪਕਤਾ

ਐਂਟੀ-AAV9 ਨਿਊਟ੍ਰਲਾਈਜ਼ਿੰਗ-ਐਂਟੀਬਾਡੀ-ਪਾਜ਼ਿਟਿਵ ਮਰੀਜ਼ਾਂ ਨੂੰ ਬਾਹਰ ਰੱਖਣਾ ਇਸ ਦੀ ਵਿਆਪਕਤਾ ਨੂੰ ਸੀਮਤ ਕਰਦਾ ਹੈ। ਐਕਸੋਨ-44 ਡਿਲੀਸ਼ਨਜ਼ ਵਾਲੇ ਮਰੀਜ਼ਾਂ ਨੂੰ ਬਾਹਰ ਰੱਖਣਾ DMD ਦੇ ਉਸ ਖਾਸ ਉਪ-ਸਮੂਹ ਲਈ ਇਸ ਦੀ ਉਪਯੋਗਤਾ ਨੂੰ ਸੀਮਤ ਕਰਦਾ ਹੈ। ਵਿਆਪਕ DMD ਆਬਾਦੀ ਵਿੱਚ ਸੁਰੱਖਿਆ ਅਤੇ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਦੀ ਵਿਸ਼ੇਸ਼ਤਾ ਨੂੰ ਸਾਬਤ ਕਰਨ ਲਈ n=12 ਬਹੁਤ ਘੱਟ ਹੈ।

ਜਿੱਥੋਂ ਤੱਕ ਸੰਭਵ ਹੋ ਸਕੇ ਯੋਗਤਾ ਦੇ ਦਾਇਰੇ ਨੂੰ ਵਧਾਓ ਜਾਂ ਵਿਆਪਕ ਮਨਜ਼ੂਰੀ ਦੇ ਸਮਰਥਨ ਵਿੱਚ ਨਤੀਜਿਆਂ ਦੀ ਵਰਤੋਂ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ, ਐਂਟੀਬਾਡੀ ਦੀ ਸਥਿਤੀ, ਜੀਨੋਟਾਈਪ/ਐਕਸੋਨ ਕਲਾਸ, ਉਮਰ ਅਤੇ ਬੇਸਲਾਈਨ ਕਾਰਜਪ੍ਰਣਾਲੀ ਦੇ ਅਧਾਰ 'ਤੇ ਪਰਤਦਾਰ ਵਿਸ਼ਲੇਸ਼ਣ ਨੂੰ ਪਹਿਲਾਂ ਤੋਂ ਹੀ ਨਿਰਧਾਰਿਤ ਕਰੋ।

ਰੇਗੂਲੇਟਰੀ ਸਿੱਟਾ: ਇਹ ਪੈਕੇਜ ਜੈਵਿਕ ਗਤੀਵਿਧੀ ਦਿਖਾ ਸਕਦਾ ਹੈ, ਪਰ ਇਹ ਅਜੇ ਤੱਕ ਇਹ ਸਾਬਤ ਨਹੀਂ ਕਰਦਾ ਕਿ ਮਾਪੀ ਗਈ ਮਾਈਕ੍ਰੋ-ਡਿਸਟ੍ਰੋਫਿਨ ਐਕਸਪ੍ਰੈਸ਼ਨ ਇੱਕ ਅਜਿਹਾ ਭਰੋਸੇਯੋਗ ਸਰੋਗੇਟ ਹੈ ਜਿਸ ਦੁਆਰਾ ਕਲੀਨਿਕਲ ਲਾਭ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕੀਤੀ ਜਾ ਸਕੇ। ਮੁੱਖ ਕਮੀਆਂ ਵਿੱਚ ਐਸੇਅ ਸਪੈਸੀਫਿਸਿਟੀ, ਅਵੈਧ ਕੁਆਂਟੀਫਿਕੇਸ਼ਨ ਸਟੈਂਡਰਡਸ, ਰੀਵਰਟੈਂਟ-ਫਾਈਬਰ ਦੀ ਸੰਭਾਵਿਤ ਉਲਝਣ, ਇੱਕ ਰੈਂਡਮਾਈਜ਼ਡ ਕੰਟਰੋਲ ਦੀ ਘਾਟ, ਉਮਰ ਨਾਲ ਸੰਬੰਧਿਤ NSAA ਦੀ ਉਲਝਣ, ਅਨਿਸ਼ਚਿਤ ਟਿਕਾਊਪਨ ਅਤੇ ਅਣਸੁਲਝੇ ਸੁਰੱਖਿਆ/ਸਧਾਰਨੀਕਰਨ ਦੇ ਮੁੱਦੇ ਸ਼ਾਮਲ ਹਨ।

ਇਸ ਪਾੜੇ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ, ਪ੍ਰੋਗਰਾਮ ਨੂੰ ਇੱਕ ਨਿਯੰਤਰਿਤ, ਉਮਰ-ਪੱਧਰੀ ਕਲੀਨਿਕਲ ਡਿਜ਼ਾਈਨ ਦੀ ਜ਼ਰੂਰਤ ਹੋਏਗੀ ਜਿਸ ਵਿੱਚ ਟ੍ਰਾਂਸਜੀਨ-ਵਿਸ਼ੇਸ਼ ਪ੍ਰਗਟਾਵੇ ਦੇ ਟੈਸਟ, ਆਰਥੋਗੋਨਲ ਪ੍ਰੋਟੀਨ ਕੁਆਂਟੀਫਿਕੇਸ਼ਨ, ਟਿਸ਼ੂ-ਕੰਪੋਜ਼ੀਸ਼ਨ ਕੰਟਰੋਲ, ਲੰਬਕਾਰੀ ਟਿਕਾਊਤਾ ਡੇਟਾ, ਕੱਟੇ ਹੋਏ ਨਿਰਮਾਣ ਲਈ ਮਕੈਨਿਸਟਿਕ ਫੰਕਸ਼ਨਲ ਟੈਸਟ ਅਤੇ ਮਜ਼ਬੂਤ ਸੁਰੱਖਿਆ ਨਿਗਰਾਨੀ, ਖਾਸ ਕਰਕੇ ਹੈਪੇਟਿਕ ਅਤੇ ਦਿਲ ਦੀ ਲੋੜ ਹੋਵੇਗੀ।

ਰੂਬਰਿਕ ਮਾਪਦੰਡ ਅਤੇ ਗ੍ਰੇਡ

ਮਾਪਦੰਡ
ਅੰਕ
Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.
+24
Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.
+22
Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.
+19
Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.
+12
Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.
+15
Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.
+8

LifeSciBench ਨੂੰ ਪ੍ਰਮਾਣਿਤ ਕਰਨਾ

ਅਸੀਂ ਇੱਕ ਸੁਤੰਤਰ ਮਾਹਰ ਸਮੀਖਿਆ ਰਾਹੀਂ LifeSciBench ਨੂੰ ਪ੍ਰਮਾਣਿਤ ਕੀਤਾ ਹੈ। ਇਹ ਫੀਡਬੈਕ 453 ਅਜਿਹੇ ਸਮੀਖਿਅਕਾਂ ਵੱਲੋਂ ਆਇਆ ਜੋ ਇਹਨਾਂ ਕੰਮਾਂ ਨੂੰ ਲਿਖਣ ਵਿੱਚ ਸ਼ਾਮਲ ਨਹੀਂ ਸਨ। ਉਹਨਾਂ ਸਮੀਖਿਅਕਾਂ ਵਿੱਚੋਂ 97% ਕੋਲ Ph.D. ਜਾਂ ਇਸਦੇ ਬਰਾਬਰ ਦੀ ਡਾਕਟਰੇਟ ਡਿਗਰੀ ਸੀ, ਜਿਨ੍ਹਾਂ ਕੋਲ ਔਸਤਨ 12 ਸਾਲਾਂ ਦਾ ਖੇਤਰੀ ਤਜਰਬਾ ਅਤੇ 14 ਪੀਅਰ-ਸਮੀਖਿਆ ਕੀਤੇ ਪ੍ਰਕਾਸ਼ਨ ਸਨ; 88% ਨੇ ਘੱਟੋ-ਘੱਟ ਇੱਕ ਪੁਰਸਕਾਰ ਜਾਂ ਫੈਲੋਸ਼ਿਪ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਜਾਣਕਾਰੀ ਦਿੱਤੀ।

ਸਮੀਖਿਅਕਾਂ ਨੇ ਇਸ ਗੱਲ ਦੇ ਆਧਾਰ 'ਤੇ ਹਰੇਕ ਕਾਰਜ ਨੂੰ ਸਕੋਰ ਦਿੱਤੇ ਕਿ ਕੀ ਉਹ ਕਾਰਜ ਮਜ਼ਬੂਤ ਬੈਂਚਮਾਰਕ ਸਵਾਲ ਲਈ ਲੋੜੀਂਦੇ ਗੁਣਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ: ਜਿਵੇਂ ਕਿ ਅਸਲ-ਦੁਨੀਆਂ ਦੇ ਖੋਜ ਕਾਰਜਾਂ ਨਾਲ ਮੇਲ ਖਾਣਾ, ਰੀਜ਼ਨਿੰਗ ਅਤੇ ਖੇਤਰ ਦੀ ਮੁਹਾਰਤ ਦਾ ਸਹੀ ਟੈਸਟ ਲੈਣਾ, ਸਬੂਤਾਂ ਜਾਂ ਮਾਹਰਾਂ ਦੀ ਆਮ ਸਹਿਮਤੀ 'ਤੇ ਅਧਾਰਤ ਹੋਣਾ, ਅਤੇ ਮਾਡਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਸਮੁੱਚੀ ਉਪਯੋਗਤਾ। ਹਰੇਕ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਸਮੀਖਿਅਕਾਂ ਦੀ ਆਪਸੀ ਸਹਿਮਤੀ 96% ਤੋਂ ਵੱਧ ਰਹੀ।

ਅਸਲ-ਦੁਨੀਆ ਦੀ ਪ੍ਰਸੰਗਿਕਤਾ

ਕੀ ਇਹ ਕੰਮ ਅਸਲ ਦੁਨੀਆ ਦੇ ਜੀਵਨ ਵਿਗਿਆਨ ਦੇ ਕੰਮ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ?

ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਹਿਮਤ
90.4%
ਕੁੱਲ ਮਿਲਾ ਕੇ ਸਹਿਮਤ
98.3%

ਵਿਗਿਆਨਕ ਰੀਜ਼ਨਿੰਗ / ਖੇਤਰ ਦੀ ਮੁਹਾਰਤ

ਕੀ ਇਹ ਕੰਮ ਸਹੀ ਵਿਗਿਆਨਕ ਰੀਜ਼ਨਿੰਗ ਅਤੇ ਜੀਵਨ ਵਿਗਿਆਨ ਡੋਮੇਨ ਹੁਨਰਾਂ ਦੀ ਜਾਂਚ ਅਤੇ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ?

ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਹਿਮਤ
86.4%
ਕੁੱਲ ਮਿਲਾ ਕੇ ਸਹਿਮਤ
98.1%

ਵਿਗਿਆਨਕ ਅਧਾਰ

ਕੀ ਇਹ ਕੰਮ ਵਿਗਿਆਨਕ ਤੌਰ 'ਤੇ ਆਧਾਰਿਤ, ਜਵਾਬ ਦੇਣ ਯੋਗ ਅਤੇ ਢੁਕਵੇਂ ਸਬੂਤਾਂ, ਡਾਟਾ, ਆਰਟੀਫੈਕਟਾਂ ਜਾਂ ਮਾਹਰਾਂ ਦੀ ਸਹਿਮਤੀ 'ਤੇ ਟਿਕਿਆ ਹੋਇਆ ਹੈ?

ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਹਿਮਤ
77.1%
ਕੁੱਲ ਮਿਲਾ ਕੇ ਸਹਿਮਤ
96.5%

ਕੁੱਲ ਉਪਯੋਗਤਾ

ਕੁੱਲ ਮਿਲਾ ਕੇ, ਕੀ ਇਹ ਜੀਵਨ ਵਿਗਿਆਨ ਮੁਲਾਂਕਣ ਲਈ ਮਜ਼ਬੂਤ ਕੰਮ ਹੈ?

ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਹਿਮਤ
79.1%
ਕੁੱਲ ਮਿਲਾ ਕੇ ਸਹਿਮਤ
96.6%

ਸਮੀਖਿਅਕਾਂ ਦੀਆਂ ਟਿੱਪਣੀਆਂ ਨੇ ਸੰਖਿਆਤਮਕ ਰੇਟਿੰਗਾਂ ਦੀ ਹੋਰ ਪੁਸ਼ਟੀ ਕੀਤੀ:

3 ਵਿੱਚੋਂ 1
ਕੁੱਲ ਮਿਲਾ ਕੇ ਇਹ ਇੱਕ ਮਜ਼ਬੂਤ ਕੰਮ ਹੈ ਕਿਉਂਕਿ ਇਸਦੀ ਇੱਕ ਸਹੀ ਮੁੱਖ ਵਿਆਖਿਆ ਹੈ, ਜਦੋਂ ਕਿ ਅਜੇ ਵੀ ਇਸ ਗੱਲ ਦੇ ਅਧਾਰ 'ਤੇ ਬਿਹਤਰ ਜਵਾਬਾਂ ਨੂੰ ਵੱਖ ਕਰਨ ਦੀ ਗੁੰਜਾਇਸ਼ ਬਚੀ ਹੋਈ ਹੈ ਕਿ ਉਹ ਅਨਿਸ਼ਚਿਤਤਾ ਨੂੰ ਕਿੰਨੀ ਸਾਵਧਾਨੀ ਨਾਲ ਸੀਮਤ ਕਰਦੇ ਹਨ।

ਨਤੀਜੇ

ਅਸੀਂ ਦੋ ਪੂਰਕ ਪੈਮਾਨਿਆਂ ਦੀ ਰਿਪੋਰਟ ਪੇਸ਼ ਕਰਦੇ ਹਾਂ। ਪਾਸ ਹੋਣ ਦੀ ਦਰ ਉਨ੍ਹਾਂ ਕਾਰਜਾਂ ਦੀ ਪ੍ਰਤੀਸ਼ਤਤਾ ਹੈ ਜਿਨ੍ਹਾਂ 'ਤੇ ਕੋਈ ਮਾਡਲ 70% ਦੀ ਕਾਰਜ-ਪੱਧਰੀ ਸਫਲਤਾ ਦੀ ਹੱਦ ਨੂੰ ਪੂਰਾ ਕਰਦਾ ਹੈ। ਸਕੋਰ ਔਸਤ ਰੂਬਰਿਕ ਅੰਕ ਹੈ, ਜੋ ਪੂਰਾ ਕਾਰਜ ਹੱਲ ਨਾ ਹੋਣ 'ਤੇ ਵੀ ਵੱਖ-ਵੱਖ ਮਾਪਦੰਡਾਂ ਲਈ ਅਧੂਰੇ ਨੰਬਰ ਦਿੰਦਾ ਹੈ। ਇਹ ਦੋਵੇਂ ਹੀ ਮਹੱਤਵਪੂਰਨ ਹਨ ਕਿਉਂਕਿ ਕਿਸੇ ਵਿਗਿਆਨਕ ਕਾਰਜ ਦਾ ਜਵਾਬ ਕਿਸੇ ਪੂਰੇ ਜਵਾਬ ਦੀ ਹਰ ਜ਼ਰੂਰਤ ਨੂੰ ਪੂਰਾ ਕੀਤੇ ਬਿਨਾਂ ਵੀ ਅੰਸ਼ਕ ਤੌਰ 'ਤੇ ਸਹੀ ਜਾਂ ਉਪਯੋਗੀ ਹੋ ਸਕਦਾ ਹੈ।

ਮਾਡਲ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਾਰਜ ਦੀ ਕਿਸਮ, ਕਾਰਜ-ਪ੍ਰਣਾਲੀ, ਅਤੇ ਜਵਾਬ ਦੇ ਫਾਰਮੈਟ ਦੇ ਹਿਸਾਬ ਨਾਲ ਕਾਫ਼ੀ ਵੱਖਰਾ ਹੁੰਦਾ ਹੈ।

ਜਿੱਥੇ AI ਪ੍ਰਣਾਲੀਆਂ ਸ਼ੁਰੂਆਤੀ ਮਜ਼ਬੂਤੀ ਦਿਖਾਉਂਦੀਆਂ ਹਨ

LifeSciBench ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਵਿਗਿਆਨਕ ਸੰਸ਼ਲੇਸ਼ਣ, ਸੰਚਾਰ, ਅਤੇ ਸੰਰਚਨਾਤਮਕ ਵਿਆਖਿਆ ਵਾਲੇ ਕਾਰਜਾਂ ਵਿੱਚ ਤੁਲਨਾਤਮਕ ਰੂਪ ਵਿੱਚ ਸਭ ਤੋਂ ਮਜ਼ਬੂਤ ਹਨ। ਹਾਲਾਂਕਿ, ਪੂਰਨ ਪਾਸ ਦਰਾਂ ਅਜੇ ਵੀ ਮਾਮੂਲੀ ਹਨ, ਇਸ ਲਈ ਇਹ ਬੈਂਚਮਾਰਕ ਖੇਤਰ ਸੰਤ੍ਰਿਪਤਾ ਦੇ ਪੱਧਰ ਤੋਂ ਬਹੁਤ ਦੂਰ ਹਨ, ਪਰ GPT‑Rosalind ਨੇ GPT‑5.5 ਦੇ ਮੁਕਾਬਲੇ ਸਾਰਥਕ ਪ੍ਰਗਤੀ ਦਿਖਾਈ ਹੈ, ਜਿਸ ਨੇ ਪਾਸ ਹੋਣ ਦੀ ਸਮੁੱਚੀ ਦਰ ਨੂੰ 25.7% ਤੋਂ ਵਧਾ ਕੇ 36.1% ਕਰ ਦਿੱਤਾ ਹੈ।

ਮਾਡਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਵਿੱਚ ਪ੍ਰਗਤੀ ਦੇ ਸਭ ਤੋਂ ਮਜ਼ਬੂਤ ਰੁਝਾਨ ਵਿਗਿਆਨਕ ਸੰਚਾਰ ਅਤੇ ਟ੍ਰਾਂਸਲੇਸ਼ਨ ਵਿੱਚ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ। ਉਦਾਹਰਨ ਲਈ, ਵਿਗਿਆਨਕ ਸੰਚਾਰ ਵਿੱਚ ਪਾਸ ਹੋਣ ਦੀ ਦਰ GPT‑5.5 ਲਈ 56.3% ਤੋਂ ਵਧ ਕੇ GPT‑Rosalind ਲਈ 71.1% ਹੋ ਜਾਂਦੀ ਹੈ; ਇਹ ਸ਼੍ਰੇਣੀ ਛੋਟੀ ਹੈ (n=9), ਇਸ ਲਈ ਇਸਦੀ ਵਿਆਖਿਆ ਸਾਵਧਾਨੀ ਨਾਲ ਕੀਤੀ ਜਾਣੀ ਚਾਹੀਦੀ ਹੈ, ਪਰ ਇਹ ਸੰਕੇਤ ਦਿੰਦੀ ਹੈ ਕਿ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਸਬੂਤਾਂ ਨੂੰ ਸੰਗਠਿਤ ਕਰਨ ਅਤੇ ਮਾਹਰਾਂ ਦੇ ਸਾਹਮਣੇ ਪੇਸ਼ ਕਰਨ ਯੋਗ ਭਰੋਸੇਯੋਗ ਸਪਸ਼ਟੀਕਰਨ ਤਿਆਰ ਕਰਨ ਦੀ ਆਪਣੀ ਸਮਰੱਥਾ ਵਿੱਚ ਤੇਜ਼ੀ ਨਾਲ ਸੁਧਾਰ ਕਰ ਰਹੇ ਹਨ। ਟ੍ਰਾਂਸਲੇਸ਼ਨ (ਦਵਾਈ ਦੇ ਵਿਕਾਸ ਦੀ "ਬੈਂਚ-ਟੂ-ਬੈੱਡਸਾਈਡ" ਪ੍ਰਕਿਰਿਆ) ਵੀ ਇਸੇ ਤਰ੍ਹਾਂ ਦਾ ਪੈਟਰਨ ਦਿਖਾਉਂਦੀ ਹੈ, ਜੋ ਕਿ GPT‑5.5 ਲਈ 36.8% ਤੋਂ ਵਧ ਕੇ GPT‑Rosalind ਲਈ 57.7% ਹੋ ਗਈ ਹੈ, ਜੋ ਇਹ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ ਮਾਡਲ ਕਲੀਨਿਕਲ-ਪੂਰਵ ਸਬੂਤਾਂ ਨੂੰ ਕਲੀਨਿਕਲ ਪ੍ਰਭਾਵਾਂ ਨਾਲ ਜੋੜਨ ਦੀ ਆਪਣੀ ਸਮਰੱਥਾ ਵਿੱਚ ਤੇਜ਼ੀ ਨਾਲ ਮਾਹਰ ਹੋ ਰਹੇ ਹਨ।

ਰੂਬਰਿਕ ਪੱਧਰ ਦੇ ਨਤੀਜੇ ਵੀ ਇਸੇ ਦਿਸ਼ਾ ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦੇ ਹਨ। ਮਾਹਰਾਂ ਲਈ ਉਪਯੋਗੀ ਜਾਂ ਅਮਲ ਵਿੱਚ ਲਿਆਉਣ ਯੋਗ ਨਤੀਜਿਆਂ ਦੀ ਮੰਗ ਕਰਨ ਵਾਲੇ ਕੰਮਾਂ 'ਤੇ GPT‑5.5 ਦੇ 29.1% ਦੇ ਮੁਕਾਬਲੇ GPT‑Rosalind ਨੇ 44.7% ਸਕੋਰ ਕਰਦਾ ਹੈ। ਅਨਿਸ਼ਚਿਤਤਾ ਅਤੇ ਚੇਤਾਵਨੀਆਂ ਨੂੰ ਸੰਭਾਲਣ ਦੀ ਲੋੜ ਵਾਲੇ ਕੰਮਾਂ 'ਤੇ ਇਹ GPT‑5.5 ਦੇ 29.3% ਦੇ ਮੁਕਾਬਲੇ 44.8% ਸਕੋਰ ਕਰਦਾ ਹੈ। ਇਹ ਪੈਟਰਨ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ ਕਿ AI ਮਾਡਲ ਉਦੋਂ ਸਭ ਤੋਂ ਵੱਧ ਉਪਯੋਗੀ ਹੁੰਦੇ ਹਨ ਜਦੋਂ ਕਾਰਜ ਦੀ ਸਪਸ਼ਟ ਸਬੂਤ-ਸੀਮਾ ਹੁੰਦੀ ਹੈ ਅਤੇ ਇਸ ਵਿੱਚ ਸੁਚੱਜੇ ਵਿਗਿਆਨਕ ਫੈਸਲੇ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

GPT‑Rosalind ਉਦਯੋਗ ਅਤੇ ਅਕਾਦਮਿਕ ਮਾਹਰਾਂ ਦੁਆਰਾ ਪਛਾਣੇ ਗਏ ਵਿਗਿਆਨਕ ਤੌਰ 'ਤੇ ਕੀਮਤੀ ਕੰਮਾਂ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਸਭ ਤੋਂ ਅੱਗੇ ਹੈ।

GPT‑Rosalind ਉਦਯੋਗ ਅਤੇ ਅਕਾਦਮਿਕ ਮਾਹਰਾਂ ਦੁਆਰਾ ਪਛਾਣੇ ਗਏ ਵਿਗਿਆਨਕ ਤੌਰ 'ਤੇ ਕੀਮਤੀ ਕਾਰਜਾਂ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਅਗਵਾਈ ਕਰਦਾ ਹੈ।

GPT‑Rosalind ਉਦਯੋਗ ਅਤੇ ਅਕਾਦਮਿਕ ਮਾਹਰਾਂ ਦੁਆਰਾ ਪਛਾਣੇ ਗਏ ਵਿਗਿਆਨਕ ਤੌਰ 'ਤੇ ਕੀਮਤੀ ਕਾਰਜਾਂ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਅਗਵਾਈ ਕਰਦਾ ਹੈ।

ਜਿੱਥੇ AI ਸਿਸਟਮ ਅਜੇ ਵੀ ਪਿੱਛੇ ਰਹਿ ਜਾਂਦੇ ਹਨ

ਆਰਟੀਫੈਕਟ-ਭਾਰੀ, ਡਿਜ਼ਾਈਨ-ਭਾਰੀ, ਅਤੇ ਸੰਚਾਲਨ ਸਬੰਧੀ ਸੀਮਾਵਾਂ ਵਾਲੇ ਵਿਗਿਆਨਕ ਕੰਮਾਂ 'ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਅਜੇ ਵੀ ਕਾਫ਼ੀ ਕਮਜ਼ੋਰ ਹੈ। ਖਾਸ ਤੌਰ 'ਤੇ, ਡਿਜ਼ਾਈਨ, ਓਪਟੀਮਾਈਜ਼ੇਸ਼ਨ ਅਤੇ ਭਵਿੱਖਬਾਣੀ ਸਭ ਤੋਂ ਮੁਸ਼ਕਲ ਕਾਰਜ-ਪ੍ਰਣਾਲੀਆਂ ਵਿੱਚੋਂ ਇੱਕ ਬਣੀ ਹੋਈ ਹੈ, ਜਿਸ ਵਿੱਚ GPT‑Rosalind ਦੀ ਪਾਸ ਦਰ ਸਿਰਫ਼ 30.7% ਹੈ; ਵਿਸ਼ਲੇਸ਼ਣ ਵੀ 30.3% ਦੀ ਦਰ ਨਾਲ ਬਰਾਬਰ ਦਾ ਮੁਸ਼ਕਲ ਹੈ।

ਆਰਟੀਫੈਕਟ ਦੀ ਵਰਤੋਂ ਇੱਕ ਬਹੁਤ ਹੀ ਸਪਸ਼ਟ ਕਮੀ ਹੈ। ਭਾਵੇਂ ਕਿ GPT‑Rosalind ਆਰਟੀਫੈਕਟ-ਭਾਰੀ ਸਥਿਤੀਆਂ ਵਿੱਚ GPT‑5.5 ਨਾਲੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਫਿਰ ਵੀ ਇਸਦੀ ਪਾਸ ਦਰ ਸਿਰਫ਼ ਟੈਕਸਟ-ਵਾਲੇ ਕੰਮਾਂ 'ਤੇ 45.1% ਤੋਂ ਡਿੱਗ ਕੇ ਆਰਟੀਫੈਕਟ ਜਾਂ URL ਵਾਲੇ ਕੰਮਾਂ 'ਤੇ 28.1% ਰਹਿ ਜਾਂਦੀ ਹੈ। GPT‑5.5 ਵੀ ਇਹੀ ਪੈਟਰਨ ਦਿਖਾਉਂਦਾ ਹੈ, ਜਿਸ ਦੀ ਦਰ 29.9% ਤੋਂ ਡਿੱਗ ਕੇ 21.9% ਹੋ ਜਾਂਦੀ ਹੈ। ਇੱਕ ਵਧੇਰੇ ਵਿਸਤ੍ਰਿਤ ਵਿਸ਼ਲੇਸ਼ਣ ਇਹ ਪੁਸ਼ਟੀ ਕਰਦਾ ਹੈ ਕਿ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਗੁੰਝਲਦਾਰ ਚਿੱਤਰਾਂ ਜਾਂ ਵੱਡੀਆਂ ਸੀਕਵੈਂਸ ਫਾਈਲਾਂ ਵਿੱਚੋਂ ਜਾਣਕਾਰੀ ਕੱਢਣ ਅਤੇ ਉਸ ਜਾਣਕਾਰੀ ਨੂੰ ਅੰਤਿਮ ਉੱਤਰ ਵਿੱਚ ਜੋੜਨ ਵਿੱਚ ਕਾਫ਼ੀ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ।

ਜਦੋਂ ਕੰਮਾਂ ਲਈ ਸਰੋਤ-ਆਧਾਰਿਤ ਰੀਜ਼ਨਿੰਗ ਜਾਂ ਆਰਟੀਫੈਕਟਾਂ ਨਾਲ ਕੰਮ ਕਰਨਾ ਲਾਜ਼ਮੀ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਪਾਸ ਦਰਾਂ ਘਟ ਜਾਂਦੀਆਂ ਹਨ

ਜਵਾਬ ਦਾ ਫਾਰਮੈਟ ਵੀ ਕਾਫ਼ੀ ਮਾਇਨੇ ਰੱਖਦਾ ਹੈ। ਅਜਿਹੇ ਕਾਰਜ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਬਿਲਕੁਲ ਸਹੀ ਸੀਕਵੈਂਸ, ਸੰਰਚਨਾ, ਜਾਂ ਕੰਸਟ੍ਰਕਟ-ਪੱਧਰ ਦੇ ਨਤੀਜਿਆਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਉਨ੍ਹਾਂ ਵਿੱਚ ਪਾਸ ਹੋਣ ਦੀ ਦਰ ਕਾਫੀ ਘੱਟ ਦਿਖਾਈ ਦਿੰਦੀ ਹੈ: GPT‑Rosalind ਸੰਖਿਆਤਮਕ ਕੰਮਾਂ 'ਤੇ ਸਿਰਫ਼ 14.8% ਅਤੇ ਸੀਕਵੈਂਸ ਜਾਂ ਸੰਰਚਨਾ ਵਾਲੇ ਨਤੀਜਿਆਂ 'ਤੇ ਸਿਰਫ਼ 24.0% ਤੱਕ ਹੀ ਪਹੁੰਚਦਾ ਹੈ। ਕੰਸਟ੍ਰਕਟ-ਜਨਰੇਸ਼ਨ ਦੇ ਕੰਮ ਵੀ ਕਾਫ਼ੀ ਕਮਜ਼ੋਰ ਹਨ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ GPT‑Rosalind 27.3% 'ਤੇ ਹੈ ਅਤੇ ਇਹ GPT‑5.5 ਦੇ ਮੁਕਾਬਲੇ ਬਹੁਤ ਘੱਟ ਸੁਧਾਰ ਦਿਖਾਉਂਦਾ ਹੈ। ਇਸ ਕਮੀ ਦਾ ਕੁਝ ਹਿੱਸਾ ਸਟੀਕ-ਉੱਤਰ ਵਾਲੇ ਕੰਮਾਂ ਲਈ ਬਣਾਈ ਗਈ ਸਖ਼ਤ ਮੁਲਾਂਕਣ ਪ੍ਰਣਾਲੀ ਨੂੰ ਵੀ ਦਰਸਾ ਸਕਦਾ ਹੈ, ਜਿੱਥੇ ਗਣਨਾ ਜਾਂ ਫਾਰਮੈਟਿੰਗ ਵਿੱਚ ਛੋਟਾ ਜਿਹਾ ਫਰਕ ਵੀ ਜਵਾਬ ਨੂੰ ਪਾਸ ਹੋਣ ਦੀ ਹੱਦ ਤੋਂ ਹੇਠਾਂ ਲਿਆ ਸਕਦਾ ਹੈ। ਫਿਰ ਵੀ, ਇਹ ਅਸਫਲਤਾਵਾਂ ਵਿਗਿਆਨਕ ਤੌਰ 'ਤੇ ਕਾਫੀ ਮਹੱਤਵਪੂਰਨ ਹਨ ਕਿਉਂਕਿ ਜੀਵ ਵਿਗਿਆਨ ਦੀਆਂ ਕਈ ਕਾਰਜ-ਪ੍ਰਣਾਲੀਆਂ ਲਈ ਅਜਿਹੇ ਨਤੀਜਿਆਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਜੋ ਸਿੱਧੇ ਤੌਰ 'ਤੇ ਵਰਤੇ ਜਾਣ ਜਿੰਨੇ ਬਿਲਕੁਲ ਸਹੀ ਹੋਣ, ਜਿਵੇਂ ਕਿ CRISPR/HDR ਡੋਨਰ ਡਿਜ਼ਾਈਨ ਜਾਂ siRNA ਡਿਜ਼ਾਈਨ ਵਿੱਚ।

ਮਾਡਲ ਅਕਸਰ ਕਾਰਜ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਹੱਲ ਕੀਤੇ ਬਿਨਾਂ ਵੀ ਉਸ ਦੇ ਕੁਝ ਹਿੱਸੇ ਨੂੰ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਪੂਰਾ ਕਰ ਲੈਂਦੇ ਹਨ। ਲਗਭਗ 14% ਕਾਰਜਾਂ ਵਿੱਚ, ਮਾਡਲਾਂ ਨੇ ਸਟੀਕ-ਪਾਸ ਹੋਣ ਦੀ ਹੱਦ ਨੂੰ ਪਾਰ ਨਾ ਕਰਨ ਦੇ ਬਾਵਜੂਦ ਵੀ ਰੂਬਰਿਕ ਵਿੱਚ ਚੰਗੇ ਕ੍ਰੈਡਿਟ ਹਾਸਲ ਕੀਤੇ। GPT‑Rosalind ਲਈ, 109 ਕਾਰਜ ਅਜਿਹੇ ਸਨ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਪਾਸ ਹੋਣ ਦੀ ਦਰ 20% ਤੋਂ ਘੱਟ ਸੀ, ਪਰ ਫਿਰ ਵੀ ਉਨ੍ਹਾਂ ਨੇ ਰੂਬਰਿਕ ਵਿੱਚ ਘੱਟੋ-ਘੱਟ 50% ਅੰਕ ਪ੍ਰਾਪਤ ਕੀਤੇ। ਅਸਲ ਅਭਿਆਸ ਵਿੱਚ, ਇਸਦਾ ਮਤਲਬ ਇਹ ਹੈ ਕਿ ਮਾਡਲ ਸ਼ਾਇਦ ਸਬੰਧਤ ਸਬੂਤਾਂ ਦੀ ਪਛਾਣ ਕਰ ਲੈਂਦੇ ਹਨ ਜਾਂ ਸੰਭਾਵਿਤ ਅਧੂਰਾ ਜਵਾਬ ਤਿਆਰ ਕਰ ਦਿੰਦੇ ਹਨ, ਪਰ ਫਿਰ ਵੀ ਅਸਫਲ ਹੋ ਜਾਂਦੇ ਹਨ ਕਿਉਂਕਿ ਉਹ ਕਿਸੇ ਮੁੱਖ ਪਾਬੰਦੀ ਨੂੰ ਖੁੰਝਾ ਦਿੰਦੇ ਹਨ, ਗਲਤ ਸਬੂਤਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ, ਅਧੂਰੀ ਗਣਨਾ ਕਰਦੇ ਹਨ, ਜਾਂ ਆਪਣੇ ਤਰਕ ਨੂੰ ਵਿਗਿਆਨਕ ਤੌਰ 'ਤੇ ਉਪਯੋਗੀ ਅੰਤਿਮ ਫੈਸਲੇ ਨਾਲ ਜੋੜਨ ਵਿੱਚ ਅਸਮਰੱਥ ਰਹਿੰਦੇ ਹਨ।

ਸੀਮਾਵਾਂ ਅਤੇ ਅਗਲਾ ਕਦਮ

LifeSciBench ਇਹ ਮਾਪਣ ਵੱਲ ਇੱਕ ਕਦਮ ਹੈ ਕਿ ਜੀਵ ਵਿਗਿਆਨ ਖੋਜ ਲਈ AI ਪ੍ਰਣਾਲੀਆਂ ਕਿੰਨੀਆਂ ਉਪਯੋਗੀ ਹੋ ਸਕਦੀਆਂ ਹਨ, ਪਰ ਇਹ ਅਸਲ ਖੋਜ ਵਾਤਾਵਰਣ ਵਿੱਚ ਮਾਡਲਾਂ ਦਾ ਅਧਿਐਨ ਕਰਨ ਦਾ ਬਦਲ ਨਹੀਂ ਹੈ। ਇਹ ਬੈਂਚਮਾਰਕ ਉਨ੍ਹਾਂ ਸੁਤੰਤਰ ਕਾਰਜਾਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦਾ ਹੈ ਜੋ ਉਦਯੋਗ ਵਿੱਚ ਵਾਰ-ਵਾਰ ਹੋਣ ਵਾਲੀਆਂ ਕਾਰਜ-ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ, ਜਦੋਂ ਕਿ ਇਹ ਕਈ ਵਿਗਿਆਨਕ ਮਾਹਰਤਾਵਾਂ ਅਤੇ ਕਾਰਜਾਂ ਦੀਆਂ ਕਿਸਮਾਂ ਨੂੰ ਆਪਣੇ ਮੌਜੂਦਾ ਦਾਇਰੇ ਤੋਂ ਬਾਹਰ ਛੱਡ ਦਿੰਦਾ ਹੈ। ਅਸਲ ਖੋਜ ਇੱਕ ਨਿਰੰਤਰ ਪ੍ਰਕਿਰਿਆ ਹੈ: ਵਿਗਿਆਨੀ ਨਵੇਂ ਸਬੂਤ ਇਕੱਠੇ ਕਰਦੇ ਹਨ, ਆਪਣੀਆਂ ਪਰਿਕਲਪਨਾਵਾਂ ਵਿੱਚ ਸੋਧ ਕਰਦੇ ਹਨ, ਅੱਗੇ ਦੇ ਪ੍ਰਯੋਗਾਂ ਨੂੰ ਡਿਜ਼ਾਈਨ ਕਰਦੇ ਹਨ, ਅਤੇ ਨਤੀਜੇ ਸਾਹਮਣੇ ਆਉਣ 'ਤੇ ਆਪਣੀਆਂ ਯੋਜਨਾਵਾਂ ਨੂੰ ਉਸੇ ਅਨੁਸਾਰ ਢਾਲਦੇ ਹਨ।

ਇਸ ਲਈ, LifeSciBench 'ਤੇ ਮਜ਼ਬੂਤ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਅਸਲ ਕਾਰਜ-ਪੱਧਰ ਦੀ ਸਮਰੱਥਾ ਦੇ ਸਬੂਤ ਵਜੋਂ ਦੇਖਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ, ਨਾ ਕਿ ਖੋਜ ਦੇ ਅੰਤਿਮ ਪ੍ਰਭਾਵ ਦੇ ਸਿੱਧੇ ਮਾਪ ਵਜੋਂ। ਇਹ ਬੈਂਚਮਾਰਕ ਉਦਯੋਗਿਕ ਕਾਰਜ-ਪ੍ਰਣਾਲੀਆਂ 'ਤੇ ਅਧਾਰਤ ਜ਼ਰੂਰ ਹੈ, ਪਰ ਇਹ ਅਸਲ ਖੋਜ ਪ੍ਰੋਗਰਾਮਾਂ ਦੀ ਪੂਰੀ ਵਿਭਿੰਨਤਾ ਜਾਂ ਗਤੀਸ਼ੀਲਤਾ ਨੂੰ ਆਪਣੇ ਅੰਦਰ ਨਹੀਂ ਸਮੇਟਦਾ, ਜਿੱਥੇ ਪ੍ਰਗਤੀ ਉਨ੍ਹਾਂ ਕਾਰਕਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ ਜੋ ਸਮੇਂ ਦੇ ਨਾਲ ਹੌਲੀ-ਹੌਲੀ ਸਾਹਮਣੇ ਆਉਂਦੇ ਹਨ।

ਅਗਲਾ ਕਦਮ ਬੈਂਚਮਾਰਕ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਅਸਲ ਖੋਜ ਕਾਰਜ-ਪ੍ਰਣਾਲੀਆਂ ਵਿੱਚ ਤਾਇਨਾਤੀ ਸਬੰਧੀ ਅਧਿਐਨਾਂ ਨਾਲ ਜੋੜਨਾ ਹੈ। ਹਾਲਾਂਕਿ, LifeSciBench ਨੂੰ ਅਭਿਆਸ ਕਰ ਰਹੇ ਵਿਗਿਆਨੀਆਂ ਦੇ ਸਹਿਯੋਗ ਨਾਲ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸੀ, ਪਰ ਇਹ ਮਾਪਣ ਲਈ ਕਿ ਕੀ AI ਪ੍ਰਣਾਲੀਆਂ ਖੋਜ ਦੀ ਗਤੀ ਨੂੰ ਤੇਜ਼ ਕਰਦੀਆਂ ਹਨ ਜਾਂ R&D ਦੇ ਨਤੀਜਿਆਂ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦੀਆਂ ਹਨ, ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਅਤੇ ਇਸ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਅਧਿਐਨ ਅਸਲ ਖੋਜ ਵਾਤਾਵਰਣ ਵਿੱਚ, ਲੰਬੇ ਸਮੇਂ ਦੌਰਾਨ, ਅਤੇ ਰੀਜ਼ਨਿੰਗ, ਫੀਡਬੈਕ ਅਤੇ ਪ੍ਰਯੋਗਾਤਮਕ ਫਾਲੋ-ਅਪ ਦੇ ਕਈ ਗੇੜਾਂ ਦੌਰਾਨ ਕਰਨਾ ਪਵੇਗਾ।

ਸ਼ਾਮਲ ਹੋਵੋ

ਜੀਵਨ ਵਿਗਿਆਨ AI ਬੈਂਚਮਾਰਕਾਂ ਦੀ ਅਗਲੀ ਪੀੜ੍ਹੀ ਨੂੰ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰੋ ਜਾਂ GPT-Rosalind ਤੱਕ ਪਹੁੰਚ ਲਈ ਬੇਨਤੀ ਕਰੋ।

ਲੇਖਕ

OpenAI