ಜೂನ್ 17, 2026

LifeSciBench ಪರಿಚಯ

ನೈಜ ಜೀವ ವಿಜ್ಞಾನ ಸಂಶೋಧನೆಯಲ್ಲಿ ನೆಲೆಯೂರಿದ, ತಜ್ಞರು ಬರೆದ ಮತ್ತು ತಜ್ಞರು ವಿಮರ್ಶಿಸಿದ ಬೆಂಚ್‌ಮಾರ್ಕ್

ಲೋಡ್ ಆಗುತ್ತಿದೆ…

ಏಜೆಂಟಿಕ್ AI ವ್ಯವಸ್ಥೆಗಳು ವೈಜ್ಞಾನಿಕ ಕಾರ್ಯಗಳನ್ನು ಮಾಡುವಲ್ಲಿ ಹೆಚ್ಚಾಗಿ ಸಮರ್ಥವಾಗುತ್ತಿವೆ. ಆದರೆ ಜೀವ ವಿಜ್ಞಾನ ಸಂಶೋಧಕರಿಗೆ ಅವು ಎಷ್ಟು ಉಪಯುಕ್ತವೆಂಬುದು, ನೈಜ ಸಂಶೋಧನೆಯ ಸಂಕೀರ್ಣತೆಯನ್ನು ಅವು ಎಷ್ಟು ಚೆನ್ನಾಗಿ ನಿಭಾಯಿಸುತ್ತವೆ ಎಂಬುದರ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿದೆ. ಆ ಕೆಲಸವು ವಿರಳವಾಗಿ ಒಂದೇ ವಾಸ್ತವ-ಸ್ಮರಣೆ ಪ್ರಶ್ನೆಯಂತೆ ಅಥವಾ ಸರಳ ಭವಿಷ್ಯವಾಣಿ ಸಮಸ್ಯೆಯಂತೆ ಕಾಣುತ್ತದೆ. ಸಂಶೋಧಕರು ಅಪೂರ್ಣ ಸಾಕ್ಷ್ಯವನ್ನು ಅರ್ಥೈಸುತ್ತಾರೆ, ವಿರುದ್ಧ ಫಲಿತಾಂಶಗಳನ್ನು ಹೊಂದಿಸುತ್ತಾರೆ, ಕಠಿಣ ಪ್ರಯೋಗಗಳನ್ನು ವಿನ್ಯಾಸಗೊಳಿಸುತ್ತಾರೆ, ಅಸ್ಸೇ ದೋಷಗಳನ್ನು ಸರಿಪಡಿಸುತ್ತಾರೆ, ಅನುವಾದಾತ್ಮಕ ಅಪಾಯ ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತಾರೆ ಮತ್ತು ಅನಿಶ್ಚಿತತೆಯಲ್ಲಿ ಮುಂದಿನ ಹೆಜ್ಜೆ ನಿರ್ಧರಿಸುತ್ತಾರೆ.

ಪ್ರಸ್ತುತ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಈ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಹಿಡಿಯುವುದಿಲ್ಲ. ಅನೇಕ ಜೀವ ವಿಜ್ಞಾನ ಮೌಲ್ಯಮಾಪನಗಳು ಕಿರಿದಾದ ಕ್ಷೇತ್ರಗಳು ಅಥವಾ ಬೇರ್ಪಟ್ಟ ಕೌಶಲ್ಯಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತವೆ; ಪರಿಣಾಮವಾಗಿ ರಚಿತ ಪ್ರಶ್ನಾ ರೂಪಗಳು ಮತ್ತು ಸ್ಪಷ್ಟ ಉಲ್ಲೇಖ ಉತ್ತರಗಳಿರುವ ಪ್ರಶ್ನೆಗಳು ಸೃಷ್ಟಿಯಾಗುತ್ತವೆ. ಅವು ಮೌಲ್ಯಯುತವಾದರೂ, ಸಂಶೋಧನಾ-ಮಟ್ಟದ ವಿಶಾಲ ಕೆಲಸದಲ್ಲಿ ಮಾಡೆಲ್ ನಿಜವಾಗಿ ಕೊಡುಗೆ ನೀಡಬಹುದೇ ಎಂಬುದನ್ನು ಅವು ಬಹುಪಾಲು ಅಳೆಯುವುದಿಲ್ಲ.

ಈ ಕೊರತೆಯನ್ನು ಕಡಿಮೆ ಮಾಡಲು ನಾವು LifeSciBench ಅನ್ನು ವಿನ್ಯಾಸಗೊಳಿಸಿದ್ದೇವೆ. ಪ್ರತಿ ಕಾರ್ಯವೂ Ph.D.-ಮಟ್ಟದ ತರಬೇತಿ ಹೊಂದಿದ ಮತ್ತು ಜೈವತಂತ್ರಜ್ಞಾನ ಹಾಗೂ ಔಷಧ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ಔಷಧ ಅನ್ವೇಷಣಾ ಕಾರ್ಯಕ್ರಮಗಳನ್ನು ಮುಂದೂಡಿದ ನೇರ ಅನುಭವವಿರುವ ಕಾರ್ಯನಿರತ ಜೀವ ವಿಜ್ಞಾನಿಗಳ ತೀರ್ಪಿನಲ್ಲಿ ನೆಲೆಯೂರಿದೆ.

LifeSciBench ಏಳು ಕಾರ್ಯಪ್ರವಾಹಗಳು ಮತ್ತು ಏಳು ಜೈವಿಕ ಕ್ಷೇತ್ರಗಳನ್ನು ಒಳಗೊಂಡ 750 ತಜ್ಞ-ರಚಿತ ಕಾರ್ಯಗಳನ್ನು ಹೊಂದಿದೆ.

1,062

ಕಾರ್ಯ ಆರ್ಟಿಫ್ಯಾಕ್ಟ್‌ಗಳು

173

ವಿಜ್ಞಾನಿ ಕೊಡುಗೆದಾರರು

19,020

ರೂಬ್ರಿಕ್ ಮಾನದಂಡಗಳು

453

ತಜ್ಞ ವಿಮರ್ಶಕರು

LifeSciBench ಏನು ಅಳೆಯುತ್ತದೆ

LifeSciBench, AI ವ್ಯವಸ್ಥೆಗಳು ಕೇವಲ ಜೀವಶಾಸ್ತ್ರ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರಿಸುವುದಲ್ಲ, ನೈಜ ಜೀವ ವಿಜ್ಞಾನ ಸಂಶೋಧನಾ ಕಾರ್ಯಗಳಿಗೆ ಬೆಂಬಲ ನೀಡಬಹುದೇ ಎಂಬುದನ್ನು ಅಳೆಯುತ್ತದೆ. ಬೆಂಚ್‌ಮಾರ್ಕ್ ವರ್ಗೀಕರಣವನ್ನು ನಿರ್ದಿಷ್ಟಗೊಳಿಸಲು, ಅನ್ವಯಿಕ ಸಂಶೋಧನಾ ಪರಿಸರಗಳಲ್ಲಿ ಅವರು ಹೆಚ್ಚು ಬಳಸುವ ಕಾರ್ಯಪ್ರವಾಹಗಳ ಬಗ್ಗೆ ಕಾರ್ಯನಿರತ ಜೀವ ವಿಜ್ಞಾನಿಗಳನ್ನು ನಾವು ಸಮೀಕ್ಷೆ ಮಾಡಿದೆವು. ನಂತರ ಅವರ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಏಳು ಮರುಕಳಿಸುವ ವರ್ಗಗಳಾಗಿ ಗುಂಪು ಮಾಡಿದೆವು: ಸಾಕ್ಷ್ಯ ನಿರ್ವಹಣೆ, ವಿಶ್ಲೇಷಣೆ, ವಿನ್ಯಾಸ ಮತ್ತು ಸುಧಾರಣೆ, ವೈಜ್ಞಾನಿಕ ರೀಜನಿಂಗ್, ಮಾನ್ಯೀಕರಣ ಮತ್ತು ಕಾರ್ಯಾಚರಣೆಗಳು, ಅನುವಾದ, ಮತ್ತು ವೈಜ್ಞಾನಿಕ ಸಂವಹನ.

ಪ್ರತಿ ಕಾರ್ಯವನ್ನು, ವಿಜ್ಞಾನಿ ಜ್ಞಾನಿಯ ಸಹೋದ್ಯೋಗಿಗೆ ನೀಡಬಹುದಾದ ವಿನಂತಿಯಂತೆ ರಚಿಸಲಾಗಿದೆ: ವೈಜ್ಞಾನಿಕ ಪ್ರಾಂಪ್ಟ್, ಸಂಬಂಧಿತ ಸಂದರ್ಭ ಅಥವಾ ಆರ್ಟಿಫ್ಯಾಕ್ಟ್‌ಗಳು, ಮತ್ತು ಮುಕ್ತ-ಉತ್ತರ ಪ್ರತಿಕ್ರಿಯೆ. ತಜ್ಞರು ಬರೆದ ರೂಬ್ರಿಕ್‌ಗಳು, ನಿರ್ದಿಷ್ಟ ಸಮಸ್ಯೆಗೆ ಮಾಡೆಲ್ ಸರಿಯಾದ ಉತ್ತರವನ್ನು, ವಿಜ್ಞಾನಿ ನಿರೀಕ್ಷಿಸುವ ಸರಿಯಾದ ವಿವರ, ಸಮರ್ಥನೆ, ಎಚ್ಚರಿಕೆಗಳು ಮತ್ತು ಸ್ವರೂಪದೊಂದಿಗೆ ನೀಡಬಹುದೇ ಎಂದು ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತವೆ.

ಡೇಟಾಸೆಟ್ ನಿರ್ಮಾಣ

ನೈಜ ಜಗತ್ತಿನ ವೈಜ್ಞಾನಿಕ ಬಳಕೆಗೆ ಬೇಕಾದ ಕಡಿಮೆ ಸ್ಪಷ್ಟವಾದ ಪ್ರಾಯೋಗಿಕ ಕೌಶಲ್ಯಗಳ ಜೊತೆಗೆ LifeSciBench ವೈಜ್ಞಾನಿಕ ರೀಜನಿಂಗ್ ಅನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತದೆ. ಇದರ ಕಾರ್ಯಗಳು ಮಾಡೆಲ್‌ಗಳಿಗೆ ನೈಜ ಸಂಶೋಧನಾ ಸಮಸ್ಯೆಗಳಲ್ಲಿ ಕೆಲಸ ಮಾಡಲು ಹೇಳುತ್ತವೆ: ಸಾಕ್ಷ್ಯವನ್ನು ಅರ್ಥೈಸುವುದು, ಕ್ಷೇತ್ರಾಧಾರಿತ ತೀರ್ಪು ಮಾಡುವುದು, ಮತ್ತು ತಜ್ಞ ವಿಮರ್ಶಕರಿಗೆ ಉಪಯುಕ್ತವಾಗುವ ತೀರ್ಮಾನಗಳನ್ನು ಸಂವಹನ ಮಾಡುವುದು. ಅನೇಕ ಕಾರ್ಯಗಳು ಪ್ರಾಂಪ್ಟ್ ಪಠ್ಯಕ್ಕಷ್ಟೇ ಅವಲಂಬಿಸದೆ, ಅನಿಶ್ಚಿತತೆಯನ್ನು ನಿಭಾಯಿಸುವುದನ್ನೂ ಬೆಂಬಲ ಡೇಟಾ ಫೈಲ್‌ಗಳ ಮೇಲೆ ರೀಜನಿಂಗ್ ಮಾಡುವುದನ್ನೂ ಮಾಡೆಲ್‌ಗಳಿಂದ ಬೇಡುತ್ತವೆ.

ಈ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಅನ್ನು ಜೀವ ವಿಜ್ಞಾನ ಕೆಲಸದ ಸಂಕೀರ್ಣತೆಯನ್ನು ಪ್ರತಿಬಿಂಬಿಸಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ. ಒಟ್ಟಿನಲ್ಲಿ, 79% ಕಾರ್ಯಗಳಿಗೆ ಹಲವು ರೀಜನಿಂಗ್ ಅಥವಾ ನಿರ್ಧಾರ ಹಂತಗಳು ಬೇಕಾಗುತ್ತವೆ; ಪ್ರತಿ ಕಾರ್ಯಕ್ಕೆ ಸರಾಸರಿ ನಾಲ್ಕು ಹಂತಗಳು. LifeSciBench ಚಿತ್ರಗಳು, PDFಗಳು, ಕೋಷ್ಟಕಗಳು, ಅನುಕ್ರಮ ಫೈಲ್‌ಗಳು, ರಚನೆ ಅಥವಾ ರಾಸಾಯನಿಕ ಫೈಲ್‌ಗಳು, ಮತ್ತು ವೆಬ್ ಉಲ್ಲೇಖಗಳನ್ನು ಒಳಗೊಂಡ 1,062 ಸಂಲಗ್ನ ಆರ್ಟಿಫ್ಯಾಕ್ಟ್‌ಗಳನ್ನು ಹೊಂದಿದೆ. ಕಾರ್ಯಗಳ ಅರ್ಧಕ್ಕಿಂತ ಹೆಚ್ಚು (53%) ಕನಿಷ್ಠ ಒಂದು ಆರ್ಟಿಫ್ಯಾಕ್ಟ್‌ನಿಂದ ಮಾಹಿತಿಯನ್ನು ಅರ್ಥೈಸಲು ಅಥವಾ ಸಂಶ್ಲೇಷಿಸಲು ಮಾಡೆಲ್‌ಗಳನ್ನು ಬೇಡುತ್ತವೆ.

ವಿವಿಧ ಜೀವ ವಿಜ್ಞಾನ ಶಾಖೆಗಳ 173 ತಜ್ಞ ವಿಜ್ಞಾನಿಗಳು ಈ ಕಾರ್ಯಗಳನ್ನು ರಚಿಸಿದರು. ಪ್ರತಿ ವಿಜ್ಞಾನಿಗೂ Ph.D.-ಮಟ್ಟದ ತರಬೇತಿ ಮತ್ತು ಜೈವತಂತ್ರಜ್ಞಾನ ಅಥವಾ ಔಷಧ ಉದ್ಯಮದ ಅನುಭವವಿತ್ತು. ಸ್ವೀಕೃತಿಗೆ ಮುನ್ನ ಕಾರ್ಯಗಳು ಅಗತ್ಯವಿರುವಷ್ಟು ಪರಿಷ್ಕರಣಾ ಚಕ್ರಗಳನ್ನು ಕಾಣಬಹುದಾಗಿತ್ತು, ಸುತ್ತುಗಳ ಸಂಖ್ಯೆಗೆ ನಿಗದಿತ ಮಿತಿ ಇರಲಿಲ್ಲ; ಸ್ವೀಕೃತ ಕಾರ್ಯಗಳು ಸರಾಸರಿ ಆರು ಸ್ವಯಂನಿರ್ದೇಶಿತ ಸ್ವಯಂಚಾಲಿತ ವಿಮರ್ಶಾ ಚಕ್ರಗಳನ್ನು ಮತ್ತು ಕನಿಷ್ಠ ಎರಡು ತಜ್ಞ ವಿಮರ್ಶಾ ಸುತ್ತುಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸಿದವು. ವಿಮರ್ಶೆಗಳು ಪರಿಶೀಲಿಸಬಹುದಾದ ಸರಿಯಾದ ಉತ್ತರ ಅಥವಾ ಬಲವಾದ ತಜ್ಞ ಒಮ್ಮತದಲ್ಲಿ ನೆಲೆಯೂರಿದ್ದವು; ಸಂಬಂಧಿತ ಕ್ಷೇತ್ರದ ವಿಮರ್ಶಕರಲ್ಲಿ ಕನಿಷ್ಠ 90% ಒಪ್ಪಿಗೆ ಇತ್ತು. ಈ ಪ್ರಕ್ರಿಯೆ ಸ್ವೀಕೃತ ಕಾರ್ಯಗಳು ವೈಜ್ಞಾನಿಕವಾಗಿ ಆಧಾರಿತವಾಗಿವೆ, ಮೌಲ್ಯಮಾಪನಕ್ಕೆ ಸಾಕಷ್ಟು ಸ್ಪಷ್ಟವಾಗಿವೆ, ಮತ್ತು ಅನ್ವಯಿಕ ಸಂಶೋಧನೆಯನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತವೆ ಎಂಬುದನ್ನು ಖಚಿತಪಡಿಸಿತು.

ಜೀನೋಮಿಕ್ ಅನುಕ್ರಮಗಳು, ಅಣು ರಚನೆಗಳು, ಚಿತ್ರಗಳು, ದಾಖಲೆಗಳು, ಸ್ಪ್ರೆಡ್‌ಶೀಟ್‌ಗಳು ಮತ್ತು ವೆಬ್ ಲಿಂಕ್‌ಗಳಂತಹ ಜೀವ ವಿಜ್ಞಾನ ಡೇಟಾ ಮೂಲಗಳನ್ನು ಬಹು-ಹಂತದ ರೀಜನಿಂಗ್ ಮತ್ತು ತಜ್ಞ ವಿಮರ್ಶೆಯೊಂದಿಗೆ ಸಂಯೋಜಿಸುವ LifeSciBench ಕಾರ್ಯಗಳನ್ನು ತೋರಿಸುವ ಚಿತ್ರಣ.

ಮೌಲ್ಯಮಾಪನ ಮತ್ತು ರೂಬ್ರಿಕ್ ವಿಭಜನೆ

LifeSciBench ಕಾರ್ಯಗಳನ್ನು ವಿವರವಾದ, ಕಾರ್ಯ-ನಿರ್ದಿಷ್ಟ ರೂಬ್ರಿಕ್‌ನಿಂದ ಮೌಲ್ಯಮಾಪನ ಮಾಡಲಾಗುತ್ತದೆ; ಅದು ನಿರೀಕ್ಷಿತ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ನಿರ್ದಿಷ್ಟ ವೈಜ್ಞಾನಿಕ ಹೇಳಿಕೆಗಳು, ಲೆಕ್ಕಾಚಾರಗಳು, ನಿರ್ಧಾರಗಳು, ಸಮರ್ಥನೆಗಳು ಮುಂತಾದವುಗಳಾಗಿ ವಿಭಜಿಸುತ್ತದೆ. ಪೂರ್ಣ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ನಲ್ಲಿ, ತಜ್ಞರು ರೂಪಿಸಿದ ರೂಬ್ರಿಕ್‌ಗಳು 19,020 ಮಾನದಂಡಗಳನ್ನು ಹೊಂದಿವೆ—ಪ್ರತಿ ಕಾರ್ಯಕ್ಕೆ ಸರಾಸರಿ 25—ವೈಜ್ಞಾನಿಕ ಸರಿತನ ಮತ್ತು ಸಂಶೋಧನಾ ನಿರ್ಧಾರಗಳಿಗೆ ಉಪಯುಕ್ತತೆಯನ್ನು ಅಳೆಯಲು.

ಈ ವಿನ್ಯಾಸವು ವೈಜ್ಞಾನಿಕ ಕೆಲಸವನ್ನು ಪ್ರಾಯೋಗಿಕವಾಗಿ ಹೇಗೆ ಮೌಲ್ಯಮಾಪನ ಮಾಡಲಾಗುತ್ತದೆ ಎಂಬುದನ್ನು ಪ್ರತಿಬಿಂಬಿಸುತ್ತದೆ: ಅನೇಕ ಜೀವ ವಿಜ್ಞಾನ ಕಾರ್ಯಗಳನ್ನು ಅಂತಿಮ ಉತ್ತರ ಮಾತ್ರ ಪರಿಶೀಲಿಸಿ ಅಂಕ ನೀಡಲಾಗುವುದಿಲ್ಲ. ಉತ್ತರವು ಸರಿಯಾದ ಉನ್ನತ-ಮಟ್ಟದ ತೀರ್ಮಾನಕ್ಕೆ ಬಂದರೂ, ಉದಾಹರಣೆಗೆ ಪ್ರಮುಖ ಅಸ್ಸೇ ಮಿತಿಯನ್ನು ಗಮನಿಸದಿದ್ದರೆ ಅಥವಾ ಪರಿಣಾಮಕಾರಿ ಜೈವಿಕ ಸೂಕ್ಷ್ಮಾಂಶವನ್ನು ಸ್ವಯಂ ಮುಂದಿಡದಿದ್ದರೆ, ಅದು ಅಪೂರ್ಣವೆಂದು ತೀರ್ಪಾಗಬಹುದು. ವಿರುದ್ಧವಾಗಿ, ಭಾಗಶಃ ಉತ್ತರವು ಕಾರ್ಯವನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಪರಿಹರಿಸದಿದ್ದರೂ ಉನ್ನತ-ಗುಣಮಟ್ಟದ ರೀಜನಿಂಗ್ ಹೊಂದಿರಬಹುದು.

ಸೂಕ್ಷ್ಮ ರೂಬ್ರಿಕ್‌ಗಳು ಈ ವ್ಯತ್ಯಾಸವನ್ನು ಹಿಡಿಯುತ್ತವೆ. LifeSciBench ಅಂತಿಮ ಉತ್ತರದ ನಿಖರತೆಯಷ್ಟೇ ಅಲ್ಲ, ಮಾಡೆಲ್ ವೈಜ್ಞಾನಿಕವಾಗಿ ಮಾನ್ಯ ಮತ್ತು ಕಾರ್ಯಪ್ರಯೋಜನಕಾರಿ ರೀತಿಯಲ್ಲಿ ಉತ್ತರ ತಲುಪುತ್ತದೆಯೇ ಎಂಬುದನ್ನೂ ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತದೆ.

ಪೇಪರ್‌ಗಳು, ಚಿತ್ರಗಳು, ಕೋಷ್ಟಕಗಳು ಮತ್ತು ಪ್ರಾಯೋಗಿಕ ದಾಖಲೆಗಳಿಂದ ವೈಜ್ಞಾನಿಕ ಸಾಕ್ಷ್ಯವನ್ನು ಹೊರತೆಗೆದು, ಹೊಂದಿಸಿ ಮತ್ತು ಆಡಿಟ್ ಮಾಡುವುದು.

ಮೌಲ್ಯಮಾಪನ ಉದಾಹರಣೆ

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

ಅಭ್ಯರ್ಥಿಯ ಪ್ರತಿಕ್ರಿಯೆ

ಸಾರಾಂಶ: ಪ್ರಸ್ತುತ ರೂಪದಲ್ಲಿ, ಈ ಪ್ಯಾಕೇಜ್ clinical benefit ಅನ್ನು ಊಹಿಸುವ ಸಾಧ್ಯತೆ ಸಮಂಜಸವಾಗಿರುವ surrogate endpoint ಆಗಿ micro-dystrophin expression ಆಧರಿಸಿ accelerated approval ಬೆಂಬಲಿಸಲು ಸಾಕಷ್ಟು ಬಲವಾಗಿಲ್ಲ. ಸಂಶಯಾತ್ಮಕ FDA reviewer biomarker, functional, durability, safety ಮತ್ತು generalizability ಸಾಕ್ಷ್ಯಗಳನ್ನು ಮಹತ್ತರವಾಗಿ ಅಪರ್ಯಾಪ್ತವಾಗಿ ಬೆಂಬಲಿತವೆಂದು ಕಾಣುವ ಸಾಧ್ಯತೆ ಇದೆ.

ಪ್ಯಾಕೇಜ್ ಐಟಂ	ಪ್ರಮುಖ ವೈಫಲ್ಯ ಮಾದರಿ	ಏನು ಅಗತ್ಯವಾಗುತ್ತದೆ
Western blot ಪ್ರಮಾಣೀಕರಣ	MANEX1A ಎಂಡೋಜೆನಸ್ ಪೂರ್ಣ-ಪ್ರಮಾಣದ (full-length) ಡಿಸ್ಟ್ರೋಫಿನ್ ಮತ್ತು ಮೈಕ್ರೋ-ಡಿಸ್ಟ್ರೋಫಿನ್ ಟ್ರಾನ್ಸ್‌ಜೀನ್‌ಗಳೆರಡರಲ್ಲೂ ಸಾಮಾನ್ಯವಾಗಿ ಕಂಡುಬರುವ ಎನ್-ಟರ್ಮಿನಲ್ ಎಪಿಟೋಪ್ (N-terminal epitope) ಗೆ ಬದ್ಧವಾಗುತ್ತದೆ; ಆದ್ದರಿಂದ, ಈ ಅಸ್ಸೇ (assay) ವಿಧಾನವು ಟ್ರಾನ್ಸ್‌ಜೀನ್ ಅನ್ನು ಉಳಿದಿರುವ/ರಿವರ್ಟೆಂಟ್ (residual/revertant) ಡಿಸ್ಟ್ರೋಫಿನ್‌ನಿಂದ ಸ್ಪಷ್ಟವಾಗಿ ಪ್ರತ್ಯೇಕಿಸುವುದಿಲ್ಲ. ಆರೋಗ್ಯಕರ ಪೂರ್ಣ-ಪ್ರಮಾಣದ ಡಿಸ್ಟ್ರೋಫಿನ್ ಸ್ಟ್ಯಾಂಡರ್ಡ್‌ಗೆ ಪ್ರತಿಯಾಗಿ 138 kDa ಮೈಕ್ರೋ-ಡಿಸ್ಟ್ರೋಫಿನ್ ಅನ್ನು ಪ್ರಮಾಣೀಕರಿಸುವುದು (Quantifying) ಸಹ ಅಮಾನ್ಯವಾಗಿದೆ (invalid).	ಬದಲಿಯಾಗಿ ಮರುಸಂಯೋಜಕ ಮೈಕ್ರೋ-ಡಿಸ್ಟ್ರೋಫಿನ್ ಸ್ಟ್ಯಾಂಡರ್ಡ್ (recombinant micro-dystrophin standard) ಅನ್ನು ಬಳಸಿ, ಮತ್ತು ಟಾರ್ಗೆಟTargeted ಮಾಸ್ ಸ್ಪೆಕ್ಟ್ರೋಮೆಟ್ರಿ (mass spectrometry) ಅಥವಾ ಟ್ರಾನ್ಸ್‌ಜೀನ್-ನಿರ್ದಿಷ್ಟ/ಎಪಿಟೋಪ್-ನಿರ್ದಿಷ್ಟ ಅಸ್ಸೇ (transgene-specific/epitope-specific assay) ಯಂತಹ ಟ್ರಾನ್ಸ್‌ಜೀನ್ ಅನ್ನು ಸ್ಥಳೀಯ (endogenous) ಡಿಸ್ಟ್ರೋಫಿನ್‌ನಿಂದ ಪ್ರತ್ಯೇಕಿಸುವ ಆರ್ಥೋಗನಲ್ ವಿಧಾನವನ್ನು (orthogonal method) ಅಳವಡಿಸಿಕೊಳ್ಳಿ.
Immunofluorescence	C-terminal polyclonal antibody ಸರಿಯಾಗಿ ತಕ್ಕುದಲ್ಲ, ಏಕೆಂದರೆ 138 kDa construct ನಲ್ಲಿ C-terminal domain ಇಲ್ಲ. ಅನೇಕ DMD ರೋಗಿಗಳಲ್ಲಿ revertant fibers ಇರುತ್ತವೆ, ಮತ್ತು revertant dystrophin C-terminal epitopes ಉಳಿಸಿಕೊಳ್ಳಬಹುದು. Revertant fibers ವಯಸ್ಸಿನೊಂದಿಗೆ clonally ವಿಸ್ತರಿಸಿ IF signal ಅನ್ನು, ವಿಶೇಷವಾಗಿ ಹಿರಿಯ ಹುಡುಗರಲ್ಲಿ, bias ಮಾಡಬಹುದು.	transgene ನಲ್ಲಿ ಇರುವ ಆದರೆ revertant dystrophin ನಲ್ಲಿ ಇಲ್ಲದ epitope ವಿರುದ್ಧದ antibody ಬಳಸಿ IF ಪುನರಾವರ್ತಿಸಿ. Transgene-positive fibers ಅನ್ನು revertant fibers ನಿಂದ ಪ್ರತ್ಯೇಕವಾಗಿ ಪ್ರಮಾಣೀಕರಿಸಿ.
Surrogate endpoint ಮಾನ್ಯತೆ	ಈ ಪ್ಯಾಕೇಜ್ ಪ್ರೋಟೀನ್ ಪ್ರಮಾಣವನ್ನು (protein amount) ವೈದ್ಯಕೀಯ ಕಾರ್ಯಕ್ಷಮತೆಯೊಂದಿಗೆ (clinical function) ತಪ್ಪಾಗಿ ಸಂಯೋಜಿಸುತ್ತದೆ. "ಆರೋಗ್ಯಕರ-ನಿಯಂತ್ರಣದ ಪ್ರೋಟೀನ್ ದ್ರವ್ಯರಾಶಿಯ 38%" (38% of healthy-control protein mass) ಎನ್ನುವುದು 38% ಸಾಮಾನ್ಯ ಡಿಸ್ಟ್ರೋಫಿನ್ ಕಾರ್ಯಕ್ಷಮತೆ ಎಂದರ್ಥವಲ್ಲ; ಏಕೆಂದರೆ ಮೈಕ್ರೋ-ಡಿಸ್ಟ್ರೋಫಿನ್ ರಚನಾತ್ಮಕವಾಗಿ ಕತ್ತರಿಸಲ್ಪಟ್ಟಿದೆ (structurally truncated).	ಎಕ್ಸ್‌ಪ್ರೆಶನ್ ಅನ್ನು ಬದಲಿ ಮುಕ್ತಾಯದ ಬಿಂದುವಾಗಿ (surrogate endpoint) ಪರಿಗಣಿಸುವ ಮೊದಲು, ಮೈಕ್ರೋ-ಡಿಸ್ಟ್ರೋಫಿನ್ ದ್ರವ್ಯರಾಶಿ-ಶೇಕಡಾವಾರು (mass-percent), ಸಾರ್ಕೊಲೆಮ್ಮಲ್ ಸ್ಥಳೀಕರಣ (sarcolemmal localization), ನಂತರದ ಕಾರ್ಯಕ್ಷಮತೆಯ ಮರುಸ್ಥಾಪನೆ (downstream functional restoration) ಮತ್ತು ವೈದ್ಯಕೀಯ ಪ್ರಯೋಜನಗಳ (clinical benefit) ನಡುವಿನ ಸಂಬಂಧವನ್ನು ಪ್ರಾಯೋಗಿಕವಾಗಿ ಮೌಲ್ಯೀಕರಿಸಿ (empirically validate).
Biopsy ವಿನ್ಯಾಸ	ಚಿಕಿತ್ಸೆಗೆ ಮುನ್ನ ಮತ್ತು ನಂತರದ ವಿರುದ್ಧ ಭಾಗದ (ಕಾಂಟ್ರಾಲ್ಯಾಟರಲ್) ವಾಸ್ಟಸ್ ಲ್ಯಾಟರಾಲಿಸ್ ಬಯಾಪ್ಸಿಗಳು ಎಡ-ಬಲ ಮತ್ತು ಇಂಟ್ರಾಮಸ್ಕುಲರ್ ಪ್ರಾದೇಶಿಕ ವ್ಯತ್ಯಾಸಗಳನ್ನು (spatial variability) ಉಂಟುಮಾಡುತ್ತವೆ. ರೋಗದ ಉಲ್ಬಣಗೊಳ್ಳುವಿಕೆ (disease progression) ಮತ್ತು ಫೈಬ್ರೊ-ಫ್ಯಾಟಿ ಬದಲಾವಣೆಯು (fibro-fatty replacement) ಒಟ್ಟು-ಪ್ರೋಟೀನ್-ನಾರ್ಮಲೈಸ್ಡ್ ಸಿಗ್ನಲ್ ಅನ್ನು ಸಹ ಬದಲಾಯಿಸಬಹುದು.	ಸ್ಥಿರವಾದ ಅಂಗರಚನಾ ಹೆಗ್ಗುರುತುಗಳನ್ನು (anatomical landmarks) ಬಳಸಿಕೊಂಡು ಬಯಾಪ್ಸಿ ಸ್ಥಳವನ್ನು ಪ್ರಮಾಣೀಕರಿಸಿ (standardize), ಸ್ನಾಯು-ನಿರ್ದಿಷ್ಟ ಪ್ರೋಟೀನ್‌ಗಳಿಗೆ ಸಾಮಾನ್ಯೀಕರಿಸಿ (normalize) ಮತ್ತು ಅದರೊಂದಿಗೆ ಫೈಬ್ರೊ-ಫ್ಯಾಟಿ ಸಂಯೋಜನೆಯನ್ನು (fibro-fatty composition) ಅಳೆಯಿರಿ.
ಎನ್‌ಎಸ್‌ಎಎ (NSAA) ಹೋಲಿಕೆದಾರ / ಅಂಕಿ-ಅಂಶಗಳು	ಒಂದು ಬಾಹ್ಯ ನೈಸರ್ಗಿಕ-ಇತಿಹಾಸದ ಗುಂಪು (external natural-history cohort) ಯಾದೃಚ್ಛಿಕ ಏಕಕಾಲೀನ ನಿಯಂತ್ರಣವಲ್ಲ (randomized concurrent control). ಪ್ರಯೋಗದ ಅರ್ಹತೆ, ಪೂರಕ ಆರೈಕೆ, ಭಾಗವಹಿಸುವಿಕೆಯ ಪರಿಣಾಮಗಳು, ಬೇಸ್‌ಲೈನ್ ಎನ್‌ಎಸ್‌ಎಎ (NSAA), ಸ್ಟೆರಾಯ್ಡ್ ಕಟ್ಟುಪಾಡುಗಳು, ವಯಸ್ಸು ಮತ್ತು ಎಕ್ಸಾನ್ ವರ್ಗ ಇವೆಲ್ಲವೂ ಈ ಹೋಲಿಕೆಯಲ್ಲಿ ಪಕ್ಷಪಾತವನ್ನು (bias) ಉಂಟುಮಾಡಬಹುದು. ಕೇವಲ ಒಂದು ಅನ್‌ಪೇರ್ಡ್ ಟಿ-ಟೆಸ್ಟ್ (unpaired t-test) ಇದಕ್ಕೆ ಸಾಕಾಗುವುದಿಲ್ಲ. ಅಷ್ಟೇ ಅಲ್ಲದೆ, ಈ ವಯಸ್ಸಿನ ಗುಂಪಿನಲ್ಲಿ ಕಂಡುಬರುವ +೧.೪ ರಷ್ಟು ಎನ್‌ಎಸ್‌ಎಎ ಬದಲಾವಣೆಯು ಟೆಸ್ಟ್-ರಿಟೆಸ್ಟ್ ವ್ಯತ್ಯಾಸದ (test-retest variability) ವ್ಯಾಪ್ತಿಯೊಳಗೇ ಬರುತ್ತದೆ.	ಯಾದೃಚ್ಛಿಕ ಏಕಕಾಲೀನ ಪ್ಲಸೀಬೊ-ನಿಯಂತ್ರಿತ ಅಧ್ಯಯನವನ್ನು (randomized concurrent placebo-controlled study) ನಡೆಸಿ, ಅಥವಾ ಕನಿಷ್ಠ ಪಕ್ಷ ಬೇಸ್‌ಲೈನ್ ಎನ್‌ಎಸ್‌ಎಎ (NSAA), ವಯಸ್ಸು, ಸ್ಟೆರಾಯ್ಡ್ ಕಟ್ಟುಪಾಡುಗಳು, ಎಕ್ಸಾನ್ ವರ್ಗ ಮತ್ತು ಇತರ ಗೊಂದಲಕಾರಿ ಅಂಶಗಳನ್ನು (confounders) ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುವ ಹೊಂದಾಣಿಕೆಯ ವಿಶ್ಲೇಷಣೆಗಳನ್ನು (adjusted analyses) ಬಳಸಿ.
ವಯಸ್ಸಿನ ಮಿತಿ ಗೊಂದಲ (ಏಜ್-ವಿಂಡೋ ಕನ್‌ಫೌಂಡಿಂಗ್)	4–7 ವರ್ಷ ವಯಸ್ಸಿನ ಹುಡುಗರು ಬೆಳವಣಿಗೆಯ ಹಂತದಲ್ಲಿದ್ದು (developmental window), ಈ ಅವಧಿಯಲ್ಲಿ ಚಿಕಿತ್ಸೆ ಪಡೆಯದ, ನಡೆಯಲು ಶಕ್ತರಾಗಿರುವ ಡಿಎಂಡಿ (DMD) ರೋಗಿಗಳು ರೋಗದ ಉಲ್ಬಣಗೊಳ್ಳುವಿಕೆಗಿಂತ ಮುಂಚಿತವಾಗಿ ತಮ್ಮ ಮೋಟಾರ್ ಸಾಮರ್ಥ್ಯಗಳಲ್ಲಿ (ಮೋಟರ್ ಫಂಕ್ಷನ್) ಸುಧಾರಣೆಯನ್ನು ಕಾಣಬಹುದು. ಆದ್ದರಿಂದ, ೪೮ ವಾರಗಳ ಎನ್‌ಎಸ್‌ಎಎ (NSAA) ಬದಲಾವಣೆಯು ಬೆಳವಣಿಗೆಯಿಂದಾದ ಸುಧಾರಣೆ, ರೋಗದ ಉಲ್ಬಣಗೊಳ್ಳುವಿಕೆ ಮತ್ತು ಸಂಭಾವ್ಯ ಚಿಕಿತ್ಸಾ ಪ್ರಭಾವ ಇವೆಲ್ಲವನ್ನೂ ಒಟ್ಟಾಗಿ ಮಿಶ್ರಣ ಮಾಡುತ್ತದೆ.	ಅಭಿವೃದ್ಧಿಯ ಪಥವನ್ನು (developmental trajectory) ಚಿಕಿತ್ಸೆಯ ಪ್ರಭಾವದಿಂದ ಪ್ರತ್ಯೇಕಿಸಲು ವಯಸ್ಸಿನ ಶ್ರೇಣೀಕರಣದೊಂದಿಗೆ (age stratification) ಏಕಕಾಲೀನ ಯಾದೃಚ್ಛಿಕ ನಿಯಂತ್ರಣವನ್ನು (concurrent randomized control) ಬಳಸಿ.
ಪೂರ್ವ ವೈದ್ಯಕೀಯ ಮುನ್ಸೂಚನೆ (ಪ್ರಯರ್ ಕ್ಲಿನಿಕಲ್ ಪ್ರೆಸಿಡೆಂಟ್)	ಓಪನ್-ಲೇಬಲ್ ಮೈಕ್ರೋ-ಡಿಸ್ಟ್ರೋಫಿನ್ ಕಾರ್ಯಕ್ಷಮತೆಯ ಸಂಕೇತಗಳು (functional signals) ದೃಢೀಕರಣದ ಪ್ರಯೋಜನಗಳನ್ನು (confirmatory benefit) ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ಮುನ್ಸೂಚಿಸಿಲ್ಲ; ಈ ಹಿಂದೆ ಪ್ರಕಟವಾದ ಉದಾಹರಣೆಗಳಲ್ಲಿ ಮೈಕ್ರೋ-ಡಿಸ್ಟ್ರೋಫಿನ್ ಜೀನ್ ಥೆರಪಿಯ ದೃಢೀಕರಣ ಪ್ರಯೋಗಗಳು ಓಪನ್-ಲೇಬಲ್ ಹಂತದಲ್ಲಿ ಕಂಡುಕೊಂಡ ಎನ್‌ಎಸ್‌ಎಎ (NSAA) ಸುಧಾರಣೆಗಳನ್ನು ಪುನರಾವರ್ತಿಸಲು ವಿಫಲವಾಗಿರುವುದು ಸೇರಿದೆ.	Open-label NSAA change ಅನ್ನು ನಿರ್ಣಾಯಕ ಬೆಂಬಲವಾಗಿ ಅವಲಂಬಿಸಬೇಡಿ. ನಿಯಂತ್ರಿತ functional evidence ಅಗತ್ಯಪಡಿಸಿ.
ರಚನೆಯ ರಚನಾತ್ಮಕ ಮಿತಿಗಳು	138 kDa ರಚನೆಯು (construct) ಸ್ಪೆಕ್ಟ್ರಿನ್ ರಿಪೀಟ್ಸ್ R16/17 ಅನ್ನು ತೆಗೆದುಹಾಕುತ್ತದೆ (deletes), ಇವು nNOS-ಬೈಂಡಿಂಗ್ ಸೈಟ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತವೆ. ಇದರ ಪರಿಣಾಮವಾಗಿ nNOS ಮರುಪಡೆಯುವಿಕೆ (recruitment) ನಷ್ಟವಾದರೆ, ಅದು ವ್ಯಾಯಾಮದ ಸಮಯದಲ್ಲಿ ಕ್ರಿಯಾತ್ಮಕ ಸಿಂಪಥೋಲಿಸಿಸ್ (functional sympatholysis) ಮತ್ತು ಇಷ್ಕೆಮಿಯಾ ರಕ್ಷಣೆಯನ್ನು (ischemia protection) ಕುಂಠಿತಗೊಳಿಸಬಹುದು. ಇದು ಎಕ್ಸ್‌ಪ್ರೆಶನ್ ಮಟ್ಟಕ್ಕಿಂತ ಸಂಪೂರ್ಣವಾಗಿ ಸ್ವತಂತ್ರವಾದ ಒಂದು ಯಾಂತ್ರಿಕ ಮಿತಿಯನ್ನು (mechanistic ceiling) ಸೃಷ್ಟಿಸುತ್ತದೆ.	ಈ ನಿರ್ದಿಷ್ಟ ರಚನೆಯು (construct) ಸಂಬಂಧಿತ ಡಿಸ್ಟ್ರೋಫಿನ್-ಸಂಬಂಧಿತ ಕಾಂಪ್ಲೆಕ್ಸ್ ಕಾರ್ಯಕ್ಷಮತೆ, nNOS ಸ್ಥಳೀಕರಣ (localization), ವ್ಯಾಯಾಮದ ಶಾರೀರಿಕ ಕ್ರಿಯೆ (exercise physiology) ಮತ್ತು ಸ್ನಾಯು ರಕ್ಷಣೆಯನ್ನು ಮರುಸ್ಥಾಪಿಸುತ್ತದೆಯೇ ಎಂಬುದನ್ನು ತೋರಿಸುವ ಯಾಂತ್ರಿಕ ಅಧ್ಯಯನಗಳನ್ನು (mechanistic studies) ಸೇರಿಸಿ.
AAV ದೀರ್ಘಕಾಲೀನತೆ	12 ವಾರಗಳಲ್ಲಿ ವೆಕ್ಟರ್ ಜಿನೋಮ್‌ಗಳು (vector genomes) ದೀರ್ಘಕಾಲೀನ ಎಕ್ಸ್‌ಪ್ರೆಶನ್ ಅನ್ನು ಸ್ಥಾಪಿಸುವುದಿಲ್ಲ. AAV9 ಜಿನೋಮ್‌ಗಳು ಹೆಚ್ಚಾಗಿ ಸಂಯೋಜನೆಗೊಳ್ಳದ ಎಪಿಸೋಮ್‌ಗಳಾಗಿದ್ದು (non-integrating episomes) ಕಾಲಾನಂತರದಲ್ಲಿ ಕ್ಷೀಣಿಸಬಹುದು. ವೆಕ್ಟರ್-ಜಿನೋಮ್ ಸ್ಥಿರತೆ (persistence) ಎನ್ನುವುದು ದೀರ್ಘಕಾಲದ ಪ್ರೋಟೀನ್ ಎಕ್ಸ್‌ಪ್ರೆಶನ್‌ಗೆ ಸಮನಲ್ಲ	12 ವಾರಗಳಾಚೆಗೆ longitudinal transgene protein expression ಮತ್ತು functional biomarker durability ಅಳೆಯಿರಿ.
ರೋಗನಿರೋಧಕ/ಸುರಕ್ಷತೆಯ ಪ್ರೊಫೈಲ್	8/12 ರೋಗಿಗಳಲ್ಲಿ ಟ್ರಾನ್ಸ್‌ಅಮಿನೈಟಿಸ್ (Transaminitis) ಕಾಣಿಸಿಕೊಂಡಿರುವುದು ಎಎವಿ-ಟ್ರಾನ್ಸ್‌ಡ್ಯೂಸ್ಡ್ ಜೀವಕೋಶಗಳಿಗೆ (AAV-transduced cells) ದೇಹದ ರೋಗನಿರೋಧಕ ವ್ಯವಸ್ಥೆಯು ಪ್ರತಿಕ್ರಿಯಿಸುತ್ತಿರುವುದಕ್ಕೆ ಹೊಂದಿಕೆಯಾಗುತ್ತದೆ, ಆದರೆ ಇದರ ನಿಖರವಾದ ಕಾರ್ಯವಿಧಾನವು (mechanism) ಇನ್ನೂ ಸಾಬೀತಾಗಿಲ್ಲ. AAV9 ನ ಕಾರ್ಡಿಯಾಕ್ ಟ್ರೋಪಿಸಮ್ (ಹೃದಯದ ಕೋಶಗಳನ್ನು ಆಕರ್ಷಿಸುವ ಗುಣ) ಅನ್ನು ಗಮನಿಸಿದಾಗ, ಒಂದು ಮಯೋಕಾರ್ಡೈಟಿಸ್ (myocarditis) ಪ್ರಕರಣವು ಕಳವಳಕಾರಿಯಾಗಿದೆ..	ಇನ್ನಷ್ಟು ಆಳವಾದ ರೋಗನಿರೋಧಕ ಮೇಲ್ವಿಚಾರಣೆ (immune monitoring), ಯಕೃತ್ತು/ಹೃದಯದ ಸುರಕ್ಷತೆಯ ಗುಣಲಕ್ಷಣಗಳ ವಿವರಣೆ (liver/cardiac safety characterization) ಮತ್ತು ತೀವ್ರಗೊಂಡ ಹೃದಯದ ಫಾಲೋ-ಅಪ್ (intensified cardiac follow-up) ಅನ್ನು ಒದಗಿಸಿ.
ರೋಗಿಗಳ ಆಯ್ಕೆ/ಸಾಮಾನ್ಯೀಕರಣದ ಸಾಧ್ಯತೆ	anti-AAV9 neutralizing-antibody-positive patients ಅನ್ನು ಹೊರಗಿಡುವುದು generalizability ಅನ್ನು ಮಿತಿಗೊಳಿಸುತ್ತದೆ. exon-44 deletions ಅನ್ನು ಹೊರಗಿಡುವುದು ಆ DMD ಉಪಗುಂಪಿಗೆ ಅನ್ವಯಿಕತೆಯನ್ನು ಮಿತಿಗೊಳಿಸುತ್ತದೆ. ವಿಶಾಲ DMD ಜನಸಂಖ್ಯೆಯಲ್ಲಿ safety ಮತ್ತು efficacy ವರ್ಣಿಸಲು n=12 ತುಂಬಾ ಚಿಕ್ಕದು.	ಸಾಧ್ಯವಾದಲ್ಲಿ eligibility ವಿಸ್ತರಿಸಿ ಅಥವಾ ಫಲಿತಾಂಶವನ್ನು broad approval ಬೆಂಬಲಕ್ಕೆ ಬಳಸುವ ಮೊದಲು antibody status, genotype/exon class, age ಮತ್ತು baseline function ಪ್ರಕಾರ stratified analyses ಅನ್ನು pre-specify ಮಾಡಿ.

ನಿಯಂತ್ರಕ ತೀರ್ಮಾನ (Regulatory conclusion): ಈ ಪ್ಯಾಕೇಜ್ ಜೈವಿಕ ಚಟುವಟಿಕೆಯನ್ನು (biological activity) ತೋರಿಸಬಹುದು, ಆದರೆ ಅಳೆಯಲಾದ ಮೈಕ್ರೋ-ಡಿಸ್ಟ್ರೋಫಿನ್ ಎಕ್ಸ್‌ಪ್ರೆಶನ್ ವೈದ್ಯಕೀಯ ಪ್ರಯೋಜನವನ್ನು ಮುನ್ಸೂಚಿಸಬಲ್ಲ ಒಂದು ವಿಶ್ವಾಸಾರ್ಹ ಬದಲಿ ಮುಕ್ತಾಯದ ಬಿಂದು (reliable surrogate reasonably likely to predict clinical benefit) ಎಂಬುದನ್ನು ಇದು ಇನ್ನೂ ಸ್ಥಾಪಿಸುವುದಿಲ್ಲ. ಇದರ ಮುಖ್ಯ ಕೊರತೆಗಳೆಂದರೆ ಅಸ್ಸೇ ನಿರ್ದಿಷ್ಟತೆ (assay specificity), ಅಮಾನ್ಯವಾದ ಪ್ರಮಾಣೀಕರಣ ಮಾನದಂಡಗಳು (invalid quantification standards), ಸಂಭಾವ್ಯ ರಿವರ್ಟೆಂಟ್-ಫೈಬರ್ ಗೊಂದಲ (possible revertant-fiber confounding), ಯಾದೃಚ್ಛಿಕ ನಿಯಂತ್ರಣದ ಕೊರತೆ (lack of a randomized control), ವಯಸ್ಸಿಗೆ ಸಂಬಂಧಿಸಿದ ಎನ್‌ಎಸ್‌ಎಎ ಗೊಂದಲ (age-related NSAA confounding), ಅನಿಶ್ಚಿತ ದೀರ್ಘಕಾಲೀನತೆ (uncertain durability) ಮತ್ತು ಬಗೆಹರಿಯದ ಸುರಕ್ಷತೆ/ಸಾಮಾನ್ಯೀಕರಣದ ಸಮಸ್ಯೆಗಳು (unresolved safety/generalizability issues).

ಈ ಕೊರತೆಯನ್ನು (ಗ್ಯಾಪ್) ನೀಗಿಸಲು, ಪ್ರೋಗ್ರಾಂಗೆ ವಯಸ್ಸಿನ ಶ್ರೇಣೀಕರಣದ ನಿಯಂತ್ರಿತ ಕ್ಲಿನಿಕಲ್ ವಿನ್ಯಾಸ (controlled, age-stratified clinical design), ಟ್ರಾನ್ಸ್‌ಜೀನ್-ನಿರ್ದಿಷ್ಟ ಎಕ್ಸ್‌ಪ್ರೆಶನ್ ಅಸ್ಸೇಗಳು (transgene-specific expression assays), ಆರ್ಥೋಗನಲ್ ಪ್ರೋಟೀನ್ ಪ್ರಮಾಣೀಕರಣ (orthogonal protein quantification), ಅಂಗಾಂಶ-ಸಂಯೋಜನೆ ನಿಯಂತ್ರಣಗಳು (tissue-composition controls), ದೀರ್ಘಕಾಲದ ಸ್ಥಿರತೆಯ ಡೇಟಾ (longitudinal durability data), ಕತ್ತರಿಸಲ್ಪಟ್ಟ ರಚನೆಗಾಗಿ ಯಾಂತ್ರಿಕ ಕಾರ್ಯಕ್ಷಮತೆಯ ಅಸ್ಸೇಗಳು (mechanistic functional assays for the truncated construct) ಮತ್ತು ಪ್ರಮುಖವಾಗಿ ಯಕೃತ್ತು (hepatic) ಹಾಗೂ ಹೃದಯಕ್ಕೆ (cardiac) ಸಂಬಂಧಿಸಿದಂತೆ ಬಲವಾದ ಸುರಕ್ಷತಾ ಮೇಲ್ವಿಚಾರಣೆಯ (safety monitoring) ಅಗತ್ಯವಿರುತ್ತದೆ.

ರೂಬ್ರಿಕ್ ಮಾನದಂಡ ಮತ್ತು ಶ್ರೇಣಿಗಳು

ಮಾನದಂಡ

ಪಾಯಿಂಟ್‌ಗಳು

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

LifeSciBench ಮಾನ್ಯೀಕರಣ

ಸ್ವತಂತ್ರ ತಜ್ಞ ವಿಮರ್ಶೆಯ ಮೂಲಕ ನಾವು LifeSciBench ಅನ್ನು ಮಾನ್ಯಗೊಳಿಸಿದೆವು. ಪ್ರತಿಕ್ರಿಯೆ ಕಾರ್ಯಗಳನ್ನು ಬರೆಯುವಲ್ಲಿ ಭಾಗಿಯಾಗಿರದ 453 ವಿಮರ್ಶಕರಿಂದ ಬಂದಿತು. ಆ ವಿಮರ್ಶಕರಲ್ಲಿ 97% ಜನರಿಗೆ Ph.D. ಅಥವಾ ಸಮಾನ ಡಾಕ್ಟರೇಟ್ ಇತ್ತು; ಸರಾಸರಿ 12 ವರ್ಷದ ಕ್ಷೇತ್ರಾನುಭವ ಮತ್ತು 14 ಸಮವಿಮರ್ಶಿತ ಪ್ರಕಟಣೆಗಳಿದ್ದವು; 88% ಜನರು ಕನಿಷ್ಠ ಒಂದು ಪ್ರಶಸ್ತಿ ಅಥವಾ ಫೆಲೋಶಿಪ್ ಪಡೆದಿದ್ದಾಗಿ ಹೇಳಿದರು.

ಪ್ರತಿ ಕಾರ್ಯವು ಬಲವಾದ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಪ್ರಶ್ನೆಗೆ ಬೇಕಾದ ಗುಣಗಳನ್ನು ಪ್ರತಿಬಿಂಬಿಸುತ್ತದೆಯೇ ಎಂದು ವಿಮರ್ಶಕರು ಅಂಕ ನೀಡಿದರು: ನೈಜ ಸಂಶೋಧನಾ ಕೆಲಸಕ್ಕೆ ಹೊಂದಾಣಿಕೆ, ವೈಜ್ಞಾನಿಕ ರೀಜನಿಂಗ್ ಮತ್ತು ಕ್ಷೇತ್ರ ಪರಿಣತಿಯನ್ನು ಸೂಕ್ತವಾಗಿ ಪರೀಕ್ಷಿಸುವುದು, ಸಾಕ್ಷ್ಯ ಅಥವಾ ತಜ್ಞ ಒಮ್ಮತದಲ್ಲಿ ನೆಲೆಯೂರುವುದು, ಮತ್ತು ಮಾಡೆಲ್ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಅಳೆಯಲು ಒಟ್ಟಾರೆ ಉಪಯುಕ್ತತೆ. ಪ್ರತಿ ವರ್ಗದಲ್ಲೂ ಒಪ್ಪಿಗೆ 96% ಮೀರಿತು.

ನೈಜ ಜಗತ್ತಿನ ಪ್ರಸ್ತುತತೆ

ಈ ಕಾರ್ಯವು ನೈಜ ಜಗತ್ತಿನ ಜೀವ ವಿಜ್ಞಾನ ಕೆಲಸವನ್ನು ಪ್ರತಿಬಿಂಬಿಸುತ್ತದೆಯೇ?

ಬಲವಾಗಿ ಒಪ್ಪುತ್ತೇನೆ: 90.4%
ಒಟ್ಟಾರೆ ಒಪ್ಪುತ್ತೇನೆ: 98.3%

ವೈಜ್ಞಾನಿಕ ರೀಜನಿಂಗ್ / ಕ್ಷೇತ್ರ ಕೌಶಲ್ಯ

ಈ ಕಾರ್ಯವು ಸರಿಯಾದ ವೈಜ್ಞಾನಿಕ ರೀಜನಿಂಗ್ ಮತ್ತು ಜೀವ ವಿಜ್ಞಾನ ಕ್ಷೇತ್ರದ ಕೌಶಲ್ಯಗಳನ್ನು ಪರೀಕ್ಷಿಸಿ ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತದೆಯೇ?

ಬಲವಾಗಿ ಒಪ್ಪುತ್ತೇನೆ: 86.4%
ಒಟ್ಟಾರೆ ಒಪ್ಪುತ್ತೇನೆ: 98.1%

ವೈಜ್ಞಾನಿಕ ಆಧಾರ

ಈ ಕಾರ್ಯವು ವೈಜ್ಞಾನಿಕವಾಗಿ ಆಧಾರಿತವಾಗಿದೆಯೇ, ಉತ್ತರಿಸಬಹುದೇ, ಮತ್ತು ಸೂಕ್ತ ಸಾಕ್ಷ್ಯ, ಡೇಟಾ, ಆರ್ಟಿಫ್ಯಾಕ್ಟ್‌ಗಳು ಅಥವಾ ತಜ್ಞರ ಒಮ್ಮತದಲ್ಲಿ ನೆಲೆಯೂರಿದೆಯೇ?

ಬಲವಾಗಿ ಒಪ್ಪುತ್ತೇನೆ: 77.1%
ಒಟ್ಟಾರೆ ಒಪ್ಪುತ್ತೇನೆ: 96.5%

ಒಟ್ಟಾರೆ ಉಪಯುಕ್ತತೆ

ಒಟ್ಟಿನಲ್ಲಿ, ಇದು ಬಲವಾದ ಜೀವ ವಿಜ್ಞಾನ ಮೌಲ್ಯಮಾಪನ ಕಾರ್ಯವೇ?

ಬಲವಾಗಿ ಒಪ್ಪುತ್ತೇನೆ: 79.1%
ಒಟ್ಟಾರೆ ಒಪ್ಪುತ್ತೇನೆ: 96.6%

ವಿಮರ್ಶಕರ ಟಿಪ್ಪಣಿಗಳು ಪ್ರಮಾಣಾತ್ಮಕ ರೇಟಿಂಗ್‌ಗಳನ್ನು ಬಲಪಡಿಸಿದವು:

3ರಲ್ಲಿ 1

“ಒಟ್ಟಿನಲ್ಲಿ ಇದು ಬಲವಾದ ಕಾರ್ಯ, ಏಕೆಂದರೆ ಇದಕ್ಕೆ ಒಂದು ಸರಿಯಾದ ಮೂಲ ವ್ಯಾಖ್ಯಾನವಿದೆ; ಜೊತೆಗೆ ಅನಿಶ್ಚಿತತೆಯನ್ನು ಎಷ್ಟು ಎಚ್ಚರಿಕೆಯಿಂದ ಮಿತಿಗೊಳಿಸುತ್ತವೆ ಎಂಬ ಆಧಾರದಲ್ಲಿ ಉತ್ತಮ ಉತ್ತರಗಳನ್ನು ಬೇರ್ಪಡಿಸಲು ಅವಕಾಶವೂ ಇದೆ.”

“ಇದು ಅತ್ಯುತ್ತಮ ಪ್ರಾಂಪ್ಟ್... ಇದು ರಚನಾತ್ಮಕ ಜೀವಶಾಸ್ತ್ರ, ಔಷಧೀಯ ರಸಾಯನಶಾಸ್ತ್ರ, ರಿಸೆಪ್ಟರ್ ಫಾರ್ಮಕಾಲಜಿ ಮತ್ತು ಲಿಗ್ಯಾಂಡ್ ಕ್ರಿಯೆಯ ಯಾಂತ್ರಿಕತೆಗಳ ಅಂಶಗಳನ್ನು ಒಗ್ಗೂಡಿಸುತ್ತದೆ.”

“ಇದು ಮಾಡೆಲ್ ಮಾಹಿತಿಯನ್ನು ನೆನಪಿಸಿಕೊಳ್ಳಬಹುದೇ ಎಂಬುದನ್ನಷ್ಟೇ ಪರೀಕ್ಷಿಸುವುದಿಲ್ಲ; ಆ ಕ್ಷಣದಲ್ಲಿ ತೋರಿಸಲಾದ ಸಾಕ್ಷ್ಯದಿಂದ ಮಾಡೆಲ್ ರೀಜನಿಂಗ್ ಮಾಡಬಹುದೇ ಎಂಬುದನ್ನು ಪರೀಕ್ಷಿಸುತ್ತದೆ.”

ಫಲಿತಾಂಶಗಳು

ನಾವು ಪರಸ್ಪರಪೂರಕ ಎರಡು ಮಾಪಕಗಳನ್ನು ವರದಿ ಮಾಡುತ್ತೇವೆ. ಪಾಸ್ ದರವೆಂದರೆ, ಮಾಡೆಲ್ 70% ಕಾರ್ಯ-ಮಟ್ಟದ ಯಶಸ್ಸಿನ ಮಿತಿಯನ್ನು ಪೂರೈಸುವ ಕಾರ್ಯಗಳ ಶೇಕಡಾವಾರು. ಸ್ಕೋರ್ ಸರಾಸರಿ ರೂಬ್ರಿಕ್ ಪ್ರತಿಫಲ; ಪೂರ್ಣ ಕಾರ್ಯ ಪರಿಹಾರವಾಗದಿದ್ದರೂ ವೈಯಕ್ತಿಕ ಮಾನದಂಡಗಳಿಗೆ ಭಾಗಶಃ ಕ್ರೆಡಿಟ್ ನೀಡುತ್ತದೆ. ಇವೆರಡೂ ಮುಖ್ಯ, ಏಕೆಂದರೆ ವೈಜ್ಞಾನಿಕ ಕಾರ್ಯಕ್ಕೆ ನೀಡಿದ ಪ್ರತಿಕ್ರಿಯೆ ಪೂರ್ಣ ಉತ್ತರದ ಎಲ್ಲಾ ಅವಶ್ಯಕತೆಗಳನ್ನು ಪೂರೈಸದೆ ಇದ್ದರೂ ಭಾಗಶಃ ಸರಿಯಾಗಿರಬಹುದು ಅಥವಾ ಉಪಯುಕ್ತವಾಗಿರಬಹುದು.

ಮಾಡೆಲ್ ಕಾರ್ಯಕ್ಷಮತೆ ಕಾರ್ಯ ಪ್ರಕಾರ, ಕಾರ್ಯಪ್ರವಾಹ ಮತ್ತು ಪ್ರತಿಕ್ರಿಯೆ ಸ್ವರೂಪದಂತೆ ಬಹಳ ಬದಲಾಗುತ್ತದೆ.

AI ವ್ಯವಸ್ಥೆಗಳು ಆರಂಭಿಕ ಬಲ ತೋರಿಸುವ ಸ್ಥಳಗಳು

LifeSciBench ತೋರಿಸುವಂತೆ, ಮುಂಚೂಣಿ ಮಾಡೆಲ್‌ಗಳು ವೈಜ್ಞಾನಿಕ ಸಂಶ್ಲೇಷಣೆ, ಸಂವಹನ ಮತ್ತು ರಚಿತ ವ್ಯಾಖ್ಯಾನ ಒಳಗೊಂಡ ಕಾರ್ಯಗಳಲ್ಲಿ ಸಂಬಂಧಿತವಾಗಿ ಅತ್ಯಂತ ಬಲವಾಗಿವೆ. ನಿರಪೇಕ್ಷ ಪಾಸ್ ದರಗಳು ಇನ್ನೂ ಮಧ್ಯಮವಾಗಿವೆ, ಆದ್ದರಿಂದ ಈ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಕ್ಷೇತ್ರಗಳು ತುಂಬಿಹೋಗಿಲ್ಲ; ಆದರೆ GPT‑Rosalind, GPT‑5.5 ಗಿಂತ ಅರ್ಥಪೂರ್ಣ ಪ್ರಗತಿ ತೋರಿಸಿ, ಒಟ್ಟಾರೆ ನಿಖರ ಪಾಸ್ ದರವನ್ನು 25.7% ರಿಂದ 36.1% ಗೆ ಹೆಚ್ಚಿಸಿದೆ.

ಮಾಡೆಲ್ ಸಾಮರ್ಥ್ಯಗಳ ಪ್ರಗತಿಯ ಅತ್ಯಂತ ಬಲವಾದ ದಿಕ್ಕುಗಳು ವೈಜ್ಞಾನಿಕ ಸಂವಹನ ಮತ್ತು ಅನುವಾದದಲ್ಲಿ ಕಾಣುತ್ತವೆ. ಉದಾಹರಣೆಗೆ, ವೈಜ್ಞಾನಿಕ ಸಂವಹನ ಪಾಸ್ ದರ GPT‑5.5 ಗೆ 56.3% ರಿಂದ GPT‑Rosalind ಗೆ 71.1% ಆಗುತ್ತದೆ; ಈ ವರ್ಗ ಚಿಕ್ಕದು (n=9), ಆದ್ದರಿಂದ ಎಚ್ಚರಿಕೆಯಿಂದ ಅರ್ಥೈಸಬೇಕು, ಆದರೆ ಸಾಕ್ಷ್ಯವನ್ನು ಸಂಘಟಿಸಿ ತಜ್ಞರಿಗೆ ಮನವರಿಕೆ ಮಾಡುವ ವಿವರಣೆಗಳನ್ನು ನೀಡುವ ಸಾಮರ್ಥ್ಯದಲ್ಲಿ ಮುಂಚೂಣಿ ಮಾಡೆಲ್‌ಗಳು ವೇಗವಾಗಿ ಸುಧಾರಿಸುತ್ತಿವೆ ಎಂಬುದನ್ನು ಸೂಚಿಸುತ್ತದೆ. ಅನುವಾದವು (ಔಷಧ ಅಭಿವೃದ್ಧಿಯ “ಬೆಂಚ್-ಟು-ಬೆಡ್‌ಸೈಡ್” ಪ್ರಕ್ರಿಯೆ) ಇದೇ ಮಾದರಿಯನ್ನು ತೋರಿಸುತ್ತದೆ; GPT‑5.5 ಗೆ 36.8% ರಿಂದ GPT‑Rosalind ಗೆ 57.7% ಆಗಿ ಏರಿ, ಪ್ರೀಕ್ಲಿನಿಕಲ್ ಸಾಕ್ಷ್ಯವನ್ನು ಕ್ಲಿನಿಕಲ್ ಪರಿಣಾಮಗಳಿಗೆ ಸಂಪರ್ಕಿಸುವ ಸಾಮರ್ಥ್ಯದಲ್ಲಿ ಮಾಡೆಲ್‌ಗಳು ಬೇಗ ಸುಧಾರಿಸುತ್ತಿವೆ ಎಂದು ಸೂಚಿಸುತ್ತದೆ.

ರೂಬ್ರಿಕ್-ಮಟ್ಟದ ಫಲಿತಾಂಶಗಳೂ ಇದೇ ದಿಕ್ಕನ್ನು ತೋರಿಸುತ್ತವೆ. ತಜ್ಞರಿಗೆ ಉಪಯುಕ್ತ ಅಥವಾ ಕ್ರಮಗೊಳ್ಳಬಹುದಾದ ಔಟ್‌ಪುಟ್‌ಗಳನ್ನು ಬೇಕಾಗಿಸುವ ಕಾರ್ಯಗಳಲ್ಲಿ, GPT‑5.5 ಗೆ 29.1% ಇರುವುದಕ್ಕೆ ಹೋಲಿಸಿದರೆ GPT‑Rosalind 44.7% ಸ್ಕೋರ್ ಮಾಡುತ್ತದೆ. ಅನಿಶ್ಚಿತತೆ ಮತ್ತು ಎಚ್ಚರಿಕೆ ನಿರ್ವಹಣೆ ಬೇಕಾದ ಕಾರ್ಯಗಳಲ್ಲಿ, 29.3% ಗೆ ಹೋಲಿಸಿದರೆ ಅದು 44.8% ಸ್ಕೋರ್ ಮಾಡುತ್ತದೆ. ಸ್ಪಷ್ಟ ಸಾಕ್ಷ್ಯ ಗಡಿ ಇರುವ ಮತ್ತು ರಚಿತ ವೈಜ್ಞಾನಿಕ ತೀರ್ಪು ಬೇಕಾದ ಕಾರ್ಯಗಳಲ್ಲಿ ಮಾಡೆಲ್‌ಗಳು ಹೆಚ್ಚು ಉಪಯುಕ್ತವೆಂದು ಈ ಮಾದರಿ ಸೂಚಿಸುತ್ತದೆ.

ಉದ್ಯಮ ಮತ್ತು ಶೈಕ್ಷಣಿಕ ತಜ್ಞರು ಗುರುತಿಸಿದ ವೈಜ್ಞಾನಿಕವಾಗಿ ಮೌಲ್ಯಯುತ ಕಾರ್ಯಗಳಲ್ಲಿ GPT‑Rosalind ಕಾರ್ಯಕ್ಷಮತೆಯಲ್ಲಿ ಮುನ್ನಡೆಸುತ್ತದೆ.

GPT‑Rosalind ಉದ್ಯಮ ಮತ್ತು ಅಕಾಡೆಮಿಕ್ ತಜ್ಞರು ಗುರುತಿಸಿದ ವೈಜ್ಞಾನಿಕವಾಗಿ ಮೌಲ್ಯಯುತ ಕಾರ್ಯಗಳಾದ್ಯಂತ ಕಾರ್ಯಕ್ಷಮತೆಯಲ್ಲಿ ಮುನ್ನಡೆಸುತ್ತದೆ.

AI ವ್ಯವಸ್ಥೆಗಳು ಇನ್ನೂ ಎಲ್ಲೆಲ್ಲಿ ಹಿನ್ನಡೆ ಅನುಭವಿಸುತ್ತಿವೆ

ಆರ್ಟಿಫ್ಯಾಕ್ಟ್‌ಭಾರಿತ, ವಿನ್ಯಾಸಭಾರಿತ ಮತ್ತು ಕಾರ್ಯಾಚರಣಾ ನಿರ್ಬಂಧಗಳಿರುವ ವೈಜ್ಞಾನಿಕ ಕೆಲಸದಲ್ಲಿ ಕಾರ್ಯಕ್ಷಮತೆ ಬಹಳ ದುರ್ಬಲವಾಗಿದೆ. ವಿಶೇಷವಾಗಿ, ವಿನ್ಯಾಸ, ಸುಧಾರಣೆ ಮತ್ತು ಭವಿಷ್ಯವಾಣಿ ಅತ್ಯಂತ ಕಠಿಣ ಕಾರ್ಯಪ್ರವಾಹಗಳಲ್ಲಿ ಒಂದಾಗಿಯೇ ಉಳಿದಿದೆ; GPT‑Rosalind ಪಾಸ್ ದರ 30.7%; ವಿಶ್ಲೇಷಣೆಯೂ 30.3% ನಲ್ಲಿ ಸಮಾನವಾಗಿ ಕಠಿಣ.

ಆರ್ಟಿಫ್ಯಾಕ್ಟ್ ಬಳಕೆ ವಿಶೇಷವಾಗಿ ಸ್ಪಷ್ಟ ಕೊರತೆ. ಆರ್ಟಿಫ್ಯಾಕ್ಟ್‌ಭಾರಿತ ಪರಿಸರಗಳಲ್ಲಿ GPT‑Rosalind, GPT‑5.5 ಗಿಂತ ಉತ್ತಮವಾದರೂ, ಅದರ ಪಾಸ್ ದರ ಪಠ್ಯ-ಮಾತ್ರ ಕಾರ್ಯಗಳಲ್ಲಿ 45.1% ಇಂದ ಆರ್ಟಿಫ್ಯಾಕ್ಟ್‌ಗಳು ಅಥವಾ URLಗಳಿರುವ ಕಾರ್ಯಗಳಲ್ಲಿ 28.1% ಕ್ಕೆ ಇಳಿಯುತ್ತದೆ. GPT‑5.5 ಕೂಡ ಇದೇ ಮಾದರಿಯನ್ನು ತೋರಿಸಿ, 29.9% ಇಂದ 21.9% ಕ್ಕೆ ಇಳಿಯುತ್ತದೆ. ಇನ್ನಷ್ಟು ವಿವರವಾದ ವಿಶ್ಲೇಷಣೆ, ಮುಂಚೂಣಿ ಮಾಡೆಲ್‌ಗಳು ಸಂಕೀರ್ಣ ಚಿತ್ರಗಳು ಅಥವಾ ದೊಡ್ಡ ಅನುಕ್ರಮ ಫೈಲ್‌ಗಳಿಂದ ಮಾಹಿತಿ ತೆಗೆಯಲು ಮತ್ತು ಅದನ್ನು ಅಂತಿಮ ಉತ್ತರದಲ್ಲಿ ಒಗ್ಗೂಡಿಸಲು ಹೋರಾಡುತ್ತವೆ ಎಂದು ದೃಢಪಡಿಸುತ್ತದೆ.

ಕಾರ್ಯಗಳಿಗೆ ಮೂಲಾಧಾರಿತ ರೀಜನಿಂಗ್ ಅಥವಾ ಆರ್ಟಿಫ್ಯಾಕ್ಟ್‌ಗಳೊಂದಿಗೆ ಕೆಲಸ ಅಗತ್ಯವಾದಾಗ ಪಾಸ್ ದರಗಳು ಇಳಿಯುತ್ತವೆ

ಉತ್ತರದ ಸ್ವರೂಪವೂ ಮುಖ್ಯ. ನಿಖರ ಅನುಕ್ರಮ, ರಚನೆ ಅಥವಾ ಕನ್‌ಸ್ಟ್ರಕ್ಟ್-ಮಟ್ಟದ ಔಟ್‌ಪುಟ್‌ಗಳನ್ನು ಬೇಕಾಗಿಸುವ ಕಾರ್ಯಗಳು ಕಡಿಮೆ ಪಾಸ್ ದರ ತೋರಿಸುತ್ತವೆ: GPT‑Rosalind ಸಂಖ್ಯಾತ್ಮಕ ಕಾರ್ಯಗಳಲ್ಲಿ ಕೇವಲ 14.8% ಮತ್ತು ಅನುಕ್ರಮ ಅಥವಾ ರಚನೆ ಔಟ್‌ಪುಟ್‌ಗಳಲ್ಲಿ 24.0% ತಲುಪುತ್ತದೆ. ಕನ್‌ಸ್ಟ್ರಕ್ಟ್-ರಚನೆ ಕಾರ್ಯಗಳೂ ಭಂಗುರವಾಗಿವೆ; GPT‑Rosalind 27.3% ನಲ್ಲಿ ಇದ್ದು GPT‑5.5 ಗಿಂತ ಸ್ವಲ್ಪವೇ ಸುಧಾರಣೆ ತೋರಿಸುತ್ತದೆ. ಈ ಅಂತರದ ಒಂದು ಭಾಗ ನಿಖರ-ಉತ್ತರ ಕಾರ್ಯಗಳ ಕಠಿಣ ಮೌಲ್ಯಮಾಪನ ಮೇಲ್ಮೈಯಿಂದಾಗಿರಬಹುದು; ಲೆಕ್ಕಾಚಾರ ಅಥವಾ ಸ್ವರೂಪದ ಸಣ್ಣ ವ್ಯತ್ಯಾಸವೂ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಪಾಸ್ ಮಿತಿಗಿಂತ ಕೆಳಗಿಡಬಹುದು. ಆದರೂ, ಈ ವೈಫಲ್ಯಗಳು ವೈಜ್ಞಾನಿಕವಾಗಿ ಮಹತ್ವದವು; ಏಕೆಂದರೆ ಅನೇಕ ಜೀವ ವಿಜ್ಞಾನ ಕಾರ್ಯಪ್ರವಾಹಗಳಿಗೆ CRISPR/HDR ದಾನಿ ವಿನ್ಯಾಸ ಅಥವಾ siRNA ವಿನ್ಯಾಸದಂತೆ, ನೇರವಾಗಿ ಬಳಸಲು ಸಾಕಷ್ಟು ನಿಖರವಾದ ಔಟ್‌ಪುಟ್‌ಗಳು ಬೇಕಾಗುತ್ತವೆ.

ಮಾಡೆಲ್‌ಗಳು ಕಾರ್ಯವನ್ನು ಪೂರ್ಣವಾಗಿ ಪರಿಹರಿಸದೆ ಕೆಲವೊಮ್ಮೆ ಮಧ್ಯದವರೆಗೆ ಬರುತ್ತವೆ. ಸುಮಾರು 14% ಕಾರ್ಯಗಳಲ್ಲಿ, ನಿಖರ-ಪಾಸ್ ಮಿತಿಯನ್ನು ದಾಟದಿದ್ದರೂ ಮಾಡೆಲ್‌ಗಳು ಗಣನೀಯ ರೂಬ್ರಿಕ್ ಕ್ರೆಡಿಟ್ ಗಳಿಸಿದವು. GPT‑Rosalind ಗೆ, 109 ಕಾರ್ಯಗಳಲ್ಲಿ ಪಾಸ್ ದರಗಳು 20% ಕ್ಕಿಂತ ಕಡಿಮೆ ಇದ್ದರೂ ಕನಿಷ್ಠ 50% ರೂಬ್ರಿಕ್ ಪ್ರತಿಫಲ ಸಿಕ್ಕಿತು. ಪ್ರಯೋಗದಲ್ಲಿ, ಮಾಡೆಲ್‌ಗಳು ಸಂಬಂಧಿತ ಸಾಕ್ಷ್ಯವನ್ನು ಗುರುತಿಸಬಹುದು ಅಥವಾ ಸಾಧ್ಯವಾದ ಭಾಗಶಃ ಉತ್ತರ ನೀಡಬಹುದು; ಆದರೆ ಪ್ರಮುಖ ನಿರ್ಬಂಧ ತಪ್ಪಿಸುವುದು, ತಪ್ಪು ಸಾಕ್ಷ್ಯ ಬಳಸುವುದು, ಅಪೂರ್ಣ ಲೆಕ್ಕಾಚಾರ ಮಾಡುವುದು, ಅಥವಾ ತಮ್ಮ ರೀಜನಿಂಗ್ ಅನ್ನು ವೈಜ್ಞಾನಿಕವಾಗಿ ಉಪಯುಕ್ತ ಅಂತಿಮ ನಿರ್ಧಾರಕ್ಕೆ ಸಂಪರ್ಕಿಸದಿರುವುದರಿಂದ ಇನ್ನೂ ವಿಫಲವಾಗಬಹುದು.

ಮಿತಿಗಳು ಮತ್ತು ಮುಂದೇನು

LifeSciBench, ಜೀವ ವಿಜ್ಞಾನ ಸಂಶೋಧನೆಗೆ AI ವ್ಯವಸ್ಥೆಗಳು ಎಷ್ಟು ಉಪಯುಕ್ತವಾಗಬಹುದು ಎಂಬುದನ್ನು ಅಳೆಯುವತ್ತ ಒಂದು ಹೆಜ್ಜೆ; ಆದರೆ ಜೀವಂತ ಸಂಶೋಧನಾ ಪರಿಸರಗಳಲ್ಲಿ ಮಾಡೆಲ್‌ಗಳನ್ನು ಅಧ್ಯಯನ ಮಾಡುವುದಕ್ಕೆ ಇದು ಪರ್ಯಾಯವಲ್ಲ. ಈ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಮರುಕಳಿಸುವ ಉದ್ಯಮ ಕಾರ್ಯಪ್ರವಾಹಗಳನ್ನು ಪ್ರತಿಬಿಂಬಿಸುವ ಸ್ವಯಂಸಂಪೂರ್ಣ ಕಾರ್ಯಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತದೆ; ಆದರೆ ಅನೇಕ ವೈಜ್ಞಾನಿಕ ವಿಶೇಷತೆಗಳು ಮತ್ತು ಕಾರ್ಯಪ್ರಕಾರಗಳು ಇದರ ಇಂದಿನ ವ್ಯಾಪ್ತಿಗೆ ಹೊರಗಿವೆ. ನೈಜ ಸಂಶೋಧನೆ ಪುನರಾವರ್ತಿತ: ವಿಜ್ಞಾನಿಗಳು ಹೊಸ ಸಾಕ್ಷ್ಯ ಸಂಗ್ರಹಿಸುತ್ತಾರೆ, ಉಪಕಲ್ಪನೆಗಳನ್ನು ಪರಿಷ್ಕರಿಸುತ್ತಾರೆ, ಅನುಗಾಮಿ ಪ್ರಯೋಗಗಳನ್ನು ವಿನ್ಯಾಸಗೊಳಿಸುತ್ತಾರೆ, ಮತ್ತು ಫಲಿತಾಂಶಗಳು ಬರುತ್ತಿದ್ದಂತೆ ಯೋಜನೆಗಳನ್ನು ಹೊಂದಿಸಿಕೊಳ್ಳುತ್ತಾರೆ.

ಆದ್ದರಿಂದ LifeSciBench ನಲ್ಲಿ ಬಲವಾದ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ನೈಜ ಕಾರ್ಯ-ಮಟ್ಟದ ಸಾಮರ್ಥ್ಯದ ಸಾಕ್ಷ್ಯವೆಂದು ಅರ್ಥೈಸಬೇಕು; ನಂತರದ ಸಂಶೋಧನಾ ಪರಿಣಾಮದ ನೇರ ಮಾಪನವೆಂದು ಅಲ್ಲ. ಬೆಂಚ್‌ಮಾರ್ಕ್ ಉದ್ಯಮ ಕಾರ್ಯಪ್ರವಾಹಗಳಲ್ಲಿ ನೆಲೆಯೂರಿದೆ; ಆದರೆ ಕಾಲಕ್ರಮದಲ್ಲಿ ಮೂಡುವ ಅಂಶಗಳ ಮೇಲೆ ಪ್ರಗತಿ ಅವಲಂಬಿಸುವ ಜೀವಂತ ಸಂಶೋಧನಾ ಕಾರ್ಯಕ್ರಮಗಳ ಪೂರ್ಣ ವೈವಿಧ್ಯ ಅಥವಾ ಚಲನೆಗಳನ್ನು ಹಿಡಿಯುವುದಿಲ್ಲ.

ಮುಂದಿನ ಹೆಜ್ಜೆ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಜೀವಂತ ಸಂಶೋಧನಾ ಕಾರ್ಯಪ್ರವಾಹಗಳ ನಿಯೋಜನಾ ಅಧ್ಯಯನಗಳಿಗೆ ಸಂಪರ್ಕಿಸುವುದು. LifeSciBench ಅನ್ನು ಕಾರ್ಯನಿರತ ವಿಜ್ಞಾನಿಗಳೊಂದಿಗೆ ಅಭಿವೃದ್ಧಿಪಡಿಸಿದರೂ, AI ವ್ಯವಸ್ಥೆಗಳು ಅನ್ವೇಷಣೆಯನ್ನು ವೇಗಗೊಳಿಸುತ್ತವೆಯೇ ಅಥವಾ R&D ಫಲಿತಾಂಶಗಳನ್ನು ಸುಧಾರಿಸುತ್ತವೆಯೇ ಎಂಬುದನ್ನು ಅಳೆಯಲು, ನೈಜ ಸಂಶೋಧನಾ ಪರಿಸರಗಳಲ್ಲಿ, ದೀರ್ಘ ಅವಧಿಗಳಲ್ಲಿ, ಮತ್ತು ರೀಜನಿಂಗ್, ಪ್ರತಿಕ್ರಿಯೆ ಹಾಗೂ ಪ್ರಯೋಗಾತ್ಮಕ ಅನುಗಮನದ ಹಲವು ಸುತ್ತುಗಳಾದ್ಯಂತ ಮಾಡೆಲ್ ಬಳಕೆ ಮತ್ತು ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಅಧ್ಯಯನ ಮಾಡಬೇಕಾಗುತ್ತದೆ.