۲۷ خرداد ۱۴۰۵

معرفی LifeSciBench

بنچمارکی نوشته و بازبینی‌شده توسط متخصصان، مبتنی بر پژوهش واقعی علوم زیستی

در حال بارگذاری…

سیستم‌های AI عامل محور به‌طور فزاینده‌ای توانمند می‌شوند تا وظایف علمی را انجام دهند. بااین‌حال، مفید بودن آن‌ها برای پژوهشگران علوم زیستی به این بستگی دارد که پیچیدگی پژوهش واقعی را چقدر خوب مدیریت کنند. این کار به‌ندرت شبیه یک پرسش ساده برای یادآوری یک واقعیت یا یک مسئله پیش‌بینی تمیز است. پژوهشگران شواهد ناقص را تفسیر می‌کنند، نتایج متعارض را با هم سازگار می‌سازند، آزمایش‌های دشوار طراحی می‌کنند، اشکالات آزمون‌ها را رفع می‌کنند، ریسک ترجمه به بالین را ارزیابی می‌کنند، و در شرایط عدم قطعیت درباره گام بعدی تصمیم می‌گیرند.

بنچمارک‌های کنونی این توانایی‌ها را به‌طور کامل پوشش نمی‌دهند. بسیاری از ارزیابی‌های علوم زیستی بر حوزه‌های محدود یا مهارت‌های جداگانه تمرکز دارند و در نتیجه پرسش‌هایی با قالب‌های ساختاریافته و پاسخ‌های مرجع تمیز تولید می‌کنند. این ارزیابی‌ها با وجود ارزشمند بودن، اغلب واقعاً نمی‌سنجند که آیا یک مدل می‌تواند در گستره وسیع‌تر کارهای سطح پژوهش مشارکت کند یا نه.

ما LifeSciBench را طراحی کردیم تا به پر کردن این شکاف کمک کند. هر وظیفه بر قضاوت دانشمندان علوم زیستیِ شاغل تکیه دارد که آموزش در سطح Ph.D. و تجربه مستقیم در پیشبرد برنامه‌های کشف دارو در محیط‌های زیست‌فناوری و داروسازی دارند.

LifeSciBench شامل ۷۵۰ وظیفه نوشته‌شده توسط متخصصان است که هفت گردش کار و هفت حوزه زیستی را پوشش می‌دهد.

1,062

آرتیفکت‌های وظیفه

173

دانشمندان مشارکت‌کننده

19,020

معیارهای روبریک

453

بازبینان متخصص

LifeSciBench چه چیزهایی را می‌سنجد

LifeSciBench می‌سنجد که آیا سیستم‌های AI می‌توانند از وظایف پژوهشی واقع‌گرایانه در علوم زیستی پشتیبانی کنند، نه اینکه صرفاً به پرسش‌های زیست‌شناسی پاسخ دهند. برای تعریف طبقه‌بندی بنچمارک، از دانشمندان علوم زیستیِ شاغل درباره گردش کارهایی که در محیط‌های پژوهش کاربردی بیشترین استفاده را دارند نظرسنجی کردیم. سپس پاسخ‌های آن‌ها را در هفت دسته تکرارشونده گروه‌بندی کردیم: کار با شواهد، تحلیل، طراحی و بهینه‌سازی، استدلال علمی، اعتبارسنجی و عملیات، ترجمه، و ارتباطات علمی.

هر وظیفه مانند درخواستی ساختاربندی شده است که یک دانشمند ممکن است از یک همکار آگاه مطرح کند: اعلان علمی، هر زمینه یا آرتیفکت مرتبط، و یک پاسخ آزاد. روبریک‌های نوشته‌شده توسط متخصصان ارزیابی می‌کنند که آیا یک مدل می‌تواند برای مسئله‌ای مشخص، پاسخ درست را با سطح مناسبی از جزئیات، توجیه، قیود احتیاطی و قالب‌بندی مورد انتظار یک دانشمند تولید کند یا نه.

ساخت مجموعه‌داده

LifeSciBench استدلال علمی را در کنار مهارت‌های عملی و کمتر دقیقاً تعریف‌شده‌ای ارزیابی می‌کند که برای استفاده علمی در دنیای واقعی ضروری‌اند. وظایف آن از مدل‌ها می‌خواهند مسائل پژوهشی واقع‌گرایانه را حل‌وفصل کنند: تفسیر شواهد، انجام قضاوت‌های مبتنی بر حوزه، و بیان نتیجه‌گیری‌هایی که برای بازبینان متخصص مفید باشد. بسیاری از وظایف همچنین از مدل‌ها می‌خواهند به‌جای تکیه صرف بر متن اعلان، عدم قطعیت را مدیریت کنند و بر پایه فایل‌های داده پشتیبان استدلال کنند.

این بنچمارک برای بازتاب دادن پیچیدگی کار در علوم زیستی طراحی شده است. در مجموع، ۷۹٪ وظایف به چند مرحله استدلال یا تصمیم‌گیری نیاز دارند و میانگین هر وظیفه چهار مرحله است. LifeSciBench شامل ۱٬۰۶۲ آرتیفکت پیوست‌شده است که شکل‌ها، PDFها، جدول‌ها، فایل‌های توالی، فایل‌های ساختاری یا شیمیایی، و منابع وب را دربر می‌گیرد. بیش از نیمی از وظایف (۵۳٪) از مدل‌ها می‌خواهند اطلاعات را از دست‌کم یک آرتیفکت تفسیر یا ترکیب کنند.

وظایف را ۱۷۳ دانشمند متخصص از رشته‌های گوناگون علوم زیستی ایجاد کردند. هر دانشمند آموزش در سطح Ph.D. و تجربه صنعت زیست‌فناوری یا داروسازی داشت. وظایف می‌توانستند پیش از پذیرش، هر تعداد چرخه بازنگری لازم را طی کنند و سقف ثابتی برای تعداد دورها وجود نداشت؛ وظایف پذیرفته‌شده به‌طور میانگین شش چرخه بازبینی خودکارِ خودهدایت‌شده را گذراندند و دست‌کم دو دور بازبینی تخصصی را کامل کردند. بازبینی‌ها بر یک پاسخ درستِ قابل راستی‌آزمایی یا اجماع قوی متخصصان تکیه داشتند و در میان بازبینان حوزه مرتبط، دست‌کم ۹۰٪ توافق وجود داشت. این فرایند کمک کرد تا وظایف پذیرفته‌شده پشتوانه علمی داشته باشند، برای نمره‌دهی به‌اندازه کافی روشن باشند، و نماینده پژوهش کاربردی باشند.

نموداری که وظایف LifeSciBench را نشان می‌دهد؛ وظایفی که منابع داده علوم زیستی مانند توالی‌های ژنومی، ساختارهای مولکولی، شکل‌ها، اسناد، صفحه‌گسترده‌ها و پیوندهای وب را با استدلال چندمرحله‌ای و بازبینی تخصصی ترکیب می‌کنند.

نمره‌دهی و تفکیک روبریک

وظایف LifeSciBench با روبریکی جزئی، اختصاصی هر وظیفه و متناسب با آن نمره‌دهی می‌شوند که پاسخ مورد انتظار را به ادعاهای علمی، محاسبات، تصمیم‌ها، توجیه‌ها و موارد مشابه مشخص تفکیک می‌کند. در سراسر بنچمارک، روبریک‌های تدوین‌شده توسط متخصصان ۱۹٬۰۲۰ معیار را شامل می‌شوند—به‌طور میانگین ۲۵ معیار برای هر وظیفه—تا هم درستی علمی و هم مفید بودن برای تصمیم‌های پژوهشی سنجیده شود.

این طراحی بازتاب می‌دهد که کار علمی در عمل چگونه ارزیابی می‌شود: بسیاری از وظایف علوم زیستی را نمی‌توان فقط با بررسی پاسخ نهایی نمره‌دهی کرد. یک پاسخ ممکن است به نتیجه‌گیری کلی درست برسد، اما همچنان ناقص ارزیابی شود؛ مثلاً اگر یک محدودیت کلیدی آزمون را نادیده بگیرد یا یک ظرافت زیستی بسیار پیامددار را فعالانه مطرح نکند. در مقابل، یک پاسخ جزئی ممکن است استدلال باکیفیتی داشته باشد، حتی اگر وظیفه را کاملاً حل نکند.

روبریک‌های ریزدانه این ظرافت را ثبت می‌کنند. LifeSciBench نه‌تنها دقت پاسخ نهایی را می‌سنجد، بلکه ارزیابی می‌کند که آیا یک مدل به شیوه‌ای از نظر علمی معتبر و از نظر عملیاتی مفید به پاسخ می‌رسد یا نه.

استخراج، تطبیق و ممیزی شواهد علمی از مقالات، شکل‌ها، جدول‌ها و سوابق آزمایشی.

مثال Eval

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

پاسخ نامزد

نکته‌ی اصلی: همانطور که ارائه شد، این بسته به اندازه‌ی کافی قوی نیست که از تأیید تسریع‌شده‌ی بیان میکرودیستروفین به عنوان یک نقطه‌ی پایانی جایگزین که احتمالاً پیش‌بینی‌کننده‌ی مزایای بالینی است، پشتیبانی کند. یک بررسی‌کننده‌ی شکاک FDA احتمالاً شواهد نشانگر زیستی، عملکردی، دوام، ایمنی و تعمیم‌پذیری را فاقد پشتوانه‌ی مادی می‌داند.

مورد بسته	حالت خرابی کلید	چه چیزی مورد نیاز خواهد بود
سنجش کمی وسترن بلات	MANEX۱A به یک اپی‌توپ N-ترمینال مشترک بین دیستروفین تمام‌قد درون‌زا و تراریخته میکرو-دیستروفین متصل می‌شود، بنابراین این سنجش به طور کامل تراریخته را از دیستروفین باقیمانده/بازگشتی تشخیص نمی‌دهد. سنجش کمی یک میکرودیستروفین ۱۳۸ کیلودالتونی در برابر یک استاندارد دیستروفین کامل سالم نیز نامعتبر است.	از یک استاندارد میکرودیستروفین نوترکیب و یک روش متعامد که ژن ترانس را از دیستروفین درون‌زا متمایز می‌کند، مانند طیف‌سنجی جرمی هدفمند یا سنجش اختصاصی ترانس‌ژن/اپیتوپ استفاده کنید.
ایمونوفلورسانس	آنتی‌بادی پلی‌کلونال C-ترمینال به دلیل نداشتن دامنه C-ترمینال در ساختار ۱۳۸ کیلودالتونی، مناسب نیست. بسیاری از بیماران DMD دارای فیبرهای برگشتی هستند و دیستروفین برگشتی می‌تواند اپی‌توپ‌های C-ترمینال را حفظ کند. فیبرهای برگشتی ممکن است با افزایش سن به صورت کلونی گسترش یابند و سیگنال IF را به ویژه در پسران بزرگتر بایاس کنند.	IF را با یک آنتی‌بادی علیه اپی‌توپی که در ژن ترانس‌ژن وجود دارد اما در دیستروفین برگشتی وجود ندارد، تکرار کنید. فیبرهای مثبت تراریخته را جدا از فیبرهای برگشتی، کمّی‌سازی کنید.
اعتبار نقطه پایانی جایگزین	این بسته، میزان پروتئین را با عملکرد بالینی ترکیب می‌کند. «۳۸٪ از توده پروتئینی کنترل سالم» به معنای ۳۸٪ از عملکرد طبیعی دیستروفین نیست، زیرا میکرودیستروفین از نظر ساختاری ناقص است.	قبل از در نظر گرفتن بیان به عنوان یک نقطه پایانی جایگزین، رابطه بین درصد جرمی میکرودیستروفین، محلی‌سازی سارکولما، ترمیم عملکردی پایین‌دست و مزیت بالینی را به صورت تجربی اعتبارسنجی کنید.
طراحی Biopsy (بیوپسی)	بیوپسی‌های عضله پهن خارجی طرف مقابل قبل و بعد از درمان، تغییرپذیری مکانی چپ-راست و درون عضلانی را نشان می‌دهند. پیشرفت بیماری و جایگزینی فیبرو-چربی نیز می‌تواند سیگنال نرمال‌شده با پروتئین کل را تغییر دهد.	محل بیوپسی را با استفاده از نشانه‌های آناتومیکی ثابت، استاندارد کنید، آن را بر اساس پروتئین‌های خاص عضله نرمال‌سازی کنید و به طور موازی ترکیب فیبرو-چربی را اندازه‌گیری کنید.
مقایسه‌گر/آمار NSAA	یک گروه هم‌گروهی تاریخ طبیعی خارجی، یک گروه کنترل تصادفی همزمان نیست. واجد شرایط بودن برای کارآزمایی، مراقبت‌های حمایتی، اثرات مشارکت، NSAA پایه، رژیم استروئیدی، سن و کلاس اگزون، همگی می‌توانند مقایسه را دچار سوگیری کنند. آزمون t تک‌گروهی کافی نیست. همچنین، تغییر +۱.۴ NSAA در محدوده‌ی تغییرپذیری آزمون-بازآزمون برای این گروه سنی قرار دارد.	یک مطالعه تصادفی همزمان با کنترل دارونما انجام دهید، یا حداقل از آنالیزهای تعدیل‌شده با در نظر گرفتن NSAA پایه، سن، رژیم استروئیدی، کلاس اگزون و سایر عوامل مخدوش‌کننده استفاده کنید.
مخدوش‌کننده‌ی پنجره‌ی سنی	پسران ۴ تا ۷ ساله در یک پنجره رشدی قرار دارند که در آن بیماران مبتلا به DMD که قادر به حرکت نیستند و درمان نشده‌اند، ممکن است قبل از اینکه زوال عقل غالب شود، عملکرد حرکتی خود را به دست آورند. تغییر NSAA در ۴۸ هفته، ترکیبی از پیشرفت رشدی، پیشرفت بیماری و اثر درمانی احتمالی است.	از یک گروه کنترل تصادفی همزمان با طبقه‌بندی سنی برای جدا کردن مسیر رشد از اثر درمان استفاده کنید.
سابقه بالینی قبلی	سیگنال‌های عملکردی میکرودیستروفینِ برچسب باز، به طور قابل اعتمادی مزایای تأییدی را پیش‌بینی نکرده‌اند؛ سابقه منتشر شده شامل آزمایش‌های تأییدی ژن‌درمانی میکرودیستروفین است که نتوانسته‌اند بهبودهای NSAA برچسب باز را بازتولید کنند.	به تغییرات NSAA که به صورت عمومی منتشر شده‌اند، به عنوان یک پشتوانه قطعی تکیه نکنید. به شواهد عملکردی کنترل‌شده نیاز دارند.
محدودیت‌های ساختاری سازه	ساختار ۱۳۸ کیلودالتونی، تکرارهای اسپکترین R۱۶/۱۷ را که حاوی جایگاه‌های اتصال nNOS هستند، حذف می‌کند. از دست دادن جذب nNOS می‌تواند سمپاتولیز عملکردی و محافظت از ایسکمی را در حین ورزش مختل کند و یک سقف مکانیکی برای نجات مستقل از سطح بیان ایجاد کند.	مطالعات مکانیسمی را اضافه کنید که نشان دهد آیا این ساختار خاص، عملکرد کمپلکس مرتبط با دیستروفین، محلی‌سازی nNOS، فیزیولوژی ورزشی و محافظت از عضلات را بازیابی می‌کند یا خیر.
دوام AAV	ژنوم‌های ناقل در ۱۲ هفته بیان پایداری ایجاد نمی‌کنند. ژنوم‌های AAV۹ عمدتاً اپیزوم‌های غیر ادغام‌شونده هستند و ممکن است با گذشت زمان کاهش یابند. پایداری ژنوم ناقل با بیان پایدار پروتئین یکسان نیست.	اندازه‌گیری بیان طولی پروتئین ترانس‌ژن و دوام نشانگر زیستی عملکردی فراتر از ۱۲ هفته.
مشخصات ایمنی/ایمنی	ترانس‌آمینیت در ۸/۱۲ بیمار با پاسخ ایمنی به سلول‌های منتقل‌شده توسط AAV مطابقت دارد، اما مکانیسم آن مشخص نشده است. یک مورد میوکاردیت مربوط به تروپیسم قلبی ناشی از AAV۹ است.	پایش عمیق‌تر سیستم ایمنی، بررسی ویژگی‌های ایمنی کبد/قلب و پیگیری دقیق‌تر وضعیت قلبی را فراهم کنید.
انتخاب بیمار/تعمیم‌پذیری	حذف بیماران مثبت آنتی‌بادی خنثی‌کننده ضد AAV۹، تعمیم‌پذیری را محدود می‌کند. حذف های اگزون-۴۴، کاربردپذیری آن زیرگروه DMD را محدود می‌کند. n=۱۲ برای توصیف ایمنی و اثربخشی در جمعیت وسیع‌تر DMD بسیار کوچک است.	در صورت امکان، شرایط لازم را گسترش دهید یا قبل از استفاده از نتیجه برای پشتیبانی از تأیید گسترده، تجزیه و تحلیل‌های طبقه‌بندی‌شده را بر اساس وضعیت آنتی‌بادی، کلاس ژنوتیپ/اگزون، سن و عملکرد پایه از قبل مشخص کنید.

نتیجه‌گیری نظارتی: این بسته ممکن است فعالیت بیولوژیکی را نشان دهد، اما هنوز ثابت نمی‌کند که بیان میکرودیستروفین اندازه‌گیری شده، یک جایگزین قابل اعتماد و معقول برای پیش‌بینی سودمندی بالینی باشد. شکاف‌های اصلی عبارتند از: اختصاصی بودن روش، استانداردهای کمی‌سازی نامعتبر، احتمال تداخل فیبر برگشتی، فقدان یک گروه کنترل تصادفی، تداخل NSAA مرتبط با سن، دوام نامشخص و مسائل ایمنی/تعمیم‌پذیری حل‌نشده.

برای پر کردن این شکاف، این برنامه به یک طراحی بالینی کنترل‌شده و طبقه‌بندی‌شده بر اساس سن، به همراه سنجش‌های بیان اختصاصی ترانس‌ژن، تعیین مقدار پروتئین متعامد، کنترل‌های ترکیب بافت، داده‌های دوام طولی، سنجش‌های عملکردی مکانیکی برای سازه‌ی کوتاه‌شده و پایش ایمنی قوی‌تر، به‌ویژه در کبد و قلب، نیاز دارد.

معیارها و نمرات ارزیابی

معیار

امتیازات

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

اعتبارسنجی LifeSciBench

ما LifeSciBench را از طریق بازبینی مستقل متخصصان اعتبارسنجی کردیم. بازخورد از ۴۵۳ بازبین دریافت شد که در نوشتن وظایف نقشی نداشتند. از میان این بازبینان، ۹۷٪ دارای Ph.D. یا دکترای معادل بودند، با میانگین ۱۲ سال تجربه در حوزه و ۱۴ مقاله داوری‌شده؛ ۸۸٪ گزارش کردند که دست‌کم یک جایزه یا فلوشیپ دریافت کرده‌اند.

بازبینان نمره دادند که آیا هر وظیفه ویژگی‌های لازم برای یک پرسش بنچمارک قوی را دارد یا نه: همسویی با کار پژوهشی دنیای واقعی، سنجش مناسب استدلال علمی و تخصص حوزه‌ای، اتکا به شواهد یا اجماع متخصصان، و مفید بودن کلی برای ارزیابی عملکرد مدل. میزان توافق در همه دسته‌ها از ۹۶٪ بیشتر بود.

ارتباط با دنیای واقعی

آیا این وظیفه بازتاب‌دهنده کار واقعی علوم زیستی در دنیای واقعی است؟

کاملاً موافقم: 90.4%
در کل موافقم: 98.3%

استدلال علمی / مهارت حوزه‌ای

آیا این وظیفه استدلال علمی و مهارت‌های تخصصی علوم زیستی را به‌درستی ارزیابی می‌کند و می‌سنجد؟

کاملاً موافقم: 86.4%
در کل موافقم: 98.1%

پشتوانه علمی

آیا این وظیفه پشتوانه علمی دارد، قابل پاسخ‌گویی است، و بر شواهد، داده‌ها، آرتیفکت‌ها یا اجماع کارشناسی مناسب تکیه دارد؟

کاملاً موافقم: 77.1%
در کل موافقم: 96.5%

مفید بودن کلی

در مجموع، آیا این یک وظیفه ارزیابی قوی برای علوم زیستی است؟

کاملاً موافقم: 79.1%
در کل موافقم: 96.6%

دیدگاه‌های بازبینان امتیازهای کمّی را تقویت کرد:

1 از 3

“در مجموع، این وظیفه‌ای قوی است، چون یک تفسیر محوری درست دارد و در عین حال با دقت در تعیین حدود عدم قطعیت، امکان تمایز پاسخ‌های بهتر را فراهم می‌کند.”

نتایج

ما دو سنجه مکمل را گزارش می‌کنیم. نرخ قبولی درصد وظایفی است که در آن‌ها یک مدل آستانه موفقیتِ سطح وظیفه، یعنی ۷۰٪، را برآورده می‌کند. امتیاز، میانگین پاداش روبریک است و حتی وقتی کل وظیفه حل نشده باشد، برای معیارهای منفرد امتیاز جزئی می‌دهد. هر دو اهمیت دارند، چون پاسخ به یک وظیفه علمی می‌تواند بدون برآورده کردن همه الزامات یک پاسخ کامل، تا حدی درست یا مفید باشد.

عملکرد مدل بسته به نوع وظیفه، گردش کار، و قالب پاسخ به‌طور چشمگیری تغییر می‌کند.

جایی که سیستم‌های AI از هم‌اکنون قوی ظاهر می‌شوند

LifeSciBench نشان می‌دهد مدل‌های پیشرو در وظایف مربوط به ترکیب علمی، ارتباطات، و تفسیر ساختاریافته نسبتاً قوی‌ترند. نرخ‌های قبولی مطلق هنوز متوسط‌اند، پس این حوزه‌های بنچمارک هنوز تا رسیدن به سقف عملکرد فاصله زیادی دارند، اما GPT‑Rosalind نسبت به GPT‑5.5 پیشرفت معناداری نشان می‌دهد و نرخ قبولی دقیق کلی را از ۲۵٫۷٪ به ۳۶٫۱٪ افزایش می‌دهد.

قوی‌ترین روندهای پیشرفت در قابلیت‌های مدل‌ها در حوزه‌های ارتباطات علمی و ترجمه مشاهده می‌شود. برای نمونه، نرخ قبولی در ارتباطات علمی از ۵۶٫۳٪ برای GPT‑5.5 به ۷۱٫۱٪ برای GPT‑Rosalind افزایش می‌یابد. این دسته کوچک است (n=9)، بنابراین باید با احتیاط تفسیر شود، اما نشان می‌دهد مدل‌های پیشرو به‌سرعت در توانایی سازمان‌دهی شواهد و ارائه توضیح‌های قانع‌کننده برای متخصصان در حال بهبود هستند. ترجمه، یعنی فرایند «از پژوهش تا بالین» در توسعه دارو، نیز الگویی مشابه نشان می‌دهد و از ۳۶٫۸٪ برای GPT‑5.5 به ۵۷٫۷٪ برای GPT‑Rosalind می‌رسد؛ موضوعی که نشان می‌دهد مدل‌ها به‌سرعت در توانایی پیوند دادن شواهد پیش‌بالینی به پیامدهای بالینی پیشرفت می‌کنند.

نتایج در سطح روبریک نیز همین جهت را نشان می‌دهد. در وظایفی که خروجی‌های مفید برای متخصص یا قابل اقدام می‌خواهند، GPT‑Rosalind امتیاز ۴۴٫۷٪ می‌گیرد، در مقایسه با ۲۹٫۱٪ برای GPT‑5.5. در وظایفی که به مدیریت عدم قطعیت و قیود احتیاطی نیاز دارند، امتیاز آن ۴۴٫۸٪ است، در مقایسه با ۲۹٫۳٪. این الگو نشان می‌دهد مدل‌ها زمانی بیشترین فایده را دارند که وظیفه مرز شواهدی روشن داشته باشد و قضاوت علمی ساختاریافته بخواهد.

GPT‑Rosalind در وظایف ارزشمند علمیِ شناسایی‌شده توسط متخصصان صنعت و دانشگاه، بهترین عملکرد را دارد.

GPT‑Rosalind در وظایف ارزشمند علمی که توسط کارشناسان صنعت و دانشگاه شناسایی شده‌اند، پیشتاز عملکرد است.

جایی که سیستم‌های AI هنوز کم می‌آورند

عملکرد در کارهای علمیِ سنگین از نظر آرتیفکت، سنگین از نظر طراحی، و محدود از نظر عملیاتی بسیار ضعیف‌تر باقی می‌ماند. به‌طور مشخص، طراحی، بهینه‌سازی و پیش‌بینی همچنان یکی از دشوارترین گردش کارهاست و نرخ قبولی GPT‑Rosalind در آن ۳۰٫۷٪ است؛ تحلیل نیز با ۳۰٫۳٪ به همان اندازه دشوار است.

کار با آرتیفکت‌ها یکی از نقاط ضعف آشکار مدل‌هاست. هرچند GPT‑Rosalind در محیط‌های غنی از آرتیفکت عملکرد بهتری نسبت به GPT‑5.5 دارد، نرخ قبولی آن همچنان از ۴۵٫۱٪ در وظایف صرفاً متنی به ۲۸٫۱٪ در وظایف شامل آرتیفکت یا URL کاهش می‌یابد. GPT‑5.5 نیز همین الگو را نشان می‌دهد و از ۲۹٫۹٪ به ۲۱٫۹٪ افت می‌کند. تحلیل‌های دقیق‌تر نشان می‌دهند که مدل‌های پیشرفته در استخراج اطلاعات از شکل‌های پیچیده یا فایل‌های توالی بزرگ و ادغام آن اطلاعات در پاسخ نهایی همچنان با چالش روبه‌رو هستند.

وقتی وظایف به استدلال مبتنی بر منبع یا کار با آرتیفکت‌ها نیاز دارند، نرخ قبولی کاهش می‌یابد

قالب پاسخ نیز اهمیت دارد. وظایفی که خروجی‌های دقیق در سطح توالی، ساختار یا سازه می‌خواهند نرخ قبولی پایین‌تری دارند: GPT‑Rosalind در وظایف عددی فقط به ۱۴٫۸٪ و در خروجی‌های توالی یا ساختار به ۲۴٫۰٪ می‌رسد. وظایف تولید سازه نیز شکننده‌اند؛ GPT‑Rosalind در آن‌ها ۲۷٫۳٪ است و نسبت به GPT‑5.5 بهبود اندکی نشان می‌دهد. بخشی از این شکاف ممکن است بازتاب سطح نمره‌دهی سخت‌گیرانه‌تر برای وظایف با پاسخ دقیق باشد، جایی که تفاوت‌های کوچک در محاسبه یا قالب‌بندی می‌تواند باعث شود پاسخ زیر آستانه قبولی قرار گیرد. بااین‌حال، این شکست‌ها از نظر علمی معنادارند، چون بسیاری از گردش کارهای علوم زیستی به خروجی‌هایی نیاز دارند که آن‌قدر دقیق باشند که مستقیم استفاده شوند، مانند طراحی دهنده CRISPR/HDR یا طراحی siRNA.

مدل‌ها همچنین اغلب بخشی از مسیر را طی می‌کنند، اما وظیفه را کاملاً حل نمی‌کنند. در حدود ۱۴٪ وظایف، مدل‌ها با وجود عبور نکردن از آستانه قبولی دقیق، امتیاز قابل توجهی از روبریک کسب کردند. برای GPT‑Rosalind، ۱۰۹ وظیفه نرخ قبولی زیر ۲۰٪ داشتند، اما همچنان دست‌کم ۵۰٪ پاداش روبریک گرفتند. در عمل، یعنی مدل‌ها ممکن است شواهد مرتبط را شناسایی کنند یا پاسخی جزئی و قابل قبول تولید کنند، اما باز هم شکست بخورند، چون یک قید کلیدی را از قلم می‌اندازند، از شواهد نادرست استفاده می‌کنند، محاسبه‌ای ناقص انجام می‌دهند، یا استدلال خود را به تصمیم نهاییِ مفید از نظر علمی وصل نمی‌کنند.

محدودیت‌ها و گام بعدی

LifeSciBench گامی در جهت سنجش میزان مفید بودن سیستم‌های AI برای پژوهش علوم زیستی است، اما جایگزین مطالعه مدل‌ها در محیط‌های پژوهشی زنده نیست. این بنچمارک بر وظایف خودبسنده‌ای تمرکز دارد که گردش کارهای تکرارشونده صنعت را بازتاب می‌دهند، در حالی که بسیاری از تخصص‌های علمی و انواع وظیفه بیرون از دامنه فعلی آن باقی می‌مانند. پژوهش واقعی تکرارشونده است: دانشمندان شواهد تازه گردآوری می‌کنند، فرضیه‌ها را بازنگری می‌کنند، آزمایش‌های پیگیری طراحی می‌کنند، و با ظهور نتایج، برنامه‌های خود را سازگار می‌سازند.

بنابراین عملکرد قوی در LifeSciBench باید به‌عنوان شواهدی از توانمندی واقع‌گرایانه در سطح وظیفه تفسیر شود، نه به‌عنوان سنجه‌ای مستقیم از اثر پژوهشی پایین‌دستی. این بنچمارک بر گردش کارهای صنعت تکیه دارد، اما تنوع یا پویایی کامل برنامه‌های پژوهشی زنده را ثبت نمی‌کند؛ برنامه‌هایی که پیشرفت در آن‌ها به عواملی وابسته است که در طول زمان آشکار می‌شوند.

گام بعدی، پیوند دادن عملکرد بنچمارک به مطالعات استقرار در گردش کارهای پژوهشی زنده است. هرچند LifeSciBench با همکاری دانشمندان شاغل توسعه یافت، سنجش اینکه آیا سیستم‌های AI کشف را سرعت می‌بخشند یا نتایج R&D را بهبود می‌دهند، نیازمند مطالعه استفاده و عملکرد مدل در محیط‌های پژوهشی واقعی، در افق‌های زمانی طولانی‌تر، و در چندین دور استدلال، بازخورد و پیگیری آزمایشی است.