معرفی LifeSciBench
بنچمارکی نوشته و بازبینیشده توسط متخصصان، مبتنی بر پژوهش واقعی علوم زیستی
سیستمهای AI عامل محور بهطور فزایندهای توانمند میشوند تا وظایف علمی را انجام دهند. بااینحال، مفید بودن آنها برای پژوهشگران علوم زیستی به این بستگی دارد که پیچیدگی پژوهش واقعی را چقدر خوب مدیریت کنند. این کار بهندرت شبیه یک پرسش ساده برای یادآوری یک واقعیت یا یک مسئله پیشبینی تمیز است. پژوهشگران شواهد ناقص را تفسیر میکنند، نتایج متعارض را با هم سازگار میسازند، آزمایشهای دشوار طراحی میکنند، اشکالات آزمونها را رفع میکنند، ریسک ترجمه به بالین را ارزیابی میکنند، و در شرایط عدم قطعیت درباره گام بعدی تصمیم میگیرند.
بنچمارکهای کنونی این تواناییها را بهطور کامل پوشش نمیدهند. بسیاری از ارزیابیهای علوم زیستی بر حوزههای محدود یا مهارتهای جداگانه تمرکز دارند و در نتیجه پرسشهایی با قالبهای ساختاریافته و پاسخهای مرجع تمیز تولید میکنند. این ارزیابیها با وجود ارزشمند بودن، اغلب واقعاً نمیسنجند که آیا یک مدل میتواند در گستره وسیعتر کارهای سطح پژوهش مشارکت کند یا نه.
ما LifeSciBench را طراحی کردیم تا به پر کردن این شکاف کمک کند. هر وظیفه بر قضاوت دانشمندان علوم زیستیِ شاغل تکیه دارد که آموزش در سطح Ph.D. و تجربه مستقیم در پیشبرد برنامههای کشف دارو در محیطهای زیستفناوری و داروسازی دارند.
LifeSciBench شامل ۷۵۰ وظیفه نوشتهشده توسط متخصصان است که هفت گردش کار و هفت حوزه زیستی را پوشش میدهد.
1,062
آرتیفکتهای وظیفه
173
دانشمندان مشارکتکننده
19,020
معیارهای روبریک
453
بازبینان متخصص
LifeSciBench چه چیزهایی را میسنجد
LifeSciBench میسنجد که آیا سیستمهای AI میتوانند از وظایف پژوهشی واقعگرایانه در علوم زیستی پشتیبانی کنند، نه اینکه صرفاً به پرسشهای زیستشناسی پاسخ دهند. برای تعریف طبقهبندی بنچمارک، از دانشمندان علوم زیستیِ شاغل درباره گردش کارهایی که در محیطهای پژوهش کاربردی بیشترین استفاده را دارند نظرسنجی کردیم. سپس پاسخهای آنها را در هفت دسته تکرارشونده گروهبندی کردیم: کار با شواهد، تحلیل، طراحی و بهینهسازی، استدلال علمی، اعتبارسنجی و عملیات، ترجمه، و ارتباطات علمی.
هر وظیفه مانند درخواستی ساختاربندی شده است که یک دانشمند ممکن است از یک همکار آگاه مطرح کند: اعلان علمی، هر زمینه یا آرتیفکت مرتبط، و یک پاسخ آزاد. روبریکهای نوشتهشده توسط متخصصان ارزیابی میکنند که آیا یک مدل میتواند برای مسئلهای مشخص، پاسخ درست را با سطح مناسبی از جزئیات، توجیه، قیود احتیاطی و قالببندی مورد انتظار یک دانشمند تولید کند یا نه.
ساخت مجموعهداده
LifeSciBench استدلال علمی را در کنار مهارتهای عملی و کمتر دقیقاً تعریفشدهای ارزیابی میکند که برای استفاده علمی در دنیای واقعی ضروریاند. وظایف آن از مدلها میخواهند مسائل پژوهشی واقعگرایانه را حلوفصل کنند: تفسیر شواهد، انجام قضاوتهای مبتنی بر حوزه، و بیان نتیجهگیریهایی که برای بازبینان متخصص مفید باشد. بسیاری از وظایف همچنین از مدلها میخواهند بهجای تکیه صرف بر متن اعلان، عدم قطعیت را مدیریت کنند و بر پایه فایلهای داده پشتیبان استدلال کنند.
این بنچمارک برای بازتاب دادن پیچیدگی کار در علوم زیستی طراحی شده است. در مجموع، ۷۹٪ وظایف به چند مرحله استدلال یا تصمیمگیری نیاز دارند و میانگین هر وظیفه چهار مرحله است. LifeSciBench شامل ۱٬۰۶۲ آرتیفکت پیوستشده است که شکلها، PDFها، جدولها، فایلهای توالی، فایلهای ساختاری یا شیمیایی، و منابع وب را دربر میگیرد. بیش از نیمی از وظایف (۵۳٪) از مدلها میخواهند اطلاعات را از دستکم یک آرتیفکت تفسیر یا ترکیب کنند.
وظایف را ۱۷۳ دانشمند متخصص از رشتههای گوناگون علوم زیستی ایجاد کردند. هر دانشمند آموزش در سطح Ph.D. و تجربه صنعت زیستفناوری یا داروسازی داشت. وظایف میتوانستند پیش از پذیرش، هر تعداد چرخه بازنگری لازم را طی کنند و سقف ثابتی برای تعداد دورها وجود نداشت؛ وظایف پذیرفتهشده بهطور میانگین شش چرخه بازبینی خودکارِ خودهدایتشده را گذراندند و دستکم دو دور بازبینی تخصصی را کامل کردند. بازبینیها بر یک پاسخ درستِ قابل راستیآزمایی یا اجماع قوی متخصصان تکیه داشتند و در میان بازبینان حوزه مرتبط، دستکم ۹۰٪ توافق وجود داشت. این فرایند کمک کرد تا وظایف پذیرفتهشده پشتوانه علمی داشته باشند، برای نمرهدهی بهاندازه کافی روشن باشند، و نماینده پژوهش کاربردی باشند.
نمرهدهی و تفکیک روبریک
وظایف LifeSciBench با روبریکی جزئی، اختصاصی هر وظیفه و متناسب با آن نمرهدهی میشوند که پاسخ مورد انتظار را به ادعاهای علمی، محاسبات، تصمیمها، توجیهها و موارد مشابه مشخص تفکیک میکند. در سراسر بنچمارک، روبریکهای تدوینشده توسط متخصصان ۱۹٬۰۲۰ معیار را شامل میشوند—بهطور میانگین ۲۵ معیار برای هر وظیفه—تا هم درستی علمی و هم مفید بودن برای تصمیمهای پژوهشی سنجیده شود.
این طراحی بازتاب میدهد که کار علمی در عمل چگونه ارزیابی میشود: بسیاری از وظایف علوم زیستی را نمیتوان فقط با بررسی پاسخ نهایی نمرهدهی کرد. یک پاسخ ممکن است به نتیجهگیری کلی درست برسد، اما همچنان ناقص ارزیابی شود؛ مثلاً اگر یک محدودیت کلیدی آزمون را نادیده بگیرد یا یک ظرافت زیستی بسیار پیامددار را فعالانه مطرح نکند. در مقابل، یک پاسخ جزئی ممکن است استدلال باکیفیتی داشته باشد، حتی اگر وظیفه را کاملاً حل نکند.
روبریکهای ریزدانه این ظرافت را ثبت میکنند. LifeSciBench نهتنها دقت پاسخ نهایی را میسنجد، بلکه ارزیابی میکند که آیا یک مدل به شیوهای از نظر علمی معتبر و از نظر عملیاتی مفید به پاسخ میرسد یا نه.
استخراج، تطبیق و ممیزی شواهد علمی از مقالات، شکلها، جدولها و سوابق آزمایشی.
مثال Eval
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
پاسخ نامزد
نکتهی اصلی: همانطور که ارائه شد، این بسته به اندازهی کافی قوی نیست که از تأیید تسریعشدهی بیان میکرودیستروفین به عنوان یک نقطهی پایانی جایگزین که احتمالاً پیشبینیکنندهی مزایای بالینی است، پشتیبانی کند. یک بررسیکنندهی شکاک FDA احتمالاً شواهد نشانگر زیستی، عملکردی، دوام، ایمنی و تعمیمپذیری را فاقد پشتوانهی مادی میداند.
مورد بسته | حالت خرابی کلید | چه چیزی مورد نیاز خواهد بود |
|---|---|---|
سنجش کمی وسترن بلات | MANEX۱A به یک اپیتوپ N-ترمینال مشترک بین دیستروفین تمامقد درونزا و تراریخته میکرو-دیستروفین متصل میشود، بنابراین این سنجش به طور کامل تراریخته را از دیستروفین باقیمانده/بازگشتی تشخیص نمیدهد. سنجش کمی یک میکرودیستروفین ۱۳۸ کیلودالتونی در برابر یک استاندارد دیستروفین کامل سالم نیز نامعتبر است. | از یک استاندارد میکرودیستروفین نوترکیب و یک روش متعامد که ژن ترانس را از دیستروفین درونزا متمایز میکند، مانند طیفسنجی جرمی هدفمند یا سنجش اختصاصی ترانسژن/اپیتوپ استفاده کنید. |
ایمونوفلورسانس | آنتیبادی پلیکلونال C-ترمینال به دلیل نداشتن دامنه C-ترمینال در ساختار ۱۳۸ کیلودالتونی، مناسب نیست. بسیاری از بیماران DMD دارای فیبرهای برگشتی هستند و دیستروفین برگشتی میتواند اپیتوپهای C-ترمینال را حفظ کند. فیبرهای برگشتی ممکن است با افزایش سن به صورت کلونی گسترش یابند و سیگنال IF را به ویژه در پسران بزرگتر بایاس کنند. | IF را با یک آنتیبادی علیه اپیتوپی که در ژن ترانسژن وجود دارد اما در دیستروفین برگشتی وجود ندارد، تکرار کنید. فیبرهای مثبت تراریخته را جدا از فیبرهای برگشتی، کمّیسازی کنید. |
اعتبار نقطه پایانی جایگزین | این بسته، میزان پروتئین را با عملکرد بالینی ترکیب میکند. «۳۸٪ از توده پروتئینی کنترل سالم» به معنای ۳۸٪ از عملکرد طبیعی دیستروفین نیست، زیرا میکرودیستروفین از نظر ساختاری ناقص است. | قبل از در نظر گرفتن بیان به عنوان یک نقطه پایانی جایگزین، رابطه بین درصد جرمی میکرودیستروفین، محلیسازی سارکولما، ترمیم عملکردی پاییندست و مزیت بالینی را به صورت تجربی اعتبارسنجی کنید. |
طراحی Biopsy (بیوپسی) | بیوپسیهای عضله پهن خارجی طرف مقابل قبل و بعد از درمان، تغییرپذیری مکانی چپ-راست و درون عضلانی را نشان میدهند. پیشرفت بیماری و جایگزینی فیبرو-چربی نیز میتواند سیگنال نرمالشده با پروتئین کل را تغییر دهد. | محل بیوپسی را با استفاده از نشانههای آناتومیکی ثابت، استاندارد کنید، آن را بر اساس پروتئینهای خاص عضله نرمالسازی کنید و به طور موازی ترکیب فیبرو-چربی را اندازهگیری کنید. |
مقایسهگر/آمار NSAA | یک گروه همگروهی تاریخ طبیعی خارجی، یک گروه کنترل تصادفی همزمان نیست. واجد شرایط بودن برای کارآزمایی، مراقبتهای حمایتی، اثرات مشارکت، NSAA پایه، رژیم استروئیدی، سن و کلاس اگزون، همگی میتوانند مقایسه را دچار سوگیری کنند. آزمون t تکگروهی کافی نیست. همچنین، تغییر +۱.۴ NSAA در محدودهی تغییرپذیری آزمون-بازآزمون برای این گروه سنی قرار دارد. | یک مطالعه تصادفی همزمان با کنترل دارونما انجام دهید، یا حداقل از آنالیزهای تعدیلشده با در نظر گرفتن NSAA پایه، سن، رژیم استروئیدی، کلاس اگزون و سایر عوامل مخدوشکننده استفاده کنید. |
مخدوشکنندهی پنجرهی سنی | پسران ۴ تا ۷ ساله در یک پنجره رشدی قرار دارند که در آن بیماران مبتلا به DMD که قادر به حرکت نیستند و درمان نشدهاند، ممکن است قبل از اینکه زوال عقل غالب شود، عملکرد حرکتی خود را به دست آورند. تغییر NSAA در ۴۸ هفته، ترکیبی از پیشرفت رشدی، پیشرفت بیماری و اثر درمانی احتمالی است. | از یک گروه کنترل تصادفی همزمان با طبقهبندی سنی برای جدا کردن مسیر رشد از اثر درمان استفاده کنید. |
سابقه بالینی قبلی | سیگنالهای عملکردی میکرودیستروفینِ برچسب باز، به طور قابل اعتمادی مزایای تأییدی را پیشبینی نکردهاند؛ سابقه منتشر شده شامل آزمایشهای تأییدی ژندرمانی میکرودیستروفین است که نتوانستهاند بهبودهای NSAA برچسب باز را بازتولید کنند. | به تغییرات NSAA که به صورت عمومی منتشر شدهاند، به عنوان یک پشتوانه قطعی تکیه نکنید. به شواهد عملکردی کنترلشده نیاز دارند. |
محدودیتهای ساختاری سازه | ساختار ۱۳۸ کیلودالتونی، تکرارهای اسپکترین R۱۶/۱۷ را که حاوی جایگاههای اتصال nNOS هستند، حذف میکند. از دست دادن جذب nNOS میتواند سمپاتولیز عملکردی و محافظت از ایسکمی را در حین ورزش مختل کند و یک سقف مکانیکی برای نجات مستقل از سطح بیان ایجاد کند. | مطالعات مکانیسمی را اضافه کنید که نشان دهد آیا این ساختار خاص، عملکرد کمپلکس مرتبط با دیستروفین، محلیسازی nNOS، فیزیولوژی ورزشی و محافظت از عضلات را بازیابی میکند یا خیر. |
دوام AAV | ژنومهای ناقل در ۱۲ هفته بیان پایداری ایجاد نمیکنند. ژنومهای AAV۹ عمدتاً اپیزومهای غیر ادغامشونده هستند و ممکن است با گذشت زمان کاهش یابند. پایداری ژنوم ناقل با بیان پایدار پروتئین یکسان نیست. | اندازهگیری بیان طولی پروتئین ترانسژن و دوام نشانگر زیستی عملکردی فراتر از ۱۲ هفته. |
مشخصات ایمنی/ایمنی | ترانسآمینیت در ۸/۱۲ بیمار با پاسخ ایمنی به سلولهای منتقلشده توسط AAV مطابقت دارد، اما مکانیسم آن مشخص نشده است. یک مورد میوکاردیت مربوط به تروپیسم قلبی ناشی از AAV۹ است. | پایش عمیقتر سیستم ایمنی، بررسی ویژگیهای ایمنی کبد/قلب و پیگیری دقیقتر وضعیت قلبی را فراهم کنید. |
انتخاب بیمار/تعمیمپذیری | حذف بیماران مثبت آنتیبادی خنثیکننده ضد AAV۹، تعمیمپذیری را محدود میکند. حذف های اگزون-۴۴، کاربردپذیری آن زیرگروه DMD را محدود میکند. n=۱۲ برای توصیف ایمنی و اثربخشی در جمعیت وسیعتر DMD بسیار کوچک است. | در صورت امکان، شرایط لازم را گسترش دهید یا قبل از استفاده از نتیجه برای پشتیبانی از تأیید گسترده، تجزیه و تحلیلهای طبقهبندیشده را بر اساس وضعیت آنتیبادی، کلاس ژنوتیپ/اگزون، سن و عملکرد پایه از قبل مشخص کنید. |
نتیجهگیری نظارتی: این بسته ممکن است فعالیت بیولوژیکی را نشان دهد، اما هنوز ثابت نمیکند که بیان میکرودیستروفین اندازهگیری شده، یک جایگزین قابل اعتماد و معقول برای پیشبینی سودمندی بالینی باشد. شکافهای اصلی عبارتند از: اختصاصی بودن روش، استانداردهای کمیسازی نامعتبر، احتمال تداخل فیبر برگشتی، فقدان یک گروه کنترل تصادفی، تداخل NSAA مرتبط با سن، دوام نامشخص و مسائل ایمنی/تعمیمپذیری حلنشده.
برای پر کردن این شکاف، این برنامه به یک طراحی بالینی کنترلشده و طبقهبندیشده بر اساس سن، به همراه سنجشهای بیان اختصاصی ترانسژن، تعیین مقدار پروتئین متعامد، کنترلهای ترکیب بافت، دادههای دوام طولی، سنجشهای عملکردی مکانیکی برای سازهی کوتاهشده و پایش ایمنی قویتر، بهویژه در کبد و قلب، نیاز دارد.
معیارها و نمرات ارزیابی
اعتبارسنجی LifeSciBench
ما LifeSciBench را از طریق بازبینی مستقل متخصصان اعتبارسنجی کردیم. بازخورد از ۴۵۳ بازبین دریافت شد که در نوشتن وظایف نقشی نداشتند. از میان این بازبینان، ۹۷٪ دارای Ph.D. یا دکترای معادل بودند، با میانگین ۱۲ سال تجربه در حوزه و ۱۴ مقاله داوریشده؛ ۸۸٪ گزارش کردند که دستکم یک جایزه یا فلوشیپ دریافت کردهاند.
بازبینان نمره دادند که آیا هر وظیفه ویژگیهای لازم برای یک پرسش بنچمارک قوی را دارد یا نه: همسویی با کار پژوهشی دنیای واقعی، سنجش مناسب استدلال علمی و تخصص حوزهای، اتکا به شواهد یا اجماع متخصصان، و مفید بودن کلی برای ارزیابی عملکرد مدل. میزان توافق در همه دستهها از ۹۶٪ بیشتر بود.
دیدگاههای بازبینان امتیازهای کمّی را تقویت کرد:
نتایج
ما دو سنجه مکمل را گزارش میکنیم. نرخ قبولی درصد وظایفی است که در آنها یک مدل آستانه موفقیتِ سطح وظیفه، یعنی ۷۰٪، را برآورده میکند. امتیاز، میانگین پاداش روبریک است و حتی وقتی کل وظیفه حل نشده باشد، برای معیارهای منفرد امتیاز جزئی میدهد. هر دو اهمیت دارند، چون پاسخ به یک وظیفه علمی میتواند بدون برآورده کردن همه الزامات یک پاسخ کامل، تا حدی درست یا مفید باشد.
عملکرد مدل بسته به نوع وظیفه، گردش کار، و قالب پاسخ بهطور چشمگیری تغییر میکند.
جایی که سیستمهای AI از هماکنون قوی ظاهر میشوند
LifeSciBench نشان میدهد مدلهای پیشرو در وظایف مربوط به ترکیب علمی، ارتباطات، و تفسیر ساختاریافته نسبتاً قویترند. نرخهای قبولی مطلق هنوز متوسطاند، پس این حوزههای بنچمارک هنوز تا رسیدن به سقف عملکرد فاصله زیادی دارند، اما GPT‑Rosalind نسبت به GPT‑5.5 پیشرفت معناداری نشان میدهد و نرخ قبولی دقیق کلی را از ۲۵٫۷٪ به ۳۶٫۱٪ افزایش میدهد.
قویترین روندهای پیشرفت در قابلیتهای مدلها در حوزههای ارتباطات علمی و ترجمه مشاهده میشود. برای نمونه، نرخ قبولی در ارتباطات علمی از ۵۶٫۳٪ برای GPT‑5.5 به ۷۱٫۱٪ برای GPT‑Rosalind افزایش مییابد. این دسته کوچک است (n=9)، بنابراین باید با احتیاط تفسیر شود، اما نشان میدهد مدلهای پیشرو بهسرعت در توانایی سازماندهی شواهد و ارائه توضیحهای قانعکننده برای متخصصان در حال بهبود هستند. ترجمه، یعنی فرایند «از پژوهش تا بالین» در توسعه دارو، نیز الگویی مشابه نشان میدهد و از ۳۶٫۸٪ برای GPT‑5.5 به ۵۷٫۷٪ برای GPT‑Rosalind میرسد؛ موضوعی که نشان میدهد مدلها بهسرعت در توانایی پیوند دادن شواهد پیشبالینی به پیامدهای بالینی پیشرفت میکنند.
نتایج در سطح روبریک نیز همین جهت را نشان میدهد. در وظایفی که خروجیهای مفید برای متخصص یا قابل اقدام میخواهند، GPT‑Rosalind امتیاز ۴۴٫۷٪ میگیرد، در مقایسه با ۲۹٫۱٪ برای GPT‑5.5. در وظایفی که به مدیریت عدم قطعیت و قیود احتیاطی نیاز دارند، امتیاز آن ۴۴٫۸٪ است، در مقایسه با ۲۹٫۳٪. این الگو نشان میدهد مدلها زمانی بیشترین فایده را دارند که وظیفه مرز شواهدی روشن داشته باشد و قضاوت علمی ساختاریافته بخواهد.
GPT‑Rosalind در وظایف ارزشمند علمیِ شناساییشده توسط متخصصان صنعت و دانشگاه، بهترین عملکرد را دارد.
GPT‑Rosalind در وظایف ارزشمند علمی که توسط کارشناسان صنعت و دانشگاه شناسایی شدهاند، پیشتاز عملکرد است.
GPT‑Rosalind در وظایف ارزشمند علمی که توسط کارشناسان صنعت و دانشگاه شناسایی شدهاند، پیشتاز عملکرد است.
جایی که سیستمهای AI هنوز کم میآورند
عملکرد در کارهای علمیِ سنگین از نظر آرتیفکت، سنگین از نظر طراحی، و محدود از نظر عملیاتی بسیار ضعیفتر باقی میماند. بهطور مشخص، طراحی، بهینهسازی و پیشبینی همچنان یکی از دشوارترین گردش کارهاست و نرخ قبولی GPT‑Rosalind در آن ۳۰٫۷٪ است؛ تحلیل نیز با ۳۰٫۳٪ به همان اندازه دشوار است.
کار با آرتیفکتها یکی از نقاط ضعف آشکار مدلهاست. هرچند GPT‑Rosalind در محیطهای غنی از آرتیفکت عملکرد بهتری نسبت به GPT‑5.5 دارد، نرخ قبولی آن همچنان از ۴۵٫۱٪ در وظایف صرفاً متنی به ۲۸٫۱٪ در وظایف شامل آرتیفکت یا URL کاهش مییابد. GPT‑5.5 نیز همین الگو را نشان میدهد و از ۲۹٫۹٪ به ۲۱٫۹٪ افت میکند. تحلیلهای دقیقتر نشان میدهند که مدلهای پیشرفته در استخراج اطلاعات از شکلهای پیچیده یا فایلهای توالی بزرگ و ادغام آن اطلاعات در پاسخ نهایی همچنان با چالش روبهرو هستند.
وقتی وظایف به استدلال مبتنی بر منبع یا کار با آرتیفکتها نیاز دارند، نرخ قبولی کاهش مییابد
قالب پاسخ نیز اهمیت دارد. وظایفی که خروجیهای دقیق در سطح توالی، ساختار یا سازه میخواهند نرخ قبولی پایینتری دارند: GPT‑Rosalind در وظایف عددی فقط به ۱۴٫۸٪ و در خروجیهای توالی یا ساختار به ۲۴٫۰٪ میرسد. وظایف تولید سازه نیز شکنندهاند؛ GPT‑Rosalind در آنها ۲۷٫۳٪ است و نسبت به GPT‑5.5 بهبود اندکی نشان میدهد. بخشی از این شکاف ممکن است بازتاب سطح نمرهدهی سختگیرانهتر برای وظایف با پاسخ دقیق باشد، جایی که تفاوتهای کوچک در محاسبه یا قالببندی میتواند باعث شود پاسخ زیر آستانه قبولی قرار گیرد. بااینحال، این شکستها از نظر علمی معنادارند، چون بسیاری از گردش کارهای علوم زیستی به خروجیهایی نیاز دارند که آنقدر دقیق باشند که مستقیم استفاده شوند، مانند طراحی دهنده CRISPR/HDR یا طراحی siRNA.
مدلها همچنین اغلب بخشی از مسیر را طی میکنند، اما وظیفه را کاملاً حل نمیکنند. در حدود ۱۴٪ وظایف، مدلها با وجود عبور نکردن از آستانه قبولی دقیق، امتیاز قابل توجهی از روبریک کسب کردند. برای GPT‑Rosalind، ۱۰۹ وظیفه نرخ قبولی زیر ۲۰٪ داشتند، اما همچنان دستکم ۵۰٪ پاداش روبریک گرفتند. در عمل، یعنی مدلها ممکن است شواهد مرتبط را شناسایی کنند یا پاسخی جزئی و قابل قبول تولید کنند، اما باز هم شکست بخورند، چون یک قید کلیدی را از قلم میاندازند، از شواهد نادرست استفاده میکنند، محاسبهای ناقص انجام میدهند، یا استدلال خود را به تصمیم نهاییِ مفید از نظر علمی وصل نمیکنند.
محدودیتها و گام بعدی
LifeSciBench گامی در جهت سنجش میزان مفید بودن سیستمهای AI برای پژوهش علوم زیستی است، اما جایگزین مطالعه مدلها در محیطهای پژوهشی زنده نیست. این بنچمارک بر وظایف خودبسندهای تمرکز دارد که گردش کارهای تکرارشونده صنعت را بازتاب میدهند، در حالی که بسیاری از تخصصهای علمی و انواع وظیفه بیرون از دامنه فعلی آن باقی میمانند. پژوهش واقعی تکرارشونده است: دانشمندان شواهد تازه گردآوری میکنند، فرضیهها را بازنگری میکنند، آزمایشهای پیگیری طراحی میکنند، و با ظهور نتایج، برنامههای خود را سازگار میسازند.
بنابراین عملکرد قوی در LifeSciBench باید بهعنوان شواهدی از توانمندی واقعگرایانه در سطح وظیفه تفسیر شود، نه بهعنوان سنجهای مستقیم از اثر پژوهشی پاییندستی. این بنچمارک بر گردش کارهای صنعت تکیه دارد، اما تنوع یا پویایی کامل برنامههای پژوهشی زنده را ثبت نمیکند؛ برنامههایی که پیشرفت در آنها به عواملی وابسته است که در طول زمان آشکار میشوند.
گام بعدی، پیوند دادن عملکرد بنچمارک به مطالعات استقرار در گردش کارهای پژوهشی زنده است. هرچند LifeSciBench با همکاری دانشمندان شاغل توسعه یافت، سنجش اینکه آیا سیستمهای AI کشف را سرعت میبخشند یا نتایج R&D را بهبود میدهند، نیازمند مطالعه استفاده و عملکرد مدل در محیطهای پژوهشی واقعی، در افقهای زمانی طولانیتر، و در چندین دور استدلال، بازخورد و پیگیری آزمایشی است.


