17 Juni 2026

Memperkenalkan LifeSciBench

Benchmark yang ditulis dan ditinjau pakar, berlandaskan riset ilmu hayati dunia nyata

Memuat…

Sistem AI agentik semakin mampu menjalankan tugas-tugas ilmiah. Namun, kegunaannya bagi peneliti ilmu hayati bergantung pada seberapa baik sistem tersebut menangani kompleksitas riset nyata. Pekerjaan itu jarang tampak seperti satu pertanyaan hafalan fakta atau masalah prediksi yang rapi. Peneliti menafsirkan bukti yang tidak lengkap, mendamaikan hasil yang bertentangan, merancang eksperimen sulit, memecahkan masalah assay, mengevaluasi risiko translasi, dan memutuskan langkah berikutnya di tengah ketidakpastian.

Benchmark saat ini belum sepenuhnya menangkap kemampuan-kemampuan ini. Banyak evaluasi ilmu hayati berfokus pada domain sempit atau keterampilan terpisah, sehingga menghasilkan pertanyaan dengan format terstruktur dan jawaban acuan yang rapi. Meski bernilai, evaluasi tersebut sering gagal benar-benar menilai apakah model dapat berkontribusi di rentang pekerjaan tingkat riset yang lebih luas.

Kami merancang LifeSciBench untuk membantu menutup kesenjangan ini. Setiap tugas berlandaskan penilaian ilmuwan ilmu hayati aktif dengan pelatihan setingkat Ph.D. dan pengalaman langsung memajukan program penemuan obat di lingkungan bioteknologi dan farmasi.

LifeSciBench mencakup 750 tugas yang ditulis pakar, mencakup tujuh alur kerja dan tujuh domain biologis.

1,062

Artefak tugas

173

Kontributor ilmuwan

19,020

Kriteria rubrik

453

Peninjau pakar

Apa yang diukur LifeSciBench

LifeSciBench mengukur apakah sistem AI dapat mendukung tugas riset ilmu hayati yang realistis, bukan sekadar menjawab pertanyaan biologi. Untuk menentukan taksonomi benchmark, kami menyurvei ilmuwan ilmu hayati aktif tentang alur kerja yang paling sering mereka gunakan dalam riset terapan. Kemudian, kami mengelompokkan jawaban mereka ke dalam tujuh kategori berulang: penanganan bukti, analisis, desain dan optimisasi, penalaran ilmiah, validasi dan operasi, translasi, serta komunikasi ilmiah.

Setiap tugas disusun seperti permintaan yang mungkin diberikan seorang ilmuwan kepada kolaborator yang berpengetahuan: prompt ilmiah, konteks atau artefak yang relevan, dan jawaban bebas. Rubrik yang ditulis pakar mengevaluasi apakah model dapat menghasilkan jawaban yang tepat untuk masalah tertentu, dengan tingkat detail, justifikasi, catatan kehati-hatian, dan format yang diharapkan ilmuwan.

Konstruksi dataset

LifeSciBench mengevaluasi penalaran ilmiah bersama keterampilan praktis yang kurang terdefinisi tetapi diperlukan untuk penggunaan ilmiah di dunia nyata. Tugas-tugasnya meminta model menuntaskan masalah riset yang realistis: menafsirkan bukti, membuat penilaian berbasis domain, dan mengomunikasikan kesimpulan yang berguna bagi peninjau pakar. Banyak tugas juga menuntut model menangani ketidakpastian dan bernalar atas file data pendukung, bukan hanya mengandalkan teks prompt.

Benchmark ini dirancang untuk mencerminkan kompleksitas pekerjaan ilmu hayati. Secara keseluruhan, 79% tugas membutuhkan beberapa langkah penalaran atau pengambilan keputusan, dengan rata-rata empat langkah per tugas. LifeSciBench mencakup 1.062 artefak terlampir yang meliputi gambar, PDF, tabel, file sekuens, file struktur atau kimia, dan referensi web. Lebih dari separuh tugas (53%) mengharuskan model menafsirkan atau menyintesis informasi dari setidaknya satu artefak.

Tugas dibuat oleh 173 ilmuwan pakar dari berbagai disiplin ilmu hayati. Setiap ilmuwan memiliki pelatihan setingkat Ph.D. dan pengalaman di industri bioteknologi atau farmasi. Tugas dapat menjalani siklus revisi sebanyak yang diperlukan sebelum diterima, tanpa batas tetap jumlah putaran; tugas yang diterima rata-rata melalui enam siklus tinjauan otomatis mandiri dan menyelesaikan setidaknya dua putaran tinjauan pakar. Tinjauan berlandaskan pada jawaban benar yang dapat diverifikasi atau konsensus pakar yang kuat, dengan setidaknya 90% kesepakatan di antara peninjau dalam domain terkait. Proses ini membantu memastikan bahwa tugas yang diterima berlandaskan sains, cukup jelas untuk dinilai, dan mewakili riset terapan.

Diagram yang menunjukkan tugas LifeSciBench yang menggabungkan sumber data ilmu hayati seperti sekuens genomik, struktur molekul, gambar, dokumen, spreadsheet, dan tautan web dengan penalaran multi-langkah serta tinjauan pakar.

Penilaian dan rincian rubrik

Tugas LifeSciBench dinilai dengan rubrik terperinci dan khusus tugas yang memecah respons yang diharapkan menjadi klaim ilmiah, perhitungan, keputusan, justifikasi, dan sebagainya. Di seluruh benchmark, rubrik yang dikembangkan pakar mencakup 19.020 kriteria—rata-rata 25 per tugas—untuk menilai ketepatan ilmiah sekaligus kegunaan bagi keputusan riset.

Desain ini mencerminkan cara kerja ilmiah dinilai dalam praktik: banyak tugas ilmu hayati tidak dapat dinilai hanya dengan memeriksa jawaban akhir. Sebuah respons dapat mencapai kesimpulan tingkat tinggi yang benar tetapi tetap dinilai tidak lengkap jika, misalnya, mengabaikan keterbatasan assay utama atau gagal mengangkat nuansa biologis yang sangat berdampak. Sebaliknya, respons parsial dapat memuat penalaran berkualitas tinggi meski tidak sepenuhnya menyelesaikan tugas.

Rubrik yang granular menangkap nuansa ini. LifeSciBench tidak hanya mengevaluasi akurasi jawaban akhir, tetapi juga apakah model mencapai jawabannya dengan cara yang valid secara ilmiah dan berguna secara operasional.

Mengekstraksi, merekonsiliasi, dan mengaudit bukti ilmiah dari makalah, gambar, tabel, dan catatan eksperimen.

Contoh Eval

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Respons Kandidat

Intinya: Seperti yang disajikan, paket ini belum cukup kuat untuk mendukung persetujuan dipercepat berdasarkan ekspresi micro-dystrophin sebagai endpoint surrogate yang secara wajar mungkin memprediksi manfaat klinis. Peninjau FDA yang skeptis kemungkinan akan menilai bukti biomarker, fungsional, durabilitas, keamanan, dan generalisasi sebagai kurang didukung secara material.

Item Paket	Mode Kegagalan Utama	Yang Diperlukan
Kuantifikasi Western blot	MANEX1A mengikat epitope N-terminal yang dimiliki bersama oleh dystrophin full-length endogen dan transgen micro-dystrophin, sehingga assay tidak membedakan transgen dari dystrophin residual/revertant secara bersih. Mengkuantifikasi micro-dystrophin 138 kDa terhadap standar dystrophin full-length sehat juga tidak valid.	Gunakan standar micro-dystrophin rekombinan dan metode ortogonal yang membedakan transgen dari dystrophin endogen, seperti spektrometri massa tertarget atau assay spesifik transgen/epitope.
Imunofluoresensi	Antibodi poliklonal C-terminal kurang cocok karena konstruk 138 kDa tidak memiliki domain C-terminal. Banyak pasien DMD memiliki serat revertant, dan dystrophin revertant dapat mempertahankan epitope C-terminal. Serat revertant dapat berkembang secara klonal seiring usia, membiaskan sinyal IF, terutama pada anak laki-laki yang lebih tua.	Ulangi IF dengan antibodi terhadap epitope yang ada dalam transgen tetapi tidak ada pada dystrophin revertant. Kuantifikasi serat positif transgen secara terpisah dari serat revertant.
Validitas endpoint surrogate	Paket ini mencampuradukkan jumlah protein dengan fungsi klinis. “38% dari massa protein kontrol sehat” tidak berarti 38% fungsi dystrophin normal karena micro-dystrophin terpotong secara struktural.	Validasi secara empiris hubungan antara persen massa micro-dystrophin, lokalisasi sarkolemal, pemulihan fungsi downstream, dan manfaat klinis sebelum memperlakukan ekspresi sebagai endpoint surrogate.
Desain biopsi	Biopsi vastus lateralis kontralateral pra- dan pascaperlakuan memperkenalkan variabilitas kiri-kanan dan spasial intramuskular. Progresi penyakit dan penggantian fibro-lemak juga dapat mengubah sinyal yang dinormalisasi terhadap total protein.	Standarkan lokasi biopsi menggunakan penanda anatomi yang konsisten, normalisasi terhadap protein spesifik otot, dan ukur komposisi fibro-lemak secara paralel.
Pembanding/statistik NSAA	Kohort natural-history eksternal bukan kontrol konkuren acak. Kelayakan uji, perawatan suportif, efek partisipasi, NSAA baseline, regimen steroid, usia, dan kelas ekson semuanya dapat membiaskan perbandingan. Uji t tidak berpasangan tidak memadai. Selain itu, perubahan NSAA +1,4 berada dalam variabilitas test-retest untuk kelompok usia ini.	Jalankan studi acak konkuren terkontrol plasebo, atau minimal gunakan analisis tersesuaikan yang memperhitungkan NSAA baseline, usia, regimen steroid, kelas ekson, dan confounder lain.
Perancu jendela usia	Anak laki-laki usia 4–7 berada dalam jendela perkembangan ketika pasien DMD ambulatory tanpa terapi dapat memperoleh fungsi motorik sebelum penurunan mendominasi. Perubahan NSAA 48 minggu mencampur kenaikan perkembangan, progresi penyakit, dan kemungkinan efek pengobatan.	Gunakan kontrol acak konkuren dengan stratifikasi usia untuk memisahkan trajektori perkembangan dari efek pengobatan.
Preseden klinis sebelumnya	Sinyal fungsional micro-dystrophin label terbuka belum secara andal memprediksi manfaat konfirmatori; preseden terbitan mencakup uji konfirmatori terapi gen micro-dystrophin yang gagal mereproduksi peningkatan NSAA label terbuka.	Jangan mengandalkan perubahan NSAA label terbuka sebagai dukungan penentu. Wajibkan bukti fungsional terkontrol.
Batas struktural konstruksi	Konstruksi 138 kDa menghapus pengulangan spectrin R16/17, yang mengandung situs pengikatan nNOS. Hilangnya rekrutmen nNOS dapat mengganggu sympatholysis fungsional dan perlindungan iskemia selama latihan, menciptakan plafon mekanistik pada rescue yang independen dari tingkat ekspresi.	Tambahkan studi mekanistik yang menunjukkan apakah konstruksi spesifik ini memulihkan fungsi kompleks terkait dystrophin yang relevan, lokalisasi nNOS, fisiologi latihan, dan perlindungan otot.
Durabilitas AAV	Genom vektor pada 12 minggu tidak menetapkan ekspresi yang tahan lama. Genom AAV9 sebagian besar berupa episom non-integrasi dan dapat menurun seiring waktu. Persistensi genom vektor tidak sama dengan ekspresi protein persisten.	Ukur ekspresi protein transgen longitudinal dan durabilitas biomarker fungsional setelah 12 minggu.
Profil imun/keamanan	Transaminitis pada 8/12 pasien konsisten dengan respons imun terhadap sel yang ditransduksi AAV, tetapi mekanismenya belum ditetapkan. Satu kasus miokarditis mengkhawatirkan mengingat tropisme jantung AAV9.	Berikan pemantauan imun yang lebih mendalam, karakterisasi keamanan hati/jantung, dan tindak lanjut jantung yang diintensifkan.
Seleksi pasien/generalisasi	Mengecualikan pasien positif antibodi penetral anti-AAV9 membatasi generalisasi. Mengecualikan delesi ekson-44 membatasi penerapan pada subkelompok DMD tersebut. n=12 terlalu kecil untuk mengarakterisasi keamanan dan efikasi di seluruh populasi DMD yang lebih luas.	Perluas kelayakan bila memungkinkan atau pra-spesifikasikan analisis terstratifikasi menurut status antibodi, genotipe/kelas ekson, usia, dan fungsi baseline sebelum menggunakan hasil untuk mendukung persetujuan luas.

Kesimpulan regulatori: Paket ini mungkin menunjukkan aktivitas biologis, tetapi belum menetapkan bahwa ekspresi micro-dystrophin yang diukur adalah surrogate andal yang secara wajar mungkin memprediksi manfaat klinis. Kendala utamanya adalah spesifisitas assay, standar kuantifikasi tidak valid, kemungkinan perancu serat revertant, kurangnya kontrol acak, perancu NSAA terkait usia, durabilitas tidak pasti, dan masalah keamanan/generalisasi yang belum terselesaikan.

Untuk mengatasi kendala tersebut, program ini memerlukan desain klinis terkontrol dan terstratifikasi usia dengan assay ekspresi spesifik transgen, kuantifikasi protein ortogonal, kontrol komposisi jaringan, data durabilitas longitudinal, assay fungsional mekanistik untuk konstruk terpotong, dan pemantauan keamanan yang lebih kuat, terutama hati dan jantung.

Peringkat & Kriteria Rubrik

Kriteria

Poin

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

Memvalidasi LifeSciBench

Kami memvalidasi LifeSciBench melalui tinjauan pakar independen. Umpan balik berasal dari 453 peninjau yang tidak terlibat dalam penulisan tugas. Di antara peninjau tersebut, 97% memiliki Ph.D. atau doktor setara, dengan rata-rata 12 tahun pengalaman bidang dan 14 publikasi yang ditinjau sejawat; 88% melaporkan menerima setidaknya satu penghargaan atau fellowship.

Peninjau memberi skor apakah setiap tugas mencerminkan kualitas yang dibutuhkan untuk pertanyaan benchmark yang kuat: keselarasan dengan pekerjaan riset dunia nyata, pengujian penalaran ilmiah dan keahlian domain yang tepat, landasan pada bukti atau konsensus pakar, serta kegunaan keseluruhan untuk menilai kinerja model. Tingkat kesepakatan melampaui 96% di setiap kategori.

Relevansi dunia nyata

Apakah tugas ini mencerminkan pekerjaan ilmu hayati dunia nyata yang realistis?

Sangat setuju: 90.4%
Setuju secara keseluruhan: 98.3%

Penalaran ilmiah / keterampilan domain

Apakah tugas ini menguji dan menilai penalaran ilmiah serta keterampilan domain ilmu hayati yang tepat?

Sangat setuju: 86.4%
Setuju secara keseluruhan: 98.1%

Landasan ilmiah

Apakah tugas ini berlandaskan sains, dapat dijawab, dan ditopang oleh bukti, data, artefak, atau konsensus pakar yang sesuai?

Sangat setuju: 77.1%
Setuju secara keseluruhan: 96.5%

Kegunaan secara keseluruhan

Secara keseluruhan, apakah ini tugas evaluasi ilmu hayati yang kuat?

Sangat setuju: 79.1%
Setuju secara keseluruhan: 96.6%

Komentar peninjau memperkuat penilaian kuantitatif:

1 dari 3

“Secara keseluruhan, ini tugas yang kuat karena memiliki satu interpretasi inti yang benar, sambil tetap memberi ruang untuk membedakan jawaban yang lebih baik berdasarkan seberapa cermat jawaban itu membatasi ketidakpastian.”

Hasil

Kami melaporkan dua metrik yang saling melengkapi. Tingkat kelulusan adalah persentase tugas ketika model memenuhi ambang keberhasilan tingkat tugas sebesar 70%. Skor adalah rata-rata reward rubrik, yang memberi kredit parsial untuk kriteria individual meski tugas penuh tidak terselesaikan. Keduanya penting karena respons terhadap tugas ilmiah dapat benar atau berguna sebagian tanpa memenuhi semua persyaratan untuk jawaban lengkap.

Kinerja model sangat bervariasi menurut jenis tugas, alur kerja, dan format respons.

Di mana sistem AI mulai menunjukkan kekuatan

LifeSciBench menunjukkan bahwa model frontier relatif paling kuat pada tugas yang melibatkan sintesis ilmiah, komunikasi, dan interpretasi terstruktur. Tingkat kelulusan absolut masih sederhana, sehingga domain benchmark ini masih jauh dari jenuh, tetapi GPT‑Rosalind menunjukkan kemajuan bermakna dibanding GPT‑5.5, meningkatkan tingkat kelulusan tepat keseluruhanmodeldari 25,7% menjadi 36,1%.

Arah kemajuan terkuat dalam kemampuan model tampak pada Komunikasi Ilmiah dan Translasi. Misalnya, tingkat kelulusan Komunikasi Ilmiah meningkat dari 56,3% untuk GPT‑5.5 menjadi 71,1% untuk GPT‑Rosalind; kategori ini kecil (n=9), sehingga perlu ditafsirkan dengan hati-hati, tetapi ini menunjukkan model frontier membaik cepat dalam kemampuan menyusun bukti dan menghasilkan penjelasan yang meyakinkan untuk pakar. Translasi (proses "dari bangku lab ke ranjang pasien" dalam pengembangan obat) menunjukkan pola serupa, naik dari 36,8% untuk GPT‑5.5 menjadi 57,7% untuk GPT‑Rosalind, yang menunjukkan model cepat membaik dalam menghubungkan bukti praklinis dengan implikasi klinis.

Hasil tingkat rubrik mengarah ke kesimpulan yang sama. Pada tugas yang membutuhkan keluaran yang berguna bagi pakar atau dapat ditindaklanjuti, GPT‑Rosalind mencetak 44,7%, dibandingkan 29,1% untuk GPT‑5.5. Pada tugas yang membutuhkan penanganan ketidakpastian dan caveat, skornya 44,8%, dibandingkan 29,3%. Pola ini menunjukkan model paling berguna ketika tugas memiliki batas bukti yang jelas dan membutuhkan penilaian ilmiah terstruktur.

GPT‑Rosalind memimpin kinerja di berbagai tugas bernilai ilmiah yang diidentifikasi oleh pakar industri dan akademik.

Di mana sistem AI masih kurang

Kinerja masih jauh lebih lemah pada pekerjaan ilmiah yang sarat artefak, sarat desain, dan dibatasi secara operasional. Secara khusus, Desain, Optimisasi, & Prediksi tetap menjadi salah satu alur kerja tersulit, dengan tingkat kelulusan GPT‑Rosalind 30,7%; Analisis juga sama sulitnya pada 30,3%.

Penggunaan artefak merupakan kesenjangan yang sangat jelas. Meski GPT‑Rosalind berkinerja lebih baik daripada GPT‑5.5 dalam konteks sarat artefak, tingkat kelulusannya tetap turun dari 45,1% pada tugas hanya teks menjadi 28,1% pada tugas dengan artefak atau URL. GPT‑5.5 menunjukkan pola yang sama, turun dari 29,9% menjadi 21,9%. Analisis yang lebih terperinci menegaskan bahwa model frontier kesulitan mengekstrak informasi dari gambar kompleks atau file sekuens besar dan mengintegrasikan informasi itu ke dalam jawaban akhir.

Tingkat kelulusan turun saat tugas membutuhkan penalaran berbasis sumber atau bekerja dengan artefak

Format jawaban juga penting. Tugas yang membutuhkan keluaran sekuens, struktur, atau tingkat konstruksi yang tepat menunjukkan tingkat kelulusan lebih rendah: GPT‑Rosalind hanya mencapai 14,8% pada tugas numerik dan 24,0% pada keluaran sekuens atau struktur. Tugas pembuatan konstruksi juga rapuh, dengan GPT‑Rosalind pada 27,3% dan hanya menunjukkan sedikit perbaikan dibanding GPT‑5.5. Sebagian kesenjangan ini mungkin mencerminkan permukaan penilaian yang lebih ketat untuk tugas berjawaban tepat, ketika perbedaan kecil dalam perhitungan atau format dapat membuat respons berada di bawah ambang kelulusan. Namun, kegagalan ini bermakna secara ilmiah karena banyak alur kerja ilmu hayati membutuhkan keluaran yang cukup tepat untuk digunakan langsung, seperti dalam desain donor CRISPR/HDR atau desain siRNA.

Model juga sering berhasil sebagian tanpa sepenuhnya menyelesaikan tugas. Pada sekitar 14% tugas, model memperoleh kredit rubrik yang substansial meski gagal mencapai ambang kelulusan tepat. Untuk GPT‑Rosalind, 109 tugas memiliki tingkat kelulusan di bawah 20% tetapi tetap memperoleh setidaknya 50% reward rubrik. Dalam praktiknya, ini berarti model dapat mengidentifikasi bukti yang relevan atau menghasilkan jawaban parsial yang masuk akal, tetapi tetap gagal karena melewatkan kendala penting, menggunakan bukti yang salah, membuat perhitungan tidak lengkap, atau tidak menghubungkan penalarannya dengan keputusan akhir yang berguna secara ilmiah.

Keterbatasan & langkah berikutnya

LifeSciBench adalah langkah menuju pengukuran seberapa berguna sistem AI bagi riset ilmu hayati, tetapi bukan pengganti studi model di lingkungan riset langsung. Benchmark ini berfokus pada tugas mandiri yang mencerminkan alur kerja industri yang berulang, sambil menyisakan banyak spesialisasi ilmiah dan jenis tugas di luar cakupannya saat ini. Riset nyata bersifat iteratif: ilmuwan mengumpulkan bukti baru, merevisi hipotesis, merancang eksperimen lanjutan, dan menyesuaikan rencana saat hasil muncul.

Karena itu, kinerja kuat pada LifeSciBench harus ditafsirkan sebagai bukti kemampuan tingkat tugas yang realistis, bukan sebagai ukuran langsung dampak riset hilir. Benchmark ini berlandaskan alur kerja industri, tetapi tidak menangkap seluruh keragaman atau dinamika program riset langsung, ketika kemajuan bergantung pada faktor-faktor yang berkembang seiring waktu.

Langkah berikutnya adalah menghubungkan kinerja benchmark dengan studi penerapan dalam alur kerja riset langsung. Meski LifeSciBench dikembangkan bersama ilmuwan aktif, mengukur apakah sistem AI mempercepat penemuan atau meningkatkan hasil R&D akan membutuhkan studi penggunaan dan kinerja model di lingkungan riset nyata, dalam jangka waktu lebih panjang, dan melalui beberapa putaran penalaran, umpan balik, serta tindak lanjut eksperimental.