Ngenalaké LifeSciBench
Benchmark sing ditulis lan ditelaah ahli, adhedhasar riset ilmu hayati donya nyata
Sistem AI agentik saya tambah mampu nindakake tugas ilmiah. Nanging, kegunaane kanggo para peneliti ilmu hayati gumantung saka kepriye carane nangani kerumitan riset nyata. Pakaryan kuwi arang katon kaya pitakonan siji-sijine babagan ngelingi fakta utawa masalah prediksi sing resik. Para panaliti napsirake bukti sing ora lengkap, ngrujuk asil sing bertentangan, ngrancang eksperimen sing angel, ngatasi masalah uji coba, ngevaluasi risiko translasi, lan nemtokake apa sing kudu ditindakake sabanjure ing kahanan sing ora mesthi.
Tolok ukur saiki ora bisa nangkep kanthi lengkap kemampuan kasebut. Akeh evaluasi ilmu urip fokus ing domain sing sempit utawa katrampilan sing terisolasi, sing ngasilake pitakonan kanthi format pitakonan sing terstruktur lan jawaban referensi sing resik. Senajan migunani, model kasebut asring gagal neliti kanthi bener apa sawijining model bisa menehi kontribusi ing rentang karya tingkat riset sing luwih jembar.
Kita ngrancang LifeSciBench kanggo mbantu nutup kesenjangan iki. Saben tugas didhasarake ing penilaian ilmuwan urip sing praktik kanthi pelatihan tingkat Ph.D. lan pengalaman langsung ngembangake program panemuan obat ing lingkungan bioteknologi lan farmasi.
LifeSciBench kalebu 750 tugas sing ditulis dening ahli sing nyakup pitung alur kerja lan pitung domain biologis.
1,062
Artefak tugas
173
Kontributor ilmuwan
19,020
Kriteria rubrik
453
Penelaah ahli
Apa sing diukur LifeSciBench
LifeSciBench ngukur apa sistem AI bisa ndhukung tugas riset ilmu hayati sing realistis, ora mung njawab pitakonan biologi. Kanggo nemtokake taksonomi patokan, kita nyurvei para ilmuwan urip sing praktik babagan alur kerja sing paling kerep digunakake ing setelan riset terapan. Banjur, kita nglompokake respon kasebut dadi pitung kategori sing bola-bali: penanganan bukti, analisis, desain lan optimasi, penalaran ilmiah, validasi lan operasi, terjemahan, lan komunikasi ilmiah.
Saben tugas disusun kaya panyuwunan sing diwenehake ilmuwan marang kolaborator sing duwe kawruh: pitunjuk ilmiah, konteks utawa artefak sing relevan, lan jawaban sing nanggapi kanthi bebas. Rubrik sing ditulis dening para ahli ngevaluasi apa model bisa ngasilake jawaban sing tepat kanggo masalah tartamtu, kanthi tingkat detail, justifikasi, peringatan, lan format sing tepat sing diarepake dening ilmuwan.
Konstruksi set data
LifeSciBench ngevaluasi penalaran ilmiah bebarengan karo katrampilan praktis sing kurang jelas sing dibutuhake kanggo panggunaan ilmiah ing jagad nyata. Tugas-tugasé njaluk model supaya nggarap masalah riset sing realistis: napsirake bukti, nggawe penilaian sing adhedhasar domain, lan ngirim kesimpulan sing bakal migunani kanggo para pengulas ahli. Akeh tugas uga mbutuhake model kanggo nangani ketidakpastian lan alesan tinimbang ndhukung file data tinimbang mung ngandelake teks prompt.
Tolok ukur iki dirancang kanggo nggambarake kerumitan karya ilmu hayati. Sakabèhé, 79% tugas mbutuhake pirang-pirang langkah penalaran utawa pengambilan keputusan, kanthi rata-rata patang langkah saben tugas. LifeSciBench kalebu 1.062 artefak sing dilampirake sing nyakup gambar, PDF, tabel, file urutan, file struktur utawa kimia, lan referensi web. Luwih saka separo tugas (53%) mbutuhake model kanggo napsirake utawa nyintesis informasi saka paling ora siji artefak.
Tugas-tugas iki digawe dening 173 ilmuwan ahli saka macem-macem disiplin ilmu kehidupan. Saben ilmuwan duwé pelatihan tingkat Ph.D. lan pengalaman bioteknologi utawa industri farmasi. Tugas bisa ngalami siklus revisi sabisa-bisane sadurunge ditampa, tanpa watesan tetep babagan jumlah babak; tugas sing ditampa rata-rata enem siklus review otomatis sing diarahake dhewe lan ngrampungake paling ora rong babak review ahli. Ulasan didhasarake ing jawaban sing bener sing bisa diverifikasi utawa konsensus ahli sing kuwat, kanthi paling ora 90% persetujuan ing antarane para pengulas ing domain sing relevan. Proses iki mbantu njamin manawa tugas sing ditampa wis didhasarake sacara ilmiah, cukup jelas kanggo dinilai, lan representatif saka riset terapan.
Rincian penilaian lan rubrik
Tugas LifeSciBench dinilai nganggo rubrik tugas sing rinci lan spesifik sing mbagi respon sing diarepake dadi klaim ilmiah, itungan, keputusan, justifikasi, lan liya-liyane sing spesifik. Ing sajeroning patokan kasebut, rubrik sing dikembangake dening para ahli kalebu 19.020 kriteria—rata-rata 25 saben tugas—kanggo neliti kebenaran ilmiah lan kegunaan kanggo keputusan riset.
Desain iki nggambarake kepiye karya ilmiah dievaluasi ing praktik: akeh tugas ilmu hayati sing ora bisa dinilai mung kanthi mriksa jawaban pungkasan. Respon bisa tekan kesimpulan tingkat dhuwur sing bener nanging isih dianggep ora lengkap yen, contone, ora nggatekake watesan uji coba utama utawa gagal kanthi proaktif nggawa nuansa biologis sing penting banget. Kosok baline, respon parsial bisa uga ngemot penalaran sing berkualitas tinggi sanajan ora bisa ngrampungake tugas kanthi lengkap.
Rubrik-rubrik rinci ngrekam nuansa iki. LifeSciBench ora mung ngevaluasi akurasi jawaban pungkasan, nanging uga apa model kasebut nggayuh jawabane kanthi cara sing valid sacara ilmiah lan migunani sacara operasional.
Ngekstrak, nyelarasaké, lan ngaudit bukti ilmiah saka makalah, gambar, tabel, lan cathetan eksperimen.
Conto Eval
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
Tanggapan Kandidat
Intiné: Kaya sing disajikaké, paket iki durung cukup kuwat kanggo ndhukung persetujuan dipercepat adhedhasar ekspresi micro-dystrophin minangka titik pungkasan surrogate sing cukup mungkin prédhiksi manfaat klinis. Reviewer FDA sing skeptis kemungkinan bakal ndelok bukti biomarker, fungsional, durabilitas, keamanan, lan generalisasi minangka kurang didhukung sacara material.
Item Paket | Mode Gagal Kunci | Apa sing Dibutuhaké |
|---|---|---|
Kuantifikasi Western blot | MANEX1A ngiket epitope N-terminal sing dienggo bareng dystrophin full-length endogen lan transgene micro-dystrophin, mula assay ora mbedakaké kanthi resik transgene saka dystrophin residual/revertant. Nglakoni kuantifikasi micro-dystrophin 138 kDa marang standar dystrophin full-length sehat uga ora valid. | Gunakaké standar micro-dystrophin rekombinan lan metode ortogonal sing mbedakaké transgene saka dystrophin endogen, kayata spektrometri massa tertarget utawa assay spesifik transgene/epitope. |
Imunofluoresensi | Antibodi poliklonal C-terminal kurang cocog amarga konstruksi 138 kDa ora nduwé domain C-terminal. Akeh pasien DMD nduwé serat revertant, lan dystrophin revertant bisa nahan epitope C-terminal. Serat revertant bisa ngembang klonal karo umur, mbiasaké sinyal IF, utamané ing bocah lanang luwih tuwa. | Balèni IF nganggo antibodi marang epitope sing ana ing transgene nanging ora ana ing dystrophin revertant. Kuantifikasi serat positif transgene kapisah saka serat revertant. |
Validitas titik pungkasan surrogate | Paket iki nyampuraké jumlah protein karo fungsi klinis. “38% saka massa protein kontrol sehat” ora ateges 38% fungsi dystrophin normal amarga micro-dystrophin dipangkas struktural. | Validasi empiris hubungan antarane persen massa micro-dystrophin, lokalisasi sarkolemmal, pemulihan fungsional hilir, lan manfaat klinis sadurungé nganggep ekspresi minangka titik pungkasan surrogate. |
Desain biopsi | Biopsi vastus lateralis kontralateral pra- lan pasca-perawatan ngenalaké variasi kiri-kanan lan spasial intramuskular. Progresi penyakit lan penggantian fibro-lemak uga bisa ngowahi sinyal ternormalisasi protein total. | Standarisasi situs biopsi nganggo patokan anatomi konsisten, normalisasi marang protein spesifik otot, lan ukur komposisi fibro-lemak sacara paralel. |
Pembanding/statistik NSAA | Kohort riwayat alami eksternal dudu kontrol konkuren acak. Kelayakan uji, perawatan suportif, efek partisipasi, NSAA baseline, regimen steroid, umur, lan kelas exon kabeh bisa mbiasaké perbandingan. Uji t ora berpasangan ora cukup. Uga, owah-owahan NSAA +1,4 ana ing variabilitas test-retest kanggo kelompok umur iki. | Lakokaké studi acak konkuren terkontrol plasebo, utawa paling ora gunakaké analisis tersesuaikan kanggo NSAA baseline, umur, regimen steroid, kelas exon, lan confounder liyané. |
Confounding jendhela umur | Bocah lanang umur 4–7 ana ing jendhela perkembangan ing ngendi pasien DMD ambulatory tanpa perawatan bisa nambah fungsi motor sadurungé penurunan dominan. Owah-owahan NSAA 48 minggu nyampur keuntungan perkembangan, progresi penyakit, lan kemungkinan efek perawatan. | Gunakaké kontrol acak konkuren kanthi stratifikasi umur kanggo misahaké trajektori perkembangan saka efek perawatan. |
Preseden klinis sadurungé | Sinyal fungsional micro-dystrophin open-label durung andal prédhiksi manfaat konfirmasi; preseden terbit kalebu uji konfirmasi terapi gén micro-dystrophin gagal ngulang perbaikan NSAA open-label. | Aja gumantung marang owah-owahan NSAA open-label minangka dukungan penentu. Butuh bukti fungsional terkontrol. |
Wates struktural konstruksi | Konstruksi 138 kDa mbusak pengulangan spectrin R16/17, sing ngemot situs pengikat nNOS. Kelangan rekrutmen nNOS bisa ngganggu sympatholysis fungsional lan perlindungan iskemia nalika olahraga, nggawe langit-langit mekanistik kanggo rescue mandiri saka tingkat ekspresi. | Tambah studi mekanistik sing nuduhaké apa konstruksi spesifik iki mulihakan fungsi kompleks terkait dystrophin, lokalisasi nNOS, fisiologi olahraga, lan perlindungan otot. |
Durabilitas AAV | Genom vektor ing 12 minggu ora netepaké ekspresi awet. Genom AAV9 umume episom non-integrasi lan bisa mudhun suwe-suwe. Persistensi genom vektor ora padha karo ekspresi protein persisten. | Ukur ekspresi protein transgene longitudinal lan durabilitas biomarker fungsional ngluwihi 12 minggu. |
Profil imun/keamanan | Transaminitis ing 8/12 pasien konsisten karo respons imun marang sel sing ditransduksi AAV, nanging mekanisme durung ditetepaké. Siji kasus miokarditis nguwatiraké amarga tropisme jantung AAV9. | Wènèhana pemantauan imun luwih jero, karakterisasi keamanan hati/jantung, lan tindak lanjut jantung sing diintensifaké. |
Seleksi pasien/generalisasi | Ngecualikaké pasien positif antibodi netralisasi anti-AAV9 mbatesi generalisasi. Ngecualikaké delesi exon-44 mbatesi aplikabilitas kanggo subkelompok DMD iku. n=12 cilik banget kanggo ngkarakterisasi keamanan lan efikasi ing populasi DMD sing luwih amba. | Lebaraké kelayakan yen bisa utawa pra-spesifikasikaké analisis terstratifikasi miturut status antibodi, genotipe/kelas exon, umur, lan fungsi baseline sadurungé nggunakake asil kanggo ndhukung persetujuan amba. |
Kesimpulan regulatori: Paket iki bisa nuduhaké aktivitas biologis, nanging durung netepaké yen ekspresi micro-dystrophin sing diukur iku surrogate andal sing cukup mungkin prédhiksi manfaat klinis. Celah utama yaiku spesifisitas assay, standar kuantifikasi ora valid, kemungkinan confounding serat revertant, ora ana kontrol acak, confounding NSAA terkait umur, durabilitas ora pasti, lan masalah keamanan/generalisasi durung rampung.
Kanggo nutup celah, program butuh desain klinis terkontrol lan terstratifikasi umur kanthi assay ekspresi spesifik transgene, kuantifikasi protein ortogonal, kontrol komposisi jaringan, data durabilitas longitudinal, assay fungsional mekanistik kanggo konstruksi terpotong, lan pemantauan keamanan luwih kuwat, utamané hepatik lan jantung.
Kriteria Rubrik & Nilai
Validasi LifeSciBench
Kita wis ngevalidasi LifeSciBench liwat tinjauan ahli independen. Umpan balik asale saka 453 pengulas sing ora melu nulis tugas kasebut. Saka para pengulas kasebut, 97% nduweni gelar Ph.D. utawa gelar doktor sing padha, kanthi rata-rata 12 taun pengalaman lapangan lan 14 publikasi sing ditinjau dening sejawat; 88% nglaporake nampa paling ora siji penghargaan utawa beasiswa.
Para pengulas menehi skor apa saben tugas nggambarake kualitas sing dibutuhake kanggo pitakonan patokan sing kuwat: keselarasan karo karya riset ing jagad nyata, pengujian sing cocog babagan penalaran ilmiah lan keahlian domain, dhasar bukti utawa konsensus ahli, lan kegunaan sakabèhé kanggo neliti kinerja model. Persetujuan ngluwihi 96% ing saben kategori.
Komentar saka reviewer nguatake rating kuantitatif:
Asil
Kita nglaporake rong metrik sing saling melengkapi. Tingkat kelulusan yaiku persentase tugas sing modele memenuhi ambang batas sukses tingkat tugas yaiku 70%. Skor minangka ganjaran rubrik rata-rata, menehi kredit sebagian kanggo kriteria individu sanajan tugas lengkap ora bisa dirampungake. Kalorone penting amarga respon kanggo tugas ilmiah bisa uga sebagian bener utawa migunani tanpa nyukupi saben syarat kanggo jawaban sing lengkap.
Kinerja model beda-beda banget miturut jinis tugas, alur kerja, lan format respon.
Ing ngendi sistem AI nuduhake kekuatan awal
LifeSciBench nuduhake yen model tapel wates relatif paling kuat ing tugas sing nglibatake sintesis ilmiah, komunikasi, lan interpretasi terstruktur. Tingkat kelulusan absolut isih sithik, mula domain patokan iki isih adoh saka jenuh, nanging GPT‑Rosalind nuduhake kemajuan sing signifikan tinimbang GPT‑5.5, ningkatake tingkat kelulusan eksak sakabèhé saka 25,7% dadi 36,1%.
Arah kemajuan sing paling kuat ing kemampuan model katon ing Komunikasi lan Terjemahan Ilmiah. Umpamane, tingkat kelulusan Komunikasi Ilmiah mundhak saka 56,3% kanggo GPT‑5,5 dadi 71,1% kanggo GPT‑Rosalind; kategori iki cilik (n=9), mula kudu diinterpretasikake kanthi ati-ati, nanging iki nuduhake yen model perbatasan saya cepet ningkatake kemampuane kanggo ngatur bukti lan ngasilake panjelasan sing meyakinkan kanggo para ahli. Terjemahan (proses pangembangan obat "bench-to-bedside") nuduhake pola sing padha, mundhak saka 36,8% kanggo GPT‑5,5 dadi 57,7% kanggo GPT‑Rosalind, sing nuduhake yen model kanthi cepet ningkatake kemampuane kanggo nyambungake bukti praklinis karo implikasi klinis.
Asil tingkat rubrik nuduhake arah sing padha. Ing tugas sing mbutuhake asil sing migunani kanggo ahli utawa sing bisa ditindakake, GPT‑Rosalind entuk skor 44,7%, dibandhingake karo 29,1% kanggo GPT‑5,5. Ing tugas sing mbutuhake ketidakpastian lan penanganan peringatan, skor kasebut 44,8%, dibandhingake karo 29,3%. Pola iki nuduhake yen model paling migunani nalika tugas kasebut nduweni wates bukti sing jelas lan mbutuhake penilaian ilmiah sing terstruktur.
GPT‑Rosalind mimpin kinerja ing tugas-tugas bernilai ilmiah sing diidentifikasi déning ahli industri lan akademik.
GPT‑Rosalind mimpin kinerja ing tugas bernilai ilmiah sing diidentifikasi ahli industri lan akademik.
GPT‑Rosalind mimpin kinerja ing tugas bernilai ilmiah sing diidentifikasi ahli industri lan akademik.
Ing ngendi sistem AI isih kurang
Kinerja tetep luwih lemah ing karya ilmiah sing akeh artefak, akeh desain, lan diwatesi sacara operasional. Yaiku, Desain, Optimasi, & Prediksi tetep dadi salah sawijining alur kerja sing paling angel, kanthi tingkat kelulusan GPT‑Rosalind ing 30,7%; Analisis uga angel ing 30,3%.
Panggunaan artefak minangka kesenjangan sing jelas banget. Sanajan GPT‑Rosalind nduweni kinerja sing luwih apik tinimbang GPT‑5.5 ing setelan sing akeh artefak, tingkat kelulusane isih mudhun saka 45,1% ing tugas mung teks dadi 28,1% ing tugas sing ana artefak utawa URL. GPT‑5.5 nuduhake pola sing padha, mudhun saka 29,9% dadi 21,9%. Analisis sing luwih rinci ngonfirmasi manawa model tapel wates ngalami kesulitan nalika njupuk informasi saka tokoh kompleks utawa file urutan gedhe lan nggabungake informasi kasebut menyang jawaban pungkasan.
Tingkat lulus mudhun nalika tugas mbutuhaké nalar adhedhasar sumber utawa makarya nganggo artefak
Format wangsulan uga penting. Tugas sing mbutuhake output tingkat urutan, struktur, utawa konstruksi sing tepat nuduhake tingkat kelulusan sing luwih murah: GPT‑Rosalind mung tekan 14,8% ing tugas numerik lan 24,0% ing output urutan utawa struktur. Tugas-tugas pembangkitan konstruksi uga ringkih, kanthi GPT‑Rosalind ing 27,3% lan nuduhake perbaikan sing sithik tinimbang GPT‑5,5. Sawetara kesenjangan iki bisa uga nuduhake permukaan penilaian sing luwih ketat kanggo tugas jawaban sing tepat, ing ngendi beda cilik ing pitungan utawa format bisa nyebabake respon mudhun ing ngisor ambang kelulusan. Sanajan mangkono, kegagalan iki nduweni makna ilmiah amarga akeh alur kerja ilmu hayati mbutuhake output sing cukup tepat kanggo digunakake langsung, kayata ing desain donor CRISPR/HDR utawa desain siRNA.
Model uga asring entuk sebagian saka dalan menyang kana tanpa ngrampungake tugas kasebut kanthi lengkap. Ing kira-kira 14% tugas, model entuk kredit rubrik sing substansial sanajan ora nggayuh ambang batas kelulusan sing tepat. Kanggo GPT‑Rosalind, 109 tugas nduweni tingkat kelulusan ing ngisor 20% nalika isih entuk paling ora 50% rubrik hadiah. Ing praktik, iki tegese model bisa uga ngidentifikasi bukti sing relevan utawa ngasilake jawaban parsial sing masuk akal, nanging isih gagal amarga ora nemokake kendala kunci, nggunakake bukti sing salah, nggawe pitungan sing ora lengkap, utawa ora nyambungake penalarane karo keputusan pungkasan sing migunani sacara ilmiah.
Watesan & apa sabanjure
LifeSciBench minangka langkah kanggo ngukur sepira migunani sistem AI kanggo riset ilmu hayati, nanging iki dudu pengganti kanggo nyinaoni model ing lingkungan riset langsung. Tolok ukur iki fokus ing tugas-tugas mandiri sing nggambarake alur kerja industri sing bola-bali, nalika ninggalake akeh spesialisasi ilmiah lan jinis tugas ing njaba ruang lingkup saiki. Riset sejati iku iteratif: para ilmuwan nglumpukake bukti anyar, mbenakake hipotesis, ngrancang eksperimen tindak lanjut, lan ngowahi rencana nalika asilé metu.
Mula, kinerja sing kuwat ing LifeSciBench kudu diinterpretasikake minangka bukti kemampuan tingkat tugas sing realistis, dudu minangka ukuran langsung saka dampak riset hilir. Tolok ukur iki adhedhasar alur kerja industri, nanging ora bisa nangkep keragaman utawa dinamika program riset langsung kanthi lengkap, ing ngendi kemajuan gumantung marang faktor-faktor sing berkembang saka wektu ke wektu.
Langkah sabanjure yaiku nyambungake kinerja benchmark karo studi penyebaran ing alur kerja riset langsung. Sanajan LifeSciBench dikembangake karo para ilmuwan sing praktik, ngukur apa sistem AI nyepetake panemuan utawa ningkatake asil R&D mbutuhake sinau panggunaan lan kinerja model ing setelan riset nyata, ing cakrawala sing luwih dawa, lan ing pirang-pirang babak penalaran, umpan balik, lan tindak lanjut eksperimen.


