17 ta’ Ġunju 2026

Nintroduċu LifeSciBench

Benchmark miktub u rivedut minn esperti, imsejjes fuq riċerka reali fix-xjenzi tal-ħajja

Qed jillowdja…

Is-sistemi ta’ IA aġentika qed isiru aktar kapaċi jwettqu kompiti xjentifiċi. Iżda l-utilità tagħhom għar-riċerkaturi tiddependi fuq kemm ilaħħqu mal-kumplessità tar-riċerka reali. Dan ix-xogħol rari jkun mistoqsija waħda ta’ fatt jew problema ċara ta’ tbassir. Ir-riċerkaturi jinterpretaw evidenza mhux kompluta, jirrikonċiljaw riżultati kunfliġġenti, jiddisinjaw esperimenti, isolvu problemi fl-assaġġi, jevalwaw riskju translazzjonali u jiddeċiedu x’jmiss taħt inċertezza.

Il-benchmarks attwali ma jaqbdux dawn il-kapaċitajiet kollha. Ħafna evalwazzjonijiet tax-xjenzi tal-ħajja jiffukaw fuq oqsma dejqa jew ħiliet iżolati, b’mistoqsijiet strutturati u tweġibiet ta’ referenza ċari. Għalkemm utli, spiss ma jurux jekk mudell jistax jikkontribwixxi fil-firxa usa’ ta’ xogħol ta’ riċerka.

Iddisinjajna LifeSciBench biex jgħin jagħlaq dan id-distakk. Kull kompitu hu msejjes fuq il-ġudizzju ta’ xjentisti prattikanti b’taħriġ fil-livell ta’ Ph.D. u esperjenza diretta fl-avvanz ta’ programmi ta’ skoperta ta’ mediċini fil-bijoteknoloġija u l-farmaċija.

LifeSciBench jinkludi 750 kompitu miktub minn esperti, fuq seba’ flussi tax-xogħol u seba’ oqsma bijoloġiċi.

1,062

Artifatti tal-kompitu

173

Kontributuri xjentisti

19,020

Kriterji tar-rubrika

453

Reviżuri esperti

X’ikejjel LifeSciBench

LifeSciBench ikejjel jekk is-sistemi AI jistgħux jappoġġjaw kompiti realistiċi tar-riċerka fix-xjenzi tal-ħajja, mhux biss iwieġbu mistoqsijiet tal-bijoloġija. Biex niddefinixxu t-tassonomija tal-benchmark, staqsejna xjentisti prattikanti dwar il-flussi tax-xogħol li jużaw l-aktar fir-riċerka applikata. Imbagħad qsamna t-tweġibiet f’seba’ kategoriji rikorrenti: ġestjoni tal-evidenza, analiżi, disinn u ottimizzazzjoni, raġunament xjentifiku, validazzjoni u operazzjonijiet, traduzzjoni u komunikazzjoni xjentifika.

Kull kompitu jixbah talba li xjenzat jagħti lil kollaboratur infurmat: prompt xjentifiku, kuntest jew artifatti rilevanti, u tweġiba libera. Rubriki miktuba minn esperti jivvalutaw jekk mudell jagħtix it-tweġiba t-tajba, bid-dettall, il-ġustifikazzjoni, it-twissijiet u l-format li jistenna xjenzat.

Kostruzzjoni tas-sett tad-data

LifeSciBench jevalwa r-raġunament xjentifiku flimkien mal-ħiliet prattiċi, inqas definiti, meħtieġa għall-użu xjentifiku reali. Il-kompiti jitolbu lill-mudelli jaħdmu fuq problemi realistiċi: jinterpretaw evidenza, jagħmlu ġudizzji msejsa fuq il-qasam u jikkomunikaw konklużjonijiet utli għal reviżuri esperti. Ħafna kompiti jeħtieġu wkoll li l-mudelli jittrattaw inċertezza u jirraġunaw fuq fajls ta’ sostenn, mhux fuq it-test tal-prompt biss.

Il-benchmark hu mfassal biex jirrifletti l-kumplessità tax-xjenzi tal-ħajja. B’kollox, 79% tal-kompiti jeħtieġu diversi passi ta’ raġunament jew deċiżjoni, b’medja ta’ erba’ passi kull kompitu. LifeSciBench jinkludi 1,062 artifatt mehmuż: figuri, PDFs, tabelli, fajls ta’ sekwenzi, fajls strutturali jew kimiċi u referenzi tal-web. Aktar minn nofs il-kompiti (53%) jeħtieġu li l-mudelli jinterpretaw jew jissintetizzaw informazzjoni minn mill-inqas artifatt wieħed.

Il-kompiti nħolqu minn 173 xjenzat espert minn dixxiplini differenti tax-xjenzi tal-ħajja. Kull xjenzat kellu taħriġ fil-livell ta’ Ph.D. u esperjenza fl-industrija bijoteknoloġika jew farmaċewtika. Il-kompiti setgħu jgħaddu minn ċikli ta’ reviżjoni bla limitu qabel l-aċċettazzjoni; dawk aċċettati kellhom medja ta’ sitt ċikli awtomatizzati awtodiretti u mill-inqas żewġ rawnds ta’ reviżjoni esperta. Ir-reviżjonijiet kienu bbażati fuq tweġiba korretta verifikabbli jew kunsens espert qawwi, b’mill-inqas 90% qbil fost reviżuri tal-qasam rilevanti. Dan għen jiżgura li l-kompiti aċċettati kienu msejsa xjentifikament, ċari biżżejjed biex jiġu vvalutati u rappreżentattivi tar-riċerka applikata.

Dijagramma li turi kompiti ta’ LifeSciBench li jgħaqqdu sorsi ta’ data tax-xjenzi tal-ħajja bħal sekwenzi ġenomiċi, strutturi molekulari, figuri, dokumenti, spreadsheets u links tal-web ma’ raġunament f’diversi passi u reviżjoni esperta.

Valutazzjoni u tqassim tar-rubrika

Il-kompiti ta’ LifeSciBench jiġu vvalutati b’rubrika dettaljata u speċifika li tqassam ir-rispons mistenni f’dikjarazzjonijiet xjentifiċi, kalkoli, deċiżjonijiet, ġustifikazzjonijiet u elementi oħra. B’kollox, ir-rubriki tal-esperti jinkludu 19,020 kriterju—medja ta’ 25 kull kompitu—biex ikejlu l-korrettezza xjentifika u l-utilità għad-deċiżjonijiet tar-riċerka.

Dan jirrifletti kif ix-xogħol xjentifiku jiġi evalwat fil-prattika: ħafna kompiti tax-xjenzi tal-ħajja ma jistgħux jiġu vvalutati mit-tweġiba finali biss. Rispons jista’ jasal għall-konklużjoni ġenerali t-tajba iżda jitqies mhux komplut jekk, pereżempju, jinjora limitazzjoni ewlenija ta’ assaġġ jew sfumatura bijoloġika importanti. Bil-maqlub, rispons parzjali jista’ jkun fih raġunament tajjeb anki jekk ma jsolvix il-kompitu kollu.

Ir-rubriki granulari jaqbdu din is-sfumatura. LifeSciBench jevalwa mhux biss l-eżattezza tat-tweġiba finali, iżda jekk mudell jasalx għaliha b’mod xjentifikament validu u operazzjonalment utli.

Estrazzjoni, rikonċiljazzjoni u awditjar ta’ evidenza xjentifika minn papers, figuri, tabelli u rekords sperimentali.

Eżempju ta' Evalwazzjoni

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Rispons tal-kandidat

Konklużjoni ewlenija: Kif ippreżentat, dan il-pakkett mhuwiex b’saħħtu biżżejjed biex jappoġġja approvazzjoni aċċellerata fuq l-espressjoni ta’ micro-dystrophin bħala punt ta’ tmiem surrogat raġonevolment probabbli li jbassar benefiċċju kliniku. Reviżur xettiku tal-FDA x’aktarx iqis l-evidenza dwar il-bijomarkatur, il-funzjoni, id-durabilità, is-sigurtà u l-ġeneralizzabbiltà bħala sostnuta b’mod materjalment insuffiċjenti.

Oġġett tal-pakkett	Mod ewlieni ta’ falliment	X’ikun meħtieġ
Kwantifikazzjoni Western blot	MANEX1A jorbot epitop N-terminali kondiviż minn dystrophin endoġenu full-length u t-transgene micro-dystrophin, għalhekk l-assay ma jiddistingwixxix b’mod nadif it-transgene minn dystrophin residwu/revertant. Il-kwantifikazzjoni ta’ micro-dystrophin ta’ 138 kDa kontra standard b’saħħtu ta’ dystrophin full-length hija wkoll invalida.	Uża standard recombinant micro-dystrophin u metodu ortogonali li jiddistingwi t-transgene minn dystrophin endoġenu, bħal spettrometrija tal-massa mmirata jew assay speċifiku għat-transgene/epitop.
Immunofluworexxenza	L-antikorp poliklonali C-terminali mhuwiex adattat sew għax il-kostruzzjoni ta’ 138 kDa m’għandhiex id-dominju C-terminali. Ħafna pazjenti DMD għandhom fibri revertant, u dystrophin revertant jista’ jżomm epitopi C-terminali. Fibri revertant jistgħu jespandu klonalment bl-età, u jxaqilbu s-sinjal IF, speċjalment f’subien akbar.	Irrepeti IF b’antikorp kontra epitop preżenti fit-transgene iżda assenti minn dystrophin revertant. Kwantifika fibri pożittivi għat-transgene separatament minn fibri revertant.
Validità tal-punt ta’ tmiem surrogat	Il-pakkett iħallat l-ammont tal-proteina mal-funzjoni klinika. “38% tal-massa tal-proteina ta’ kontroll b’saħħtu” ma jfissirx 38% tal-funzjoni normali ta’ dystrophin għax micro-dystrophin huwa strutturalment imqassar.	Ivvalida empirically ir-relazzjoni bejn il-perċentwal tal-massa ta’ micro-dystrophin, il-lokalizzazzjoni sarkolemmali, ir-restawr funzjonali downstream u l-benefiċċju kliniku qabel ma tittratta l-espressjoni bħala punt ta’ tmiem surrogat.
Disinn tal-bijopsija	Bijopsiji pre- u post-trattament tal-vastus lateralis kontralaterali jintroduċu varjabbiltà xellug-lemin u spazjali intramuskolari. Il-progressjoni tal-marda u s-sostituzzjoni fibro-xaħmija jistgħu wkoll ibiddlu sinjal normalizzat għall-proteina totali.	Istandardizza s-sit tal-bijopsija b’punti anatomiċi konsistenti, in-normalizza għal proteini speċifiċi għall-muskoli, u kejjel il-kompożizzjoni fibro-xaħmija b’mod parallel.
Komparatur/statistika NSAA	Koorti esterna ta’ storja naturali mhijiex kontroll konkorrrenti randomizzat. L-eliġibbiltà tal-prova, il-kura ta’ appoġġ, l-effetti tal-parteċipazzjoni, NSAA bażali, reġim tal-isterojdi, età u klassi tal-exon kollha jistgħu jxaqilbu l-paragun. t-test mhux imqabbel mhuwiex biżżejjed. Barra minn hekk, bidla +1.4 NSAA tinsab fil-varjabbiltà test-retest għal dan il-grupp ta’ età.	Agħmel studju randomizzat, konkorrrenti u kkontrollat bil-placebo, jew mill-inqas uża analiżijiet aġġustati li jqisu NSAA bażali, età, reġim tal-isterojdi, klassi tal-exon u konfużuri oħra.
Konfużjoni tat-tieqa tal-età	Subien ta’ 4–7 snin jinsabu f’tieqa ta’ żvilupp fejn pazjenti DMD ambulanti mhux ittrattati jistgħu jiksbu funzjoni motrija qabel ma tiddomina d-deklinazzjoni. Bidla NSAA ta’ 48 ġimgħa tħallat gwadann fl-iżvilupp, progressjoni tal-marda u effett possibbli tat-trattament.	Uża kontroll randomizzat konkorrrenti bi stratifikazzjoni skont l-età biex tifred it-trajettorja tal-iżvilupp mill-effett tat-trattament.
Preċedent kliniku preċedenti	Sinjali funzjonali open-label ta’ micro-dystrophin ma bassrux b’mod affidabbli benefiċċju konfermatorju; preċedent ippubblikat jinkludi provi konfermatorji ta’ terapija ġenetika micro-dystrophin li naqsu milli jirriproduċu titjib open-label fl-NSAA.	Tistrieħx fuq bidla open-label fl-NSAA bħala appoġġ deċiżiv. Itlob evidenza funzjonali kkontrollata.
Limiti strutturali tal-kostruzzjoni	Il-kostruzzjoni ta’ 138 kDa tħassar ir-repeats ta’ spectrin R16/17, li fihom siti ta’ rbit ta’ nNOS. It-telf tar-reklutaġġ ta’ nNOS jista’ jfixkel is-simpatolisi funzjonali u l-protezzjoni mill-iskemija waqt l-eżerċizzju, u joħloq limitu mekkanistiku fuq is-salvataġġ indipendenti mil-livell ta’ espressjoni.	Żid studji mekkanistiċi li juru jekk din il-kostruzzjoni speċifika tirrestawrax il-funzjoni rilevanti tal-kumpless assoċjat ma’ dystrophin, il-lokalizzazzjoni ta’ nNOS, il-fiżjoloġija tal-eżerċizzju u l-protezzjoni tal-muskoli.
Durabilità AAV	Ġenomi tal-vector fi 12-il ġimgħa ma jistabbilixxux espressjoni durabbli. Ġenomi AAV9 huma prinċipalment episomes mhux integranti u jistgħu jonqsu maż-żmien. Persistenza tal-ġenoma tal-vector mhijiex l-istess bħal espressjoni persistenti tal-proteina.	Kejjel longitudinalment l-espressjoni tal-proteina tat-transgene u d-durabilità tal-bijomarkaturi funzjonali lil hinn minn 12-il ġimgħa.
Profil immuni/sigurtà	Transaminitis f’8/12 pazjenti hija konsistenti ma’ rispons immuni għal ċelloli transduced b’AAV, iżda l-mekkaniżmu mhuwiex stabbilit. Każ wieħed ta’ myocarditis huwa inkwetanti minħabba t-tropiżmu kardijaku ta’ AAV9.	Ipprovdi monitoraġġ immuni aktar profond, karatterizzazzjoni tas-sigurtà tal-fwied/kardijaka, u segwitu kardijaku intensifikat.
Għażla tal-pazjenti/ġeneralizzabbiltà	L-esklużjoni ta’ pazjenti pożittivi għal antikorpi newtralizzanti anti-AAV9 tillimita l-ġeneralizzabbiltà. L-esklużjoni ta’ deletions exon-44 tillimita l-applikabbiltà għal dak is-sottogrupp DMD. n=12 huwa żgħir wisq biex jikkaratterizza s-sigurtà u l-effikaċja fil-popolazzjoni DMD usa’.	Wessa’ l-eliġibbiltà fejn possibbli jew speċifika minn qabel analiżijiet stratifikati skont l-istatus tal-antikorp, il-ġenotip/klassi tal-exon, l-età u l-funzjoni bażali qabel ma tuża r-riżultat biex tappoġġja approvazzjoni wiesgħa.

Konklużjoni regolatorja: Il-pakkett jista’ juri attività bijoloġika, iżda għadu ma jistabbilixxix li l-espressjoni mkejla ta’ micro-dystrophin hija surrogat affidabbli raġonevolment probabbli li jbassar benefiċċju kliniku. Il-lakuni ewlenin huma l-ispeċifiċità tal-assay, standards ta’ kwantifikazzjoni invalidi, konfużjoni possibbli minn fibri revertant, nuqqas ta’ kontroll randomizzat, konfużjoni NSAA relatata mal-età, durabilità inċerta, u kwistjonijiet mhux solvuti ta’ sigurtà/ġeneralizzabbiltà.

Biex tingħalaq il-lakuna, il-programm ikun jeħtieġ disinn kliniku kkontrollat u stratifikat skont l-età b’assays ta’ espressjoni speċifiċi għat-transgene, kwantifikazzjoni ortogonali tal-proteini, kontrolli tal-kompożizzjoni tat-tessut, data longitudinali dwar id-durabilità, assays funzjonali mekkanistiċi għall-kostruzzjoni mqassra, u monitoraġġ tas-sigurtà aktar b’saħħtu, speċjalment epatiku u kardijaku.

Kriterji u Valutazzjoni tar-Rubrika

Kriterju

Punti

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

Validazzjoni ta’ LifeSciBench

Ivvalidajna LifeSciBench b’reviżjoni esperta indipendenti. Ir-rispons ġie minn 453 reviżur li ma kitbux il-kompiti. Minnhom, 97% kellhom Ph.D. jew dottorat ekwivalenti, b’medja ta’ 12-il sena esperjenza u 14-il pubblikazzjoni riveduta mill-pari; 88% irrappurtaw mill-inqas premju jew fellowship wieħed.

Ir-reviżuri skorjaw jekk kull kompitu kellux il-kwalitajiet ta’ mistoqsija benchmark b’saħħitha: allinjament mar-riċerka reali, ittestjar xieraq tar-raġunament xjentifiku u l-għarfien tal-qasam, iggrawndjar fl-evidenza jew kunsens espert, u utilità għall-valutazzjoni tal-prestazzjoni tal-mudell. Il-qbil qabeż 96% f’kull kategorija.

Rilevanza għad-dinja reali

Dan il-kompitu jirrifletti xogħol realistiku tax-xjenzi tal-ħajja fid-dinja reali?

Naqbel bis-sħiħ: 90.4%
Naqbel b’mod ġenerali: 98.3%

Raġunament xjentifiku / ħila tal-qasam

Dan il-kompitu jittestja u jivvaluta r-raġunament xjentifiku u l-ħiliet xierqa fil-qasam tax-xjenzi tal-ħajja?

Naqbel bis-sħiħ: 86.4%
Naqbel b’mod ġenerali: 98.1%

Iggrawndjar xjentifiku

Dan il-kompitu huwa xjentifikament ibbażat, jista’ jitwieġeb, u huwa ankrat f’evidenza, data, artifatti jew kunsens espert xierqa?

Naqbel bis-sħiħ: 77.1%
Naqbel b’mod ġenerali: 96.5%

Utilità ġenerali

B’mod ġenerali, dan huwa kompitu ta’ evalwazzjoni b’saħħtu għax-xjenzi tal-ħajja?

Naqbel bis-sħiħ: 79.1%
Naqbel b’mod ġenerali: 96.6%

Il-kummenti tar-reviżuri kkonfermaw il-klassifikazzjonijiet kwantitattivi:

1 minn 3

“B’mod ġenerali huwa kompitu b’saħħtu, għax għandu interpretazzjoni ċentrali waħda korretta filwaqt li xorta jħalli spazju biex tweġibiet aħjar jintgħarfu minn kemm jiddelimitaw bir-reqqa l-inċertezza.”

Riżultati

Nirrappurtaw żewġ metriċi komplementari. Ir-rata ta’ suċċess hija l-perċentwal ta’ kompiti fejn mudell jilħaq il-limitu ta’ suċċess ta’ 70%. Il-punteġġ huwa l-medja tar-reward tar-rubrika, b’kreditu parzjali għal kriterji individwali anki meta l-kompitu sħiħ ma jissolviex. It-tnejn jgħoddu għax rispons xjentifiku jista’ jkun parzjalment korrett jew utli mingħajr ma jissodisfa kull rekwiżit.

Il-prestazzjoni tal-mudell tvarja ħafna skont it-tip ta’ kompitu, il-fluss tax-xogħol u l-format tar-rispons.

Fejn is-sistemi AI diġà juru saħħa

LifeSciBench juri li l-mudelli fruntiera huma l-aktar b’saħħithom f’kompiti ta’ sinteżi xjentifika, komunikazzjoni u interpretazzjoni strutturata. Ir-rati assoluti ta’ suċċess għadhom modesti, għalhekk dawn l-oqsma mhumiex saturati, iżda GPT‑Rosalind juri progress fuq GPT‑5.5: ir-rata ġenerali ta’ suċċess eżatt titla’ minn 25.7% għal 36.1%.

L-akbar progress fil-kapaċitajiet tal-mudelli jidher fil-Komunikazzjoni Xjentifika u fit-Traduzzjoni. Pereżempju, ir-rata ta’ suċċess fil-Komunikazzjoni Xjentifika titla’ minn 56.3% għal GPT‑5.5 għal 71.1% għal GPT‑Rosalind; il-kategorija hi żgħira (n=9), għalhekk għandha tinqara b’kawtela, iżda tissuġġerixxi li l-mudelli fruntiera qed itejbu malajr il-kapaċità li jorganizzaw evidenza u jipproduċu spjegazzjonijiet konvinċenti għall-esperti. It-Traduzzjoni (il-proċess “mill-bank sal-pazjent” fl-iżvilupp tal-mediċini) turi mudell simili, minn 36.8% għal GPT‑5.5 għal 57.7% għal GPT‑Rosalind, u tissuġġerixxi titjib rapidu fil-konnessjoni bejn evidenza preklinika u implikazzjonijiet kliniċi.

Ir-riżultati fil-livell tar-rubrika juru l-istess. F’kompiti li jeħtieġu outputs utli għall-esperti jew azzjonabbli, GPT‑Rosalind jikseb 44.7%, kontra 29.1% għal GPT‑5.5. F’kompiti dwar inċertezza u twissijiet, jikseb 44.8%, kontra 29.3%. Dan jissuġġerixxi li l-mudelli huma l-aktar utli meta l-kompitu għandu konfini ċari tal-evidenza u jeħtieġ ġudizzju xjentifiku strutturat.

GPT‑Rosalind imexxi l-prestazzjoni f’kompiti ta’ valur xjentifiku identifikati minn esperti tal-industrija u akkademiċi.

GPT‑Rosalind imexxi l-prestazzjoni fuq kompiti ta’ valur xjentifiku identifikati minn esperti tal-industrija u akkademiċi.

Fejn is-sistemi AI għadhom jonqsu

Il-prestazzjoni tibqa’ ħafna aktar dgħajfa f’xogħol xjentifiku b’ħafna artifatti, b’ħafna disinn jew b’limitazzjonijiet operazzjonali. B’mod partikolari, Disinn, ottimizzazzjoni u tbassir jibqa’ fost l-aktar flussi diffiċli, b’rata ta’ suċċess ta’ 30.7% għal GPT‑Rosalind; l-Analiżi hi simili, bi 30.3%.

L-użu tal-artifatti hu lakuna ċara ħafna. Għalkemm GPT‑Rosalind jaqbeż lil GPT‑5.5 f’kuntesti b’ħafna artifatti, ir-rata tiegħu tinżel minn 45.1% f’kompiti b’test biss għal 28.1% f’kompiti b’artifatti jew URLs. GPT‑5.5 juri l-istess mudell, minn 29.9% għal 21.9%. Analiżi aktar dettaljata tikkonferma li l-mudelli fruntiera jitħabtu biex jiġbdu informazzjoni minn figuri kumplessi jew fajls kbar ta’ sekwenzi u jintegrawha fit-tweġiba finali.

Ir-rati ta’ suċċess jonqsu meta l-kompiti jirrikjedu raġunament ibbażat fuq is-sors jew xogħol bl-artifatti

Il-format tat-tweġiba jgħodd ukoll. Kompiti li jeħtieġu outputs eżatti ta’ sekwenza, struttura jew kostrutt għandhom rati aktar baxxi: GPT‑Rosalind jilħaq biss 14.8% f’kompiti numeriċi u 24.0% f’outputs ta’ sekwenza jew struttura. Il-ġenerazzjoni ta’ kostrutti hi wkoll fraġli: GPT‑Rosalind jilħaq 27.3% u juri ftit titjib fuq GPT‑5.5. Parti mil-lakuna tista’ tirrifletti valutazzjoni aktar stretta f’kompiti b’tweġiba eżatta, fejn żbalji żgħar fil-kalkolu jew fil-format jistgħu jwaqqgħu rispons taħt il-limitu. Xorta, dawn il-fallimenti huma xjentifikament importanti għax ħafna flussi tax-xogħol jeħtieġu outputs eżatti biżżejjed għall-użu dirett, bħal fid-disinn ta’ donaturi CRISPR/HDR jew ta’ siRNA.

Il-mudelli spiss jaslu parti mit-triq mingħajr ma jsolvu l-kompitu kollu. F’madwar 14% tal-kompiti, il-mudelli kisbu kreditu sostanzjali fir-rubrika minkejja li ma laħqux il-limitu ta’ suċċess eżatt. Għal GPT‑Rosalind, 109 kompiti kellhom rati ta’ suċċess taħt 20% iżda xorta kisbu mill-inqas 50% tar-reward tar-rubrika. Fil-prattika, il-mudelli jistgħu jsibu evidenza rilevanti jew jagħtu tweġiba parzjali plawżibbli, iżda xorta jonqsu għax jitilfu limitazzjoni ewlenija, jużaw evidenza ħażina, jagħmlu kalkolu mhux komplut jew ma jwasslux ir-raġunament għal deċiżjoni finali utli.

Limitazzjonijiet u x’jmiss

LifeSciBench hu pass lejn il-kejl ta’ kemm is-sistemi AI jistgħu jkunu utli għar-riċerka fix-xjenzi tal-ħajja, iżda ma jissostitwixxix studji ta’ mudelli f’ambjenti ta’ riċerka ħajja. Il-benchmark jiffoka fuq kompiti awtonomi li jirriflettu flussi rikorrenti tal-industrija, u jħalli barra ħafna speċjalitajiet u tipi ta’ kompiti. Ir-riċerka reali hi iterattiva: ix-xjentisti jiġbru evidenza ġdida, jirrevedu ipoteżijiet, jiddisinjaw esperimenti ta’ segwitu u jadattaw il-pjanijiet hekk kif joħorġu r-riżultati.

Għalhekk, prestazzjoni qawwija fuq LifeSciBench għandha tinqara bħala evidenza ta’ kapaċità realistika fil-livell tal-kompitu, mhux bħala kejl dirett tal-impatt fuq ir-riċerka. Il-benchmark hu msejjes fuq flussi tal-industrija, iżda ma jaqbadx id-diversità jew id-dinamika kollha ta’ programmi ta’ riċerka ħajja, fejn il-progress jiddependi fuq fatturi li jiżviluppaw maż-żmien.

Il-pass li jmiss hu li l-prestazzjoni fil-benchmark tintrabat ma’ studji ta’ implimentazzjoni fi flussi ta’ riċerka ħajja. Għalkemm LifeSciBench ġie żviluppat ma’ xjentisti prattikanti, biex jitkejjel jekk is-sistemi AI jaċċellerawx l-iskoperta jew itejbux ir-riżultati tar-R&D hemm bżonn jiġi studjat l-użu tal-mudelli f’ambjenti reali, fuq żmien itwal u tul diversi rawnds ta’ raġunament, feedback u segwitu sperimentali.