17 Juni 2026

Tunatambulisha LifeSciBench

Kipimo kilichoandikwa na kukaguliwa na wataalamu, chenye msingi katika utafiti halisi wa sayansi ya maisha

Inapakia…

Mifumo ya AI ya kiwakala inazidi kuwa na uwezo wa kutekeleza kazi za kisayansi. Hata hivyo, manufaa yake kwa watafiti wa sayansi ya maisha hutegemea jinsi inavyoshughulikia ugumu wa utafiti halisi. Kazi hiyo mara chache hufanana na swali moja la kukumbuka ukweli au tatizo safi la ubashiri. Watafiti hufasiri ushahidi usiokamilika, hupatanisha matokeo yanayokinzana, hubuni majaribio magumu, hutatua matatizo ya vipimo, hutathmini hatari ya uhawilishaji, na huamua hatua inayofuata chini ya kutokuwa na uhakika.

Vipimo vya sasa havinasi kikamilifu uwezo huu. Tathmini nyingi za sayansi ya maisha hulenga vikoa finyu au ujuzi uliotengwa, na hivyo kusababisha maswali yenye miundo iliyoratibiwa na majibu safi ya rejea. Ingawa zina thamani, mara nyingi hushindwa kutathmini kweli kama muundo unaweza kuchangia katika wigo mpana wa kazi ya kiwango cha utafiti.

Tulibuni LifeSciBench kusaidia kuziba pengo hili. Kila kazi ina msingi katika uamuzi wa wanasayansi wa maisha wanaofanya kazi, wenye mafunzo ya kiwango cha Ph.D. na uzoefu wa moja kwa moja wa kuendeleza programu za ugunduzi wa dawa katika mazingira ya bioteknolojia na dawa.

LifeSciBench inajumuisha kazi 750 zilizoandikwa na wataalamu, zinazofunika mitiririko saba ya kazi na vikoa saba vya kibiolojia.

1,062

Viambatisho vya kazi

173

Wanasayansi wachangiaji

19,020

Vigezo vya rubriki

453

Wakaguzi wataalamu

Kile LifeSciBench hupima

LifeSciBench hupima kama mifumo ya AI inaweza kusaidia kazi halisi za utafiti wa sayansi ya maisha, si kujibu tu maswali ya biolojia. Ili kufafanua taksonomia ya kipimo, tuliwahoji wanasayansi wa maisha wanaofanya kazi kuhusu mitiririko ya kazi wanayotumia mara nyingi zaidi katika mazingira ya utafiti tumizi. Kisha tukapanga majibu yao katika makundi saba yanayojirudia: ushughulikiaji wa ushahidi, uchanganuzi, ubunifu na uboreshaji, uwazaji wa kisayansi, uthibitishaji na uendeshaji, uhawilishaji, na mawasiliano ya kisayansi.

Kila kazi imeundwa kama ombi ambalo mwanasayansi angeweza kumpa mshirika mwenye maarifa: dokeza la kisayansi, muktadha au viambatisho vinavyofaa, na jibu huru. Rubriki zilizoandikwa na wataalamu hutathmini kama muundo unaweza kutoa jibu sahihi kwa tatizo mahususi, kwa kiwango sahihi cha maelezo, uthibitisho, tahadhari, na umbizo ambalo mwanasayansi angetarajia.

Ujenzi wa mkusanyiko wa data

LifeSciBench hutathmini uwazaji wa kisayansi pamoja na ujuzi wa vitendo usiofafanuliwa vizuri sana unaohitajika kwa matumizi halisi ya kisayansi. Kazi zake huomba miundo ishughulikie matatizo halisi ya utafiti: kufasiri ushahidi, kufanya maamuzi yenye msingi wa kikoa, na kuwasilisha hitimisho ambalo lingewafaa wakaguzi wataalamu. Kazi nyingi pia huhitaji miundo ishughulikie kutokuwa na uhakika na kufikiri juu ya faili za data zinazounga mkono badala ya kutegemea maandishi ya dokeza pekee.

Kipimo kimeundwa kuakisi ugumu wa kazi ya sayansi ya maisha. Kwa jumla, 79% ya kazi huhitaji hatua nyingi za uwazaji au kufanya maamuzi, zikiwa na wastani wa hatua nne kwa kila kazi. LifeSciBench inajumuisha viambatisho 1,062 vilivyoambatishwa, vinavyofunika michoro, PDF, majedwali, faili za mfuatano, faili za miundo au kemikali, na marejeleo ya wavuti. Zaidi ya nusu ya kazi (53%) huhitaji miundo kufasiri au kuunganisha taarifa kutoka angalau kiambatisho kimoja.

Kazi ziliundwa na wanasayansi wataalamu 173 katika taaluma mbalimbali za sayansi ya maisha. Kila mwanasayansi alikuwa na mafunzo ya kiwango cha Ph.D. na uzoefu katika sekta ya bioteknolojia au dawa. Kazi zingeweza kupitia mizunguko mingi ya marekebisho kadri ilivyohitajika kabla ya kukubaliwa, bila ukomo maalum wa idadi ya raundi; kazi zilizokubaliwa zilikuwa na wastani wa mizunguko sita ya uhakiki otomatiki unaojielekeza na zilikamilisha angalau raundi mbili za hakiki za wataalamu. Hakiki ziliegemezwa ama kwenye jibu sahihi linaloweza kuthibitishwa au makubaliano thabiti ya wataalamu, kukiwa na angalau 90% ya makubaliano miongoni mwa wakaguzi katika kikoa husika. Mchakato huu ulisaidia kuhakikisha kuwa kazi zilizokubaliwa zilikuwa na msingi wa kisayansi, zilikuwa wazi vya kutosha kutathminiwa, na ziliwakilisha utafiti tumizi.

Mchoro unaoonyesha kazi za LifeSciBench zinazochanganya vyanzo vya data vya sayansi ya maisha kama vile mifuatano ya jeni, miundo ya molekuli, michoro, hati, lahajedwali, na viungo vya wavuti pamoja na uwazaji wa hatua nyingi na hakiki ya wataalamu.

Uwekaji alama na mgawanyo wa rubriki

Kazi za LifeSciBench huwekewa alama kwa rubriki ya kina, maalum kwa kazi, inayogawanya jibu linalotarajiwa katika madai mahususi ya kisayansi, hesabu, maamuzi, uthibitisho, na kadhalika. Katika kipimo chote, rubriki zilizotengenezwa na wataalamu zinajumuisha vigezo 19,020—wastani wa 25 kwa kila kazi—ili kutathmini usahihi wa kisayansi na manufaa kwa maamuzi ya utafiti.

Muundo huu unaakisi jinsi kazi ya kisayansi hutathminiwa kwa vitendo: kazi nyingi za sayansi ya maisha haziwezi kuwekewa alama kwa kukagua jibu la mwisho pekee. Jibu linaweza kufikia hitimisho sahihi la kiwango cha juu lakini bado lihesabiwe halijakamilika ikiwa, kwa mfano, linapuuza kikwazo muhimu cha kipimo au halileti mapema hoja ndogo ya kibiolojia yenye athari kubwa. Kinyume chake, jibu la sehemu linaweza kuwa na uwazaji wa ubora wa juu hata kama halitatui kazi kikamilifu.

Rubriki za kina hunasa utofauti huu. LifeSciBench haitathmini tu usahihi wa jibu la mwisho, bali kama muundo unafikia jibu lake kwa njia halali kisayansi na yenye manufaa kiuendeshaji.

Kutoa, kupatanisha, na kukagua ushahidi wa kisayansi kutoka makala, vielelezo, majedwali, na rekodi za majaribio.

Mfano wa Eval

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Majibu ya Mgombea

Jambo la msingi: Kama ilivyowasilishwa, kifurushi hiki hakina nguvu ya kutosha kusaidia idhini ya haraka ya usemi wa micro-dystrophin kama sehemu mbadala inayoweza kutabiri faida ya kimatibabu. Mkaguzi mwenye shaka wa FDA anaweza kuona ushahidi wa kibayoakili, utendaji kazi, uimara, usalama, na ujumlishaji kama usioungwa mkono kikamilifu.

Kipengee cha Kifurushi	Hali ya Kushindwa kwa Ufunguo	Kinachohitajika
Upimaji wa doa la Magharibi	MANEX1A hufunga epitopu ya N-terminal inayoshirikiwa na dystrophin ya urefu kamili ya ndani na transjeni ndogo ya dystrophin, kwa hivyo jaribio halitofautishi transjeni kutoka kwa dystrophin iliyobaki/inayorudi nyuma. Kupima kiwango cha micro-dystrophin ya 138 kDa dhidi ya kiwango cha dystrophin chenye afya cha urefu kamili pia si sahihi.	Tumia kiwango cha micro-dystrophin kilichounganishwa tena na mbinu ya orthogonal inayotofautisha transgene na endogenous dystrophin, kama vile lengwa la molekuli spectrometry au kipimo cha transgene maalum/epitope maalum.
Kinga ya mwili kuwaka	Kingamwili ya polikiloni ya C-terminal haifai vizuri kwa sababu muundo wa 138 kDa hauna eneo la C-terminal. Wagonjwa wengi wa DMD wana nyuzinyuzi zinazorudisha nyuma, na dystrophin inayorudisha nyuma inaweza kuhifadhi epitopu za C-terminal. Nyuzi zinazorudi nyuma zinaweza kupanuka kwa njia ya kloni kadri umri unavyoongezeka, na hivyo kupendelea ishara ya IF, hasa kwa wavulana wakubwa.	Rudia IF ukitumia kingamwili dhidi ya epitope iliyopo kwenye jeni la transjeni lakini haipo kwenye dystrophin inayorudi nyuma. Pima nyuzi zenye jeni chanya tofauti na nyuzi zinazorudisha nyuma.
Uhalali wa sehemu mbadala ya mwisho	Kifurushi hiki huunganisha kiasi cha protini na utendaji kazi wa kliniki. "38% ya wingi wa protini inayodhibiti afya" haimaanishi 38% ya utendaji kazi wa kawaida wa dystrophin kwa sababu micro-dystrophin imepunguzwa kimuundo.	Thibitisha kwa vitendo uhusiano kati ya asilimia ya uzito wa micro-dystrophin, ujanibishaji wa sarcolemmal, urejesho wa utendaji kazi wa chini, na faida ya kimatibabu kabla ya kutibu usemi kama mwisho mbadala.
Ubunifu wa biopsy	Uchunguzi wa biopsies za vastus lateralis kabla na baada ya matibabu huanzisha tofauti za anga za kushoto-kulia na ndani ya misuli. Kuendelea kwa ugonjwa na uingizwaji wa mafuta ya nyuzinyuzi pia kunaweza kubadilisha ishara ya kawaida ya protini jumla.	Sawazisha eneo la biopsy kwa kutumia alama za anatomia zinazofanana, rekebisha protini maalum za misuli, na pima muundo wa nyuzi-mafuta kwa wakati mmoja.
Kilinganishi/takwimu za NSAA	Kundi la nje la historia ya asili si udhibiti wa wakati mmoja uliopangwa bila mpangilio. Ustahiki wa majaribio, huduma ya usaidizi, athari za ushiriki, NSAA ya msingi, utaratibu wa steroidi, umri, na darasa la exon vyote vinaweza kupendelea ulinganisho. Jaribio la t lisilounganishwa halitoshi. Pia, mabadiliko ya NSAA ya +1.4 yako ndani ya tofauti ya majaribio ya majaribio kwa kundi hili la umri.	Fanya utafiti wa nasibu unaodhibitiwa na placebo kwa wakati mmoja, au uchanganuzi uliorekebishwa kwa matumizi ya angalau kwa kuzingatia NSAA ya msingi, umri, utaratibu wa steroidi, darasa la exon, na vizuizi vingine.
Kuchanganya umri	Wavulana wa umri wa miaka 4-7 wako katika kipindi cha ukuaji ambapo wagonjwa wa DMD ambao hawajatibiwa wanaweza kupata utendakazi wa viungo vya mwili kabla ya kupungua kutawala. Mabadiliko ya NSAA ya wiki 48 huchanganya ongezeko la ukuaji, kuendelea kwa ugonjwa, na athari inayowezekana ya matibabu.	Tumia udhibiti nasibu unaofuatana pamoja na uainishaji wa umri ili kutenganisha mwelekeo wa ukuaji na athari ya matibabu.
Mfano wa kliniki wa awali	Ishara za utendaji kazi za micro-dystrophin zenye lebo wazi hazijatabiri kwa uhakika faida ya uthibitisho; mfano uliochapishwa unajumuisha majaribio ya uthibitisho wa tiba ya jeni ya micro-dystrophin yaliyoshindwa kutoa maboresho ya NSAA yenye lebo wazi.	Usitegemee mabadiliko ya NSAA yaliyo wazi kama msaada muhimu. Inahitaji ushahidi wa utendaji unaodhibitiwa.
Mipaka ya kimuundo ya ujenzi	Muundo wa 138 kDa hufuta spectrin inayorudia R16/17, ambayo ina tovuti za kuunganisha nNOS. Kupotea kwa uajiri wa nNOS kunaweza kuharibu huruma ya utendaji kazi na ulinzi wa ischemia wakati wa mazoezi, na hivyo kuunda kiwango cha juu cha uokoaji bila kujali kiwango cha usemi.	Ongeza tafiti za kiufundi zinazoonyesha kama muundo huu maalum unarejesha utendakazi tata unaohusiana na dystrophin, ujanibishaji wa nNOS, fiziolojia ya mazoezi, na ulinzi wa misuli.
Uimara wa AAV	Jenomu za vekta katika wiki 12 hazitoi usemi wa kudumu. Jenomu za AAV9 kwa kiasi kikubwa ni episome zisizounganishwa na zinaweza kupungua baada ya muda. Uvumilivu wa vekta-jenomu si sawa na usemi endelevu wa protini.	Pima usemi wa protini ya transgene ya muda mrefu na uimara wa kibayokrasia inayofanya kazi zaidi ya wiki 12.
Wasifu wa kinga/usalama	Transaminitis kwa wagonjwa wa 8/12 inaendana na mwitikio wa kinga dhidi ya seli zilizopitishwa na AAV, lakini utaratibu haujaanzishwa. Kesi moja ya myocarditis inahusu ugonjwa wa moyo wa AAV9 unaosababishwa na tropism.	Toa ufuatiliaji wa kina wa kinga, uainishaji wa usalama wa ini/moyo, na ufuatiliaji ulioimarishwa wa moyo.
Uchaguzi/uwezo wa jumla wa mgonjwa	Kuondoa wagonjwa wanaopunguza kingamwili chanya dhidi ya AAV9 hupunguza uwezo wa jumla wa kutumia dawa hiyo. Kuondoa ufutaji wa exon-44 hupunguza uwezekano wa kutumika kwa kundi hilo dogo la DMD. n=12 ni ndogo sana kuashiria usalama na ufanisi katika idadi kubwa ya watu wenye DMD.	Panua ustahiki inapowezekana au bainisha mapema uchambuzi wa tabaka kwa hali ya kingamwili, aina ya jeni/exon, umri, na kazi ya msingi kabla ya kutumia matokeo ili kuunga mkono idhini pana.

Hitimisho la kisheria: Kifurushi kinaweza kuonyesha shughuli za kibiolojia, lakini bado hakijabaini kuwa usemi wa micro-dystrophin uliopimwa ni mbadala wa kuaminika unaowezekana kutabiri faida ya kimatibabu. Mapengo makuu ni ubainifu wa majaribio, viwango batili vya upimaji, uwezekano wa kuchanganya nyuzinyuzi zinazorudi nyuma, ukosefu wa udhibiti nasibu, kuchanganya kwa NSAA kunakohusiana na umri, uimara usio na uhakika, na masuala ya usalama/ujumla ambayo hayajatatuliwa.

Ili kuziba pengo, programu ingehitaji muundo wa kliniki uliodhibitiwa na wenye matabaka ya umri pamoja na majaribio ya usemi maalum wa transgene, upimaji wa protini ya orthogonal, vidhibiti vya utungaji wa tishu, data ya uimara wa muda mrefu, majaribio ya utendaji kazi wa kiufundi kwa muundo uliopunguzwa, na ufuatiliaji thabiti wa usalama, hasa ini na moyo.

Vigezo vya Rubriki na Alama

Kigezo

Pointi

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

Kuthibitisha LifeSciBench

Tulithibitisha LifeSciBench kupitia hakiki huru ya wataalamu. Maoni yalitoka kwa wakaguzi 453 ambao hawakuhusika katika kuandika kazi hizo. Kati ya wakaguzi hao, 97% walikuwa na Ph.D. au shahada sawa ya udaktari, wakiwa na wastani wa miaka 12 ya uzoefu wa nyanjani na machapisho 14 yaliyopitiwa na wenzao; 88% waliripoti kupokea angalau tuzo au ufadhili mmoja.

Wakaguzi walitoa alama kuhusu kama kila kazi iliakisi sifa zinazohitajika kwa swali thabiti la kipimo: kuoana na kazi halisi ya utafiti, kupima ipasavyo uwazaji wa kisayansi na utaalamu wa kikoa, msingi katika ushahidi au makubaliano ya wataalamu, na manufaa ya jumla katika kutathmini utendaji wa muundo. Makubaliano yalizidi 96% katika kila kategoria.

Umuhimu katika ulimwengu halisi

Je, kazi hii inaakisi kazi halisi ya sayansi ya maisha katika ulimwengu halisi?

Nakubali kabisa: 90.4%
Nakubali kwa jumla: 98.3%

Uwazaji wa kisayansi / ujuzi wa kikoa

Je, kazi hii hujaribu na kutathmini uwazaji sahihi wa kisayansi na ujuzi wa kikoa cha sayansi ya maisha?

Nakubali kabisa: 86.4%
Nakubali kwa jumla: 98.1%

Msingi wa kisayansi

Je, kazi hii ina msingi wa kisayansi, inaweza kujibika, na imeegemezwa kwenye ushahidi, data, viambatisho, au makubaliano ya wataalamu yanayofaa?

Nakubali kabisa: 77.1%
Nakubali kwa jumla: 96.5%

Manufaa kwa jumla

Kwa jumla, je, hii ni kazi thabiti ya tathmini ya sayansi ya maisha?

Nakubali kabisa: 79.1%
Nakubali kwa jumla: 96.6%

Maoni ya wakaguzi yaliimarisha viwango vya kikiasi:

1 kati ya 3

“Kwa jumla ni kazi thabiti kwa sababu ina tafsiri moja kuu sahihi huku ikiendelea kutoa nafasi ya kutofautisha majibu bora kulingana na jinsi yanavyoweka mipaka ya kutokuwa na uhakika kwa uangalifu.”

Matokeo

Tunaripoti vipimo viwili vinavyokamilishana. Kiwango cha kufaulu ni asilimia ya kazi ambazo muundo unatimiza kizingiti cha mafanikio cha kiwango cha kazi cha 70%. Alama ni wastani wa tuzo ya rubriki, ikitoa alama za sehemu kwa vigezo binafsi hata wakati kazi nzima haijatatuliwa. Vyote ni muhimu kwa sababu jibu kwa kazi ya kisayansi linaweza kuwa sahihi kwa sehemu au lenye manufaa bila kutimiza kila hitaji la jibu kamili.

Utendaji wa muundo hutofautiana sana kulingana na aina ya kazi, mtiririko wa kazi, na umbizo la jibu.

Mahali mifumo ya AI inaonyesha nguvu za mapema

LifeSciBench inaonyesha kuwa miundo ya hali ya juu ina nguvu kiasi zaidi kwenye kazi zinazohusisha usanisi wa kisayansi, mawasiliano, na ufasiri ulioratibiwa. Viwango kamili vya kufaulu bado ni vya wastani, kwa hivyo vikoa hivi vya kipimo viko mbali na kujaa, lakini GPT‑Rosalind inaonyesha maendeleo ya maana kuliko GPT‑5.5, ikiboresha kiwango cha jumla cha kufaulu kamili kutoka 25.7% hadi 36.1%.

Mielekeo imara zaidi ya maendeleo katika uwezo wa muundo inaonekana katika Mawasiliano ya Kisayansi na Uhawilishaji. Kwa mfano, kiwango cha kufaulu cha Mawasiliano ya Kisayansi kinaongezeka kutoka 56.3% kwa GPT‑5.5 hadi 71.1% kwa GPT‑Rosalind; kategoria hii ni ndogo (n=9), kwa hivyo inapaswa kufasiriwa kwa tahadhari, lakini inadokeza kuwa miundo ya hali ya juu inaboreka haraka katika uwezo wake wa kupanga ushahidi na kutoa maelezo ya kushawishi yanayolenga wataalamu. Uhawilishaji (mchakato wa "kutoka benchi hadi kitandani" katika maendeleo ya dawa) unaonyesha muundo sawa, ukipanda kutoka 36.8% kwa GPT‑5.5 hadi 57.7% kwa GPT‑Rosalind, ikidokeza kuwa miundo inaboreka haraka katika uwezo wake wa kuunganisha ushahidi wa kabla ya kliniki na athari za kliniki.

Matokeo ya kiwango cha rubriki yanaelekeza upande huo huo. Kwenye kazi zinazohitaji matokeo yenye manufaa kwa wataalamu au yanayoweza kutekelezwa, GPT‑Rosalind hupata 44.7%, ikilinganishwa na 29.1% kwa GPT‑5.5. Kwenye kazi zinazohitaji kushughulikia kutokuwa na uhakika na tahadhari, hupata 44.8%, ikilinganishwa na 29.3%. Mtindo huu unapendekeza kuwa miundo huwa na manufaa zaidi wakati kazi ina mpaka wazi wa ushahidi na inahitaji uamuzi wa kisayansi ulioratibiwa.

GPT‑Rosalind inaongoza utendaji katika kazi zenye thamani ya kisayansi zilizotambuliwa na wataalamu wa sekta na akademia.

GPT‑Rosalind inaongoza utendaji katika kazi zenye thamani ya kisayansi zilizotambuliwa na wataalamu wa sekta na taaluma.

Mahali mifumo ya AI bado inapungukiwa

Utendaji unabaki dhaifu zaidi kwenye kazi za kisayansi zenye viambatisho vingi, ubunifu mwingi, na vikwazo vya kiuendeshaji. Yaani, Ubunifu, Uboreshaji, na Ubashiri unasalia kuwa mojawapo ya mitiririko migumu zaidi ya kazi, huku kiwango cha kufaulu cha GPT‑Rosalind kikiwa 30.7%; Uchanganuzi pia ni mgumu kwa 30.3%.

Matumizi ya viambatisho ni pengo lililo wazi hasa. Ingawa GPT‑Rosalind hufanya vizuri zaidi kuliko GPT‑5.5 katika mazingira yenye viambatisho vingi, kiwango chake cha kufaulu bado hushuka kutoka 45.1% kwenye kazi za maandishi pekee hadi 28.1% kwenye kazi zenye viambatisho au URL. GPT‑5.5 inaonyesha mtindo huo huo, ikishuka kutoka 29.9% hadi 21.9%. Uchanganuzi wa kina zaidi unathibitisha kuwa miundo ya hali ya juu hupata ugumu kutoa taarifa kutoka kwenye michoro changamano au faili kubwa za mfuatano na kuziunganisha katika jibu la mwisho.

Viwango vya kufaulu hupungua kazi zinapohitaji uwazaji wenye msingi wa vyanzo au kufanya kazi na viambatisho

Umbizo la jibu pia ni muhimu. Kazi zinazohitaji mfuatano kamili, muundo, au matokeo ya kiwango cha construct huonyesha viwango vya chini vya kufaulu: GPT‑Rosalind hufikia 14.8% tu kwenye kazi za nambari na 24.0% kwenye matokeo ya mfuatano au muundo. Kazi za kuzalisha constructs pia ni dhaifu, huku GPT‑Rosalind ikiwa 27.3% na ikionyesha maboresho kidogo kuliko GPT‑5.5. Sehemu ya pengo hili inaweza kuakisi uso mkali zaidi wa uwekaji alama kwa kazi za majibu kamili, ambapo tofauti ndogo katika hesabu au umbizo zinaweza kusababisha jibu kushuka chini ya kizingiti cha kufaulu. Hata hivyo, kushindwa huku kuna maana ya kisayansi kwa sababu mitiririko mingi ya kazi ya sayansi ya maisha huhitaji matokeo yaliyo sahihi vya kutosha kutumiwa moja kwa moja, kama katika ubunifu wa donor wa CRISPR/HDR au ubunifu wa siRNA.

Miundo pia mara nyingi hufika kiasi fulani bila kutatua kazi kikamilifu. Katika takriban 14% ya kazi, miundo ilipata alama kubwa za rubriki licha ya kushindwa kufikia kizingiti cha kufaulu kamili. Kwa GPT‑Rosalind, kazi 109 zilikuwa na viwango vya kufaulu chini ya 20% huku bado zikipata angalau 50% ya tuzo ya rubriki. Kwa vitendo, hii ina maana kwamba miundo inaweza kutambua ushahidi husika au kutoa jibu la sehemu linaloonekana kufaa, lakini bado ishindwe kwa sababu hukosa kikwazo muhimu, hutumia ushahidi usio sahihi, hufanya hesabu isiyokamilika, au haiungi uwazaji wake na uamuzi wa mwisho wenye manufaa kisayansi.

Mipaka na hatua inayofuata

LifeSciBench ni hatua kuelekea kupima jinsi mifumo ya AI inaweza kuwa na manufaa kwa utafiti wa sayansi ya maisha, lakini si mbadala wa kuchunguza miundo katika mazingira hai ya utafiti. Kipimo kinalenga kazi zinazojitegemea zinazoakisi mitiririko ya kazi inayojirudia katika sekta, huku kikiziacha taaluma nyingi za kisayansi na aina za kazi nje ya wigo wake wa sasa. Utafiti halisi ni wa kurudiarudia: wanasayansi hukusanya ushahidi mpya, kurekebisha nadharia, kubuni majaribio ya ufuatiliaji, na kubadili mipango yao matokeo yanapojitokeza.

Kwa hiyo, utendaji thabiti kwenye LifeSciBench unapaswa kufasiriwa kama ushahidi wa uwezo halisi katika kiwango cha kazi, si kama kipimo cha moja kwa moja cha athari za baadaye za utafiti. Kipimo kina msingi katika mitiririko ya kazi ya sekta, lakini hakishiki utofauti kamili au mienendo ya programu hai za utafiti, ambapo maendeleo hutegemea mambo yanayojitokeza kadri muda unavyopita.

Hatua inayofuata ni kuunganisha utendaji wa kipimo na tafiti za utekelezaji katika mitiririko hai ya kazi za utafiti. Ingawa LifeSciBench iliendelezwa pamoja na wanasayansi wanaofanya kazi, kupima kama mifumo ya AI huharakisha ugunduzi au huboresha matokeo ya R&D kutahitaji kuchunguza matumizi na utendaji wa muundo katika mazingira halisi ya utafiti, kwa vipindi virefu zaidi, na katika raundi nyingi za uwazaji, maoni, na ufuatiliaji wa majaribio.