Léim go dtí an príomhábhar
OpenAI

17 Meitheamh 2026

TaighdeFoilsiú

LifeSciBench á thabhairt isteach

Tagarmharc scríofa agus athbhreithnithe ag saineolaithe, bunaithe ar thaighde fíorshaoil sna heolaíochtaí beatha

Ag lódáil…

Tá córais IS ghníomhaireach ag éirí níos cumasaí ar thascanna eolaíochta. Ach braitheann a luach d’eolaithe beatha ar an gcaoi a láimhseálann siad castacht an fhíorthaighde. Is annamh is ceist shimplí fíricí nó fadhb ghlan tuartha í an obair sin. Léirmhíníonn taighdeoirí fianaise neamhiomlán, réitíonn siad torthaí contrártha, dearann siad turgnaimh, fabhtcheartaíonn siad measúnachtaí, measann siad riosca aistritheacha, agus roghnaíonn an chéad chéim eile faoi éiginnteacht.

Ní thomhaiseann tagarmharcanna reatha na cumais sin go hiomlán. Díríonn go leor measúnuithe eolaíochtaí beatha ar réimsí cúnga nó scileanna aonair, le ceisteanna struchtúrtha agus freagraí tagartha glana. Tá siad luachmhar, ach is minic nach measann siad an gcabhraíonn samhail leis an raon níos leithne oibre taighde.

Dhearamar LifeSciBench chun an bhearna seo a dhúnadh. Tá gach tasc bunaithe ar bhreithiúnas eolaithe beatha cleachtacha le hoiliúint Ph.D. agus taithí dhíreach ar fhionnachtain drugaí i mbiteicneolaíocht agus cógaisíocht.

Tá 750 tasc saineolaí in LifeSciBench thar sheacht sreabhadh oibre agus seacht bhfearann bhitheolaíocha.

1,062

Déantáin tascanna

173

Eolaithe rannpháirteacha

19,020

Critéir rúibrice

453

Athbhreithneoirí saineolacha

An méid a thomhaiseann LifeSciBench

Tomhaiseann LifeSciBench an féidir le córais IS tacú le fíorthascanna taighde sna heolaíochtaí beatha, ní ceisteanna bitheolaíochta amháin a fhreagairt. Chun tacsanomaíocht an tagarmhairc a shainiú, chuireamar ceist ar eolaithe beatha cleachtacha faoi na sreafaí oibre is coitianta acu i dtaighde feidhmeach. Ghrúpálamar na freagraí i seacht gcatagóir: láimhseáil fianaise, anailís, dearadh agus barrfheabhsú, réasúnaíocht eolaíoch, bailíochtú agus oibríochtaí, aistriú, agus cumarsáid eolaíoch.

Tá gach tasc cosúil le hiarratas ó eolaí ar chomhghleacaí eolach: leid eolaíoch, comhthéacs nó déantáin ábhartha, agus freagra oscailte. Measann rúibricí saineolaí an dtugann samhail an freagra ceart ar shaincheist ar leith, leis an mionsonra, údar, rabhaidh agus formáid a bheadh eolaí ag súil leo.

Tógáil an tacair sonraí

Measann LifeSciBench réasúnaíocht eolaíoch agus na scileanna praiticiúla, níos doiléire, atá riachtanach sa saol fíor. Cuireann na tascanna fadhbanna taighde réalaíocha ar shamhlacha: fianaise a léirmhíniú, breithiúnas fearainn a thabhairt, agus conclúidí úsáideacha do shaineolaithe a chur in iúl. Éilíonn go leor tascanna freisin go láimhseálfadh samhlacha éiginnteacht agus comhaid sonraí tacaíochta, seachas téacs na leide amháin.

Dearadh an tagarmharc chun castacht obair na n-eolaíochtaí beatha a léiriú. San iomlán, éilíonn 79% de thascanna níos mó ná céim amháin réasúnaíochta nó cinnteoireachta, ceithre chéim ar an meán. Tá 1,062 déantán ceangailte in LifeSciBench: figiúirí, PDFanna, táblaí, comhaid seichimh, comhaid struchtúir nó cheimiceacha, agus tagairtí gréasáin. Éilíonn os cionn leath na dtascanna (53%) faisnéis ó dhéantán amháin ar a laghad a léirmhíniú nó a shintéisiú.

Chruthaigh 173 eolaí saineolach ó dhisciplíní éagsúla eolaíochtaí beatha na tascanna. Bhí oiliúint Ph.D. agus taithí sa bhiteicneolaíocht nó sa chógaisíocht ag gach eolaí. D’fhéadfaí tascanna a leasú a mhéad uair ba ghá roimh ghlacadh leo; ar an meán, rinne tascanna glactha sé athbhreithniú uathoibríoch féinstiúrtha agus dhá athbhreithniú saineolaí ar a laghad. Bhí athbhreithnithe bunaithe ar fhreagra infhíoraithe ceart nó ar chomhthoil láidir saineolaithe, le comhaontú 90% ar a laghad sa réimse ábhartha. Chinntigh an próiseas go raibh na tascanna glactha eolaíoch, soiléir le grádú, agus ionadaíoch ar thaighde feidhmeach.

Léaráid a thaispeánann tascanna LifeSciBench a chomhcheanglaíonn foinsí sonraí sna heolaíochtaí beatha, amhail seichimh ghéanómacha, struchtúir mhóilíneacha, figiúirí, doiciméid, scarbhileoga agus naisc ghréasáin, le réasúnaíocht ilchéime agus athbhreithniú saineolaithe.

Grádú agus miondealú rúibricí

Grádaítear tascanna LifeSciBench le rúibric mhionsonraithe shonrach a bhriseann an freagra ionchais ina mhaímh, ríomhanna, cinntí, údaruithe agus araile. Ar fud an tagarmhairc, tá 19,020 critéar i rúibricí saineolaí—25 in aghaidh an taisc ar an meán—chun cruinneas eolaíoch agus luach do chinntí taighde a mheas.

Léiríonn sé seo measúnú na hoibre eolaíochta i gcleachtas: ní leor an freagra deiridh amháin do go leor tascanna eolaíochtaí beatha. Féadfaidh freagra an chonclúid ghinearálta cheart a bhaint amach ach a bheith neamhiomlán má chailleann sé teorainn thábhachtach measúnachta nó mionsonra bitheolaíoch ríthábhachtach. Os a choinne sin, féadfaidh réasúnaíocht mhaith a bheith i bhfreagra páirteach fiú mura réitíonn sé an tasc.

Gabhann na rúibricí mionsonraithe an difear sin. Ní mheasann LifeSciBench cruinneas deiridh amháin, ach an dtagann samhail ar a freagra ar bhealach bailí eolaíoch agus úsáideach go hoibríochtúil.

Fianaise eolaíoch a bhaint, a réiteach agus a iniúchadh ó pháipéir, figiúirí, táblaí agus taifid thurgnamhacha.

Sampla Measúnuithe

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

  • Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
  • 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
  • Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
  • 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
  • Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
  • Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
  • Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Freagra Iarrthóra

Bunlíne: Mar a chuirtear i láthair é, níl an pacáiste seo sách láidir chun tacú le faomhadh luathaithe ar léiriú micrea-dystrophin mar dheireadhphointe ionaid ar dócha go réasúnta go dtuarfaidh sé tairbhe chliniciúil. Is dócha go bhfeicfeadh athbhreithneoir amhrasach FDA an fhianaise bhithmharcóra, fheidhmiúil, mharthanachta, sábháilteachta agus ghinearálaitheachta mar fhianaise nach bhfuil tacaíocht ábhartha leordhóthanach aici.

Mír Phacáiste

Príomh-Mhodh Teipe

An méid a bheadh de dhíth

Cainníochtú Western blot

Ceanglaíonn MANEX1A eipitóp N-teirminéil atá roinnte ag dystrophin dúchasach lánfhaid agus an trasghéin micrea-dystrophin, mar sin ní dhéanann an tástáil idirdhealú glan idir trasghéin agus dystrophin iarmharach/aisfhillteach. Tá cainníochtú micrea-dystrophin 138 kDa i gcoinne caighdeán sláintiúil dystrophin lánfhaid neamhbhailí freisin.

Úsáid caighdeán micrea-dystrophin athchuingreach agus modh ortagánach a dhéanann idirdhealú idir trasghéin agus dystrophin dúchasach, amhail mais-speictriméadracht spriocdhírithe nó tástáil shonrach do thrasghéin/eipitóp.

Imdhíonfhluaraiseacht

Níl an t-antashubstaint pholaclónach C-teirminéil oiriúnach go maith toisc nach bhfuil an fearann C-teirminéil sa tógán 138 kDa. Tá snáithíní aisfhillteacha ag go leor othar DMD, agus féadann dystrophin aisfhillteach eipitóip C-teirminéil a choinneáil. D’fhéadfadh snáithíní aisfhillteacha leathnú go clónach le haois, ag claonadh comhartha IF, go háirithe i mbuachaillí níos sine.

Déan IF arís le hantashubstaint i gcoinne eipitóp atá i láthair sa trasghéin ach as láthair ó dhystrophin aisfhillteach. Cainníochtaigh snáithíní dearfacha don trasghéin ar leithligh ó shnáithíní aisfhillteacha.

Bailíocht deireadhphointe ionaid

Meascann an pacáiste méid próitéine le feidhm chliniciúil. Ní chiallaíonn “38% de mhais próitéine rialaithe shláintiúil” 38% de ghnáthfheidhm dystrophin toisc go bhfuil micrea-dystrophin gearrtha go struchtúrach.

Bailíochtaigh go heimpíreach an gaol idir céatadán maise micrea-dystrophin, logánú sarcolemmal, athbhunú feidhmiúil iartheachtach agus tairbhe chliniciúil sula gcaitear le léiriú mar dheireadhphointe ionaid.

Dearadh bithóipse

Tugann bithóipsí vastus lateralis contralateracha roimh agus tar éis cóireála isteach éagsúlacht clé-deas agus spásúil inmhatánach. Féadfaidh dul chun cinn galair agus athsholáthar fibro-sailleach comhartha normalaithe ar phróitéin iomlán a athrú freisin.

Caighdeánaigh suíomh bithóipse le sainchomharthaí anatamaíocha comhsheasmhacha, normalaigh go próitéiní sainiúla do mhatán, agus tomhais comhdhéanamh fibrea-sailleach i gcomhthráth.

Comparadóir/staitisticí NSAA

Ní rialú randamaithe comhuaineach é cohórt seachtrach stair nádúrtha. Féadfaidh incháilitheacht trialach, cúram tacaíochta, éifeachtaí rannpháirtíochta, NSAA bonnlíne, réimeas stéaróide, aois agus aicme exon an chomparáid a chlaonadh. Ní leor tástáil t neamhphéireáilte. Chomh maith leis sin, tá athrú +1.4 NSAA laistigh d’athraitheacht tástála-aththástála don aoisghrúpa seo.

Rith staidéar randamaithe comhuaineach rialaithe le phlaicéabó, nó ar a laghad úsáid anailísí coigeartaithe a chuireann NSAA bonnlíne, aois, réimeas stéaróide, aicme exon agus mearbhallaithe eile san áireamh.

Mearbhallú fuinneoige aoise

Tá buachaillí 4–7 mbliana d’aois i bhfuinneog forbartha ina bhféadfadh othair DMD siúil gan chóireáil feidhm mhótair a fháil sula mbíonn meath i réim. Meascann athrú NSAA 48 seachtaine gnóthachan forbartha, dul chun cinn galair agus éifeacht chóireála fhéideartha.

Úsáid rialú randamaithe comhuaineach le srathú aoise chun conair forbartha a scaradh ó éifeacht chóireála.

Fasach cliniciúil roimhe seo

Níor thuar comharthaí feidhmiúla lipéad oscailte micrea-dystrophin tairbhe dhearbhaithe go hiontaofa; cuimsíonn fasach foilsithe trialacha dearbhaithe teiripe géine micrea-dystrophin nár éirigh leo feabhsuithe NSAA lipéad oscailte a atáirgeadh.

Ná bí ag brath ar athrú NSAA lipéad oscailte mar thacaíocht chinntitheach. Éiligh fianaise fheidhmiúil rialaithe.

Teorainneacha struchtúracha an tógáin

Scriosann an tógán 138 kDa athráite spectrin R16/17, ina bhfuil suíomhanna ceangailteacha nNOS. Féadfaidh cailliúint earcaíochta nNOS sympatholysis fheidhmiúil agus cosaint in aghaidh iscéime le linn aclaíochta a lagú, ag cruthú uasteorainn mheicníoch ar tharrtháil atá neamhspleách ar leibhéal léirithe.

Cuir staidéir mheicníocha leis a léiríonn an n-athbhunaíonn an tógán sonrach seo feidhm ábhartha choimpléasc a bhaineann le dystrophin, logánú nNOS, fiseolaíocht aclaíochta agus cosaint mhatán.

Marthanacht AAV

Ní bhunaíonn géanóim veicteora ag 12 seachtaine léiriú marthanach. Is eipeasóim neamh-chomhtháthaithe den chuid is mó iad géanóim AAV9 agus d’fhéadfadh siad laghdú le himeacht ama. Ní hionann buanseasmhacht ghéanóim veicteora agus léiriú próitéine marthanach.

Tomhais léiriú próitéine trasghéine go fadaimseartha agus marthanacht bithmharcóirí feidhmiúla thar 12 seachtaine.

Próifíl imdhíonachta/sábháilteachta

Tá transaminitis i 8/12 othar comhsheasmhach le freagairt imdhíonachta do chealla trasduchtaithe AAV, ach níl an mheicníocht bunaithe. Tá cás amháin miocardaitis buartha i bhfianaise trópacht chairdiach AAV9.

Cuir monatóireacht imdhíonachta níos doimhne, tréithriú sábháilteachta ae/cairdiach agus obair leantach chairdiach níos déine ar fáil.

Roghnú othar/ginearálaitheacht

Teorannaíonn eisiamh othar dearfach d’antashubstaintí neodraithe frith-AAV9 ginearálaitheacht. Teorannaíonn eisiamh scriostaí exon-44 infheidhmeacht don fhoghrúpa DMD sin. Tá n=12 róbheag chun sábháilteacht agus éifeachtúlacht a thréithriú ar fud an daonra DMD níos leithne.

Leathnaigh incháilitheacht nuair is féidir nó réamhshonraigh anailísí srathaithe de réir stádas antashubstainte, géinitíopa/aicme exon, aoise agus feidhm bhonnlíne sula n-úsáidtear an toradh chun tacú le faomhadh leathan.

Conclúid rialála: D’fhéadfadh an pacáiste gníomhaíocht bhitheolaíoch a léiriú, ach ní bhunaíonn sé fós gur ionad iontaofa é an léiriú micrea-dystrophin tomhaiste ar dócha go réasúnta go dtuarfaidh sé tairbhe chliniciúil. Is iad na príomhbhearnaí sainiúlacht tástála, caighdeáin chainníochtaithe neamhbhailí, mearbhallú féideartha snáithíní aisfhillteacha, easpa rialaithe randamaithe, mearbhallú NSAA a bhaineann le haois, marthanacht éiginnte, agus saincheisteanna sábháilteachta/ginearálaitheachta gan réiteach.

Chun an bhearna a dhúnadh, bheadh dearadh cliniciúil rialaithe srathaithe de réir aoise ag teastáil ón gclár le tástálacha léirithe sainiúla don trasghéin, cainníochtú próitéine ortagánach, rialuithe comhdhéanamh fíocháin, sonraí marthanachta fadaimseartha, tástálacha feidhmiúla meicníocha don tógán gearrtha, agus monatóireacht sábháilteachta níos láidre, go háirithe hepatic agus cairdiach.

Critéir Rubraice agus Gráid

Critéar
Pointí
Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.
+24
Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.
+22
Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.
+19
Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.
+12
Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.
+15
Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.
+8

LifeSciBench a bhailíochtú

Bhailíochtaíomar LifeSciBench trí athbhreithniú neamhspleách saineolaithe. Tháinig aiseolas ó 453 athbhreithneoir nach raibh páirteach i scríobh na dtascanna. Bhí Ph.D. nó dochtúireacht choibhéiseach ag 97% díobh, 12 bhliain taithí agus 14 fhoilseachán piarmheasúnaithe ar an meán; dúirt 88% go bhfuair siad dámhachtain nó comhaltacht.

Scóráil athbhreithneoirí an raibh gach tasc ina cheist láidir tagarmhairc: ailíniú le fíorobair thaighde, tástáil chuí ar réasúnaíocht eolaíoch agus saineolas fearainn, bunús i bhfianaise nó i gcomhthoil, agus úsáideacht chun feidhmíocht samhla a mheas. Sháraigh comhaontú 96% i ngach catagóir.

Ábharthacht sa saol fíor

An léiríonn an tasc seo obair réalaíoch sna heolaíochtaí beatha sa saol fíor?

Aontaím go láidir
90.4%
Aontaím ar an iomlán
98.3%

Réasúnaíocht eolaíoch / scil fearainn

An ndéanann an tasc seo an réasúnaíocht eolaíoch agus na scileanna fearainn sna heolaíochtaí beatha cearta a thástáil agus a ghrádú?

Aontaím go láidir
86.4%
Aontaím ar an iomlán
98.1%

Bunús eolaíoch

An bhfuil bunús eolaíoch leis an tasc seo, an féidir é a fhreagairt, agus an bhfuil sé bunaithe ar fhianaise, sonraí, déantáin nó comhthoil saineolaithe chuí?

Aontaím go láidir
77.1%
Aontaím ar an iomlán
96.5%

Úsáideacht fhoriomlán

Tríd is tríd, an tasc láidir meastóireachta sna heolaíochtaí beatha é seo?

Aontaím go láidir
79.1%
Aontaím ar an iomlán
96.6%

Neartaigh tuairimí na n-athbhreithneoirí na rátálacha cainníochtúla:

1 de 3
Tríd is tríd, is tasc láidir é mar go bhfuil croíléirmhíniú ceart amháin aige, ach fós fágann sé spás chun freagraí níos fearr a idirdhealú de réir a chúramach a chuireann siad teorainneacha leis an éiginnteacht.

Torthaí

Tuairiscímid dhá mhéadracht chomhlántacha. Is é ráta pas céatadán na dtascanna ina mbaineann samhail tairseach ratha 70% amach. Is é an scór meánluaíocht na rúibric, a thugann páirtchreidiúint do chritéir aonair fiú mura réitítear an tasc iomlán. Tá an dá cheann tábhachtach, mar d’fhéadfadh freagra eolaíoch a bheith páirteach ceart nó úsáideach gan gach riachtanas a chomhlíonadh.

Athraíonn feidhmíocht samhla go mór de réir cineál taisc, sreabhadh oibre agus formáid freagra.

Na réimsí ina léiríonn córais IS láidreacht luath

Léiríonn LifeSciBench gurb iad samhlacha teorainn is láidre, go coibhneasta, ar shintéis eolaíoch, cumarsáid agus léirmhíniú struchtúrtha. Tá rátaí pas fós measartha, mar sin níl na réimsí seo sáithithe; ach léiríonn GPT‑Rosalind dul chun cinn ar GPT‑5.5, agus ardaíonn an ráta pas cruinn foriomlán ó 25.7% go 36.1%.

Is i gCumarsáid Eolaíoch agus in Aistriú atá an dul chun cinn is láidre i gcumais samhla. Mar shampla, ardaíonn ráta pas na Cumarsáide Eolaíche ó 56.3% le GPT‑5.5 go 71.1% le GPT‑Rosalind; tá an chatagóir beag (n=9), mar sin bí cúramach, ach tugann sí le fios go bhfuil samhlacha teorainn ag feabhsú go tapa ar fhianaise a eagrú agus míniúcháin láidre do shaineolaithe a thabhairt. Léiríonn Aistriú (an próiseas forbartha drugaí "ón mbinse go cois leapa") patrún cosúil leis: ó 36.8% le GPT‑5.5 go 57.7% le GPT‑Rosalind, rud a thugann le fios go nascann samhlacha fianaise réamhchliniciúil le himpleachtaí cliniciúla níos fearr.

Tugann torthaí ar leibhéal rúibric an teachtaireacht chéanna. Ar thascanna a éilíonn aschuir úsáideacha do shaineolaithe nó inghníomhaithe, scórálann GPT‑Rosalind 44.7%, i gcomparáid le 29.1% do GPT‑5.5. Ar thascanna a éilíonn láimhseáil éiginnteachta agus rabhaidh, scórálann sé 44.8%, i gcomparáid le 29.3%. Tugann sé seo le fios gur úsáideach samhlacha nuair atá teorainn fianaise shoiléir ann agus gá le breithiúnas eolaíoch struchtúrtha.

Tá GPT‑Rosalind chun tosaigh i bhfeidhmíocht ar thascanna atá luachmhar ó thaobh na heolaíochta de agus a d’aithin saineolaithe tionscail agus acadúla.

Tá GPT‑Rosalind chun tosaigh i bhfeidhmíocht thar thascanna a bhfuil luach eolaíoch leo arna sainaithint ag saineolaithe tionscail agus acadúla.

Tá GPT‑Rosalind chun tosaigh i bhfeidhmíocht thar thascanna a bhfuil luach eolaíoch leo arna sainaithint ag saineolaithe tionscail agus acadúla.

Na réimsí ina bhfuil córais IS fós lag

Tá feidhmíocht i bhfad níos laige fós ar obair eolaíoch atá dian ar dhéantáin, ar dhearadh nó ar shrianta oibríochta. Go háirithe, tá Dearadh, Barrfheabhsú & Tuar ar cheann de na sreafaí is deacra, le ráta pas 30.7% ag GPT‑Rosalind; tá Anailís cosúil leis ag 30.3%.

Is bearna an-soiléir í úsáid déantán. Cé go sáraíonn GPT‑Rosalind GPT‑5.5 i suíomhanna troma déantán, titeann a ráta pas fós ó 45.1% ar thascanna téacs amháin go 28.1% ar thascanna le déantáin nó URLanna. Léiríonn GPT‑5.5 an patrún céanna: ó 29.9% go 21.9%. Deimhníonn anailís níos mine go mbíonn deacrachtaí ag samhlacha teorainn faisnéis a bhaint as figiúirí casta nó comhaid mhóra seichimh agus í a chomhtháthú sa fhreagra deiridh.

Titeann rátaí pas nuair a éilíonn tascanna réasúnaíocht atá bunaithe ar fhoinsí nó obair le déantáin

Tá formáid an fhreagra tábhachtach freisin. Bíonn rátaí pas níos ísle ag tascanna a éilíonn aschuir chruinne seichimh, struchtúir nó tógáin: ní shroicheann GPT‑Rosalind ach 14.8% ar thascanna uimhriúla agus 24.0% ar aschuir seichimh nó struchtúir. Tá tascanna giniúna tógán leochaileach freisin: GPT‑Rosalind ag 27.3%, gan mórán feabhais ar GPT‑5.5. D’fhéadfadh cuid den bhearna teacht ó ghrádú níos déine ar thascanna freagra chruinn, áit a gcuireann difríochtaí beaga ríofa nó formáidithe freagra faoi thairseach an phas. Mar sin féin, tá na teipeanna seo suntasach eolaíoch: éilíonn go leor sreafaí eolaíochtaí beatha aschuir atá cruinn go leor lena n-úsáid go díreach, mar i ndearadh deontóra CRISPR/HDR nó i ndearadh siRNA.

Is minic a éiríonn le samhlacha cuid den tasc a dhéanamh gan é a réiteach. I thart ar 14% de thascanna, ghnóthaigh samhlacha creidiúint mhór rúibric cé nár bhain siad an tairseach pas cruinn amach. I gcás GPT‑Rosalind, bhí rátaí pas faoi 20% ag 109 tasc ach fuair siad 50% ar a laghad de luach saothair rúibric. Go praiticiúil, féadfaidh samhlacha fianaise ábhartha nó freagra páirteach inchreidte a thabhairt, ach teipeann orthu má chailleann siad srian tábhachtach, má úsáideann siad an fhianaise mhícheart, má dhéanann siad ríomh neamhiomlán, nó mura nascann siad a réasúnaíocht le cinneadh deiridh úsáideach.

Teorainneacha agus an chéad chéim eile

Is céim é LifeSciBench chun luach córais IS do thaighde eolaíochtaí beatha a thomhas, ach ní hionann é agus staidéar ar shamhlacha i dtimpeallachtaí taighde beo. Díríonn an tagarmharc ar thascanna féinchuimsitheacha a léiríonn sreafaí tionscail athfhillteacha, agus fágann sé go leor speisialtachtaí agus cineálacha tascanna lasmuigh dá raon reatha. Tá fíorthaighde atriallach: bailíonn eolaithe fianaise nua, leasíonn hipitéisí, dearann turgnaimh leantacha, agus athraíonn pleananna de réir torthaí.

Mar sin, ba cheart feidhmíocht láidir ar LifeSciBench a léamh mar fhianaise ar chumas réalaíoch ag leibhéal taisc, ní mar thomhas díreach ar thionchar taighde iartheachtach. Tá an tagarmharc bunaithe ar shreafaí tionscail, ach ní chlúdaíonn sé éagsúlacht ná dinimic iomlán clár taighde beo, áit a mbraitheann dul chun cinn ar fhachtóirí a thagann chun cinn le himeacht ama.

Is é an chéad chéim eile feidhmíocht tagarmhairc a nascadh le staidéir imscartha i sreafaí taighde beo. Cé gur forbraíodh LifeSciBench le heolaithe cleachtacha, chun a mheas an gcuireann córais AI dlús le fionnachtain nó an bhfeabhsaíonn siad torthaí T&F, caithfear úsáid agus feidhmíocht samhla a staidéar i bhfíorshuíomhanna taighde, thar thréimhsí níos faide agus trí bhabhtaí réasúnaíochta, aiseolais agus leantachais thurgnamhaigh.

Glac páirt

Cuidigh leis an gcéad ghlúin eile de thagarmharcanna IS sna heolaíochtaí beatha a mhúnlú, nó iarr rochtain ar GPT-Rosalind.

Údar

OpenAI