A LifeSciBench bemutatása
Szakértők által írt és bírált benchmark, valós élettudományi kutatásra alapozva
Az ügynökalapú AI-rendszerek egyre több tudományos feladatra képesek. Élettudományi hasznuk azonban attól függ, mennyire bírják a valódi kutatás összetettségét. Ez ritkán egyetlen ténykérdés vagy tiszta előrejelzési probléma. A kutatók hiányos bizonyítékokat értelmeznek, ellentmondásokat oldanak fel, kísérleteket terveznek, vizsgálatokat javítanak, transzlációs kockázatot mérlegelnek, és bizonytalanságban döntenek a folytatásról.
A mai benchmarkok ezt nem mérik teljesen. Sok élettudományi értékelés szűk területekre vagy külön készségekre fókuszál, strukturált kérdésekkel és tiszta referenciaválaszokkal. Hasznosak, de gyakran nem mutatják meg, hogy egy modell segíthet-e a kutatói munka tágabb körében.
A LifeSciBench-et e hiány csökkentésére hoztuk létre. Minden feladat gyakorló, PhD-szintű élettudósok ítéletére épül, akik biotech- vagy gyógyszeripari gyógyszerkutatási programokon dolgoztak.
A LifeSciBench 750 szakértői feladatot fed le hét munkafolyamatban és hét biológiai területen.
1,062
Feladatműtermékek
173
Tudós közreműködők
19,020
Értékelési kritériumok
453
Szakértő bírálók
Mit mér a LifeSciBench?
A LifeSciBench azt méri, hogy az AI-rendszerek támogatnak-e valószerű élettudományi kutatási feladatokat, nem csak biológiai kérdésekre válaszolnak-e. A taxonómia kialakításához gyakorló élettudósokat kérdeztünk az alkalmazott kutatásban leggyakoribb munkafolyamataikról. Válaszaikat hét kategóriába soroltuk: bizonyítékkezelés, elemzés, tervezés és optimalizálás, tudományos érvelés, validálás és műveletek, transzláció, valamint tudományos kommunikáció.
Minden feladat olyan, mint egy kérés egy hozzáértő munkatárshoz: tudományos utasítás, releváns kontextus vagy anyagok, és szabad szöveges válasz. Szakértői rubrikák mérik, hogy a modell a várt részletességgel, indoklással, fenntartásokkal és formában ad-e helyes választ egy konkrét problémára.
Az adatkészlet felépítése
A LifeSciBench a tudományos érvelés mellett a valós használathoz szükséges, kevésbé körülhatárolt gyakorlati készségeket is értékeli. Feladatai valószerű kutatási problémákon vezetik végig a modelleket: bizonyítékértelmezésen, szakterületi döntéseken és szakértőknek hasznos következtetéseken. Sok feladat bizonytalanságkezelést és alátámasztó adatfájlok alapján végzett érvelést is igényel, nem elég az utasítás szövege.
A benchmark az élettudományi munka összetettségét tükrözi. A feladatok 79%-a több érvelési vagy döntési lépést igényel, átlagosan négyet. A LifeSciBench 1062 csatolmányt tartalmaz: ábrákat, PDF-eket, táblákat, szekvencia-, szerkezeti vagy kémiai fájlokat és webhivatkozásokat. A feladatok több mint fele (53%) legalább egy csatolmány értelmezését vagy szintézisét kéri.
A feladatokat 173 szakértő tudós készítette több élettudományi területről. Mindegyikük PhD-szintű képzéssel és biotech- vagy gyógyszeripari tapasztalattal bírt. Elfogadás előtt a feladatok korlátlan számú átdolgozáson mehettek át; az elfogadottak átlagosan hat önirányított automatizált ellenőrzést és legalább két szakértői bírálati kört teljesítettek. A bírálatok ellenőrizhető helyes válaszon vagy erős szakértői konszenzuson alapultak, legalább 90%-os területi egyetértéssel. Ez biztosította, hogy az elfogadott feladatok tudományosan megalapozottak, jól értékelhetők és az alkalmazott kutatásra jellemzők legyenek.
Pontozás és rubrikák
A LifeSciBench feladatait részletes, feladatspecifikus rubrika pontozza, amely a várt választ tudományos állításokra, számításokra, döntésekre, indoklásokra stb. bontja. A benchmark szakértői rubrikái 19 020 kritériumot tartalmaznak — átlagosan 25-öt feladatonként — a tudományos helyesség és a kutatási döntésekben való hasznosság mérésére.
Ez a gyakorlatot tükrözi: sok élettudományi feladat nem értékelhető pusztán a végső válasz alapján. Egy válasz eljuthat a helyes fő következtetésig, mégis hiányos, ha például kihagy egy fontos assay-korlátot vagy egy lényeges biológiai árnyalatot. Fordítva: egy részleges válasz is tartalmazhat jó minőségű érvelést, ha nem oldja meg teljesen a feladatot.
A részletes rubrikák ezt is mérik. A LifeSciBench nemcsak a végső pontosságot nézi, hanem azt is, hogy a modell tudományosan érvényes és gyakorlatban hasznos úton jut-e el a válaszhoz.
Tudományos bizonyítékok kinyerése, összehangolása és ellenőrzése cikkekből, ábrákból, táblázatokból és kísérleti feljegyzésekből.
Eval példa
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
Jelölt válasza
Összegzés: A bemutatott formában ez a csomag nem elég erős ahhoz, hogy alátámassza a mikrodisztrofin expresszió gyorsított jóváhagyását, mint olyan helyettesítő végpontot, amely észszerűen valószínűsíthetően előre jelzi a klinikai hasznot. Egy szkeptikus FDA-vizsgáló valószínűleg úgy ítélné meg, hogy a biomarkerekre, a funkcionalitásra, a tartósságra, a biztonságra és az általánosíthatóságra vonatkozó bizonyítékok lényegesen elégtelenek.
Csomagelem | Kulcsfontosságú hibamód | Mire lenne szükség |
|---|---|---|
Western blot kvantifikálás | A MANEX1A az endogén teljes hosszúságú disztrofin és a mikro-disztrofin transzgén közös N-terminális epitópjához kötődik, ezért a vizsgálat nem képes egyértelműen megkülönböztetni a transzgént a maradék/revertáns disztrofintól. A 138 kDa-s mikro-disztrofin mennyiségi meghatározása egészséges, teljes hosszúságú disztrofin standardhoz viszonyítva szintén érvénytelen. | Használjon rekombináns mikrodisztrofin standardot és olyan ortogonális módszert, amely megkülönbözteti a transzgént az endogén disztrofintól, például célzott tömegspektrometriát vagy transzgén-specifikus/epitóp-specifikus vizsgálatot. |
Immunfluoreszcencia | A C-terminális poliklonális antitest nem megfelelő, mivel a 138 kDa-os konstrukcióból hiányzik a C-terminális domén. Sok DMD-betegnek vannak reverzáns rostjai, és a reverzáns disztrofin megőrizheti a C-terminális epitópokat. A reverzáns rostok az életkor előrehaladtával klonálisan terjedhetnek, torzítva az IF-jelet, különösen idősebb fiúknál. | Ismételje meg az IF-et egy olyan antitesttel, amely a transzgénben jelen lévő, de a reverzáló disztrofinból hiányzó epitóp ellen irányul. A transzgén-pozitív szálakat a reverzáló szálaktól elkülönítve számszerűsítse. |
Helyettesítő végpont érvényessége | A csomag összemossa a fehérjemennyiséget a klinikai funkcióval. „Az egészséges kontroll fehérjetömegének 38%-a” nem jelenti a normál disztrofinfunkció 38%-át, mert a mikro-disztrofin szerkezetileg csonkolt. | Empirikusan igazolja a mikrodisztrófintömeg-százalék, a szarkolemma lokalizációja, a lefelé irányuló funkcionális helyreállítás és a klinikai előny közötti kapcsolatot, mielőtt az expressziót helyettesítő végpontként kezelné. |
Biopsziatervezés | A kezelés előtti és utáni kontralaterális vastus lateralis biopszia bal-jobb és intramuszkuláris térbeli variabilitást eredményez. A betegség progressziója és a fibro-zsíros helyettesítés szintén megváltoztathatja a teljes fehérjére normalizált jelet. | A biopszia helyét egységes anatómiai tájékozódási pontok alapján határozzák meg, az eredményeket izom-specifikus fehérjékre normálizálják, és ezzel párhuzamosan megmérik a rost-zsír összetételt. |
NSAA komparátor/statisztika | Egy külső, természetes lefolyású kohorsz nem minősül randomizált, párhuzamos kontrollnak. A vizsgálatba való felvétel feltételei, a támogató kezelés, a részvétel hatása, a kiindulási NSAA-szint, a szteroidkezelés, az életkor és az exon-osztály mind torzíthatják az összehasonlítást. A párosítatlan t-próba nem elegendő. Ezenkívül a +1,4 NSAA-változás e korcsoport esetében a teszt-reteszt variabilitáson belül van. | Végezzen randomizált, párhuzamos, placebo-kontrollos vizsgálatot, vagy legalábbis alkalmazza a kiindulási NSAA-értéket, az életkort, a szteroidkezelést, az exon osztályt és egyéb zavaró tényezőket figyelembe vevő korrigált elemzéseket. |
Életkori ablakból eredő zavarás | A 4–7 éves fiúk olyan fejlődési szakaszban vannak, amikor a kezeletlen, járóképes DMD-betegek motoros funkciói javulhatnak, mielőtt a hanyatlás dominánssá válna. A 48 hetes NSAA-változás ötvözi a fejlődési előrelépést, a betegség progresszióját és a lehetséges kezelési hatást. | Használjon egyidejű randomizált kontrollt életkori rétegzéssel, hogy elkülönítse a fejlődési pályát a kezelési hatástól. |
Korábbi klinikai precedens | A nyílt címkés mikrodisztrofin funkcionális jelek nem jósolták meg megbízhatóan a megerősítő előnyöket; a publikált precedensek között szerepelnek olyan mikrodisztrofin génterápiás megerősítő vizsgálatok, amelyek nem tudták reprodukálni a nyílt címkés NSAA-javulásokat. | Ne támaszkodjon döntő bizonyítékként nyílt elrendezésű NSAA-változásra. Követeljen kontrollált funkcionális bizonyítékot. |
A konstrukció szerkezeti korlátai | A 138 kDa-s konstrukció eltávolítja az R16/17 spektrin-ismétlődéseket, amelyek nNOS-kötőhelyeket tartalmaznak. Az nNOS-toborzás elvesztése ronthatja a funkcionális szimpatolízist és az ischaemia elleni védelmet edzés közben, ami a kifejeződési szinttől függetlenül mechanisztikus korlátot jelent a mentésre. | Adjon hozzá olyan mechanisztikus vizsgálatokat, amelyekből kiderül, hogy ez a konkrét konstrukció helyreállítja-e a dystrofinhoz kapcsolódó komplexek megfelelő működését, az nNOS lokalizációját, a terheléses fiziológiát és az izomvédelmet. |
AAV-tartósság | A vektorgenomok 12 hét után nem biztosítanak tartós expressziót. Az AAV9-genomok nagyrészt nem integrálódó episzómák, és idővel csökkenhet a mennyiségük. A vektorgenomok perzisztenciája nem azonos a fehérje expresszió perzisztenciájával. | Mérje meg a transzgén fehérje expresszióját és a funkcionális biomarkerek tartósságát 12 hétnél hosszabb időtávon. |
Immun-/biztonsági profil | A 12 beteg közül 8-nál jelentkező transzaminitisz összhangban áll az AAV-vel transzdukált sejtekre adott immunválasszal, de a mechanizmus még nem tisztázott. Az AAV9 szívtropizmusa miatt aggodalomra ad okot az egy szívizomgyulladásos eset. | Biztosítson mélyebb immunmonitorozást, máj-/szívbiztonsági jellemzést és intenzívebb kardiális utánkövetést. |
Betegkiválasztás/általánosíthatóság | Az anti-AAV9 semlegesítő antitest-pozitív betegek kizárása korlátozza az általánosíthatóságot. Az exon-44 deléciók kizárása korlátozza az alkalmazhatóságot az adott DMD alcsoportra. A n=12-es mintanagyság túl kicsi ahhoz, hogy a biztonságosságot és a hatékonyságot a szélesebb DMD populációra vonatkozóan jellemezni lehessen. | Amennyiben lehetséges, bővítse a kiválasztási kritériumokat, vagy előre határozza meg a rétegzett elemzéseket antiteststátusz, genotípus/exon osztály, életkor és kiindulási funkció szerint, mielőtt az eredményt széles körű jóváhagyás alátámasztására használná. |
Szabályozási következtetés: A készítmény biológiai aktivitást mutathat, de még nem bizonyítja, hogy a mért mikrodisztrofin-expresszió megbízható helyettesítő mutató lenne, amely észszerűen valószínűsíthetően előre jelezheti a klinikai hasznot. A fő hiányosságok a vizsgálat specifitása, az érvénytelen kvantifikációs szabványok, a lehetséges reverzáns szálak okozta zavaró tényezők, a randomizált kontroll hiánya, az életkorral kapcsolatos NSAA-zavaró tényezők, a bizonytalan tartósság, valamint a megoldatlan biztonsági/általánosíthatósági kérdések.
A hiányosságok pótlásához a programnak szabályozott, életkor szerint rétegezett klinikai tervre lenne szüksége, amely magában foglalja a transzgén-specifikus expressziós vizsgálatokat, ortogonális fehérje-mennyiségi meghatározást, szöveti összetételre vonatkozó kontrollokat, hosszanti tartóssági adatokat, a csonkított konstrukcióra vonatkozó mechanisztikus funkcionális vizsgálatokat, valamint fokozott biztonsági monitorozást, különös tekintettel a májra és a szívre.
Értékelési kritériumok és osztályzatok
A LifeSciBench validálása
A LifeSciBench-et független szakértői bírálattal validáltuk. A visszajelzést 453, a feladatírásban nem részt vevő bíráló adta. A bírálók 97%-a PhD-vel vagy egyenértékű doktori fokozattal, átlagosan 12 év szakterületi tapasztalattal és 14 lektorált publikációval rendelkezett; 88%-uk díjat vagy ösztöndíjat is kapott.
A bírálók azt pontozták, hogy a feladatok megfelelnek-e egy erős benchmark-kérdés elvárásainak: valós kutatási illeszkedés, a tudományos érvelés és szaktudás megfelelő tesztelése, bizonyítékon vagy konszenzuson alapulás, valamint hasznosság a modell teljesítményének mérésében. Az egyetértés minden kategóriában 96% felett volt.
A bírálói megjegyzések megerősítették a számszerű pontszámokat:
Eredmények
Két kiegészítő mérőszámot közlünk. A teljesítési arány azt mutatja, hogy a modell a feladatok hány százalékán éri el a 70%-os sikerküszöböt. A pontszám az átlagos rubrikajutalom, amely részpontot ad az egyes kritériumokért akkor is, ha a teljes feladat nincs megoldva. Mindkettő fontos, mert egy tudományos válasz lehet részben helyes vagy hasznos anélkül, hogy minden követelményt teljesítene.
A modell teljesítménye erősen függ a feladattípustól, a munkafolyamattól és a válaszformátumtól.
Ahol az AI-rendszerek már erősek
A LifeSciBench szerint az élvonalbeli modellek főként a tudományos szintézisben, kommunikációban és strukturált értelmezésben erősek. Az abszolút teljesítési arányok még szerények, így ezek a területek nem telítettek, de a GPT‑Rosalind érdemben javít a GPT‑5.5‑höz képest: az összesített pontos teljesítési arány 25,7%-ról 36,1%-ra nő.
A legerősebb fejlődés a tudományos kommunikációban és a transzlációban látszik. A tudományos kommunikáció teljesítési aránya például 56,3%-ról 71,1%-ra nő a GPT‑5.5‑ről a GPT‑Rosalindre; a kategória kicsi (n=9), ezért óvatosan értelmezendő, de jelzi, hogy az élvonalbeli modellek gyorsan javulnak a bizonyítékok rendezésében és a szakértőknek szóló magyarázatokban. A transzláció — a gyógyszerfejlesztés „bench-to-bedside” folyamata — hasonló: 36,8%-ról 57,7%-ra emelkedik a GPT‑5.5‑ről a GPT‑Rosalindre, ami a preklinikai bizonyítékok és klinikai következmények összekapcsolásának gyors javulását jelzi.
A rubrikaszintű eredmények is ezt mutatják. Szakértőknek hasznos vagy cselekvésre váltható kimeneteknél a GPT‑Rosalind 44,7%-ot ér el, míg a GPT‑5.5 29,1%-ot. Bizonytalanság és fenntartások kezelésekor 44,8%-ot ér el, szemben 29,3%-kal. Ez arra utal, hogy a modellek akkor a leghasznosabbak, ha a bizonyítékok köre világos, és a feladat strukturált tudományos ítéletet kér.
A GPT‑Rosalind vezet az iparági és akadémiai szakértők által azonosított, tudományosan értékes feladatokban.
A GPT‑Rosalind az iparági és tudományos szakértők által azonosított, tudományosan értékes feladatok teljesítményét vezeti.
A GPT‑Rosalind az iparági és tudományos szakértők által azonosított, tudományosan értékes feladatok teljesítményét vezeti.
Ahol az AI-rendszerek még gyengék
A teljesítmény sok csatolmányt, tervezést vagy működési korlátot igénylő tudományos munkában jóval gyengébb. A tervezés, optimalizálás és előrejelzés az egyik legnehezebb munkafolyamat: a GPT‑Rosalind teljesítési aránya 30,7%; az elemzés hasonlóan nehéz, 30,3%.
A csatolmányhasználat különösen világos hiány. Bár a GPT‑Rosalind itt jobb a GPT‑5.5‑nél, teljesítési aránya a csak szöveges feladatokon mért 45,1%-ról 28,1%-ra esik, ha csatolmányok vagy URL-ek is vannak. A GPT‑5.5‑nél ugyanez látszik: 29,9%-ról 21,9%-ra esik. A részletesebb elemzés szerint az élvonalbeli modellek nehezen nyernek ki adatot összetett ábrákból vagy nagy szekvenciafájlokból, és nehezen építik be azt a végső válaszba.
Csökkennek a teljesítési arányok, amikor a feladatok forrásokra támaszkodó érvelést vagy műtermékekkel való munkát igényelnek
A válaszformátum is számít. A pontos szekvencia-, szerkezet- vagy konstruktszintű kimenetek gyengébbek: a GPT‑Rosalind numerikus feladatokon 14,8%-ot, szekvencia- vagy szerkezeti kimeneteken 24,0%-ot ér el. A konstruktgenerálás is sérülékeny: a GPT‑Rosalind 27,3%-on áll, alig javítva a GPT‑5.5‑höz képest. A különbség részben abból fakadhat, hogy a pontos választ igénylő feladatok pontozása szigorúbb: kis számítási vagy formázási eltérés is a küszöb alá viheti a választ. E hibák mégis fontosak, mert sok élettudományi munkafolyamat közvetlenül használható pontosságot kíván, például CRISPR/HDR donor- vagy siRNA-tervezésben.
A modellek gyakran részben eljutnak a megoldásig, de nem oldják meg teljesen a feladatot. A feladatok mintegy 14%-ában jelentős rubrikapontot kaptak, bár nem érték el a pontos teljesítési küszöböt. A GPT‑Rosalindnél 109 feladat teljesítési aránya 20% alatt volt, miközben legalább 50% rubrikajutalmat kapott. Gyakorlatban ez azt jelenti, hogy a modellek felismerhetnek releváns bizonyítékot vagy adhatnak hihető részválaszt, mégis elbuknak, mert kihagynak egy kulcskorlátot, rossz bizonyítékot használnak, hiányosan számolnak, vagy érvelésüket nem kötik tudományosan hasznos végső döntéshez.
Korlátok és következő lépések
A LifeSciBench előrelépés annak mérésében, mennyire hasznosak az AI-rendszerek az élettudományi kutatásban, de nem helyettesíti a modellek élő kutatási környezetben való vizsgálatát. A benchmark önálló, visszatérő iparági munkafolyamatokat tükröző feladatokra fókuszál, és sok szakterületet, illetve feladattípust egyelőre nem fed le. A valódi kutatás iteratív: a tudósok új bizonyítékot gyűjtenek, hipotéziseket módosítanak, utánkövető kísérleteket terveznek, és az eredményekhez igazítják terveiket.
A LifeSciBench-en elért erős teljesítmény ezért valószerű feladatszintű képességet jelez, nem a későbbi kutatási hatás közvetlen mérőszáma. A benchmark iparági munkafolyamatokra épül, de nem ragadja meg teljesen az élő kutatási programok sokféleségét és dinamikáját, ahol az előrehaladás időben alakuló tényezőktől függ.
A következő lépés a benchmarkteljesítmény összekapcsolása élő kutatási munkafolyamatok bevezetési vizsgálataival. Bár a LifeSciBench gyakorló tudósokkal készült, annak méréséhez, hogy az AI-rendszerek gyorsítják-e a felfedezést vagy javítják-e a K+F eredményeket, valós kutatási környezetben, hosszabb távon, több érvelési, visszajelzési és kísérleti utánkövetési körön át kell vizsgálni a modellhasználatot és -teljesítményt.


