Vă prezentăm LifeSciBench
Un benchmark scris și evaluat de experți, ancorat în cercetarea reală din științele vieții
Sistemele de AI agentivă devin tot mai capabile să îndeplinească sarcini științifice. Utilitatea lor pentru cercetătorii din științele vieții depinde însă de cât de bine gestionează complexitatea cercetării reale. Aceasta seamănă rareori cu o întrebare de memorie sau cu o predicție simplă. Cercetătorii interpretează dovezi incomplete, împacă rezultate contradictorii, proiectează experimente, depanează teste, evaluează riscuri translaționale și decid sub incertitudine.
Benchmarkurile actuale nu surprind pe deplin aceste capacități. Multe evaluări din științele vieții vizează domenii înguste sau abilități izolate, cu întrebări structurate și răspunsuri de referință clare. Deși utile, ele nu arată mereu dacă un model poate contribui la întreaga muncă de cercetare.
Am creat LifeSciBench pentru a reduce acest decalaj. Fiecare sarcină se bazează pe judecata unor specialiști activi, cu doctorat și experiență directă în programe de descoperire a medicamentelor în biotehnologie și farmaceutică.
LifeSciBench include 750 de sarcini scrise de experți, în șapte fluxuri de lucru și șapte domenii biologice.
1,062
Artefacte ale sarcinii
173
Cercetători participanți
19,020
Criterii de evaluare
453
Evaluatori experți
Ce măsoară LifeSciBench
LifeSciBench măsoară dacă sistemele AI pot sprijini sarcini realiste de cercetare, nu doar răspunde la întrebări de biologie. Pentru taxonomie, am întrebat cercetători activi ce fluxuri de lucru folosesc cel mai des în cercetarea aplicată. Am grupat răspunsurile în șapte categorii: gestionarea dovezilor, analiză, proiectare și optimizare, raţionament științific, validare și operațiuni, translație și comunicare științifică.
Fiecare sarcină arată ca o cerere către un colaborator avizat: solicitare științifică, context sau artefacte relevante și răspuns liber. Grilele experților verifică dacă un model dă răspunsul corect, cu detaliile, justificările, rezervele și formatul așteptate de un cercetător.
Construirea setului de date
LifeSciBench evaluează raţionamentul științific și abilitățile practice, mai greu de definit, necesare utilizării reale. Sarcinile cer modelelor să abordeze probleme realiste: să interpreteze dovezi, să judece în contextul domeniului și să comunice concluzii utile experților. Multe cer și gestionarea incertitudinii și raţionament pe fișiere de date, nu doar pe textul solicitării.
Benchmarkul reflectă complexitatea muncii din științele vieții. În total, 79% dintre sarcini cer mai mulți pași de raţionament sau decizie, în medie patru pe sarcină. LifeSciBench include 1.062 de artefacte atașate: figuri, PDF-uri, tabele, fișiere de secvențe, structurale sau chimice și referințe web. Peste jumătate dintre sarcini (53%) cer interpretarea sau sintetizarea informațiilor din cel puțin un artefact.
Sarcinile au fost create de 173 de cercetători experți din diverse discipline ale științelor vieții. Toți aveau doctorat și experiență în biotehnologie sau industria farmaceutică. Sarcinile puteau fi revizuite de câte ori era necesar înainte de acceptare; cele acceptate au avut, în medie, șase cicluri automate de autoevaluare și cel puțin două runde de evaluare de către experți. Evaluările s-au bazat pe un răspuns corect verificabil sau pe consens solid, cu cel puțin 90% acord între experții domeniului. Astfel, sarcinile acceptate au rămas fundamentate științific, ușor de notat și reprezentative pentru cercetarea aplicată.
Evaluare și structura grilei
Sarcinile LifeSciBench sunt notate cu o grilă detaliată, specifică fiecărei sarcini, care împarte răspunsul așteptat în afirmații științifice, calcule, decizii, justificări etc. În întregul benchmark, grilele experților includ 19.020 de criterii — în medie 25 pe sarcină — pentru corectitudine științifică și utilitate decizională.
Această abordare reflectă practica: multe sarcini din științele vieții nu pot fi notate doar după răspunsul final. Un răspuns poate avea concluzia generală corectă, dar rămâne incomplet dacă omite, de pildă, o limitare-cheie a unui test sau o nuanță biologică importantă. Invers, un răspuns parțial poate include raţionament de calitate, chiar dacă nu rezolvă complet sarcina.
Grilele granulare surprind această nuanță. LifeSciBench evaluează nu doar acuratețea finală, ci și dacă modelul ajunge la răspuns într-un mod valid științific și util practic.
Extragerea, reconcilierea și auditarea dovezilor științifice din articole, figuri, tabele și înregistrări experimentale.
Exemplu de evaluare
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
Răspunsul candidatului
Concluzie esențială: așa cum este prezentat, acest pachet nu este suficient de puternic pentru a susține aprobarea accelerată pe baza expresiei micro-distrofinei ca punct final surogat rezonabil de probabil să prezică beneficiu clinic. Un evaluator FDA sceptic ar considera probabil că dovezile privind biomarkerul, funcția, durabilitatea, siguranța și generalizabilitatea sunt insuficient susținute material.
Element al pachetului | Mod principal de eșec | Ce ar fi necesar |
|---|---|---|
Cuantificare Western blot | MANEX1A se leagă de un epitop N-terminal comun distrofinei endogene complete și transgenei de micro-distrofină, astfel că testul nu distinge clar transgena de distrofina reziduală/revertantă. Cuantificarea unei micro-distrofine de 138 kDa față de un standard sănătos de distrofină completă este, de asemenea, invalidă. | Folosește un standard recombinant de micro-distrofină și o metodă ortogonală care distinge transgena de distrofina endogenă, cum ar fi spectrometria de masă țintită sau un test specific transgenei/epitopului. |
Imunofluorescență | Anticorpul policlonal C-terminal nu este prea potrivit deoarece constructul de 138 kDa nu are domeniul C-terminal. Mulți pacienți DMD au fibre revertante, iar distrofina revertantă poate păstra epitopi C-terminali. Fibrele revertante se pot extinde clonal odată cu vârsta, ceea ce poate introduce o eroare sistematică în semnalul IF, mai ales la băieții mai mari. | Repetă IF cu un anticorp împotriva unui epitop prezent în transgenă, dar absent din distrofina revertantă. Cuantifică fibrele pozitive pentru transgenă separat de fibrele revertante. |
Validitatea punctului final surogat | Pachetul confundă cantitatea de proteină cu funcția clinică. „38% din masa proteică a controlului sănătos” nu înseamnă 38% din funcția normală a distrofinei, deoarece micro-distrofina este structural trunchiată. | Validează empiric relația dintre procentul de masă al micro-distrofinei, localizarea sarcolemală, restaurarea funcțională din aval și beneficiul clinic înainte de a trata expresia ca punct final surogat. |
Designul biopsiei | Biopsiile contralaterale ale vastului lateral înainte și după tratament introduc variabilitate stânga-dreapta și spațială intramusculară. Progresia bolii și înlocuirea fibro-adipoasă pot modifica, de asemenea, semnalul normalizat la proteina totală. | Standardizează locul biopsiei folosind repere anatomice consecvente, normalizează la proteine specifice mușchiului și măsoară în paralel compoziția fibro-adipoasă. |
Comparator/statistici NSAA | O cohortă externă de istoric natural nu este un control concurent randomizat. Eligibilitatea în studiu, îngrijirea de susținere, efectele participării, NSAA inițial, regimul cu steroizi, vârsta și clasa de exon pot biasa comparația. Un test t nepereche nu este suficient. De asemenea, o schimbare NSAA de +1,4 se află în variabilitatea test-retest pentru această grupă de vârstă. | Derulează un studiu randomizat concurent controlat cu placebo sau, cel puțin, folosește analize ajustate pentru NSAA inițial, vârstă, regim cu steroizi, clasă de exon și alți factori de confuzie. |
Confuzie legată de fereastra de vârstă | Băieții de 4–7 ani se află într-o fereastră de dezvoltare în care pacienții DMD ambulatori netratați pot câștiga funcție motorie înainte ca declinul să domine. O schimbare NSAA la 48 de săptămâni amestecă câștigul de dezvoltare, progresia bolii și posibilul efect al tratamentului. | Folosește un control randomizat concurent cu stratificare pe vârstă pentru a separa traiectoria de dezvoltare de efectul tratamentului. |
Precedent clinic anterior | Semnalele funcționale open-label ale micro-distrofinei nu au prezis în mod fiabil beneficiul confirmator; precedentul publicat include studii confirmatorii de terapie genică cu micro-distrofină care nu au reprodus îmbunătățirile NSAA open-label. | Nu te baza pe schimbarea NSAA open-label ca suport decisiv. Solicită dovezi funcționale controlate. |
Limitele structurale ale constructului | Constructul de 138 kDa elimină repetițiile spectrină R16/17, care conțin situsuri de interacțiune cu nNOS. Absența recrutării nNOS poate afecta simpatoliza funcțională și protecția împotriva ischemiei în timpul efortului, creând un plafon mecanistic al gradului de recuperare independent de nivelul expresiei. | Adaugă studii mecanistice care arată dacă acest construct specific restaurează funcția relevantă a complexului asociat distrofinei, localizarea nNOS, fiziologia efortului și protecția musculară. |
Durabilitatea AAV | Genomurile vectoriale la 12 săptămâni nu stabilesc expresie durabilă. Genomurile AAV9 sunt în mare parte episomi neintegranți și pot scădea în timp. Persistența genomului vectorial nu este același lucru cu expresia persistentă a proteinei. | Măsoară longitudinal expresia proteică a transgenei și durabilitatea biomarkerilor funcționali dincolo de 12 săptămâni. |
Profil imun/de siguranță | Transaminita la 8/12 pacienți este compatibilă cu un răspuns imun la celulele transduse cu AAV, dar mecanismul nu este stabilit. Un caz de miocardită este îngrijorător având în vedere tropismul cardiac al AAV9. | Furnizează monitorizare imună mai profundă, caracterizare a siguranței hepatice/cardiace și urmărire cardiacă intensificată. |
Selecția pacienților/generalizabilitate | Excluderea pacienților pozitivi pentru anticorpi neutralizanți anti-AAV9 limitează generalizabilitatea. Excluderea pacienților cu deleții ale exonului 44 limitează aplicabilitatea la acel subgrup DMD. n=12 este prea mic pentru a caracteriza siguranța și eficacitatea în populația DMD mai largă. | Extinde eligibilitatea unde este posibil sau prespecifică analize stratificate după statusul anticorpilor, genotip/clasă de exon, vârstă și funcție inițială înainte de a folosi rezultatul pentru a susține o aprobare largă. |
Concluzie de reglementare: pachetul poate arăta activitate biologică, dar încă nu stabilește că expresia măsurată a micro-distrofinei este un surogat fiabil, rezonabil de probabil să prezică beneficiu clinic. Principalele lacune sunt specificitatea testului, standardele de cuantificare invalide, posibila confuzie prin fibre revertante, lipsa unui control randomizat, confuzia NSAA legată de vârstă, durabilitatea incertă și problemele nerezolvate de siguranță/generalizabilitate.
Pentru a închide lacuna, programul ar avea nevoie de un design clinic controlat, stratificat pe vârstă, cu teste de expresie specifice transgenei, cuantificare proteică ortogonală, controale ale compoziției țesutului, date longitudinale de durabilitate, teste funcționale mecanistice pentru constructul trunchiat și monitorizare mai puternică a siguranței, mai ales hepatică și cardiacă.
Criterii și note pentru rubrică
Validarea LifeSciBench
Am validat LifeSciBench printr-o evaluare independentă de experți. Feedbackul a venit de la 453 de evaluatori neimplicați în scrierea sarcinilor. Dintre ei, 97% aveau doctorat sau echivalent, în medie 12 ani de experiență și 14 publicații evaluate inter pares; 88% primiseră cel puțin un premiu sau o bursă.
Evaluatorii au notat dacă fiecare sarcină avea calitățile unei întrebări solide de benchmark: legătură cu cercetarea reală, testare adecvată a raţionamentului științific și expertizei, bază în dovezi sau consens și utilitate pentru evaluarea performanței modelului. Acordul a depășit 96% în fiecare categorie.
Comentariile evaluatorilor au confirmat scorurile:
Rezultate
Raportăm două metrici complementare. Rata de promovare este procentul de sarcini în care un model atinge pragul de succes de 70%. Scorul este recompensa medie din grilă, cu credit parțial pentru criterii individuale chiar dacă sarcina nu e rezolvată complet. Ambele contează: un răspuns științific poate fi parțial corect sau util fără să îndeplinească toate cerințele.
Performanța modelului variază mult după tipul sarcinii, fluxul de lucru și formatul răspunsului.
Unde sistemele AI arată deja puncte forte
LifeSciBench arată că modelele de frontieră sunt cele mai puternice la sinteză științifică, comunicare și interpretare structurată. Ratele absolute de promovare rămân modeste, deci domeniile nu sunt saturate, dar GPT‑Rosalind progresează clar față de GPT‑5.5: rata exactă totală crește de la 25,7% la 36,1%.
Cele mai mari progrese apar la Comunicare științifică și Translație. De exemplu, la Comunicare științifică rata crește de la 56,3% pentru GPT‑5.5 la 71,1% pentru GPT‑Rosalind; categoria este mică (n=9), deci interpretarea cere prudență, dar sugerează îmbunătățiri rapide în organizarea dovezilor și explicații convingătoare pentru experți. Translația (procesul "de la laborator la pacient" în dezvoltarea medicamentelor) are un tipar similar, crescând de la 36,8% pentru GPT‑5.5 la 57,7% pentru GPT‑Rosalind; modelele leagă tot mai bine dovezile preclinice de implicațiile clinice.
Rezultatele pe criterii indică aceeași direcție. La sarcini care cer rezultate utile experților sau acționabile, GPT‑Rosalind obține 44,7%, față de 29,1% pentru GPT‑5.5. La sarcini care cer gestionarea incertitudinii și a rezervelor, scorul este 44,8%, față de 29,3%. Tiparul sugerează că modelele sunt mai utile când sarcina are limite clare ale dovezilor și cere judecată științifică structurată.
GPT‑Rosalind excelează în îndeplinirea sarcinilor cu valoare științifică identificate de experți din domeniu și din mediul universitar.
GPT‑Rosalind conduce performanța în sarcini cu valoare științifică identificate de experți din industrie și mediul academic.
GPT‑Rosalind conduce performanța în sarcini cu valoare științifică identificate de experți din industrie și mediul academic.
Unde sistemele AI încă nu ajung
Performanța rămâne mult mai slabă în munca științifică bogată în artefacte, orientată spre proiectare sau constrânsă operațional. Astfel, Proiectare, optimizare & predicție rămâne printre cele mai grele fluxuri, cu rată GPT‑Rosalind de 30,7%; Analiza este similară, la 30,3%.
Utilizarea artefactelor este o lacună clară. Deși GPT‑Rosalind depășește GPT‑5.5 în contexte cu multe artefacte, rata sa scade de la 45,1% la sarcini doar text la 28,1% la sarcini cu artefacte sau URL-uri. GPT‑5.5 urmează același tipar, scăzând de la 29,9% la 21,9%. O analiză detaliată confirmă că modelele de frontieră extrag greu informații din figuri complexe sau fișiere mari de secvențe și le integrează greu în răspuns.
Ratele de promovare scad când sarcinile cer raţionament ancorat în surse sau lucrul cu artefacte
Contează și formatul răspunsului. Sarcinile care cer ieșiri exacte la nivel de secvență, structură sau construct au rate mai mici: GPT‑Rosalind ajunge la 14,8% la sarcini numerice și 24,0% la ieșiri de secvență sau structură. Și generarea de constructe este fragilă: GPT‑Rosalind are 27,3% și progrese mici față de GPT‑5.5. O parte din decalaj poate ține de notarea mai strictă a răspunsurilor exacte, unde mici diferențe de calcul sau format pot coborî răspunsul sub prag. Totuși, aceste eșecuri contează științific: multe fluxuri din științele vieții cer ieșiri suficient de exacte pentru utilizare directă, ca în proiectarea donatorilor CRISPR/HDR sau a siRNA.
Modelele ajung adesea aproape, dar nu rezolvă complet sarcina. În circa 14% dintre sarcini, modelele au primit credit substanțial în grilă, deși nu au trecut pragul exact. Pentru GPT‑Rosalind, 109 sarcini au avut rate sub 20%, dar au primit totuși cel puțin 50% din recompensa grilei. Practic, modelele pot găsi dovezi relevante sau un răspuns parțial plauzibil, dar eșuează fiindcă omit o constrângere, folosesc dovezi greșite, calculează incomplet sau nu leagă raţionamentul de o decizie finală utilă științific.
Limitări & pașii următori
LifeSciBench este un pas spre măsurarea utilității sistemelor AI în cercetarea din științele vieții, dar nu înlocuiește studiile în medii reale. Benchmarkul vizează sarcini autonome din fluxuri industriale recurente, lăsând în afara domeniului actual multe specialități și tipuri de sarcini. Cercetarea reală este iterativă: cercetătorii adună dovezi, revizuiesc ipoteze, proiectează experimente ulterioare și își adaptează planurile pe măsură ce apar rezultate.
Performanța bună în LifeSciBench trebuie deci văzută ca dovadă de capacitate realistă la nivel de sarcină, nu ca măsură directă a impactului asupra cercetării. Benchmarkul se bazează pe fluxuri industriale, dar nu surprinde întreaga diversitate și dinamică a programelor reale, unde progresul depinde de factori care evoluează în timp.
Următorul pas este legarea performanței din benchmark de studii de implementare în fluxuri reale de cercetare. Deși LifeSciBench a fost dezvoltat cu cercetători activi, a măsura dacă sistemele AI accelerează descoperirea sau îmbunătățesc rezultatele de C&D cere studierea utilizării și performanței modelului în cercetare reală, pe termen mai lung și în mai multe runde de raţionament, feedback și urmărire experimentală.


