Presentació de LifeSciBench
Un banc de proves escrit i revisat per experts, basat en recerca real en ciències de la vida
Els sistemes d’IA agentiva són cada cop més capaços de fer tasques científiques. Però la seva utilitat per a les ciències de la vida depèn de com afronten la complexitat de la recerca real. Aquesta feina rarament és una pregunta factual o un problema de predicció net. Els investigadors interpreten proves incompletes, concilien resultats contradictoris, dissenyen experiments difícils, depuren assajos, avaluen el risc translacional i decideixen què fer en la incertesa.
Els bancs de proves actuals no capten del tot aquestes capacitats. Moltes avaluacions en ciències de la vida se centren en dominis estrets o habilitats aïllades, amb preguntes estructurades i respostes de referència clares. Tot i el seu valor, sovint no avaluen si un model pot contribuir al conjunt de la feina de recerca.
Hem creat LifeSciBench per reduir aquest buit. Cada tasca es basa en el criteri de científics en actiu amb formació doctoral i experiència en programes de descobriment de fàrmacs en biotecnologia i farmàcia.
LifeSciBench inclou 750 tasques d’experts, en set fluxos de treball i set dominis biològics.
1,062
Artefactes de la tasca
173
Científics col·laboradors
19,020
Criteris de la rúbrica
453
Revisors experts
Què mesura LifeSciBench
LifeSciBench mesura si els sistemes AI poden donar suport a tasques reals de recerca en ciències de la vida, no només respondre preguntes de biologia. Per definir-ne la taxonomia, vam enquestar científics en actiu sobre els fluxos de treball més habituals en recerca aplicada. Després vam agrupar les respostes en set categories: gestió de proves, anàlisi, disseny i optimització, raonament científic, validació i operacions, translació i comunicació científica.
Cada tasca s’assembla a una petició d’un científic a un col·laborador expert: indicació científica, context o artefactes rellevants i resposta lliure. Rúbriques d’experts avaluen si un model dona la resposta adequada, amb el detall, la justificació, els matisos i el format esperats.
Construcció del conjunt de dades
LifeSciBench avalua el raonament científic i també habilitats pràctiques, menys definides, necessàries en l’ús científic real. Les tasques fan treballar els models en problemes realistes: interpretar proves, emetre judicis ancorats en el domini i comunicar conclusions útils per a revisors experts. Moltes tasques exigeixen gestionar la incertesa i raonar sobre fitxers de suport, no només sobre el text de la indicació.
El banc de proves reflecteix la complexitat de les ciències de la vida. En total, el 79% de les tasques requereixen diversos passos de raonament o decisió, amb una mitjana de quatre per tasca. LifeSciBench inclou 1.062 artefactes adjunts: figures, PDF, taules, seqüències, fitxers estructurals o químics i referències web. Més de la meitat de les tasques (53%) exigeixen interpretar o sintetitzar informació d’almenys un artefacte.
Les tasques les van crear 173 científics experts de diverses disciplines. Tots tenien formació doctoral i experiència en biotecnologia o farmàcia. Les tasques podien revisar-se tantes vegades com calgués abans de l’acceptació; les acceptades van fer de mitjana sis cicles automatitzats d’autorevisió i almenys dues rondes d’experts. Les revisions es basaven en una resposta verificable o en un consens expert sòlid, amb almenys un 90% d’acord entre revisors del domini. Això va ajudar a assegurar tasques amb base científica, prou clares per puntuar i representatives de la recerca aplicada.
Qualificació i desglossament de la rúbrica
Les tasques de LifeSciBench es qualifiquen amb una rúbrica detallada i específica, que desglossa la resposta esperada en afirmacions, càlculs, decisions, justificacions i altres elements. En tot el banc de proves, les rúbriques d’experts sumen 19.020 criteris —25 per tasca de mitjana— per mesurar correcció científica i utilitat per a decisions de recerca.
El disseny reflecteix com s’avalua la ciència a la pràctica: moltes tasques no es poden puntuar mirant només la resposta final. Una resposta pot encertar la conclusió general i ser incompleta si, per exemple, ignora una limitació clau d’un assaig o un matís biològic important. A l’inrevés, una resposta parcial pot contenir bon raonament encara que no resolgui del tot la tasca.
Les rúbriques granulars capten aquest matís. LifeSciBench avalua no només l’exactitud final, sinó si el model hi arriba de manera científica i útil per operar.
Extracció, conciliació i auditoria de proves científiques d'articles, figures, taules i registres experimentals.
Exemple d’avaluació
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
Resposta del candidat
Conclusió principal: Tal com es presenta, aquest paquet no és prou sòlid per donar suport a una aprovació accelerada basada en l'expressió de microdistrofina com a punt final substitutiu raonablement probable de predir benefici clínic. Un revisor escèptic de la FDA probablement consideraria que les proves de biomarcador, funcionals, de durabilitat, seguretat i generalitzabilitat tenen un suport materialment insuficient.
Element del paquet | Mode de fallada clau | Què caldria |
|---|---|---|
Quantificació per Western blot | MANEX1A s'uneix a un epítop N-terminal compartit per la distrofina endògena de longitud completa i el transgèn de microdistrofina, de manera que l'assaig no distingeix netament el transgèn de la distrofina residual/revertant. Quantificar una microdistrofina de 138 kDa contra un estàndard de distrofina sana de longitud completa també és invàlid. | Useu un estàndard recombinant de microdistrofina i un mètode ortogonal que distingeixi el transgèn de la distrofina endògena, com l'espectrometria de masses dirigida o un assaig específic de transgèn/epítop. |
Immunofluorescència | L'anticòs policlonal C-terminal és poc adequat perquè el constructe de 138 kDa no té el domini C-terminal. Molts pacients amb DMD tenen fibres revertants, i la distrofina revertant pot retenir epítops C-terminals. Les fibres revertants poden expandir-se clonalment amb l'edat, esbiaixant el senyal IF, especialment en nens més grans. | Repetiu la IF amb un anticòs contra un epítop present al transgèn però absent de la distrofina revertant. Quantifiqueu les fibres positives per al transgèn separadament de les fibres revertants. |
Validesa del punt final substitutiu | El paquet confon quantitat de proteïna amb funció clínica. «38% de la massa proteica del control sa» no vol dir 38% de la funció normal de la distrofina, perquè la microdistrofina està truncada estructuralment. | Valideu empíricament la relació entre percentatge de massa de microdistrofina, localització sarcolèmica, restauració funcional aigües avall i benefici clínic abans de tractar l'expressió com a punt final substitutiu. |
Disseny de biòpsia | Les biòpsies contralaterals de vast lateral abans i després del tractament introdueixen variabilitat esquerra-dreta i espacial intramuscular. La progressió de la malaltia i el reemplaçament fibrogras també poden canviar el senyal normalitzat per proteïna total. | Estandarditzeu el lloc de biòpsia amb punts anatòmics coherents, normalitzeu a proteïnes específiques de múscul i mesureu en paral·lel la composició fibrograssa. |
Comparador/estadística NSAA | Una cohort externa d'història natural no és un control concurrent aleatoritzat. L'elegibilitat de l'assaig, l'atenció de suport, els efectes de participació, la NSAA basal, el règim d'esteroides, l'edat i la classe d'exó poden esbiaixar la comparació. Una prova t no aparellada no és suficient. A més, un canvi de +1,4 en NSAA és dins de la variabilitat test-retest per a aquest grup d'edat. | Feu un estudi aleatoritzat concurrent controlat amb placebo o, com a mínim, useu anàlisis ajustades que tinguin en compte NSAA basal, edat, règim d'esteroides, classe d'exó i altres confusors. |
Confusió per finestra d'edat | Els nens de 4–7 anys són en una finestra de desenvolupament en què pacients amb DMD ambulants no tractats poden guanyar funció motora abans que domini el declivi. Un canvi NSAA de 48 setmanes barreja guany de desenvolupament, progressió de la malaltia i possible efecte del tractament. | Useu un control aleatoritzat concurrent amb estratificació per edat per separar la trajectòria de desenvolupament de l'efecte del tractament. |
Precedent clínic previ | Els senyals funcionals oberts de microdistrofina no han predit de manera fiable el benefici confirmatori; el precedent publicat inclou assaigs confirmatoris de teràpia gènica amb microdistrofina que no van reproduir millores NSAA obertes. | No confieu en el canvi NSAA obert com a suport decisiu. Exigiu proves funcionals controlades. |
Límits estructurals del constructe | El constructe de 138 kDa elimina les repeticions d'espectrina R16/17, que contenen llocs d'unió a nNOS. La pèrdua de reclutament de nNOS pot perjudicar la simpatòlisi funcional i la protecció contra la isquèmia durant l'exercici, creant un sostre mecanístic al rescat independent del nivell d'expressió. | Afegiu estudis mecanístics que mostrin si aquest constructe específic restaura la funció rellevant del complex associat a la distrofina, la localització de nNOS, la fisiologia de l'exercici i la protecció muscular. |
Durabilitat de l'AAV | Els genomes vectorials a 12 setmanes no estableixen expressió durable. Els genomes AAV9 són en gran part episomes no integrants i poden disminuir amb el temps. La persistència del genoma vectorial no és el mateix que l'expressió persistent de proteïna. | Mesureu longitudinalment l'expressió proteica del transgèn i la durabilitat dels biomarcadors funcionals més enllà de 12 setmanes. |
Perfil immune/de seguretat | La transaminitis en 8/12 pacients és coherent amb una resposta immune a cèl·lules transduïdes per AAV, però el mecanisme no està establert. Un cas de miocarditis és preocupant atès el tropisme cardíac d'AAV9. | Proporcioneu monitoratge immune més profund, caracterització de seguretat hepàtica/cardiaca i seguiment cardíac intensificat. |
Selecció de pacients/generalitzabilitat | Excloure pacients positius per anticossos neutralitzants anti-AAV9 limita la generalitzabilitat. Excloure delecions de l'exó 44 limita l'aplicabilitat a aquest subgrup de DMD. n=12 és massa petit per caracteritzar seguretat i eficàcia en la població DMD més àmplia. | Amplieu l'elegibilitat quan sigui possible o preespecifiqueu anàlisis estratificades per estat d'anticossos, genotip/classe d'exó, edat i funció basal abans d'utilitzar el resultat per donar suport a una aprovació àmplia. |
Conclusió reguladora: El paquet pot mostrar activitat biològica, però encara no estableix que l'expressió mesurada de microdistrofina sigui un substitut fiable raonablement probable de predir benefici clínic. Les principals bretxes són l'especificitat de l'assaig, estàndards de quantificació invàlids, possible confusió per fibres revertants, manca d'un control aleatoritzat, confusió de NSAA relacionada amb l'edat, durabilitat incerta i problemes no resolts de seguretat/generalitzabilitat.
Per tancar la bretxa, el programa necessitaria un disseny clínic controlat i estratificat per edat amb assaigs d'expressió específics del transgèn, quantificació ortogonal de proteïna, controls de composició tissular, dades longitudinals de durabilitat, assaigs funcionals mecanístics per al constructe truncat i un monitoratge de seguretat més sòlid, especialment hepàtic i cardíac.
Criteris de rúbrica i qualificacions
Validació de LifeSciBench
Vam validar LifeSciBench amb una revisió experta independent. Hi van participar 453 revisors que no havien escrit les tasques. El 97% tenia un doctorat o equivalent, amb 12 anys d’experiència i 14 publicacions revisades per parells de mitjana; el 88% havia rebut algun premi o beca.
Els revisors van puntuar si cada tasca reunia els trets d’una bona pregunta de banc de proves: alineació amb la recerca real, prova adequada del raonament científic i l’expertesa del domini, ancoratge en proves o consens expert i utilitat per avaluar el rendiment del model. L’acord va superar el 96% en totes les categories.
Els comentaris dels revisors van reforçar les puntuacions:
Resultats
Presentem dues mètriques complementàries. La taxa d’aprovació és el percentatge de tasques en què un model supera el llindar d’èxit del 70%. La puntuació és la recompensa mitjana de la rúbrica i dona crèdit parcial per criteris individuals encara que la tasca no es resolgui. Totes dues importen perquè una resposta científica pot ser parcialment correcta o útil sense complir tots els requisits.
El rendiment del model varia molt segons el tipus de tasca, el flux de treball i el format de resposta.
On els sistemes AI ja destaquen
LifeSciBench mostra que els models d’avantguarda són relativament més forts en síntesi científica, comunicació i interpretació estructurada. Les taxes absolutes d’aprovació encara són modestes, però GPT‑Rosalind avança respecte de GPT‑5.5: la taxa global exacta puja del 25,7% al 36,1%.
Els avenços més clars en capacitats del model apareixen en Comunicació científica i Translació. Per exemple, en Comunicació científica la taxa d’aprovació passa del 56,3% amb GPT‑5.5 al 71,1% amb GPT‑Rosalind; la categoria és petita (n=9) i cal cautela, però indica una millora ràpida en organitzar proves i explicar-les a experts. La translació —el procés «del laboratori al pacient» en el desenvolupament de fàrmacs— segueix un patró semblant: puja del 36,8% amb GPT‑5.5 al 57,7% amb GPT‑Rosalind, fet que suggereix millores en connectar proves preclíniques amb implicacions clíniques.
Els resultats per rúbrica apunten igual. En tasques que exigeixen sortides útils per a experts o accionables, GPT‑Rosalind obté un 44,7%, davant del 29,1% de GPT‑5.5. En tasques d’incertesa i advertiments, obté un 44,8%, davant del 29,3%. Això suggereix que els models són més útils quan la tasca té límits probatoris clars i demana judici científic estructurat.
GPT‑Rosalind lidera el rendiment en tasques científicament valuoses identificades per experts de la indústria i del món acadèmic.
GPT‑Rosalind lidera el rendiment en tasques de valor científic identificades per experts de la indústria i l'acadèmia.
GPT‑Rosalind lidera el rendiment en tasques de valor científic identificades per experts de la indústria i l'acadèmia.
On els sistemes AI encara fallen
El rendiment és molt més feble en treballs amb molts artefactes, molt disseny o restriccions operatives. Disseny, optimització i predicció és un dels fluxos més difícils, amb una aprovació de GPT‑Rosalind del 30,7%; Anàlisi és similar, amb un 30,3%.
L’ús d’artefactes és una bretxa especialment clara. Tot i superar GPT‑5.5 en contextos amb artefactes, GPT‑Rosalind baixa del 45,1% en tasques només de text al 28,1% en tasques amb artefactes o URL. GPT‑5.5 mostra el mateix patró: del 29,9% al 21,9%. Una anàlisi més fina confirma que els models d’avantguarda tenen problemes per extreure informació de figures complexes o grans fitxers de seqüència i integrar-la en la resposta final.
Les taxes d’aprovació cauen quan les tasques requereixen raonament ancorat en fonts o treballar amb artefactes
El format de resposta també compta. Les tasques que exigeixen sortides exactes de seqüència, estructura o constructe aproven menys: GPT‑Rosalind només arriba al 14,8% en tasques numèriques i al 24,0% en seqüències o estructures. Les tasques de generació de constructes també són fràgils: GPT‑Rosalind queda al 27,3% i millora poc respecte de GPT‑5.5. Part de la bretxa pot venir d’una qualificació més estricta en respostes exactes, on petits errors de càlcul o format poden deixar la resposta sota el llindar. Tot i així, els errors importen: molts fluxos de treball exigeixen sortides prou exactes per usar-les directament, com en el disseny de donadors CRISPR/HDR o de siRNA.
Els models sovint arriben a mig camí sense resoldre la tasca. En prop del 14% de les tasques, van obtenir crèdit substancial a la rúbrica tot i no assolir l’aprovació exacta. En GPT‑Rosalind, 109 tasques tenien aprovacions per sota del 20% però almenys un 50% de recompensa de rúbrica. A la pràctica, poden detectar proves rellevants o donar una resposta parcial plausible, però fallar per ometre una restricció, usar proves errònies, calcular de manera incompleta o no lligar el raonament a una decisió científica útil.
Limitacions i passos següents
LifeSciBench ajuda a mesurar la utilitat dels sistemes AI en recerca de ciències de la vida, però no substitueix l’estudi dels models en entorns de recerca actius. El banc se centra en tasques autocontingudes que reflecteixen fluxos industrials recurrents, i deixa fora moltes especialitats i tipus de tasca. La recerca real és iterativa: es recullen proves, es revisen hipòtesis, es dissenyen experiments de seguiment i s’adapten plans segons els resultats.
Per tant, un bon rendiment a LifeSciBench indica capacitat realista a nivell de tasca, no impacte directe en la recerca posterior. El banc s’ancora en fluxos industrials, però no capta tota la diversitat ni la dinàmica dels programes de recerca actius, on el progrés depèn de factors que evolucionen amb el temps.
El pas següent és connectar el rendiment del banc amb estudis de desplegament en fluxos de recerca reals. Tot i que LifeSciBench es va crear amb científics en actiu, mesurar si els sistemes AI acceleren el descobriment o milloren l’R+D requerirà estudiar l’ús i el rendiment dels models en recerca real, durant períodes més llargs i en múltiples rondes de raonament, feedback i seguiment experimental.


