Présentation de LifeSciBench
Un banc d’essai rédigé et évalué par des experts, ancré dans la recherche réelle en sciences de la vie
Les systèmes d’IA agentique savent de mieux en mieux accomplir des tâches scientifiques. Mais leur utilité pour les chercheurs en sciences de la vie dépend de leur capacité à gérer la complexité de la vraie recherche. Ce travail se réduit rarement à une question de mémoire ou à une prédiction simple. Les chercheurs interprètent des preuves incomplètes, concilient des résultats opposés, conçoivent des expériences difficiles, dépannent des essais, évaluent le risque translationnel et décident de la suite malgré l’incertitude.
Les bancs d’essai actuels ne mesurent pas pleinement ces capacités. Beaucoup d’évaluations en sciences de la vie ciblent des domaines étroits ou des compétences isolées, avec des questions structurées et des réponses de référence nettes. Utiles, elles évaluent pourtant mal la contribution d’un modèle à l’ensemble du travail de recherche.
Nous avons créé LifeSciBench pour combler cette lacune. Chaque tâche repose sur le jugement de scientifiques en exercice, formés au doctorat et expérimentés en découverte de médicaments en biotech ou en pharmaceutique.
LifeSciBench compte 750 tâches d’experts couvrant sept flux de travail et sept domaines biologiques.
1,062
Artéfacts de tâche
173
Contributeurs scientifiques
19,020
Critères de la grille d’évaluation
453
Évaluateurs experts
Ce que mesure LifeSciBench
LifeSciBench mesure si les systèmes d’IA peuvent soutenir des tâches réalistes en sciences de la vie, et pas seulement répondre à des questions de biologie. Pour établir la taxonomie, nous avons sondé des scientifiques sur leurs flux de travail les plus fréquents en recherche appliquée. Nous avons regroupé les réponses en sept catégories : gestion des preuves, analyse, conception et optimisation, raisonnement scientifique, validation et opérations, translation, et communication scientifique.
Chaque tâche ressemble à une demande faite à un collègue compétent : consigne scientifique, contexte ou artéfacts pertinents, et réponse libre. Des grilles d’experts évaluent si un modèle répond correctement, avec le détail, la justification, les réserves et le format attendus par un scientifique.
Construction du jeu de données
LifeSciBench évalue le raisonnement scientifique et les compétences pratiques, moins bien définies, nécessaires en recherche réelle. Les tâches demandent aux modèles de traiter des problèmes réalistes : interpréter les preuves, juger selon le domaine et formuler des conclusions utiles à des experts. Beaucoup exigent aussi de gérer l’incertitude et de raisonner à partir de fichiers de données, pas seulement du texte de l’invite.
Le banc d’essai reflète la complexité du travail en sciences de la vie. Au total, 79 % des tâches exigent plusieurs étapes de raisonnement ou de décision, soit quatre étapes en moyenne. LifeSciBench comprend 1 062 artéfacts : figures, PDF, tableaux, fichiers de séquences, de structures ou de chimie, et références Web. Plus de la moitié des tâches (53 %) exigent d’interpréter ou de synthétiser l’information d’au moins un artéfact.
Les tâches ont été créées par 173 experts de diverses disciplines des sciences de la vie. Tous avaient une formation doctorale et une expérience en biotech ou en pharmaceutique. Les tâches pouvaient être révisées autant que nécessaire; celles acceptées ont eu en moyenne six cycles automatisés d’autoexamen et au moins deux rondes d’experts. Les évaluations reposaient sur une réponse vérifiable ou un fort consensus, avec au moins 90 % d’accord entre experts du domaine. Ce processus a assuré des tâches scientifiquement solides, clairement définies et représentatives de la recherche appliquée.
Notation et grilles
Les tâches sont notées avec une grille détaillée propre à chacune, qui décompose la réponse attendue en affirmations, calculs, décisions, justifications, etc. Au total, ces grilles d’experts comptent 19 020 critères, soit 25 par tâche en moyenne, pour juger l’exactitude scientifique et l’utilité décisionnelle.
Cette approche reflète l’évaluation scientifique réelle : souvent, vérifier la réponse finale ne suffit pas. Une réponse peut conclure juste, mais rester incomplète si elle néglige une limite d’essai clé ou une nuance biologique majeure. À l’inverse, une réponse partielle peut montrer un raisonnement solide sans résoudre toute la tâche.
Les grilles détaillées captent cette nuance. LifeSciBench évalue non seulement l’exactitude finale, mais aussi si le modèle y arrive de façon scientifiquement valide et utile en pratique.
Extraire, rapprocher et auditer des preuves scientifiques tirées d’articles, de figures, de tableaux et de dossiers expérimentaux.
Exemple d’évaluation
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
Réponse du candidat
En résumé : tel que présenté, cet ensemble n’est pas assez solide pour soutenir une approbation accélérée fondée sur l’expression de la micro-dystrophine comme critère de substitution raisonnablement susceptible de prédire un bénéfice clinique. Un évaluateur sceptique de la FDA jugerait probablement que les preuves relatives au biomarqueur, à la fonction, à la durabilité, à la sécurité et à la généralisabilité sont matériellement insuffisantes.
Élément du dossier | Mode de défaillance clé | Ce qui serait nécessaire |
|---|---|---|
Quantification par Western blot | MANEX1A se lie à un épitope N-terminal partagé par la dystrophine endogène pleine longueur et le transgène de micro-dystrophine; le dosage ne distingue donc pas nettement le transgène de la dystrophine résiduelle/révertante. Quantifier une micro-dystrophine de 138 kDa par rapport à un étalon sain de dystrophine pleine longueur est aussi invalide. | Utiliser un étalon recombinant de micro-dystrophine et une méthode orthogonale qui distingue le transgène de la dystrophine endogène, comme la spectrométrie de masse ciblée ou un dosage spécifique du transgène/de l’épitope. |
Immunofluorescence | L’anticorps polyclonal C-terminal est mal adapté, car le construit de 138 kDa ne possède pas le domaine C-terminal. De nombreux patients atteints de DMD ont des fibres révertantes, et la dystrophine révertante peut conserver des épitopes C-terminaux. Les fibres révertantes peuvent prendre de l’expansion clonale avec l’âge, biaisant le signal IF, surtout chez les garçons plus âgés. | Répéter l’IF avec un anticorps dirigé contre un épitope présent dans le transgène, mais absent de la dystrophine révertante. Quantifier séparément les fibres positives pour le transgène et les fibres révertantes. |
Validité du critère de substitution | Le dossier confond la quantité de protéine avec la fonction clinique. « 38 % de la masse protéique du témoin sain » ne signifie pas 38 % de la fonction normale de la dystrophine, car la micro-dystrophine est structurellement tronquée. | Valider empiriquement la relation entre le pourcentage de masse de micro-dystrophine, la localisation sarcolemmique, la restauration fonctionnelle en aval et le bénéfice clinique avant de traiter l’expression comme critère de substitution. |
Conception des biopsies | Les biopsies pré- et post-traitement du vaste latéral controlatéral introduisent une variabilité gauche-droite et spatiale intramusculaire. La progression de la maladie et le remplacement fibro-adipeux peuvent aussi modifier le signal normalisé aux protéines totales. | Standardiser le site de biopsie à l’aide de repères anatomiques constants, normaliser selon des protéines propres au muscle et mesurer en parallèle la composition fibro-adipeuse. |
Comparateur/statistiques NSAA | Une cohorte externe d’histoire naturelle n’est pas un contrôle randomisé concurrent. L’admissibilité à l’essai, les soins de soutien, les effets de participation, le NSAA de départ, le schéma de stéroïdes, l’âge et la classe d’exon peuvent tous biaiser la comparaison. Un test t non apparié ne suffit pas. De plus, une variation NSAA de +1,4 se situe dans la variabilité test-retest pour ce groupe d’âge. | Mener une étude randomisée concurrente contrôlée par placebo ou, au minimum, utiliser des analyses ajustées tenant compte du NSAA de départ, de l’âge, du schéma de stéroïdes, de la classe d’exon et d’autres facteurs de confusion. |
Confusion liée à la fenêtre d’âge | Les garçons de 4 à 7 ans se trouvent dans une fenêtre de développement où des patients ambulatoires atteints de DMD non traités peuvent gagner en fonction motrice avant que le déclin ne domine. Une variation du NSAA sur 48 semaines combine gain développemental, progression de la maladie et possible effet du traitement. | Utiliser un contrôle randomisé concurrent avec stratification par âge pour distinguer la trajectoire développementale de l’effet du traitement. |
Précédent clinique antérieur | Les signaux fonctionnels ouverts de micro-dystrophine n’ont pas prédit de façon fiable un bénéfice confirmatoire; les précédents publiés incluent des essais confirmatoires de thérapie génique par micro-dystrophine qui n’ont pas reproduit les améliorations NSAA observées en ouvert. | Ne pas s’appuyer sur la variation ouverte du NSAA comme preuve décisive. Exiger des preuves fonctionnelles contrôlées. |
Limites structurelles du construit | Le construit de 138 kDa supprime les répétitions de spectrine R16/17, qui contiennent des sites de liaison nNOS. La perte du recrutement de nNOS peut nuire à la sympatholyse fonctionnelle et à la protection contre l’ischémie pendant l’exercice, créant un plafond mécanistique au sauvetage indépendant du niveau d’expression. | Ajouter des études mécanistiques montrant si ce construit précis restaure la fonction pertinente du complexe associé à la dystrophine, la localisation de nNOS, la physiologie de l’exercice et la protection musculaire. |
Durabilité AAV | Les génomes vectoriels à 12 semaines n’établissent pas une expression durable. Les génomes AAV9 sont surtout des épisomes non intégrants et peuvent diminuer avec le temps. La persistance des génomes vectoriels n’est pas équivalente à une expression protéique persistante. | Mesurer longitudinalement l’expression protéique du transgène et la durabilité des biomarqueurs fonctionnels au-delà de 12 semaines. |
Profil immunitaire/sécurité | La transaminite chez 8/12 patients est compatible avec une réponse immunitaire aux cellules transduites par AAV, mais le mécanisme n’est pas établi. Un cas de myocardite est préoccupant compte tenu du tropisme cardiaque d’AAV9. | Fournir une surveillance immunitaire plus approfondie, une caractérisation de la sécurité hépatique/cardiaque et un suivi cardiaque intensifié. |
Sélection des patients/généralisabilité | Exclure les patients positifs pour les anticorps neutralisants anti-AAV9 limite la généralisabilité. Exclure les délétions de l’exon 44 limite l’applicabilité à ce sous-groupe DMD. n=12 est trop faible pour caractériser la sécurité et l’efficacité dans l’ensemble de la population DMD. | Élargir l’admissibilité lorsque possible ou prédéfinir des analyses stratifiées selon le statut anticorps, le génotype/la classe d’exon, l’âge et la fonction de départ avant d’utiliser le résultat pour soutenir une approbation large. |
Conclusion réglementaire : le dossier peut montrer une activité biologique, mais il n’établit pas encore que l’expression mesurée de micro-dystrophine est un substitut fiable raisonnablement susceptible de prédire un bénéfice clinique. Les principales lacunes sont la spécificité du dosage, les étalons de quantification invalides, la confusion possible par les fibres révertantes, l’absence de contrôle randomisé, la confusion NSAA liée à l’âge, la durabilité incertaine et les enjeux non résolus de sécurité/généralisabilité.
Pour combler l’écart, le programme nécessiterait une conception clinique contrôlée et stratifiée par âge, des dosages d’expression propres au transgène, une quantification protéique orthogonale, des contrôles de composition tissulaire, des données longitudinales de durabilité, des essais fonctionnels mécanistiques pour le construit tronqué et une surveillance de sécurité renforcée, surtout hépatique et cardiaque.
Critères et notes
Validation de LifeSciBench
Nous avons validé LifeSciBench par une évaluation indépendante d’experts. Les commentaires venaient de 453 évaluateurs n’ayant pas rédigé les tâches. Parmi eux, 97 % avaient un doctorat ou l’équivalent, en moyenne 12 ans d’expérience et 14 publications évaluées par les pairs; 88 % avaient reçu au moins un prix ou une bourse.
Les évaluateurs ont jugé si chaque tâche avait les qualités d’une bonne question de banc d’essai : lien avec la recherche réelle, test approprié du raisonnement et de l’expertise, appui sur des preuves ou un consensus, et utilité pour mesurer la performance des modèles. L’accord a dépassé 96 % dans chaque catégorie.
Les commentaires ont confirmé les notes quantitatives :
Résultats
Nous rapportons deux mesures complémentaires. Le taux de réussite est la part des tâches où un modèle atteint le seuil de 70 %. Le score moyen obtenu selon la grille, avec crédit partiel pour les critères réussis même si la tâche ne l’est pas. Les deux comptent, car une réponse scientifique peut être partiellement correcte ou utile sans être complète.
La performance varie beaucoup selon le type de tâche, le flux de travail et le format de réponse.
Là où les systèmes d’IA sont déjà forts
LifeSciBench montre que les modèles de pointe sont les meilleurs en synthèse scientifique, communication et interprétation structurée. Les taux absolus restent modestes, donc ces domaines sont loin d’être saturés, mais GPT‑Rosalind progresse nettement face à GPT‑5.5, avec un taux de réussite exacte de 25,7 % à 36,1 %.
Les plus grands progrès apparaissent en communication scientifique et en translation. Par exemple, le taux en communication scientifique passe de 56,3 % avec GPT‑5.5 à 71,1 % avec GPT‑Rosalind; cette petite catégorie (n=9) appelle la prudence, mais suggère que les modèles de pointe organisent mieux les preuves et produisent des explications convaincantes pour experts. La translation, soit le passage « du banc au chevet » en développement de médicaments, suit la même tendance : de 36,8 % avec GPT‑5.5 à 57,7 % avec GPT‑Rosalind, signe que les modèles relient mieux les preuves précliniques aux implications cliniques.
Les résultats par critère vont dans le même sens. Pour les tâches exigeant des sorties utiles aux experts ou exploitables, GPT‑Rosalind obtient 44,7 %, contre 29,1 % pour GPT‑5.5. Pour la gestion de l’incertitude et des réserves, il obtient 44,8 %, contre 29,3 %. Les modèles semblent donc surtout utiles quand la tâche a des limites de preuve claires et demande un jugement scientifique structuré.
GPT‑Rosalind domine la performance dans les tâches à valeur scientifique relevées par des experts de l’industrie et du milieu universitaire.
GPT‑Rosalind domine les performances sur des tâches à valeur scientifique recensées par des experts de l’industrie et du milieu universitaire.
GPT‑Rosalind domine les performances sur des tâches à valeur scientifique recensées par des experts de l’industrie et du milieu universitaire.
Là où les systèmes d’IA restent faibles
La performance reste bien plus faible pour les tâches riches en artéfacts, axées sur la conception ou soumises à des contraintes opérationnelles. La conception, l’optimisation et la prédiction figurent parmi les flux les plus difficiles, avec 30,7 % de réussite pour GPT‑Rosalind; l’analyse est semblable, à 30,3 %.
L’utilisation des artéfacts est une lacune nette. Même si GPT‑Rosalind dépasse GPT‑5.5 dans ces contextes, son taux chute de 45,1 % pour les tâches textuelles à 28,1 % avec artéfacts ou URL. GPT‑5.5 suit le même profil, de 29,9 % à 21,9 %. Une analyse détaillée confirme que les modèles de pointe peinent à extraire l’information de figures complexes ou de grands fichiers de séquences et à l’intégrer à la réponse finale.
Les taux de réussite baissent lorsque les tâches exigent un raisonnement ancré dans les sources ou l’utilisation d’artéfacts
Le format de réponse compte aussi. Les tâches exigeant des séquences, structures ou constructions exactes réussissent moins : GPT‑Rosalind atteint 14,8 % en numérique et 24,0 % pour les sorties de séquence ou de structure. La génération de constructions est aussi fragile : GPT‑Rosalind obtient 27,3 % et améliore peu GPT‑5.5. Une part de l’écart peut venir d’une notation plus stricte des réponses exactes, où de petits écarts de calcul ou de format font échouer la tâche. Ces échecs comptent scientifiquement, car beaucoup de flux en sciences de la vie exigent des sorties assez exactes pour un usage direct, comme la conception de donneurs CRISPR/HDR ou d’ARNsi.
Les modèles avancent aussi souvent sans résoudre toute la tâche. Dans environ 14 % des tâches, ils ont reçu un crédit important malgré l’échec au seuil de réussite exacte. Pour GPT‑Rosalind, 109 tâches avaient un taux sous 20 % tout en obtenant au moins 50 % de récompense de grille. En pratique, les modèles peuvent repérer des preuves pertinentes ou produire une réponse partielle plausible, mais échouer s’ils manquent une contrainte clé, utilisent les mauvaises preuves, calculent incomplètement ou ne relient pas leur raisonnement à une décision finale utile.
Limites et suite
LifeSciBench aide à mesurer l’utilité des systèmes d’IA en sciences de la vie, sans remplacer l’étude des modèles en recherche réelle. Le banc d’essai cible des tâches autonomes issues de flux industriels récurrents, mais exclut encore plusieurs spécialités et types de tâches. La vraie recherche est itérative : les scientifiques recueillent des preuves, révisent leurs hypothèses, conçoivent des suivis et adaptent leurs plans aux résultats.
Une forte performance à LifeSciBench indique donc une capacité réaliste au niveau de la tâche, non un impact direct sur la recherche en aval. Ancré dans les flux industriels, le banc d’essai ne couvre pas toute la diversité ni la dynamique des programmes de recherche réels, où les progrès se jouent dans le temps.
La prochaine étape est de relier les résultats du banc d’essai à des études de déploiement dans de vrais flux de recherche. Bien que conçu avec des scientifiques en exercice, LifeSciBench ne peut mesurer l’effet des systèmes d’IA sur la découverte ou la R-D qu’au moyen d’études en contexte réel, sur de plus longs horizons et avec plusieurs cycles de raisonnement, de rétroaction et de suivi expérimental.


