Présentation de LifeSciBench
Un benchmark rédigé et évalué par des experts, ancré dans la recherche réelle en sciences de la vie
Les systèmes d’IA agentique savent de mieux en mieux accomplir des tâches scientifiques. Mais leur utilité en sciences de la vie dépend de leur aptitude à gérer la complexité de la recherche réelle. Ce travail se réduit rarement à rappeler un fait ou à résoudre une prédiction simple. Les chercheurs interprètent des données incomplètes, concilient des résultats opposés, conçoivent des expériences difficiles, dépannent des essais, évaluent le risque translationnel et décident dans l’incertitude.
Les benchmarks actuels couvrent mal ces capacités. Beaucoup d’évaluations en sciences de la vie ciblent des domaines étroits ou des compétences isolées, avec questions structurées et réponses de référence nettes. Utiles, elles disent pourtant rarement si un modèle peut contribuer à l’éventail plus large du travail de recherche.
Nous avons conçu LifeSciBench pour combler cette lacune. Chaque tâche repose sur le jugement de scientifiques en exercice, formés au niveau doctorat et expérimentés dans la découverte de médicaments en biotech ou pharma.
LifeSciBench réunit 750 tâches rédigées par des experts, couvrant sept workflows et sept domaines biologiques.
1,062
Artefacts de tâche
173
Contributeurs scientifiques
19,020
Critères de la grille d’évaluation
453
Évaluateurs experts
Ce que mesure LifeSciBench
LifeSciBench mesure si les systèmes AI peuvent aider à mener de vraies tâches de recherche en sciences de la vie, pas seulement répondre à des questions de biologie. Pour définir sa taxonomie, nous avons interrogé des scientifiques sur leurs workflows les plus fréquents en recherche appliquée. Nous avons regroupé leurs réponses en sept catégories : preuves, analyse, conception et optimisation, raisonnement scientifique, validation et opérations, translation, communication scientifique.
Chaque tâche ressemble à une demande adressée à un collaborateur compétent : prompt scientifique, contexte ou artefacts utiles, et réponse libre. Des grilles d’experts évaluent si un modèle répond au problème avec le détail, la justification, les réserves et le format attendus par un scientifique.
Construction du jeu de données
LifeSciBench évalue le raisonnement scientifique et les compétences pratiques, moins codifiées, nécessaires à un usage réel. Les tâches demandent aux modèles de traiter des problèmes réalistes : interpréter des preuves, juger dans le domaine et formuler des conclusions utiles à des experts. Beaucoup exigent aussi de gérer l’incertitude et de raisonner sur des fichiers, pas seulement sur le texte du prompt.
Le benchmark reflète la complexité du travail en sciences de la vie. Au total, 79 % des tâches exigent plusieurs étapes de raisonnement ou de décision, quatre en moyenne. LifeSciBench inclut 1 062 artefacts : figures, PDF, tableaux, séquences, fichiers structuraux ou chimiques et références web. Plus de la moitié des tâches (53 %) exigent d’interpréter ou de synthétiser au moins un artefact.
Les tâches ont été créées par 173 scientifiques experts de diverses disciplines des sciences de la vie. Tous avaient une formation doctorale et une expérience en biotech ou dans l’industrie pharmaceutique. Avant acceptation, les tâches pouvaient être révisées autant que nécessaire ; celles retenues ont connu en moyenne six cycles automatisés d’auto-évaluation et au moins deux revues d’experts. Les revues reposaient sur une bonne réponse vérifiable ou un fort consensus, avec au moins 90 % d’accord entre experts du domaine. Ce processus a assuré des tâches fondées scientifiquement, notables de façon claire et représentatives de la recherche appliquée.
Notation et grilles
Les tâches LifeSciBench sont notées avec une grille détaillée et spécifique, qui décompose la réponse attendue en affirmations, calculs, décisions, justifications, etc. Au total, les grilles d’experts comptent 19 020 critères — 25 par tâche en moyenne — pour évaluer exactitude scientifique et utilité décisionnelle.
Cette conception reflète la pratique : en sciences de la vie, beaucoup de tâches ne se notent pas sur la seule réponse finale. Une réponse peut aboutir à la bonne conclusion générale mais rester incomplète si elle oublie une limite d’essai clé ou une nuance biologique majeure. À l’inverse, une réponse partielle peut contenir un raisonnement solide sans résoudre toute la tâche.
Les grilles fines captent cette nuance. LifeSciBench évalue l’exactitude finale, mais aussi la validité scientifique et l’utilité opérationnelle du chemin suivi par le modèle.
Extraire, rapprocher et auditer les preuves scientifiques issues d’articles, de figures, de tableaux et de dossiers expérimentaux.
Exemple d’évaluation
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
Réponse candidate
Conclusion : Tel que présenté, ce dossier n’est pas assez solide pour étayer une approbation accélérée fondée sur l’expression de micro-dystrophine comme critère de substitution raisonnablement susceptible de prédire un bénéfice clinique. Un évaluateur sceptique de la FDA jugerait probablement les preuves relatives au biomarqueur, à la fonction, à la durabilité, à la sécurité et à la généralisabilité comme matériellement insuffisantes.
Élément du dossier | Mode d’échec clé | Ce qui serait nécessaire |
|---|---|---|
Quantification par western blot | MANEX1A se lie à un épitope N-terminal partagé par la dystrophine endogène pleine longueur et le transgène de micro-dystrophine, de sorte que le test ne distingue pas proprement le transgène de la dystrophine résiduelle/révertante. Quantifier une micro-dystrophine de 138 kDa par rapport à un étalon sain de dystrophine pleine longueur est également invalide. | Utiliser un étalon recombinant de micro-dystrophine et une méthode orthogonale distinguant le transgène de la dystrophine endogène, comme la spectrométrie de masse ciblée ou un test spécifique du transgène/de l’épitope. |
Immunofluorescence | L’anticorps polyclonal C-terminal est mal adapté, car la construction de 138 kDa manque du domaine C-terminal. De nombreux patients DMD possèdent des fibres révertantes, et la dystrophine révertante peut conserver des épitopes C-terminaux. Les fibres révertantes peuvent s’étendre clonalement avec l’âge, biaisant le signal IF, surtout chez les garçons plus âgés. | Répéter l’IF avec un anticorps dirigé contre un épitope présent dans le transgène mais absent de la dystrophine révertante. Quantifier séparément les fibres positives pour le transgène et les fibres révertantes. |
Validité du critère de substitution | Le dossier confond quantité de protéine et fonction clinique. « 38 % de la masse protéique du témoin sain » ne signifie pas 38 % de la fonction normale de la dystrophine, car la micro-dystrophine est structurellement tronquée. | Valider empiriquement la relation entre le pourcentage massique de micro-dystrophine, la localisation sarcolemmique, la restauration fonctionnelle en aval et le bénéfice clinique avant de traiter l’expression comme un critère de substitution. |
Conception des biopsies | Les biopsies pré- et post-traitement du vaste latéral controlatéral introduisent une variabilité gauche-droite et spatiale intramusculaire. La progression de la maladie et le remplacement fibro-adipeux peuvent aussi modifier le signal normalisé par les protéines totales. | Standardiser le site de biopsie avec des repères anatomiques constants, normaliser sur des protéines spécifiques du muscle et mesurer en parallèle la composition fibro-adipeuse. |
Comparateur/statistiques NSAA | Une cohorte externe d’histoire naturelle n’est pas un contrôle concomitant randomisé. L’éligibilité à l’essai, les soins de soutien, les effets de participation, le NSAA initial, le schéma stéroïdien, l’âge et la classe d’exon peuvent tous biaiser la comparaison. Un test t non apparié ne suffit pas. De plus, une variation NSAA de +1,4 se situe dans la variabilité test-retest pour ce groupe d’âge. | Mener une étude randomisée concomitante contrôlée par placebo, ou au minimum utiliser des analyses ajustées tenant compte du NSAA initial, de l’âge, du schéma stéroïdien, de la classe d’exon et d’autres facteurs de confusion. |
Confusion liée à la fenêtre d’âge | Les garçons de 4 à 7 ans se trouvent dans une fenêtre de développement où les patients DMD ambulatoires non traités peuvent gagner en fonction motrice avant que le déclin ne domine. Une variation du NSAA sur 48 semaines mêle gain développemental, progression de la maladie et effet possible du traitement. | Utiliser un contrôle randomisé concomitant avec stratification par âge pour séparer la trajectoire développementale de l’effet du traitement. |
Précédent clinique antérieur | Les signaux fonctionnels en ouvert de micro-dystrophine n’ont pas prédit de façon fiable un bénéfice confirmatoire ; les précédents publiés incluent des essais confirmatoires de thérapie génique par micro-dystrophine n’ayant pas reproduit les améliorations NSAA en ouvert. | Ne pas s’appuyer sur une variation NSAA en ouvert comme soutien décisif. Exiger des preuves fonctionnelles contrôlées. |
Limites structurelles de la construction | La construction de 138 kDa supprime les répétitions spectrine R16/17, qui contiennent les sites de liaison à nNOS. La perte du recrutement de nNOS peut altérer la sympatholyse fonctionnelle et la protection contre l’ischémie pendant l’exercice, créant un plafond mécanistique au sauvetage indépendant du niveau d’expression. | Ajouter des études mécanistiques montrant si cette construction spécifique restaure la fonction pertinente du complexe associé à la dystrophine, la localisation de nNOS, la physiologie de l’exercice et la protection musculaire. |
Durabilité AAV | Les génomes vectoriels à 12 semaines n’établissent pas une expression durable. Les génomes AAV9 sont largement des épisomes non intégratifs et peuvent diminuer avec le temps. La persistance du génome vectoriel n’est pas la même chose qu’une expression protéique persistante. | Mesurer longitudinalement l’expression protéique du transgène et la durabilité des biomarqueurs fonctionnels au-delà de 12 semaines. |
Profil immunitaire/sécurité | La transaminite chez 8/12 patients est compatible avec une réponse immunitaire aux cellules transduites par AAV, mais le mécanisme n’est pas établi. Un cas de myocardite est préoccupant compte tenu du tropisme cardiaque d’AAV9. | Fournir un suivi immunitaire plus approfondi, une caractérisation de la sécurité hépatique/cardiaque et un suivi cardiaque intensifié. |
Sélection des patients/généralisabilité | Exclure les patients positifs pour les anticorps neutralisants anti-AAV9 limite la généralisabilité. Exclure les délétions de l’exon 44 limite l’applicabilité à ce sous-groupe DMD. n=12 est trop faible pour caractériser la sécurité et l’efficacité dans la population DMD plus large. | Élargir l’éligibilité lorsque c’est possible ou préspécifier des analyses stratifiées selon le statut anticorps, le génotype/la classe d’exon, l’âge et la fonction initiale avant d’utiliser le résultat pour soutenir une approbation large. |
Conclusion réglementaire : Le dossier peut montrer une activité biologique, mais il n’établit pas encore que l’expression mesurée de micro-dystrophine est un substitut fiable raisonnablement susceptible de prédire un bénéfice clinique. Les principales lacunes sont la spécificité des tests, des étalons de quantification invalides, une possible confusion due aux fibres révertantes, l’absence de contrôle randomisé, la confusion du NSAA liée à l’âge, une durabilité incertaine et des questions de sécurité/généralisabilité non résolues.
Pour combler l’écart, le programme aurait besoin d’un plan clinique contrôlé et stratifié par âge, avec des tests d’expression spécifiques du transgène, une quantification protéique orthogonale, des contrôles de composition tissulaire, des données longitudinales de durabilité, des tests fonctionnels mécanistiques pour la construction tronquée et une surveillance de sécurité renforcée, notamment hépatique et cardiaque.
Critères et notes
Validation de LifeSciBench
Nous avons validé LifeSciBench par une revue d’experts indépendante. Les retours venaient de 453 évaluateurs n’ayant pas rédigé les tâches. Parmi eux, 97 % détenaient un doctorat ou équivalent, avec en moyenne 12 ans d’expérience et 14 publications évaluées par les pairs ; 88 % déclaraient au moins un prix ou une bourse.
Ils notaient si chaque tâche avait les qualités d’une bonne question de benchmark : lien avec la recherche réelle, test du raisonnement scientifique et de l’expertise, fondement probant ou consensuel, utilité pour évaluer les modèles. L’accord dépassait 96 % dans chaque catégorie.
Les commentaires confirmaient les notes :
Résultats
Nous rapportons deux métriques complémentaires. Le taux de réussite est la part des tâches où un modèle atteint le seuil de succès de 70 %. Le score est la récompense moyenne de la grille, avec crédit partiel pour chaque critère même si la tâche n’est pas résolue. Les deux comptent : une réponse scientifique peut être en partie correcte ou utile sans remplir toutes les exigences.
Les performances varient fortement selon le type de tâche, le workflow et le format de réponse.
Points forts actuels des systèmes AI
LifeSciBench montre que les modèles de pointe réussissent surtout les tâches de synthèse scientifique, de communication et d’interprétation structurée. Les taux absolus restent modestes et ces domaines sont loin d’être saturés, mais GPT‑Rosalind progresse nettement sur GPT‑5.5 : le taux de réussite exacte global passe de 25,7 % à 36,1 %.
Les plus fortes progressions apparaissent en communication scientifique et en translation. Par exemple, la réussite en communication scientifique passe de 56,3 % pour GPT‑5.5 à 71,1 % pour GPT‑Rosalind ; l’échantillon est petit (n=9), mais il suggère que les modèles de pointe organisent mieux les preuves et produisent vite de meilleures explications pour experts. La translation (« du labo au patient ») suit le même schéma, de 36,8 % pour GPT‑5.5 à 57,7 % pour GPT‑Rosalind, signe d’une meilleure capacité à relier preuves précliniques et implications cliniques.
Les résultats par grille vont dans le même sens. Sur les sorties utiles ou actionnables pour l’expert, GPT‑Rosalind obtient 44,7 %, contre 29,1 % pour GPT‑5.5. Sur la gestion de l’incertitude et des réserves, il atteint 44,8 %, contre 29,3 %. Les modèles semblent donc plus utiles quand la tâche a des limites probantes claires et demande un jugement scientifique structuré.
GPT‑Rosalind domine les performances sur les tâches à forte valeur scientifique identifiées par des experts industriels et universitaires.
GPT‑Rosalind domine les performances sur des tâches à valeur scientifique identifiées par des experts industriels et universitaires.
GPT‑Rosalind domine les performances sur des tâches à valeur scientifique identifiées par des experts industriels et universitaires.
Là où les systèmes AI restent faibles
Les performances restent bien plus faibles pour les travaux riches en artefacts, centrés sur la conception ou soumis à des contraintes opérationnelles. Conception, optimisation et prédiction figurent parmi les workflows les plus difficiles, avec 30,7 % de réussite pour GPT‑Rosalind ; l’analyse est proche, à 30,3 %.
L’usage des artefacts est une lacune nette. GPT‑Rosalind dépasse GPT‑5.5 dans ces contextes, mais son taux chute de 45,1 % sur les tâches texte seul à 28,1 % avec artefacts ou URL. GPT‑5.5 suit le même schéma, de 29,9 % à 21,9 %. Une analyse fine confirme que les modèles de pointe peinent à extraire l’information de figures complexes ou de grands fichiers de séquences, puis à l’intégrer à la réponse finale.
Les taux de réussite baissent quand les tâches exigent un raisonnement ancré dans les sources ou l’utilisation d’artefacts
Le format de réponse compte aussi. Les sorties exactes de séquence, structure ou construct réussissent moins : GPT‑Rosalind n’atteint que 14,8 % sur les tâches numériques et 24,0 % sur les sorties de séquence ou structure. La génération de constructs est aussi fragile : GPT‑Rosalind atteint 27,3 % et progresse peu face à GPT‑5.5. Cet écart peut en partie venir d’une notation plus stricte des réponses exactes, où de petits écarts de calcul ou de format font passer sous le seuil. Ces échecs restent importants : beaucoup de workflows exigent des sorties directement utilisables, par exemple pour concevoir des donneurs CRISPR/HDR ou des siRNA.
Les modèles vont aussi souvent assez loin sans finir la tâche. Dans environ 14 % des tâches, ils ont obtenu un crédit substantiel sans atteindre le seuil de réussite exacte. Pour GPT‑Rosalind, 109 tâches avaient moins de 20 % de réussite tout en obtenant au moins 50 % de récompense dans la grille. En pratique, un modèle peut repérer des preuves utiles ou produire une réponse partielle plausible, mais échouer s’il manque une contrainte, choisit les mauvaises preuves, calcule incomplètement ou ne relie pas son raisonnement à une décision scientifique utile.
Limites et suite
LifeSciBench aide à mesurer l’utilité possible des systèmes AI pour la recherche en sciences de la vie, mais ne remplace pas l’étude des modèles en environnement réel. Le benchmark cible des tâches autonomes issues de workflows industriels récurrents, tout en excluant encore de nombreuses spécialités et types de tâches. La recherche réelle est itérative : les scientifiques recueillent des preuves, révisent leurs hypothèses, conçoivent la suite et adaptent leurs plans aux résultats.
Une bonne performance sur LifeSciBench indique donc une capacité réaliste au niveau des tâches, non une mesure directe de l’impact aval. Ancré dans les workflows industriels, le benchmark ne couvre pas toute la diversité ni la dynamique des programmes réels, où les progrès se construisent dans le temps.
La prochaine étape est de relier les scores du benchmark à des études de déploiement dans des workflows de recherche réels. Bien que LifeSciBench ait été créé avec des scientifiques, mesurer si les systèmes AI accélèrent la découverte ou améliorent la R&D exigera d’étudier l’usage des modèles en conditions réelles, sur des horizons plus longs et plusieurs cycles de raisonnement, retour et suivi expérimental.


