17 giugno 2026

Presentazione di LifeSciBench

Un benchmark scritto e rivisto da esperti, fondato sulla ricerca reale nelle scienze della vita

Caricamento in corso...

I sistemi di IA agentica sono sempre più capaci di svolgere compiti scientifici. La loro utilità per i ricercatori nelle scienze della vita dipende però da come gestiscono la complessità della ricerca reale. Questo lavoro raramente somiglia a una domanda di richiamo di un fatto o a un problema di previsione ben definito. I ricercatori interpretano evidenze incomplete, riconciliano risultati contrastanti, progettano esperimenti difficili, risolvono problemi nei saggi, valutano il rischio traslazionale e decidono i passi successivi in condizioni di incertezza.

Gli attuali benchmark non catturano pienamente queste capacità. Molte valutazioni nelle scienze della vita si concentrano su domini ristretti o competenze isolate, producendo domande strutturate e risposte di riferimento nette. Pur essendo utili, spesso non valutano davvero se un modello possa contribuire all’intero spettro del lavoro di ricerca avanzata.

Abbiamo progettato LifeSciBench per colmare questa lacuna. Ogni compito si fonda sul giudizio di scienziati attivi con formazione di livello Ph.D. ed esperienza diretta nello sviluppo di programmi di drug discovery in ambito biotech e farmaceutico.

LifeSciBench include 750 compiti scritti da esperti, distribuiti su sette flussi di lavoro e sette domini biologici.

1,062

Artefatti del compito

173

Contributori scientifici

19,020

Criteri della rubrica

453

Revisori esperti

Che cosa misura LifeSciBench

LifeSciBench misura se i sistemi di AI possono supportare compiti realistici di ricerca nelle scienze della vita, non solo rispondere a domande di biologia. Per definire la tassonomia del benchmark, abbiamo intervistato scienziati attivi sui flussi di lavoro più usati nella ricerca applicata. Abbiamo poi raggruppato le risposte in sette categorie ricorrenti: gestione delle evidenze, analisi, progettazione e ottimizzazione, ragionamento scientifico, validazione e operazioni, traslazione e comunicazione scientifica.

Ogni compito è strutturato come una richiesta che uno scienziato potrebbe rivolgere a un collaboratore esperto: prompt scientifico, eventuale contesto o artefatti pertinenti e risposta libera. Rubriche scritte da esperti valutano se un modello produce la risposta giusta per un problema specifico, con il livello di dettaglio, giustificazione, cautele e formato attesi da uno scienziato.

Costruzione del dataset

LifeSciBench valuta il ragionamento scientifico insieme alle competenze pratiche, meno definite, necessarie per l’uso scientifico nel mondo reale. I compiti chiedono ai modelli di affrontare problemi di ricerca realistici: interpretare evidenze, formulare giudizi fondati sul dominio e comunicare conclusioni utili a revisori esperti. Molti compiti richiedono anche di gestire l’incertezza e ragionare su file di dati di supporto, non solo sul testo del prompt.

Il benchmark è progettato per riflettere la complessità del lavoro nelle scienze della vita. Nel complesso, il 79% dei compiti richiede più passaggi di ragionamento o decisione, con una media di quattro passaggi per compito. LifeSciBench include 1.062 artefatti allegati, tra figure, PDF, tabelle, file di sequenza, file strutturali o chimici e riferimenti web. Oltre la metà dei compiti (53%) richiede ai modelli di interpretare o sintetizzare informazioni da almeno un artefatto.

I compiti sono stati creati da 173 scienziati esperti di diverse discipline delle scienze della vita. Ogni scienziato aveva formazione di livello Ph.D. ed esperienza nell’industria biotecnologica o farmaceutica. Prima dell’accettazione, i compiti potevano passare per tutti i cicli di revisione necessari, senza limite fisso; quelli accettati hanno avuto in media sei cicli automatizzati autoguidati e almeno due cicli di revisione esperta. Le revisioni si basavano su una risposta corretta verificabile o su un forte consenso esperto, con almeno il 90% di accordo tra revisori del dominio pertinente. Questo processo ha aiutato a garantire che i compiti accettati fossero scientificamente fondati, abbastanza chiari da valutare e rappresentativi della ricerca applicata.

Diagramma che mostra compiti di LifeSciBench che combinano fonti di dati delle scienze della vita, come sequenze genomiche, strutture molecolari, figure, documenti, fogli di calcolo e link web, con ragionamento in più passaggi e revisione esperta.

Valutazione e scomposizione delle rubriche

I compiti di LifeSciBench sono valutati con una rubrica dettagliata e specifica, che scompone la risposta attesa in affermazioni scientifiche, calcoli, decisioni, giustificazioni e altro. Nel benchmark, le rubriche sviluppate da esperti includono 19.020 criteri—25 in media per compito—per valutare correttezza scientifica e utilità nelle decisioni di ricerca.

Questo design riflette come il lavoro scientifico viene valutato nella pratica: molti compiti nelle scienze della vita non si giudicano solo controllando la risposta finale. Una risposta può arrivare alla conclusione generale corretta ma risultare incompleta se, per esempio, ignora un limite chiave del saggio o non segnala una sfumatura biologica molto rilevante. Al contrario, una risposta parziale può contenere ragionamento di alta qualità anche se non risolve pienamente il compito.

Le rubriche granulari catturano questa sfumatura. LifeSciBench valuta non solo l’accuratezza della risposta finale, ma se un modello vi arriva in modo scientificamente valido e operativamente utile.

Estrazione, riconciliazione e audit di evidenze scientifiche da articoli, figure, tabelle e registri sperimentali.

Esempio di valutazione

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Risposta del candidato

In sintesi: così presentato, questo pacchetto non è abbastanza solido da supportare l’approvazione accelerata basata sull’espressione di micro-distrofina come endpoint surrogato ragionevolmente predittivo di beneficio clinico. Un revisore FDA scettico probabilmente giudicherebbe biomarcatore, funzione, durabilità, sicurezza e generalizzabilità sostanzialmente non sufficientemente supportate.

Elemento del pacchetto	Principale modalità di fallimento	Cosa servirebbe
Quantificazione Western blot	MANEX1A lega un epitopo N-terminale condiviso dalla distrofina endogena full-length e dal transgene micro-distrofina, quindi il saggio non distingue nettamente transgene e distrofina residua/revertante. Anche quantificare una micro-distrofina da 138 kDa rispetto a uno standard sano di distrofina full-length non è valido.	Usare uno standard ricombinante di micro-distrofina e un metodo ortogonale che distingua transgene e distrofina endogena, come spettrometria di massa mirata o un saggio specifico per transgene/epitopo.
Immunofluorescenza	L’anticorpo policlonale C-terminale è poco adatto perché il costrutto da 138 kDa manca del dominio C-terminale. Molti pazienti DMD hanno fibre revertanti e la distrofina revertante può mantenere epitopi C-terminali. Le fibre revertanti possono espandersi clonalmente con l’età, distorcendo il segnale IF, soprattutto nei ragazzi più grandi.	Ripetere IF con un anticorpo contro un epitopo presente nel transgene ma assente dalla distrofina revertante. Quantificare separatamente le fibre positive al transgene e quelle revertanti.
Validità dell’endpoint surrogato	Il pacchetto confonde quantità di proteina e funzione clinica. «38% della massa proteica del controllo sano» non significa 38% della funzione normale della distrofina, perché la micro-distrofina è strutturalmente tronca.	Validare empiricamente la relazione tra percentuale di massa di micro-distrofina, localizzazione sarcolemmale, ripristino funzionale downstream e beneficio clinico prima di trattare l’espressione come endpoint surrogato.
Disegno della biopsia	Biopsie pre- e post-trattamento del vasto laterale controlaterale introducono variabilità sinistra-destra e spaziale intramuscolare. Progressione della malattia e sostituzione fibro-adiposa possono inoltre cambiare il segnale normalizzato alle proteine totali.	Standardizzare il sito bioptico con landmark anatomici coerenti, normalizzare su proteine muscolo-specifiche e misurare in parallelo la composizione fibro-adiposa.
Comparatore/statistiche NSAA	Una coorte esterna di storia naturale non è un controllo concorrente randomizzato. Idoneità allo studio, cure di supporto, effetti di partecipazione, NSAA basale, regime steroideo, età e classe di esone possono distorcere il confronto. Un t-test non appaiato non è sufficiente. Inoltre, una variazione NSAA di +1,4 rientra nella variabilità test-retest per questa fascia d’età.	Condurre uno studio randomizzato concorrente controllato con placebo, o almeno analisi aggiustate per NSAA basale, età, regime steroideo, classe di esone e altri confondenti.
Confondimento della finestra d’età	I ragazzi di 4–7 anni sono in una finestra di sviluppo in cui pazienti DMD ambulanti non trattati possono guadagnare funzione motoria prima che domini il declino. Una variazione NSAA a 48 settimane mescola guadagno di sviluppo, progressione della malattia e possibile effetto del trattamento.	Usare un controllo randomizzato concorrente con stratificazione per età per separare traiettoria di sviluppo ed effetto del trattamento.
Precedente clinico	I segnali funzionali open-label della micro-distrofina non hanno previsto in modo affidabile il beneficio confermatorio; precedenti pubblicati includono trial confermatori di terapia genica con micro-distrofina che non hanno riprodotto miglioramenti NSAA open-label.	Non affidarsi al cambiamento NSAA open-label come supporto decisivo. Richiedere evidenza funzionale controllata.
Limiti strutturali del costrutto	Il costrutto da 138 kDa elimina le ripetizioni di spectrina R16/17, che contengono siti di legame nNOS. La perdita del reclutamento nNOS può compromettere la simpatolisi funzionale e la protezione dall’ischemia durante l’esercizio, creando un limite meccanicistico al recupero funzionale indipendente dal livello di espressione.	Aggiungere studi meccanicistici che mostrino se questo specifico costrutto ripristina la funzione rilevante del complesso associato alla distrofina, la localizzazione nNOS, la fisiologia dell’esercizio e la protezione muscolare.
Durabilità AAV	I genomi vettoriali a 12 settimane non dimostrano espressione durevole. I genomi AAV9 sono in gran parte episomi non integranti e possono diminuire nel tempo. La persistenza del genoma vettoriale non equivale a espressione proteica persistente.	Misurare longitudinalmente l’espressione proteica del transgene e la durabilità dei biomarcatori funzionali oltre 12 settimane.
Profilo immunitario/di sicurezza	La transaminite in 8/12 pazienti è coerente con una risposta immunitaria a cellule trasdotte da AAV, ma il meccanismo non è stabilito. Un caso di miocardite è preoccupante dato il tropismo cardiaco di AAV9.	Fornire monitoraggio immunitario più approfondito, caratterizzazione della sicurezza epatica/cardiaca e follow-up cardiaco intensificato.
Selezione dei pazienti/generalizzabilità	Escludere pazienti positivi ad anticorpi neutralizzanti anti-AAV9 limita la generalizzabilità. Escludere delezioni dell’esone 44 limita l’applicabilità a quel sottogruppo DMD. n=12 è troppo piccolo per caratterizzare sicurezza ed efficacia nella popolazione DMD più ampia.	Ampliare l’idoneità dove possibile o pre-specificare analisi stratificate per stato anticorpale, genotipo/classe di esone, età e funzione basale prima di usare il risultato a supporto di un’approvazione ampia.

Conclusione regolatoria: il pacchetto può mostrare attività biologica, ma non stabilisce ancora che l’espressione misurata di micro-distrofina sia un surrogato affidabile ragionevolmente predittivo di beneficio clinico. Le principali lacune sono specificità del saggio, standard di quantificazione non validi, possibile confondimento da fibre revertanti, assenza di controllo randomizzato, confondimento NSAA legato all’età, durabilità incerta e questioni irrisolte di sicurezza/generalizzabilità.

Per colmare il divario, servirebbero un disegno clinico controllato e stratificato per età con saggi di espressione specifici del transgene, quantificazione proteica ortogonale, controlli di composizione tissutale, dati longitudinali di durabilità, saggi funzionali meccanicistici per il costrutto tronco e monitoraggio di sicurezza più forte, soprattutto epatico e cardiaco.

Criteri di valutazione e voti

Criterio

Punti

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

Validazione di LifeSciBench

Abbiamo validato LifeSciBench tramite una revisione esperta indipendente. Il feedback è arrivato da 453 revisori non coinvolti nella scrittura dei compiti. Di questi, il 97% aveva un Ph.D. o dottorato equivalente, con in media 12 anni di esperienza nel campo e 14 pubblicazioni peer-reviewed; l’88% ha dichiarato almeno un premio o fellowship.

I revisori hanno valutato se ogni compito riflettesse le qualità di una buona domanda di benchmark: allineamento alla ricerca reale, test adeguato del ragionamento scientifico e della competenza di dominio, fondamento su evidenze o consenso esperto e utilità complessiva per valutare le prestazioni del modello. L’accordo ha superato il 96% in ogni categoria.

Rilevanza nel mondo reale

Questo compito riflette il lavoro realistico nelle scienze della vita nel mondo reale?

Molto d’accordo: 90.4%
D’accordo nel complesso: 98.3%

Ragionamento scientifico / competenza di dominio

Questo compito valuta e assegna un punteggio alle giuste capacità di ragionamento scientifico e competenze di dominio nelle scienze della vita?

Molto d’accordo: 86.4%
D’accordo nel complesso: 98.1%

Fondamento scientifico

Questo compito è scientificamente fondato, risolvibile e ancorato a evidenze, dati, artefatti o consenso di esperti appropriati?

Molto d’accordo: 77.1%
D’accordo nel complesso: 96.5%

Utilità complessiva

Nel complesso, questo è un valido compito di valutazione per le scienze della vita?

Molto d’accordo: 79.1%
D’accordo nel complesso: 96.6%

I commenti dei revisori hanno confermato le valutazioni quantitative:

1 di 3

“Nel complesso è un compito solido perché ha un’interpretazione centrale corretta, pur lasciando spazio per distinguere le risposte migliori in base a quanto delimitano con cura l’incertezza.”

Risultati

Riportiamo due metriche complementari. Il tasso di superamento è la percentuale di compiti in cui un modello raggiunge la soglia di successo del 70% a livello di compito. Il punteggio è la ricompensa media della rubrica, che assegna credito parziale per singoli criteri anche quando il compito completo non è risolto. Entrambe contano, perché una risposta a un compito scientifico può essere parzialmente corretta o utile senza soddisfare tutti i requisiti di una risposta completa.

Le prestazioni dei modelli variano molto per tipo di compito, flusso di lavoro e formato della risposta.

Dove i sistemi di AI mostrano punti di forza iniziali

LifeSciBench mostra che i modelli di frontiera sono relativamente più forti nei compiti di sintesi scientifica, comunicazione e interpretazione strutturata. I tassi assoluti di superamento restano modesti, quindi questi domini non sono saturi, ma GPT‑Rosalind mostra progressi su GPT‑5.5, portando il tasso di superamento esatto dal 25,7% al 36,1%.

I maggiori progressi nelle capacità dei modelli emergono in Comunicazione scientifica e Traslazione. Per esempio, il tasso di superamento in Comunicazione scientifica sale dal 56,3% per GPT‑5.5 al 71,1% per GPT‑Rosalind; la categoria è piccola (n=9), quindi va letta con cautela, ma suggerisce rapidi miglioramenti nell’organizzare evidenze e produrre spiegazioni convincenti per esperti. La Traslazione (il processo «dal laboratorio al letto del paziente» nello sviluppo di farmaci) mostra un andamento simile, dal 36,8% per GPT‑5.5 al 57,7% per GPT‑Rosalind, indicando miglioramenti nel collegare evidenze precliniche a implicazioni cliniche.

I risultati a livello di rubrica indicano la stessa direzione. Nei compiti che richiedono output utili agli esperti o azionabili, GPT‑Rosalind ottiene il 44,7%, contro il 29,1% di GPT‑5.5. Nei compiti che richiedono gestione di incertezza e cautele, ottiene il 44,8%, contro il 29,3%. Questo schema suggerisce che i modelli sono più utili quando il compito ha confini evidenziali chiari e richiede giudizio scientifico strutturato.

GPT‑Rosalind guida le prestazioni nei compiti di valore scientifico individuati da esperti industriali e accademici.

GPT‑Rosalind guida le prestazioni in attività di valore scientifico identificate da esperti industriali e accademici.

Dove i sistemi di AI restano carenti

Le prestazioni restano molto più deboli nel lavoro scientifico ricco di artefatti, orientato al design e vincolato operativamente. In particolare, Progettazione, ottimizzazione e previsione resta uno dei flussi più difficili, con un tasso di superamento di GPT‑Rosalind del 30,7%; anche Analisi è difficile, al 30,3%.

L’uso degli artefatti è un divario particolarmente evidente. Sebbene GPT‑Rosalind superi GPT‑5.5 nei contesti ricchi di artefatti, il suo tasso di superamento scende dal 45,1% nei compiti solo testo al 28,1% nei compiti con artefatti o URL. GPT‑5.5 mostra lo stesso schema, scendendo dal 29,9% al 21,9%. Un’analisi più dettagliata conferma che i modelli di frontiera faticano a estrarre informazioni da figure complesse o grandi file di sequenze e a integrarle nella risposta finale.

I tassi di superamento calano quando i compiti richiedono ragionamento basato sulle fonti o l’uso di artefatti

Conta anche il formato della risposta. I compiti che richiedono output esatti a livello di sequenza, struttura o costrutto hanno tassi più bassi: GPT‑Rosalind arriva solo al 14,8% nei compiti numerici e al 24,0% negli output di sequenza o struttura. Anche la generazione di costrutti è fragile: GPT‑Rosalind è al 27,3% e migliora poco rispetto a GPT‑5.5. Parte del divario può riflettere criteri più severi per compiti a risposta esatta, dove piccole differenze di calcolo o formato possono portare sotto la soglia di superamento. Tuttavia, questi fallimenti sono scientificamente significativi perché molti flussi nelle scienze della vita richiedono output abbastanza esatti da essere usati direttamente, come nel design di donatori CRISPR/HDR o di siRNA.

I modelli spesso arrivano anche a una soluzione parziale senza risolvere pienamente il compito. In circa il 14% dei compiti, i modelli hanno ottenuto molto credito di rubrica pur non raggiungendo la soglia di superamento esatto. Per GPT‑Rosalind, 109 compiti avevano tassi di superamento inferiori al 20% ma ottenevano comunque almeno il 50% della ricompensa di rubrica. In pratica, i modelli possono individuare evidenze pertinenti o produrre una risposta parziale plausibile, ma fallire perché mancano un vincolo chiave, usano evidenze sbagliate, fanno un calcolo incompleto o non collegano il ragionamento a una decisione finale scientificamente utile.

Limiti e prossimi passi

LifeSciBench è un passo verso la misurazione dell’utilità dei sistemi di AI per la ricerca nelle scienze della vita, ma non sostituisce lo studio dei modelli in ambienti di ricerca reali. Il benchmark si concentra su compiti autonomi che riflettono flussi industriali ricorrenti, lasciando fuori dall’attuale perimetro molte specialità scientifiche e tipi di compito. La ricerca reale è iterativa: gli scienziati raccolgono nuove evidenze, rivedono ipotesi, progettano esperimenti di follow-up e adattano i piani man mano che emergono risultati.

Una forte performance su LifeSciBench va quindi interpretata come evidenza di capacità realistiche a livello di compito, non come misura diretta dell’impatto sulla ricerca a valle. Il benchmark si fonda su flussi di lavoro industriali, ma non cattura tutta la diversità o la dinamica dei programmi di ricerca reali, in cui il progresso dipende da fattori che evolvono nel tempo.

Il passo successivo è collegare le prestazioni del benchmark a studi di implementazione in flussi di ricerca reali. Sebbene LifeSciBench sia stato sviluppato con scienziati attivi, misurare se i sistemi di AI accelerano la scoperta o migliorano gli esiti di R&D richiederà di studiare uso e prestazioni dei modelli in contesti di ricerca reali, su orizzonti più lunghi e attraverso più cicli di ragionamento, feedback e follow-up sperimentale.