Presentación de LifeSciBench
Un benchmark escrito y revisado por expertos, basado en la investigación real en ciencias de la vida
Los sistemas de IA con agentes son cada vez más capaces de realizar tareas científicas. Pero su utilidad en ciencias de la vida depende de cómo gestionen la complejidad de la investigación real. Ese trabajo rara vez es una simple pregunta factual o un problema de predicción limpio. Los investigadores interpretan datos incompletos, concilian resultados opuestos, diseñan experimentos, depuran ensayos, evalúan riesgos traslacionales y deciden bajo incertidumbre.
Los benchmarks actuales no captan del todo estas capacidades. Muchas evaluaciones se centran en ámbitos estrechos o habilidades aisladas, con preguntas estructuradas y respuestas de referencia claras. Aunque valiosas, a menudo no miden si un modelo puede ayudar en el trabajo de investigación más amplio.
Diseñamos LifeSciBench para cerrar esa brecha. Cada tarea se basa en el criterio de científicos en activo, con formación doctoral y experiencia en descubrimiento de fármacos en biotecnología y farma.
LifeSciBench reúne 750 tareas de expertos en siete flujos de trabajo y siete dominios biológicos.
1,062
Artefactos de la tarea
173
Científicos colaboradores
19,020
Criterios de la rúbrica
453
Revisores expertos
Qué mide LifeSciBench
LifeSciBench mide si los sistemas de IA apoyan tareas realistas de ciencias de la vida, no solo si responden preguntas de biología. Para definir la taxonomía, encuestamos a científicos sobre los flujos de trabajo que más usan en investigación aplicada. Luego agrupamos sus respuestas en siete categorías: gestión de evidencias, análisis, diseño y optimización, razonamiento científico, validación y operaciones, traslación y comunicación científica.
Cada tarea parece una petición a un colaborador experto: prompt científico, contexto o artefactos relevantes y respuesta libre. Rúbricas de expertos evalúan si un modelo da la respuesta correcta, con el detalle, la justificación, las cautelas y el formato esperados.
Construcción del conjunto de datos
LifeSciBench evalúa el razonamiento científico y las habilidades prácticas necesarias para usar la ciencia en el mundo real. Sus tareas exigen resolver problemas realistas: interpretar evidencias, emitir juicios de dominio y comunicar conclusiones útiles para expertos. Muchas tareas también exigen manejar incertidumbre y razonar sobre archivos de apoyo, no solo sobre el prompt.
El benchmark refleja la complejidad del trabajo en ciencias de la vida. En total, el 79 % de las tareas requiere varios pasos de razonamiento o decisión, con una media de cuatro por tarea. LifeSciBench incluye 1 062 artefactos: figuras, PDF, tablas, secuencias, archivos estructurales o químicos y referencias web. Más de la mitad de las tareas (53 %) exige interpretar o sintetizar información de al menos un artefacto.
Las tareas fueron creadas por 173 científicos expertos de distintas disciplinas. Todos tenían formación doctoral y experiencia en la industria biotecnológica o farmacéutica. Antes de aceptarse, las tareas podían revisarse sin límite de rondas; las aceptadas promediaron seis revisiones automatizadas autodirigidas y al menos dos revisiones expertas. Las revisiones se basaron en una respuesta verificable o en un sólido consenso experto, con al menos un 90 % de acuerdo entre revisores del dominio. Así se aseguró que las tareas fueran científicas, calificables y representativas de la investigación aplicada.
Calificación y desglose de la rúbrica
Las tareas de LifeSciBench se califican con una rúbrica detallada y específica que divide la respuesta esperada en afirmaciones, cálculos, decisiones, justificaciones, etc. En conjunto, las rúbricas de expertos incluyen 19 020 criterios, una media de 25 por tarea, para medir corrección científica y utilidad investigadora.
El diseño refleja cómo se evalúa la ciencia en la práctica: no basta comprobar la respuesta final. Una respuesta puede acertar la conclusión general y seguir siendo incompleta si omite una limitación clave del ensayo o un matiz biológico importante. A la inversa, una respuesta parcial puede mostrar buen razonamiento aunque no resuelva toda la tarea.
Las rúbricas granulares captan ese matiz. LifeSciBench evalúa no solo la exactitud final, sino si el modelo llega a la respuesta de forma científica y útil.
Extraer, conciliar y auditar pruebas científicas de artículos, figuras, tablas y registros experimentales.
Ejemplo de evaluación
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
Respuesta candidata
Conclusión clave: tal como se presenta, este paquete no es lo bastante sólido para respaldar la aprobación acelerada basada en la expresión de microdistrofina como punto de acceso sustituto razonablemente probable de predecir beneficio clínico. Un revisor escéptico de la FDA probablemente consideraría que las pruebas de biomarcador, funcionalidad, durabilidad, seguridad y generalizabilidad tienen un respaldo materialmente insuficiente.
Elemento del paquete | Modo de fallo clave | Qué haría falta |
|---|---|---|
Cuantificación por Western blot | MANEX1A se une a un epítopo N-terminal compartido por la distrofina endógena de longitud completa y el transgén de microdistrofina, por lo que el ensayo no distingue claramente el transgén de la distrofina residual/revertante. Cuantificar una microdistrofina de 138 kDa frente a un estándar sano de distrofina de longitud completa también es inválido. | Usar un estándar recombinante de microdistrofina y un método ortogonal que distinga el transgén de la distrofina endógena, como espectrometría de masas dirigida o un ensayo específico de transgén/epítopo. |
Inmunofluorescencia | El anticuerpo policlonal C-terminal es poco adecuado porque el constructo de 138 kDa carece del dominio C-terminal. Muchos pacientes con DMD tienen fibras revertantes, y la distrofina revertante puede conservar epítopos C-terminales. Las fibras revertantes pueden expandirse clonalmente con la edad, sesgando la señal IF, especialmente en niños mayores. | Repetir IF con un anticuerpo contra un epítopo presente en el transgén pero ausente de la distrofina revertante. Cuantificar las fibras positivas para transgén por separado de las fibras revertantes. |
Validez del punto de acceso sustituto | El paquete confunde la cantidad de proteína con la función clínica. «38 % de la masa proteica de controles sanos» no significa 38 % de función normal de distrofina, porque la microdistrofina está truncada estructuralmente. | Validar empíricamente la relación entre porcentaje de masa de microdistrofina, localización sarcolemal, restauración funcional posterior y beneficio clínico antes de tratar la expresión como punto de acceso sustituto. |
Diseño de biopsia | Las biopsias contralaterales pre y postratamiento del vasto lateral introducen variabilidad espacial izquierda-derecha e intramuscular. La progresión de la enfermedad y la sustitución fibrograsa también pueden cambiar la señal normalizada por proteína total. | Estandarizar el sitio de biopsia con referencias anatómicas coherentes, normalizar a proteínas específicas de músculo y medir en paralelo la composición fibrograsa. |
Comparador/estadística NSAA | Una cohorte externa de historia natural no es un control concurrente aleatorizado. La elegibilidad del ensayo, los cuidados de apoyo, los efectos de participación, la NSAA basal, el régimen de esteroides, la edad y la clase de exón pueden sesgar la comparación. Una prueba t no apareada no es suficiente. Además, un cambio de +1,4 en NSAA está dentro de la variabilidad test-retest para este grupo de edad. | Realizar un estudio aleatorizado concurrente controlado con placebo o, como mínimo, usar análisis ajustados por NSAA basal, edad, régimen de esteroides, clase de exón y otros factores de confusión. |
Confusión por ventana de edad | Los niños de 4–7 años están en una ventana de desarrollo en la que los pacientes ambulatorios con DMD no tratados pueden ganar función motora antes de que predomine el deterioro. Un cambio de NSAA a 48 semanas mezcla ganancia del desarrollo, progresión de la enfermedad y posible efecto del tratamiento. | Usar un control aleatorizado concurrente con estratificación por edad para separar la trayectoria del desarrollo del efecto del tratamiento. |
Precedente clínico previo | Las señales funcionales de microdistrofina en estudios abiertos no han predicho de forma fiable el beneficio confirmatorio; el precedente publicado incluye ensayos confirmatorios de terapia génica con microdistrofina que no reprodujeron las mejoras abiertas en NSAA. | No confiar en el cambio de NSAA abierto como respaldo decisivo. Exigir evidencia funcional controlada. |
Límites estructurales del constructo | El constructo de 138 kDa elimina las repeticiones de espectrina R16/17, que contienen sitios de unión a nNOS. La pérdida de reclutamiento de nNOS puede deteriorar la simpáticolisis funcional y la protección frente a isquemia durante el ejercicio, creando un techo mecanístico de rescate independiente del nivel de expresión. | Añadir estudios mecanísticos que muestren si este constructo específico restaura la función relevante del complejo asociado a distrofina, la localización de nNOS, la fisiología del ejercicio y la protección muscular. |
Durabilidad de AAV | Los genomas vectoriales a las 12 semanas no establecen expresión duradera. Los genomas AAV9 son en gran medida episomas no integradores y pueden disminuir con el tiempo. La persistencia del genoma vectorial no equivale a expresión proteica persistente. | Medir longitudinalmente la expresión proteica del transgén y la durabilidad de biomarcadores funcionales más allá de 12 semanas. |
Perfil inmunitario/de seguridad | La transaminitis en 8/12 pacientes es coherente con una respuesta inmunitaria a células transducidas por AAV, pero el mecanismo no está establecido. Un caso de miocarditis es preocupante dado el tropismo cardiaco de AAV9. | Proporcionar monitorización inmunitaria más profunda, caracterización de seguridad hepática/cardiaca y seguimiento cardiaco intensificado. |
Selección de pacientes/generalizabilidad | Excluir a pacientes positivos para anticuerpos neutralizantes anti-AAV9 limita la generalizabilidad. Excluir deleciones del exón 44 limita la aplicabilidad a ese subgrupo de DMD. n=12 es demasiado pequeño para caracterizar la seguridad y la eficacia en la población más amplia con DMD. | Ampliar la elegibilidad cuando sea posible o preespecificar análisis estratificados por estado de anticuerpos, genotipo/clase de exón, edad y función basal antes de usar el resultado para respaldar una aprobación amplia. |
Conclusión regulatoria: el paquete puede mostrar actividad biológica, pero aún no establece que la expresión medida de microdistrofina sea un sustituto fiable razonablemente probable de predecir beneficio clínico. Las principales brechas son especificidad del ensayo, estándares de cuantificación inválidos, posible confusión por fibras revertantes, falta de control aleatorizado, confusión de NSAA por edad, durabilidad incierta y problemas de seguridad/generalizabilidad no resueltos.
Para cerrar la brecha, el programa necesitaría un diseño clínico controlado y estratificado por edad, con ensayos de expresión específicos de transgén, cuantificación proteica ortogonal, controles de composición tisular, datos longitudinales de durabilidad, ensayos funcionales mecanísticos para el constructo truncado y una monitorización de seguridad más sólida, especialmente hepática y cardiaca.
Criterios y calificaciones de la rúbrica
Validar LifeSciBench
Validamos LifeSciBench mediante revisión experta independiente. Participaron 453 revisores que no habían redactado las tareas. El 97 % tenía doctorado o equivalente, una media de 12 años de experiencia y 14 publicaciones revisadas por pares; el 88 % había recibido algún premio o beca.
Los revisores puntuaron si cada tarea tenía las cualidades de un buen benchmark: ajuste al trabajo real, evaluación del razonamiento científico y la pericia, base en evidencias o consenso, y utilidad para medir el rendimiento del modelo. El acuerdo superó el 96 % en todas las categorías.
Los comentarios reforzaron las puntuaciones:
Resultados
Presentamos dos métricas complementarias. La tasa de aprobación es el porcentaje de tareas en que un modelo alcanza el umbral de éxito del 70 %. La puntuación es la recompensa media de la rúbrica, que da crédito parcial por criterios individuales aunque no se resuelva toda la tarea. Ambas importan porque una respuesta científica puede ser parcialmente correcta o útil sin cumplir todos los requisitos.
El rendimiento del modelo varía mucho según tipo de tarea, flujo de trabajo y formato de respuesta.
Dónde muestran fortalezas iniciales los sistemas de IA
LifeSciBench muestra que los modelos de frontera destacan más en síntesis científica, comunicación e interpretación estructurada. Las tasas absolutas aún son modestas, pero GPT‑Rosalind avanza frente a GPT‑5.5: la aprobación exacta global sube del 25,7 % al 36,1 %.
Los mayores avances aparecen en Comunicación científica y Traslación. Por ejemplo, Comunicación científica sube del 56,3 % con GPT‑5.5 al 71,1 % con GPT‑Rosalind. La categoría es pequeña (n=9), pero sugiere mejoras rápidas al organizar evidencias y explicar a expertos. Traslación, el proceso «del laboratorio a la práctica clínica» en desarrollo de fármacos, sigue un patrón similar: del 36,8 % con GPT‑5.5 al 57,7 % con GPT‑Rosalind, lo que apunta a mejoras al conectar evidencias preclínicas e implicaciones clínicas.
Los resultados por rúbrica apuntan igual. En tareas que exigen salidas útiles para expertos o accionables, GPT‑Rosalind obtiene un 44,7 %, frente al 29,1 % de GPT‑5.5. En tareas que exigen manejar incertidumbre y cautelas, logra un 44,8 %, frente al 29,3 %. Esto sugiere que los modelos ayudan más cuando la evidencia está bien acotada y se requiere juicio científico estructurado.
GPT‑Rosalind lidera el rendimiento en tareas de valor científico identificadas por expertos de la industria y el ámbito académico.
GPT‑Rosalind lidera el rendimiento en tareas con valor científico identificadas por expertos de la industria y del ámbito académico.
GPT‑Rosalind lidera el rendimiento en tareas con valor científico identificadas por expertos de la industria y del ámbito académico.
Dónde siguen quedándose cortos los sistemas de IA
El rendimiento sigue siendo mucho menor en trabajos con muchos artefactos, mucho diseño o restricciones operativas. Diseño, optimización y predicción sigue entre los flujos más difíciles, con GPT‑Rosalind en el 30,7 % de aprobación; Análisis es similar, con un 30,3 %.
El uso de artefactos es una brecha clara. Aunque GPT‑Rosalind supera a GPT‑5.5 con muchos artefactos, su aprobación cae del 45,1 % en tareas solo de texto al 28,1 % con artefactos o URL. GPT‑5.5 muestra lo mismo: del 29,9 % al 21,9 %. Un análisis más detallado confirma que los modelos de frontera fallan al extraer información de figuras complejas o grandes archivos de secuencias e integrarla en la respuesta final.
Las tasas de aprobación caen cuando las tareas exigen razonamiento basado en fuentes o trabajar con artefactos
El formato de respuesta también importa. Las tareas que exigen salidas exactas de secuencia, estructura o constructo tienen menor aprobación: GPT‑Rosalind llega al 14,8 % en numéricas y al 24,0 % en secuencia o estructura. La generación de constructos también es frágil: GPT‑Rosalind alcanza el 27,3 % y mejora poco frente a GPT‑5.5. Parte de la brecha puede deberse a una calificación más estricta en tareas de respuesta exacta, donde pequeños errores de cálculo o formato impiden aprobar. Aun así, los fallos importan: muchos flujos de ciencias de la vida requieren salidas listas para usar, como en diseño de donantes CRISPR/HDR o de siRNA.
Los modelos también suelen quedarse a medias. En cerca del 14 % de las tareas, obtuvieron mucho crédito de rúbrica pese a no alcanzar la aprobación exacta. Para GPT‑Rosalind, 109 tareas tuvieron menos del 20 % de aprobación y aun así al menos un 50 % de recompensa de rúbrica. En la práctica, pueden detectar evidencias relevantes o dar una respuesta parcial plausible, pero fallar por omitir una restricción, usar evidencias erróneas, calcular de forma incompleta o no vincular el razonamiento a una decisión científica útil.
Limitaciones y próximos pasos
LifeSciBench ayuda a medir la utilidad de los sistemas de IA en ciencias de la vida, pero no sustituye su estudio en entornos de investigación reales. El benchmark se centra en tareas autocontenidas de flujos industriales recurrentes, y deja fuera muchas especialidades y tipos de tarea. La investigación real es iterativa: los científicos reúnen evidencias, revisan hipótesis, diseñan experimentos de seguimiento y ajustan planes según los resultados.
Por tanto, un buen rendimiento en LifeSciBench indica capacidad realista a nivel de tarea, no impacto directo en la investigación posterior. El benchmark se basa en flujos industriales, pero no capta toda la diversidad ni la dinámica de programas de investigación reales, donde el progreso depende de factores que evolucionan.
El siguiente paso es vincular el rendimiento en benchmarks con estudios de despliegue en flujos reales de investigación. Aunque LifeSciBench se creó con científicos en activo, saber si la IA acelera descubrimientos o mejora la I+D exige estudiar el uso y rendimiento de los modelos en investigación real, durante más tiempo y con varias rondas de razonamiento, comentarios y seguimiento experimental.


