Presentamos LifeSciBench
Un banco de pruebas escrito y revisado por especialistas, basado en investigación real de ciencias de la vida
Los sistemas de IA con agentes hacen cada vez más tareas científicas. Pero su utilidad para las ciencias de la vida depende de cómo manejen la complejidad de la investigación real. Ese trabajo rara vez es una pregunta de memoria o una predicción simple. Los investigadores interpretan evidencia incompleta, concilian resultados contradictorios, diseñan experimentos difíciles, depuran ensayos, evalúan riesgos traslacionales y deciden con incertidumbre.
Los bancos de pruebas actuales no capturan bien estas capacidades. Muchas evaluaciones se centran en dominios estrechos o habilidades aisladas, con preguntas estructuradas y respuestas de referencia claras. Aunque son valiosas, no suelen medir si un modelo puede aportar en el trabajo de investigación más amplio.
Diseñamos LifeSciBench para cerrar esa brecha. Cada tarea se basa en el criterio de científicos en ejercicio, con doctorado y experiencia directa en descubrimiento de fármacos en biotecnología y farmacéutica.
LifeSciBench incluye 750 tareas de especialistas en siete flujos de trabajo y siete dominios biológicos.
1,062
Artefactos de la tarea
173
Científicos colaboradores
19,020
Criterios de la rúbrica
453
Revisores especialistas
Qué mide LifeSciBench
LifeSciBench mide si los sistemas de IA pueden apoyar investigación realista en ciencias de la vida, no solo responder biología. Para definir la taxonomía, encuestamos a científicos sobre los flujos que más usan en investigación aplicada. Luego agrupamos sus respuestas en siete categorías: manejo de evidencia, análisis, diseño y optimización, razonamiento científico, validación y operaciones, traslación y comunicación científica.
Cada tarea se formula como una solicitud a un colaborador experto: prompt científico, contexto o artefactos relevantes y respuesta libre. Rúbricas de especialistas evalúan si el modelo da la respuesta correcta, con el detalle, la justificación, las salvedades y el formato esperados por un científico.
Construcción del conjunto de datos
LifeSciBench evalúa el razonamiento científico junto con habilidades prácticas menos definidas, necesarias en usos científicos reales. Sus tareas piden a los modelos resolver problemas realistas: interpretar evidencia, emitir juicios de dominio y comunicar conclusiones útiles para especialistas. Muchas también exigen manejar incertidumbre y razonar sobre archivos de apoyo, no solo sobre el texto del prompt.
El banco de pruebas refleja la complejidad del trabajo en ciencias de la vida. En total, el 79 % de las tareas requiere varios pasos de razonamiento o decisión, con un promedio de cuatro por tarea. LifeSciBench incluye 1062 artefactos: figuras, PDF, tablas, secuencias, archivos estructurales o químicos y referencias web. Más de la mitad de las tareas (53 %) exige interpretar o sintetizar información de al menos un artefacto.
Las tareas fueron creadas por 173 especialistas de distintas disciplinas de ciencias de la vida. Todos tenían doctorado y experiencia en biotecnología o farmacéutica. Las tareas podían revisarse cuantas veces fuera necesario antes de aceptarse; las aceptadas promediaron seis revisiones automatizadas autodirigidas y al menos dos rondas de revisión experta. Las revisiones se basaron en una respuesta verificable o en un consenso experto sólido, con al menos un 90 % de acuerdo en el dominio relevante. Así se buscó asegurar que las tareas fueran científicas, calificables y representativas de la investigación aplicada.
Calificación y desglose de la rúbrica
Las tareas de LifeSciBench se califican con una rúbrica detallada y específica que desglosa la respuesta en afirmaciones, cálculos, decisiones, justificaciones y otros elementos. En todo el banco de pruebas, las rúbricas de especialistas incluyen 19 020 criterios —25 por tarea en promedio— para evaluar la corrección científica y la utilidad en decisiones de investigación.
El diseño refleja cómo se evalúa la ciencia en la práctica: muchas tareas no pueden calificarse solo por la respuesta final. Una respuesta puede llegar a la conclusión general correcta y aun así ser incompleta si omite una limitación clave del ensayo o un matiz biológico importante. A la inversa, una respuesta parcial puede mostrar buen razonamiento aunque no resuelva toda la tarea.
Las rúbricas granulares capturan ese matiz. LifeSciBench evalúa no solo la exactitud final, sino si el modelo llega a ella de forma científicamente válida y operativamente útil.
Extraer, conciliar y auditar evidencia científica de artículos, figuras, tablas y registros experimentales.
Ejemplo de Eval
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
Respuesta del candidato o la candidata
Conclusión principal: tal como se presenta, este paquete no es lo bastante sólido para respaldar la aprobación acelerada basada en la expresión de microdistrofina como criterio de valoración sustituto razonablemente probable de predecir beneficio clínico. Un revisor escéptico de la FDA probablemente consideraría que la evidencia sobre biomarcador, función, durabilidad, seguridad y generalizabilidad está materialmente insuficientemente respaldada.
Elemento del paquete | Modo clave de falla | Qué se necesitaría |
|---|---|---|
Cuantificación por Western blot | MANEX1A se une a un epítopo N-terminal compartido por la distrofina endógena de longitud completa y el transgén de microdistrofina, por lo que el ensayo no distingue limpiamente el transgén de la distrofina residual/revertante. Cuantificar una microdistrofina de 138 kDa contra un estándar sano de distrofina de longitud completa también es inválido. | Usar un estándar recombinante de microdistrofina y un método ortogonal que distinga el transgén de la distrofina endógena, como espectrometría de masas dirigida o un ensayo específico de transgén/epítopo. |
Inmunofluorescencia | El anticuerpo policlonal C-terminal es poco adecuado porque el constructo de 138 kDa carece del dominio C-terminal. Muchos pacientes con DMD tienen fibras revertantes, y la distrofina revertante puede conservar epítopos C-terminales. Las fibras revertantes pueden expandirse clonalmente con la edad, sesgando la señal de IF, especialmente en niños mayores. | Repetir IF con un anticuerpo contra un epítopo presente en el transgén pero ausente de la distrofina revertante. Cuantificar las fibras positivas al transgén por separado de las fibras revertantes. |
Validez del criterio de valoración sustituto | El paquete confunde cantidad de proteína con función clínica. “38 % de la masa proteica de controles sanos” no significa 38 % de la función normal de distrofina, porque la microdistrofina está truncada estructuralmente. | Validar empíricamente la relación entre porcentaje de masa de microdistrofina, localización sarcolemal, restauración funcional descendente y beneficio clínico antes de tratar la expresión como criterio de valoración sustituto. |
Diseño de biopsias | Las biopsias contralaterales del vasto lateral antes y después del tratamiento introducen variabilidad espacial izquierda-derecha e intramuscular. La progresión de la enfermedad y el reemplazo fibrograso también pueden cambiar la señal normalizada por proteína total. | Estandarizar el sitio de biopsia usando puntos anatómicos constantes, normalizar a proteínas específicas de músculo y medir en paralelo la composición fibrograsa. |
Comparador/estadística de NSAA | Una cohorte externa de historia natural no es un control concurrente aleatorizado. La elegibilidad del ensayo, la atención de apoyo, los efectos de participación, la NSAA basal, el régimen de esteroides, la edad y la clase de exón pueden sesgar la comparación. Una prueba t no pareada no es suficiente. Además, un cambio de +1,4 en NSAA está dentro de la variabilidad prueba-reprueba para este grupo etario. | Realizar un estudio aleatorizado concurrente controlado con placebo, o como mínimo usar análisis ajustados que consideren NSAA basal, edad, régimen de esteroides, clase de exón y otros factores de confusión. |
Confusión por ventana de edad | Los niños de 4 a 7 años están en una ventana del desarrollo donde los pacientes ambulatorios con DMD no tratados pueden ganar función motora antes de que predomine el deterioro. Un cambio de NSAA a 48 semanas mezcla ganancia del desarrollo, progresión de la enfermedad y posible efecto del tratamiento. | Usar un control aleatorizado concurrente con estratificación por edad para separar la trayectoria del desarrollo del efecto del tratamiento. |
Precedente clínico previo | Las señales funcionales de microdistrofina en estudios abiertos no han predicho de forma confiable el beneficio confirmatorio; el precedente publicado incluye ensayos confirmatorios de terapia génica con microdistrofina que no reprodujeron mejoras abiertas de NSAA. | No depender del cambio abierto de NSAA como respaldo decisivo. Exigir evidencia funcional controlada. |
Límites estructurales del constructo | El constructo de 138 kDa elimina las repeticiones de espectrina R16/17, que contienen sitios de unión a nNOS. La pérdida de reclutamiento de nNOS puede afectar la simpatólisis funcional y la protección contra isquemia durante el ejercicio, creando un techo mecanístico de rescate independiente del nivel de expresión. | Agregar estudios mecanísticos que muestren si este constructo específico restaura la función relevante del complejo asociado a distrofina, la localización de nNOS, la fisiología del ejercicio y la protección muscular. |
Durabilidad de AAV | Los genomas vectoriales a las 12 semanas no establecen expresión durable. Los genomas de AAV9 son en gran medida episomas no integradores y pueden disminuir con el tiempo. La persistencia del genoma vectorial no es lo mismo que la expresión proteica persistente. | Medir longitudinalmente la expresión proteica del transgén y la durabilidad de biomarcadores funcionales más allá de 12 semanas. |
Perfil inmunitario/de seguridad | La transaminitis en 8/12 pacientes es consistente con una respuesta inmunitaria a células transducidas por AAV, pero el mecanismo no está establecido. Un caso de miocarditis es preocupante dado el tropismo cardíaco de AAV9. | Proporcionar monitoreo inmunitario más profundo, caracterización de seguridad hepática/cardiaca y seguimiento cardiaco intensificado. |
Selección de pacientes/generalizabilidad | Excluir pacientes positivos para anticuerpos neutralizantes anti-AAV9 limita la generalizabilidad. Excluir deleciones del exón 44 limita la aplicabilidad a ese subgrupo de DMD. n=12 es demasiado pequeño para caracterizar seguridad y eficacia en la población DMD más amplia. | Ampliar la elegibilidad cuando sea posible o preespecificar análisis estratificados por estado de anticuerpos, genotipo/clase de exón, edad y función basal antes de usar el resultado para respaldar una aprobación amplia. |
Conclusión regulatoria: el paquete puede mostrar actividad biológica, pero aún no establece que la expresión medida de microdistrofina sea un sustituto confiable razonablemente probable de predecir beneficio clínico. Las principales brechas son especificidad del ensayo, estándares de cuantificación inválidos, posible confusión por fibras revertantes, falta de control aleatorizado, confusión de NSAA relacionada con edad, durabilidad incierta y problemas no resueltos de seguridad/generalizabilidad.
Para cerrar la brecha, el programa necesitaría un diseño clínico controlado y estratificado por edad con ensayos de expresión específicos del transgén, cuantificación proteica ortogonal, controles de composición tisular, datos longitudinales de durabilidad, ensayos funcionales mecanísticos para el constructo truncado y monitoreo de seguridad más sólido, especialmente hepático y cardiaco.
Criterios y calificaciones de las rúbricas
Validación de LifeSciBench
Validamos LifeSciBench con una revisión experta independiente. Participaron 453 revisores ajenos a la redacción de las tareas. El 97 % tenía doctorado o equivalente, con 12 años de experiencia y 14 publicaciones revisadas por pares en promedio; el 88 % reportó al menos un premio o beca.
Los revisores calificaron si cada tarea tenía las cualidades de una buena pregunta de banco de pruebas: alineación con investigación real, evaluación adecuada del razonamiento científico y la experiencia de dominio, fundamento en evidencia o consenso experto, y utilidad para medir el desempeño del modelo. El acuerdo superó el 96 % en todas las categorías.
Los comentarios reforzaron las calificaciones cuantitativas:
Resultados
Reportamos dos métricas complementarias. La tasa de aprobación es el porcentaje de tareas en que un modelo alcanza el umbral de éxito del 70 %. La puntuación es la recompensa promedio de la rúbrica, con crédito parcial por criterios individuales aunque la tarea no se resuelva por completo. Ambas importan porque una respuesta científica puede ser parcialmente correcta o útil sin cumplir todos los requisitos.
El desempeño del modelo varía mucho según el tipo de tarea, el flujo de trabajo y el formato de respuesta.
Dónde los sistemas de IA ya muestran fortalezas
LifeSciBench muestra que los modelos de vanguardia destacan más en síntesis científica, comunicación e interpretación estructurada. Las tasas absolutas siguen siendo modestas, por lo que estos dominios no están saturados; aun así, GPT‑Rosalind avanza frente a GPT‑5.5: la aprobación exacta general sube de 25.7 % a 36.1 %.
El mayor progreso aparece en Comunicación científica y Traslación. Por ejemplo, la aprobación en Comunicación científica sube de 56,3 % con GPT‑5.5 a 71,1 % con GPT‑Rosalind; la categoría es pequeña (n=9) y debe leerse con cautela, pero sugiere avances rápidos para organizar evidencia y producir explicaciones convincentes para especialistas. Traslación (el proceso “del laboratorio a la clínica” en desarrollo de fármacos) sigue un patrón similar: sube de 36,8 % con GPT‑5.5 a 57,7 % con GPT‑Rosalind, lo que sugiere mejoras rápidas para conectar evidencia preclínica con implicaciones clínicas.
Los resultados por rúbrica apuntan en la misma dirección. En tareas que exigen resultados útiles para especialistas o accionables, GPT‑Rosalind logra 44,7 %, frente a 29,1 % de GPT‑5.5. En manejo de incertidumbre y salvedades, obtiene 44,8 %, frente a 29,3 %. El patrón sugiere que los modelos son más útiles cuando la evidencia está bien delimitada y la tarea exige juicio científico estructurado.
GPT‑Rosalind lidera el desempeño en tareas de valor científico identificadas por especialistas de la industria y la academia.
GPT‑Rosalind lidera el rendimiento en tareas de valor científico identificadas por expertos de la industria y la academia.
GPT‑Rosalind lidera el rendimiento en tareas de valor científico identificadas por expertos de la industria y la academia.
Dónde los sistemas de IA aún se quedan cortos
El desempeño sigue siendo mucho más débil en trabajos con muchos artefactos, mucho diseño o restricciones operativas. Diseño, optimización y predicción siguen entre los flujos más difíciles: GPT‑Rosalind aprueba 30.7 %; Análisis es similar, con 30.3 %.
El uso de artefactos es una brecha especialmente clara. Aunque GPT‑Rosalind supera a GPT‑5.5 con muchos artefactos, su aprobación cae de 45.1 % en tareas solo de texto a 28.1 % con artefactos o URL. GPT‑5.5 muestra lo mismo: cae de 29.9 % a 21.9 %. Un análisis más detallado confirma que los modelos de vanguardia tienen problemas para extraer datos de figuras complejas o grandes archivos de secuencias e integrarlos en la respuesta final.
Las tasas de aprobación bajan cuando las tareas requieren razonamiento basado en fuentes o trabajo con artefactos.
El formato de respuesta también importa. Las tareas que exigen salidas exactas de secuencia, estructura o constructo tienen menor aprobación: GPT‑Rosalind alcanza solo 14.8 % en tareas numéricas y 24.0 % en secuencias o estructuras. Generar constructos también es frágil: GPT‑Rosalind obtiene 27.3 % y mejora poco frente a GPT‑5.5. Parte de la brecha puede deberse a una calificación más estricta en tareas de respuesta exacta, donde pequeños errores de cálculo o formato pueden dejar la respuesta bajo el umbral. Aun así, estas fallas son relevantes porque muchos flujos de ciencias de la vida requieren salidas listas para usar, como en diseño de donantes CRISPR/HDR o de siRNA.
Los modelos también suelen acercarse sin resolver la tarea completa. En cerca del 14 % de las tareas, obtuvieron crédito sustancial en la rúbrica pese a no alcanzar la aprobación exacta. Para GPT‑Rosalind, 109 tareas tuvieron una tasa de aprobación inferior al 20 % y aun así lograron al menos un 50 % de recompensa de rúbrica. En la práctica, los modelos pueden identificar evidencia relevante o dar una respuesta parcial plausible, pero fallar por omitir una restricción, usar evidencia incorrecta, calcular de forma incompleta o no convertir el razonamiento en una decisión científica útil.
Limitaciones y próximos pasos
LifeSciBench ayuda a medir la utilidad de los sistemas de IA para investigar en ciencias de la vida, pero no sustituye estudiar modelos en entornos reales. El banco de pruebas se centra en tareas autocontenidas de flujos industriales recurrentes y deja fuera muchas especialidades y tipos de tarea. La investigación real es iterativa: los científicos reúnen evidencia, revisan hipótesis, diseñan seguimientos y adaptan planes según los resultados.
Por eso, un buen desempeño en LifeSciBench debe leerse como capacidad realista a nivel de tarea, no como medida directa del impacto posterior. El banco de pruebas se basa en flujos industriales, pero no captura toda la diversidad ni la dinámica de programas de investigación reales, donde el progreso depende de factores que evolucionan.
El siguiente paso es conectar el desempeño en bancos de pruebas con estudios de implementación en flujos de investigación reales. Aunque LifeSciBench se creó con científicos en ejercicio, medir si los sistemas de IA aceleran descubrimientos o mejoran la I+D exigirá estudiar el uso y desempeño de los modelos en investigación real, durante más tiempo y a través de varias rondas de razonamiento, retroalimentación y seguimiento experimental.


