Ir al contenido principal
OpenAI

17 de junio de 2026

InvestigaciónPublicación

Presentación de LifeSciBench

Un benchmark escrito y revisado por expertos, basado en la investigación real en ciencias de la vida

Cargando…

Los sistemas de IA con agentes son cada vez más capaces de realizar tareas científicas. Pero su utilidad en ciencias de la vida depende de cómo gestionen la complejidad de la investigación real. Ese trabajo rara vez es una simple pregunta factual o un problema de predicción limpio. Los investigadores interpretan datos incompletos, concilian resultados opuestos, diseñan experimentos, depuran ensayos, evalúan riesgos traslacionales y deciden bajo incertidumbre.

Los benchmarks actuales no captan del todo estas capacidades. Muchas evaluaciones se centran en ámbitos estrechos o habilidades aisladas, con preguntas estructuradas y respuestas de referencia claras. Aunque valiosas, a menudo no miden si un modelo puede ayudar en el trabajo de investigación más amplio.

Diseñamos LifeSciBench para cerrar esa brecha. Cada tarea se basa en el criterio de científicos en activo, con formación doctoral y experiencia en descubrimiento de fármacos en biotecnología y farma.

LifeSciBench reúne 750 tareas de expertos en siete flujos de trabajo y siete dominios biológicos.

1,062

Artefactos de la tarea

173

Científicos colaboradores

19,020

Criterios de la rúbrica

453

Revisores expertos

Qué mide LifeSciBench

LifeSciBench mide si los sistemas de IA apoyan tareas realistas de ciencias de la vida, no solo si responden preguntas de biología. Para definir la taxonomía, encuestamos a científicos sobre los flujos de trabajo que más usan en investigación aplicada. Luego agrupamos sus respuestas en siete categorías: gestión de evidencias, análisis, diseño y optimización, razonamiento científico, validación y operaciones, traslación y comunicación científica.

Cada tarea parece una petición a un colaborador experto: prompt científico, contexto o artefactos relevantes y respuesta libre. Rúbricas de expertos evalúan si un modelo da la respuesta correcta, con el detalle, la justificación, las cautelas y el formato esperados.

Construcción del conjunto de datos

LifeSciBench evalúa el razonamiento científico y las habilidades prácticas necesarias para usar la ciencia en el mundo real. Sus tareas exigen resolver problemas realistas: interpretar evidencias, emitir juicios de dominio y comunicar conclusiones útiles para expertos. Muchas tareas también exigen manejar incertidumbre y razonar sobre archivos de apoyo, no solo sobre el prompt.

El benchmark refleja la complejidad del trabajo en ciencias de la vida. En total, el 79 % de las tareas requiere varios pasos de razonamiento o decisión, con una media de cuatro por tarea. LifeSciBench incluye 1 062 artefactos: figuras, PDF, tablas, secuencias, archivos estructurales o químicos y referencias web. Más de la mitad de las tareas (53 %) exige interpretar o sintetizar información de al menos un artefacto.

Las tareas fueron creadas por 173 científicos expertos de distintas disciplinas. Todos tenían formación doctoral y experiencia en la industria biotecnológica o farmacéutica. Antes de aceptarse, las tareas podían revisarse sin límite de rondas; las aceptadas promediaron seis revisiones automatizadas autodirigidas y al menos dos revisiones expertas. Las revisiones se basaron en una respuesta verificable o en un sólido consenso experto, con al menos un 90 % de acuerdo entre revisores del dominio. Así se aseguró que las tareas fueran científicas, calificables y representativas de la investigación aplicada.

Diagrama que muestra tareas de LifeSciBench que combinan fuentes de datos de ciencias de la vida, como secuencias genómicas, estructuras moleculares, figuras, documentos, hojas de cálculo y enlaces web, con razonamiento de varios pasos y revisión experta.

Calificación y desglose de la rúbrica

Las tareas de LifeSciBench se califican con una rúbrica detallada y específica que divide la respuesta esperada en afirmaciones, cálculos, decisiones, justificaciones, etc. En conjunto, las rúbricas de expertos incluyen 19 020 criterios, una media de 25 por tarea, para medir corrección científica y utilidad investigadora.

El diseño refleja cómo se evalúa la ciencia en la práctica: no basta comprobar la respuesta final. Una respuesta puede acertar la conclusión general y seguir siendo incompleta si omite una limitación clave del ensayo o un matiz biológico importante. A la inversa, una respuesta parcial puede mostrar buen razonamiento aunque no resuelva toda la tarea.

Las rúbricas granulares captan ese matiz. LifeSciBench evalúa no solo la exactitud final, sino si el modelo llega a la respuesta de forma científica y útil.

Extraer, conciliar y auditar pruebas científicas de artículos, figuras, tablas y registros experimentales.

Ejemplo de evaluación

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

  • Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
  • 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
  • Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
  • 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
  • Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
  • Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
  • Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Respuesta candidata

Conclusión clave: tal como se presenta, este paquete no es lo bastante sólido para respaldar la aprobación acelerada basada en la expresión de microdistrofina como punto de acceso sustituto razonablemente probable de predecir beneficio clínico. Un revisor escéptico de la FDA probablemente consideraría que las pruebas de biomarcador, funcionalidad, durabilidad, seguridad y generalizabilidad tienen un respaldo materialmente insuficiente.

Elemento del paquete

Modo de fallo clave

Qué haría falta

Cuantificación por Western blot

MANEX1A se une a un epítopo N-terminal compartido por la distrofina endógena de longitud completa y el transgén de microdistrofina, por lo que el ensayo no distingue claramente el transgén de la distrofina residual/revertante. Cuantificar una microdistrofina de 138 kDa frente a un estándar sano de distrofina de longitud completa también es inválido.

Usar un estándar recombinante de microdistrofina y un método ortogonal que distinga el transgén de la distrofina endógena, como espectrometría de masas dirigida o un ensayo específico de transgén/epítopo.

Inmunofluorescencia

El anticuerpo policlonal C-terminal es poco adecuado porque el constructo de 138 kDa carece del dominio C-terminal. Muchos pacientes con DMD tienen fibras revertantes, y la distrofina revertante puede conservar epítopos C-terminales. Las fibras revertantes pueden expandirse clonalmente con la edad, sesgando la señal IF, especialmente en niños mayores.

Repetir IF con un anticuerpo contra un epítopo presente en el transgén pero ausente de la distrofina revertante. Cuantificar las fibras positivas para transgén por separado de las fibras revertantes.

Validez del punto de acceso sustituto

El paquete confunde la cantidad de proteína con la función clínica. «38 % de la masa proteica de controles sanos» no significa 38 % de función normal de distrofina, porque la microdistrofina está truncada estructuralmente.

Validar empíricamente la relación entre porcentaje de masa de microdistrofina, localización sarcolemal, restauración funcional posterior y beneficio clínico antes de tratar la expresión como punto de acceso sustituto.

Diseño de biopsia

Las biopsias contralaterales pre y postratamiento del vasto lateral introducen variabilidad espacial izquierda-derecha e intramuscular. La progresión de la enfermedad y la sustitución fibrograsa también pueden cambiar la señal normalizada por proteína total.

Estandarizar el sitio de biopsia con referencias anatómicas coherentes, normalizar a proteínas específicas de músculo y medir en paralelo la composición fibrograsa.

Comparador/estadística NSAA

Una cohorte externa de historia natural no es un control concurrente aleatorizado. La elegibilidad del ensayo, los cuidados de apoyo, los efectos de participación, la NSAA basal, el régimen de esteroides, la edad y la clase de exón pueden sesgar la comparación. Una prueba t no apareada no es suficiente. Además, un cambio de +1,4 en NSAA está dentro de la variabilidad test-retest para este grupo de edad.

Realizar un estudio aleatorizado concurrente controlado con placebo o, como mínimo, usar análisis ajustados por NSAA basal, edad, régimen de esteroides, clase de exón y otros factores de confusión.

Confusión por ventana de edad

Los niños de 4–7 años están en una ventana de desarrollo en la que los pacientes ambulatorios con DMD no tratados pueden ganar función motora antes de que predomine el deterioro. Un cambio de NSAA a 48 semanas mezcla ganancia del desarrollo, progresión de la enfermedad y posible efecto del tratamiento.

Usar un control aleatorizado concurrente con estratificación por edad para separar la trayectoria del desarrollo del efecto del tratamiento.

Precedente clínico previo

Las señales funcionales de microdistrofina en estudios abiertos no han predicho de forma fiable el beneficio confirmatorio; el precedente publicado incluye ensayos confirmatorios de terapia génica con microdistrofina que no reprodujeron las mejoras abiertas en NSAA.

No confiar en el cambio de NSAA abierto como respaldo decisivo. Exigir evidencia funcional controlada.

Límites estructurales del constructo

El constructo de 138 kDa elimina las repeticiones de espectrina R16/17, que contienen sitios de unión a nNOS. La pérdida de reclutamiento de nNOS puede deteriorar la simpáticolisis funcional y la protección frente a isquemia durante el ejercicio, creando un techo mecanístico de rescate independiente del nivel de expresión.

Añadir estudios mecanísticos que muestren si este constructo específico restaura la función relevante del complejo asociado a distrofina, la localización de nNOS, la fisiología del ejercicio y la protección muscular.

Durabilidad de AAV

Los genomas vectoriales a las 12 semanas no establecen expresión duradera. Los genomas AAV9 son en gran medida episomas no integradores y pueden disminuir con el tiempo. La persistencia del genoma vectorial no equivale a expresión proteica persistente.

Medir longitudinalmente la expresión proteica del transgén y la durabilidad de biomarcadores funcionales más allá de 12 semanas.

Perfil inmunitario/de seguridad

La transaminitis en 8/12 pacientes es coherente con una respuesta inmunitaria a células transducidas por AAV, pero el mecanismo no está establecido. Un caso de miocarditis es preocupante dado el tropismo cardiaco de AAV9.

Proporcionar monitorización inmunitaria más profunda, caracterización de seguridad hepática/cardiaca y seguimiento cardiaco intensificado.

Selección de pacientes/generalizabilidad

Excluir a pacientes positivos para anticuerpos neutralizantes anti-AAV9 limita la generalizabilidad. Excluir deleciones del exón 44 limita la aplicabilidad a ese subgrupo de DMD. n=12 es demasiado pequeño para caracterizar la seguridad y la eficacia en la población más amplia con DMD.

Ampliar la elegibilidad cuando sea posible o preespecificar análisis estratificados por estado de anticuerpos, genotipo/clase de exón, edad y función basal antes de usar el resultado para respaldar una aprobación amplia.

Conclusión regulatoria: el paquete puede mostrar actividad biológica, pero aún no establece que la expresión medida de microdistrofina sea un sustituto fiable razonablemente probable de predecir beneficio clínico. Las principales brechas son especificidad del ensayo, estándares de cuantificación inválidos, posible confusión por fibras revertantes, falta de control aleatorizado, confusión de NSAA por edad, durabilidad incierta y problemas de seguridad/generalizabilidad no resueltos.

Para cerrar la brecha, el programa necesitaría un diseño clínico controlado y estratificado por edad, con ensayos de expresión específicos de transgén, cuantificación proteica ortogonal, controles de composición tisular, datos longitudinales de durabilidad, ensayos funcionales mecanísticos para el constructo truncado y una monitorización de seguridad más sólida, especialmente hepática y cardiaca.

Criterios y calificaciones de la rúbrica

Criterio
Puntos
Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.
+24
Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.
+22
Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.
+19
Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.
+12
Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.
+15
Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.
+8

Validar LifeSciBench

Validamos LifeSciBench mediante revisión experta independiente. Participaron 453 revisores que no habían redactado las tareas. El 97 % tenía doctorado o equivalente, una media de 12 años de experiencia y 14 publicaciones revisadas por pares; el 88 % había recibido algún premio o beca.

Los revisores puntuaron si cada tarea tenía las cualidades de un buen benchmark: ajuste al trabajo real, evaluación del razonamiento científico y la pericia, base en evidencias o consenso, y utilidad para medir el rendimiento del modelo. El acuerdo superó el 96 % en todas las categorías.

Relevancia en el mundo real

¿Refleja esta tarea el trabajo realista de las ciencias de la vida en el mundo real?

Totalmente de acuerdo
90.4%
De acuerdo en general
98.3%

Razonamiento científico / competencia del dominio

¿Evalúa y califica esta tarea el razonamiento científico y las competencias adecuadas del ámbito de las ciencias de la vida?

Totalmente de acuerdo
86.4%
De acuerdo en general
98.1%

Fundamentación científica

¿Está esta tarea fundamentada científicamente, es respondible y se apoya en evidencias, datos, artefactos o consenso experto adecuados?

Totalmente de acuerdo
77.1%
De acuerdo en general
96.5%

Utilidad general

En conjunto, ¿es esta una tarea sólida de evaluación en ciencias de la vida?

Totalmente de acuerdo
79.1%
De acuerdo en general
96.6%

Los comentarios reforzaron las puntuaciones:

1 de 3
En conjunto, es una tarea sólida porque tiene una interpretación central correcta, pero deja margen para distinguir las mejores respuestas según el cuidado con que acoten la incertidumbre.

Resultados

Presentamos dos métricas complementarias. La tasa de aprobación es el porcentaje de tareas en que un modelo alcanza el umbral de éxito del 70 %. La puntuación es la recompensa media de la rúbrica, que da crédito parcial por criterios individuales aunque no se resuelva toda la tarea. Ambas importan porque una respuesta científica puede ser parcialmente correcta o útil sin cumplir todos los requisitos.

El rendimiento del modelo varía mucho según tipo de tarea, flujo de trabajo y formato de respuesta.

Dónde muestran fortalezas iniciales los sistemas de IA

LifeSciBench muestra que los modelos de frontera destacan más en síntesis científica, comunicación e interpretación estructurada. Las tasas absolutas aún son modestas, pero GPT‑Rosalind avanza frente a GPT‑5.5: la aprobación exacta global sube del 25,7 % al 36,1 %.

Los mayores avances aparecen en Comunicación científica y Traslación. Por ejemplo, Comunicación científica sube del 56,3 % con GPT‑5.5 al 71,1 % con GPT‑Rosalind. La categoría es pequeña (n=9), pero sugiere mejoras rápidas al organizar evidencias y explicar a expertos. Traslación, el proceso «del laboratorio a la práctica clínica» en desarrollo de fármacos, sigue un patrón similar: del 36,8 % con GPT‑5.5 al 57,7 % con GPT‑Rosalind, lo que apunta a mejoras al conectar evidencias preclínicas e implicaciones clínicas.

Los resultados por rúbrica apuntan igual. En tareas que exigen salidas útiles para expertos o accionables, GPT‑Rosalind obtiene un 44,7 %, frente al 29,1 % de GPT‑5.5. En tareas que exigen manejar incertidumbre y cautelas, logra un 44,8 %, frente al 29,3 %. Esto sugiere que los modelos ayudan más cuando la evidencia está bien acotada y se requiere juicio científico estructurado.

GPT‑Rosalind lidera el rendimiento en tareas de valor científico identificadas por expertos de la industria y el ámbito académico.

GPT‑Rosalind lidera el rendimiento en tareas con valor científico identificadas por expertos de la industria y del ámbito académico.

GPT‑Rosalind lidera el rendimiento en tareas con valor científico identificadas por expertos de la industria y del ámbito académico.

Dónde siguen quedándose cortos los sistemas de IA

El rendimiento sigue siendo mucho menor en trabajos con muchos artefactos, mucho diseño o restricciones operativas. Diseño, optimización y predicción sigue entre los flujos más difíciles, con GPT‑Rosalind en el 30,7 % de aprobación; Análisis es similar, con un 30,3 %.

El uso de artefactos es una brecha clara. Aunque GPT‑Rosalind supera a GPT‑5.5 con muchos artefactos, su aprobación cae del 45,1 % en tareas solo de texto al 28,1 % con artefactos o URL. GPT‑5.5 muestra lo mismo: del 29,9 % al 21,9 %. Un análisis más detallado confirma que los modelos de frontera fallan al extraer información de figuras complejas o grandes archivos de secuencias e integrarla en la respuesta final.

Las tasas de aprobación caen cuando las tareas exigen razonamiento basado en fuentes o trabajar con artefactos

El formato de respuesta también importa. Las tareas que exigen salidas exactas de secuencia, estructura o constructo tienen menor aprobación: GPT‑Rosalind llega al 14,8 % en numéricas y al 24,0 % en secuencia o estructura. La generación de constructos también es frágil: GPT‑Rosalind alcanza el 27,3 % y mejora poco frente a GPT‑5.5. Parte de la brecha puede deberse a una calificación más estricta en tareas de respuesta exacta, donde pequeños errores de cálculo o formato impiden aprobar. Aun así, los fallos importan: muchos flujos de ciencias de la vida requieren salidas listas para usar, como en diseño de donantes CRISPR/HDR o de siRNA.

Los modelos también suelen quedarse a medias. En cerca del 14 % de las tareas, obtuvieron mucho crédito de rúbrica pese a no alcanzar la aprobación exacta. Para GPT‑Rosalind, 109 tareas tuvieron menos del 20 % de aprobación y aun así al menos un 50 % de recompensa de rúbrica. En la práctica, pueden detectar evidencias relevantes o dar una respuesta parcial plausible, pero fallar por omitir una restricción, usar evidencias erróneas, calcular de forma incompleta o no vincular el razonamiento a una decisión científica útil.

Limitaciones y próximos pasos

LifeSciBench ayuda a medir la utilidad de los sistemas de IA en ciencias de la vida, pero no sustituye su estudio en entornos de investigación reales. El benchmark se centra en tareas autocontenidas de flujos industriales recurrentes, y deja fuera muchas especialidades y tipos de tarea. La investigación real es iterativa: los científicos reúnen evidencias, revisan hipótesis, diseñan experimentos de seguimiento y ajustan planes según los resultados.

Por tanto, un buen rendimiento en LifeSciBench indica capacidad realista a nivel de tarea, no impacto directo en la investigación posterior. El benchmark se basa en flujos industriales, pero no capta toda la diversidad ni la dinámica de programas de investigación reales, donde el progreso depende de factores que evolucionan.

El siguiente paso es vincular el rendimiento en benchmarks con estudios de despliegue en flujos reales de investigación. Aunque LifeSciBench se creó con científicos en activo, saber si la IA acelera descubrimientos o mejora la I+D exige estudiar el uso y rendimiento de los modelos en investigación real, durante más tiempo y con varias rondas de razonamiento, comentarios y seguimiento experimental.

Participa

Ayuda a dar forma a la próxima generación de benchmarks de IA para ciencias de la vida o solicita acceso a GPT-Rosalind.

Autor

OpenAI