17 de junho de 2026

Apresentando o LifeSciBench

Um benchmark escrito e revisado por especialistas, baseado em pesquisa real em ciências da vida

Carregando…

Sistemas de IA agêntica estão cada vez mais aptos a executar tarefas científicas. Mas sua utilidade para pesquisadores de ciências da vida depende de como lidam com a complexidade da pesquisa real. Esse trabalho raramente é uma simples pergunta factual ou um problema de previsão bem definido. Pesquisadores interpretam evidências incompletas, conciliam resultados conflitantes, desenham experimentos difíceis, corrigem ensaios, avaliam risco translacional e decidem o próximo passo sob incerteza.

Os benchmarks atuais não capturam totalmente essas capacidades. Muitas avaliações em ciências da vida focam domínios estreitos ou habilidades isoladas, com perguntas estruturadas e respostas de referência limpas. Embora valiosas, muitas não avaliam de fato se um modelo pode contribuir no amplo trabalho de pesquisa.

Criamos o LifeSciBench para ajudar a fechar essa lacuna. Cada tarefa se baseia no julgamento de cientistas da vida atuantes, com formação de Ph.D. e experiência direta em programas de descoberta de fármacos em biotecnologia e farmacêuticas.

O LifeSciBench reúne 750 tarefas criadas por especialistas, em sete fluxos de trabalho e sete domínios biológicos.

1,062

Artefatos da tarefa

173

Cientistas colaboradores

19,020

Critérios da rubrica

453

Revisores especialistas

O que o LifeSciBench mede

O LifeSciBench mede se sistemas de AI conseguem apoiar tarefas realistas de pesquisa em ciências da vida, não só responder a perguntas de biologia. Para definir a taxonomia do benchmark, entrevistamos cientistas da vida sobre os fluxos que mais usam em pesquisa aplicada. Agrupamos as respostas em sete categorias recorrentes: manejo de evidências, análise, design e otimização, raciocínio científico, validação e operações, translação e comunicação científica.

Cada tarefa segue o formato de um pedido a um colaborador experiente: prompt científico, contexto ou artefatos relevantes e resposta livre. Rubricas de especialistas avaliam se um modelo dá a resposta certa para o problema, com o detalhe, a justificativa, as ressalvas e o formato esperados por um cientista.

Construção do conjunto de dados

O LifeSciBench avalia o raciocínio científico e as habilidades práticas, menos definidas, necessárias ao uso científico real. Suas tarefas pedem que modelos resolvam problemas realistas: interpretar evidências, fazer julgamentos fundamentados e comunicar conclusões úteis a revisores especialistas. Muitas também exigem lidar com incerteza e raciocinar sobre arquivos de apoio, não apenas sobre o texto do prompt.

O benchmark foi desenhado para refletir a complexidade das ciências da vida. No total, 79% das tarefas exigem várias etapas de raciocínio ou decisão, com média de quatro por tarefa. O LifeSciBench inclui 1.062 artefatos anexos, como figuras, PDFs, tabelas, sequências, estruturas, arquivos químicos e referências web. Mais da metade das tarefas (53%) exige interpretar ou sintetizar informações de pelo menos um artefato.

As tarefas foram criadas por 173 cientistas especialistas de várias disciplinas das ciências da vida. Todos tinham formação de Ph.D. e experiência na indústria biotecnológica ou farmacêutica. Antes da aceitação, as tarefas podiam passar por quantas revisões fossem necessárias, sem limite de rodadas; as aceitas tiveram em média seis ciclos automatizados autodirigidos e ao menos duas revisões por especialistas. As revisões se apoiaram em resposta correta verificável ou forte consenso de especialistas, com pelo menos 90% de concordância entre revisores do domínio. O processo ajudou a garantir tarefas com base científica, avaliáveis com clareza e representativas da pesquisa aplicada.

Diagrama mostrando tarefas do LifeSciBench que combinam fontes de dados de ciências da vida, como sequências genômicas, estruturas moleculares, figuras, documentos, planilhas e links da web, com raciocínio em várias etapas e revisão por especialistas.

Avaliação e detalhamento da rubrica

As tarefas do LifeSciBench são avaliadas por uma rubrica detalhada e específica, que divide a resposta esperada em afirmações científicas, cálculos, decisões, justificativas e outros itens. No benchmark, as rubricas de especialistas somam 19.020 critérios — média de 25 por tarefa — para avaliar correção científica e utilidade para decisões de pesquisa.

Esse desenho reflete a prática científica: muitas tarefas em ciências da vida não podem ser avaliadas só pela resposta final. Uma resposta pode chegar à conclusão geral correta e ainda ser incompleta se ignorar, por exemplo, uma limitação importante do ensaio ou uma nuance biológica crucial. Por outro lado, uma resposta parcial pode conter raciocínio de alta qualidade mesmo sem resolver toda a tarefa.

As rubricas granulares capturam essa nuance. O LifeSciBench avalia não só a precisão final, mas se o modelo chega à resposta de modo cientificamente válido e operacionalmente útil.

Extração, reconciliação e auditoria de evidências científicas de artigos, figuras, tabelas e registros experimentais.

Exemplo de avaliação

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Resposta do candidato

Conclusão principal: Como apresentado, este pacote não é forte o suficiente para sustentar aprovação acelerada com base na expressão de microdistrofina como endpoint substituto razoavelmente provável de prever benefício clínico. Um revisor cético da FDA provavelmente veria as evidências de biomarcador, função, durabilidade, segurança e generalizabilidade como materialmente insuficientes.

Item do pacote	Principal modo de falha	O que seria necessário
Quantificação por Western blot	MANEX1A liga um epítopo N-terminal compartilhado pela distrofina endógena de comprimento total e pelo transgene de microdistrofina, de modo que o ensaio não distingue claramente transgene de distrofina residual/revertente. Quantificar uma microdistrofina de 138 kDa contra um padrão saudável de distrofina de comprimento total também é inválido.	Use um padrão recombinante de microdistrofina e um método ortogonal que distinga transgene de distrofina endógena, como espectrometria de massa direcionada ou um ensaio específico de transgene/epítopo.
Imunofluorescência	O anticorpo policlonal C-terminal é pouco adequado porque o construto de 138 kDa carece do domínio C-terminal. Muitos pacientes com DMD têm fibras revertentes, e a distrofina revertente pode reter epítopos C-terminais. Fibras revertentes podem se expandir clonalmente com a idade, enviesando o sinal de IF, especialmente em meninos mais velhos.	Repita a IF com um anticorpo contra um epítopo presente no transgene, mas ausente da distrofina revertente. Quantifique fibras positivas para transgene separadamente das fibras revertentes.
Validade do endpoint substituto	O pacote confunde quantidade de proteína com função clínica. “38% da massa proteica de controle saudável” não significa 38% da função normal da distrofina, porque a microdistrofina é estruturalmente truncada.	Valide empiricamente a relação entre percentual de massa de microdistrofina, localização sarcolemal, restauração funcional a jusante e benefício clínico antes de tratar a expressão como endpoint substituto.
Desenho de biópsia	Biópsias contralaterais do vasto lateral pré e pós-tratamento introduzem variabilidade esquerda-direita e espacial intramuscular. A progressão da doença e a substituição fibro-gordurosa também podem alterar o sinal normalizado por proteína total.	Padronize o local da biópsia usando marcos anatômicos consistentes, normalize para proteínas específicas de músculo e meça em paralelo a composição fibro-gordurosa.
Comparador/estatística de NSAA	Uma coorte externa de história natural não é um controle concorrente randomizado. Elegibilidade do estudo, cuidados de suporte, efeitos de participação, NSAA basal, regime de esteroides, idade e classe de éxon podem enviesar a comparação. Um teste t não pareado não é suficiente. Além disso, uma mudança de +1,4 no NSAA está dentro da variabilidade teste-reteste para esse grupo etário.	Conduza um estudo randomizado concorrente controlado por placebo ou, no mínimo, use análises ajustadas que considerem NSAA basal, idade, regime de esteroides, classe de éxon e outros fatores de confusão.
Confundimento por janela etária	Meninos de 4 a 7 anos estão em uma janela de desenvolvimento na qual pacientes ambulatórios com DMD não tratados podem ganhar função motora antes que o declínio predomine. Uma mudança de NSAA em 48 semanas mistura ganho de desenvolvimento, progressão da doença e possível efeito do tratamento.	Use um controle randomizado concorrente com estratificação por idade para separar a trajetória de desenvolvimento do efeito do tratamento.
Precedente clínico anterior	Resultados funcionais de microdistrofina em estudos abertos não previram de forma confiável benefício confirmatório; precedentes publicados incluem ensaios confirmatórios de terapia gênica com microdistrofina que falharam em reproduzir melhorias no NSAA observadas em estudos abertos.	Não se baseie em mudança de NSAA observada em estudo aberto como suporte decisivo. Exija evidência funcional controlada.
Limites estruturais do construto	O construto de 138 kDa remove as repetições de espectrina R16/17, que contêm sítios de ligação de nNOS. A perda de recrutamento de nNOS pode prejudicar a simpatólise funcional e a proteção contra isquemia durante exercício, criando um teto mecanístico para o resgate independente do nível de expressão.	Adicione estudos mecanísticos que mostrem se esse construto específico restaura a função relevante do complexo associado à distrofina, localização de nNOS, fisiologia do exercício e proteção muscular.
Durabilidade do AAV	Genomas vetoriais em 12 semanas não estabelecem expressão durável. Genomas de AAV9 são em grande parte epissomos não integrativos e podem diminuir com o tempo. Persistência de genoma vetorial não é o mesmo que expressão proteica persistente.	Meça longitudinalmente a expressão proteica do transgene e a durabilidade de biomarcadores funcionais além de 12 semanas.
Perfil imune/de segurança	Transaminite em 8/12 pacientes é consistente com resposta imune a células transduzidas por AAV, mas o mecanismo não está estabelecido. Um caso de miocardite é preocupante dado o tropismo cardíaco do AAV9.	Forneça monitoramento imune mais profundo, caracterização de segurança hepática/cardíaca e acompanhamento cardíaco intensificado.
Seleção de pacientes/generalizabilidade	Excluir pacientes positivos para anticorpos neutralizantes anti-AAV9 limita a generalizabilidade. Excluir deleções do éxon 44 limita a aplicabilidade a esse subgrupo de DMD. n=12 é pequeno demais para caracterizar segurança e eficácia na população mais ampla de DMD.	Amplie a elegibilidade quando possível ou pré-especifique análises estratificadas por status de anticorpos, genótipo/classe de éxon, idade e função basal antes de usar o resultado para apoiar aprovação ampla.

Conclusão regulatória: O pacote pode mostrar atividade biológica, mas ainda não estabelece que a expressão medida de microdistrofina seja um substituto confiável e razoavelmente provável de prever benefício clínico. As principais lacunas são especificidade do ensaio, padrões de quantificação inválidos, possível confundimento por fibras revertentes, ausência de controle randomizado, confundimento de NSAA relacionado à idade, durabilidade incerta e questões não resolvidas de segurança/generalizabilidade.

Para fechar a lacuna, o programa precisaria de um desenho clínico controlado e estratificado por idade, com ensaios de expressão específicos do transgene, quantificação proteica ortogonal, controles de composição tecidual, dados longitudinais de durabilidade, ensaios funcionais mecanísticos para o construto truncado e monitoramento de segurança mais forte, especialmente hepático e cardíaco.

Critérios e notas de avaliação

Critério

Pontos

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

Validação do LifeSciBench

Validamos o LifeSciBench por revisão independente de especialistas. O feedback veio de 453 revisores que não escreveram as tarefas. Desses revisores, 97% tinham Ph.D. ou doutorado equivalente, média de 12 anos de experiência e 14 publicações revisadas por pares; 88% relataram ao menos um prêmio ou bolsa.

Os revisores avaliaram se cada tarefa tinha as qualidades de uma boa pergunta de benchmark: alinhamento com a pesquisa real, teste adequado de raciocínio científico e expertise de domínio, base em evidências ou consenso e utilidade para medir o desempenho do modelo. A concordância superou 96% em todas as categorias.

Relevância no mundo real

Esta tarefa reflete o trabalho realista em ciências da vida no mundo real?

Concordo totalmente: 90.4%
Concordo em geral: 98.3%

Raciocínio científico / habilidade de domínio

Esta tarefa testa e avalia o raciocínio científico e as habilidades de domínio em ciências da vida corretos?

Concordo totalmente: 86.4%
Concordo em geral: 98.1%

Fundamentação científica

Esta tarefa tem base científica, é respondível e está ancorada em evidências, dados, artefatos ou consenso de especialistas apropriados?

Concordo totalmente: 77.1%
Concordo em geral: 96.5%

Utilidade geral

No geral, esta é uma tarefa sólida de avaliação em ciências da vida?

Concordo totalmente: 79.1%
Concordo em geral: 96.6%

Os comentários dos revisores reforçaram as notas quantitativas:

1 de 3

“No geral, é uma tarefa sólida porque tem uma interpretação central correta, mas ainda permite diferenciar respostas melhores pelo cuidado com que delimitam a incerteza.”

Resultados

Reportamos duas métricas complementares. Taxa de aprovação é o percentual de tarefas em que um modelo atinge o limiar de sucesso de 70%. Pontuação é a recompensa média da rubrica, com crédito parcial por critérios individuais mesmo sem resolver toda a tarefa. As duas importam porque uma resposta científica pode ser parcialmente correta ou útil sem cumprir todos os requisitos.

O desempenho do modelo varia muito por tipo de tarefa, fluxo de trabalho e formato de resposta.

Onde sistemas de AI já se destacam

O LifeSciBench mostra que modelos de fronteira são mais fortes em síntese científica, comunicação e interpretação estruturada. As taxas absolutas de aprovação ainda são modestas, portanto esses domínios estão longe da saturação, mas o GPT‑Rosalind avança em relação ao GPT‑5.5, elevando a taxa geral de aprovação exata de 25,7% para 36,1%.

Os maiores avanços nas capacidades dos modelos aparecem em Comunicação Científica e Translação. Por exemplo, a aprovação em Comunicação Científica sobe de 56,3% no GPT‑5.5 para 71,1% no GPT‑Rosalind; a categoria é pequena (n=9) e exige cautela, mas sugere melhora rápida na capacidade de organizar evidências e produzir explicações convincentes para especialistas. Translação (o processo “da bancada ao leito” no desenvolvimento de fármacos) segue padrão semelhante, de 36,8% no GPT‑5.5 para 57,7% no GPT‑Rosalind, sugerindo melhora rápida em conectar evidências pré-clínicas a implicações clínicas.

Os resultados por rubrica apontam na mesma direção. Em tarefas que exigem saídas úteis a especialistas ou acionáveis, o GPT‑Rosalind pontua 44,7%, contra 29,1% do GPT‑5.5. Em tarefas que exigem lidar com incertezas e ressalvas, pontua 44,8%, contra 29,3%. O padrão sugere que modelos são mais úteis quando a tarefa tem limites claros de evidência e pede julgamento científico estruturado.

O GPT‑Rosalind lidera o desempenho em tarefas de valor científico identificadas por especialistas da indústria e da academia.

GPT‑Rosalind lidera o desempenho em tarefas cientificamente valiosas identificadas por especialistas da indústria e da academia.

Onde sistemas de AI ainda falham

O desempenho segue bem mais fraco em trabalhos científicos com muitos artefatos, muito design e restrições operacionais. Design, Otimização & Previsão segue entre os fluxos mais difíceis, com aprovação de 30,7% para o GPT‑Rosalind; Análise é similar, com 30,3%.

O uso de artefatos é uma lacuna especialmente clara. Embora supere o GPT‑5.5 em contextos com muitos artefatos, o GPT‑Rosalind ainda cai de 45,1% em tarefas só de texto para 28,1% em tarefas com artefatos ou URLs. O GPT‑5.5 mostra o mesmo padrão, caindo de 29,9% para 21,9%. Análise mais detalhada confirma que modelos de fronteira têm dificuldade para extrair dados de figuras complexas ou grandes arquivos de sequência e integrá-los à resposta final.

As taxas de aprovação caem quando as tarefas exigem raciocínio baseado em fontes ou trabalho com artefatos

O formato da resposta também importa. Tarefas que exigem saídas exatas de sequência, estrutura ou constructo têm menor aprovação: o GPT‑Rosalind chega a 14,8% em tarefas numéricas e 24,0% em saídas de sequência ou estrutura. Tarefas de geração de constructos também são frágeis: GPT‑Rosalind fica em 27,3% e melhora pouco sobre o GPT‑5.5. Parte da lacuna pode refletir uma avaliação mais rígida em tarefas de resposta exata, nas quais pequenos desvios de cálculo ou formato podem deixar a resposta abaixo do limiar. Ainda assim, as falhas têm peso científico, pois muitos fluxos em ciências da vida exigem saídas exatas o bastante para uso direto, como no design de doadores CRISPR/HDR ou de siRNA.

Os modelos também costumam avançar parcialmente sem resolver toda a tarefa. Em cerca de 14% das tarefas, os modelos obtiveram crédito substancial na rubrica apesar de não atingir a aprovação exata. No GPT‑Rosalind, 109 tarefas tiveram aprovação abaixo de 20% e ainda assim receberam ao menos 50% da recompensa da rubrica. Na prática, modelos podem identificar evidências relevantes ou dar uma resposta parcial plausível, mas falhar por perder uma restrição-chave, usar evidência errada, calcular de modo incompleto ou não ligar o raciocínio a uma decisão final cientificamente útil.

Limitações & próximos passos

O LifeSciBench ajuda a medir a utilidade de sistemas de AI para pesquisa em ciências da vida, mas não substitui estudos de modelos em ambientes reais. O benchmark foca tarefas autocontidas que refletem fluxos recorrentes da indústria, deixando muitas especialidades e tipos de tarefa fora do escopo atual. A pesquisa real é iterativa: cientistas reúnem evidências, revisam hipóteses, desenham experimentos de seguimento e adaptam planos conforme surgem resultados.

Assim, bom desempenho no LifeSciBench indica capacidade realista no nível da tarefa, não impacto direto em pesquisa posterior. O benchmark se baseia em fluxos da indústria, mas não captura toda a diversidade nem a dinâmica de programas reais, cujo progresso depende de fatores que evoluem no tempo.

O próximo passo é ligar o desempenho no benchmark a estudos de implantação em fluxos de pesquisa reais. Embora criado com cientistas atuantes, medir se sistemas de AI aceleram descobertas ou melhoram resultados de P&D exigirá estudar o uso e o desempenho de modelos em ambientes reais, por períodos mais longos e em várias rodadas de raciocínio, feedback e acompanhamento experimental.