Saltar para o conteúdo principal
OpenAI

17 de junho de 2026

InvestigaçãoPublicação

Apresentamos o LifeSciBench

Um benchmark escrito e revisto por especialistas, assente na investigação real em ciências da vida

A carregar…

Os sistemas de IA agêntica fazem cada vez mais tarefas científicas. Mas a sua utilidade nas ciências da vida depende de como lidam com a investigação real. Esse trabalho raramente é uma simples pergunta factual ou uma previsão limpa. Os investigadores interpretam dados incompletos, conciliam resultados, desenham experiências, afinam ensaios, avaliam risco translacional e decidem sob incerteza.

Os benchmarks atuais não captam tudo isto. Muitas avaliações focam domínios estreitos ou competências isoladas, com perguntas estruturadas e respostas de referência claras. São úteis, mas raramente mostram se um modelo ajuda em todo o trabalho de investigação.

Criámos o LifeSciBench para colmatar esta lacuna. Cada tarefa baseia-se no juízo de cientistas ativos, com doutoramento e experiência direta em descoberta de fármacos na biotecnologia e na indústria farmacêutica.

O LifeSciBench inclui 750 tarefas de especialistas, em sete fluxos de trabalho e sete domínios biológicos.

1,062

Artefactos da tarefa

173

Cientistas colaboradores

19,020

Critérios da grelha de avaliação

453

Revisores especialistas

O que o LifeSciBench mede

O LifeSciBench mede se os sistemas de AI apoiam investigação realista em ciências da vida, não só se respondem a biologia. Para definir a taxonomia, inquirimos cientistas ativos sobre os fluxos de trabalho mais usados em investigação aplicada. Agrupámos as respostas em sete categorias: evidência, análise, desenho e otimização, raciocínio científico, validação e operações, translação e comunicação científica.

Cada tarefa parece um pedido a um colaborador experiente: prompt científico, contexto ou artefactos relevantes e resposta livre. Grelhas de especialistas avaliam se o modelo dá a resposta certa, com o detalhe, a justificação, as ressalvas e o formato esperados.

Construção do conjunto de dados

O LifeSciBench avalia o raciocínio científico e as competências práticas necessárias ao uso científico real. As tarefas levam os modelos a resolver problemas realistas: interpretar evidência, julgar com base no domínio e comunicar conclusões úteis a especialistas. Muitas também exigem lidar com incerteza e raciocinar sobre ficheiros de apoio, não apenas sobre o prompt.

O benchmark reflete a complexidade das ciências da vida. No total, 79% das tarefas exigem vários passos de raciocínio ou decisão, em média quatro por tarefa. O LifeSciBench inclui 1 062 artefactos: figuras, PDFs, tabelas, sequências, ficheiros estruturais ou químicos e referências Web. Mais de metade das tarefas (53%) exige interpretar ou sintetizar informação de pelo menos um artefacto.

As tarefas foram criadas por 173 cientistas especialistas de várias áreas das ciências da vida. Todos tinham doutoramento e experiência na indústria biotecnológica ou farmacêutica. As tarefas passaram por tantas revisões quanto necessário; as aceites tiveram em média seis ciclos automáticos autodirigidos e pelo menos duas rondas de revisão por especialistas. As revisões assentaram numa resposta verificável ou em forte consenso de especialistas, com pelo menos 90% de acordo no domínio. O processo garantiu tarefas sólidas, claras para avaliação e representativas da investigação aplicada.

Diagrama que mostra tarefas do LifeSciBench que combinam fontes de dados das ciências da vida, como sequências genómicas, estruturas moleculares, figuras, documentos, folhas de cálculo e ligações Web, com raciocínio em várias etapas e revisão por especialistas.

Avaliação e grelhas

As tarefas do LifeSciBench são avaliadas por uma grelha detalhada e específica, que decompõe a resposta em afirmações, cálculos, decisões, justificações, etc. No benchmark, as grelhas de especialistas somam 19 020 critérios — 25 por tarefa, em média — para medir correção científica e utilidade na investigação.

Isto reflete a prática científica: muitas tarefas não podem ser avaliadas apenas pela resposta final. Uma resposta pode acertar na conclusão geral e ser incompleta se ignorar uma limitação crítica do ensaio ou uma nuance biológica relevante. E uma resposta parcial pode ter bom raciocínio sem resolver toda a tarefa.

As grelhas granulares captam essa nuance. O LifeSciBench avalia não só a exatidão final, mas se o modelo chega lá de modo cientificamente válido e operacionalmente útil.

Extrair, reconciliar e auditar evidência científica de artigos, figuras, tabelas e registos experimentais.

Exemplo de avaliação

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

  • Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
  • 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
  • Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
  • 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
  • Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
  • Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
  • Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Resposta do candidato

Conclusão principal: Tal como apresentado, este pacote não é suficientemente forte para suportar aprovação acelerada com base na expressão de micro-distrofina como endpoint substituto razoavelmente provável de prever benefício clínico. Um revisor cético da FDA provavelmente consideraria a evidência de biomarcador, funcional, de durabilidade, segurança e generalização materialmente insuficiente.

Item do pacote

Principal modo de falha

O que seria necessário

Quantificação por Western blot

MANEX1A liga-se a um epítopo N-terminal partilhado pela distrofina endógena de comprimento total e pelo transgene de micro-distrofina, pelo que o ensaio não distingue limpidamente o transgene da distrofina residual/revertente. Quantificar uma micro-distrofina de 138 kDa contra um padrão saudável de distrofina de comprimento total também é inválido.

Usar um padrão recombinante de micro-distrofina e um método ortogonal que distinga o transgene da distrofina endógena, como espectrometria de massa direcionada ou um ensaio específico de transgene/epítopo.

Imunofluorescência

O anticorpo policlonal C-terminal é pouco adequado porque a construção de 138 kDa não tem o domínio C-terminal. Muitos doentes com DMD têm fibras revertentes, e a distrofina revertente pode reter epítopos C-terminais. As fibras revertentes podem expandir-se clonalmente com a idade, enviesando o sinal de IF, especialmente em rapazes mais velhos.

Repetir IF com um anticorpo contra um epítopo presente no transgene mas ausente da distrofina revertente. Quantificar separadamente fibras positivas para transgene e fibras revertentes.

Validade do endpoint substituto

O pacote confunde quantidade de proteína com função clínica. “38% da massa proteica do controlo saudável” não significa 38% da função normal da distrofina, porque a micro-distrofina é estruturalmente truncada.

Validar empiricamente a relação entre percentagem de massa de micro-distrofina, localização sarcolemal, restauração funcional a jusante e benefício clínico antes de tratar a expressão como endpoint substituto.

Desenho da biópsia

Biópsias pré e pós-tratamento do vasto lateral contralateral introduzem variabilidade esquerda-direita e espacial intramuscular. A progressão da doença e a substituição fibro-adiposa também podem alterar o sinal normalizado por proteína total.

Padronizar o local da biópsia usando marcos anatómicos consistentes, normalizar para proteínas específicas de músculo e medir em paralelo a composição fibro-adiposa.

Comparador/estatística NSAA

Uma coorte externa de história natural não é um controlo concorrente randomizado. Elegibilidade do ensaio, cuidados de suporte, efeitos de participação, NSAA basal, regime de esteroides, idade e classe de exão podem enviesar a comparação. Um teste t não emparelhado não é suficiente. Além disso, uma alteração NSAA de +1,4 está dentro da variabilidade teste-reteste para este grupo etário.

Realizar um estudo randomizado com placebo concorrente, ou no mínimo usar análises ajustadas para NSAA basal, idade, regime de esteroides, classe de exão e outros confundidores.

Confundimento pela janela etária

Rapazes dos 4 aos 7 anos estão numa janela de desenvolvimento em que doentes ambulatórios com DMD não tratados podem ganhar função motora antes de o declínio predominar. Uma alteração NSAA a 48 semanas mistura ganho de desenvolvimento, progressão da doença e possível efeito do tratamento.

Usar um controlo randomizado concorrente com estratificação por idade para separar a trajetória de desenvolvimento do efeito do tratamento.

Precedente clínico anterior

Sinais funcionais abertos de micro-distrofina não previram de forma fiável benefício confirmatório; o precedente publicado inclui ensaios confirmatórios de terapia génica com micro-distrofina que não reproduziram melhorias NSAA abertas.

Não confiar em alteração NSAA aberta como suporte decisivo. Exigir evidência funcional controlada.

Limites estruturais da construção

A construção de 138 kDa elimina as repetições de espectrina R16/17, que contêm locais de ligação a nNOS. A perda de recrutamento de nNOS pode prejudicar a simpatólise funcional e a proteção contra isquemia durante exercício, criando um teto mecanístico de resgate independente do nível de expressão.

Adicionar estudos mecanísticos que mostrem se esta construção específica restaura a função relevante do complexo associado à distrofina, a localização de nNOS, a fisiologia do exercício e a proteção muscular.

Durabilidade AAV

Genomas vetoriais às 12 semanas não estabelecem expressão duradoura. Genomas AAV9 são em grande parte epissomas não integrativos e podem diminuir ao longo do tempo. Persistência do genoma vetorial não é o mesmo que expressão proteica persistente.

Medir longitudinalmente a expressão da proteína transgénica e a durabilidade de biomarcadores funcionais para além de 12 semanas.

Perfil imunitário/de segurança

Transaminite em 8/12 doentes é consistente com resposta imunitária a células transduzidas por AAV, mas o mecanismo não está estabelecido. Um caso de miocardite é preocupante dado o tropismo cardíaco do AAV9.

Fornecer monitorização imunitária mais profunda, caracterização de segurança hepática/cardíaca e seguimento cardíaco intensificado.

Seleção de doentes/generalização

Excluir doentes positivos para anticorpos neutralizantes anti-AAV9 limita a generalização. Excluir deleções do exão 44 limita a aplicabilidade a esse subgrupo de DMD. n=12 é demasiado pequeno para caracterizar segurança e eficácia na população DMD mais ampla.

Alargar a elegibilidade quando possível ou pré-especificar análises estratificadas por estado de anticorpos, genótipo/classe de exão, idade e função basal antes de usar o resultado para suportar aprovação ampla.

Conclusão regulamentar: O pacote pode mostrar atividade biológica, mas ainda não estabelece que a expressão medida de micro-distrofina seja um substituto fiável razoavelmente provável de prever benefício clínico. As principais lacunas são especificidade do ensaio, padrões de quantificação inválidos, possível confundimento por fibras revertentes, falta de controlo randomizado, confundimento NSAA relacionado com idade, durabilidade incerta e questões de segurança/generalização não resolvidas.

Para fechar a lacuna, o programa precisaria de um desenho clínico controlado e estratificado por idade, com ensaios de expressão específicos do transgene, quantificação proteica ortogonal, controlos de composição tecidular, dados longitudinais de durabilidade, ensaios funcionais mecanísticos para a construção truncada e monitorização de segurança mais forte, especialmente hepática e cardíaca.

Critérios e notas da rubrica

Critério
Pontos
Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.
+24
Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.
+22
Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.
+19
Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.
+12
Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.
+15
Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.
+8

Validação do LifeSciBench

Validámos o LifeSciBench com uma revisão independente por especialistas. O feedback veio de 453 revisores externos à criação das tarefas. Destes, 97% tinham doutoramento ou equivalente, 12 anos médios de experiência, 14 publicações revistas por pares; 88% tinham prémios ou bolsas.

Os revisores avaliaram se cada tarefa tinha as qualidades de uma boa pergunta de benchmark: alinhamento com investigação real, teste adequado de raciocínio científico e especialização, base em evidência ou consenso, e utilidade para medir o desempenho do modelo. A concordância superou 96% em todas as categorias.

Relevância no mundo real

Esta tarefa reflete trabalho realista do mundo real em ciências da vida?

Concordo totalmente
90.4%
Concordo no geral
98.3%

Raciocínio científico / competência de domínio

Esta tarefa testa e avalia o raciocínio científico e as competências certas no domínio das ciências da vida?

Concordo totalmente
86.4%
Concordo no geral
98.1%

Fundamentação científica

Esta tarefa é cientificamente fundamentada, respondível e ancorada em evidências, dados, artefactos ou consenso de especialistas adequados?

Concordo totalmente
77.1%
Concordo no geral
96.5%

Utilidade geral

No geral, esta é uma tarefa forte de avaliação em ciências da vida?

Concordo totalmente
79.1%
Concordo no geral
96.6%

Os comentários dos revisores confirmaram as pontuações:

1 de 3
No geral, é uma tarefa forte porque tem uma interpretação central correta, mas ainda permite distinguir melhores respostas pela forma cuidadosa como delimitam a incerteza.

Resultados

Usamos duas métricas complementares. A taxa de aprovação é a percentagem de tarefas em que o modelo atinge o limiar de sucesso de 70%. A pontuação é a recompensa média da grelha, dando crédito parcial por critérios individuais mesmo sem resolver a tarefa inteira. Ambas importam: uma resposta científica pode ser parcialmente correta ou útil sem cumprir todos os requisitos.

O desempenho varia muito por tipo de tarefa, fluxo de trabalho e formato de resposta.

Onde os sistemas de AI já são fortes

O LifeSciBench mostra que os modelos de fronteira são melhores em síntese científica, comunicação e interpretação estruturada. As taxas absolutas ainda são modestas, mas o GPT‑Rosalind avança face ao GPT‑5.5: a aprovação exata global sobe de 25,7% para 36,1%.

Os maiores ganhos surgem em Comunicação Científica e Translação. Por exemplo, a aprovação em Comunicação Científica sobe de 56,3% no GPT‑5.5 para 71,1% no GPT‑Rosalind; a categoria é pequena (n=9), mas sugere progressos rápidos na organização de evidência e em explicações convincentes para especialistas. A Translação (o processo "da bancada ao leito" no desenvolvimento de fármacos) mostra padrão semelhante, subindo de 36,8% no GPT‑5.5 para 57,7% no GPT‑Rosalind, sinal de melhor ligação entre evidência pré-clínica e implicações clínicas.

Os resultados por grelha apontam no mesmo sentido. Em tarefas que exigem saídas úteis ou acionáveis para especialistas, o GPT‑Rosalind obtém 44,7%, contra 29,1% do GPT‑5.5. Em tarefas de incerteza e ressalvas, obtém 44,8%, contra 29,3%. Isto sugere que os modelos ajudam mais quando a evidência é delimitada e a tarefa pede juízo científico estruturado.

O GPT‑Rosalind lidera o desempenho em tarefas cientificamente valiosas identificadas por especialistas da indústria e da academia.

O GPT‑Rosalind lidera o desempenho em tarefas cientificamente valiosas identificadas por especialistas da indústria e da academia.

O GPT‑Rosalind lidera o desempenho em tarefas cientificamente valiosas identificadas por especialistas da indústria e da academia.

Onde os sistemas de AI ainda falham

O desempenho é bem mais fraco em trabalho científico com muitos artefactos, muito desenho e restrições operacionais. Desenho, Otimização & Previsão continua dos fluxos mais difíceis, com 30,7% de aprovação no GPT‑Rosalind; Análise é semelhante, com 30,3%.

O uso de artefactos é uma lacuna clara. Embora supere o GPT‑5.5 nesses contextos, o GPT‑Rosalind cai de 45,1% em tarefas só de texto para 28,1% em tarefas com artefactos ou URLs. O GPT‑5.5 segue o mesmo padrão, caindo de 29,9% para 21,9%. Uma análise mais fina confirma dificuldades em extrair informação de figuras complexas ou grandes ficheiros de sequências e integrá-la na resposta final.

As taxas de aprovação descem quando as tarefas exigem raciocínio fundamentado em fontes ou trabalho com artefactos

O formato da resposta também conta. Tarefas que exigem saídas exatas de sequência, estrutura ou construto têm menor aprovação: o GPT‑Rosalind chega só a 14,8% em tarefas numéricas e 24,0% em saídas de sequência ou estrutura. A geração de construtos também é frágil: o GPT‑Rosalind fica nos 27,3% e melhora pouco face ao GPT‑5.5. Parte da lacuna pode vir de avaliação mais estrita em respostas exatas, onde pequenos erros de cálculo ou formato baixam a resposta do limiar. Ainda assim, são falhas relevantes: muitos fluxos das ciências da vida exigem saídas prontas a usar, como desenho de dadores CRISPR/HDR ou de siRNA.

Os modelos também avançam parcialmente sem resolver a tarefa. Em cerca de 14% das tarefas, ganharam crédito substancial na grelha apesar de falharem a aprovação exata. No GPT‑Rosalind, 109 tarefas tiveram aprovação abaixo de 20%, mas pelo menos 50% da recompensa da grelha. Na prática, os modelos podem encontrar evidência relevante ou uma resposta parcial plausível, mas falhar por perderem uma restrição, usarem evidência errada, calcularem incompletamente ou não ligarem o raciocínio a uma decisão científica útil.

Limitações & próximos passos

O LifeSciBench ajuda a medir a utilidade dos sistemas de AI na investigação em ciências da vida, mas não substitui estudos em ambientes reais. O benchmark foca tarefas autónomas de fluxos industriais recorrentes, deixando fora muitas especialidades e tipos de tarefa. A investigação real é iterativa: recolhem-se dados, revêm-se hipóteses, desenham-se experiências de seguimento e ajustam-se planos.

Assim, bom desempenho no LifeSciBench indica capacidade realista ao nível da tarefa, não impacto direto na investigação. O benchmark assenta em fluxos industriais, mas não capta toda a diversidade nem a dinâmica dos programas reais, onde o progresso depende de fatores que evoluem no tempo.

O passo seguinte é ligar o desempenho no benchmark a estudos de implementação em fluxos de investigação reais. Embora desenvolvido com cientistas ativos, saber se os sistemas de AI aceleram a descoberta ou melhoram a I&D exige estudar o uso e o desempenho dos modelos em investigação real, por períodos mais longos e com várias rondas de raciocínio, feedback e seguimento experimental.

Envolva-se

Ajude a moldar a próxima geração de benchmarks de AI em ciências da vida ou solicite acesso ao GPT-Rosalind.

Autor

OpenAI