Apresentamos novas capacidades para o GPT‑Rosalind
Mais inteligência assente em fluxos de trabalho científicos reais para a indústria das ciências da vida.
Apresentamos uma nova atualização de modelo para a nossa série GPT‑Rosalind, criada especificamente para investigação em ciências da vida à escala empresarial. Combina as capacidades de programação agêntica e utilização de ferramentas do GPT‑5.5 com maior inteligência de modelo em domínios centrais da descoberta de fármacos, como química medicinal e genómica, ao mesmo tempo que melhora o desempenho em análises, desenho e fluxos de trabalho experimentais mais amplos nas ciências da vida.
O progresso nas ciências da vida depende da síntese de dados e evidência entre escalas e modalidades: moléculas, genes, vias e sistemas vivos. Nas nossas avaliações, o GPT‑Rosalind atualizado mostra ganhos amplos de desempenho em tarefas de investigação de especialistas em biologia, consultas complexas de química medicinal, biologia quantitativa e resolução de problemas de laboratório húmido.
O GPT‑Rosalind está agora disponível em pré-visualização de investigação para organizações elegíveis em todo o mundo através da nossa estrutura de implementação com acesso de confiança.
Para medir e melhorar continuamente o impacto real do GPT‑Rosalind, concebemos o LifeSciBench, um benchmark avaliado externamente por especialistas e focado em aspetos fundamentais da investigação em ciências da vida. Ao contrário dos benchmarks existentes, que avaliam isoladamente um único componente do desempenho do modelo ou um domínio biológico, o LifeSciBench adota uma visão ponta a ponta do trabalho cientificamente valioso, recolhendo tarefas de seis áreas de fluxo de trabalho centrais à investigação em ciências da vida: tratamento de evidência, análise, desenho e otimização, raciocínio científico, validação e operações, e tradução e comunicação. Usamos este benchmark para alinhar o progresso com as necessidades e realidades da investigação em ciências da vida.
O GPT‑Rosalind lidera o desempenho em tarefas cientificamente valiosas identificadas por especialistas da indústria e da academia.
Extrair, reconciliar e auditar evidência científica de artigos, figuras, tabelas e registos experimentais.
Exemplo de avaliação
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
Resposta do candidato
Conclusão principal: Tal como apresentado, este pacote não é suficientemente forte para suportar aprovação acelerada com base na expressão de micro-distrofina como endpoint substituto razoavelmente provável de prever benefício clínico. Um revisor cético da FDA provavelmente consideraria a evidência de biomarcador, funcional, de durabilidade, segurança e generalização materialmente insuficiente.
Item do pacote | Principal modo de falha | O que seria necessário |
|---|---|---|
Quantificação por Western blot | MANEX1A liga-se a um epítopo N-terminal partilhado pela distrofina endógena de comprimento total e pelo transgene de micro-distrofina, pelo que o ensaio não distingue limpidamente o transgene da distrofina residual/revertente. Quantificar uma micro-distrofina de 138 kDa contra um padrão saudável de distrofina de comprimento total também é inválido. | Usar um padrão recombinante de micro-distrofina e um método ortogonal que distinga o transgene da distrofina endógena, como espectrometria de massa direcionada ou um ensaio específico de transgene/epítopo. |
Imunofluorescência | O anticorpo policlonal C-terminal é pouco adequado porque a construção de 138 kDa não tem o domínio C-terminal. Muitos doentes com DMD têm fibras revertentes, e a distrofina revertente pode reter epítopos C-terminais. As fibras revertentes podem expandir-se clonalmente com a idade, enviesando o sinal de IF, especialmente em rapazes mais velhos. | Repetir IF com um anticorpo contra um epítopo presente no transgene mas ausente da distrofina revertente. Quantificar separadamente fibras positivas para transgene e fibras revertentes. |
Validade do endpoint substituto | O pacote confunde quantidade de proteína com função clínica. “38% da massa proteica do controlo saudável” não significa 38% da função normal da distrofina, porque a micro-distrofina é estruturalmente truncada. | Validar empiricamente a relação entre percentagem de massa de micro-distrofina, localização sarcolemal, restauração funcional a jusante e benefício clínico antes de tratar a expressão como endpoint substituto. |
Desenho da biópsia | Biópsias pré e pós-tratamento do vasto lateral contralateral introduzem variabilidade esquerda-direita e espacial intramuscular. A progressão da doença e a substituição fibro-adiposa também podem alterar o sinal normalizado por proteína total. | Padronizar o local da biópsia usando marcos anatómicos consistentes, normalizar para proteínas específicas de músculo e medir em paralelo a composição fibro-adiposa. |
Comparador/estatística NSAA | Uma coorte externa de história natural não é um controlo concorrente randomizado. Elegibilidade do ensaio, cuidados de suporte, efeitos de participação, NSAA basal, regime de esteroides, idade e classe de exão podem enviesar a comparação. Um teste t não emparelhado não é suficiente. Além disso, uma alteração NSAA de +1,4 está dentro da variabilidade teste-reteste para este grupo etário. | Realizar um estudo randomizado com placebo concorrente, ou no mínimo usar análises ajustadas para NSAA basal, idade, regime de esteroides, classe de exão e outros confundidores. |
Confundimento pela janela etária | Rapazes dos 4 aos 7 anos estão numa janela de desenvolvimento em que doentes ambulatórios com DMD não tratados podem ganhar função motora antes de o declínio predominar. Uma alteração NSAA a 48 semanas mistura ganho de desenvolvimento, progressão da doença e possível efeito do tratamento. | Usar um controlo randomizado concorrente com estratificação por idade para separar a trajetória de desenvolvimento do efeito do tratamento. |
Precedente clínico anterior | Sinais funcionais abertos de micro-distrofina não previram de forma fiável benefício confirmatório; o precedente publicado inclui ensaios confirmatórios de terapia génica com micro-distrofina que não reproduziram melhorias NSAA abertas. | Não confiar em alteração NSAA aberta como suporte decisivo. Exigir evidência funcional controlada. |
Limites estruturais da construção | A construção de 138 kDa elimina as repetições de espectrina R16/17, que contêm locais de ligação a nNOS. A perda de recrutamento de nNOS pode prejudicar a simpatólise funcional e a proteção contra isquemia durante exercício, criando um teto mecanístico de resgate independente do nível de expressão. | Adicionar estudos mecanísticos que mostrem se esta construção específica restaura a função relevante do complexo associado à distrofina, a localização de nNOS, a fisiologia do exercício e a proteção muscular. |
Durabilidade AAV | Genomas vetoriais às 12 semanas não estabelecem expressão duradoura. Genomas AAV9 são em grande parte epissomas não integrativos e podem diminuir ao longo do tempo. Persistência do genoma vetorial não é o mesmo que expressão proteica persistente. | Medir longitudinalmente a expressão da proteína transgénica e a durabilidade de biomarcadores funcionais para além de 12 semanas. |
Perfil imunitário/de segurança | Transaminite em 8/12 doentes é consistente com resposta imunitária a células transduzidas por AAV, mas o mecanismo não está estabelecido. Um caso de miocardite é preocupante dado o tropismo cardíaco do AAV9. | Fornecer monitorização imunitária mais profunda, caracterização de segurança hepática/cardíaca e seguimento cardíaco intensificado. |
Seleção de doentes/generalização | Excluir doentes positivos para anticorpos neutralizantes anti-AAV9 limita a generalização. Excluir deleções do exão 44 limita a aplicabilidade a esse subgrupo de DMD. n=12 é demasiado pequeno para caracterizar segurança e eficácia na população DMD mais ampla. | Alargar a elegibilidade quando possível ou pré-especificar análises estratificadas por estado de anticorpos, genótipo/classe de exão, idade e função basal antes de usar o resultado para suportar aprovação ampla. |
Conclusão regulamentar: O pacote pode mostrar atividade biológica, mas ainda não estabelece que a expressão medida de micro-distrofina seja um substituto fiável razoavelmente provável de prever benefício clínico. As principais lacunas são especificidade do ensaio, padrões de quantificação inválidos, possível confundimento por fibras revertentes, falta de controlo randomizado, confundimento NSAA relacionado com idade, durabilidade incerta e questões de segurança/generalização não resolvidas.
Para fechar a lacuna, o programa precisaria de um desenho clínico controlado e estratificado por idade, com ensaios de expressão específicos do transgene, quantificação proteica ortogonal, controlos de composição tecidular, dados longitudinais de durabilidade, ensaios funcionais mecanísticos para a construção truncada e monitorização de segurança mais forte, especialmente hepática e cardíaca.
Critérios e notas da rubrica
O GPT‑Rosalind alcança desempenho líder na indústria em química medicinal, uma área focada em transformar moléculas em fármacos úteis. Concebemos o MedChemBench para refletir fluxos de trabalho realistas de química medicinal, avaliando a compreensão multimodal de estruturas químicas; relação estrutura-atividade (SAR); previsão de potência, toxicidade e absorção, distribuição, metabolismo e excreção (ADME) de fármacos; tomada de decisão de otimização de compostos líderes multiparâmetro; e retrosíntese. O GPT‑Rosalind supera o GPT‑5.5 no MedChemBench, com 27,5% contra 25,1%, usando 7,2% menos tokens.
O GPT‑Rosalind mostra melhor síntese multimodal e raciocínio mecanístico em química medicinal.
No GeneBench, a nossa avaliação agêntica de análise ponta a ponta de longo horizonte em genómica e biologia quantitativa, o GPT‑Rosalind usa menos 31% de tokens do que o GPT‑5.5, ao mesmo tempo que atinge maior exatidão: 21,6% contra 20,4%. O GeneBench avalia o desempenho agêntico em tarefas quantitativas de longo horizonte: com base em dados científicos realistas, consegue um agente planear análises, QC, modelação e correções válidas para chegar a respostas relevantes para a decisão? Os problemas incluídos abrangem vários domínios, incluindo genómica funcional, transcriptómica espacial, proteómica, epigenómica e genética aplicada.
O GPT‑Rosalind usa menos 31% de tokens do que o GPT‑5.5, melhorando a exatidão.
Introduzimos uma nova avaliação para testar a capacidade do GPT‑Rosalind de ajudar cientistas que realizam trabalho laboratorial no mundo real. O LabWorkBench testa a capacidade do modelo de ligar perturbações a resultados experimentais em protocolos reais de laboratório húmido usados por cientistas, para fins que vão da resolução de problemas à otimização. Os dados usados pelo LabWorkBench são proprietários e, portanto, não contaminados. O GPT‑Rosalind obtém 63,2% contra 55,8% do GPT‑5.5, usando menos 5,3% de tokens.
Na assistência a protocolos reais de laboratório húmido, o GPT‑Rosalind mostra ganhos significativos face ao GPT‑5.5, melhorando simultaneamente a eficiência de tokens.
Criámos os plugins Life Sciences Research(abre numa nova janela) e Life Sciences NGS Analysis(abre numa nova janela) para estender a inteligência acrescida do GPT‑Rosalind com uma camada de execução prática para fluxos de trabalho científicos repetíveis. Em conjunto, estes plugins trazem recuperação de evidência com fontes, interpretação biológica e execução bioinformática para o mesmo espaço de trabalho, ajudando investigadores a ligar evidência externa a análises ómicas internas, preservando artefactos e proveniência. Todos os utilizadores podem agora aceder a ambos os plugins através do Codex. Utilizadores empresariais qualificados do GPT‑Rosalind podem, adicionalmente, usar o GPT‑Rosalind para alimentar estes plugins.
Para tirar melhor partido do Codex como bancada de trabalho dinâmica para cientistas, adicionámos visualizadores interativos para tipos de ficheiro nativos da biologia. O conjunto inicial de visualizadores de sequências, alinhamentos e estruturas foi concebido para manter os cientistas próximos da evidência enquanto o GPT‑Rosalind raciocina ao longo de um fluxo de trabalho e responde diretamente a perguntas de seguimento usando o visualizador ativo em contexto.
A demonstração acima mostra estas capacidades em ação, orquestradas pelo GPT‑Rosalind. Acompanhamos um cientista que investiga uma biópsia líquida de tumor para identificar mutações e outras alterações moleculares que possam informar o tratamento. O plugin Life Sciences NGS Analysis transforma uma revisão de registos de ctDNA processados num caderno interativo, destacando alterações recorrentes, chamadas de baixa frequência e trajetórias de amostras que focam a investigação em KRAS G12C. A partir daí, o plugin Life Sciences Research acrescenta contexto com fontes sobre alvo, inibidor e resistência, enquanto os visualizadores nativos de sequência, alinhamento e estrutura permitem ao cientista inspecionar diretamente o resíduo mutante 12, a sua conservação na família RAS e a bolsa ligada ao inibidor. O fluxo de trabalho termina traduzindo essa evidência em opções concretas de seguimento, com cada passo e artefacto disponível para revisão por especialistas.

Plugin Life Sciences NGS Analysis
QC e anotação de scRNA-seq

Transforme um pacote de matriz ao estilo 10x em artefactos de célula única filtrados por QC, anotações e UMAPs que pode inspecionar e rever no Codex. O plugin Life Sciences NGS Analysis encaminha o pedido para scrna-seq-qc, escolhe limiares de QC a partir dos dados, preserva a proveniência em torno da filtragem e anotação, e destaca bloqueadores como dependências de deteção de dupletos em falta.
QC de FASTQ de RNA-seq em massa

Transforme uma folha de amostras de RNA-seq em massa, um pacote FASTQ e ficheiros de referência num pacote de contagens revisto por QC que pode inspecionar e reutilizar no Codex. O plugin Life Sciences NGS Analysis encaminha o pedido, valida as entradas e devolve um envelope de execução auditável com MultiQC, matrizes Salmon, proveniência e ressalvas explícitas.
Estamos a alargar o acesso à série GPT‑Rosalind a organizações elegíveis em todo o mundo. O GPT‑Rosalind estará disponível em pré-visualização de investigação através da nossa estrutura de implementação com acesso de confiança para organizações que realizam investigação científica legítima com claro benefício público, têm forte governação e supervisão de segurança, e acesso controlado com segurança de nível empresarial.
Como parte desta expansão global, temos o prazer de ajudar a apoiar a missão da Novo Nordisk de levar opções de tratamento inovadoras aos doentes mais rapidamente, ajudando a escalar a sua investigação médica com o GPT‑Rosalind. A Novo Nordisk está a aproveitar capacidades de IA de fronteira para ajudar investigadores a analisar conjuntos de dados complexos, descobrir padrões úteis e testar hipóteses mais rapidamente. A compreensão biológica mais forte do GPT‑Rosalind ajudará equipas a ligar evidência entre literatura, genómica, transcriptómica, sequência, estrutura e resultados experimentais, facilitando a passagem de dados para decisões de investigação mais claras.
“A investigação em ciências da vida é complexa, rica em dados e interdisciplinar. Para entregar valor significativo aos investigadores, modelos avançados de IA têm de assentar em dados científicos fiáveis, estar ligados a ferramentas validadas e ser integrados nos fluxos de trabalho reais que os investigadores usam todos os dias. Estamos satisfeitos com a nossa parceria com a OpenAI e com a oportunidade de explorar como o GPT‑Rosalind pode apoiar abordagens mais rigorosas e práticas à descoberta de fármacos.”
Mishal Patel, Vice-presidente de Grupo, IA e Inovação Digital, I&D - Novo Nordisk
Também estamos agora a oferecer um espaço de trabalho gerido pela OpenAI para organizações qualificadas sem conta Enterprise.
O GPT‑Rosalind atualizado é o próximo passo no nosso compromisso mais amplo de criar sistemas de IA que ajudem a acelerar a descoberta científica, garantindo que capacidades biológicas avançadas são implementadas com salvaguardas adequadas. Continuaremos a melhorar o raciocínio biológico do modelo, a expandir o suporte para fluxos de trabalho de investigação intensivos em ferramentas e de longo horizonte, e a trabalhar com organizações qualificadas em várias regiões para avaliar o impacto real.
Isto também significa aplicar IA de ciências da vida a trabalho de elevado impacto e benefício público, da descoberta de fármacos e medicina translacional à saúde pública, preparação e biodefesa. Através do Rosalind Biodefense e do nosso modelo de implementação com acesso de confiança, pretendemos colocar capacidades biológicas de fronteira nas mãos dos investigadores, instituições e defensores que trabalham para melhorar a saúde humana e reforçar a resiliência social.
Continuaremos a desenvolver o GPT‑Rosalind para se tornar um parceiro mais capaz ao longo de todo o ciclo de vida da investigação científica, ajudando cientistas a avançar mais rapidamente das perguntas certas para evidência mais clara, melhores experiências e, em última análise, novos tratamentos para os doentes.


