Apresentamos o GPT‑Rosalind para a investigação em ciências da vida
Um novo modelo concebido de raiz para acelerar a investigação científica e a descoberta de fármacos.
Hoje, apresentamos o GPT‑Rosalind, o nosso modelo de raciocínio de fronteira concebido para apoiar a investigação em biologia, descoberta de fármacos e medicina translacional. A série de modelos para ciências da vida está otimizada para fluxos de trabalho científicos, combinando uma melhor utilização de ferramentas com uma compreensão mais profunda em química, engenharia de proteínas e genómica.
Em média, demora cerca de 10 a 15 anos desde a descoberta do alvo até à aprovação regulamentar de um novo fármaco nos Estados Unidos. Os ganhos nas primeiras fases da descoberta multiplicam-se a jusante em melhor seleção de alvos, hipóteses biológicas mais robustas e experiências de maior qualidade. O progresso nas ciências da vida é limitado não só pela dificuldade da ciência subjacente, mas pela complexidade dos próprios fluxos de trabalho de investigação. Os cientistas têm de trabalhar com grandes volumes de literatura, bases de dados especializadas, dados experimentais e hipóteses em evolução, para gerar e avaliar novas ideias. Estes fluxos de trabalho são, muitas vezes, morosos, fragmentados e difíceis de escalar.
Acreditamos que sistemas avançados de IA podem ajudar os investigadores a percorrer estes fluxos de trabalho mais depressa — não apenas tornando o trabalho existente mais eficiente, mas ajudando os cientistas a explorar mais possibilidades, a revelar ligações que, de outra forma, poderiam passar despercebidas e a chegar mais cedo a melhores hipóteses. Ao apoiar a síntese de evidência, a geração de hipóteses, o planeamento experimental e outras tarefas de investigação em várias etapas, este modelo foi concebido para ajudar os investigadores a acelerar as fases iniciais da descoberta. Com o tempo, estes sistemas podem ajudar organizações de ciências da vida a alcançar avanços que, de outro modo, não seriam possíveis, com uma taxa de sucesso muito superior.
O GPT‑Rosalind está agora disponível como pré-visualização de investigação no ChatGPT, no Codex e na API para clientes elegíveis através do nosso programa de acesso de confiança. Estamos também a apresentar um plugin de investigação em Ciências da Vida, de acesso livre, para o Codex, ajudando os cientistas a ligar modelos a mais de 50 ferramentas científicas e fontes de dados. Estamos a trabalhar com clientes como a Amgen, a Moderna, o Allen Institute, a Thermo Fisher Scientific e outros para aplicar o GPT‑Rosalind em fluxos de trabalho que aceleram a investigação e a descoberta.
O modelo recebeu o nome de Rosalind Franklin, cuja investigação rigorosa ajudou a revelar a estrutura do DNA e lançou as bases da biologia molecular moderna.
Dos dados em bruto a decisões de descoberta fundamentadas, veja como o nosso modelo concebido de raiz acelera fluxos de trabalho de investigação.
A série de modelos GPT‑Rosalind para ciências da vida foi concebida para o trabalho científico moderno com evidência publicada, dados, ferramentas e experiências. Nas nossas avaliações, apresenta o melhor desempenho em tarefas que exigem raciocínio sobre moléculas, proteínas, genes, vias e biologia relevante para a doença e é mais eficaz a usar ferramentas científicas e bases de dados em fluxos de trabalho em várias etapas, como revisão de literatura, interpretação de sequência‑para‑função, planeamento experimental e análise de dados.
Esta é a primeira versão da nossa série de modelos GPT‑Rosalind para ciências da vida e continuaremos a expandir as fronteiras das capacidades de raciocínio bioquímico do modelo em fluxos de trabalho científicos de longo horizonte e com uso intensivo de ferramentas. A infraestrutura de computação da OpenAI dá-nos a capacidade de continuar a treinar, avaliar e melhorar modelos de domínio cada vez mais capazes em tarefas científicas reais — ajudando estes sistemas a tornarem-se mais úteis à medida que os próprios fluxos de trabalho se tornam mais complexos.
De conclusões de descoberta baseadas em evidência a experiências de alto impacto, veja como o nosso conjunto de soluções se traduz em melhorias mensuráveis nos seus fluxos de trabalho de investigação.
Estamos a trabalhar com clientes líderes nas áreas farmacêutica, biotecnológica e de investigação, bem como com organizações tecnológicas de ciências da vida, para aplicar o GPT‑Rosalind em fluxos de trabalho que impulsionam a descoberta.
«A área das ciências da vida exige precisão em cada etapa. As questões são extremamente complexas, os dados são altamente únicos e o que está em jogo é incrivelmente elevado. A nossa colaboração única com a OpenAI permite-nos aplicar as suas capacidades e ferramentas mais avançadas de formas novas e inovadoras, com potencial para acelerar a forma como levamos medicamentos aos doentes.»
Avaliámos o GPT‑Rosalind numa gama de capacidades fundamentais para a descoberta científica e a investigação na indústria. Estas avaliações medem o raciocínio essencial em subdomínios científicos, incluindo mecanismos de reação química; estrutura de proteínas, efeitos de mutação e interações; e interpretação filogenética de sequências de DNA. Também avaliam se os modelos conseguem suportar fluxos de trabalho de investigação reais ao interpretar resultados experimentais, identificar padrões relevantes para especialistas e sintetizar informação externa para desenhar experiências de seguimento. Por fim, testam se os modelos conseguem selecionar e usar as ferramentas computacionais, bases de dados e capacidades específicas do domínio adequadas para reforçar o seu raciocínio. Em conjunto, estas avaliações mostram progressos ao longo do processo de investigação científica de ponta a ponta e sugerem uma capacidade maior de ajudar os investigadores a ultrapassar tarefas de descoberta exigentes.
Avaliámos o GPT‑Rosalind numa série de benchmarks públicos. No BixBench, um benchmark concebido em torno de bioinformática e análise de dados do mundo real, o GPT‑Rosalind alcançou um desempenho de topo entre modelos com pontuações publicadas.
No LABBench2, um benchmark que mede o desempenho numa série de tarefas de investigação, como recolha de literatura, acesso a bases de dados, manipulação de sequências e conceção de protocolos, o GPT‑Rosalind supera o GPT‑5.4 em 6 de 11 tarefas. A melhoria mais notável surge no CloningQA, que exige a conceção de ponta a ponta de reagentes de DNA e de enzimas para protocolos de clonagem molecular.
Também estabelecemos uma parceria com a Dyno Therapeutics, uma empresa pioneira em terapias génicas concebidas por IA, para avaliar o modelo numa tarefa de previsão e geração de sequência‑para‑função de RNA, usando sequências inéditas e não contaminadas. O desempenho foi comparado com 57 pontuações históricas de especialistas humanos na área de IA‑bio. Quando avaliado diretamente na aplicação do Codex, as melhores de dez submissões do modelo ficaram acima do 95.º percentil de especialistas humanos na tarefa de previsão e em torno do 84.º percentil de especialistas humanos na tarefa de geração de sequências.
Estas avaliações fornecem um sinal significativo do desempenho nos tipos de fluxos de trabalho em que os cientistas se apoiam todos os dias para gerar evidência, analisar dados complexos e avançar para conclusões biológicas defensáveis.
Os cientistas podem usar o nosso novo plugin de investigação em Ciências da Vida(abre numa nova janela) para o Codex, já disponível no GitHub. Este pacote inclui um amplo conjunto de skills modulares para os fluxos de trabalho de investigação mais comuns, concebido para ajudar os utilizadores a trabalhar em genética humana, genómica funcional, estrutura de proteínas, bioquímica, evidência clínica e descoberta de estudos públicos.

Estas skills funcionam como uma camada de orquestração que ajuda os cientistas a trabalhar, de forma mais eficaz, em questões abrangentes, ambíguas e em várias etapas. Dão acesso a mais de 50 bases de dados públicas multi-omics, fontes de literatura e ferramentas de biologia e oferecem um ponto de partida flexível para fluxos de trabalho comuns e repetíveis, como consulta de estruturas proteicas, pesquisa de sequências, revisão de literatura e descoberta de conjuntos de dados públicos.
Os utilizadores Enterprise elegíveis podem tirar partido deste plugin em fluxos de trabalho de investigação com o GPT‑Rosalind para um raciocínio biológico mais aprofundado, enquanto todos os utilizadores podem usar o pacote do plugin com os nossos modelos principais.
Queremos disponibilizar estas capacidades a cientistas e organizações de investigação que estão melhor posicionados para fazer avançar a saúde humana, mantendo salvaguardas robustas contra o uso indevido biológico. O modelo de Ciências da Vida está a ser lançado através de uma estrutura de implementação com acesso de confiança, inicialmente para clientes Enterprise elegíveis nos EUA, com controlos de elegibilidade, gestão de acesso e governação organizacional. Ao mesmo tempo, estamos a disponibilizar, de forma mais alargada, um conjunto de conetores e o plugin de Investigação em Ciências da Vida, para que os investigadores possam usar os nossos modelos principais de forma mais eficaz em tarefas de investigação em ciências da vida.
O modelo de Ciências da Vida foi desenvolvido com controlos de segurança reforçados, de nível empresarial, e uma gestão de acesso mais robusta, permitindo uma utilização científica profissional em ambientes de investigação com governação. Avaliamos o acesso com base em três princípios fundamentais: utilização benéfica, governação forte e supervisão de segurança, e acesso controlado com segurança de nível empresarial. Na prática, isto significa que as organizações participantes devem realizar investigação científica legítima com um claro benefício público; manter controlos adequados de governação, conformidade e prevenção de uso indevido; e restringir o acesso a utilizadores aprovados em ambientes seguros e bem geridos. As organizações devem também aceitar os termos da pré-visualização de investigação em ciências da vida e cumprir as políticas de utilização da OpenAI, e poderemos solicitar informação adicional como parte da integração ou da participação contínua.
As organizações podem pedir acesso através do nosso processo de qualificação e análise de segurança.
Durante a pré-visualização de investigação, a utilização deste modelo não consumirá créditos nem tokens existentes — sujeita a salvaguardas contra abuso. Partilharemos mais detalhes sobre preços e disponibilidade à medida que o programa se expandir.
O modelo de Ciências da Vida foi concebido para ajudar organizações científicas a realizar trabalho de maior qualidade, mais depressa, em ambientes que exigem tanto capacidade técnica como controlo operacional. A nossa equipa dedicada de Ciências da Vida — bem como parceiros de consultoria, incluindo McKinsey & Company, Boston Consulting Group (BCG) e Bain & Company — ajuda as organizações a identificar casos de uso de alto impacto, a integrar o modelo em ambientes empresariais e a gerar resultados mensuráveis. Se quiser explorar formas de a OpenAI Life Sciences poder apoiar o seu trabalho, pode contactar a nossa equipa de Ciências da Vida.
Este é o primeiro lançamento da nossa série de modelos para ciências da vida, e encaramo-lo como o início de um compromisso de longo prazo de construir IA que possa acelerar a descoberta científica em áreas de enorme importância para a sociedade, desde a saúde humana a uma investigação biológica mais abrangente. Continuaremos a melhorar o raciocínio biológico do modelo, a expandir o suporte para fluxos de trabalho de investigação com uso intensivo de ferramentas e de longo horizonte e a trabalhar em estreita colaboração com instituições científicas de referência para avaliar o impacto no mundo real. Isso inclui parcerias contínuas com laboratórios nacionais, como o Los Alamos National Laboratory, onde estamos a explorar a conceção de proteínas e de catalisadores orientada por IA, incluindo a capacidade de sistemas de IA modificarem estruturas biológicas mantendo ou melhorando propriedades funcionais essenciais.
Com o tempo, esperamos que estes sistemas se tornem parceiros cada vez mais capazes na descoberta — ajudando os cientistas a passar mais depressa da pergunta para a evidência, da evidência para a compreensão e da compreensão para novos tratamentos para os doentes.


