O GPT‑5 reduz o custo da síntese proteica acelular
Em parceria com a Ginkgo Bioworks, criámos um laboratório autónomo baseado em IA e conseguimos uma redução de 40% no custo de produção de proteínas.
Temos assistido a progressos rápidos da IA em áreas como a matemática e a física, onde as ideias podem muitas vezes ser avaliadas sem recorrer ao mundo físico. A biologia é diferente. O progresso acontece no laboratório, onde os cientistas realizam experiências que exigem tempo e dinheiro.
Isso está a começar a mudar. Os modelos de fronteira podem agora ligar-se diretamente à automatização laboratorial, propor experiências, executá-las em grande escala, aprender com os resultados e decidir o que fazer a seguir. Em grande parte das ciências da vida, o constrangimento é a iteração, e os laboratórios autónomos são projetados para eliminar essa limitação.
Em trabalhos anteriores, mostrámos que o GPT‑5 poderia melhorar os protocolos de wet labs através de experimentação em circuito fechado. Aqui, mostramos que a mesma abordagem pode reduzir o custo da produção de proteínas.
Estabelecemos uma parceria com a Ginkgo Bioworks(abre numa nova janela) para ligar o GPT‑5 a um laboratório cloud — um laboratório húmido automatizado operado remotamente através de software, onde robôs executam experiências e devolvem dados — e usámos essa configuração com laboratório no ciclo para otimizar um processo biológico amplamente utilizado: a síntese proteica sem células (CFPS). Ao longo de seis rondas de experimentação em ciclo fechado, o sistema testou mais de 36 000 composições únicas de reação de CFPS em 580 placas automatizadas. Depois de receber acesso a um computador, a um navegador Web e a artigos relevantes, o GPT‑5 precisou de três rondas de experimentação para estabelecer um novo estado da arte em CFPS de baixo custo, alcançando uma redução de 40% no custo de produção de proteínas (e uma melhoria de 57% no custo dos reagentes), incluindo novas composições de reação mais robustas a condições de reação comuns em laboratórios autónomos.
A síntese proteica acelular (CFPS) é uma técnica para produzir proteínas sem a necessidade de cultivar células vivas. Em vez de introduzir ADN nas células e aguardar que produzam uma proteína, a CFPS opera a maquinaria de produção de proteínas numa mistura controlada. Isto torna-a uma ferramenta prática para prototipagem e testes rápidos, uma vez que os cientistas podem realizar muitas experiências rapidamente e medir os resultados no mesmo dia.
As proteínas são uma grande parte daquilo que a biologia moderna fornece. Muitos medicamentos importantes têm como base proteínas. Muitos testes de diagnóstico e investigação dependem de proteínas. Em ambientes industriais, as proteínas atuam como enzimas que tornam os processos químicos mais limpos e eficientes. As proteínas podem ser encontradas até no detergente para a roupa. Quando a produção de proteínas se torna mais rápida e barata, os cientistas conseguem geralmente testar mais ideias mais cedo e reduzir o custo de transformar a investigação inicial em algo de que as pessoas possam beneficiar no dia a dia.
A CFPS já é útil para esse tipo de iteração. O problema é que a otimização é complicada e torna-se cara em grande escala.
A síntese proteica sem células exige ingredientes complexos e interdependentes: o molde de ADN que codifica a proteína a produzir, o lisado celular (a sopa de maquinaria celular do interior das células) e um grande número de componentes bioquímicos, desde fontes de energia até sais. É extremamente difícil raciocinar sobre o sistema como um todo, e muitos(abre numa nova janela) estudos(abre numa nova janela) anteriores(abre numa nova janela) aplicaram diferentes tipos de machine learning para reduzir o custo de produção de proteínas.
As formulações padrão de síntese proteica acelular (CFPS) e os kits comerciais têm frequentemente preços que refletem o ritmo de trabalho humano. Os laboratórios autónomos podem executar milhares de reações no tempo que uma equipa humana levaria a executar dezenas. A essa escala, o custo dos reagentes torna-se o fator limitante.
A CFPS também é difícil de otimizar apenas por intuição. É uma mistura de muitos componentes interativos. Pequenas alterações podem fazer a diferença, mas a direção do efeito nem sempre é óbvia, e as melhores combinações podem ser difíceis de encontrar sem realizar muitas experiências. As abordagens anteriores reduziram os custos, mas o progresso tende a ser gradual, uma vez que explorar o espaço minuciosamente exige muita mão-de-obra.
Emparelhámos o GPT‑5 com o laboratório em nuvem da Ginkgo Bioworks para formar um sistema autónomo de circuito fechado para a otimização da síntese proteica acelular (CFPS).
O GPT‑5 concebeu séries de experiências. O laboratório executou-as. Os resultados foram depois inseridos novamente no modelo. O modelo utilizou estes dados para propor a próxima ronda. Repetimos esse ciclo seis vezes.

O GPT‑5 concebeu séries de experiências num formato padrão de placa de 384 poços e executou-as no laboratório na nuvem da Ginkgo Bioworks. Assim que as experiências terminaram, o laboratório na nuvem enviou os dados de volta para o GPT‑5, onde o modelo analisou os resultados, gerou novas hipóteses e planeou a ronda de experiências seguinte.
Para manter o processo alinhado com o que um laboratório autónomo pode fazer, adicionámos uma validação programática rigorosa antes da execução de qualquer experiência. Essa validação garantiu que as experiências concebidas por IA eram fisicamente executáveis na plataforma de automatização. Isto impediu "experiências em papel" que parecem plausíveis no texto, mas não podem ser realizadas num fluxo de trabalho robótico.
Ao longo de toda a execução, o sistema realizou mais de 36 000 reações de CFPS em 580 placas automatizadas. Esta escala é importante porque é o que permite que os padrões surjam. Em biologia, experiências isoladas são ruidosas. Rendimento e iteração são a forma de separar sinal de ruído aleatório. Depois de o GPT‑5 ter acesso ao artigo e às ferramentas relevantes, precisou de três rondas de experimentação e dois meses para estabelecer um novo estado da arte: um custo de produção de proteínas 40% inferior face à melhor baseline anterior(abre numa nova janela).
Reconfigurable automation carts da Ginkgo Bioworks. Crédito: Ginkgo Bioworks
Verificámos que as melhorias resultaram da identificação de combinações que funcionam bem em conjunto e que se mantêm nas realidades da automatização de alta taxa de processamento.
Verificámos que o GPT‑5 identificou composições de reações de baixo custo que os humanos não tinham testado anteriormente nesta configuração. A síntese proteica acelular (CFPS) tem sido estudada há anos, mas o espaço de possíveis misturas ainda é vasto. Ao poder propor e executar milhares de combinações rapidamente, consegue encontrar regiões viáveis que seriam fáceis de passar despercebidas num fluxo de trabalho manual.
Verificámos também que as experiências de alto rendimento baseadas em placas diferem frequentemente das experiências manuais realizadas em bancada. A oxigenação pode ser inferior em formatos de reação de alta taxa de processamento. A mistura e a geometria podem ser diferentes. A maioria das reações de CFPS produz muito mais proteína em tubos de ensaio do que em placas de microtitulação, porque escalas maiores proporcionam frequentemente uma maior disponibilidade de oxigénio e uma melhor mistura. De facto, para reações em placas de microtitulação com baixo volume, o GPT‑5 propôs muitas reações que superaram as melhores anteriores imediatamente após ter acesso a um computador para análise de dados e a um navegador web para pesquisar artigos relevantes. De um modo geral, o GPT‑5 propôs várias combinações de reagentes que apresentaram um bom desempenho sob restrições de alto rendimento, incluindo muitas que são mais robustas em condições de baixo oxigénio, comuns em ambientes laboratoriais automatizados.
Além disso, verificámos que pequenas alterações nos componentes de tamponamento, regeneração energética e poliaminas tiveram um impacto desproporcional em relação ao seu custo. Estes nem sempre são os primeiros parâmetros que as pessoas procuram, mas, em alto rendimento, tornam-se hipóteses testáveis em vez de suposições básicas.
Por fim, a própria estrutura de custos definiu o que importava. Na CFPS, os custos são atualmente dominados pelo lisado e pelo ADN. Isto significa que o rendimento é a estratégia de maior alavancagem. Se conseguir aumentar a produção de proteína por unidade de input dispendioso, fará progressos significativos na redução de custos mesmo antes de procurar poupanças marginais noutras áreas.
Ao longo de seis rondas de experimentação autónoma, o sistema melhorou consistentemente a síntese proteica acelular, reduzindo os custos e aumentando simultaneamente o rendimento de proteínas. Os resultados são apresentados como custo de reação versus título de proteína para cada ronda, com os melhores compromissos a formar uma de fronteira. Os pontos maiores marcam o menor custo por grama alcançado em cada ronda, e a referência com estrela/pontilhado indica o melhor benchmark anterior em placas de 384 poços (Olsen et al., 2025). Uma análise mais detalhada das rondas posteriores destaca os ganhos finais, e um resumo de cada ronda mostra o melhor custo por grama a diminuir ao longo do tempo.
Estes resultados foram demonstrados numa proteína, a sfGFP, e num sistema de síntese proteica acelular (CFPS). A generalização para outras proteínas e outros sistemas de CFPS ainda tem de ser demonstrada.
A oxigenação e a geometria da reação podem afetar significativamente os rendimentos, e estes fatores podem variar em diferentes escalas. Algumas melhorias podem ser sensíveis a estas condições, e a compreensão destas sensibilidades faz parte do passo seguinte.
Foi necessária supervisão humana para melhorias no protocolo e no manuseamento de reagentes. O sistema pode conceber e interpretar experiências, mas o trabalho de laboratório ainda envolve detalhes práticos que requerem operadores experientes.
Planeamos aplicar a otimização laboratorial em circuito fechado a outros fluxos de trabalho biológicos onde uma iteração mais rápida pode desbloquear o progresso. Consideramos que os laboratórios autónomos são complementares aos modelos. Os modelos podem gerar projetos, mas, em última análise, a biologia ainda requer testes e iterações. Fechar o ciclo entre a geração e a experimentação é como se transformam ideias promissoras em resultados concretos.
À medida que trabalhamos para acelerar o progresso científico de forma segura e responsável, procuramos também avaliar e reduzir riscos, em particular os relacionados com a biosegurança. Estes resultados mostram que os modelos conseguem raciocinar no wet lab para melhorar protocolos e podem ter implicações para a biosegurança, que avaliamos e mitigamos através do nosso Preparedness Framework. Estamos empenhados em criar salvaguardas necessárias e criteriosas, ao nível do modelo e do sistema, para reduzir estes riscos, bem como em desenvolver avaliações para acompanhar os níveis atuais.
Estamos gratos aos nossos parceiros na Ginkgo Bioworks e às equipas que ajudaram a conceber, executar e apoiar o laboratório automatizado na nuvem por trás deste trabalho.


