GPT‑5 reduz o custo da síntese de proteínas acelular.
Em parceria com a Ginkgo Bioworks, criamos um laboratório autônomo baseado em inteligência artificial e alcançamos uma redução de 40% no custo de produção de proteínas.
Temos visto progressos rápidos da IA em áreas como matemática e física, onde as ideias podem muitas vezes ser avaliadas sem recorrer ao mundo físico. A biologia é diferente. O progresso acontece no laboratório, onde os cientistas realizam experimentos que exigem tempo e dinheiro.
Isso está começando a mudar. Os modelos de vanguarda agora podem se conectar diretamente à automação laboratorial, propor experimentos, executá-los em larga escala, aprender com os resultados e decidir o que fazer em seguida. Em grande parte das ciências da vida, o gargalo é a iteração, e os laboratórios autônomos são construídos para eliminar essa restrição.
Em trabalhos anteriores, mostramos que o GPT‑5 poderia aprimorar protocolos de laboratório úmido por meio de experimentação em circuito fechado. Aqui, mostramos que a mesma abordagem pode reduzir o custo de produção de proteínas.
Firmamos parceria com a Ginkgo Bioworks(abre em uma nova janela) para conectar o GPT‑5 a um laboratório em nuvem — um laboratório úmido automatizado operado remotamente por software, em que robôs executam experimentos e retornam dados — e usamos essa configuração com laboratório no loop para otimizar um processo biológico amplamente utilizado: a síntese proteica livre de células (CFPS). Ao longo de seis rodadas de experimentação em ciclo fechado, o sistema testou mais de 36.000 composições únicas de reações de CFPS em 580 placas automatizadas. Depois de receber acesso a um computador, um navegador da web e artigos relevantes, o GPT‑5 levou três rodadas de experimentação para estabelecer um novo estado da arte em CFPS de baixo custo, alcançando uma redução de 40% no custo de produção de proteínas (e uma melhora de 57% no custo dos reagentes), incluindo novas composições de reação mais robustas a condições comuns em laboratórios autônomos.
A síntese de proteínas livre de células (CFPS, na sigla em inglês) é uma forma de produzir proteínas sem cultivar células vivas. Em vez de inserir DNA nas células e esperar que elas produzam uma proteína, o CFPS executa a maquinaria de produção de proteínas em uma mistura controlada. Isso a torna uma ferramenta prática para prototipagem e testes rápidos, pois os cientistas podem realizar muitos experimentos rapidamente e medir os resultados no mesmo dia.
As proteínas são uma parte importante do que a biologia moderna oferece. Muitos medicamentos importantes são baseados em proteínas. Muitos testes de diagnóstico e pesquisa dependem de proteínas. Em ambientes industriais, as proteínas atuam como enzimas que tornam os processos químicos mais limpos e mais eficientes. As proteínas podem ser encontradas até mesmo no detergente para lavar roupa. Quando a produção de proteínas se torna mais rápida e barata, os cientistas geralmente conseguem testar mais ideias mais cedo e reduzir o custo de transformar pesquisas iniciais em algo que as pessoas possam usar no dia a dia.
O CFPS já é útil para esse tipo de iteração. O problema é que a otimização é complicada e se torna cara em grande escala.
A síntese proteica livre de células exige ingredientes complexos e interativos: o molde de DNA que codifica a proteína a ser produzida, o lisado celular (a mistura de maquinaria celular do interior das células) e um grande número de componentes bioquímicos, de fontes de energia a sais. É incrivelmente difícil raciocinar sobre o sistema como um todo, e muitos(abre em uma nova janela) estudos(abre em uma nova janela) anteriores(abre em uma nova janela) aplicaram diferentes tipos de machine learning para reduzir o custo de produção de proteínas.
Formulações padrão de síntese de proteínas acelular (CFPS) e kits comerciais geralmente têm preços que refletem o ritmo de trabalho humano. Laboratórios autônomos conseguem realizar milhares de reações no tempo em que uma equipe humana realizaria dezenas. Nessa escala, o custo dos reagentes se torna o fator limitante.
O CFPS também é difícil de otimizar apenas por intuição. É uma mistura de muitos componentes que interagem entre si. Pequenas mudanças podem fazer diferença, mas a direção do efeito nem sempre é óbvia, e as melhores combinações podem ser difíceis de encontrar sem realizar muitos experimentos. Abordagens anteriores reduziram custos, mas o progresso tende a ser gradual, pois explorar o espaço minuciosamente exige muita mão de obra.
Unimos o GPT‑5 ao laboratório em nuvem da Ginkgo Bioworks para formar um sistema autônomo de circuito fechado para otimização da síntese de proteínas livre de células (CFPS).
O GPT‑5 projetou lotes de experimentos. O laboratório os executou. Os resultados foram então inseridos novamente no modelo. O modelo utilizou esses dados para propor a próxima rodada. Repetimos esse ciclo seis vezes.

O GPT‑5 projetou lotes de experimentos em um formato padrão de placa de 384 poços e os executou no laboratório em nuvem da Ginkgo Bioworks. Assim que os experimentos terminaram, o laboratório em nuvem enviou os dados de volta para o GPT‑5, onde o modelo analisou os resultados, gerou novas hipóteses e projetou a próxima rodada de experimentos.
Para manter o processo alinhado com o que um laboratório autônomo pode fazer, adicionamos uma validação programática rigorosa antes da execução de qualquer experimento. Essa validação assegurou que os experimentos projetados por IA fossem fisicamente executáveis na plataforma de automação. Isso impediu "experimentos em papel" que parecem plausíveis no texto, mas não podem ser realizados em um fluxo de trabalho robótico.
Ao longo de toda a execução, o sistema realizou mais de 36.000 reações de CFPS em 580 placas automatizadas. Essa escala é importante porque é isso que permite que padrões emerjam. Na biologia, experimentos individuais são ruidosos. Throughput e iteração são a forma de separar sinal de ruído aleatório. Depois que o GPT‑5 teve acesso ao artigo e às ferramentas relevantes, ele levou três rodadas de experimentação e dois meses para estabelecer um novo estado da arte: custo de produção de proteínas 40% menor em comparação com a melhor baseline anterior(abre em uma nova janela).
Carrinhos de automação reconfiguráveis da Ginkgo Bioworks. Crédito: Ginkgo Bioworks
Constatamos que as melhorias resultaram da identificação de combinações que funcionam bem juntas e que se sustentam na realidade da automação de alto rendimento.
Descobrimos que o GPT‑5 identificou composições de reação de baixo custo que os humanos não haviam testado anteriormente nessa configuração. A síntese de proteínas livre de células (CFPS, na sigla em inglês) vem sendo estudada há anos, mas o leque de possíveis misturas ainda é vasto. Ao poder propor e executar milhares de combinações rapidamente, você consegue encontrar regiões viáveis que seriam fáceis de passar despercebidas em um fluxo de trabalho manual.
Descobrimos também que experimentos de alto rendimento baseados em placas frequentemente diferem de experimentos manuais realizados em bancada. Em formatos de reação de alto rendimento, a oxigenação pode ser menor. A mistura e a geometria podem ser diferentes. A maioria das reações de CFPS produz muito mais proteína em tubos de ensaio do que em placas de microtitulação, porque escalas maiores geralmente proporcionam maior disponibilidade de oxigênio e melhor mistura. De fato, para reações em placas de microtitulação com baixo volume, o GPT‑5 propôs muitas reações que superaram as melhores anteriores imediatamente após ter acesso a um computador para análise de dados e a um navegador da web para buscar artigos relevantes. De modo geral, o GPT‑5 propôs diversas combinações de reagentes que apresentaram bom desempenho sob restrições de alto rendimento, incluindo muitas que são mais robustas em condições de baixo oxigênio, comuns em ambientes de laboratório automatizados.
Além disso, descobrimos que pequenas alterações nos componentes de tamponamento, regeneração de energia e poliaminas tiveram um impacto desproporcional em relação ao seu custo. Esses nem sempre são os primeiros parâmetros que as pessoas procuram, mas em alto rendimento, eles se tornam hipóteses testáveis em vez de suposições básicas.
Por fim, a própria estrutura de custos definiu o que importava. Na CFPS, os custos são atualmente dominados pelo lisado e pelo DNA. Isso significa que o rendimento é a estratégia de maior alavancagem. Se você conseguir aumentar a produção de proteína por unidade de insumo caro, fará um progresso significativo na redução de custos mesmo antes de buscar economias marginais em outras áreas.
Ao longo de seis rodadas de experimentação autônoma, o sistema melhorou progressivamente a síntese de proteínas livre de células, reduzindo custos e aumentando o rendimento proteico. Os resultados são apresentados como custo da reação versus título de proteína para cada rodada, com as melhores relações de compromisso formando uma fronteira. Os pontos maiores indicam o menor custo por grama alcançado em cada rodada, e a referência com estrela/ponto indica o melhor resultado anterior em placas de 384 poços (Olsen et al., 2025). Uma análise mais detalhada das rodadas posteriores destaca os ganhos finais, e um resumo rodada por rodada mostra que o melhor custo por grama está diminuindo ao longo do tempo.
Esses resultados foram demonstrados em uma proteína, sfGFP, e em um sistema de síntese de proteínas livre de células (CFPS). A generalização para outras proteínas e outros sistemas CFPS ainda precisa ser demonstrada.
A oxigenação e a geometria da reação podem afetar fortemente os rendimentos, e esses fatores podem variar em diferentes escalas. Algumas melhorias podem ser sensíveis a essas condições, e compreender essas sensibilidades faz parte do próximo passo.
A supervisão humana foi necessária para melhorias no protocolo e no manuseio de reagentes. O sistema pode projetar e interpretar experimentos, mas o trabalho de laboratório ainda envolve detalhes práticos que exigem operadores experientes.
Planejamos aplicar a otimização lab-in-the-loop a outros fluxos de trabalho biológicos onde uma iteração mais rápida pode desbloquear o progresso. Consideramos os laboratórios autônomos como complementares aos modelos. Os modelos podem gerar projetos, mas, em última análise, a biologia ainda requer testes e iterações. Fechar o ciclo entre a geração e a experimentação é como se transformam ideias promissoras em resultados concretos.
Ao mesmo tempo em que trabalhamos para acelerar o progresso científico de forma segura e responsável, também procuramos avaliar e reduzir os riscos, em particular os relacionados com a biossegurança. Esses resultados mostram que os modelos podem raciocinar em laboratório para aprimorar protocolos e podem ter implicações para a biossegurança, que avaliamos e mitigamos por meio de nossa Estrutura de Preparação. Estamos empenhados em construir salvaguardas necessárias e detalhadas, tanto a nível de modelo quanto de sistema, para reduzir esses riscos, bem como em desenvolver avaliações para monitorar os níveis atuais.
Somos gratos aos nossos parceiros da Ginkgo Bioworks e às equipes que ajudaram a projetar, operar e dar suporte ao laboratório automatizado em nuvem que está por trás deste trabalho.


