GPT‑5 reduce el costo de la síntesis de proteínas sin células
En colaboración con Ginkgo Bioworks, creamos un laboratorio autónomo impulsado por IA y logramos una reducción del 40 % en el costo de producción de proteínas.
Hemos visto un rápido progreso de la IA en campos como matemáticas y física, donde las ideas a menudo pueden evaluarse sin tocar el mundo físico. La biología es diferente. El progreso avanza en el laboratorio, donde los científicos llevan a cabo experimentos que requieren tiempo y dinero.
Eso está empezando a cambiar. Los modelos de vanguardia ahora pueden conectarse directamente a la automatización de laboratorio, proponer experimentos, ejecutarlos a gran escala, aprender de los resultados y decidir qué hacer después. En gran parte de las ciencias de la vida, el cuello de botella es la iteración, y los laboratorios autónomos se construyen para eliminar esa restricción.
En trabajos anteriores, demostramos que GPT‑5 podía mejorar los protocolos de laboratorio húmedo mediante experimentación en bucle cerrado. Aquí demostramos que el mismo enfoque puede reducir el costo de producción de proteínas.
Nos asociamos con Ginkgo Bioworks(se abre en una nueva ventana) para conectar GPT‑5 a un laboratorio en la nube: un laboratorio húmedo automatizado operado de forma remota mediante software, donde los robots ejecutan experimentos y devuelven datos. Usamos esa configuración de laboratorio en el circuito para optimizar un proceso biológico ampliamente utilizado: la síntesis de proteínas sin células (CFPS). Durante seis rondas de experimentación en circuito cerrado, el sistema probó más de 36 000 composiciones únicas de reacción de CFPS en 580 placas automatizadas. Después de recibir acceso a una computadora, un navegador web y documentos relevantes, GPT‑5 realizó tres rondas de experimentación para establecer un nuevo estándar en CFPS de bajo costo. Así logró una reducción del 40 % en el costo de producción de proteínas (y una mejora del 57 % en el costo de los reactivos), incluidas nuevas composiciones de reacción que son más resistentes a las condiciones comunes en laboratorios autónomos.
La síntesis de proteínas sin células (CFPS) es un método para producir proteínas sin necesidad de cultivar células vivas. En lugar de introducir ADN en las células y esperar a que produzcan una proteína, CFPS opera la maquinaria de síntesis de proteínas en una mezcla controlada. Esto la convierte en una herramienta práctica para el prototipado rápido y las pruebas, ya que los científicos pueden realizar muchos experimentos rápidamente y medir los resultados el mismo día.
Las proteínas son una parte importante de lo que aporta la biología moderna. Muchos medicamentos importantes están basados en proteínas. Muchos ensayos de diagnóstico e investigación dependen de proteínas. En entornos industriales, las proteínas funcionan como enzimas que hacen que los procesos químicos sean más limpios y eficientes. Las proteínas incluso se encuentran en tu detergente de lavandería. Cuando la producción de proteínas se vuelve más rápida y económica, los científicos generalmente pueden probar más ideas más pronto y reducir el costo de transformar la investigación inicial en algo de lo que las personas puedan beneficiarse diariamente.
CFPS ya es útil para ese tipo de iteración. El cuello de botella es que resulta complicado optimizar y se vuelve caro a gran escala.
La síntesis de proteínas sin células requiere ingredientes complejos e interrelacionados: la plantilla de ADN que codifica la proteína a producir, el lisado celular (la mezcla de maquinaria celular del interior de las células) y una gran cantidad de componentes bioquímicos que van desde fuentes de energía hasta sales. Es increíblemente difícil razonar sobre el sistema en su totalidad, y muchos(se abre en una nueva ventana) estudios(se abre en una nueva ventana) previos(se abre en una nueva ventana) han aplicado diferentes tipos de aprendizaje automático para reducir el costo de producción de proteínas.
Las formulaciones estándar de síntesis de proteínas sin células (CFPS) y los kits comerciales suelen estar valorados para un ritmo de trabajo humano. Los laboratorios autónomos pueden realizar miles de reacciones en el tiempo que un equipo humano podría realizar docenas. A esa escala, el costo de los reactivos se convierte en el factor limitante.
CFPS también es difícil de optimizar únicamente por intuición. Es una mezcla de muchos componentes que interactúan entre sí. Los pequeños cambios pueden ser importantes, pero la dirección del efecto no siempre es obvia, y las mejores combinaciones pueden ser difíciles de encontrar sin realizar muchos experimentos. Los enfoques previos han reducido los costos, pero el progreso tiende a ser incremental porque explorar el espacio a fondo es laborioso.
Combinamos GPT‑5 con el laboratorio en la nube de Ginkgo Bioworks para crear un sistema autónomo de ciclo cerrado para optimizar la síntesis de proteínas sin células (CFPS).
GPT‑5 diseñó lotes de experimentos. El laboratorio los llevó a cabo. Los resultados se introdujeron de nuevo en el modelo. El modelo utilizó esos datos para proponer la siguiente ronda. Repetimos ese ciclo seis veces.

GPT‑5 diseñó lotes de experimentos en un formato estándar de placa de 384 pocillos y los ejecutó en el laboratorio en la nube de Ginkgo Bioworks. Una vez finalizados los experimentos, el laboratorio en la nube devolvió los datos a GPT‑5, donde el modelo analizó los resultados, generó nuevas hipótesis y diseñó la próxima ronda de experimentos.
Para mantener el ciclo centrado en lo que un laboratorio autónomo puede hacer, agregamos una validación programática estricta antes de que se realizara cualquier experimento. Esa validación aseguraba que los experimentos diseñados por IA fueran físicamente ejecutables en la plataforma de automatización. Evitó los “experimentos de papel” que parecen plausibles en el texto, pero no se pueden realizar en un flujo de trabajo robótico.
A lo largo de toda la ejecución, el sistema realizó más de 36 000 reacciones CFPS en 580 placas automatizadas. Esta escala importa porque es lo que permite que los patrones emerjan. En biología, los experimentos individuales son imprecisos. El rendimiento y la iteración son cómo separas la señal del ruido aleatorio. Una vez que GPT‑5 tuvo acceso al artículo relevante y a las herramientas necesarias, se requirieron tres rondas de experimentación y dos meses para establecer un nuevo estándar: un 40 % menos en el costo de producción de proteínas en comparación con el mejor punto de referencia anterior(se abre en una nueva ventana).
Sistemas de automatización reconfigurables de Ginkgo Bioworks. Crédito: Ginkgo Bioworks
Descubrimos que las mejoras surgieron al identificar combinaciones que funcionan bien juntas y que se mantienen en las realidades de la automatización de alto rendimiento.
Descubrimos que GPT‑5 identificó composiciones de reacción económicas que los humanos no habían probado antes en esta configuración. La síntesis de proteínas sin células (CFPS) se ha estudiado durante años, pero el espacio de posibles combinaciones sigue siendo amplio. Cuando puedes proponer y ejecutar miles de combinaciones rápidamente, puedes encontrar regiones viables que son fáciles de pasar por alto con un flujo de trabajo manual.
También encontramos que los experimentos de alto rendimiento basados en placas a menudo difieren de los experimentos manuales de banco. La oxigenación puede ser menor en formatos de reacción de alto rendimiento. La mezcla y la geometría pueden ser distintas. La mayoría de las reacciones de CFPS producen mucha más proteína en tubos de ensayo que en placas de microtitulación, porque las escalas más grandes generalmente ofrecen mayor disponibilidad de oxígeno y mejor mezcla. De hecho, para reacciones en placas a bajo volumen, GPT‑5 propuso muchas reacciones que superaron a las mejores anteriores inmediatamente después de acceder a una computadora para análisis de datos y a un navegador web para buscar artículos relevantes. En general, GPT‑5 propuso muchas combinaciones de reactivos que funcionaron bien bajo restricciones de alto rendimiento, incluidas muchas que son más robustas en condiciones de bajo oxígeno comunes en entornos de laboratorio automatizados.
Además, descubrimos que pequeños cambios en el almacenamiento en búfer, los componentes de regeneración de energía y las poliaminas tuvieron un impacto desproporcionado en relación con su costo. Estos no siempre son los primeros parámetros a los que la gente recurre, pero con un alto rendimiento, se convierten en hipótesis comprobables en lugar de suposiciones de fondo.
Finalmente, la estructura de costos en sí misma determinó lo que era importante. En CFPS, los costos ahora están dominados por el lisado y el ADN. Eso significa que el rendimiento es la estrategia de mayor apalancamiento. Si puedes aumentar la producción de proteína por cada unidad de insumo costoso, logras un progreso significativo en los costos incluso antes de buscar ahorros marginales en otros lugares.
A través de seis rondas de experimentación autónoma, el sistema mejoró constantemente la síntesis de proteínas sin células: redujo los costos y aumentó el rendimiento de proteínas. Los resultados se muestran como costo de reacción frente al título de proteína para cada ronda, y los mejores compromisos forman una de vanguardia. Los puntos más grandes marcan el menor costo por gramo logrado en cada ronda, y la referencia de estrella/punteada indica el punto de referencia previo del estado del arte en placas de 384 pocillos (Olsen et al., 2025). Un análisis más detallado de las rondas posteriores resalta las ganancias finales, y un resumen de cada ronda muestra que el mejor costo por gramo disminuye con el tiempo.
Estos resultados se demostraron en una proteína, sfGFP, y un sistema de síntesis de proteínas sin células (CFPS). Todavía es necesario demostrar la generalización a otras proteínas y a otros sistemas de CFPS.
La oxigenación y la geometría de la reacción pueden influir significativamente en los rendimientos, y estos factores pueden variar a diferentes escalas. Algunas mejoras pueden ser sensibles a estas condiciones, y entender esas sensibilidades es parte de lo que sigue.
Se necesitó supervisión humana para mejorar el protocolo y manejar los reactivos. El sistema puede diseñar e interpretar experimentos, pero el trabajo de laboratorio aún implica detalles prácticos que necesitan operadores experimentados.
Planeamos aplicar la optimización de laboratorio en el bucle a otros flujos de trabajo biológicos donde una iteración más rápida pueda desbloquear el progreso. Vemos los laboratorios autónomos como complementarios de los modelos. Los modelos pueden generar diseños, pero al final la biología todavía necesita pruebas e iteraciones. Cerrar el ciclo entre la generación y la experimentación es cómo conviertes ideas prometedoras en resultados funcionales.
Mientras trabajamos para acelerar el progreso científico de manera segura y responsable, también buscamos evaluar y reducir los riesgos, especialmente aquellos relacionados con la bioseguridad. Estos resultados muestran que los modelos pueden razonar en el laboratorio húmedo para mejorar los protocolos, y pueden tener implicaciones para la bioseguridad que evaluamos y mitigamos a través de nuestro Marco de preparación. Estamos comprometidos a construir salvaguardas necesarias y matizadas a nivel de modelo y sistema para reducir estos riesgos, así como desarrollar evaluaciones para seguir los niveles actuales.
Agradecemos a nuestros socios en Ginkgo Bioworks y a los equipos que ayudaron a diseñar, operar y apoyar el laboratorio automatizado en la nube detrás de este trabajo.


