GPT‑5 reduce el coste de la síntesis de proteínas sin células
En asociación con Ginkgo Bioworks, creamos un laboratorio autónomo impulsado por IA, consiguiendo una reducción del 40 % en el coste de producción de proteínas.
Hemos visto un rápido progreso de la IA en campos como matemáticas y física, donde las ideas a menudo pueden evaluarse sin tocar el mundo físico. La biología es diferente. El progreso pasa por el laboratorio, donde los científicos hacen experimentos que requieren tiempo y dinero.
Eso está empezando a cambiar. Los modelos de vanguardia ahora pueden conectarse directamente a la automatización de laboratorio, proponer experimentos, ejecutarlos a escala, aprender de los resultados y decidir qué hacer a continuación. En gran parte de las ciencias de la vida, el cuello de botella es la iteración; eso hace que se creen laboratorios autónomos para eliminar esa limitación.
En trabajos anteriores, mostramos que GPT‑5 podía mejorar los protocolos de laboratorio húmedo mediante experimentación en bucle cerrado. Aquí mostramos que el mismo enfoque puede reducir el coste de producción de proteínas.
Nos asociamos con Ginkgo Bioworks(se abre en una ventana nueva) para conectar GPT‑5 a un laboratorio en la nube: un laboratorio húmedo automatizado operado de forma remota mediante software, donde los robots ejecutan experimentos y devuelven datos. Usamos esa configuración de LITL para optimizar un proceso biológico ampliamente utilizado: la síntesis de proteínas libres de células (CFPS). Durante seis rondas de experimentos de bucle cerrado, el sistema probó más de 36 000 composiciones únicas de reacción de CFPS en 580 placas automatizadas. Después de recibir acceso a un ordenador, un navegador web y documentos relevantes, GPT‑5 realizó tres rondas de experimentos para establecer un nuevo estándar en CFPS de bajo coste, logrando una reducción del 40 % en el coste de producción de proteínas (y una mejora del 57 % en el coste de los reactivos), incluidas nuevas composiciones de reacción que son más resistentes a las condiciones comunes en laboratorios autónomos.
La síntesis de proteínas libres de células (CFPS) es una manera de desarrollar proteínas sin necesidad de cultivar células vivas. En lugar de introducir ADN en las células y esperar a que produzcan una proteína, la CFPS ejecuta la maquinaria de producción de proteínas en una mezcla controlada. Eso lo convierte en una herramienta práctica para el desarrollo rápido de prototipos y la realización de pruebas, permitiendo a los científicos realizar muchos experimentos con rapidez y medir los resultados el mismo día.
Las proteínas constituyen una gran parte de lo que aporta la biología moderna. Muchos medicamentos importantes se basan en proteínas. Muchos diagnósticos y ensayos de investigación dependen de las proteínas. En entornos industriales, las proteínas funcionan como enzimas que hacen que los procesos químicos sean más limpios y eficientes. Las proteínas incluso se encuentran en nuestro detergente para la ropa. Cuando la producción de proteínas es un proceso más rápido y económico, en términos generales, conllevará que los científicos puedan probar un mayor número de ideas con más rapidez así como reducir el coste de convertir la investigación inicial en algo de lo que las personas puedan beneficiarse a diario.
La CFPS ya es útil para ese tipo de iteración. El cuello de botella reside en el hecho de que es complicado optimizarla y que resulta caro a gran escala.
La síntesis de proteínas libres de células requiere ingredientes complejos e interrelacionados: la plantilla de ADN que codifica la proteína a producir, el lisado celular (la «mezcla» de maquinaria celular del interior de las células) y una gran cantidad de componentes bioquímicos que van desde fuentes de energía hasta sales. Es extremadamente difícil razonar sobre el sistema en su conjunto, y muchos(se abre en una ventana nueva) estudios(se abre en una ventana nueva) previos(se abre en una ventana nueva) han aplicado diferentes tipos de aprendizaje automático para reducir el coste de producción de proteínas.
Las formulaciones estándar de síntesis de proteínas libres de células (CFPS) y los kits comerciales suelen estar valorados para un trabajo a ritmo humano. Los laboratorios autónomos son capaces de realizar miles de reacciones en el mismo tiempo que un equipo humano podría realizar docenas. A esa escala, el coste de los reactivos se convierte en el factor limitante.
La CFPS también es difícil de optimizar solo con intuición. Se trata de una mezcla de muchos componentes que interactúan. Pequeños cambios pueden ser significativos, aunque la dirección del efecto no siempre es obvia; por otra parte, es posible que sea difícil encontrar las mejores combinaciones si no se llevan a cabo muchos experimentos. Los enfoques anteriores han reducido los costes, pero el progreso tiende a ser incremental si se tiene en cuenta que la exploración a fondo del espacio requiere mucho trabajo.
Combinamos GPT‑5 con el laboratorio en la nube de Ginkgo Bioworks para crear un sistema autónomo de bucle cerrado y optimizar la síntesis de proteínas libres de células (CFPS).
GPT‑5 diseñó lotes de experimentos. El laboratorio los ejecutó. Los resultados se devuelven al modelo. El modelo usó esos datos para proponer la próxima ronda. Repetimos ese ciclo seis veces.

GPT‑5 diseñó lotes de experimentos en un formato estándar de placa de 384 pocillos y los ejecutó en el laboratorio en la nube de Ginkgo Bioworks. Una vez finalizados los experimentos, el laboratorio en la nube devolvió los datos a GPT‑5, donde el modelo analizó los resultados, generó nuevas hipótesis y diseñó la próxima ronda de experimentos.
Para mantener el bucle centrado en lo que un laboratorio autónomo puede hacer, agregamos una validación programática estricta antes de que se realizara cualquier experimento. Esa validación aseguraba que los experimentos diseñados por IA fueran físicamente ejecutables en la plataforma de automatización. Evitó los «experimentos sobre el papel», que parecen plausibles en el texto, pero no se pueden llevar a cabo en un flujo de trabajo robótico.
A lo largo de toda la ejecución, el sistema llevó a cabo más de 36 000 reacciones de CFPS en 580 placas automatizadas. Esta escala es importante porque es lo que permite que los patrones emerjan. En biología, los experimentos individuales son ruidosos. A través del rendimiento y la iteración es posible separar la señal del ruido aleatorio. Una vez que GPT‑5 tuvo acceso al documento pertinente y a las herramientas necesarias, se requirieron tres rondas de experimentos y un periodo de dos meses para establecer un nuevo avance: un 40 % menos en el coste de producción de proteínas en comparación con el mejor indicador de referencia anterior(se abre en una ventana nueva).
RAC (reconfigurable automation carts) de Ginkgo Bioworks. Créditos: Ginkgo Bioworks
Descubrimos que las mejoras venían de identificar combinaciones que funcionan bien juntas y que se sostienen en las realidades de la automatización de alto rendimiento.
Descubrimos que GPT‑5 identificó composiciones de reacciones de bajo coste que los humanos no habían probado antes en esta configuración. La síntesis de proteínas libres de células (CFPS) se ha investigado durante años, pero el ámbito de posibles combinaciones sigue siendo amplio. Cuando se tiene capacidad para proponer y ejecutar miles de combinaciones con rapidez, es posible encontrar espacios viables que fácilmente pueden pasarse por alto con un flujo de trabajo manual.
También encontramos que los experimentos de alto rendimiento basados en placas a menudo difieren de los experimentos manuales de mesa. La oxigenación puede ser más baja en formatos de reacción de alto rendimiento. La mezcla y la geometría pueden ser distintas. La mayoría de las reacciones de CFPS producen mucha más proteína en tubos de ensayo que en placas de microtítulos, porque las escalas mayores generalmente ofrecen más disponibilidad de oxígeno y mejor mezcla. De hecho, para reacciones en placas a bajo volumen, GPT‑5 propuso muchas reacciones que superaron a las mejores inmediatamente anteriores una vez que accedieron a un ordenador para el análisis de datos y a un navegador web para buscar artículos relevantes. En general, GPT‑5 propuso muchas combinaciones de reactivos que funcionaron bien bajo restricciones de alto rendimiento, entre las que se incluyen muchas que son más robustas en condiciones de bajo oxígeno y habituales en entornos de laboratorio automatizados.
También averiguamos que pequeños cambios en el buffering, los componentes de regeneración de energía y las poliaminas tuvieron un impacto desproporcionado en relación con su coste. Estos no son siempre los primeros parámetros a los que recurre la gente, pero con un alto rendimiento, se convierten en hipótesis comprobables en lugar de suposiciones de fondo.
Finalmente, la estructura de costes en sí misma determinó lo que era importante. En la CFPS, los costes ahora están dominados por el lisado y el ADN. Eso significa que el rendimiento es la estrategia de mayor apalancamiento. Si eres capaz de aumentar la producción de proteína por cada unidad de insumo costoso, lograrás un progreso significativo en los costes incluso antes de buscar ahorros marginales en otros lugares.
A través de seis rondas de experimentación autónoma, el sistema mejoró constantemente la síntesis de proteínas libres de células, reduciendo los costes y aumentando el rendimiento de proteínas. Los resultados se muestran como coste de reacción frente al título de proteína para cada ronda, y los mejores compromisos forman una de vanguardia. Los puntos más grandes marcan el menor coste por gramo logrado en cada ronda, y la referencia de estrella/punteada señala el indicador de referencia previo más avanzado en placas de 384 pocillos (Olsen et al., 2025). Un análisis más detallado de las rondas posteriores resalta las ganancias finales, y un resumen de cada ronda muestra que el mejor coste por gramo disminuye con el tiempo.
Estos resultados se demostraron en una proteína, la sfGFP, y un sistema de síntesis de proteínas libres de células (CFPS). Todavía queda por demostrar la generalización a otras proteínas y a otros sistemas CFPS.
La oxigenación y la geometría de la reacción pueden influir significativamente en los rendimientos, y estos factores pueden variar a diferentes escalas. Algunas mejoras pueden ser sensibles a estas condiciones, y entender esas sensibilidades es parte de lo que sigue.
Se necesitó supervisión humana para mejorar el protocolo y manejar los reactivos. El sistema puede diseñar e interpretar experimentos, pero el trabajo de laboratorio aún implica detalles prácticos que necesitan operadores experimentados.
Planeamos aplicar la optimización de LITL a otros flujos de trabajo biológicos donde una iteración más rápida pueda desbloquear el progreso. Vemos los laboratorios autónomos como complementarios de los modelos. Los modelos pueden generar diseños, pero al final la biología todavía necesita pruebas e iteraciones. Cerrar el bucle entre la generación y la experimentación consiste en convertir ideas prometedoras en resultados funcionales.
Mientras trabajamos para acelerar el progreso científico de manera segura y responsable, también buscamos evaluar y reducir los riesgos, especialmente los relacionados con la bioseguridad. Estos resultados muestran que los modelos pueden razonar en el laboratorio húmedo para mejorar los protocolos, y pueden tener implicaciones para la bioseguridad que evaluamos y mitigamos a través de nuestro Marco de preparación. Nos comprometemos a desarrollar las medidas de protección necesarias y matizadas a nivel de modelo y sistema para reducir estos riesgos, así como a diseñar evaluaciones para llevar un seguimiento de los niveles actuales.
Agradecemos a nuestros socios en Ginkgo Bioworks y a los equipos que ayudaron a diseñar, operar y apoyar el laboratorio automatizado en la nube detrás de este trabajo.


