GPT‑5 riduce i costi della sintesi proteica senza cellule
Collaborando con Ginkgo Bioworks, abbiamo creato un laboratorio autonomo guidato dall'IA e ottenuto una riduzione del 40% dei costi di produzione delle proteine.
Abbiamo osservato rapidi progressi dell'IA in settori come la matematica e la fisica, dove le idee possono spesso essere valutate senza interagire con il mondo fisico. La biologia è diversa. Il progresso passa attraverso il laboratorio, dove gli esperimenti condotti dagli scienziati richiedono tempo e risorse.
La situazione sta iniziando a cambiare. I modelli di frontiera possono ora connettersi direttamente all'automazione di laboratorio, proporre esperimenti, eseguirli su larga scala, apprendere dai risultati e decidere i passaggi successivi. Nelle scienze della vita, il vero limite è la capacità di iterare, e i laboratori autonomi nascono proprio per superarlo.
In lavori precedenti, abbiamo dimostrato che GPT‑5 poteva migliorare i protocolli di laboratorio umido attraverso esperimenti a ciclo chiuso. Qui mostriamo che lo stesso approccio può ridurre il costo di produzione delle proteine.
Abbiamo collaborato con Ginkgo Bioworks(si apre in una nuova finestra) per collegare GPT‑5 a un laboratorio cloud: un laboratorio biologico automatizzato gestito da remoto tramite software, in cui i robot eseguono esperimenti e restituiscono dati, e abbiamo utilizzato quella configurazione “lab-in-the-loop” per ottimizzare un processo biologico ampiamente utilizzato: la sintesi proteica senza cellule (CFPS). Nel corso di sei cicli di sperimentazione a ciclo chiuso, il sistema ha testato oltre 36.000 composizioni di reazione CFPS uniche su 580 piastre automatizzate. Dopo aver ottenuto l'accesso a un computer, a un browser web e ai documenti pertinenti, GPT‑5 ha impiegato tre cicli di sperimentazione per stabilire un nuovo stato dell'arte nella CFPS a basso costo, ottenendo una riduzione del 40% del costo di produzione delle proteine (e un miglioramento del 57% nel costo dei reagenti), includendo nuove composizioni di reazione più robuste alle condizioni di reazione comuni nei laboratori autonomi.
La sintesi proteica senza cellule (CFPS) è un metodo per produrre proteine senza coltivare cellule viventi. Invece di inserire il DNA nelle cellule e aspettare che producano una proteina, la CFPS aziona il macchinario di sintesi proteica in una miscela controllata. Questo la rende uno strumento pratico per la prototipazione rapida e i test, poiché gli scienziati possono eseguire molti esperimenti rapidamente e misurare i risultati nello stesso giorno.
Le proteine costituiscono una parte fondamentale di ciò che la biologia moderna offre. Molti farmaci importanti si basano sulle proteine. Molti test diagnostici e di ricerca richiedono l'uso di proteine. Negli ambienti industriali, le proteine agiscono come enzimi che rendono i processi chimici più puliti ed efficienti. Le proteine si trovano persino nel detersivo per il bucato. Quando la produzione di proteine diventa più rapida ed economica, gli scienziati possono solitamente esplorare più idee con minori tempi di attesa e abbattere i costi per trasformare la ricerca iniziale in benefici concreti per tutti.
La CFPS è già utile per quel tipo di iterazione. Il problema è che la sua ottimizzazione è complessa e i costi aumentano rapidamente su larga scala.
La sintesi proteica senza cellule richiede ingredienti complessi e interagenti: il modello di DNA che codifica la proteina desiderata, il lisato cellulare (il complesso di macchinari cellulari estratti dall’interno delle cellule) e numerosi componenti biochimici, dalle fonti di energia ai sali. È incredibilmente difficile ragionare sul sistema nel suo complesso e molti(si apre in una nuova finestra) precedenti(si apre in una nuova finestra) studi(si apre in una nuova finestra) hanno applicato diversi tipi di apprendimento automatico per ridurre il costo di produzione delle proteine.
Le formulazioni standard per la sintesi proteica senza cellule (CFPS) e i kit commerciali sono spesso tarati per ritmi di lavoro umani. I laboratori autonomi possono eseguire migliaia di reazioni nello stesso tempo in cui un team umano ne eseguirebbe solo alcune decine. A questo punto, il costo dei reagenti diventa il fattore limitante.
La CFPS è difficile da ottimizzare solo con l'intuizione. È una miscela di molti componenti interattivi. Piccoli cambiamenti possono fare la differenza, ma la direzione dell’effetto non è sempre evidente, e le migliori combinazioni possono essere difficili da individuare senza eseguire numerosi esperimenti. Gli approcci precedenti hanno ridotto i costi, ma i progressi tendono a essere incrementali perché esplorare lo spazio a fondo è laborioso.
Abbiamo abbinato GPT‑5 al laboratorio cloud di Ginkgo Bioworks per formare un sistema autonomo a ciclo chiuso per l'ottimizzazione della sintesi proteica senza cellule (CFPS).
GPT‑5 ha progettato gruppi di esperimenti. Il laboratorio li ha eseguiti. I risultati sono stati reinseriti nel modello. Il modello ha utilizzato quei dati per proporre il turno successivo. Abbiamo ripetuto quel ciclo sei volte.

GPT‑5 ha progettato lotti di esperimenti in un formato standard di piastra a 384 pozzetti e li ha eseguiti nel laboratorio cloud di Ginkgo Bioworks. Una volta terminati gli esperimenti, il laboratorio cloud ha trasferito i dati a GPT‑5, dove il modello ha analizzato i risultati, generato nuove ipotesi e progettato il ciclo successivo di esperimenti.
Per mantenere il ciclo ancorato a ciò che un laboratorio autonomo può effettivamente fare, abbiamo introdotto una rigorosa validazione programmata prima dell'esecuzione di ogni esperimento. Quella validazione ha assicurato che gli esperimenti progettati dall'IA fossero eseguibili fisicamente sulla piattaforma di automazione. Questo ha impedito esperimenti “su carta“ che sembrano plausibili in teoria ma che non possono essere eseguiti in un flusso di lavoro robotico.
Durante l'intera esecuzione, il sistema ha eseguito oltre 36.000 reazioni CFPS su 580 piastre automatizzate. Questa scala conta perché consente agli schemi di emergere. In biologia, i singoli esperimenti sono soggetti a variabilità. La capacità di elaborazione e l'iterazione sono ciò che permette di distinguere il segnale dal rumore di fondo. Una volta che GPT‑5 ha avuto accesso al documento e agli strumenti pertinenti, ci sono voluti tre cicli di sperimentazione e due mesi per stabilire un nuovo stato dell'arte: un costo di produzione delle proteine inferiore del 40% rispetto al miglior standard precedente(si apre in una nuova finestra).
Carrelli di automazione riconfigurabili di Ginkgo Bioworks. Fonte: Ginkgo Bioworks
Abbiamo scoperto che i miglioramenti derivano dall'identificazione di combinazioni che funzionano bene insieme e che resistono nelle realtà dell'automazione ad alto rendimento.
È emerso che GPT‑5 ha identificato composizioni di reazione a basso costo che non erano state precedentemente testate dagli esseri umani in questa configurazione. La sintesi proteica senza cellule (CFPS) è stata per anni oggetto di studio, ma le possibili miscele sono ancora moltissime. Proponendo ed eseguendo rapidamente migliaia di combinazioni, è possibile identificare soluzioni praticabili che sfuggono facilmente ai flussi di lavoro manuali.
Abbiamo inoltre riscontrato che gli esperimenti ad alto rendimento su piastre spesso differiscono dagli esperimenti manuali da banco. L'ossigenazione può essere inferiore nei formati di reazione ad alto rendimento. La miscelazione e la geometria possono variare. La maggior parte delle reazioni CFPS produce più proteine nelle provette rispetto alle piastre per microtitolazione, poiché le scale maggiori favoriscono generalmente una maggiore disponibilità di ossigeno e una miscelazione più efficace. Infatti, in reazioni su piastra a piccolo volume, GPT‑5 ha proposto subito molte reazioni più efficaci del miglior risultato precedente, grazie all'accesso a un computer per analisi e a un browser per consultare letteratura scientifica. Nel complesso, GPT‑5 ha proposto molte combinazioni di reagenti che hanno ottenuto buoni risultati sotto vincoli di alto rendimento, incluse molte che sono più robuste in condizioni di basso ossigeno comuni negli ambienti di laboratorio automatizzati.
Abbiamo inoltre rilevato che piccole modifiche nel buffering, nei componenti di rigenerazione dell'energia e nelle poliammine hanno avuto un impatto sproporzionato rispetto al loro costo. Non sempre questi sono i parametri che si considerano per primi, ma in contesti ad alto rendimento diventano ipotesi verificabili anziché supposizioni di fondo.
Infine, la struttura dei costi stessa ha influenzato ciò che era importante. Nella CFPS, i costi sono ora dominati dal lisato e dal DNA. Ciò significa che il rendimento è la strategia con il massimo effetto leva. Riuscendo ad aumentare la produzione di proteine per unità di input costoso, si ottengono progressi significativi sui costi ancora prima di cercare risparmi marginali altrove.
Attraverso sei cicli di sperimentazione autonoma, il sistema ha migliorato costantemente la sintesi proteica senza cellule, riducendo i costi e aumentando la resa proteica. I risultati sono rappresentati come rapporto tra costo della reazione e titolo proteico per ciascun round, con i migliori compromessi che tracciano una frontiera ottimale. I punti più grandi indicano il costo per grammo più basso raggiunto in ciascun round, e il riferimento a stella/puntinato indica il precedente benchmark all'avanguardia nelle piastre a 384 pozzetti (Olsen et al., 2025). Un'analisi più approfondita dei round successivi evidenzia i guadagni finali, e un riepilogo round per round mostra che il miglior costo per grammo diminuisce nel tempo.
Questi risultati sono stati dimostrati su una proteina, sfGFP, e su un sistema di sintesi proteica senza cellule (CFPS). La generalizzazione ad altre proteine e ad altri sistemi CFPS resta da verificare.
L'ossigenazione e la geometria della reazione possono influire notevolmente sulle rese, e questi fattori possono variare a seconda delle scale. Alcuni miglioramenti potrebbero essere sensibili a queste condizioni, e comprendere tali sensibilità è parte di ciò che seguirà.
Era necessaria la supervisione umana per migliorare i protocolli e gestire i reagenti. Il sistema può progettare e interpretare esperimenti, ma il lavoro di laboratorio comporta ancora dettagli pratici che richiedono operatori esperti.
Abbiamo in programma di applicare l'ottimizzazione lab-in-the-loop ad altri flussi di lavoro biologici, dove un'iterazione più rapida può sbloccare nuovi progressi. Vediamo i laboratori autonomi come complementari ai modelli. I modelli possono generare progetti, ma alla fine la biologia richiede ancora test e iterazioni. Chiudere il cerchio tra generazione e sperimentazione è come trasformare idee promettenti in risultati concreti.
Mentre ci impegniamo ad accelerare il progresso scientifico in modo sicuro e responsabile, ci proponiamo anche di valutare e ridurre i rischi, in particolare quelli legati alla biosicurezza. Questi dati indicano che i modelli sono in grado di ottimizzare protocolli in laboratorio umido e possono avere effetti sulla biosicurezza, che gestiamo e riduciamo tramite il nostro Preparedness framework. Ci impegniamo a costruire salvaguardie necessarie e dettagliate a livello di modello e di sistema per ridurre questi rischi, oltre a sviluppare valutazioni per monitorare i livelli attuali.
Siamo grati ai nostri partner di Ginkgo Bioworks e ai team che hanno contribuito a progettare, gestire e supportare il laboratorio cloud automatizzato che sta dietro a questo lavoro.


