GPT‑5 sænker omkostningerne ved cellefri proteinsyntese
I samarbejde med Ginkgo Bioworks skabte vi et AI-drevet autonomt laboratorium og opnåede en reduktion på 40 % i omkostningerne til proteinproduktion.
Vi har set hurtige fremskridt fra AI inden for områder såsom matematik og fysik, hvor ideer ofte kan vurderes uden at berøre den fysiske verden. Biologi er anderledes. Fremskridt sker i laboratoriet, hvor forskere udfører eksperimenter, der kræver tid og penge.
Det er begyndt at ændre sig. Banebrydende modeller kan nu forbinde direkte til laboratorieautomatisering, foreslå eksperimenter, udføre dem i stor skala, lære af resultaterne og beslutte, hvad de skal gøre næste gang. I store dele af livsvidenskab er flaskehalsen iteration, og autonome laboratorier er bygget til at fjerne denne begrænsning.
I tidligere arbejde viste vi, at GPT‑5 kunne forbedre vådlaboratorieprotokoller gennem eksperimenter i lukkede kredsløb. Her viser vi, at den samme tilgang kan reducere omkostningerne ved proteinproduktion.
Vi samarbejdede med Ginkgo Bioworks(åbner i et nyt vindue) for at forbinde GPT‑5 til et cloud-laboratorium, som er et automatiseret vådlaboratorium, der køres eksternt via software, hvor robotter udfører eksperimenter og returnerer data. Vi brugte denne laboratorie-i-loop-opsætning til at optimere en udbredt biologisk proces: cellefri proteinsyntese (CFPS). Gennem seks runder med lukket kredsløbseksperimenter testede systemet mere end 36.000 unikke CFPS-reaktionssammensætninger på tværs af 580 automatiserede plader. Efter at have fået adgang til en computer, en webbrowser og relevante papirer, gennemførte GPT‑5 tre runder af eksperimenter for at etablere en ny standard inden for lavpris-CFPS, hvilket resulterede i en reduktion på 40 til omkostningerne for proteinproduktion (og en 57 % forbedring i omkostningerne til reagenser), inklusive nye reaktionssammensætninger, der er mere robuste over for reaktionsbetingelser, som er almindelige i autonome laboratorier.
Cellefri proteinsyntese (CFPS) er en metode, der bruges til at fremstille proteiner uden at dyrke levende celler. I stedet for at indsætte DNA i celler og vente på, at de producerer et protein, driver CFPS det proteinproducerende maskineri i en kontrolleret blanding. Det gør det til et praktisk værktøj til hurtig prototypefremstilling og test, da forskere kan udføre mange eksperimenter hurtigt og måle resultaterne samme dag.
Proteiner udgør en stor del af det, som moderne biologi leverer. Mange vigtige lægemidler er baseret på proteiner. Mange diagnostiske og forskningsmæssige analyser er afhængige af proteiner. I industrielle miljøer fungerer proteiner som enzymer, der gør kemiske processer renere og mere effektive. Proteiner findes endda i vaskemiddel. Når proteinproduktionen bliver hurtigere og billigere, kan forskere som regel afprøve flere ideer tidligere og reducere omkostningerne ved at omsætte tidlig forskning til noget, som vi kan få gavn af i hverdagen.
CFPS er allerede nyttigt til den slags iteration. Flaskehalsen består i, at det er vanskeligt at optimere og det bliver dyrt i stor skala.
Cellefri proteinsyntese kræver komplekse, interagerende ingredienser: DNA-skabelonen, der koder for det protein, der skal fremstilles, cellelysatet (suppen af cellulært maskineri fra cellernes indre) og et stort antal biokemiske komponenter, der spænder fra energikilder til salte. Det er utroligt svært at ræsonnere om systemet som helhed, og mange(åbner i et nyt vindue) tidligere(åbner i et nyt vindue) studier(åbner i et nyt vindue) har anvendt forskellige typer maskinlæring til at reducere omkostningerne ved proteinproduktion.
Standardformuleringer og kommercielle kits til cellefri proteinsyntese (CFPS) er ofte prissat til arbejde i et tempo, der passer til mennesker. Autonome laboratorier kan udføre tusindvis af reaktioner på den tid, et menneskeligt team måske ville udføre snesevis. På den skala bliver omkostningerne til reagenser den begrænsende faktor.
CFPS er også svært at optimere kun ved hjælp af intuition. Det er en blanding af mange interagerende komponenter. Små ændringer kan have stor betydning, men retningen af effekten er ikke altid indlysende, og de bedste kombinationer kan være svære at finde uden at udføre mange eksperimenter. Tidligere tilgange har reduceret omkostningerne, men fremskridt har en tendens til at være gradvise, fordi det er arbejdskrævende at udforske området grundigt.
Vi parrede GPT‑5 med Ginkgo Bioworks' cloud-laboratorium for at danne et lukket, autonomt system til optimering af cellefri proteinsyntese (CFPS).
GPT‑5 designede serier af eksperimenter. Laboratoriet udførte dem. Resultaterne blev ført tilbage til modellen. Modellen brugte derefter disse data til at foreslå den næste runde. Vi gentog denne cyklus seks gange.

GPT‑5 designede sæt af eksperimenter i et standard 384-brønds pladeformat og kørte dem på Ginkgo Bioworks’ cloud-laboratorium. Da eksperimenterne var afsluttet, sendte cloud-laboratoriet dataene tilbage til GPT‑5, hvor modellen analyserede resultaterne, genererede nye hypoteser og designede den næste runde af eksperimenter.
For at holde kredsløbet forankret i, hvad et autonomt laboratorium kan gøre, tilføjede vi streng programmatisk validering, før et eksperiment blev kørt. Den validering håndhævede, at AI-designede eksperimenter kunne udføres fysisk på automatiseringsplatformen. Det forhindrede “papireksperimenter”, der ser plausible ud i tekst, men som ikke kan udføres i en robotarbejdsgang.
I løbet af hele kørslen udførte systemet mere end 36.000 CFPS-reaktioner på 580 automatiserede plader. Denne skala betyder noget, fordi det er den, der gør, at mønstre kan opstå. Inden for biologi er enkeltstående eksperimenter ofte støjende. Gennemløb og iteration er måden, hvorpå man adskiller signal fra tilfældig støj. Da GPT‑5 først havde fået adgang til det relevante materiale og de relevante værktøjer, tog det tre runder med eksperimenter og to måneder at etablere et nyt niveau: 40 % lavere proteinproduktionsomkostninger sammenlignet med den bedste tidligere baseline(åbner i et nyt vindue).
Ginkgo Bioworks’ rekonfigurerbare automatiseringsvogne. Kilde: Ginkgo Bioworks
Vi fandt ud af, at forbedringerne kom fra at identificere kombinationer, der fungerer godt sammen, og som holder i realiteterne inden for automatisering med høj kapacitet.
Vi fandt, at GPT‑5 identificerede billige reaktionssammensætninger, som mennesker ikke tidligere havde testet i denne konfiguration. Cellefri proteinsyntese (CFPS) er blevet studeret i årevis, men mængden af mulige blandinger er stadig stor. Når det er muligt at foreslå og udføre tusindvis af kombinationer, kan der findes brugbare områder, som let overses i en manuel arbejdsgang.
Vi fandt endvidere, at pladebaserede eksperimenter med høj kapacitet ofte adskiller sig fra manuelle laboratorieeksperimenter. Oxygenering kan være lavere i reaktionsformater med højt gennemløb. Blanding og geometri kan være forskellige. De fleste CFPS-reaktioner producerer meget mere protein i reagensglas end i mikrotiterplader, fordi større skalaer generelt giver større ilttilgængelighed og bedre omrøring. Faktisk foreslog GPT‑5 mange reaktioner for pladebaserede reaktioner ved lavt volumen, der overgik den hidtil bedste, umiddelbart efter at have fået adgang til en computer til dataanalyse og en webbrowser til at søge efter relevante artikler. Samlet set foreslog GPT‑5 mange reagenskombinationer, der fungerede godt under begrænsninger med høj gennemløbshastighed, herunder mange, der er mere robuste under iltfattige forhold, der er almindelige i automatiserede laboratoriemiljøer.
Derudover opdagede vi, at små ændringer i buffering, energiregenereringskomponenter og polyaminer havde en uforholdsmæssigt stor indvirkning i forhold til deres omkostninger. Disse er ikke umiddelbart altid de første parametre, der vælges, men ved højt gennemløb bliver de testbare hypoteser snarere end baggrundsantagelser.
Endelig var det selve omkostningsstrukturen, der formede det, der var vigtigt. I CFPS er omkostningerne nu domineret af lysat og DNA. Det betyder, at afkast er strategien med den højeste gearing. Hvis proteinoutputtet pr. enhed af dyrt input kan øges, kan der foretages betydelige fremskridt med hensyn til omkostningerne, selv før der søges efter marginale besparelser andetsteds.
Gennem seks runder af autonom eksperimentering forbedrede systemet løbende cellefri proteinsyntese, hvilket nedbragte omkostningerne og samtidig øgede proteinudbyttet. Resultater vises som reaktionsomkostning versus proteintiter for hver runde, hvor de bedste afvejninger danner en banebrydende grænse. Større punkter markerer den laveste omkostning pr. gram, der er opnået i hver runde. Stjerne-/prikket reference angiver den tidligere førende benchmark i 384-brønds plader (Olsen et al., 2025). Et nærmere kig på de senere runder fremhæver de endelige gevinster. En oversigt fra runde til runde viser, at den bedste pris pr. gram falder over tid.
Disse resultater blev demonstreret på ét protein, sfGFP, og ét cellefrit proteinsyntesesystem (CFPS). Generalisering til andre proteiner og andre CFPS-systemer skal stadig vises.
Iltdannelse og reaktionsgeometri kan have stor indflydelse på udbyttet, og disse faktorer kan variere på tværs af skalaer. Nogle forbedringer kan være følsomme over for disse forhold, og forståelsen af disse følsomheder er en del af de efterfølgende tiltag.
Menneskelig tilsyn var påkrævet for protokolforbedringer og reagenshåndtering. Systemet kan designe og fortolke eksperimenter, men laboratoriearbejde indebærer stadig praktiske detaljer, der kræver erfarne operatører.
Vi planlægger at anvende lab-in-the-loop-optimering for andre biologiske arbejdsgange, hvor hurtigere iteration kan åbne op for fremskridt. Vi ser autonome laboratorier som komplementære til modeller. Modeller kan generere designs, men i sidste ende kræver biologi stadig test og iteration. Ved at lukke kredsløbet mellem generering og eksperimentering kan man forvandle lovende idéer til fungerende resultater.
Mens vi arbejder på at fremskynde videnskabelige fremskridt på en sikker og ansvarlig måde, søger vi også at evaluere og reducere risici, især dem der er relateret til biosikkerhed. Disse resultater viser, at modeller kan ræsonnere i vådlaboratoriet for at forbedre protokoller, og kan have implikationer for biosikkerhed, som vi vurderer og afbøder gennem vores Preparedness Framework. Vi er forpligtet til at opbygge nødvendige og nuancerede sikkerhedsforanstaltninger på model- og systemniveau for at reducere disse risici samt udvikle evalueringer til at overvåge de nuværende niveauer.
Vi siger en stor tak til vores partnere hos Ginkgo Bioworks og de teams, der hjalp med at designe, drive og understøtte det automatiserede cloud-laboratorium bag dette arbejde.


