GPT‑5 alentaa soluvapaan proteiinisynteesin kustannuksia
Yhteistyössä Ginkgo Bioworksin kanssa loimme tekoälyohjatun autonomisen laboratorion ja vähensimme proteiinituotannon kustannuksia 40 %.
Olemme nähneet tekoälyn nopeaa edistystä matematiikan ja fysiikan kaltaisilla aloilla, joissa ideoita voidaan usein arvioida ilman fyysistä kosketusta. Biologia on erilainen. Edistyminen kulkee laboratorion läpi, jossa tutkijat tekevät aikaa ja rahaa vieviä kokeita.
Muutos on alkanut. Edistyneet mallit voivat nyt yhdistää suoraan laboratorioautomaatioon, ehdottaa kokeita, suorittaa niitä laajamittaisesti, oppia tuloksista ja päättää seuraavista toimista. Suuressa osassa elämäntieteitä pullonkaulana on toistuvuus, ja autonomiset laboratoriot on suunniteltu poistamaan tämä rajoitus.
Aiemmassa työssä osoitimme, että GPT‑5 pystyi parantamaan märkälaboratorioprotokollia suljetun silmukan kokeiden avulla. Tässä osoitamme, että sama lähestymistapa voi vähentää proteiinituotannon kustannuksia.
Teimme yhteistyötä Ginkgo Bioworksin(avautuu uudessa ikkunassa) kanssa yhdistääksemme GPT‑5:n pilvilaboratorioon –automatisoituun märkälaboratorioon, jota ohjataan etänä ohjelmiston avulla ja jossa robotit suorittavat kokeita ja palauttavat tietoja. Käytimme tätä lab-in-the-loop-asetelmaa optimoidaksemme laajalti käytetyn biologisen prosessin: soluvapaan proteiinisynteesin (CFPS). Yli kuuden suljetun kehän kokeilukierroksen aikana järjestelmä testasi yli 36 000 ainutlaatuista CFPS-reaktiokoostumusta 580 automatisoidulla levyllä. Saatuaan käyttöönsä tietokoneen, verkkoselaimen ja asiaankuuluvat asiakirjat, GPT‑5 suoritti kolme kokeilukierrosta luodakseen uuden huipputason edullisen CFPS-tekniikan, joka alensi proteiinituotannon kustannuksia 40 % (ja reagenssien kustannuksia 57 %), mukaan lukien uudet reaktiokoostumukset, jotka ovat kestävämpiä autonomisissa laboratorioissa yleisille reaktio-olosuhteille.
Soluvapaa proteiinisynteesi (CFPS) on menetelmä, jolla tuotetaan proteiineja ilman elävien solujen kasvattamista. Sen sijaan, että DNA lisättäisiin soluihin ja odotettaisiin niiden tuottavan proteiinia, CFPS käyttää proteiinien tuotantoon tarkoitettua mekanismia kontrolloidussa seoksessa. Tämä tekee siitä käytännöllisen työkalun nopeaan prototypointiin ja testaukseen, koska tutkijat voivat suorittaa monia kokeita nopeasti ja mitata tulokset saman päivän aikana.
Proteiinit ovat merkittävä osa modernin biologian saavutuksia. Monet tärkeät lääkkeet perustuvat proteiineihin. Monet diagnostiikka- ja tutkimusmääritykset ovat riippuvaisia proteiineista. Teollisissa ympäristöissä proteiinit toimivat entsyymeinä, jotka tekevät kemiallisista prosesseista puhtaampia ja tehokkaampia. Proteiineja löytyy jopa pyykinpesuaineestasi. Kun proteiinintuotanto nopeutuu ja halpenee, tutkijat voivat yleensä testata useampia ideoita nopeammin ja vähentää kustannuksia, jotka liittyvät varhaisen tutkimuksen muuttamiseen jokapäiväisessä elämässä hyödynnettäväksi.
CFPS on jo hyödyllinen tällaisessa iteraatiossa. Pullonkaula on se, että optimointi on haastavaa ja se tulee kalliiksi laajassa mittakaavassa.
Soluvapaa proteiinisynteesi vaatii monimutkaisia, vuorovaikutuksessa olevia ainesosia: DNA-mallin, joka koodaa valmistettavan proteiinin, solulysaatin (solujen sisällä olevan solukoneiston seos) ja suuren määrän biokemiallisia komponentteja, kuten energialähteitä ja suoloja. On erittäin vaikeaa tarkastella järjestelmää kokonaisuutena, ja monissa(avautuu uudessa ikkunassa) aikaisemmissa(avautuu uudessa ikkunassa) tutkimuksissa(avautuu uudessa ikkunassa) on sovellettu erilaisia koneoppimisen menetelmiä proteiinituotannon kustannusten alentamiseksi.
Tavalliset soluttomat proteiinisynteesiformulaatiot (CFPS) ja kaupalliset sarjat on usein hinnoiteltu ihmisen työtahtiin sopiviksi. Autonomiset laboratoriot voivat suorittaa tuhansia reaktioita ajassa, jossa ihmistiimi saattaisi suorittaa vain kymmeniä. Tässä mittakaavassa reagenssien kustannukset muodostuvat rajoittavaksi tekijäksi.
CFPS:ää on myös vaikea optimoida pelkästään intuitioon perustuen. Se on monien vuorovaikutuksessa olevien komponenttien yhdistelmä. Pienillä muutoksilla voi olla merkitystä, mutta vaikutuksen suunta ei ole aina ilmeinen, ja parhaiden yhdistelmien löytäminen voi olla vaikeaa ilman lukuisia kokeiluja. Aiemmat lähestymistavat ovat vähentäneet kustannuksia, mutta edistyminen on yleensä hidasta, koska alueen perusteellinen tutkiminen on työlästä.
Yhdistimme GPT‑5:n Ginkgo Bioworksin pilvilaboratorioon muodostaaksemme suljetun kierron autonomisen järjestelmän soluttoman proteiinisynteesin (CFPS) optimointia varten.
GPT‑5 suunnitteli kokeita erissä. Laboratorio toteutti suunnitelmat. Tulokset syötettiin takaisin malliin. Malli käytti näitä tietoja seuraavan kierroksen ehdottamiseen. Toistimme tämän kierroksen kuusi kertaa.

GPT‑5 suunnitteli sarjan kokeita standardinmukaisessa 384-kuoppalevyssä ja suoritti ne Ginkgo Bioworksin pilvilaboratoriossa. Kokeiden päätyttyä pilvilaboratorio siirsi tiedot takaisin GPT‑5:lle, jossa malli analysoi tulokset, loi uusia hypoteeseja ja suunnitteli seuraavan kokeiden sarjan.
Jotta silmukka pysyisi autonomisen laboratorion toimintamahdollisuuksien rajoissa, lisäsimme tiukan ohjelmallisen validoinnin ennen kokeiden suorittamista. Tämä validointi vahvisti, että tekoälyn suunnittelemat kokeet olivat fyysisesti toteutettavissa automaatioalustalla. Se esti ”paperikokeilut”, jotka näyttävät uskottavilta tekstissä, mutta joita ei voida toteuttaa robottityönkulussa.
Koko ajon aikana järjestelmä suoritti yli 36 000 CFPS-reaktiota 580 automatisoidulla levyllä. Tällä mittakaavalla on merkitystä, koska se mahdollistaa mallien esiin nousemisen. Biologiassa yksittäiset kokeet ovat sekavia. Suoritusteho ja iterointi ovat tapoja erottaa signaali satunnaisesta kohinasta. Kun GPT‑5 sai käyttöönsä asiaankuuluvan artikkelin ja työkalut, se vaati kolme kokeilukierrosta ja kaksi kuukautta uuden huipputason saavuttamiseksi: proteiinin tuotantokustannukset laskivat 40 % verrattuna aiempaan parhaaseen vertailuarvoon(avautuu uudessa ikkunassa).
Ginkgo Bioworksin uudelleenkonfiguroitavat automaatiovaunut. Krediitti: Ginkgo Bioworks
Havaitsimme, että parannukset johtuivat sellaisten yhdistelmien tunnistamisesta, jotka toimivat hyvin yhdessä ja kestävät korkean suoritustehon automaation todellisuudessa.
Havaitsimme, että GPT‑5 löysi edullisia reaktiokoostumuksia, joita ihmiset eivät olleet aiemmin testanneet tässä kokoonpanossa. Soluvapaa proteiinisynteesi (CFPS) on ollut tutkimuksen kohteena jo vuosia, mutta mahdollisten seosten määrä on edelleen suuri. Kun voit nopeasti ehdottaa ja toteuttaa tuhansia yhdistelmiä, voit löytää toimivia alueita, jota jäävät helposti huomiotta manuaalisessa työnkulussa.
Havaitsimme myös, että suurikapasiteettiset, levypohjaiset kokeet eroavat usein manuaalisista, pöytämallisista kokeista. Hapetus voi olla alhaisempi suuren suoritustehon reaktiomuodoissa. Sekoitus ja geometria voivat olla erilaisia. Useimmat CFPS-reaktiot tuottavat paljon enemmän proteiinia koeputkissa kuin mikrotitrauslevyissä, koska suuremmassa mittakaavassa on yleensä enemmän happea saatavilla ja sekoitus on parempi. Itse asiassa pienissä määrissä tapahtuvien levypohjaisten reaktioiden osalta GPT‑5 ehdotti monia reaktioita, jotka olivat suorituskyvyltään parempia kuin aiemmin parhaat, heti kun se sai käyttöönsä tietokoneen tietojen analysointia varten ja verkkoselaimen asiaankuuluvien julkaisujen etsimistä varten. Kaiken kaikkiaan GPT‑5 ehdotti monia reagenssiyhdistelmiä, jotka toimivat hyvin korkean suoritustehon rajoitusten alaisina, mukaan lukien monet, jotka ovat kestävämpiä automatisoiduissa laboratorio-olosuhteissa yleisesti esiintyvissä vähähappisissa olosuhteissa.
Lisäksi havaitsimme, että pienet muutokset puskuroinnissa, energian regenerointikomponenteissa ja polyamiineissa vaikuttivat suhteettoman paljon niiden kustannuksiin nähden. Nämä eivät aina ole ensimmäisiä parametreja, joihin ihmiset tarttuvat, mutta suurella suoritusteholla ne muuttuvat testattaviksi hypoteeseiksi taustaoletusten sijaan.
Lopulta kustannusrakenne itsessään määritti, mikä oli tärkeää. CFPS:ssä kustannukset koostuvat nykyään pääasiassa lysaatista ja DNA:sta. Tämä tarkoittaa, että tuotto on tehokkain strategia. Jos pystyt lisäämään proteiinituotantoa kalliiden syötteiden yksikköä kohden, teet merkittävää edistystä kustannusten hallinnassa jo ennen kuin alat etsiä marginaalisia säästöjä muualta.
Kuuden autonomisen kokeilukierroksen aikana järjestelmä paransi tasaisesti soluvapaata proteiinisynteesiä, vähentäen kustannuksia samalla kun proteiinisaanto kasvoi. Tulokset esitetään reaktion kustannusten ja proteiinipitoisuuden suhteena kunkin kierroksen osalta, ja parhaat kompromissit muodostavat edistyneen mallin. Suuremmat pisteet osoittavat kussakin kierroksessa saavutetun alhaisimman kustannuksen grammaa kohti, ja tähti/pisteviivaviite osoittaa aiemman huipputason vertailuarvon 384-kuoppalevyissä (Olsen et al., 2025). Tarkempi katsaus myöhempiin kierroksiin korostaa lopullisia voittoja, ja kierros kierrokselta tehty yhteenveto osoittaa, että paras grammakohtainen hinta laskee ajan myötä.
Nämä tulokset osoitettiin yhdellä proteiinilla, sfGFP:llä, ja yhdellä soluttomalla proteiinisynteesijärjestelmällä (CFPS). Yleistäminen muihin proteiineihin ja muihin CFPS-järjestelmiin on vielä osoitettava.
Hapetus ja reaktiogeometria voivat merkittävästi vaikuttaa saantoihin, ja nämä tekijät voivat vaihdella eri mittakaavoilla. Jotkut parannukset voivat olla herkkiä näille olosuhteille, ja näiden herkkyyksien ymmärtäminen on osa seuraavaa vaihetta.
Protokollan parannukset ja reagenssien käsittely vaativat ihmisen valvontaa. Järjestelmä voi suunnitella ja tulkita kokeita, mutta laboratoriotyöskentelyyn liittyy edelleen käytännön yksityiskohtia, jotka vaativat kokeneita operaattoreita.
Aiomme soveltaa lab-in-the-loop-optimointia muihin biologisiin työnkulkuihin, joissa nopeampi iteraatio voi edistää kehitystä. Pidämme autonomisia laboratorioita mallien täydentäjinä. Mallit voivat tuottaa suunnitelmia, mutta lopulta biologia vaatii edelleen testausta ja iterointia. Lupaavat ideat voidaan muuttaa toimiviksi tuloksiksi sulkemalla sukupolven ja kokeilun välinen kehä.
Kun työskentelemme nopeuttaaksemme tieteellistä edistystä turvallisesti ja vastuullisesti, pyrimme myös arvioimaan ja vähentämään riskejä, erityisesti bioturvallisuuteen liittyviä. Nämä tulokset osoittavat, että mallit voivat tehdä päätelmiä märkälaboratoriossa parantaakseen protokollia, ja niillä voi olla vaikutuksia bioturvallisuuteen, joita arvioimme ja lievennämme valmiuskehyksemme avulla. Olemme sitoutuneet rakentamaan tarvittavia ja hienovaraisia suojatoimia malli- ja järjestelmätasolla riskien vähentämiseksi sekä kehittämään arviointeja nykyisten tasojen seuraamiseksi.
Olemme kiitollisia kumppaneillemme Ginkgo Bioworksissa ja tiimeille, jotka auttoivat suunnittelemaan, toteuttamaan ja tukemaan tämän työn taustalla olevaa automatisoitua pilvilaboratoriota.


