Måler AIs evne til å akselerere biologisk forskning i våtlab
GPT‑5 opprettet nye forbedringer for våtlabprotokoll, og optimaliserte effektiviteten til en molekylær kloningsprotokoll med 79 ganger.

Å akselerere vitenskapelig fremgang er en av de mest verdifulle måtene AI kan være til nytte for menneskeheten. Med GPT‑5 begynner vi å se tidlige tegn på dette–ikke bare ved å hjelpe forskere med å jobbe raskere med vitenskapelig litteratur, men også ved å støtte nye former for vitenskapelig resonnement, som å avdekke uventede forbindelser, foreslå bevisstrategier eller antyde plausible mekanismer som eksperter kan evaluere og teste.
Fremgangen så langt har vært mest synlig innenfor felt som matematikk, teoretisk fysikk og teoretisk informatikk, der ideer kan kontrolleres grundig uten fysiske eksperimenter. Biologi er annerledes: de fleste fremskritt avhenger av eksperimentell utførelse og iterativ og empirisk validering i laboratoriet.
For å hjelpe til med å forstå hvordan banebrytende modeller oppfører seg i disse omgivelsene, samarbeidet vi med Red Queen Bio, en oppstartsbedrift for biosikkerhet, for å utvikle et evalueringsrammeverk som tester hvordan en modell foreslår, analyserer og utvikler ideer i våtlab. Vi etablerte et enkelt eksperimentelt system for molekylærbiologi, og fikk GPT‑5 til å optimalisere en protokoll for molekylær kloning for å øke effektiviteten.
Gjennom flere runder med eksperimentering, introduserte GPT‑5 en ny mekanisme som forbedret kloningseffektiviteten med 79 ganger. Kloning er et grunnleggende verktøy innen molekylærbiologi. Effektiviteten av kloningsmetoder er avgjørende for å opprette store, komplekse biblioteker som er sentrale for proteinutvikling(åpnes i et nytt vindu), genetiske analyser(åpnes i et nytt vindu) og organismal stammeutvikling (åpnes i et nytt vindu). Dette prosjektet gir et innblikk i hvordan AI kan jobbe sammen med biologer for å akselerere forskningen. Forbedring av eksperimentelle metoder vil hjelpe forskere med å jobbe raskere, redusere kostnader og omsette oppdagelser til virkelige resultater.
Fordi fremskritt innen biologisk resonnement har konsekvenser for biosikkerhet, utførte vi dette arbeidet i et strengt kontrollert miljø–ved å bruke et ufarlig eksperimentelt system, begrense omfanget av oppgaven, og evaluere modellens atferd for å informere om våre risikovurderinger for biosikkerhet og utviklingen av sikkerhetstiltak på modell- og systemnivå, som beskrevet i vårt Beredskapsrammeverk(åpnes i et nytt vindu).
I dette oppsettet resonnerte GPT‑5 autonomt om kloningsprotokollen, foreslo modifikasjoner og innlemmet data fra nye eksperimenter for å foreslå flere forbedringer. Den eneste menneskelige inngripen var at forskere utførte den modifiserte protokollen og lastet opp eksperimentelle data.
I løpet av flere runder optimaliserte GPT‑5 kloningsprosedyren for å forbedre effektiviteten med over 79 ganger–noe som betyr at for en fast mengde DNA-inndata, fikk vi 79 ganger flere sekvensverifiserte kloner enn med basisprotokollen. Det mest bemerkelsesverdige er at det ble introdusert to enzymer som utgjør en ny mekanisme: rekombinasen RecA fra E. coli, og fage T4 gen 32 enkelttrådet DNA–bindende protein (gp32). Når disse fungerer sammen, jevner og løsner gp32 de løse DNA-endene, og RecA leder deretter hver streng til riktig kombinasjon.
Innledende screening og sekundære eksperimenter identifiserte henholdsvis RecA-Assisted Pair-and-Finish HiFi Assembly (RAPF) som den beste enzymatiske protokollen og Transformation 7 (T7) som som den beste transformasjonsprotokollen. Både RAPF assembly og T7-transformasjon forbedret kloningseffektiviteten uavhengig av hverandre i forhold til den grunnleggende HiFi-reaksjonskloningsprotokollen, med henholdsvis 2,6 ganger og 36 ganger. Tilsammen ga dette en samlet ytelsesforbedring på 79 ganger. Alle kloner ble bekreftet ved sekvensering. (Feilmarginer: SD av n=3 uavhengige valideringseksperimenter).
Selv om det er tidlig i prosessen, er disse resultatene oppmuntrende. Forbedringene er spesifikke for vårt bestemte kloningsoppsett som brukes i vårt modellsystem, og krever fortsatt at menneskelige forskere konfigurerer og kjører protokollene. Disse eksperimentene viser at AI-systemer kan bidra på en meningsfull måte i ekte laboratoriearbeid, og kan gjøre at menneskelige forskere jobber raskere i fremtiden.
Det er verdt å merke seg at AI-laboratoriesløyfen ble utført med faste instruksjoner og uten menneskelig innblanding. Denne støttestrukturen var til hjelp for å avdekke modellens evne til å foreslå genuint nye protokollendringer uavhengig av menneskelig veiledning, men det låste også systemet til utforskning og begrenset evnen til å maksimere ytelsen for nyoppdagede ideer. En bedre dynamisk balanse mellom utforskning og utnyttelse vil sannsynligvis gi større gevinster, ettersom både enzymatiske og transformasjonsmessige forbedringer har betydelig rom for forbedring. Vi forventer at fremskritt innen planlegging og resonnering rundt langsiktige oppgaver vil forbedre evnen til enkle faste instruksjoner for å støtte både oppdagelse og påfølgende optimalisering.
Gibson assembly(åpnes i et nytt vindu) har vært en primær kloningsmetode siden oppfinnelsen i 2009, og metoden er svært mye brukt innen molekylærbiologi. Med Gibson assembly kan molekylærbiologer «lime» DNA-fragmenter sammen ved å smelte endene midlertidig, slik at samsvarende sekvenser kan forsegles til ett enkelt molekyl. En stor fordel med Gibson assembly er at det er enkelt: alt skjer i ett reagensrør ved konstant temperatur. Disse begrensningene gir naturligvis rom for forbedring. I tillegg gjør følgende egenskaper det godt egnet til å evaluere AI-modellers evne til å forbedre teknikker i våtlab:
- Godt definert med kontrollerte komponenter, i motsetning til et cellebasert system
- Har en tydelig optimaliseringsfunksjon: transformerbart sirkulært DNA laget av en fast mengde lineære DNA-inndata
- Relativt raske eksperimentelle sykluser (1–2 dager)
- Høydimensjonalt designrom som krever mekanistisk resonnement for forbedring: optimale buffere, reagenser og temperaturer er alle gjensidig avhengige av hverandre.
Vi brukte HiFi assembly(åpnes i et nytt vindu), et proprietært enzymsystem utviklet av New England Biolabs, og basert på Gibson assembly, som et utgangspunkt for optimalisering. Vi undersøkte om AI kunne innovere og lære av eksperimentell tilbakemelding når ettrinns- og isotermiske begrensninger ble fjernet, og dermed identifisere forbedringer i protokollen i dette scenariet.
Vi utførte spesifikt en todelt kloningsreaksjon ved hjelp av et gen for grønt fluorescerende protein (GFP) og den mye brukte pUC19-plasmiden, en standard DNA-"vektor" som brukes til å overføre gener inn i bakterier slik at de kan kopieres. Målet var å øke antallet vellykkede kolonier.
Vi optimaliserte kloningsreaksjonen ved å inntrodusere et evolusjonært rammeverk for å gjenta et forslag, slik at modellen kan lære «tilkoblet» fra tidligere eksperimenter. For hver runde foreslo GPT‑5 et sett med 8–10 forskjellige reaksjoner, med reaksjoner utsatt til senere runder hvis de krevde spesialreagenser som laboratoriet ikke hadde lett tilgjengelig. Deretter utførte forskere reaksjonene og målte kolonitellingene i forhold til grunnlinjen HiFi Gibson assembly i en innledende screening. Dataene som presterte best fra forrige runde ble deretter brukt i neste runde. Det aller viktigste var at instruksjonene ble standardisert uten menneskelig inndata i forhold til avklarende spørsmål, slik at vi kan tilskrive nye mekanistiske innsikter direkte til AI i stedet for menneskelig veiledning.
Vi testet de åtte beste reaksjonene fra hele optimaliseringsserien på nytt ved hjelp av et bredere spekter av DNA-fortynninger, og fant at mange viste mindre effekter enn i den opprinnelige screeningen. Til slutt var den sterkeste validerte kandidaten en reaksjon fra runde 5 som gjentok sin opprinnelige ytelse. Mange høytytende enzymer tilhørte ligasepoleringsserien, som ser ut til å være spesielt følsom for små variasjoner i tilstanden til kompetente celler og/eller håndtering av DNA etter reaksjonen. Fordi disse reaksjonene brukte et kort HiFi-trinn, antar vi at mange produkter sannsynligvis kommer inn i E. coli med bare den ene sammenføyningen forseglet, mens den andre holdes sammen ved hjelp av annelering, slik at cellens egne reparasjonssystemer må fullføre forseglingen. Dette skaper stor variasjon og høy dynamikk: selv om de fleste varianter av denne reaksjonen ikke presterer bedre, kan ett enkelt sterkt unntak føre serien videre til påfølgende runder.
Mens vi fokuserte på å optimalisere kloningsreaksjonen over flere runder på grunn av sin mekanistiske kompleksitet, optimaliserte vi samtidig transformasjonsprosedyren ved hjelp av en enkelt runde der modellen foreslo mange uavhengige endringer, og der vi valgte reaksjonen som presterte best.
Innledende optimaliseringsskjermer for to-trinns kloningsarbeidsflyt: enzymatisk sammensetning og transformasjon (Venstre) Iterativ optimalisering av enzymatisk sammensetning over fem runder (44 reaksjoner totalt). Fra grunnlinjen for HiFi assembly, foreslo GPT‑5 8–10 varianter av samlingsprotokoller per runde. Data fra de beste resultatene ble innarbeidet i påfølgende meldinger. Vi plotter den beste reaksjonen så langt (inkludert tidligere runder) for hver runde. (Høyre) Engangsoptimalisering av transformasjonsbetingelser ved testing av 13 forskjellige protokoller. For begge optimaliseringsskjermene representerer dataene enkeltmålinger (n=1) per betingelse. Replikert validering ble utført separat for toppkandidatene.
Ved å bruke standardiserte meldinger uten menneskelig inndata, forbedret GPT5 effektiviteten av ende-til-ende-kloning 79 ganger, noe som ble bekreftet på tvers av eksperimentelle replikasjoner.
Modellen foreslo bemerkelsesverdig en ny enzymatisk prosedyre, som modellen kalte RecA-Assisted Pair-and-Finish HiFi Assembly (RAPF-HiFi), som tilfører to nye proteiner til reaksjonen: rekombinase RecA fra E. coli, og fage T4 gen 32 enkelttrådet DNA-bindende protein (gp32). Modellen utførte videre bevisste endringer i inkubasjonstemperaturen og -tiden, samt tidspunktet for enzymatiske tilsetninger: den foreslo å tilsette RecA og gp32 etter en innledende 50 °C HiFi-reaksjon, og lot disse proteinene virke ved 37 °C, for deretter å gå tilbake til 50 °C for å fullføre sammensetningen. Disse nye modifikasjonene økte samlet effektivitet med over 2,5 ganger. Det bør bemerkes at dette representerer den innledende ytelsen uten gjentakende optimalisering av reaksjonsforhold og tidspunkt.
På transformasjonssiden viste den mest effektive modifikasjonen seg å være uventet enkel: å pelletere cellene (sentrifugere dem slik at de samler seg i bunnen av reagensrøret), fjerne halvparten av det tilførte volumet, og løse opp cellene før tilsetting av DNA, alt dette ved 4 °C. Selv om kjemisk kompetente celler med høy effektivitet vanligvis anses som skjøre, tålte cellene konsentrasjonen godt, og de økte molekylære kollisjonene forsterket transformasjonseffektiviteten betydelig (>30 ganger ved endelig validering).

T5-eksonuklease oppretter 3′ overheng som gp32 stabiliserer ved å undertrykke sekundærstruktur. RecA invaderer deretter fra 3′-endene, fortrenger gp32 og fremmer homologisøk og sammenkobling. Oppvarming til 50 °C fjerner begge proteinene, slik at polymerase kan fylle gapet og utføre ligering.
Gibson-sammenstilling fungerer ved å gi DNA-biter matchende "klebrige" ender slik at de kan finne hverandre og binde seg sammen. Reaksjonen bruker to forskjellige enzymer (en polymerase og en ligase) for å forsegle de sammenføyde delene. Det ble introdusert to proteiner i RAPF-HiFi for at det samsvarende trinnet skulle fungere bedre. Det første proteinet, gp32, fungerer som en kam som glatter ut og løser opp de løse DNA-endene. Det andre proteinet, RecA, fungerer som en veileder som leter etter riktig partner for hver tråd, og som trekker de samsvarende delene sammen. En høyere temperatur får begge hjelperne til å løsne fra DNA-et, slik at de vanlige Gibson-enzymene kan fullføre reaksjonen.
For å oppsummere, antar vi at den forbedrede ytelsen er formidlet gjennom følgende mekanisme:
- Gp32 dekker ikke-annealerte enkelttrådete DNA-haler (ssDNA) og fjerner sekundærstruktur
- RecA, som normalt er hemmet av strukturen, invaderer fra 3' og fortrenger gp32-filamentet
- RecA formidler et ssDNA:ssDNA homologisøk(åpnes i et nytt vindu), som driver annealing
- Ved å gå tilbake til 50 °C, fortrenger både recA- og gp32-filamentene, slik at polymerase og ligase kan fullføre reaksjonen.
For å teste om de nye enzymene var funksjonelle, og for å utelukke at ytelsesforbedringen kun skyldes endringer i termiske trinn eller buffere, testet vi ytelsen til RAPF-HiFi uten RecA, og uten både RecA og gp32. Ytelsen til begge reaksjonene ble redusert i forhold til RAPF-HiFi, noe som antyder at begge proteinene er nødvendige for mekanismen til RAPF-HiFi.
For å teste den underliggende mekanismen, separerer vi de to nye enzymene i reaksjonen: RecA og gp32. Vi viser at hver av disse alene reduserer effektiviteten i forhold til HiFi-grunnlinjen. Samlet overgår de referansepunktet med 2,6 ganger effektivitetsgevinst. (Feilmarginer: SD av n=3 uavhengige eksperimenter)
Utviklingen av RAPF-HiFi antyder at GPT‑5 er i stand til et kompleks, flerdimensjonal resonnement:
- RecA hemmes av DNA-strukturen(åpnes i et nytt vindu), og det er bemerkelsesverdig at modellen introduserte to synergistiske modifikasjoner samtidig: legg til RecA, og kompletterte den med gp32 for å fjerne DNA-sekundærstrukturen.
- Den naturlige partneren til E. coli RecA er E. coli enkelttrådet bindingsprotein (SSB). SSB utfører en lignende rolle som gp32 under genomreplikasjon, rekombinasjon og reparasjon. E. coli SSB løsner imidlertid ikke spontant fra DNA raskt nok til at RecA-filamentet kan vokse, og RecFOR-komplekset fremmer derfor RecA-nukleasjon ved SSB-filamentet in vivo(åpnes i et nytt vindu). SSB binder seg som en stabil tetramer med ekstremt langsomme løsrivelsesrater(åpnes i et nytt vindu). gp32-filamentet er i motsetning mer dynamisk(åpnes i et nytt vindu), noe som muliggjør RecA-fortrengning.
Etter det vi forstår, har RecA og gp32 ikke blitt funksjonelt brukt sammen i molekylærbiologiske metoder. Som med mange nye molekylærbiologiske teknikker, var de underliggende biokjemiske aktivitetene allerede studert, men at bruken av dem som en praktisk, generaliserbar metode utgjør selve fremgangen.
Interaksjonen mellom RecA og gp32 har for eksempel blitt studert i mekanistiske in vitro rekonstruksjonsanalyser: i studier av D-sløyfedannelse, ble gp32 vist(åpnes i et nytt vindu) å være i stand til å forbedre RecA-aktiviteten. Gp32 har blitt brukt sammen med sin naturlige T4-rekombinasepartner UvsX og rekombinaselastingsfaktor uvsY i amplifisering ved hjelp av rekombinase og polymerase (RPA(åpnes i et nytt vindu)). Selv om en RPA-patentspesifikasjon fastslår(åpnes i et nytt vindu) at effektive RPA-reaksjoner har blitt demonstrert ved hjelp av E. coli RecA i et heterologt system med et kompromittert (dvs. en konstruert, mest–vanlig) gp32-protein, fremstår denne påstanden kun som en digresjon i noen patentopplysninger og så vidt vi vet, har den ikke blitt støttet av publiserte data eller tatt i bruk som et robust RecA-basert RPA-system. En kloningsmetode kalt SLiCE(åpnes i et nytt vindu) bruker et helcelleekstrakt fra E. coli som inneholder λ Red-rekombinasjonssystemet, hvor Red beta kan ha en dobbeltrolle som både DNA-bindende protein og rekombinase (selv om vi eksplisitt ikke tillot bruken av celleekstrakter i vår instruksjon). I en annen applikasjon brukte Ferrin & Camerini-Otero(åpnes i et nytt vindu) RecA alene til å selektivt fange DNA-molekyler basert på samsvarende sekvenser. gp32 har separat blitt brukt som et tilsetningsstoff(åpnes i et nytt vindu) i en DNA-amplifikasjonsprosess kalt PCR for å redusere sekundærstruktur. NABSA-amplifikasjon ble vist(åpnes i et nytt vindu) å bli forbedret av både RecA og gp32, selv om hver av dem kunne forbedre reaksjonen hver for seg, og ingen synergi ble identifisert. Mer generelt har rapporterte forbedringer av de grunnleggende Gibson-lignende DNA-sammensetningsreaksjonene vært sjeldne, med det mest bemerkelsesverdige eksempelet som et varmebestandig DNA-bindende protein (ET SSB) som forbedrer samlingseffektiviteten med cirka 2,5 ganger(åpnes i et nytt vindu).
For de fleste applikasjoner forventer vi ikke at RAPF-HiFi skal konkurrere med enkelheten og robustheten til HiFi/Gibson-kloning. Fremveksten av en mekanistisk distinkt monteringsbane er imidlertid bemerkelsesverdig: GPT‑5 kom frem til en løsning som inkluderer en ukjent kombinasjon av rekombinasjonsproteiner og reaksjonsdynamikk. Den underliggende mekanismen kan vise seg å være modulær, og gi komponenter som kan gjenbrukes eller kombineres på nytt i andre molekylære arbeidsflyter. Vi fortsetter også å utforske forbedringer av RAPF-HiFi. Reaksjonstemperaturer og trinnvarigheter kan justeres for å balansere RecA- og gp32-aktivitet mot overfordøyelse av eksonuklease, og mengdene av begge proteinene må fortsatt optimaliseres. GPT‑5 har også foreslått en hyperaktiv RecA-variant, som vi for øyeblikket renser.
Når det gjelder transformasjonsprotokollen, omfatter de vellykkede optimaliseringsbetingelsene et spekter av tilsetningsstoffer og termiske forstyrrelser som var ment å forbedre varmesjokkeffektiviteten til kommersielle 10-betakompetente celler(åpnes i et nytt vindu). Av de 13 AI-genererte engangstransformasjonene som ble testet, var den mest effektive modifikasjonen, Transformasjon 7 (T7), ved å pelletere cellene, fjerne halvparten av det tilførte volumet, og resuspendere cellene før tilsetning av DNA, alt dette ved 4 °C. Høyeffektive kjemisk kompetente celler anses vanligvis som skjøre, og slike håndteringstrinn unngås generelt. Likevel tålte cellene konsentrasjonen godt. De kombinerte effektene av økt DNA-eksponering per celle og mindre hemmende buffer som førte til et skarpere varmesjokk, førte til en betydelig økning i transformasjonseffektivitet (>30 ganger).
Denne transformasjonsprotokollen er ny, selv om en konseptuelt lignende tilnærming(åpnes i et nytt vindu) der cellene konsentreres på et tidligere trinn, har blitt rapportert. Metoden som bemerkelsesverdig er utviklet her av GPT‑5 er kompatibel med kommersielt tilgjengelige kjemisk kompetente celler, noe som eliminerer behovet for egen celleforberedelse, samtidig som den overgår den rapporterte effektivitetsgevinsten til en lignende tilnærming på sammenlignbare cellestammer.
For å øke gjennomstrømmingen til dette eksperimentelle modellsystemet, samarbeidet Robot on Rails og Red Queen Bio om å bygge et robotsystem som bruker en naturlig språkkloningsprotokoll og utfører den i våtlaben.
Systemet kombinerer tre komponenter: 1) en menneske-til-robot LLM som konverterer vanlig engelsk til robotens handlinger, 2) et synssystem som identifiserer og lokaliserer laboratorieutstyr i sanntid, og 3) en robotruteplanlegger som bestemmer hvordan hver handling skal utføres trygt og nøyaktig. Resultatet er en fleksibel, generalisert laboratorierobot som ble ytterligere optimalisert for varianter av Gibson-kloningsprotokollen.
Vi testet om den autonome roboten kunne utføre et komplett kloningseksperiment ved å kjøre to protokoller samtidig: standard HiFi-metode og R8, den AI-modifiserte protokollen med best ytelse fra den første optimaliseringsrunden.
Vi sammenlignet robotens arbeid med menneskeutførte eksperimenter på hvert trinn. Roboten håndterte transformasjonsprosessen som krevde ulike fysiske operasjoner: overføre og blande væsker, flytte prøverør, påføre kontrollert varme på celler, og spre celler på vekstplater. Når den sammenlignes direkte med menneskelig utførte transformasjoner, genererte roboten data av lignende kvalitet med tilsvarende forbedringer over grunnlinjen, og viser tidlig potensial for å automatisere og fremskynde optimaliseringen av biologiske eksperimenter.
Selv om de relative endringene mellom automatiserte og manuelle eksperimenter var like, var de absolutte kolonitellingene fra roboten omtrent ti ganger lavere enn ved manuell utførelse, noe som indikerer områder for forbedring som presisjon i væskehåndtering, kalibrering av temperaturkontroll og replikering av nyansene i manuell cellehåndteringsteknikk.
Både standard HiFi-metode (grunnlinje) og den forbedrede R8-metoden ble utført av menneskelige forskere og den autonome roboten, med transformasjonseffektiviteter normalisert til respektive HiFi-grunnlinjekontroller (angitt til 1,0). Menneskelig utført R8 viste en forbedring på 2,39 ganger, robotutført R8 oppnådde en forbedring på 2,13 ganger (89 % av menneskelig ytelse), noe som viser en sammenlignbar protokollrangering til tross for lavere absolutt utbytte.
Vi tror at disse eksperimentene gir et snapshot av hvordan fremtidens AI-akselererte vitenskap vil se ut: modeller som kontinuerlig lærer og interagerer med den virkelige verden. Selv om eksperimentene våre utelukket menneskelig inngripen for å måle modellens evner, er vi spesielt begeistret for AI som hjelper forskere med å designe eksperimenter og bidra til forskningsgjennombrudd.
Når vi jobber for å akselerere vitenskapelig fremgang på en trygg og ansvarlig måte, ønsker vi også å evaluere og redusere risikoer, spesielt de som er knyttet til biosikkerhet. Disse evalueringsresultatene viser at modellene kan resonnere for å forbedre protokoller i våtlaben, og kan ha implikasjoner for biosikkerhet som beskrevet i vårt Beredskapsrammeverk(åpnes i et nytt vindu). Vi er forpliktet til å bygge nødvendige og nyanserte sikkerhetstiltak på modell- og systemnivå for å redusere disse risikoene, samt utvikle evalueringer for å spore nåværende nivåer.


