Måling af AI's evne til at accelerere biologisk forskning i vådlaboratoriet
GPT‑5 skabte nye forbedringer af vådlaboratorieprotokoller, der optimerede effektiviteten af en molekylær kloningsprotokol 79 gange.

Accelerering af videnskabelige fremskridt er en af de mest værdifulde måder, AI kan gavne menneskeheden på. Med GPT‑5 ser vi begyndelsen på tidlige tegn på dette – ikke bare ved at hjælpe forskere med at navigere hurtigere gennem videnskabelig litteratur, men også ved at støtte nye former for videnskabelig avanceret tænkning, såsom at afdække uventede forbindelser, foreslå bevisstrategier eller foreslå plausible mekanismer, som eksperter kan evaluere og teste.
Fremskridt til dato har været mest synlige inden for felter som matematik, teoretisk fysik og teoretisk datalogi, hvor ideer kan kontrolleres strengt uden fysiske eksperimenter. Biologi er anderledes: De fleste fremskridt afhænger af eksperimentel udførelse, iteration og empirisk validering i laboratoriet.
For at hjælpe med at forstå, hvordan avancerede modeller opfører sig i disse sammenhænge, samarbejdede vi med Red Queen Bio, en opstartsvirksomhed inden for biosikkerhed, for at opbygge en evalueringsramme, der tester, hvordan en model foreslår, analyserer og itererer på idéer i vådlaboratoriet. Vi oprettede et simpelt eksperimentelt system inden for molekylærbiologi og fik GPT‑5 til at optimere en protokol for molekylær kloning for at øge effektiviteten.
Gennem flere runder af eksperimenter introducerede GPT‑5 en ny mekanisme, der forbedrede kloningseffektiviteten 79 gange. Kloning er et grundlæggende værktøj inden for molekylærbiologi. Effektiviteten af kloningsmetoder er afgørende for at skabe store, komplekse biblioteker, der er centrale for proteinteknologi(åbner i et nyt vindue), genetiske screeninger(åbner i et nyt vindue) og stammeengineering på organisme-niveau(åbner i et nyt vindue). Dette projekt giver et indblik i, hvordan AI kan arbejde side om side med biologer for at fremskynde forskningen. Forbedring af eksperimentelle metoder vil hjælpe forskere med at arbejde hurtigere, reducere omkostningerne og omsætte opdagelser til reel indflydelse i den virkelige verden.
Fordi fremskridt inden for biologisk avanceret tænkning har biosikkerhedsmæssige implikationer, udførte vi dette arbejde inden for strengt kontrollerede rammer ved at bruge et harmløst eksperimentelt system, begrænse opgavens omfang og evaluere modeladfærd for at informere vores biosikkerhedsmæssige risikovurderinger og udviklingen af sikkerhedsforanstaltninger på model- og systemniveau, som beskrevet i vores beredskabsramme(åbner i et nyt vindue).
I denne opsætning tænkte GPT‑5 autonomt om kloningsprotokollen, foreslog ændringer og inkorporerede data fra nye eksperimenter for at foreslå yderligere forbedringer. Den eneste menneskelige indgriben var, at forskere udførte den modificerede protokol og uploadede eksperimentelle data.
I løbet af flere runder optimerede GPT‑5 kloningsproceduren for at forbedre effektiviteten over 79 gange – hvilket betyder, at for en fast mængde Input-DNA, opnåede vi 79 gange flere sekvensverificerede kloner end med basisprotokollen. Mest bemærkelsesværdigt introducerede det to enzymer, der udgør en ny mekanisme: Rekombinasen RecA fra E. coli og fagen T4 gen 32 enkeltstrenget DNA-bindende protein (gp32). Når de arbejder sammen, udglatter gp32 de løse DNA-ender, og RecA guider derefter hver streng til dens korrekte match.
Indledende screening og sekundære eksperimenter identificerede henholdsvis RecA-Assisted Pair-and-Finish HiFi Assembly (RAPF) og Transformation 7 (T7) som de bedste enzymatiske og transformationsprotokoller. Både RAPF-samling og T7-transformation forbedrede uafhængigt kloningseffektiviteten i forhold til den grundlæggende HiFi-reaktionskloningsprotokol med henholdsvis 2,6 gange og 36 gange, og kombineret gav de en additiv forbedring i ydeevnen på 79 gange. Alle kloner blev bekræftet ved sekventering. (Fejlbjælker: SD af n=3 uafhængige valideringseksperimenter).
Selvom de er på et tidligt stadie, er disse resultater opmuntrende. Forbedringerne er specifikke for vores særlige kloningsopsætning, der anvendes i vores modelsystem, og kræver stadig, at menneskelige forskere opsætter og kører protokollerne. Alligevel viser disse eksperimenter, at AI-systemer kan yde meningsfuld assistance i det virkelige laboratoriearbejde og muligvis gøre menneskelige forskeres arbejde hurtigere i fremtiden.
Bemærkelsesværdigt blev AI-laboratoriekredsløbet kørt med faste prompter og uden menneskelig indgriben. Denne understøttelse hjalp med at afsløre modellens evne til at foreslå virkelige nye protokolændringer uden menneskelig vejledning, men det låste også systemet fast i udforskningen og begrænsede dets evne til at maksimere ydeevnen af nyligt opdagede idéer. En bedre dynamisk balance mellem udforskning og udnyttelse vil sandsynligvis give større gevinster, da både de enzymatiske og transformationsmæssige forbedringer har betydelig plads til forbedring. Vi forventer, at fremskridt inden for planlægning og avanceret tænkning omkring opgavehorisonter vil forbedre evnen til simple faste forespørgsler til at understøttelse både opdagelse og efterfølgende optimering.
Gibson assembly(åbner i et nyt vindue)-reaktionen har været en primær kloningsmetode siden dens opfindelse i 2009, med udbredt anvendelse inden for molekylærbiologi. Gibson assembly gør det muligt for molekylærbiologer at "lime" DNA-stykker sammen ved kortvarigt at smelte deres ender, så matchende sekvenser kan forsegles til et enkelt molekyle. En stor fordel ved Gibson assembly er dens enkelhed: Alt foregår i et enkelt rør ved én temperatur. Disse begrænsninger giver naturligvis mulighed for forbedring. Derudover gør de følgende egenskaber metoden velegnet til at vurdere AI-modellers evner til at forbedre vådlaboratorieteknikker:
- Veldefineret med kontrollerede komponenter, i modsætning til et cellebaseret system
- Har en klar optimeringsfunktion: Transformerbart cirkulært DNA lavet af en fast mængde lineære DNA-input
- Relativt hurtige eksperimentelle cyklusser (1-2 dage)
- Høj-dimensionelt designrum, der kræver mekanistisk tænkning for at forbedre: optimale buffere, reagenser og temperaturer er alle indbyrdes afhængige
Vi brugte HiFi assembly(åbner i et nyt vindue), et proprietært enzymsystem udviklet af New England Biolabs og baseret på Gibson assembly, som et optimeringsstartpunkt. Vi udforskede, om en AI kunne innovere og lære af eksperimentel feedback, når enkelttrins- og isoterme begrænsninger blev fjernet, og dermed identificere forbedringer af protokollen i denne situation.
Specifikt udførte vi en kloningsreaktion i to dele ved hjælp af et gen for grønt fluorescerende protein (GFP) og den hyppigt anvendte pUC19-plasmid, et standard DNA-vektor, der bruges til at transportere gener ind i bakterier, så de kan kopieres. Målet var at øge antallet af vellykkede kolonier.
Vi optimerede kloningsreaktionen ved at indføre en evolutionær ramme til at iterere på forslag, hvilket gør det muligt for modellen at lære "online" af sine tidligere eksperimenter. I hver runde foreslog GPT‑5 et sæt af 8-10 forskellige reaktioner, hvor reaktioner blev udsat til senere runder, hvis de krævede specialreagenser, som laboratoriet ikke havde ved hånden. Forskere udførte derefter reaktionerne og målte koloniantallene i forhold til den grundlæggende HiFi Gibson assembly i en indledende screening. De data med de bedste resultater fra den forrige runde blev derefter indført i den næste runde. Det er vigtigt, at prompten blev standardiseret uden menneskelig input ud over afklarende spørgsmål, hvilket gør det muligt for os at tilskrive nye mekanistiske indsigter direkte til AI'en frem for menneskelig vejledning.
Vi gentestede de otte bedste reaktioner fra den fulde optimeringsserie ved hjælp af et bredere udvalg af DNA-fortyndinger og fandt, at mange viste mindre effekt end i den indledende screening; i sidste ende var den stærkeste validerede kandidat en reaktion fra runde-5, der reproducerede sit oprindelige resultat. Mange højtydende enzymer faldt ind i ligase-polish-familien, som synes at være særligt følsom over for små variationer i tilstanden af kompetente celler og/eller håndtering af DNA efter reaktionen. Fordi disse reaktioner brugte et kort HiFi-trin, antager vi, at mange produkter sandsynligvis kommer ind i E. coli med kun én forseglet sammenføjning, mens den anden holdes ved annealing, hvilket overlader den efterfølgende redning til cellulære reparationsveje. Dette skaber høj varians og en "jackpot"-dynamik: Selvom varianter af denne reaktion for det meste ikke overpræsterer, kan et enkelt stærkt afvigende datapunkt føre familien videre til de efterfølgende runder.
Mens vi fokuserede på at optimere kloningsreaktionen over flere runder på grund af dens mekanistiske kompleksitet, optimerede vi samtidig transformationsproceduren ved hjælp af en enkelt "one-shot" runde, hvor modellen foreslog mange uafhængige ændringer, og vi valgte den reaktion med de bedste resultater.
Indledende optimeringsscreening for den to-trins kloningsarbejdsgang: enzymatisk samling og transformation. (Venstre) Iterativ optimering af enzymatisk samling over fem runder (44 reaktioner i alt). Fra HiFi-samlingens baseline foreslog GPT‑5 8-10 varianter af samlingsprotokoller pr. runde; data fra de bedst præsterende resultater blev indarbejdet i efterfølgende forespørgsler. I hver runde plotter vi den bedst præsterende reaktion indtil nu (inklusive tidligere runder). (Højre) Engangsoptimering af transformationsbetingelser, der tester 13 forskellige protokoller. For begge optimeringsscreeninger repræsenterer data enkelte målinger (n=1) pr. betingelse; validering blev udført separat for de bedste kandidater.
Ved at bruge standardiserede forespørgsler uden menneskelig indblanding forbedrede GPT5 effektiviteten af den komplette kloning 79 gange, bekræftet på tværs af eksperimentelle replikater.
Bemærkelsesværdigt foreslog modellen en ny enzymatisk procedure, som modellen kaldte RecA-Assisted Pair-and-Finish HiFi Assembly (RAPF-HiFi), der tilføjer to nye proteiner til reaktionen: Rekombinasen RecA fra E. coli og fagen T4 gen 32 enkeltstrenget DNA-bindende protein (gp32). Desuden foretog modellen bevidste ændringer i inkubationstemperaturen og -tiden samt tidspunktet for enzymatiske additioner: Den foreslog at tilføje RecA og gp32 efter en indledende 50°C HiFi-reaktion, lade disse proteiner arbejde ved 37°C og derefter gå tilbage til 50°C for at fuldføre samlingen. Sammen øgede disse nye ændringer effektiviteten mere end 2,5 gange. Det skal bemærkes, at dette repræsenterer den indledende præstation uden iterativ optimering af reaktionsbetingelser og timing.
På transformationssiden viste den mest effektive ændring sig uventet enkel: at pelletere cellerne (centrifugere dem, så de samler sig i bunden af røret), fjerne halvdelen af den tilførte volumen og resuspendere cellerne, før der tilsættes DNA, alt sammen ved 4°C. Selvom højeffektive kemisk kompetente celler typisk betragtes som skrøbelige, tolererede cellerne koncentrationen godt, og de øgede molekylære kollisioner forbedrede transformationseffektiviteten betydeligt (>30 gange ved den endelige validering).

T5 exonuklease skaber 3′ overhæng, som gp32 stabiliserer ved at undertrykke sekundær struktur. RecA invaderer derefter fra 3′-enderne, fortrænger gp32 og fremmer homologisøgning og annealing. Opvarmning til 50°C fjerner begge proteiner, hvilket muliggør polymerase-gap-udfyldning og ligering.
Gibson assembly fungerer ved at give stykker af DNA matchende "klæbrige" ender, så de kan finde hinanden og forbinde sig. Reaktionen anvender to forskellige enzymer (en polymerase og en ligase) til at forsegle de sammenføjede stykker. I RAPF-HiFi blev to proteiner introduceret for at forbedre matchningsprocessen. Den første, gp32, fungerer som en kam, der glatter og udreder de løse DNA-ender. Den anden, RecA, fungerer som en guide, der søger efter den korrekte partner for hver streng og trækker de matchende dele sammen. Højere temperaturer får begge hjælpere til at falde af DNA'et, hvilket gør det muligt for de normale Gibson-enzymer at fuldføre reaktionen.
Som en opsummering antager vi, at den forbedrede ydeevne er formidlet gennem følgende mekanisme:
- Gp32 dækker ikke-annealede enkeltstrengede DNA (ssDNA)-haler og fjerner sekundær struktur
- RecA, som normalt hæmmes af strukturen, invaderer fra 3' og fortrænger gp32-filamentet
- RecA medierer en ssDNA:ssDNA homologi-søgning(åbner i et nyt vindue), der driver annealing
- En tilbagevenden til 50°C fortrænger både recA- og gp32-filamenterne, hvilket gør det muligt for polymeraser og ligaser at fuldføre reaktionen.
For at teste, om de nye enzymer var funktionelle, og for at udelukke, at forbedringen i ydeevne udelukkende skyldes ændringer i termiske trin eller buffere, testede vi RAPF-HiFi's ydeevne uden RecA og både uden RecA og gp32. Resultaterne af begge reaktioner blev reduceret i forhold til RAPF-HiFi, hvilket tyder på, at begge proteiner er nødvendige for RAPF-HiFi's handlingsmekanisme.
For at teste den underliggende mekanisme, adskiller vi de to nye enzymer i reaktionen: RecA og gp32. Vi viser, at en af disse alene reducerer effektiviteten i forhold til HiFi baseline. Sammen overgår de baseline med en 2,6 x effektivitetsforøgelse. (Fejlbjælker: SD af n=3 uafhængige eksperimenter)
Udviklingen af RAPF-HiFi antyder, at GPT‑5 er i stand til kompleks, multidimensionel avanceret tænkning:
- RecA hæmmes af DNA-struktur(åbner i et nyt vindue), og det er bemærkelsesværdigt, at modellen introducerede to synergistiske modifikationer på én gang: Tilføj RecA, og komplementerede den med gp32 for at fjerne DNA's sekundære struktur.
- Den naturlige partner til E. coli RecA er E. coli enkeltstrenget DNA-bindende protein (SSB). SSB udfører en lignende rolle som gp32 under genomreplikation, rekombination og reparation. Dog falder E. coli SSB ikke spontant af DNA'et hurtigt nok til RecA-filamentvækst, idet RecFOR-komplekset fremmer RecA-nukleation ved SSB-filament in vivo(åbner i et nyt vindue). SSB binder sig som en stabil tetramer med ekstremt langsomme dissociationshastigheder(åbner i et nyt vindue). Til sammenligning er gp32-filamentet mere dynamisk(åbner i et nyt vindue), hvilket muliggør RecA-forskydning.
Så vidt vi ved, er RecA og gp32 ikke blevet brugt funktionelt sammen i molekylærbiologiske metoder. Ligesom med mange nye molekylærbiologiske teknikker var de underliggende biokemiske aktiviteter allerede blevet studeret, men deres anvendelse som en praktisk og generaliserbar metode udgør fremskridtet.
For eksempel er interaktionen mellem RecA og gp32 blevet undersøgt i mekanistiske rekonstitutionsforsøg in vitro: i studier af D-loop-dannelse, viste gp32 sig(åbner i et nyt vindue) at være i stand til at forbedre RecA-aktiviteten. Gp32 er blevet brugt sammen med sin naturlige T4-rekombinasepartner UvsX og rekombinase-loadingfaktoren uvsY i rekombinase-polymerase-amplifikation (RPA(åbner i et nyt vindue)). Selvom en RPA-patentspecifikation angiver(åbner i et nyt vindue), at effektive RPA-reaktioner er blevet demonstreret ved brug af E. coli RecA i et heterologt system med et kompromitteret (dvs. konstrueret, ikke-vildtype) gp32-protein, fremstår denne påstand kun som en tangent i nogle patentafsløringer og, så vidt vi har viden om, er den ikke blevet understøttet af offentliggjorte data eller taget i brug som et robust RecA-baseret RPA-system. En kloningsmetode kaldet SLiCE(åbner i et nyt vindue) bruger et celleudsnit fra E. coli, der indeholder λ Red-rekombinationssystemet, hvor Red Beta kan udføre dobbelte roller som både DNA-bindende protein og rekombinase (selvom vi eksplicit forbød brugen af celleudsnit i vores forespørgsel). I en anden anvendelse brugte Ferrin & Camerini-Otero(åbner i et nyt vindue) RecA alene til selektivt at fange DNA-molekyler baseret på matchende sekvenser. Separat er gp32 blevet brugt som et additiv(åbner i et nyt vindue) i en DNA-amplifikationsproces kaldet PCR for at reducere sekundær struktur. NABSA-forstærkning viste sig(åbner i et nyt vindue) at blive forbedret af både RecA og gp32, selvom hver af dem kunne forbedre reaktionen separat, og der blev ikke fundet nogen synergi. Mere generelt har rapporterede forbedringer af de grundlæggende DNA-samlingsreaktioner i Gibson-stil været sjældne, hvor det mest bemærkelsesværdige eksempel er et varmebestandigt DNA-bindende protein (ET SSB), der forbedrer samlingseffektiviteten cirka 2,5 gange(åbner i et nyt vindue).
For de fleste anvendelser forventer vi ikke, at RAPF-HiFi kan konkurrere med enkelheden og robustheden ved HiFi/Gibson-kloning. Dog er fremkomsten af en mekanistisk distinkt samlingsti bemærkelsesværdig: GPT‑5 nåede frem til en løsning, der inkluderer en ukendt kombination af rekombinationsproteiner og reaktionsdynamik. Den underliggende mekanisme kan vise sig at være modulær og angive komponenter, der kan genanvendes eller kombineres på ny i andre molekylære arbejdsprocesser. Vi fortsætter også med at udforske forbedringer af RAPF-HiFi. Reaktionstemperaturer og trinvarigheder kan justeres for at afbalancere RecA- og gp32-aktivitet mod overfordøjelse med exonuklease, og mængderne af begge proteiner skal stadig optimeres. GPT‑5 har også foreslået en hyperaktiv RecA-variant, som vi i øjeblikket renser.
Med hensyn til transformationsprotokollen omfattede de vellykkede optimeringsbetingelser en række tilsætningsstoffer og termiske forstyrrelser, der havde til formål at forbedre varmechok-effektiviteten af kommercielle 10-beta kompetente celler(åbner i et nyt vindue). Af de 13 AI-genererede engangstransformationer, der blev testet, var den mest effektive ændring, Transformation 7 (T7), at pelletere cellerne, fjerne halvdelen af den tilførte volumen og resuspendere cellerne, før DNA blev tilsat, alt sammen ved 4°C. Højeffektive kemisk kompetente celler anses normalt for at være skrøbelige, og sådanne håndteringsskridt undgås som regel. Ikke desto mindre tolererede cellerne koncentrationen godt. De kombinerede effekter af øget DNA-eksponering pr. celle og mindre hæmmende buffer, der fører til et skarpere varmechok, resulterede i en betydelig stigning i transformationseffektiviteten (>30 gange).
Denne transformationsprotokol er ny, selvom en konceptuelt lignende tilgang(åbner i et nyt vindue), hvor cellerne koncentreres på et tidligere trin, er blevet rapporteret. Bemærkelsesværdigt er det, at den metode, der er udviklet her af GPT‑5, er kompatibel med kommercielt tilgængelige kemisk kompetente celler, hvilket eliminerer behovet for intern celleforberedelse, samtidig med at den overgår den rapporterede effektivitetsforøgelse af en lignende tilgang på lignende celletyper.
For at øge gennemløbet af dette model-eksperimentelle system samarbejdede Robot on Rails og Red Queen Bio om at udvikle et robotsystem, der modtager en naturlig sprogkloningsprotokol og udfører den i vådlaboratoriet.
Systemet kombinerer tre komponenter: 1) en menneske-til-robot LLM, der konverterer almindeligt engelsk til robotens handlinger; 2) et visionssystem, der identificerer og lokaliserer laboratorieudstyr i realtid; og 3) en robotisk ruteplanlægger, der fastlægger, hvordan hver handling udføres sikkert og præcist. Resultatet er en fleksibel, generaliseret laboratorierobot, der blev yderligere optimeret til varianter af Gibson-kloningsprotokollen.
Vi testede, om den autonome robot kunne udføre et komplet kloningseksperiment ved at køre to protokoller samtidigt: Standard-HiFi-metoden og R8, den bedst præsterende AI-modificerede protokol fra den første optimeringsrunde.
Vi sammenlignede robottens arbejde med menneskeligt udførte eksperimenter på hvert trin. Robotten håndterede med succes transformationsprocessen, som krævede forskellige fysiske operationer: At overføre og blande væsker, flytte prøverør, anvende kontrolleret varme på celler og sprede celler på vækstplader. Når du sammenligner direkte med menneskeligt udførte transformationer, genererede robotten data af lignende kvalitet med tilsvarende forbedringer i forhold til baseline, hvilket viser et tidligt potentiale for at automatisere og fremskynde optimering af biologiske eksperimenter.
Selvom fold-ændringerne mellem robot- og menneskeforsøgene var ens, var de absolutte kolonioptællinger fra robotten cirka ti gange lavere end ved manuel udførelse, hvilket indikerer områder, der kan forbedres, såsom præcision i væskehåndtering, kalibrering af temperaturkontrol og replikation af nuancerne i manuelle cellehåndteringsteknikker.
Både standard-HiFi-metoden (baseline) og den forbedrede R8-metode blev udført af menneskelige forskere og den autonome robot, med transformationseffektivitet normaliseret til de respektive HiFi-baselinekontroller (sat til 1,0). Menneskeudført R8 viste en forbedring på 2,39 x; robotudført R8 opnåede en forbedring på 2,13 x (89 % af menneskelig ydeevne), hvilket demonstrerer en sammenlignelig protokolrangering trods lavere absolutte udbytter.
Vi tror, at disse eksperimenter giver et øjebliksbillede af, hvordan fremtidens AI-accelererede videnskab vil se ud: Modeller, der konstant lærer og interagerer med den virkelige verden. Selvom vores eksperimenter udelukkede menneskelig indgriben for udelukkende at måle modellens kapaciteter, er vi særligt begejstrede for AI, der hjælper menneskelige forskere med at designe eksperimenter og bidrage til forskningsgennembrud.
Mens vi arbejder på at fremskynde videnskabelige fremskridt på en sikker og ansvarlig måde, søger vi også at evaluere og reducere risici, især dem der er relateret til biosikkerhed. Disse evalueringsresultater viser, at modeller kan anvende avanceret tænkning i vådlaboratoriet for at forbedre protokoller, og de kan have konsekvenser for biosikkerhed, som beskrevet i vores beredskabsramme(åbner i et nyt vindue). Vi er forpligtet til at opbygge nødvendige og nuancerede sikkerhedsforanstaltninger på model- og systemniveau for at reducere disse risici samt udvikle evaluering til at følge de nuværende niveauer.


