Mätning av AI:s förmåga att påskynda biologisk forskning i våtlabb
GPT‑5 skapade nya förbättringar för protokoll för våtlabb och optimerade effektiviteten i ett molekylärt kloningsprotokoll med 79 gånger.

Att påskynda den vetenskapliga utvecklingen är ett av de mest värdefulla sätten som AI kan gynna mänskligheten på. Med GPT‑5 börjar vi se tidiga tecken på detta – inte bara genom att hjälpa forskare att arbeta snabbare med vetenskaplig litteratur, utan också genom att stödja nya former av vetenskapligt resonemang, som att upptäcka oväntade samband, föreslå bevisstrategier eller föreslå plausibla mekanismer som experter sedan kan utvärdera och testa.
Hittills har framstegen varit mest synliga inom områden som matematik, teoretisk fysik och teoretisk datavetenskap, där idéer kan testas grundligt utan fysiska experiment. Biologi är annorlunda: de flesta framsteg är beroende av experimentella genomföranden och upprepad och empirisk validering i laboratoriet.
För att bättre förstå hur banbrytande modeller fungerar i dessa miljöer har vi samarbetat med Red Queen Bio, ett nystartat företag inom biosäkerhet, för att utveckla ett utvärderingsramverk som testar hur en modell föreslår, analyserar och utvecklar idéer i våtlabb. Vi skapade ett enkelt experimentellt system för molekylärbiologi och lät GPT‑5 optimera ett protokoll för molekylär kloning för att öka effektiviteten.
Efter flera experimentomgångar introducerade GPT‑5 en ny mekanism som förbättrade kloningseffektiviteten med 79 gånger. Kloning är ett grundläggande verktyg inom molekylärbiologi. Effektiviteten hos kloningsmetoder är avgörande för att skapa stora, komplexa bibliotek som är centrala för proteinteknik(öppnas i ett nytt fönster), genetiska screeningar(öppnas i ett nytt fönster) och stamkonstruktion på organismnivå(öppnas i ett nytt fönster). Det här projektet ger en inblick i hur AI kan samarbeta med biologer för att påskynda forskningen. Förbättringar av experimentella metoder kommer att hjälpa forskare att arbeta snabbare, minska kostnaderna och omsätta upptäckter i praktiska tillämpningar.
Eftersom framsteg inom biologiskt avancerat resonemang har konsekvenser för biosäkerheten, har vi genomfört detta arbete inom en strikt kontrollerad ram med hjälp av ett ofarligt experimentellt system. Vi begränsade uppgiftens omfattning och utvärderade modellens beteende för att understödja våra biosäkerhetsriskbedömningar och utvecklingen av säkerhetsåtgärder på modell- och systemnivå, såsom beskrivs i vårt förberedelseramverk(öppnas i ett nytt fönster).
I den här inställningen resonerade GPT‑5 självständigt om kloningsprotokollet, föreslog modifieringar och integrerade data från nya experiment för att föreslå ytterligare förbättringar. Det enda mänskliga momentet var att forskarna genomförde det modifierade protokollet och laddade upp experimentdata.
Under flera omgångar optimerade GPT‑5 kloningsproceduren för att förbättra effektiviteten med över 79 gånger – vilket innebär att vi för en fast mängd ingående DNA utvann 79 gånger fler sekvensverifierade kloner än med baslinjeprotokollet. Framför allt introducerade man två enzymer som utgör en ny mekanism: rekombinasen RecA från E. coli och T4-fag-genen 32 enkelsträngat DNA-bindande protein (gp32). Genom att arbeta tillsammans jämnar gp32 ut och reder ut de lösa DNA-ändarna, och RecA leder sedan varje sträng till sin rätta matchning.
Inledande screening och sekundära experiment identifierade RecA-Assisted Pair-and-Finish HiFi Assembly (RAPF) och Transformation 7 (T7) som de bästa enzymatiska respektive transformationsprotokollen. Både RAPF-montering och T7-transformation förbättrade oberoende av varandra kloningseffektiviteten i förhållande till det grundläggande HiFi-reaktionskloningsprotokollet, med 2,6 gånger respektive 36 gånger, och tillsammans gav de en additiv förbättring av prestandan med 79 gånger. Alla kloner bekräftades genom sekvensering. (Felstaplar: SD av n=3 oberoende valideringsexperiment).
Även om det är tidigt är dessa resultat uppmuntrande. Dessa förbättringar gäller specifikt den kloningsutrustning som används i vårt modellsystem, och det krävs fortfarande mänskliga forskare för att ställa in och köra protokollen. Trots detta visar dessa experiment att AI-system kan vara till stor hjälp i laboratoriearbete och kan komma att påskynda forskarnas arbete i framtiden.
Det är värt att notera att AI-labbslingan kördes med fasta promptar och utan mänsklig inblandning. Den här strukturen bidrog till att avslöja modellens förmåga att föreslå genuint nya protokolländringar oberoende av mänsklig vägledning, men den låste också systemet i utforskningsfasen och begränsade förmågan att maximera resultatet av nya idéer. En bättre dynamisk balans mellan utforskning och utnyttjande skulle troligtvis ge större fördelar, eftersom både enzymatiska förbättringar och transformationsförbättringar kan förbättras ytterligare. Vi förväntar oss att framsteg inom planering och avancerat tänkande kring uppgiftshorisonter kommer att förbättra förmågan hos enkla fasta frågor att stödja både upptäckt och efterföljande optimering.
Gibson assembly(öppnas i ett nytt fönster)-reaktionen har varit en primär kloningsmetod sedan den uppfanns 2009 och har fått bred användning inom molekylärbiologin. Gibson assembly gör det möjligt för molekylärbiologer att ”limma” ihop DNA-bitar genom att kortvarigt smälta deras ändar så att matchande sekvenser kan förseglas till en enda molekyl. En stor fördel med Gibson assembly är enkelheten: allt sker i ett enda rör vid en temperatur. Dessa begränsningar innebär naturligtvis att det finns utrymme för förbättringar. Dessutom gör följande egenskaper det väl lämpat för att utvärdera AI-modellernas förmåga att förbättra tekniker för våtlabb:
- Väl definierad med kontrollerade komponenter, till skillnad från ett cellbaserat system
- Har en tydlig optimeringsfunktion: Omvandlingsbart cirkulärt DNA tillverkat av en fast mängd linjärt DNA-inmatning.
- Relativt snabba experimentcykler (1–2 dagar)
- Högdimensionellt designutrymme som kräver mekanistiskt resonemang för att förbättras: optimala buffertar, reagenser och temperaturer är alla beroende av varandra
Vi använde HiFi assembly(öppnas i ett nytt fönster), ett proprietärt enzymsystem utvecklat av New England Biolabs och baserat på Gibson assembly, som en utgångspunkt för optimering. Vi undersökte om en AI kunde innovera och lära sig av experimentell feedback när begränsningar för enstegs- och isotermiska processer togs bort, och därmed identifiera förbättringar av protokollet detta scenario.
Mer specifikt utförde vi en tvåstegs kloningsreaktion med hjälp av en gen för grönt fluorescerande protein (GFP) och den vanligt förekommande pUC19-plasmiden, en standard-DNA-vektor som används för att transportera gener till bakterier så att de kan kopieras. Målet var att öka antalet framgångsrika kolonier.
Vi optimerade kloningsreaktionen genom att införa ett evolutionärt ramverk för att iterera på förslag, vilket gjorde det möjligt för modellen att lära sig ”online” från sina tidigare experiment. I varje omgång föreslog GPT‑5 en serie med 8–10 olika reaktioner, där reaktioner som krävde specialreagenser som laboratoriet inte hade till hands sköts upp till senare omgångar. Forskarna utförde sedan reaktionerna och mätte koloniantalet i förhållande till baslinjen HiFi Gibson-sammanställningen i en initial screening. De bästa resultaten från föregående omgång matades sedan in i nästa omgång. Det är viktigt att påpeka att prompten standardiserades utan mänsklig inblandning utöver förtydligande frågor, vilket gör att vi kan tillskriva nya mekaniska insikter direkt till AI:n snarare än mänsklig vägledning.
Vi testade om de åtta bästa svaren från den fullständiga optimeringsserien med ett bredare spektrum av DNA-utspädningar och fann att många visade mindre effekt än i den initiala screeningen. Slutligen var den starkaste validerade kandidaten ett svar från omgång 5 som reproducerade sitt ursprungliga resultat. Många högpresterande enzymer tillhörde ligas-polish-familjen, som verkar vara särskilt känslig för små variationer i kompetenta cellers tillstånd och/eller hantering av DNA efter reaktionen. Eftersom dessa reaktioner använde ett kort HiFi-steg antar vi att många produkter sannolikt kommer in i E. coli med endast en förseglad koppling, medan den andra hålls vid annealing, vilket lämnar efterföljande räddning till cellulära reparationsvägar. Detta skapar stor variation och en ”jackpot”-dynamik: även om varianter av denna reaktion oftast inte presterar bättre än genomsnittet, kan en enda kraftigt avvikande datapunkt driva familjen vidare till efterföljande omgångar.
Medan vi fokuserade på att optimera kloningsreaktionen över flera omgångar på grund av dess mekaniska komplexitet, optimerade vi samtidigt transformationsproceduren med hjälp av en enda ”one-shot”-omgång, där modellen föreslog många oberoende förändringar och vi valde den reaktion som gav bäst resultat.
Inledande optimeringsskärmar för det tvåstegsbaserade kloningsarbetsflödet: enzymatisk sammansättning och transformation. (Vänster) Iterativ optimering av enzymatisk sammansättning över fem omgångar (totalt 44 reaktioner). Med utgångspunkt från HiFi-monteringsbaslinjen föreslog GPT‑5 8–10 varianter av monteringsprotokoll per omgång; data från de bästa resultaten införlivades i efterföljande uppmaningar. Vid varje omgång plottar vi den reaktion som hittills har presterat bäst (inklusive tidigare omgångar). (Höger) Engångsoptimering av transformationsförhållanden genom att testa 13 olika protokoll. För båda optimeringsskärmarna representerar data enstaka mätningar (n=1) per tillstånd; replikerad validering utfördes separat för de bästa kandidaterna.
Genom att använda standardiserade frågor utan mänsklig inblandning förbättrade GPT5 effektiviteten för fullständig kloning med 79 gånger, vilket bekräftades i replikerade expriment.
Modellen föreslog särskilt en ny enzymatisk procedur, som modellen kallade RecA-Assisted Pair-and-Finish HiFi Assembly (RAPF-HiFi), som lägger till två nya proteiner till reaktionen: rekombinaset RecA från E. coli och T4-fag-gen 32 enkelsträngat DNA-bindande protein (gp32). Vidare gjorde modellen avsiktliga modifieringar av inkubationstemperaturen och -tiden samt tidpunkten för enzymatiska tillsatser: den föreslog att RecA och gp32 skulle tillsättas efter en initial HiFi-reaktion vid 50 °C så att dessa proteiner kunde verka vid 37 °C, och sedan återgå till 50 °C för att slutföra sammansättningen. Tillsammans ökade dessa nya modifieringar effektiviteten med mer än 2,5 gånger. Det bör noteras att detta representerar det inledande resultatet utan iterativ optimering av reaktionsförhållanden och timing.
När det gäller transformationen visade sig den mest effektiva modifieringen vara oväntat enkel: att pelletera cellerna (centrifugera dem så att de samlas i botten av röret), ta bort hälften av den tillförda volymen och resuspendera cellerna innan DNA tillsattes, allt vid 4 °C. Även om högeffektiva kemiskt kompetenta celler vanligtvis anses vara ömtåliga, tolererade cellerna koncentrationen väl och de ökade molekylära kollisionerna ökade transformationseffektiviteten avsevärt (>30 gånger vid slutlig validering).

T5-exonukleas skapar 3′-överhäng, som gp32 stabiliserar genom att undertrycka sekundärstrukturen. RecA invaderar sedan från 3′-ändarna, fördriver gp32 och främjar homologisökning och sammanfogning. Uppvärmning till 50 °C avlägsnar båda proteinerna, vilket möjliggör polymerasgapfyllning och ligering.
Gibson assembly fungerar genom att ge DNA-bitar som matchar ”klibbiga” ändar så att de kan hitta varandra och fästa ihop. Reaktionen använder två olika enzymer (ett polymeras och ett ligas) för att försegla de sammanfogade delarna. I RAPF-HiFi introducerades två proteiner för att förbättra matchningssteget. Den första, gp32, fungerar som en kam som slätar ut och reder ut de lösa DNA-ändarna. Den andra, RecA, fungerar som en guide som söker efter rätt partner för varje sträng och drar ihop de matchande delarna. Högre temperatur gör att båda hjälparna faller av DNA:t, vilket gör att de normala Gibson-enzymerna kan slutföra reaktionen.
Sammanfattningsvis är vår hypotes att den förbättrade prestandan förmedlas via följande mekanism:
- Gp32 täcker icke-annelerade enkelsträngade DNA-ändar (ssDNA) och avlägsnar sekundärstrukturen.
- RecA, som normalt hämmas av strukturen, invaderar från 3' och förskjuter gp32-filamentet
- RecA medierar en ssDNA:ssDNA homologisökning(öppnas i ett nytt fönster), vilket driver annelering
- En återgång till 50 °C förskjuter både recA- och gp32-filamenten, vilket gör att polymeraserna och ligaserna kan slutföra reaktionen.
För att testa om de nya enzymerna var funktionella och för att utesluta att prestandaförbättringen enbart berodde på förändringar i termiska steg eller buffertar, testade vi prestandan hos RAPF-HiFi utan RecA och utan både RecA och gp32. Resultaten av båda reaktionerna minskade i förhållande till RAPF-HiFi, vilket tyder på att båda proteinerna är nödvändiga för RAPF-HiFi:s verkningsmekanism.
För att testa den underliggande mekanismen separerar vi de två nya enzymerna i reaktionen: RecA och gp32. Vi visar att var och en av dessa faktorer separat minskar effektiviteten jämfört med HiFi-baslinjen. Tillsammans överträffar de baslinjen med en effektivitetsvinst på 2,6 gånger. (Felstaplar: SD av n=3 oberoende experiment)
Utvecklingen av RAPF-HiFi tyder på att GPT‑5 är kapabel till komplext, flerdimensionellt resonemang:
- RecA hämmas av DNA-strukturen(öppnas i ett nytt fönster), och det är anmärkningsvärt att modellen introducerade två synergistiska modifieringar samtidigt: tillsätta RecA och komplettera det med gp32 för att ta bort DNA:s sekundära struktur.
- Den naturliga partnern till E. coli RecA är E. coli enkelsträngat bindningsprotein (SSB). SSB har en liknande funktion som gp32 under genomreplikation, rekombination och reparation. E. coli SSB faller dock inte spontant av DNA tillräckligt snabbt för att RecA-filament ska kunna växa, och RecFOR-komplexet främjar RecA-nukleation vid SSB-filament in vivo(öppnas i ett nytt fönster). SSB binder som en stabil tetramer med extremt långsamma avbindningshastigheter(öppnas i ett nytt fönster). Däremot är gp32-filamentet mer dynamiskt(öppnas i ett nytt fönster), vilket möjliggör förskjutning av RecA.
Såvitt vi vet har RecA och gp32 inte använts tillsammans i molekylärbiologiska metoder. Precis som med många nya molekylärbiologiska tekniker hade de underliggande biokemiska aktiviteterna redan studerats, men deras användning som en praktisk, generaliserbar metod utgör ett framsteg.
Till exempel har interaktionen mellan RecA och gp32 studerats i mekanistiska in vitro-rekonstitutionsanalyser: i studier av D-loopbildning visade sig gp32(öppnas i ett nytt fönster) kunna förstärka RecA-aktiviteten. Gp32 har använts i samband med sin naturliga T4-rekombinaspartner UvsX och rekombinasladdningsfaktorn uvsY i rekombinaspolymerasamplifiering (RPA(öppnas i ett nytt fönster)). Även om en RPA-patentspecifikation(öppnas i ett nytt fönster) anger att effektiva RPA-reaktioner har påvisats med användning av E. coli RecA i ett heterologt system med ett komprometterat (dvs. konstruerat, icke-vildtyp) gp32-protein, förekommer detta påstående endast som en sidokommentar i vissa patentbeskrivningar och har, såvitt vi vet, inte stöd av publicerade data eller antagits som ett robust RecA-baserat RPA-system. En kloningsmetod som kallas SLiCE(öppnas i ett nytt fönster) använder ett helcellsextrakt från E. coli som innehåller λ Red-rekombinationssystemet, där Red Beta kan ha dubbla roller som både DNA-bindande protein och rekombinas (även om vi uttryckligen förbjöd användningen av cellextrakt i vår prompt). I en annan tillämpning använde Ferrin & Camerini-Otero(öppnas i ett nytt fönster) RecA ensamt för att selektivt fånga DNA-molekyler baserat på matchande sekvenser. Separat har gp32 använts som tillsats(öppnas i ett nytt fönster) i en DNA-amplifieringsprocess som kallas PCR för att minska sekundärstrukturen. NABSA-amplifieringen visade sig(öppnas i ett nytt fönster) förbättras av både RecA och gp32, även om var och en av dem kunde förbättra reaktionen separat och ingen synergi kunde identifieras. Mer generellt sett har rapporterade förbättringar av de grundläggande Gibson-reaktionerna för DNA-sammanfogning varit få, med det mest anmärkningsvärda exemplet vara ett värmestabilt DNA-bindande protein (ET SSB) som förbättrar sammansättningseffektiviteten med ungefär 2,5 gånger(öppnas i ett nytt fönster).
För de flesta tillämpningar förväntar vi oss inte att RAPF-HiFi ska konkurrera med enkelheten och robustheten hos HiFi/Gibson-kloning. Det är dock värt att notera framväxten av en mekanistiskt distinkt sammansättningsväg: GPT‑5 kom fram till en lösning som innefattar en okänd kombination av rekombinationsproteiner och reaktionsdynamik. Den underliggande mekanismen kan visa sig vara modulär och tillhandahålla komponenter som kan återanvändas eller kombineras på nytt i andra molekylära arbetsflöden. Vi fortsätter också att utforska förbättringar av RAPF-HiFi. Reaktionstemperaturer och steglängder kan justeras för att balansera RecA- och gp32-aktiviteten mot exonukleasöverdigestion, och mängden av båda proteinerna behöver fortfarande optimeras. GPT‑5 har också föreslagit en hyperaktiv RecA-variant, som vi för närvarande renar.
När det gäller transformationsprotokollet omfattade de framgångsrika optimeringsförhållandena en rad tillsatser och termiska störningar som syftade till att förbättra värmechockseffektiviteten hos kommersiella 10-beta-kompetenta celler(öppnas i ett nytt fönster). Av de 13 AI-genererade engångstransformationerna som testades var den mest effektiva modifieringen, Transformation 7 (T7), pelleterade cellerna, avlägsnade hälften av den tillförda volymen och resuspenderade cellerna innan DNA tillsattes, allt vid 4 °C. Högeffektiva kemiskt kompetenta celler anses vanligtvis vara ömtåliga, och sådana hanteringssteg undviks i allmänhet. Trots detta tolererade cellerna koncentrationen väl. De kombinerade effekterna av ökad DNA-exponering per cell och mindre hämmande buffert, vilket ledde till en kraftigare värmechock, resulterade i en betydande ökning av transformationseffektiviteten (mer än 30-faldig).
Det här transformationsprotokollet är nytt, även om ett konceptuellt liknande tillvägagångssätt(öppnas i ett nytt fönster) där cellerna koncentreras i ett tidigare steg har rapporterats. Det är värt att notera att den metod som utvecklats här av GPT‑5 är kompatibel med färdiga kemiskt kompetenta celler, vilket eliminerar behovet av intern cellberedning, samtidigt som den överträffar de rapporterade effektivitetsvinsterna för liknande metoder på jämförbara cellstammar.
För att öka kapaciteten i detta modellförsökssystem har Robot on Rails och Red Queen Bio samarbetat för att utveckla ett robotsystem som tar emot ett kloningsprotokoll i naturligt språk och utför det i våtlabbet.
Systemet kombinerar tre komponenter: 1) en LLM mellan människa och robot som omvandlar naturligt engelska till robotåtgärder; 2) ett visionssystem som identifierar och lokaliserar laboratorieutrustning i realtid; och 3) en robotiserad planerare som bestämmer hur varje åtgärd ska utföras på ett säkert och korrekt sätt. Resultatet är en flexibel, generell laboratorierobot som ytterligare optimerades för varianter av Gibson-kloningsprotokollet.
Vi testade om den autonoma roboten kunde utföra ett komplett kloningsexperiment genom att köra två protokoll samtidigt: standardmetoden HiFi och R8, det bäst presterande AI-modifierade protokollet från den första optimeringsomgången.
Vi jämförde robotens arbete med experiment utförda av människor vid varje steg. Roboten hanterade transformationsprocessen, som krävde olika fysiska operationer, på ett lyckat sätt: överföra och blanda vätskor, flytta provrör, applicera kontrollerad värme på celler och sprida celler på odlingsplattor. Jämfört direkt med transformationer utförda av människor genererade roboten data av liknande kvalitet med motsvarande förbättringar jämfört med baslinjen, vilket visar på en tidig potential för automatisering och acceleration av optimeringen av biologiska experiment.
Även om skillnaden mellan robot- och mänskliga experiment var liknande, var det absoluta antalet kolonier från roboten ungefär tio gånger lägre än vid manuell utförande, vilket indikerar områden som kan förbättras, såsom precision vid hantering av vätskor, kalibrering av temperaturkontroll och replikering av nyanserna i manuella cellhanteringstekniker.
Både standardmetoden HiFi (baslinje) och den förbättrade metoden R8 utfördes av mänskliga forskare och den autonoma roboten, med transformationseffektiviteten normaliserad till respektive HiFi-baslinjekontroller (inställda på 1,0). Mänskligt utförd R8 visade en förbättring på 2,39 gånger; robotutförd R8 uppnådde en förbättring på 2,13 gånger (89 % av mänsklig prestanda), vilket visar en jämförbar protokollrankning trots lägre absoluta utbyten.
Vi tror att dessa experiment ger en ögonblicksbild av hur framtidens AI-understödda vetenskap kommer att se ut: modeller som kontinuerligt lär sig och interagerar med den verkliga världen. Även om våra experiment uteslöt mänsklig inblandning för att enbart mäta modellens kapacitet, är vi särskilt entusiastiska över AI som hjälper mänskliga forskare att utforma experiment och bidra till forskningsgenombrott.
När vi arbetar för att på ett säkert och ansvarsfullt sätt påskynda den vetenskapliga utvecklingen, strävar vi också efter att utvärdera och minska riskerna, särskilt de som rör biosäkerhet. Resultaten av dessa utvärderingar visar att modeller kan användas i laboratorier för att förbättra protokoll och kan ha betydelse för biosäkerheten, i enlighet med vad som beskrivs i vårt förberedelseramverk(öppnas i ett nytt fönster). Vi har åtagit oss att utforma nödvändiga och nyanserade skyddsåtgärder på modell- och systemnivå för att minska dessa risker, samt att utveckla utvärderingar för att följa upp nuvarande nivåer.


