Sari la conținutul principal
OpenAI

16 decembrie 2025

CercetarePublicare

Măsurarea capacității inteligenței artificiale de a accelera cercetarea biologică în laboratorul experimental

GPT‑5 a creat îmbunătățiri inovatoare ale protocolului de laborator experimental, optimizând eficiența unui protocol de clonare moleculară de 79 de ori.

Grafică în stil colaj cu gradienturi blânde de albastru-portocaliu, o diagramă a structurii ADN-ului și textul îngroșat „Cercetare în biologie”, etichetat sub „OpenAI pentru știință”.
Se încarcă…

Accelerarea progresului științific este una dintre cele mai valoroase modalități prin care inteligența artificială poate aduce beneficii umanității. Cu GPT‑5, începem să vedem primele semne ale acestui fenomen, nu numai în sprijinirea cercetătorilor pentru a parcurge mai rapid literatura științifică, ci și în facilitarea unor noi forme de raționament științific, cum ar fi descoperirea de conexiuni neașteptate, propunerea de strategii de demonstrare sau sugerarea de mecanisme plauzibile pe care experții le pot evalua și testa.

Până în prezent, progresele au fost foarte evidente în domenii precum matematica, fizica teoretică și informatica teoretică, unde ideile pot fi verificate riguros fără experimente fizice. Biologia este diferită: majoritatea progreselor depind de executarea experimentală, iterație și validarea empirică în laborator.

Pentru a înțelege cum se comportă modelele de frontieră în aceste contexte, am colaborat cu Red Queen Bio, un start-up de biosecuritate, pentru a construi un cadru de evaluare care testează modul în care un model propune, analizează și iterează ideile în laboratorul experimental. Am configurat un sistem experimental simplu de biologie moleculară și i-am solicitat lui GPT‑5 să optimizeze un protocol de clonare moleculară pentru eficiență.

După mai multe runde de experimentare, GPT‑5 a lansat un mecanism nou care a îmbunătățit eficiența clonării de 79 de ori. Clonarea este un instrument fundamental în biologia moleculară. Eficiența metodelor de clonare este esențială pentru crearea de biblioteci mari și complexe, necesare pentru ingineria proteinelor(se deschide într-o fereastră nouă), screeningurile genetice(se deschide într-o fereastră nouă) și ingineria tulpinilor organismelor(se deschide într-o fereastră nouă). Acest proiect oferă o imagine de ansamblu asupra modului în care inteligența artificială ar putea lucra alături de biologi pentru a accelera cercetarea. Îmbunătățirea metodelor experimentale va ajuta cercetătorii umani să avanseze mai repede, să reducă costurile și să transforme descoperirile în impact real.

Deoarece progresele în raționamentul biologic au implicații pentru biosecuritate, am realizat acest studiu într-un mediu strict controlat — utilizând un sistem experimental benign, limitând domeniul de aplicare al sarcinii și evaluând comportamentul modelului pentru a ne fundamenta evaluările de risc de biosecuritate și dezvoltarea măsurilor de protecție la nivel de model și sistem, așa cum este descris în Cadrul nostru de pregătire(se deschide într-o fereastră nouă).

Rezultate experimentale

În această configurație, GPT‑5 a analizat prin raționament, în mod autonom, protocolul de clonare, a propus modificări și a încorporat date din experimente noi pentru a sugera mai multe îmbunătățiri. Singura intervenție umană a fost când cercetătorii științifici au pus în aplicare protocolul modificat și au încărcat datele experimentale.

Pe parcursul mai multor runde, GPT‑5 a optimizat procedura de clonare pentru a îmbunătăți eficiența de peste 79 de ori — ceea ce înseamnă că, pentru o cantitate fixă de ADN introdus, am recuperat de 79 de ori mai multe clone verificate prin secvențiere decât protocolul de bază. De remarcat este că a introdus două enzime care constituie un mecanism nou: recombinaza RecA din E. coli și proteina de legare a ADN-ului monocatenar (gp32) din gena 32 a fagului T4. Lucrând în tandem, gp32 netezește și descurcă capetele libere ale ADN-ului, iar RecA ghidează apoi fiecare catenă către perechea sa corectă.

Screeningul inițial și experimentele secundare au identificat RecA-Assisted Pair-and-Finish HiFi Assembly (RAPF) și Transformation 7 (T7) ca fiind principalele protocoale enzimatice, respectiv de transformare. Atât asamblarea RAPF, cât și transformarea T7 au îmbunătățit independent eficiența clonării în raport cu protocolul de clonare a reacției HiFi de bază, de 2,6 ori, respectiv 36 de ori; și combinate au oferit o îmbunătățire aditivă a performanței de 79 de ori. Toate clonele au fost confirmate prin secvențiere. (Bare de eroare: SD pentru n=3 experimente de validare independente).

Deși sunt preliminare, aceste rezultate sunt încurajatoare. Îmbunătățirile sunt specifice configurației noastre speciale de clonare utilizate în sistemul modelului nostru și necesită în continuare ca cercetătorii științifici umani să configureze și să execute protocoalele. Chiar și așa, aceste experimente arată că sistemele de inteligență artificială pot sprijini în mod semnificativ munca reală de laborator și ar putea accelera cercetătorii umani în viitor.

Este de remarcat faptul că bucla dintre inteligență artificială și laborator a fost rulată cu solicitări fixe și fără intervenție umană. Această structură a contribuit la revelarea capacității modelului de a propune modificări de protocol cu adevărat inovatoare, independente de îndrumarea umană, dar a și blocat sistemul în etapa de explorare și i-a limitat capacitatea de a maximiza performanța ideilor nou descoperite. Un echilibru dinamic mai bun între explorare și exploatare ar putea genera câștiguri mai mari, întrucât atât îmbunătățirile enzimatice, cât și cele legate de transformare au un potențial substanțial de rafinare. Ne așteptăm ca progresele în planificare și raționamentul privind orizontul sarcinilor să îmbunătățească capacitatea solicitărilor fixe simple de a sprijini atât descoperirea, cât și optimizarea ulterioară.

Un cadru evolutiv pentru optimizarea protocoalelor reale

Reacția Gibson assembly(se deschide într-o fereastră nouă) este o metodă principală de clonare încă de când a fost inventată în 2009, fiind adoptată pe scară largă în domeniul biologiei moleculare. Gibson assembly le permite biologilor moleculari să „lipească” bucăți de ADN prin topirea rapidă a capetelor acestora, astfel încât secvențele potrivite să poată fi sigilate într-o singură moleculă. Unul dintre principalele avantaje ale procesului Gibson assembly este simplitatea sa: totul se desfășoară într-un singur tub, la o singură temperatură. Aceste constrângeri creează, în mod firesc, posibilități de îmbunătățire. În plus, următoarele proprietăți îl recomandă pentru evaluarea capacității modelelor de inteligență artificială de a îmbunătăți tehnicile de laborator experimental:

  • Bine definit cu componente controlate, spre deosebire de un sistem bazat pe celule
  • Are o funcție clară de optimizare: ADN circular transformabil obținut dintr-o cantitate fixă de ADN liniar introdus
  • Cicluri experimentale relativ rapide (1-2 zile)
  • Spațiu de proiectare cu dimensiuni ridicate, care necesită raționament mecanistic pentru a fi îmbunătățit: tampoanele, agenții reactivi și temperaturile optime sunt interdependente.

Am folosit HiFi assembly(se deschide într-o fereastră nouă), un sistem enzimatic proprietar dezvoltat de New England Biolabs și bazat pe Gibson assembly, ca punct de plecare pentru optimizare. Am explorat dacă o inteligență artificială ar putea inova și învăța din feedbackul experimental odată ce constrângerile pas cu pas și izoterme au fost eliminate și, prin urmare, am identificat îmbunătățiri ale protocolului în acest scenariu.

Mai exact, am efectuat o reacție de clonare în două etape folosind o genă pentru proteina fluorescentă verde (GFP) și plasmida pUC19, utilizată pe scară largă, un „vehicul” standard de ADN folosit pentru a transporta gene în bacterii, astfel încât acestea să poată fi copiate. Scopul a fost creșterea numărului de colonii reușite.

Am optimizat reacția de clonare prin introducerea unui cadru evolutiv pentru iterarea propunerilor, permițându-i modelului să învețe „online” din experimentele sale anterioare. În fiecare rundă, GPT‑5 a propus un lot de 8-10 reacții diferite, reacțiile fiind amânate în runde ulterioare dacă necesitau agenți reactivi personalizați pe care laboratorul nu îi avea la îndemână. Cercetătorii umani au efectuat apoi reacțiile și au măsurat numărul de colonii în raport cu ansamblul de referință HiFi Gibson într-un screening inițial. Cele mai performante date din runda anterioară au fost apoi introduse în runda următoare. Este important de menționat că solicitările au fost standardizate, fără intervenție umană în afară de clarificarea întrebărilor, permițându-ne să atribuim direct inteligenței artificiale, și nu îndrumării umane, noile observații mecanistice. 

Am retestat primele opt reacții din seria completă de optimizare folosind o gamă mai largă de diluții de ADN și am constatat că multe au prezentat efecte mai mici decât în screeningul inițial; în cele din urmă, cel mai puternic candidat validat a fost o reacție din runda 5 care și-a reprodus performanța inițială. Multe dintre cele mai performante au aparținut familiei ligază-polish, care pare să fie deosebit de sensibilă la variații mici ale stării celulelor competente și/sau la manipularea ADN-ului post-reacție. Deoarece aceste reacții au utilizat o etapă HiFi scurtă, ipoteza noastră este că multe produse intră probabil în E. coli cu o singură joncțiune sigilată și cealaltă menținută prin calcinare, lăsând recuperarea ulterioară în sarcina căilor de reparare celulară. Aceasta creează o varianță ridicată și o dinamică de „jackpot”: chiar dacă de cele mai multe ori variantele acestei reacții nu au performanțe mai bune, o singură valoare aberantă puternică poate duce familia în rundele ulterioare. 

Deși ne-am concentrat pe optimizarea reacției de clonare pe parcursul mai multor runde datorită complexității sale mecanistice, am optimizat în paralel procedura de transformare folosind o singură rundă „one-shot”, în care modelul a propus mai multe modificări independente, iar noi am ales reacția cu cea mai bună performanță.

Ecrane de optimizare inițială ale fluxului de lucru de clonare în două etape: asamblare enzimatică și transformare. (Stânga) Optimizarea iterativă a asamblării enzimatice pe parcursul a cinci runde (44 de reacții în total). Pornind de la valoarea de referință a ansamblului HiFi, GPT‑5 a propus 8-10 variante de protocol de asamblare pe rundă; datele cu cele mai bune rezultate au fost incorporate în solicitările ulterioare. La fiecare rundă, am reprezentat grafic reacția cu cea mai bună performanță până în acel moment (inclusiv rundele anterioare). (Dreapta) Optimizarea one-shot a condițiilor de transformare, testând 13 protocoale diferite. Pentru ambele ecrane de optimizare, datele reprezintă măsurători unice (n=1) per condiție; validarea replicată a fost efectuată separat pentru cei mai buni candidați.

Folosind solicitări standardizate fără intervenție umană, GPT5 a îmbunătățit eficiența clonării de la un capăt la altul de 79 de ori, lucru confirmat în replicările experimentale.

În mod semnificativ, modelul a propus o nouă procedură enzimatică, denumită RecA-Assisted Pair-and-Finish HiFi Assembly (RAPF-HiFi), care adaugă două noi proteine la reacție: recombinaza RecA din E. coli și proteina de legare a ADN-ului monocatenar (gp32) din gena 32 a fagului T4. În plus, modelul a adus modificări deliberate ale temperaturii și timpului de incubare, precum și ale momentului adăugărilor enzimatice: a propus adăugarea RecA și gp32 după o reacție HiFi inițială la 50°C, permițându-le acestor proteine să funcționeze la 37°C și apoi revenind la 50°C pentru a finaliza asamblarea. Împreună, aceste noi modificări au sporit eficiența de peste 2,5 ori. Trebuie menționat că aceasta reprezintă performanța inițială, fără optimizarea iterativă a condițiilor și sincronizării reacției.

20 uL reaction volume
100 ng pUC19 vector, HindIII/KpnI-digested
64.3 ng Monster GFP insert, DpnI-digested PCR amplicon
10 μL NEBuilder 2x HiFi DNA Assembly Master Mix
50C - 30 min; 4C hold

În ceea ce privește transformarea, cea mai eficientă modificare s-a dovedit neașteptat de simplă: peletizarea celulelor (centrifugarea lor astfel încât să se adune la fundul tubului), îndepărtarea a jumătate din volumul furnizat și resuspendarea celulelor înainte de adăugarea ADN-ului, toate la 4°C. Deși celulele competente din punct de vedere chimic cu eficiență ridicată sunt de obicei considerate fragile, celulele au tolerat bine concentrația, iar coliziunile moleculare crescute au sporit substanțial eficiența transformării (>30 de ori la validarea finală). 

O nouă îmbunătățire a clonării bazate pe omologie

Diagramă care prezintă etapele asamblării ADN-ului HiFi RecA-assisted pair-and-finish, cu etape marcate pentru exonucleaza T5, GP32, RecA, polimeraza și ligaza care acționează secvențial asupra catenelor de ADN.

Exonucleaza T5 creează proeminențe 3′ pe care gp32 le stabilizează prin suprimarea structurii secundare. RecA invadează apoi de la capetele 3′, înlocuind gp32 și favorizând căutarea omologiei și calcinarea. Încălzirea la 50 °C elimină ambele proteine, permițând umplerea golurilor de polimerază și ligarea.

Gibson assembly funcționează prin atribuirea unor capete „lipicioase” fragmentelor de ADN, astfel încât acestea să se poată găsi și uni între ele. Reacția utilizează două enzime diferite (o polimerază și o ligază) pentru a sigila piesele unite. În RAPF-HiFi, au fost introduse două proteine pentru a îmbunătăți funcționarea etapei de potrivire. Prima, gp32, acționează ca un pieptene care netezește și descurcă capetele libere de ADN. Al doilea, RecA, acționează ca un ghid care caută partenerul corect pentru fiecare catenă și unește piesele potrivite. Temperatura mai ridicată determină căderea ambelor enzime auxiliare de pe ADN, permițându-le enzimelor Gibson normale să finalizeze reacția.

În concluzie, ipoteza noastră este că îmbunătățirea performanței este mediată prin următorul mecanism:

  • Gp32 acoperă cozile de ADN monocatenar (ssDNA) necalcinate, eliminând structura secundară
  • RecA, inhibată în mod normal de structură, invadează din 3' și deplasează filamentul gp32
  • RecA mediază o căutare de omologie ssDNA:ssDNA(se deschide într-o fereastră nouă), determinând calcinarea
  • O revenire la 50°C deplasează atât filamentele recA, cât și pe cele gp32, permițând polimerazei și ligazei să finalizeze reacția.

Pentru a testa dacă noile enzime erau funcționale și pentru a exclude faptul că îmbunătățirea performanței este determinată exclusiv de modificări ale etapelor termice sau ale tampoanelor, am testat performanța RAPF-HiFi fără RecA și fără RecA și gp32. Performanța ambelor reacții a fost redusă în comparație cu RAPF-HiFi, sugerând că ambele proteine sunt necesare pentru mecanismul de acțiune al RAPF-HiFi.

Pentru a testa mecanismul determinant, separăm cele două noi enzime din reacție: RecA și gp32. Demonstrăm că oricare dintre acestea, luată separat, reduce eficiența în raport cu valoarea de referință HiFi. Împreună, acestea depășesc valoarea de referință cu un câștig de eficiență de 2,6 ori. (Bare de eroare: deviație standard a n=3 experimente independente)

Dezvoltarea RAPF-HiFi sugerează că GPT‑5 este capabil de raționament complex, multidimensional:

Din cunoștințele noastre, RecA și gp32 nu au fost folosite împreună în mod funcțional în metodele de biologie moleculară. Ca și în cazul multor tehnici noi de biologie moleculară, activitățile biochimice subiacente au fost deja studiate, dar utilizarea lor ca metodă practică și generalizabilă constituie un progres.

De exemplu, interacțiunea dintre RecA și gp32 a fost studiată în teste de reconstituire in vitro mecanistice: în studiile privind formarea buclei D, s-a demonstrat că gp32(se deschide într-o fereastră nouă) este capabilă să sporească activitatea RecA. Gp32 a fost utilizată împreună cu partenerul său natural de recombinază T4, UvsX și cu factorul de încărcare a recombinării uvsY în amplificarea recombinază-polimerază (RPA(se deschide într-o fereastră nouă)). Deși o specificație de brevet RPA afirmă(se deschide într-o fereastră nouă) că au fost demonstrate reacții RPA eficiente folosind E. coli RecA într-un sistem heterolog cu o proteină gp32 compromisă (adică, modificată genetic, de tip non-sălbatic), această afirmație apare doar tangențial în unele declarații din brevete și, din câte știm, nu a fost susținută de date publicate sau adoptată ca un sistem RPA robust bazat pe RecA. O metodă de clonare numită SLiCE(se deschide într-o fereastră nouă) utilizează un extract de celule întregi de la E. coli care conține sistemul de recombinare λ Red, unde Red beta poate îndeplini roluri duble atât ca proteină de legare a ADN-ului, cât și ca recombinază (deși am interzis în mod explicit utilizarea extractelor celulare în solicitarea noastră). Într-o altă utilizare, Ferrin și Camerini-Otero(se deschide într-o fereastră nouă) au folosit doar RecA pentru a captura selectiv molecule de ADN pe baza secvențelor potrivite. Separat, gp32 a fost folosit ca aditiv(se deschide într-o fereastră nouă) într-un proces de amplificare a ADN-ului numit PCR pentru a reduce structura secundară. S-a demonstrat că amplificarea NABSA(se deschide într-o fereastră nouă) a fost îmbunătățită de RecA și gp32, deși fiecare putea îmbunătăți reacția separat și nu a fost identificată nicio sinergie. În general, îmbunătățirile raportate ale reacțiilor de asamblare a ADN-ului în stil Gibson au fost rare, cel mai notabil exemplu fiind o proteină de legare a ADN-ului stabilă la căldură (ET SSB) care îmbunătățește eficiența asamblării de aproximativ 2,5 ori(se deschide într-o fereastră nouă)

Pentru majoritatea aplicațiilor, nu ne așteptăm ca Rapf-HiFi să concureze cu simplitatea și robustețea clonării HiFi/Gibson. Cu toate acestea, apariția unei căi de asamblare distincte din punct de vedere mecanistic este demnă de remarcat: GPT‑5 a ajuns la o soluție care încorporează o combinație nefamiliară de proteine de recombinare și dinamică de reacție. Mecanismul de bază s-ar putea dovedi modular, oferind componente care pot fi reutilizate sau recombinate în alte fluxuri de lucru moleculare. De asemenea, continuăm să explorăm îmbunătățiri pentru RAPF-HiFi. Temperaturile de reacție și durata etapelor pot fi ajustate pentru a echilibra activitatea RecA și gp32 în raport cu digestia excesivă a exonucleazei, iar cantitățile ambelor proteine rămân de optimizat. De asemenea, GPT‑5 a propus o variantă hiperactivă a RecA, pe care o purificăm în prezent.

În ceea ce privește protocolul de transformare, condițiile de optimizare reușite au acoperit o gamă de aditivi și perturbații termice destinate să îmbunătățească eficiența la șoc termic a celulelor comerciale 10-beta competente(se deschide într-o fereastră nouă). Dintre cele 13 transformări one-shot generate de inteligența artificială și testate, cea mai eficientă modificare, Transformarea 7 (T7), a peletizat celulele, îndepărtând jumătate din volumul furnizat și resuspendând celulele înainte de adăugarea ADN-ului, toate la 4°C. Celulele competente din punct de vedere chimic, de înaltă eficiență, sunt de obicei considerate fragile, iar astfel de etape de manipulare sunt în general evitate. Totuși, celulele au tolerat bine concentrația. Efectele combinate ale expunerii crescute la ADN per celulă și ale unui tampon inhibitor mai redus, care duc la un șoc termic mai accentuat, au generat o creștere substanțială a eficienței transformării (>30 de ori). 

Acest protocol de transformare este nou, deși a fost raportată o abordare conceptual similară(se deschide într-o fereastră nouă) în care celulele sunt concentrate într-o etapă anterioară. În mod remarcabil, metoda dezvoltată aici de GPT‑5 este compatibilă cu celulele competente din punct de vedere chimic disponibile în mod standard, eliminând necesitatea preparării interne a celulelor, depășind totodată creșterile eficienței raportate ale abordării similare pe tulpini celulare comparabile.

Sistem robotic

Pentru a crește randamentul acestui sistem experimental model, Robot on Rails și Red Queen Bio au colaborat pentru a crea un sistem robotic care preia un protocol de clonare în limbaj natural și îl execută în laboratorul experimental.

Sistemul combină trei componente: 1) un model lingvistic mare om-robot care convertește engleza obișnuită în acțiuni ale robotului; 2) un sistem de vizualizare care identifică și localizează echipamentele de laborator în timp real; și 3) un planificator de căi robotizate care determină modul în care fiecare acțiune trebuie efectuată în siguranță și cu precizie. Astfel, a rezultat un robot de laborator flexibil și generalizat, care a fost optimizat în continuare pentru variantele protocolului de clonare Gibson.

Am testat dacă robotul autonom poate executa un experiment complet de clonare rulând simultan două protocoale: metoda HiFi standard și R8, protocolul modificat de inteligența artificială cu cea mai bună performanță din prima rundă de optimizare.

Am comparat munca robotului cu experimentele efectuate de oameni la fiecare etapă. Robotul a gestionat cu succes procesul de transformare, care a necesitat diverse operațiuni fizice: transferul și amestecarea lichidelor, mișcarea tuburilor cu probe, aplicarea controlată de căldură celulelor și răspândirea celulelor pe plăci de creștere. În comparație directă cu transformările efectuate de oameni, robotul a generat date de calitate similară, cu îmbunătățiri echivalente față de nivelul de referință, demonstrând un potențial incipient pentru automatizarea și accelerarea optimizării experimentelor biologice.

Deși diferențele dintre experimentele fold-change efectuate de robot și cele efectuate de om au fost similare, numărul absolut de colonii obținut de robot a fost de aproximativ zece ori mai mic decât cel obținut manual, indicând aspecte care pot fi îmbunătățite, cum ar fi precizia manipulării lichidelor, calibrarea controlului temperaturii și reproducerea nuanțelor tehnicilor manuale de manipulare a celulelor.

Atât metoda HiFi standard (de bază), cât și metoda R8 îmbunătățită au fost executate de cercetători umani și de robotul autonom, cu eficiențele de transformare normalizate la controalele de bază HiFi respective (setate la 1,0). R8 executat de om a arătat o îmbunătățire de 2,39 ori; R8 executat de robot a obținut o îmbunătățire de 2,13 ori (89% din performanța umană), demonstrând o clasificare comparabilă a protocolului în ciuda randamentelor absolute mai mici.

Viitorul

Considerăm că aceste experimente oferă un instantaneu al viitorului științei accelerate de inteligența artificială: modele care învață continuu și interacționează cu lumea concretă. Deși experimentele noastre au exclus intervenția umană doar pentru a măsura capacitățile modelului, suntem deosebit de încântați de faptul că inteligența artificială ajută cercetătorii științifici să conceapă experimente și să contribuie la descoperiri în cercetare.


Concomitent cu eforturile noastre de a accelera progresul științific în condiții de siguranță și responsabilitate, încercăm să evaluăm și reducem riscurile, în special cele legate de biosecuritate. Rezultatele acestor evaluări arată că modelele pot funcționa în laboratorul experimental pentru a îmbunătăți protocoalele și pot avea implicații pentru biosecuritate, așa cum este descris în
Cadrul nostru de pregătire(se deschide într-o fereastră nouă). Ne angajăm să creăm măsuri de siguranță necesare și nuanțate la nivel de model și sistem pentru a reduce aceste riscuri, precum și să dezvoltăm evaluări pentru a monitoriza nivelurile actuale.