
Urychlování vědeckého pokroku je jedním z nejcennějších způsobů, jak může umělá inteligence prospět lidstvu. U modelu GPT‑5 začínáme pozorovat první známky tohoto pokroku. Nejde jen o pomoc výzkumníkům rychlejším procházením vědecké literatury, ale také o podporu nových forem vědeckého uvažování, jako je odhalování neočekávaných souvislostí, navrhování strategií důkazů nebo navrhování pravděpodobných mechanismů, které mohou odborníci vyhodnotit a otestovat.
Dosud dosažený pokrok je nejvíce patrný v oblastech jako matematika, teoretická fyzika a teoretická informatika, kde lze myšlenky důkladně ověřit bez fyzických experimentů. Biologie je odlišná: pokrok většinou závisí na experimentálním provedení, opakování a empirickém ověřování v laboratoři.
Abychom pomohli pochopit, jak se hraniční modely chovají v těchto podmínkách, spolupracovali jsme se start-upem Red Queen Bio zaměřeným na biologickou bezpečnost na vytvoření hodnotícího rámce, který testuje, jak model navrhuje, analyzuje a opakuje nápady v mokré laboratoři. Vytvořili jsme jednoduchý experimentální systém molekulární biologie a nechali jsme GPT‑5 pro zajištění účinnosti optimalizovat protokol molekulárního klonování.
Během několika kol experimentování GPT‑5 zavedl nový mechanismus, který zlepšil efektivitu klonování 79x. Klonování je základní nástroj molekulární biologie. Účinnost metod klonování je zásadní pro vytvoření velkých, složitých knihoven, které jsou klíčové pro proteinové inženýrství(otevře se v novém okně), genetické screeningy(otevře se v novém okně) a inženýrství kmenů organismů(otevře se v novém okně). Tento projekt nabízí pohled na to, jak by AI mohla spolupracovat s biology, a urychlila tak výzkum. Zlepšení experimentálních metod pomůže výzkumným pracovníkům zrychlit práci, snížit náklady a promítnout objevy do reálného života.
Protože pokrok v biologickém uvažování má dopady na biologickou bezpečnost, prováděli jsme tuto práci v přísně kontrolovaném prostředí. Použili jsme neškodný experimentální systém, omezili rozsah úkolu a vyhodnocovali chování modelu tak, abychom získali informace pro naše hodnocení rizik biologické bezpečnosti a pro vývoj bezpečnostních opatření na úrovni modelu a systému v souladu s naším Rámcem připravenosti(otevře se v novém okně).
V tomto uspořádání GPT‑5 samostatně odůvodnil klonovací protokol, navrhoval jeho úpravy a pro další zlepšení zapracovával údaje z nových experimentů. Jediným lidským zásahem bylo, že vědci provedli upravený protokol a nahráli experimentální data.
V průběhu několika kol GPT‑5 optimalizoval postup klonování tak, že se jeho účinnost zvýšila více než 79x. To znamená, že při pevném množství vstupní DNA jsme získali 79x více sekvenčně ověřených klonů než u základního protokolu. Především zavedl dva enzymy, které tvoří nový mechanismus: rekombinázu RecA z E. coli a protein vázající jednořetězcovou DNA (gp32) z genu fága T4. Oba pracují v tandemu. Protein gp32 uhlazuje a rozplétá volné konce DNA a protein RecA pak vede každé vlákno ke správnému místu.
Úvodní screening a následné experimenty identifikovaly jako nejlepší enzymatický protokol RecA-Assisted Pair-and-Finish HiFi Assembly (RAPF) a jako nejlepší transformační protokol Transformation 7 (T7). Jak sestavení RAPF, tak transformace T7 zlepšily nezávisle na sobě účinnost klonování ve srovnání se základním protokolem klonování HiFi reakce, a to 2,6krát a 36krát. V kombinaci pak dosáhly aditivního zlepšení výkonu 79krát. Všechny klony byly potvrzeny sekvenováním. (Chybové úsečky: směrodatná odchylka z n=3 nezávislých validačních experimentů).
Jsou to sice rané výsledky, ale jsou slibné. Zlepšení se konkrétně týkají našeho konkrétního klonovacího zařízení používaného v našem modelovém systému a stále vyžadují, aby protokoly nastavovali a prováděli výzkumní pracovníci. Přesto tyto experimenty ukazují, že systémy umělé inteligence mohou smysluplně napomáhat při skutečné laboratorní práci a v budoucnu mohou urychlit práci výzkumných pracovníků.
Pozoruhodné je, že smyčka AI-laboratoře byla spuštěna s pevně danými prompty a bez zásahu člověka. Tato podpůrná struktura pomohla odhalit schopnost modelu navrhovat skutečně nové změny protokolu nezávisle na lidském vedení, ale také systém udržela ve fázi zkoumání a omezila jeho schopnost maximalizovat výkon nově objevených nápadů. Lepší dynamická rovnováha mezi průzkumem a využitím by pravděpodobně přinesla větší zisky, protože jak vylepšení enzymů, tak zlepšení transformace mají značný prostor pro zdokonalení. Očekáváme, že pokroky v plánování a uvažování v horizontu úkolu zlepší schopnost jednoduchých pevně daných promptů podpořit objevování i následnou optimalizaci.
Reakce Gibson assembly(otevře se v novém okně) je od svého vynálezu v roce 2009 hlavní metodou klonování, která se široce používá v molekulární biologii. Gibson assembly umožňuje molekulárním biologům „slepit“ části DNA tím, že krátce roztaví jejich konce, aby šlo spojit odpovídající sekvence do jediné molekuly. Jednou z hlavních výhod Gibson assembly je její jednoduchost: vše probíhá v jedné zkumavce při jedné teplotě. Tato omezení přirozeně ponechávají prostor pro zlepšení. Kromě toho se díky následujícím vlastnostem dobře hodí k hodnocení toho, jak jsou modely umělé inteligence schopné zlepšit techniky mokrých laboratoří:
- Dobře definované a kontrolované komponenty, na rozdíl od buněčného systému.
- Má jasnou optimalizační funkci: transformovatelná cirkulární DNA vyrobená z pevného množství lineárních vstupů DNA.
- Relativně rychlé experimentální cykly (1–2 dny)
- Prostor možných návrhů s mnoha proměnnými, který pro zlepšení vyžaduje mechanistické uvažování: optimální pufry, reagencie a teploty se vzájemně ovlivňují.
Jako výchozí bod pro optimalizaci jsme použili proprietární enzymový systém HiFi assembly(otevře se v novém okně) vyvinutý společností New England Biolabs a založený na Gibson assembly. Zkoumali jsme, zda by umělá inteligence mohla inovovat a učit se z experimentální zpětné vazby, jakmile by byla odstraněna jednostupňová a izotermická omezení. Tím by pak mohla identifikovat zlepšení protokolu v tomto scénáři.
Konkrétně jsme provedli dvoudílnou klonovací reakci s použitím genu pro zelený fluorescenční protein (GFP) a široce používaného plazmidu pUC19, který je standardním „nosičem“ DNA používaným k přenosu genů do bakterií tak, aby je šlo kopírovat. Cílem bylo zvýšit počet úspěšných kolonií.
Optimalizovali jsme klonovací reakci zavedením evolučního rámce pro opakování návrhů, který modelu umožňuje učit se „online“ ze svých předchozích experimentů. V každém kole navrhl model GPT‑5 sadu 8–10 různých reakcí, a pokud reakce vyžadovaly speciální reagencie, které laboratoř neměla ihned k dispozici, byly přesunuty do pozdějších kol. Výzkumní pracovníci poté prováděli reakce a měřili počty kolonií ve srovnání se základní sestavou HiFi Gibson assembly při počátečním screeningu. Nejlépe fungující data z předchozího kola byla poté použita v dalším kole. Důležité je, že podněty byly standardizované bez lidského přispění, a to kromě objasňujících otázek. To nám umožňuje přisuzovat nové mechanistické poznatky přímo AI, nikoli lidskému vedení.
Znovu jsme otestovali osm nejlepších reakcí z celé optimalizační série s použitím širšího rozsahu ředění DNA a zjistili jsme, že mnohé z nich vykazují menší účinky než při prvotním screeningu; nakonec byla nejsilnějším validovaným kandidátem reakce z 5. kola, která reprodukovala svůj původní výkon. Mnoho vysoce výkonných enzymů spadá do skupina reakcí založených na ligaci a doleštění, která se jeví jako obzvláště citlivá na malé odchylky ve stavu kompetentních buněk a/nebo při následné manipulaci s DNA po reakci. Vzhledem k tomu, že v těchto reakcích byl použit krátký krok HiFi, předpokládáme, že mnoho produktů pravděpodobně vstupuje do E. coli s pouze jedním uzavřeným spojem a druhým, který je držen nasednutím, a ponechává tak záchranu navazujícím buněčným reparačním mechanismům. To vytváří vysoký rozptyl a dynamiku „jackpotu“: i když většinu času varianty této reakce nepřekonávají očekávání, může jeden výrazný odlehlý výsledek přenést skupinu do dalších kol.
Zatímco jsme se mechanistické složitosti soustředili v několika kolech na optimalizaci klonovací reakce, zároveň jsme optimalizovali transformační proces pomocí jednoho „jednorázového“ kola, kde model navrhl mnoho nezávislých změn a my jsme vybrali nejlépe fungující reakci.
Počáteční optimalizační screening dvoukrokového klonovacího pracovního postupu: enzymatické sestavení a transformace. (Vlevo) Iterativní optimalizace enzymatické sestavy během pěti kol (celkem 44 reakcí). Počínaje základním sestavením HiFi navrhl GPT‑5 8–10 variant sestavovacího protokolu pro každé kolo. Údaje o nejlepších výsledcích byly začleněny do dalších výzev. V každém kole zobrazíme dosud nejlépe hodnocenou reakci (včetně předchozích kol). (Vpravo) jednorázová optimalizace podmínek transformace testováním 13 různých protokolů. Pro obě optimalizační obrazovky data představují jednotlivá měření (n=1) na každou podmínku; replikovaná validace byla provedena samostatně pro nejlepší kandidáty.
Pomocí standardizovaných promptů bez lidského zásahu zlepšil model GPT5 efektivitu kompletního klonování 79krát, což bylo potvrzeno napříč experimentálními opakováními.
Je pozoruhodné, že model navrhl nový enzymatický proces, který nazval RecA-Assisted Pair-and-Finish HiFi Assembly (RAPF-HiFi), který do reakce přidává dva nové proteiny: rekombinázu RecA z E. coli a protein z genu 32 fága T4 vázající jednovláknovou DNA (gp32). Model dále záměrně upravil teplotu a dobu inkubace a načasování přidávání enzymů: navrhl přidání RecA a gp32 po počáteční reakci HiFi při teplotě 50 °C, nechat tyto proteiny pracovat při teplotě 37 °C a poté dokončit sestavu návratem na teplotu 50 °C. Tyto nové úpravy společně zvýšily účinnost více než 2,5krát. Je třeba poznamenat, že tento údaj představuje počáteční výkon bez opakované optimalizace reakčních podmínek a časování.
Na straně transformace se ukázalo, že nejúčinnější úprava je nečekaně jednoduchá: peletování buněk (odstředění v centrifuze, takže se shromáždí na dně zkumavky), odebrání poloviny dodaného objemu a opětovné suspendování buněk před přidáním DNA, to vše při teplotě 4 °C. Ačkoli jsou vysoce účinné chemicky kompetentní buňky obvykle považovány za křehké, buňky dobře snášely koncentraci a zvýšené molekulární srážky výrazně zvýšily účinnost transformace (více než 30násobně při závěrečné validaci).

Exonukleáza T5 vytváří 3′ převisy, které gp32 stabilizuje tím, že potlačuje vznik sekundárních struktur. RecA pak napadá z 3′ konců, vytěsňuje gp32 a podporuje vyhledávání homologních sekvencí a párování. Zahřátím na 50 °C se oba proteiny odstraní, což umožní vyplnění polymerázové mezery a ligaci.
Gibsonova assembly funguje tak, že kousky DNA dostanou odpovídající „lepivé“ konce, aby se mohly navzájem najít a spojit. Reakce používá dva různé enzymy (polymerázu a ligázu) k utěsnění spojených částí. Pro zlepšení párování byly v RAPF-HiFi zavedeny dva proteiny. První, gp32, působí jako hřeben, který uhlazuje a rozplétá volné konce DNA. Druhý, RecA, působí jako průvodce, který hledá správného partnera pro každý pramen a spojuje odpovídající části dohromady. Vyšší teplota způsobí, že oba pomocné enzymy odpadnou z DNA, což umožní normálním Gibsonovým enzymům dokončit reakci.
Souhrnně předpokládáme, že zlepšení výkonu je zprostředkováno následujícím mechanismem:
- Gp32 pokrývá nespárované jednovláknové konce DNA (ssDNA) a odstraňuje sekundární strukturu
- RecA, která je za normálních okolností inhibována strukturou, zahajuje invazi od 3′ konce a vytěsňuje filament gp32.
- RecA zprostředkovává vyhledávání homologie ssDNA:ssDNA(otevře se v novém okně)a řídí párování.
- Návrat na 50 °C vytěsňuje jak filamenty recA, tak gp32 a umožňuje polymeráze a ligáze dokončit reakci.
Abychom otestovali, zda jsou nové enzymy funkční, a vyloučili, že je zlepšení výkonu způsobeno pouze změnami v tepelných krocích nebo pufrech, testovali jsme výkon RAPF-HiFi bez RecA a bez RecA i gp32. Výkon obou reakcí se ve srovnání s RAPF-HiFi snížil, což naznačuje, že oba proteiny jsou pro mechanismus účinku RAPF-HiFi nezbytné.
Abychom otestovali základní mechanismus, oddělíme v reakci dva nové enzymy: RecA a gp32. Ukazujeme, že každá z těchto možností sama o sobě ve srovnání se základní úrovní HiFi snižuje efektivitu. Společně překonávají základní model s 2,6násobným nárůstem účinnosti. (Chybové úsečky: směrodatná odchylka z n=3 nezávislých experimentů)
Vývoj RAPF-HiFi naznačuje, že GPT‑5 je schopný komplexního, vícerozměrného uvažování:
- RecA je inhibován strukturou DNA(otevře se v novém okně), a je třeba zmínit, že model zavedl dvě synergické modifikace najednou: přidal RecA a doplnil ho gp32, aby odstranil sekundární strukturu DNA.
- Přirozeným partnerem E. coli RecA je jednovláknový vázací protein (SSB) E. coli . SSB plní podobnou roli jako gp32 během replikace, rekombinace a opravy genomu. SSB E. coli však samovolně neodpadává z DNA dostatečně rychle tak, aby rostla vlákna RecA, a komplex RecFOR podporuje nukleaci RecA na SSB vlákně in vivo(otevře se v novém okně). SSB se váže jako stabilní tetramer s extrémně pomalým uvolňováním(otevře se v novém okně). Vlákno gp32 je naopak dynamičtější(otevře se v novém okně), což umožňuje vytěsnění RecA.
Pokud je nám známo, nebyly RecA a gp32 dosud společně funkčně využity v molekulárně biologických metodách. Stejně jako u mnoha nových technologií molekulární biologie byly základní biochemické aktivity již prozkoumány, ale jejich použití v podobě praktické, obecně použitelné metody představuje pokrok.
Například interakce RecA a gp32 byla zkoumána v mechanistických in vitro rekonstitučních testech: studie tvorby D smyčky prokázaky, že gp32(otevře se v novém okně) je schopen zvyšovat aktivitu RecA. Gp32 byl použit ve spojení se svým přirozeným partnerem T4 rekombinázou UvsX a rekombinačním mediátorem UvsY v rekombinázové polymerázové amplifikaci (RPA)(otevře se v novém okně). Ačkoli patentová specifikace RPA uvádí(otevře se v novém okně) že účinné reakce RPA byly prokázány s použitím E. coli RecA v heterologním systému s kompromitovaným (tj. upraveným, ne-divokým) proteinem gp32, toto tvrzení se objevuje pouze jako styčná plocha v některých patentových informacích a podle toho, co víme, nemá oporu v publikovaných údajích nebo nebylo přijato jako robustní systém RPA založený na RecA. Jedna metoda klonování zvaná SLiCE(otevře se v novém okně) využívá celý buněčný extrakt z E. coli obsahující rekombinační systém λ Red, kde Red beta může plnit dvojí role jako protein vázající DNA a jako rekombináza (ačkoli jsme v našem promptu výslovně zakázali použití buněčných extraktů). V jiné aplikaci použili Ferrin & Camerini-Otero(otevře se v novém okně) samotný RecA k selektivnímu zachycení molekul DNA na základě shodných sekvencí. Samostatně byl gp32 použit jako přísada(otevře se v novém okně) v procesu amplifikace DNA nazývaném PCR ke snížení sekundární struktury. Bylo prokázáno, že amplifikace NABSA(otevře se v novém okně) byla zesílena jak enzymem RecA, tak gp32. Každý z nich však mohl reakci zesílit samostatně a nebyla zjištěna žádná synergie. Obecně platí, že hlášená zlepšení základních reakcí sestavování DNA ve stylu Gibsona byla vzácná, přičemž nejvýznamnějším příkladem je tepelně stabilní protein vázající DNA (ET SSB), který zvyšuje efektivitu sestavování přibližně 2,5krát(otevře se v novém okně).
U většiny aplikací neočekáváme, že by RAPF-HiFi mohl konkurovat jednoduchosti a robustnosti klonování HiFi/Gibson. Nicméně, vznik mechanisticky odlišné dráhy sestavení je pozoruhodný: GPT‑5 dospělo k řešení, které zahrnuje neznámou kombinaci rekombinačních proteinů a dynamiky reakcí. Základní mechanismus se může ukázat jako modulární a může poskytovat komponenty, které lze znovu použít nebo kombinovat v jiných molekulárních pracovních postupech. Pokračujeme také ve zkoumání možností vylepšení systému RAPF-HiFi. Teplotu reakce a délku kroků lze vyladit tak, aby byla vyvážena aktivita RecA a gp32 proti nadměrnému trávení exonukleázou, a zbývá optimalizovat množství obou proteinů. GPT‑5 také navrhl hyperaktivní variantu RecA, kterou v současné době purifikujeme.
Pokud jde o transformační protokol, úspěšné optimalizační podmínky zahrnovaly celou řadu přísad a tepelných perturbací, jejichž cílem bylo zvýšit účinnost tepelného šoku komerčních 10-beta kompetentních buněk(otevře se v novém okně). Z 13 jednorázových transformací vytvořených umělou inteligencí byla nejúčinnější úpravou Transformace 7 (T7), která peletizovala buňky, odebrala polovinu dodaného objemu a znovu suspendovala buňky před přidáním DNA. To vše při teplotě 4 °C. Vysoce účinné chemicky kompetentní buňky jsou obvykle považovány za křehké, a proto je snaha se manipulaci s nimi vyhnout. Nicméně buňky snášely koncentraci dobře. Kombinace účinků zvýšené expozice DNA na buňku a menšího množství inhibičního pufru vedoucího k prudšímu tepelnému šoku vedla k podstatnému zvýšení účinnosti transformace (>30krát).
Tento transformační protokol je nový, ačkoli koncepčně podobný přístup(otevře se v novém okně) kde jsou buňky koncentrovány v dřívějším kroku, byl již popsán. Je třeba zmínit, že metoda vyvinutá zde pomocí GPT‑5 je kompatibilní s běžně dostupnými chemicky kompetentními buňkami, což eliminuje potřebu přípravy buněk v laboratoři a zároveň překonává hlášené růsty účinnosti podobného přístupu na srovnatelných buněčných kmenech.
Aby se zvýšil výkon tohoto experimentálního modelového systému, spolupracovaly Robot on Rails a Red Queen Bio na vytvoření robotického systému, který přijímá protokol klonování v přirozeném jazyce a provádí ho v mokré laboratoři.
Systém kombinuje tři komponenty: 1) velký jazykový modul pro převod z člověka na robota, který převádí běžnou angličtinu na akce robota; 2) vizuální systém, který v reálném čase identifikuje a lokalizuje laboratorní vybavení; a 3) plánovač robotických drah, který určuje, jak každou akci provést bezpečně a přesně. Výsledkem je flexibilní, univerzální laboratorní robot, který byl dále optimalizován pro varianty Gibsonova klonovacího protokolu.
Testovali jsme, zda autonomní robot dokáže provést kompletní klonovací experiment spuštěním dvou protokolů současně: standardní metody HiFi a R8, nejvýkonnějšího protokolu upraveného umělou inteligencí z prvního kola optimalizace.
V každém kroku jsme porovnávali práci robota s experimenty prováděnými lidmi. Robot úspěšně zvládl proces transformace, který vyžadoval různé fyzické operace: přenášení a míchání kapalin, přesouvání zkumavek se vzorky, řízené zahřívání buněk a rozprostření buněk na růstové destičky. Při přímém porovnání s transformacemi prováděnými člověkem generoval robot podobnou kvalitu dat s rovnocenným zlepšením oproti základnímu stavu. To naznačuje brzký potenciál pro automatizaci a urychlení optimalizace biologických experimentů.
Zatímco násobné změny mezi pokusy s robotem a lidmi byly podobné, absolutní počty kolonií u robota byly přibližně desetkrát nižší než při ručním provádění. To naznačuje oblasti, které je třeba zlepšit, například přesnost manipulace s kapalinou, kalibrace řízení teploty a replikace nuancí technik ruční manipulace s buňkami.
Jak standardní metoda HiFi (základní) tak vylepšená metoda R8 byly provedeny výzkumnými pracovníky a autonomním robotem, přičemž účinnosti transformace byly normalizovány na příslušné základní kontroly HiFi (nastavené na 1,0). R8 provedené lidmi vykázalo 2,39násobné zlepšení; roboticky provedené R8 dosáhlo 2,13násobného zlepšení (89 % lidského výkonu), což ukazuje srovnatelné hodnocení protokolu navzdory nižším absolutním výnosům.
Věříme, že tyto experimenty nabízejí obraz toho, jak bude vypadat budoucí věda akcelerovaná umělou inteligencí: modely, které se neustále učí a interagují s reálným světem. Ačkoli naše experimenty vyloučily lidský zásah, abychom mohli měřit čistě schopnosti modelu, jsme obzvláště nadšeni z toho, že AI pomáhá výzkumným pracovníkům navrhovat experimenty a přispívat k průlomovým objevům ve výzkumu.
Při práci na bezpečném a odpovědném urychlování vědeckého pokroku se snažíme také vyhodnocovat a snižovat rizika, zejména ta, která souvisejí s biologickou bezpečností. Tyto výsledky hodnocení ukazují, že modely mohou v mokré laboratoři přispět ke zlepšení protokolů a mohou mít vliv na biologickou bezpečnost, která je popsána v našem Rámci připravenosti(otevře se v novém okně). Jsme odhodláni budovat nezbytná a diferencovaná ochranná opatření na úrovni modelu a systému, abychom tato rizika snížili. Jsme také připraveni vyvíjet hodnocení pro sledování aktuálních úrovní.


