Измерване на способността на ИИ да ускори биологичните изследвания в мократа лаборатория
GPT‑5 създаде нови подобрения в протоколите за мокра лаборатория, оптимизирайки ефективността на протокол за молекулярно клониране 79 пъти.

Ускоряването на научния прогрес е един от най-ценните начини, по които изкуственият интелект може да бъде от полза за човечеството. С GPT‑5 започваме да виждаме ранни признаци за това — не само в подпомагането на изследователите да се справят по-бързо с научната литература, но и в подкрепата на нови форми на научно разсъждение, като разкриване на неочаквани връзки, предлагане на стратегии за доказване или на правдоподобни механизми, които експертите могат да оценят и тестват.
Напредъкът до момента е най-видим в области като математиката, теоретичната физика и теоретичната компютърна наука, където идеите могат да бъдат строго проверени без физически експерименти. Биологията е различна: повечето развития зависят от експериментално изпълнение, итерации и емпирична проверка в лабораторията.
За да подпомогнем разбирането на поведението на водещите модели в тези условия, работихме с Red Queen Bio, стартъп в областта на биосигурността, за да създадем рамка за оценка, която тества как един модел предлага, анализира и итеративно развива идеи в мократа лаборатория. Създадохме проста експериментална система за молекулярна биология и използвахме GPT‑5, за да оптимизираме протокол за молекулярно клониране за по-голяма ефективност.
След множество кръгове на експерименти, GPT‑5 въведе нов механизъм, който подобри ефективността на клониране с 79 пъти. Клонирането е основен инструмент в молекулярната биология. Ефективността на методите за клониране е от решаващо значение за създаването на големи, сложни библиотеки, които са основни за протеиновото инженерство(отваря се в нов прозорец), генетичните скрининги(отваря се в нов прозорец) и инженерството на щамове на организми(отваря се в нов прозорец). Този проект предлага поглед върху това как изкуственият интелект може да работи рамо до рамо с биолозите, за да ускори изследванията. Подобряването на експерименталните методи ще помогне на изследователите да работят по-бързо, да намалят разходите и да превърнат откритията в реално въздействие.
Тъй като напредъкът в биологичното разсъждаване има последици за биосигурността, ние проведохме тази работа в строго контролирана среда—използвайки безвредна експериментална система, ограничавайки обхвата на задачата и оценявайки поведението на модела, за да информираме нашите оценки на риска за биосигурността и разработването на предпазни мерки на ниво модел и система, както е описано в нашата Рамка за подготовка(отваря се в нов прозорец).
В тази конфигурация GPT‑5 аргументира самостоятелно протокола за клониране, предложи модификации и включи данни от нови експерименти, за да предложи още подобрения. Единствената човешка намеса беше учените да изпълнят модифицирания протокол и да качат експерименталните данни.
В хода на няколко кръга, GPT‑5 оптимизира процедурата за клониране, за да подобри ефективността с над 79 пъти — което означава, че за фиксирано количество въвеждано ДНК, възстановихме 79 пъти повече клонинги с проверена последователност в сравнение с основния протокол. Най-забележително е, че бяха въведени два ензима, които съставляват нов механизъм: рекомбиназата RecA от E. coli и фаговият T4 ген 32 едноверижен ДНК-свързващ протеин (gp32). Работейки в тандем, gp32 изглажда и разплита свободните краища на ДНК, а RecA след това насочва всяка нишка към правилното ѝ съвпадение.
Първоначалният скрининг и вторичните експерименти идентифицираха RecA-Assisted Pair-and-Finish HiFi Assembly (RAPF) и Transformation 7 (T7) като водещи ензимни и трансформационни протоколи, съответно. Както сглобяването на RAPF, така и трансформацията на T7 независимо подобриха ефективността на клонирането спрямо основния протокол за клониране HiFi, съответно 2,6 пъти и 36 пъти; а комбинирани предоставиха надграждащо се подобрение в производителността от 79 пъти. Всички клонинги бяха потвърдени чрез секвениране. (Ленти за грешки: СД на n=3 независими валидационни експеримента).
Въпреки че са в ранен етап, тези резултати са обнадеждаващи. Подобренията са специфични за нашата конкретна настройка за клониране, използвана в нашата моделна система, и все още изискват човешки учени да настроят и изпълнят протоколите. Въпреки това, тези експерименти показват, че системите с ИИ могат значително да подпомогнат реалната лабораторна работа и може да ускорят работата на учените в бъдеще.
Забележително е, че цикълът на ИИ-лабораторията беше изпълнен с фиксирани подканвания и без човешка намеса. Тази поддържаща матрица помогна да се разкрие способността на модела да предлага наистина нови промени в протокола, независими от човешко ръководство, но също така ограничи системата в изследването и в способността ѝ да оптимизира производителността на новооткритите идеи. По-динамичен баланс между изследване и експлоатация вероятно би довел до по-добри резултати, тъй като както ензимните, така и трансформационните подобрения имат значителен потенциал за усъвършенстване. Очакваме напредък в планирането и разсъжденията за хоризонта на задачите да подобри способността на простите фиксирани подкани да поддържат както откриването, така и последващата оптимизация.
Реакцията на асемблирането по Гибсън(отваря се в нов прозорец) е основен метод за клониране от изобретяването ѝ през 2009 г., с широко приложение в молекулярната биология. Асемблирането по Гибсън позволява на молекулярните биолози да „залепят“ парчета ДНК, като за кратко разтопят краищата им, така че съвпадащите последователности да могат да бъдат запечатани в една молекула. Едно от основните предимства на асемблирането по Гибсън е неговата простота – всичко се случва в една епруветка при една температура. Тези ограничения естествено оставят възможност за подобрение. Освен това, следните свойства го правят подходящ за оценка на способностите на ИИ моделите да подобряват техниките в мокра лаборатория:
- Добре дефинирано с контролирани компоненти, за разлика от система, базирана на клетки
- Има ясна функция за оптимизация: трансформируемо циркулизирано ДНК, направено от фиксирано количество линейни ДНК въвеждания
- Относително бързи експериментални цикли (1-2 дни)
- Високоизмерно пространство на проектиране, което изисква механистично разсъждаване за подобрение: оптималните буфери, реагенти и температури са взаимозависими.
Ние използвахме високопрецизно асемблиране(отваря се в нов прозорец), патентована ензимна система, разработена от New England Biolabs и базирана на асемблирането по Гибсън, като отправна точка за оптимизация. Изследвахме дали изкуственият интелект може да новаторства и да се учи от експериментална обратна връзка, след като ограниченията за еднократна стъпка и изотермичност бяха премахнати, и по този начин да идентифицира подобрения в протокола в този сценарий.
По-конкретно, извършихме двукомпонентна реакция на клониране, използвайки ген за зелен флуоресцентен протеин (GFP) и широко използвания плазмид pUC19, стандартен ДНК „вектор“, използван за пренасяне на гени в бактерии, за да могат да бъдат копирани. Целта беше да се увеличи броят на успешните колонии.
Оптимизирахме реакцията на клониране, като въведохме еволюционна рамка за итерация на предложенията, което позволява на модела да се учи „онлайн“ от предишните си експерименти. Във всеки кръг GPT‑5 предложи пакет от 8-10 различни реакции, като реакциите се прехвърляха към по-късни кръгове, ако изискваха специални реагенти, които лабораторията нямаше на разположение. След това учените проведоха реакциите и измериха броя на колониите спрямо базовата линия на високопрецизното асемблиране по Гибсън в началния скрининг. Най-добре представилите се данни от предишния кръг бяха след това въведени в последващия кръг. Важно е, че подканите бяха стандартизирани без човешко въвеждане, освен за изясняващи въпроси, което ни позволява да приписваме нови механистични прозрения директно на ИИ, а не на човешко ръководство.
Повторно тествахме осемте най-добри реакции от пълната серия оптимизации, използвайки по-широк диапазон от разреждания на ДНК, и установихме, че много от тях показват по-малки ефекти в сравнение с първоначалния скрининг; в крайна сметка, най-силният валидиран кандидат беше реакция от пети кръг, която възпроизведе първоначалната си ефективност. Много от високопроизводителните реакции попаднаха в семейството на лигазно полиране, което изглежда особено чувствително към малки вариации в състоянието на компетентните клетки и/или обработката на ДНК след реакцията. Тъй като тези реакции използваха кратка високопрецизна стъпка, предполагаме, че много продукти вероятно влизат в E. coli само с едно запечатано съединение, а другото се държи чрез анелиране, оставяйки последващото възстановяване на клетъчните ремонтни пътища. Това създава висока вариация и „джакпот“ динамика: дори ако в повечето случаи вариантите на тази реакция не се представят по-добре, един силен изключителен случай може да изведе групата в следващите кръгове.
Докато се фокусирахме върху оптимизирането на реакцията на клониране през няколко кръга поради нейната механистична сложност, паралелно оптимизирахме процедурата на трансформация, използвайки един „еднократен“ кръг, в който моделът предложи много независими промени и ние избрахме най-добре представящата се реакция.
Първоначални екрани за оптимизация на двустепенния работен процес на клониране: ензимно сглобяване и трансформация. (Ляво) Итеративна оптимизация на ензимното сглобяване в пет кръга (общо 44 реакции). Започвайки от базовата високопрецизна линия за сглобяване, GPT‑5 предложи 8-10 варианта на протоколи за сглобяване на кръг; данните от най-добре представящите се резултати бяха включени в следващите подкани. На всеки кръг изобразяваме най-добре представящата се реакция досега (включително предишните кръгове). (Дясно) Еднократна оптимизация на условията за трансформация чрез тестване на 13 различни протокола. И за двата екрана за оптимизация данните представляват единични измервания (n=1) за всяко условие; повторната валидация беше извършена отделно за най-добрите кандидати.
Използвайки стандартизирани подкани без човешко въвеждане, GPT5 подобри 79 пъти ефективността на клониране от край до край, потвърдено чрез експериментални повторения.
Забележително е, че моделът предложи нов ензимен метод, който нарече RecA-Assisted Pair-and-Finish HiFi Assembly (RAPF-HiFi), добавящ два нови протеина към реакцията: рекомбиназата RecA от E. coli и фаговия T4 ген 32 едноверижен ДНК-свързващ протеин (gp32). Освен това моделът направи умишлени промени в температурата и времето на инкубация, както и във времето на ензимните добавки. Той предложи добавянето на RecA и gp32 след първоначална високопрецизна реакция при 50°C, оставяйки протеините да работят при 37°C и след това връщайки ги обратно на 50°C за завършване на сглобяването. Заедно тези нови модификации увеличиха ефективността повече от 2,5 пъти. Трябва да се отбележи, че това представлява началната производителност без итеративна оптимизация на условията на реакция и времето.
От страна на трансформацията, най-ефективната модификация се оказа неочаквано проста: утайване на клетките чрез центрофугиране, така че да се съберат на дъното на епруветката, премахване на половината от предоставения обем и възстановяване на суспензията на клетките преди добавяне на ДНК – всичко това при 4°C. Въпреки че високоефективните химически компетентни клетки обикновено се считат за крехки, клетките понасяха концентрацията добре и увеличените молекулярни сблъсъци значително повишиха ефективността на трансформацията (над 30 пъти при окончателната валидация).

Екзонуклеазата T5 създава 3′ издатъци, които gp32 стабилизира, като потиска вторичната структура. След това RecA нахлува от 3′ краищата, измествайки gp32 и насърчавайки търсенето на хомология и анелиране. Загряването до 50 °C премахва и двата протеина, което позволява запълване на празнината с полимераза и извършване на лигиране.
Асемблирането по метода на Гибсън работи, като предоставя на парчетата ДНК съвпадащи „лепкави“ краища, за да могат да се намерят и свържат. Реакцията използва два различни ензима (полимераза и лигаза), за да запечата съединените части. В RAPF-HiFi бяха въведени два протеина, за да се подобри стъпката на съвпадение. Първият, gp32, действа като гребен, който изглажда и разплита свободните краища на ДНК. Вторият, RecA, действа като водач, който търси правилния партньор за всяка нишка и събира съвпадащите части заедно. По-високата температура кара и двата помощника да се отделят от ДНК, което позволява на нормалните ензими на Гибсън да завършат реакцията.
На кратко, ние предполагаме, че подобрената производителност се осъществява чрез следния механизъм:
- Gp32 покрива несвързаните едноверижни ДНК (ssDNA) участъци, премахвайки вторичната структура.
- RecA, обикновено инхибиран от структура, нахлува от 3' и измества нишката gp32.
- RecA посредничи за търсене на хомология ssDNA:ssDNA(отваря се в нов прозорец), задвижвайки анелирането.
- Връщането към 50°C измества както нишките recA, така и gp32, което позволява на полимеразата и лигазата да завършат реакцията.
За да проверим дали новите ензими са функционални и да изключим възможността подобрението на производителността да се дължи единствено на промени в термичните стъпки или буферите, тествахме производителността на RAPF-HiFi без RecA и без както RecA, така и gp32. Ефективността и на двете реакции беше намалена в сравнение с RAPF-HiFi, което предполага, че и двата протеина са необходими за механизма на действие на RAPF-HiFi.
За да тестваме основния механизъм, ние отделяме двата нови ензима в реакцията: RecA и gp32. Демонстрираме, че всеки от тях самостоятелно намалява ефективността спрямо високопрецизната базова линия. Заедно те превъзхождат базовата линия с 2,6-кратно повишаване на ефективността. (Индикатори за грешка: СД на n=3 независими експеримента)
Разработката RAPF-HiFi подсказва, че GPT‑5 е способен на сложни, многомерни разсъждения:
- RecA се инхибира от структурата на ДНК(отваря се в нов прозорец), и е забележително, че моделът въведе две синергични модификации наведнъж: добави RecA и го допълни с gp32, за да премахне вторичната структура на ДНК.
- Естественият партньор на E. coli RecA е E. coli едноверижен свързващ протеин (SSB). SSB изпълнява подобна роля на gp32 по време на репликация, рекомбинация и възстановяване на генома. Въпреки това, E. coli SSB не се отделя спонтанно от ДНК достатъчно бързо за растежа на RecA филамента, като комплексът RecFOR насърчава нуклеацията на RecA върху SSB филамента in vivo(отваря се в нов прозорец). SSB се свързва като стабилен тетрамер с изключително бавни скорости на дисоциация(отваря се в нов прозорец). За разлика от това, нишката gp32 е по-динамична(отваря се в нов прозорец), което позволява изместване на RecA.
Според нашите знания, RecA и gp32 не са били функционално използвани заедно в методи на молекулярната биология. Както при много нови техники в молекулярната биология, основните биохимични дейности вече са били изучени, но тяхното използване като практичен, обобщаващ метод представлява напредък.
Например, взаимодействието между RecA и gp32 е изследвано в механистични инвитро реконституционни анализи: в изследвания на образуването на D-цикъл, беше показано, че gp32(отваря се в нов прозорец) може да усилва активността на RecA. Gp32 е използван в съчетание с естествения си партньор T4 рекомбиназа UvsX и фактор за зареждане на рекомбиназа uvsY в рекомбиназна полимеразна амплификация (RPA)(отваря се в нов прозорец). Въпреки че спецификация на патент за RPA посочва(отваря се в нов прозорец), че ефективни RPA реакции са демонстрирани с използване на E. coli RecA в хетероложна система с компрометиран (т.е. инженерно модифициран, не-естествен) gp32 протеин, това твърдение се появява само като отклонение в някои патентни разкрития и, според нашите знания, не е подкрепено от публикувани данни или прието като надеждна система за RPA, базирана на RecA. Един метод за клониране, наречен SLiCE(отваря се в нов прозорец), използва цялостен клетъчен екстракт от E. coli, съдържащ λ Red рекомбинационната система, където Red Beta може да изпълнява двойни роли като протеин, свързващ ДНК, и рекомбиназа (въпреки че изрично забранихме използването на клетъчни екстракти в нашата подкана). В различно приложение, Ferrin & Camerini-Otero(отваря се в нов прозорец) използваха само RecA, за да улавят селективно ДНК молекули въз основа на съвпадащи последователности. Отделно, gp32 е използван като добавка(отваря се в нов прозорец) в процес на амплификация на ДНК, наречен PCR, за да се намали вторичната структура. Установено е, че усилването на NABSA(отваря се в нов прозорец) се подобрява както от RecA, така и от gp32, въпреки че всеки от тях може да подобри реакцията поотделно и не е установена синергия. По-общо казано, съобщените подобрения в основните реакции на сглобяване на ДНК по метода на Гибсън са оскъдни, като най-забележителният пример е термостабилният ДНК-свързващ протеин (ET SSB), който подобрява ефективността на сглобяване приблизително 2,5 пъти(отваря се в нов прозорец).
За повечето приложения не очакваме RAPF-HiFi да се конкурира с простотата и надеждността на високопрецизното/Гибсън клониране. Въпреки това, появата на механистично различен път на сглобяване е забележителна: GPT‑5 достигна до решение, което включва непозната комбинация от рекомбинационни протеини и динамика на реакциите. Основният механизъм може да се окаже модулен, предоставяйки компоненти, които могат да бъдат преизползвани или комбинирани в други молекулярни работни потоци. Също така продължаваме изследване на подобренията на RAPF-HiFi. Температурите на реакцията и продължителността на стъпките могат да бъдат настроени, за да се балансира активността на RecA и gp32 срещу прекомерното разграждане от екзонуклеаза, а количествата на двата протеина все още трябва да бъдат оптимизирани. GPT‑5 също предложи хиперактивен вариант на RecA, който в момента пречистваме.
По отношение на протокола за трансформация, успешните условия за оптимизация обхващаха разнообразие от добавки и термични въздействия, предназначени да подобрят ефективността на топлинния шок на търговските 10-beta компетентни клетки(отваря се в нов прозорец). От 13-те тествани еднократни трансформации, генерирани от ИИ, най-ефективната модификация, Трансформация 7 (T7), събра клетките на утайка, премахна половината от предоставения обем и ресуспендира клетките преди добавянето на ДНК – всичко това при 4°C. Високоефективните химически компетентни клетки обикновено се считат за крехки и такива стъпки за обработка обикновено се избягват. Въпреки това, клетките понесоха концентрацията добре. Комбинираните ефекти от увеличеното излагане на ДНК на клетка и намаления инхибиторен буфер, които водят до по-остър топлинен шок, доведоха до значително увеличение на ефективността на трансформацията (над 30 пъти).
Този протокол за трансформация е нов, въпреки че е докладван концептуално подобен подход(отваря се в нов прозорец), при който клетките се концентрират на по-ранен етап. Забележително е, че методът, разработен тук от GPT‑5, е съвместим с наличните на пазара химически компетентни клетки, което премахва необходимостта от вътрешна подготовка на клетки, като същевременно надминава докладваните подобрения в ефективността на подобни подходи при сравними клетъчни щамове.
За да увеличат производителността на тази експериментална моделна система, Robot on Rails и Red Queen Bio си сътрудничиха за изграждането на роботизирана система, която приема протокол за клониране на естествен език и го изпълнява в мократа лаборатория.
Системата комбинира три компонента: 1) LLM за преобразуване на човешки език в роботизирани действия, който превръща обикновения английски в работни стъпки; 2) система за визуализация, която идентифицира и локализира лабораторни съдове в реално време; и 3) роботизиран планировач на траектория, който определя как да се изпълни всяко действие безопасно и точно. Резултатът е гъвкав, обобщен лабораторен робот, който беше допълнително оптимизиран за варианти на протокола за клониране на Гибсън.
Тествахме дали автономният робот може да изпълни цялостен експеримент по клониране, като изпълнява два протокола едновременно: стандартния метод HiFi и R8, най-добре представящият се ИИ-модифициран протокол от първия кръг на оптимизация.
Сравнихме работата на робота с експериментите, извършени от хора, на всеки етап. Роботът успешно се справи с процеса на трансформация, който изискваше разнообразни физически операции: трансфер и смесване на течности, преместване на пробни тръби, прилагане на контролирана топлина към клетки и разстилане на клетки върху плочи за растеж. Когато се сравнява директно с трансформации, извършени от хора, генерирането на данни от робота е с подобно качество и еквивалентни подобрения спрямо базовите стойности, показвайки ранен потенциал за автоматизиране и ускоряване на оптимизацията на биологични експерименти.
Докато промените в кратността между експериментите с робота и човека бяха сходни, абсолютните колониални броеве от робота бяха приблизително десет пъти по-ниски от ръчното изпълнение, което показва области за подобрение като прецизност при работа с течности, калибриране на контрола на температурата и възпроизвеждане на нюансите на ръчните техники за манипулиране на клетки.
Както стандартният високопрецизен метод (базов), така и подобреният метод R8 бяха изпълнени от човешки изследователи и автономния робот, като ефективността на трансформацията беше нормализирана спрямо съответните базови контроли на висока прецизност (определени на 1.0). Човешкото изпълнение на R8 показа подобрение от 2,39 пъти; роботизираното изпълнение на R8 постигна подобрение от 2,13 пъти (89% от човешкото изпълнение), демонстрирайки сравнима класация на протокола въпреки по-ниските абсолютни получени количества.
Смятаме, че тези експерименти дават моментна картина на това как ще изглежда науката, ускорена от изкуствения интелект в бъдеще: модели, които непрекъснато учат и взаимодействат с реалния свят. Въпреки че нашите експерименти изключваха човешка намеса, за да измерим чисто възможностите на модела, ние сме особено развълнувани от ИИ, който помага на учените да проектират експерименти и да допринасят за научни пробиви.
Докато работим за ускоряване на научния прогрес безопасно и отговорно, също така се стремим да оценяваме и намаляваме рисковете, особено тези, свързани с биосигурността. Тези резултати от оценките показват, че моделите могат да разсъждават в мократа лаборатория, за да подобрят протоколите и може да имат последици за биосигурността, както е описано в нашата Рамка за подготовка(отваря се в нов прозорец). Ние сме ангажирани с изграждането на необходимите и нюансирани предпазни мерки на ниво модел и система, за да намалим тези рискове, както и да разработим оценки за проследяване на текущите нива.


