Переход к основному контенту
OpenAI

GPT‑5 снизил стоимость бесклеточного синтеза белков

В сотрудничестве с Ginkgo Bioworks мы создали автономную лабораторию на базе ИИ и добились снижения стоимости синтеза белка на 40%.

Загрузка…

Мы уже наблюдали быстрый прогресс ИИ в таких областях, как математика и физика — где идеи часто можно оценивать без взаимодействия с физическим миром. Биология отличается от таких наук. Здесь прогресс должен проходить через лаборатории, в которых ученые проводят эксперименты, требующие затрат времени и средств.

Но этот принцип работы начинается меняться. Сегодня передовые модели могут напрямую подключаться к лабораторному оборудованию, предлагать эксперименты, проводить их в большом масштабе, учиться на результатах и принимать решения о дальнейших действиях. Во многих областях биологии трудности начинаются в процессе повторений (итераций); для устранения этого ограничения и создаются автономные лаборатории.

В более ранних исследованиях мы показали, что GPT‑5 может оптимизировать протоколы практических экспериментов путем их проведения в замкнутом цикле. В данной работе было подтверждено, что тот же подход может помочь снизить стоимость синтеза белка.

В рамках сотрудничества с Ginkgo Bioworks(открывается в новом окне) мы подключили GPT‑5 к облачной лаборатории — автоматизированной практической лаборатории, управляемой удаленно через программное обеспечение, где роботы выполняют эксперименты и возвращают данные, — и использовали замкнутую схему lab-in-the-loop для оптимизации широко используемого биологического процесса: бесклеточного синтеза белка (CFPS). За шесть этапов экспериментов с замкнутым циклом система протестировала более 36 000 уникальных составов реакций CFPS на 580 автоматизированных планшетах. После того как GPT‑5 предоставили доступ к компьютеру, веб-браузеру и соответствующим материалам, ему потребовалось три этапа экспериментов, чтобы установить новый стандарт в сфере низкозатратного CFPS, добившись снижения стоимости синтеза белка на 40% (и снижения расходов на реагенты на 57%), в частности разработав новые составы реакций, которые оказались более устойчивы к условиям, типичным для автономных лабораторий.

Чем важен бесклеточный синтез белка

Бесклеточный синтез белка (CFPS) — это метод получения белков без необходимости выращивания живых клеток. Вместо того чтобы вводить ДНК в клетки и ждать, пока они произведут белок, CFPS запускает белоксинтезирующий механизм в контролируемой смеси. Это делает его практичным инструментом для быстрого прототипирования и тестирования: таким образом учёные могут быстро проводить множество экспериментов и анализировать полученные результаты в тот же день.

Белки — значительная часть того, что предлагает современная биология. Многие важные лекарства созданы на основе белков. Множество диагностических и исследовательских анализов зависят от белков. В промышленных условиях белки выполняют роль ферментов, которые делают химические процессы более чистыми и эффективными. Белки можно найти даже в вашем стиральном порошке. Сделав синтез белка быстрее и дешевле, ученые могут раньше проверять больше идей и снижать стоимость трансформации ранних исследований во что-то, от чего люди могут получать пользу каждый день.

Для этого и был разработан CFPS. Основная его трудность заключается в том, что оптимизация данного процесса сложна, а при масштабировании его стоимость вырастает в разы.

Бесклеточный синтез белка — затратный процесс, который довольно сложно оптимизировать

Бесклеточный синтез белка требует сложных, взаимодействующих ингредиентов: ДНК-матрицы, кодирующей белок, который необходимо синтезировать, клеточного лизата (смеси из клеточных механизмов изнутри клеток) и большого количества биохимических компонентов, начиная от источников энергии и заканчивая солями. Чрезвычайно сложно рассуждать о системе в целом; многие(открывается в новом окне) предыдущие(открывается в новом окне) исследования(открывается в новом окне) применяли различные типы машинного обучения для снижения стоимости синтеза белка.

Цена стандартных составов для бесклеточного синтеза белка (CFPS) и коммерческих наборов часто предусматривает работу в естественном темпе. Автономные лаборатории могут проводить тысячи реакций за то время, за которое команда людей могла бы провести лишь десятки. При таком масштабе стоимость реагентов становится ограничивающим фактором.

CFPS также трудно оптимизировать, полагаясь только на интуицию. Этот процесс — комбинация множества взаимодействующих компонентов. Небольшие изменения могут иметь значение, но направление эффекта не всегда очевидно, и лучшие сочетания бывает трудно найти без проведения множества экспериментов. Более ранние подходы уже позволили снизить затраты, однако прогресс, как правило, продолжает постепенное движение: тщательное исследование сферы требует значительных трудозатрат.

Подключение GPT‑5 к роботизированной лаборатории

Мы объединили GPT‑5 с облачной лабораторией Ginkgo Bioworks, создав замкнутую автономную систему для оптимизации бесклеточного синтеза белка (CFPS).

GPT‑5 разработал серии экспериментов. Лаборатория провела их. Результаты были переданы обратно в модель. Модель использовала эти данные, чтобы предложить следующий этап. Цикл был повторен шесть раз.

Схема с заголовком «Автономная лаборатория на базе ИИ». GPT-5 выполняет анализ данных, биохимические рассуждения и генерацию гипотез, отправляя экспериментальные проекты на реконфигурируемые автоматизированные стойки (RAC), которые проводят физические эксперименты, автоматизируют обработку жидкостей, инкубируют образцы и измеряют флуоресценцию. RAC возвращают экспериментальные данные и метрики в GPT-5, формируя замкнутый цикл обратной связи.

GPT‑5 разработал пакеты экспериментов в стандартном формате для планшета на 384 лунки и провел их в облачной лаборатории Ginkgo Bioworks. После завершения экспериментов облачная лаборатория отправила данные обратно в GPT‑5: модель проанализировала результаты, сформулировала новые гипотезы и разработала следующий этап экспериментов.

Чтобы цикл оставался привязанным к возможностям автономной лаборатории, мы добавили строгую программную проверку перед запуском любого эксперимента. Эта проверка гарантировала, что эксперименты, разработанные ИИ, могли быть физически выполнены на автоматизированной платформе. Это предотвращало проведение «экспериментов на бумаге», которые выглядели правдоподобно лишь в теории, но в реальности не могли быть выполнены в роботизированном рабочем процессе.

За весь цикл система выполнила более 36 000 реакций CFPS на 580 автоматизированных планшетах. Именно такой масштаб позволяет выделить четкие паттерны. В биологии отдельные эксперименты могут давать искаженные результаты. Отделить сигнал от случайного информационного шума позволяет скорость обработки данных и итерации. После того как GPT‑5 получил доступ к соответствующей статье и инструментам, потребовалось три этапа экспериментов и два месяца, чтобы установить новую эталонную стоимость синтеза белка — на 40% ниже по сравнению с лучшим предыдущим базовым уровнем(открывается в новом окне).

Реконфигурируемые автоматизированные стойки компании Ginkgo Bioworks. Фото: Ginkgo Bioworks

Что мы узнали

Мы выяснили, что оптимизация стала результатом выявления сочетаний, которые хорошо работают вместе и сохраняют эффективность в условиях автоматизации с высокой пропускной способностью.

Мы обнаружили, что GPT‑5 выявил недорогие реакционные составы, которые ранее не тестировались в этой конфигурации людьми. Бесклеточный синтез белка (CFPS) изучается уже много лет, но диапазон возможных смесей по-прежнему остается обширным. Имея возможность быстро предлагать и реализовывать тысячи комбинаций, вы можете находить удачные рабочие варианты, которые легко упустить при проверке вручную.

Мы также выяснили, что результаты экспериментов с высокой пропускной способностью на планшетах часто отличаются от ручных лабораторных экспериментов. Оксигенация может быть ниже в реакциях с высокой пропускной способностью. Смешивание и геометрия могут быть разными. Большинство реакций CFPS позволяют синтезировать значительно больше белка в пробирках, чем в микротитровальных планшетах, поскольку на больших масштабах обычно доступно больше кислорода и обеспечивается лучшее перемешивание. Для реакций на планшетах при малом объеме GPT‑5 предложил множество реакций, результаты которых превзошли предыдущие лучшие результаты сразу после получения доступа к компьютеру для анализа данных и веб-браузеру для поиска релевантных статей. В целом GPT‑5 предложил множество комбинаций реагентов, которые хорошо работали в условиях высокой пропускной способности, включая те, которые оказались более устойчивы в условиях низкого содержания кислорода, характерных для автоматизированных лабораторий.

Кроме того, мы обнаружили, что небольшие изменения в буферизации, компонентах регенерации энергии и полиаминах оказывают непропорционально большое влияние по сравнению с их стоимостью. Это не всегда первые параметры, к которым обращаются люди, но при высокой пропускной способности они становятся проверяемыми гипотезами, а не исходными предположениями.

Наконец, сама структура затрат определила, что имеет значение. В CFPS затраты теперь в основном определяются лизатом и ДНК. Это означает, что стратегия с наибольшим рычагом воздействия — это объем синтеза. Если увеличить выход белка на единицу дорогого ресурса, можно добиться значительного прогресса в снижении затрат еще до того, как вы начнете искать незначительную экономию в других местах.

Проведение итераций в автономных лабораториях снижает затраты, одновременно увеличивая выход белка.

В течение шести этапов автономных экспериментов система последовательно улучшала бесклеточный синтез белка, снижая затраты и увеличивая выход белка. Результаты представлены как стоимость реакции в сравнении с титром белка для каждого этапа, при этом лучшие компромиссы образуют границу. Более крупные точки обозначают наименьшую стоимость за грамм, достигнутую на каждом этапе, а звездочка/пунктирная отметка указывает на предыдущий эталонный показатель по планшетам на 384 лунки (Olsen et al., 2025). Более внимательный анализ более поздних этапов подчеркивает окончательные достижения, а сводка по этапам показывает, что лучшая стоимость за грамм со временем уменьшается.

Ограничения

Эти результаты были продемонстрированы на одном белке, sfGFP, и одной системе бесклеточного синтеза белка (CFPS). Для обобщения результатов с другими белками и системами CFPS требуется проведение дальнейших исследований.

Оксигенация и геометрия реакции могут существенно влиять на выход, и эти факторы могут варьироваться в разных масштабах. Некоторые улучшения могут быть чувствительны к этим условиям, и понимание этих чувствительных аспектов — часть того, что будет дальше.

Для улучшения протокола и обращения с реагентами требовался надзор человека. Система может разработать дизайн и интерпретировать эксперименты, но лабораторная работа по-прежнему включает практические детали, требующие вмешательства опытных операторов.

Следующие шаги

Мы планируем применять оптимизацию «lab-in-the-loop» к другим биологическим рабочим процессам, где более быстрые итерации могут ускорить прогресс. Мы рассматриваем автономные лаборатории как дополнение к моделям. Модели могут генерировать проекты, но в конечном итоге биология всё равно требует тестирования и итерации. Замкнув круг между генерацией и экспериментами, мы превращаем перспективные идеи в рабочие результаты.

Стремясь ускорять научный прогресс безопасно и ответственно, мы также оцениваем и снижаем риски — особенно связанные с биобезопасностью. Эти результаты показывают, что модели могут рассуждать в лабораторных условиях для оптимизации протоколов и могут быть результативными для биобезопасности, которые мы оцениваем и снижаем в рамках нашей Рамочной программы готовности. Мы привержены созданию⁠ необходимых и тонко настроенных мер защиты на уровне модели и системы, чтобы снижать эти риски, а также разрабатывать оценки для отслеживания текущего уровня.

Мы благодарны нашим партнёрам в Ginkgo Bioworks и командам, которые помогли спроектировать, запустить и поддерживать автоматизированную облачную лабораторию, лежащую в основе этой работы.

Автор

OpenAI