メインコンテンツにスキップ
OpenAI

2025年12月16日

研究出版

AI がウェットラボでの生物学研究を加速する能力の測定

GPT‑5 はウェットラボプロトコルを新たに改善し、分子クローニングプロトコルの効率を 79 倍に向上させました。

淡い青~オレンジのグラデーションを用いたコラージュ風グラフィック。DNA アセンブリの図が配置され、「Biology Research」という太字テキストが表示され、「OpenAI for Science」とラベル付けされています。
読み込んでいます...

科学の進歩を加速させることは、AI が人類に利益をもたらす最も価値のある方法の 1 つです。GPT‑5 により、こうした可能性の初期の兆しが見え始めています。研究者が科学文献をより迅速に把握できるよう支援するだけでなく、予期しない関連性の発見、証明戦略の提案、専門家が評価・検証できるもっともらしいメカニズムの提示といった、新たな科学的推論の形を支えています。

これまでの進展は、物理的な実験を行わずに厳密な検証が可能な分野、たとえば数学、理論物理学、理論計算機科学などで、特に顕著に見られています。生物学は異なります。多くの進歩は、実験の実行、反復、そして研究室における経験的な検証に依存しています。

こうした環境において最先端モデルがどのように動作するのかを理解するため、私たちはバイオセキュリティ分野のスタートアップである Red Queen Bio と協力し、ウェットラボにおいてモデルがアイデアをどのように提案し、分析し、反復するかを検証する評価フレームワークを構築しました。私たちはシンプルな分子生物学の実験系を構築し、GPT‑5 に分子クローニングプロトコルの効率最適化を行わせました。

複数回の実験を重ねる中で、GPT‑5 は新しいメカニズムを導入し、クローニング効率を 79 倍に向上させました。クローニングは分子生物学における基本的な手法です。クローニング手法の効率は、タンパク質工学(新しいウィンドウで開く)遺伝学的スクリーニング(新しいウィンドウで開く)生物株エンジニアリング(新しいウィンドウで開く)の中核となる、大規模で複雑なライブラリを作成するうえで極めて重要です。このプロジェクトは、AI が生物学者と協働しながら研究を加速させる可能性を示す一例です。実験手法の改善は、研究者の作業を加速させ、コストを削減し、発見を現実世界での成果へとつなげることに役立ちます。

生物学的推論の進展にはバイオセキュリティ上の影響が伴うため、私たちは、無害な実験系の使用、タスク範囲の限定、モデル挙動の評価といった厳格に管理された環境で本研究を実施しました。これらの取り組みは、Preparedness Framework(新しいウィンドウで開く) に示すとおり、バイオセキュリティのリスク評価や、モデルおよびシステムレベルのセーフガードの策定に活かされています。

実験結果

この設定では、GPT‑5 がクローニングプロトコルについて自律的に推論し、変更案を提示するとともに、新たな実験から得られたデータを取り込んで、さらなる改善案を示しました。人間による唯一の介入は、科学者が修正されたプロトコルを実施し、実験データをアップロードすることでした。

複数回の反復を通じて、GPT‑5 はクローニング手順を最適化し、効率を 79 倍以上に向上させました。これは、一定量の入力 DNA に対して、ベースラインとなるプロトコルと比べて、配列検証済みクローンを 79 倍多く回収できたことを意味します。特に注目すべき点として、新しいメカニズムを構成する 2 つの酵素が導入されました。E. coli 由来の組換え酵素 RecA と、ファージ T4 の gene 32 由来の一本鎖 DNA 結合タンパク質(gp32)です。両者が連携して機能することで、gp32 が緩んだ DNA 末端を整えてもつれを解き、続いて RecA が各鎖を正しい対応相手へと導きます。

初期スクリーニングおよび二次実験により、酵素プロトコルでは RecA-Assisted Pair-and-Finish HiFi アセンブリ(RAPF)、形質転換プロトコルでは Transformation 7(T7)が最も優れた手法として特定されました。RAPF アセンブリと T7 形質転換はそれぞれ、ベースラインとなる HiFi クローニングプロトコルに比べて、それぞれ 2.6 倍および 36 倍の効率向上を示しました。両者を組み合わせることで、合計で 79 倍の性能向上が得られました。すべてのクローンはシーケンシングによって確認されました。(誤差範囲:独立した 3 回の検証実験の標準偏差)

まだ初期段階ではあるものの、これらの結果は有望です。これらの改善は、私たちのモデルシステムで用いた特定のクローニング設定に固有のものであり、プロトコルの構築と実行には引き続き人間の科学者が必要です。それでも、これらの実験は、AI システムが実際の研究室での作業を有意に支援でき、将来的には人間の科学者の研究を加速させる可能性があることを示しています。

特筆すべき点として、AI-lab ループは固定されたプロンプトで、人間の介入なしに実行されました。このような枠組みにより、人間の指導に依存せずに真に新しいプロトコル変更を提案するモデルの能力が明らかになりました。一方で、システムが探索に固定され、新たに見いだされたアイデアの性能を最大化する能力には制約が生じました。探索と活用の間でより適切な動的バランスを取ることで、さらに大きな成果が得られる可能性があります。酵素面とトランスフォーメーションの改善のいずれにも、なお大きな改良の余地があるためです。計画立案やタスクの時間的スパンに関する推論の進展により、シンプルで固定されたプロンプトであっても、発見とその後の最適化の双方を支援できる能力が高まると期待しています。

実世界のプロトコルを最適化するための進化的フレームワーク

ギブソンアセンブリ(新しいウィンドウで開く)反応は、2009年の考案以降、分子生物学分野で広く採用されてきた主要なクローニング手法です。ギブソンアセンブリは、DNA 断片の末端を一時的に融解させ、相補的な配列同士を結合して単一の分子にすることで、分子生物学者が DNA を「貼り合わせる」ことを可能にします。ギブソンアセンブリの大きな魅力の一つは、そのシンプルさにあります。すべての工程が、1 本のチューブ内で、単一の温度条件のもとに完結します。こうした制約には、当然ながら改善の余地があります。さらに、以下の特性により、本手法は AI モデルがウェットラボ技術を改善する能力を評価するうえで適しています。

  • 細胞ベースのシステムとは異なり、構成要素が制御された、明確に定義された系
  • 一定量の直鎖 DNA 入力からトランスフォーマブルな環状 DNA を生成する、明確な最適化関数を持つ
  • 比較的短い実験サイクル(1〜2 日間)
  • 改善には機構的な推論を要する高次元の設計空間で、最適なバッファー、試薬、温度が相互に依存している

最適化の出発点として、New England Biolabs が開発し、ギブソンアセンブリを基盤とする独自の酵素システムである HiFi assembly(新しいウィンドウで開く) を使用しました。私たちは、単一ステップおよび等温の制約を取り除いた場合に、AI が革新し、実験的フィードバックから学習して、このシナリオにおけるプロトコルの改善点を特定できるかどうかを調べました。具体的には、緑色蛍光タンパク質(GFP)の遺伝子と、遺伝子を細菌に導入して複製させるために用いられる標準的な DNA の「ベクター」として広く使われている pUC19 プラスミドを用い、2つの断片からなるクローニング反応を実施しました。目的は、成功したコロニーの数を増やすことでした。

提案を反復的に改良するための進化的フレームワークを導入することでクローニング反応を最適化し、モデルが実験を重ねる中で過去の結果を取り込みながら学習できるようにしました。各ラウンドで、GPT‑5 は 8〜10 種類の異なる反応案をまとめて提案しました。実験室ですぐに入手できない特注試薬を必要とする反応については、後続のラウンドに回しました。その後、人間の科学者が反応を実施し、初期スクリーニングにおいて、ベースラインとなる HiFi ギブソンアセンブリと比較したコロニー数を測定しました。前のラウンドで最も良好な結果を示したデータは、次のラウンドに投入されました。重要な点として、プロンプトは明確化のための質問を除いて人間の入力を加えずに標準化されていたことが挙げられます。これにより、新たな機構的な洞察を、人間の指導ではなく AI に直接帰属させることが可能になりました。

最適化プロセス全体から選ばれた上位 8 件の反応について、より広い範囲の DNA 希釈条件で再検証を行ったところ、多くは初期スクリーニング時よりも効果が小さいことが分かりました。最終的に、ラウンド 5 の反応が元の性能を再現し、最も有力な検証済み候補となりました。高い性能を示した反応の多くはリガーゼ・ポリッシュ系に分類され、コンピテントセルの状態や反応後の DNA の取り扱いにおけるわずかなばらつきに、特に敏感であることが示唆されました。これらの反応では短時間の HiFi ステップが用いられているため、多くの産物は、一方のジャンクションのみが封鎖され、もう一方はアニーリングによって保持された状態で E. coli に取り込まれ、その後の修復は細胞内の修復経路に委ねられている可能性があると私たちは仮説を立てています。このため分散が大きく、通常は優位性を示さないものの、まれに突出した性能を示す反応が評価を左右する挙動が生じます。多くの場合、この反応のバリエーションは優位性を示さないものの、1 つの強力な外れ値が現れるだけで、その系全体が次のラウンドへ進むことがあるためです。

機構的な複雑さから、クローニング反応は複数ラウンドにわたって最適化しました。一方で、形質転換手順については、モデルが一度に多数の独立した変更案を提示し、その結果の中から最も性能の高い反応を選ぶ方法で、並行して最適化を行いました。

2 ステップのクローニングワークフローの初期最適化スクリーニング:酵素によるアセンブリと形質転換。(左)酵素アセンブリの反復最適化(5 ラウンド、合計 44 件の反応)HiFi アセンブリのベースラインから始め、GPT‑5 は各ラウンドで 8〜10 種類のアセンブリプロトコルのバリエーションを提案しました。最も高性能を示した結果のデータは、次のラウンドのプロンプトに反映されました。各ラウンドでは、これまでのラウンドも含めて、最も高性能を示した反応をプロットしています。(右)形質転換条件の単発最適化:13 種類のプロトコルをテスト両方の最適化スクリーニングでは、各条件ごとに単回測定(n=1)のデータを示しています。上位候補については、別途複製による検証が行われました。

標準化されたプロンプトを用い、人間の入力なしで、GPT‑5 はエンドツーエンドのクローニング効率を 79 倍に向上させ、その効果は実験反復において確認されました。

特筆すべき点として、モデルは RecA-Assisted Pair-and-Finish HiFi アセンブリ(RAPF-HiFi)と名付けた新しい酵素的手順を提案しました。この手順では反応に 2 つの新たなタンパク質が追加されます。E. coli 由来の組換え酵素 RecA と、ファージ T4 の gene 32 由来の一本鎖 DNA 結合タンパク質(gp32)です。さらにモデルは、インキュベーションの温度と時間、ならびに酵素添加のタイミングに関して意図的な変更を行いました。具体的には、50°C での初期 HiFi 反応の後に RecA と gp32 を添加し、37°C でこれらのタンパク質を作用させ、その後 50°C に戻してアセンブリを完了することを提案しました。これらの新たな変更を組み合わせることで、効率は 2.5 倍以上に向上しました。なお、これは反応条件やタイミングを反復的に最適化する前の、初期段階での性能を示しています。

20 uL reaction volume
100 ng pUC19 vector, HindIII/KpnI-digested
64.3 ng Monster GFP insert, DpnI-digested PCR amplicon
10 μL NEBuilder 2x HiFi DNA Assembly Master Mix
50C - 30 min; 4C hold

形質転換の工程では、最も効果的だった変更は意外にもシンプルでした。細胞をペレット化(遠心分離してチューブ底部に集める)し、供給量の半分を除去したうえで、4°C の条件下で DNA を添加する前に細胞を再懸濁する、という手順です。高効率の化学的コンピテントセルは一般に脆弱だと考えられていますが、実際には濃縮処理に十分耐え、分子衝突の増加によって形質転換効率が大幅に向上しました(最終検証では 30 倍超)。 

相同性に基づくクローニングへの新たな改善

RecA-Assisted Pair-and-Finish HiFi DNA アセンブリの各ステップを示す図。T5 エキソヌクレアーゼ、GP32、RecA、ポリメラーゼ、リガーゼが DNA 鎖上で順次作用する各段階がラベル付きで示されています。

T5 エキソヌクレアーゼは 3′ 末端のオーバーハングを作り、gp32 が二次構造を抑制してこれを安定化させます。次に RecA が 3′ 末端から侵入し、gp32 を置換するとともに、相同性探索とアニーリングを促進します。50°C に加温することで両タンパク質が解離し、ポリメラーゼによるギャップ充填とリガーゼによる連結が可能になります。

ギブソンアセンブリは、DNA 断片に対応する「粘着末端」を持たせることで、それぞれが互いを見つけて結合できるようにする仕組みです。この反応では、2 種類の酵素(ポリメラーゼとリガーゼ)を用いて、結合した断片を封鎖します。RAPF-HiFi アセンブリでは、マッチング工程をより円滑にするために、2 種類のタンパク質が導入されました。1 つ目の gp32 は、緩んだ DNA 末端を整え、もつれを解く「櫛」のような役割を果たします。2 つ目の RecA は、各鎖にとって正しい相手を探し出し、対応する断片同士を引き寄せる「案内役」のように機能します。温度を高くすると、これら 2 つの補助タンパク質はいずれも DNA から解離し、通常のギブソンアセンブリ酵素が反応を完了できるようになります。

まとめると、性能向上は以下のメカニズムによってもたらされていると私たちは仮説を立てています。

  • gp32 がアニーリングしていない一本鎖 DNA(ssDNA)の末端を被覆し、二次構造を除去
  • RecA は、通常は構造によって阻害されるものの、3′ 末端から侵入して gp32 フィラメントを置換
  • RecA が ssDNA:ssDNA の相同性探索(新しいウィンドウで開く)を媒介し、アニーリングを促進
  • 50°C に戻すことで RecA と gp32 の両フィラメントが解離し、ポリメラーゼとリガーゼが反応を完了できるようになります。

新たに導入した酵素が実際に機能しているかを検証し、また性能向上が温度ステップやバッファーの変更のみによるものではないことを確認するため、RecA を除いた条件、および RecA と gp32 の両方を除いた条件で RAPF-HiFi アセンブリの性能を評価しました。いずれの反応も RAPF-HiFi アセンブリと比べて性能が低下しており、両タンパク質が RAPF-HiFi の作用機構に必要であることが示唆されました。

基盤となるメカニズムを検証するため、反応中の 2 つの新しい酵素、RecA と gp32 を分離して評価しました。これらのいずれか単独でも、HiFi を基準とした場合に効率が低下することを示します。両者を組み合わせると、ベースラインを上回り、効率は 2.6 倍向上しました。(誤差範囲:独立した 3 回の実験の標準偏差)

RAPF-HiFi の開発は、GPT‑5 が複雑かつ多次元的な推論を行う能力があることを示唆しています。

私たちの知る限り、RecA と gp32 が分子生物学的手法において機能的に併用された例はありません。多くの新しい分子生物学的手法と同様に、基盤となる生化学的活性自体はすでに研究されていましたが、それらを実用的で汎用可能な手法として活用した点が本研究の進展にあたります。

例えば、RecA と gp32 の相互作用は、機構的な in vitro 再構成アッセイで研究されてきました。D ループ形成の研究では、gp32 が RecA の活性を高め得る(新しいウィンドウで開く)ことが示されています。gp32 は、その天然の T4 組換え酵素パートナーである UvsX および組換え酵素ローディング因子 uvsY とともに、リコンビナーゼポリメラーゼ増幅(RPA)(新しいウィンドウで開く)で使用されてきました。RPA の特許仕様書(新しいウィンドウで開く)には、E. coli RecA を、機能が低下した(すなわち、工学的に改変された非野生型の)gp32 タンパク質と組み合わせたヘテロロガスな系において、有効な RPA 反応が実証されたと記載されています。しかし、この主張は一部の特許開示における付随的な記述にとどまっており、私たちの知る限り、公表されたデータによる裏付けも、RecA に基づく堅牢な RPA システムとしての採用もなされていません。SLiCE(新しいウィンドウで開く) と呼ばれるクローニング手法の一つでは、λ Red 組換えシステムを含む E. coli 由来の全細胞抽出液が用いられます。この系では、Red beta が DNA 結合タンパク質と組換え酵素の両方の役割を担っている可能性があります(ただし、私たちのプロンプトでは細胞抽出液の使用を明示的に禁止しました)。別の応用例として、Ferrin & Camerini-Otero(新しいウィンドウで開く) は、RecA のみを用いて、配列の一致に基づいて DNA 分子を選択的に捕捉しました。また別の例として、gp32 は添加剤として(新しいウィンドウで開く)、PCR と呼ばれる DNA 増幅プロセスにおいて、二次構造を低減する目的で使用されてきました。NABSA 増幅(新しいウィンドウで開く)は、RecA と gp32 の双方によって増強されることが示されています。ただし、各タンパク質はそれぞれ単独でも反応を促進でき、相乗効果は確認されていません。より広い観点では、基本的なギブソンアセンブリ型の DNA アセンブリ反応に対する改良報告は多くありません。中でも注目すべき例は、耐熱性 DNA 結合タンパク質(ET SSB)で、アセンブリ効率を約 2.5 倍向上させる(新しいウィンドウで開く)ことが示されています。

ほとんどの用途において、RAPF-HiFi が HiFi/ギブソンアセンブリによるクローニングのシンプルさや堅牢性に取って代わることは想定していません。しかし、機構的に異なるアセンブリ経路が新たに現れた点は注目に値します。GPT‑5 は、これまでにない組換えタンパク質の組み合わせと反応ダイナミクスを取り入れた解決策に到達しました。基盤となるメカニズムはモジュール化可能であることが示されるかもしれず、他の分子ワークフローにおいて再利用や再組み合わせが可能な構成要素を提供する可能性があります。また、RAPF-HiFi の改良についても、引き続き検討を進めています。反応温度や各ステップの所要時間は、RecA と gp32 の活性を、エキソヌクレアーゼによる過剰消化とバランスさせるよう調整できます。また、両タンパク質の量についても、今後最適化の余地があります。GPT‑5 は、高活性な RecA 変異体も提案しており、現在その精製を進めています。

形質転換プロトコルに関しては、最適化に成功した条件は、商用の 10-beta コンピテントセル(新しいウィンドウで開く)におけるヒートショック効率を高めることを目的とした、さまざまな添加剤や温度変動にわたっていました。試験した 13 件の AI 生成による単発の形質転換条件のうち、最も効果的だったのは Transformation 7(T7) でした。この条件では、4°C の条件下で細胞をペレット化し、供給量の半分を除去した後、DNA を添加する前に細胞を再懸濁しました。高効率の化学的コンピテントセルは一般に脆弱だと考えられており、このような取り扱い手順は通常、避けられています。それにもかかわらず、これらの細胞は濃縮処理に十分耐えました。細胞あたりの DNA 曝露量の増加と、阻害の少ないバッファーによってより鋭いヒートショックが得られたことが相まって、形質転換効率は大幅に向上しました(30 倍超)。

この形質転換プロトコル自体は新規ですが、細胞をより早い段階で濃縮するという概念においては、類似したアプローチ(新しいウィンドウで開く)がすでに報告されています。特筆すべき点として、GPT‑5 によって本研究で開発された手法は、市販の化学的コンピテントセルと互換性があり、自家調製の細胞を用意する必要がありません。そのうえで、同等の細胞株を用いた類似アプローチで報告されている効率向上を上回る結果を示しています。

ロボットシステム

このモデル実験系のスループットを高めるため、Robot on Rails と Red Queen Bio は協力して、自然言語で記述されたクローニングプロトコルを入力として受け取り、それをウェットラボで実行するロボットシステムを構築しました。

このシステムは、以下の 3 つの構成要素から成ります:1)ヒューマン→ロボット LLM:プレーンな英語をロボットの動作に変換する、2)ビジョンシステム:ラボウェアをリアルタイムで識別・位置特定する、3)ロボット経路プランナー:各動作を安全かつ正確に実行する方法を決定する。その結果、柔軟で汎用的なラボ用ロボットが誕生し、さらにギブソンアセンブリの各種クローニングプロトコル向けに最適化されました。

自律型ロボットがクローニング実験全体を実行できるかを検証するため、2 つのプロトコルを同時に実施しました。1 つは標準の HiFi 法、もう 1 つは、最初の最適化ラウンドで最も高性能を示した AI 修飾プロトコル R8 です。各ステップにおいて、ロボットの作業を人間が実施した実験と比較しました。ロボットは、さまざまな物理操作を伴う形質転換プロセスを問題なく実行しました。具体的には、液体の移動と混合、サンプルチューブの移動、細胞への制御加熱、そして細胞を培地プレート上に均一に広げる操作です。人間が実施した形質転換と直接比較したところ、ロボットは同等の品質のデータを生成し、ベースラインに対する改善効果も同等でした。これにより、生物学的実験の最適化を自動化・加速する可能性が早期に示されました。

ロボットと人間の実験間で増加率は類似していましたが、ロボットによる絶対的なコロニー数は手作業に比べておよそ 10 倍低く、液体操作の精度、温度制御の校正、手作業での細胞取り扱いの微妙な操作を再現するなど、改善の余地があることを示しています。

標準の HiFi 法(ベースライン)および改良版 R8 法は、人間の研究者と自律型ロボットの双方によって実行され、形質転換効率はそれぞれの HiFi ベースラインを基準として正規化されています(ベースラインを 1.0 に設定)。人間が実施した R8 では 2.39 倍の改善が見られ、ロボットが実施した R8 では 2.13 倍の改善(人間の成果の 89%)が得られました。絶対的な生成量は低いものの、プロトコルの順位付けはほぼ同等であることが示されました。

今後の展望

これらの実験は、将来の AI によって加速される科学の姿を垣間見るものであると私たちは考えています。すなわち、モデルが継続的に学習し、現実世界と相互作用する様子です。実験では、モデルの能力を純粋に測定するために人間の介入を排除しましたが、特に、AI が人間の科学者を支援して実験設計や研究のブレークスルーに貢献する可能性には大きな期待を寄せています。


科学の進展を安全かつ責任ある方法で加速させる一方で、私たちはリスクの評価と低減、特にバイオセキュリティに関連するリスクにも取り組んでいます。これらの評価結果は、モデルがウェットラボでプロトコルの改善に向けて推論できることを示しており、また、私たちの
Preparedness Framework(新しいウィンドウで開く)で説明しているように、バイオセキュリティに関する示唆も含んでいます。私たちは、これらのリスクを低減するために、モデルレベルおよびシステムレベルで必要かつ微妙なセーフガードを構築し、現在のリスク水準を追跡するための評価手法も開発することに取り組んでいます