۱۶ بهمن ۱۴۰۴

GPT‑5 هزینه تولید پروتئین بدون سلول را کاهش می‌دهد

با همکاری با Ginkgo Bioworks، یک آزمایشگاه خودران با AI ایجاد کردیم و موفق شدیم هزینه تولید پروتئین را ۴۰٪ کاهش دهیم.

در حال بارگذاری…

ما شاهد پیشرفت سریع AI در زمینه‌هایی مانند ریاضیات و فیزیک بوده‌ایم، جایی که ایده‌ها اغلب می‌توانند بدون لمس دنیای فیزیکی ارزیابی شوند. زیست‌شناسی متفاوت است. پیشرفت از طریق آزمایشگاه جریان دارد، جایی که دانشمندان آزمایش‌هایی را انجام می‌دهند که زمان و هزینه نیاز دارد.

این موضوع در حال تغییر است. مدل‌های پیشرفته اکنون می‌توانند به‌طور مستقیم به اتوماسیون آزمایشگاه متصل شوند، آزمایش‌ها را پیشنهاد دهند، آن‌ها را به‌طور گسترده اجرا کنند، از نتایج یاد بگیرند و تصمیم بگیرند که گام بعدی چیست. در بسیاری از رشته‌های علوم زیستی، محدودیت اصلی در تکرار است و آزمایشگاه‌های خودران برای رفع این محدودیت طراحی شده‌اند.

در کارهای قبلی، نشان دادیم که GPT‑5 می‌تواند از طریق آزمایش‌های حلقه بسته، پروتکل‌های آزمایشگاهی مرطوب را بهبود بخشد. در اینجا نشان می‌دهیم که همان رویکرد می‌تواند هزینه تولید پروتئین را کاهش دهد.

ما با Ginkgo Bioworks⁠(در یک پنجره جدید باز می‌شود) همکاری کردیم تا GPT‑5 را به یک آزمایشگاه ابری متصل کنیم—یک آزمایشگاه خودکار مرطوب که از راه دور از طریق نرم‌افزار مدیریت می‌شود، جایی که ربات‌ها آزمایش‌ها را اجرا کرده و داده‌ها را باز می‌گردانند—و از این تنظیمات آزمایشگاهی درون حلقه برای بهینه‌سازی یک فرایند بیولوژیکی پرکاربرد استفاده کردیم: تولید پروتئین بدون سلول (CFPS). در طی شش دور آزمایش حلقه‌بسته، سیستم بیش از ۳۶٫۰۰۰ ترکیب واکنش CFPS منحصربه‌فرد را در ۵۸۰ پلیت خودکار آزمایش کرد. پس از دسترسی به یک کامپیوتر، مرورگر وب و دسترسی به مقالات مرتبط، GPT‑5 سه بار آزمایش را انجام داد تا یک استاندارد جدید در تولید پروتئین با هزینه کم در CFPS ایجاد کند، به طوری که موفق به کاهش 40٪ در هزینه تولید پروتئین (و بهبود ۵۷٪ در هزینه مواد شیمیایی) شد، از جمله ترکیب‌های واکنشی جدید که نسبت به شرایط واکنشی رایج در آزمایشگاه‌های خودران مقاوم‌تر هستند.

چرا تولید پروتئین بدون سلول اهمیت دارد

تولید پروتئین بدون سلول (CFPS) روشی برای ساخت پروتئین‌ها بدون رشد سلول‌های زنده است. به جای وارد کردن DNA به سلول‌ها و منتظر ماندن برای تولید پروتئین توسط آن‌ها، CFPS ماشین‌آلات تولید پروتئین را در یک مخلوط کنترل‌شده به‌کار می‌گیرد. این ویژگی آن را به ابزاری کاربردی برای نمونه‌سازی سریع و آزمایش تبدیل می‌کند، زیرا دانشمندان می‌توانند بسیاری از آزمایش‌ها را به‌سرعت انجام دهند و نتایج را در همان روز اندازه‌گیری کنند.

پروتئین‌ها بخش بزرگی از دستاوردهای زیست‌شناسی مدرن هستند. بسیاری از داروهای مهم بر پایه پروتئین‌ها ساخته می‌شوند. بسیاری از آزمایش‌های تشخیصی و تحقیقاتی به پروتئین‌ها وابسته‌اند. در محیط‌های صنعتی، پروتئین‌ها به‌عنوان آنزیم‌هایی عمل می‌کنند که فرایندهای شیمیایی را پاک‌تر و کارآمدتر می‌سازند. پروتئین‌ها حتی در مواد شوینده لباس‌های شما وجود دارند. زمانی که تولید پروتئین سریع‌تر و ارزان‌تر شود، دانشمندان معمولاً می‌توانند ایده‌های بیشتری را زودتر آزمایش کنند و هزینه تبدیل تحقیقات اولیه به دستاوردهایی که مردم می‌توانند هر روز از آن بهره‌مند شوند، کاهش دهند.

CFPS در حال حاضر برای این نوع تکرار مفید است. محدودیت اصلی این است که بهینه‌سازی آن دشوار است و در مقیاس بزرگ هزینه‌بر می‌شود.

بهینه‌سازی تولید پروتئین بدون سلول دشوار است و هزینه زیادی دارد

سنتز پروتئین بدون سلول به مواد پیچیده و برهم‌کنش‌گر نیاز دارد: الگوی DNA که پروتئین مورد نظر را کد می‌کند، لیزات سلولی (مخلوطی از ماشین‌آلات سلولی درون سلول‌ها)، و تعداد زیادی از اجزای بیوشیمیایی که از منابع انرژی تا نمک‌ها را شامل می‌شوند. استدلال در مورد سیستم به‌طور کلی فوق‌العاده دشوار است و بسیاری⁠(در یک پنجره جدید باز می‌شود) از مطالعات⁠(در یک پنجره جدید باز می‌شود) قبلی⁠(در یک پنجره جدید باز می‌شود) انواع مختلفی از یادگیری ماشین را برای کاهش هزینه تولید پروتئین به‌کار گرفته‌اند.

فرمولاسیون‌های استاندارد تولید پروتئین بدون سلول (CFPS) و کیت‌های تجاری اغلب برای کار با سرعت انسانی قیمت‌گذاری می‌شوند. آزمایشگاه‌های خودران می‌توانند هزاران واکنش را در زمانی که یک تیم انسانی ممکن است تنها ده‌ها واکنش را انجام دهد، اجرا کنند. در این مقیاس، هزینه مواد شیمیایی به عامل محدودکننده تبدیل می‌شود.

بهینه‌سازی CFPS نیز تنها با استفاده از شهود دشوار است. این ترکیبی از اجزای متعددی است که با یکدیگر تعامل می‌کنند. تغییرات کوچک می‌توانند مهم باشند، اما جهت اثر همیشه واضح نیست و یافتن بهترین ترکیب‌ها بدون انجام آزمایش‌های زیاد می‌تواند دشوار باشد. رویکردهای قبلی هزینه‌ها را کاهش داده‌اند، اما پیشرفت معمولاً تدریجی است زیرا بررسی کامل این فضا نیازمند نیروی کار زیادی است.

اتصال GPT‑5 به یک آزمایشگاه رباتیک

ما GPT‑5 را با آزمایشگاه ابری Ginkgo Bioworks ترکیب کردیم تا یک سیستم خودمختار حلقه‌بسته برای بهینه‌سازی سنتز پروتئین بدون سلول (CFPS) ایجاد کنیم.

GPT‑5 دسته‌هایی از آزمایش‌ها را طراحی کرد. آزمایشگاه آن‌ها را انجام داد. نتایج به مدل بازخورد داده شدند. مدل از آن داده‌ها برای پیشنهاد دور بعدی استفاده کرد. ما این چرخه را شش بار تکرار کردیم.

نموداری با عنوان «آزمایشگاه خودگردان مبتنی بر هوش مصنوعی». GPT-5 تحلیل داده‌ها، استدلال بیوشیمیایی و تولید فرضیه را انجام می‌دهد و طرح‌های آزمایشی را به چرخ‌دستی‌های اتوماسیون قابل پیکربندی مجدد (RACs) ارسال می‌کند که آزمایش‌های فیزیکی را اجرا می‌کنند، جابه‌جایی مایعات را خودکار می‌کنند، نمونه‌ها را نمونه‌ها را در دمای مناسب نگه‌داری می‌کنند و فلورسانس را اندازه‌گیری می‌کنند. RACها داده‌ها و معیارهای آزمایشی را به GPT-5 بازمی‌گردانند و یک چرخه بازخورد بسته ایجاد می‌کنند. — GPT‑5 دسته‌هایی از آزمایش‌ها را در قالب استاندارد صفحه 384-چاهک طراحی کرد و آن‌ها را در آزمایشگاه ابری Ginkgo Bioworks اجرا کرد. پس از اتمام آزمایش‌ها، آزمایشگاه ابری داده‌ها را به GPT‑5 بازگرداند، جایی که مدل نتایج را تحلیل کرد، فرضیه‌های جدیدی ایجاد کرد و دور بعدی آزمایش‌ها را طراحی نمود.

برای اینکه حلقه بر اساس توانایی‌های یک آزمایشگاه خودمختار باقی بماند، پیش از اجرای هر آزمایش، اعتبارسنجی سخت‌گیرانه برنامه‌ریزی‌شده‌ای اضافه کردیم. آن اعتبارسنجی تأیید می‌کرد که آزمایش‌های طراحی‌شده توسط AI به‌صورت فیزیکی بر روی پلتفرم اتوماسیون قابل اجرا هستند. این امر از «آزمایش‌های کاغذی» که در متن منطقی به نظر می‌رسند اما در یک گردش کار رباتیک قابل اجرا نیستند، جلوگیری کرد.

در طول کل اجرا، سیستم بیش از ۳۶٫۰۰۰ واکنش CFPS را در ۵۸۰ صفحه خودکار انجام داد. این مقیاس اهمیت دارد زیرا به الگوها اجازه می‌دهد که پدیدار شوند. در زیست‌شناسی، آزمایش‌های منفرد دارای نویز زیادی هستند. توان عملیاتی و تکرار روش‌هایی هستند که به شما کمک می‌کنند سیگنال را از نویز تصادفی جدا کنید. زمانی که GPT‑5 به مقاله و ابزارهای مرتبط دسترسی پیدا کرد، سه بار آزمایش و دو ماه طول کشید تا یک استاندارد جدید ایجاد کند: ۴۰٪ کاهش هزینه تولید پروتئین در مقایسه با بهترین خط پایه قبلی⁠(در یک پنجره جدید باز می‌شود).

چرخ‌دستی‌های خودکار قابل پیکربندی مجدد Ginkgo Bioworks. اعتبار: Ginkgo Bioworks

آنچه که آموختیم

ما دریافتیم که این بهبودها از شناسایی ترکیب‌هایی حاصل شده‌اند که با هم به‌خوبی کار می‌کنند و در واقعیت‌های اتوماسیون با توان عملیاتی بالا نیز پایدار می‌مانند.

ما دریافتیم که GPT‑5 ترکیب‌های واکنشی کم‌هزینه‌ای را شناسایی کرده است که انسان‌ها قبلاً در این پیکربندی آن‌ها را آزمایش نکرده بودند. سنتز پروتئین بدون سلول (CFPS) سال‌هاست که مورد مطالعه قرار گرفته است، اما فضای ترکیب‌های ممکن همچنان گسترده است. زمانی که بتوانید هزاران ترکیب را به‌سرعت پیشنهاد و اجرا کنید، می‌توانید نواحی قابل‌اجرا را پیدا کنید که در یک گردش کار دستی به‌راحتی از دست می‌روند.

ما همچنین دریافتیم که آزمایش‌های با توان عملیاتی بالا و مبتنی بر صفحه اغلب با آزمایش‌های دستی و رومیزی متفاوت هستند. اکسیژن‌رسانی ممکن است در قالب‌های واکنش با توان عملیاتی بالا کاهش یابد. اختلاط و هندسه می‌توانند متفاوت باشند. بیشتر واکنش‌های CFPS در لوله‌های آزمایش نسبت به صفحات میکروتیتر پروتئین بسیار بیشتری تولید می‌کنند، زیرا مقیاس‌های بزرگ‌تر معمولاً با دسترسی بیشتر به اکسیژن و اختلاط بهتر همراه هستند. در واقع، برای واکنش‌های مبتنی بر صفحه در حجم کم، GPT‑5 بلافاصله پس از دسترسی به یک رایانه برای تحلیل داده‌ها و یک مرورگر وب برای جست‌وجوی مقالات مرتبط، واکنش‌های زیادی را پیشنهاد داد که از بهترینِ نمونه قبلی عملکرد بهتری داشتند. در کل، GPT‑5 ترکیب‌های زیادی از مواد شیمیایی پیشنهاد داد که تحت محدودیت‌های آزمایش با سرعت بالا عملکرد خوبی داشتند، از جمله بسیاری که در شرایط کم‌اکسیژن رایج در محیط‌های آزمایشگاهی خودران مقاوم‌تر هستند.

علاوه بر این، ما دریافتیم که تغییرات کوچک در بافرینگ، اجزای بازتولید انرژی و پلی‌آمین‌ها، نسبت به هزینه‌شان تأثیر بسیار زیادی داشتند. این‌ها همیشه نخستین پارامترهایی نیستند که افراد به سراغشان می‌روند، اما در توان عملیاتی بالا، به‌جای فرضیات پس‌زمینه، به فرضیه‌های قابل آزمایش تبدیل می‌شوند.

در نهایت، ساختار هزینه خود تعیین کرد که چه چیزی اهمیت دارد. در CFPS، هزینه‌ها اکنون عمدتاً توسط لیزات و DNA تعیین می‌شوند. این بدان معناست که بازده، استراتژی با بیشترین اهرم است. اگر بتوانید خروجی پروتئین را به ازای هر واحد ورودیِ گران افزایش دهید، حتی قبل از اینکه به دنبال صرفه‌جویی‌های جزئی در جاهای دیگر بروید، در هزینه پیشرفت معناداری می‌کنید.

تکرار خودکار در آزمایشگاه هزینه‌ها را کاهش می‌دهد و بازده پروتئین را افزایش می‌دهد

در طی شش مرحله آزمایش خودکار، سیستم به‌طور پیوسته تولید پروتئین بدون سلول را بهبود بخشید، هزینه‌ها را کاهش داد و در عین حال بازده پروتئین را افزایش داد. نتایج به‌صورت هزینه واکنش در مقابل غلظت پروتئین برای هر دور آزمایش نشان داده شده است، که بهترین تعادلات به‌عنوان یک مرز مشخص شده‌اند. نقاط بزرگ‌تر کمترین هزینه به‌ازای هر گرمِ به‌دست‌آمده در هر دور را نشان می‌دهند، و مرجع ستاره‌ای/نقطه‌چین معیار پیشرفته‌ترین وضعیت پیشین را در پلیت‌های 384-چاهکی نشان می‌دهد (Olsen et al., 2025). نگاهی دقیق‌تر به دورهای بعدی دستاوردهای نهایی را برجسته می‌کند و خلاصه‌ای دوربه‌دور نشان می‌دهد که بهترین هزینه به‌ازای هر گرم در طول زمان کاهش می‌یابد.

محدودیت‌ها

این نتایج بر روی یک پروتئین، sfGFP، و یک سیستم سنتز پروتئین بدون سلول (CFPS) نشان داده شدند. تعمیم‌پذیری به پروتئین‌های دیگر و سامانه‌های CFPS دیگر هنوز باید نشان داده شود.

اکسیژن‌دهی و هندسه واکنش می‌توانند به‌طور چشمگیری بر بازده‌ها تأثیر بگذارند، و این عوامل می‌توانند در مقیاس‌های مختلف متفاوت باشند. برخی بهبودها ممکن است نسبت به این شرایط حساس باشند، و درک آن حساسیت‌ها بخشی از آنچه در مراحل بعدی می‌آید است.

نظارت انسانی برای بهبود پروتکل‌ها و مدیریت مواد شیمیایی مورد نیاز بود. سیستم می‌تواند آزمایش‌ها را طراحی و تفسیر کند، اما کار آزمایشگاهی همچنان شامل جزئیات عملی است که به اپراتورهای باتجربه نیاز دارد.

بعد چه می‌شود؟

ما قصد داریم بهینه‌سازی «lab-in-the-loop» را به دیگر گردش‌های کاری زیستی نیز اعمال کنیم، جایی که تکرار سریع‌تر می‌تواند پیشرفت را تسریع کند. ما آزمایشگاه‌های خودمختار را مکمل مدل‌ها می‌دانیم. مدل‌ها می‌توانند طرح‌ها را تولید کنند، اما در نهایت زیست‌شناسی همچنان به آزمایش و تکرار نیازمند است. بستن حلقه بین تولید و آزمایش همان چیزی است که ایده‌های امیدوارکننده را به نتایج عملی تبدیل می‌کند.

همان‌طور که ما برای تسریع پیشرفت علمی به‌صورت ایمن و مسئولانه کار می‌کنیم، همچنین به دنبال ارزیابی و کاهش ریسک‌ها، به‌ویژه آن‌هایی که به امنیت زیستی مربوط می‌شوند، هستیم. این نتایج نشان می‌دهند که مدل‌ها می‌توانند در آزمایشگاه مرطوب برای بهبود پروتکل‌ها استدلال کنند و ممکن است پیامدهایی برای امنیت زیستی داشته باشند که ما آن‌ها را از طریق چارچوب آمادگی خود ارزیابی و کاهش می‌دهیم. ما متعهد به ایجاد تدابیر حفاظتی ضروری و دقیق در سطح مدل و سیستم هستیم تا این ریسک‌ها را کاهش دهیم و همچنین ارزیابی‌هایی برای پیگیری سطوح کنونی توسعه دهیم.

ما از شرکای خود در Ginkgo Bioworks و تیم‌هایی که به طراحی، اجرا و پشتیبانی از آزمایشگاه ابری خودکار پشت این کار کمک کردند، سپاسگزاریم.

نویسنده

OpenAI

به خواندن ادامه بده

مشاهده همه

GPT-Red: فعال‌سازی خودبهبودی برای افزایش استحکام

ایمنی۲۴ تیر ۱۴۰۵

جدا کردن سیگنال از نویز در ارزیابی‌های کدنویسی

تحقیق۱۷ تیر ۱۴۰۵

معرفی GeneBench-Pro

تحقیق۹ تیر ۱۴۰۵