پرش به محتوای اصلی
OpenAI

۲۷ فروردین ۱۴۰۵

تحقیقانتشار

معرفی GPT‑Rosalind برای پژوهش‌های علوم زیستی

یک مدل جدیدِ هدف‌محور برای تسریع در پژوهش‌های علمی و کشف دارو.

امروز GPT‑Rosalind را معرفی می‌کنیم؛ مدل استدلال پیشروی ما که برای پشتیبانی از پژوهش در حوزه‌های زیست‌شناسی، کشف دارو و پزشکی ترجمانی ساخته شده است. مجموعه‌مدل‌های علوم زیستی برای گردش‌کارهای علمی بهینه‌سازی شده است و کاربردِ بهبود‌یافتهٔ ابزارها را با درک عمیق‌تر در حوزه‌های شیمی، مهندسی پروتئین و ژنومیک ترکیب می‌کند.

به‌طور متوسط، طی کردن مسیر از کشف هدف تا اخذ تأییدیه‌های مقرراتی برای یک داروی جدید در ایالات متحده حدود ۱۰ تا ۱۵ سال طول می‌کشد. دستاوردهایی که در نخستین مراحل اکتشاف حاصل می‌شوند، در ادامه به‌صورت انباشتی در انتخاب بهتر اهداف، فرضیه‌های زیستی قوی‌تر و آزمایش‌های باکیفیت‌تر اثر می‌گذارند. پیشرفت در علوم زیستی تنها به‌دلیل دشواری علم زیربنایی محدود نمی‌شود، بلکه پیچیدگی خود گردش‌کارهای پژوهشی نیز آن را محدود می‌کند. دانشمندان باید با حجم زیادی از متون علمی، پایگاه‌های داده تخصصی، داده‌های تجربی و فرضیه‌های در حال تحول کار کنند تا بتوانند ایده‌های جدیدی تولید و ارزیابی کنند. این جریان‌های کاری اغلب زمان‌بر، پراکنده و دشوار برای توسعه در مقیاس وسیع هستند.

ما باور داریم که سیستم‌های پیشرفته هوش مصنوعی می‌توانند به پژوهشگران کمک کنند سریع‌تر این گردش‌کارها را طی کنند—نه فقط با کارآمدتر کردن کارهای موجود، بلکه با کمک به دانشمندان برای بررسی احتمال‌های بیشتر، آشکار کردن ارتباطاتی که در غیر این صورت ممکن است نادیده بمانند، و رسیدن زودتر به فرضیه‌های بهتر. این مدل با پشتیبانی از سنتز شواهد، تولید فرضیه، برنامه‌ریزی آزمایش و دیگر وظایف پژوهشیِ چندمرحله‌ای طراحی شده است تا به پژوهشگران کمک کند مراحل آغازینِ اکتشاف را شتاب دهند. در گذر زمان، این سیستم‌ها می‌توانند به سازمان‌های علوم زیستی کمک کنند به پیشرفت‌هایی دست یابند که در غیر این صورت ممکن نبود، با نرخ موفقیت بسیار بالاتر. 

اکنون GPT‑Rosalind به‌صورت پیش‌نمایش پژوهشی در ChatGPT، Codex و API برای مشتریان واجد شرایط از طریق برنامه دسترسی مورد اعتماد ما در دسترس است. ما همچنین یک افزونه پژوهشی علوم زیستی با دسترسی آزاد برای Codex معرفی می‌کنیم که به دانشمندان کمک می‌کند مدل‌ها را به بیش از ۵۰ ابزار علمی و منبع داده متصل کنند. ما با مشتریانی مانند Amgen، Moderna، Allen Institute، Thermo Fisher Scientific و دیگران همکاری می‌کنیم تا GPT‑Rosalind را در گردش‌کارهایی به کار بگیریم که پژوهش و اکتشاف را تسریع می‌کنند.

این مدل به نام روزالیند فرانکلین نام‌گذاری شده است؛ کسی که پژوهش‌های دقیقش به آشکار شدن ساختار DNA کمک کرد و بنیان‌های زیست‌شناسی مولکولی مدرن را بنا نهاد.

از داده‌های خام تا تصمیم‌های مبتنی بر شواهد، ببینید چگونه مدل هدف‌محور ما گردش کارهای پژوهشی را تسریع می‌کند.

ساخته‌شده برای گردش‌های کاری علمی

سری مدل‌های علوم زیستی GPT‑Rosalind برای کار علمی مدرن در حوزه شواهد منتشرشده، داده‌ها، ابزارها و آزمایش‌ها طراحی شده است. در ارزیابی‌های ما، این مدل بهترین عملکرد را در وظایفی ارائه می‌دهد که به استدلال دربارهٔ مولکول‌ها، پروتئین‌ها، ژن‌ها، مسیرهای زیستی و زیست‌شناسی مرتبط با بیماری نیاز دارند، و در استفاده از ابزارها و پایگاه‌های داده علمی در گردش‌های کاری چندمرحله‌ای مانند مرور متون علمی، تفسیر توالی به کارکرد، برنامه‌ریزی آزمایش‌ها و تحلیل داده‌ها مؤثرتر است.

این نخستین نسخه در مجموعه مدل‌های علوم زیستی GPT‑Rosalind ما است، و ما به گسترش پیشرو قابلیت‌های استدلال زیست‌شیمیایی این مدل در جریان‌های کاری علمیِ بلندافق و متکی بر ابزارهای فراوان ادامه خواهیم داد. زیرساخت محاسباتی OpenAI به ما این امکان را می‌دهد که به آموزش، ارزیابی و بهبود مدل‌های دامنه‌محور هرچه توانمندتر در برابر وظایف علمی واقعی ادامه دهیم — و به این سیستم‌ها کمک کنیم هرچه خود جریان‌های کاری پیچیده‌تر می‌شوند، مفیدتر شوند.

از بینش‌های حاصل از کشف مبتنی بر شواهد تا آزمایش‌های پُرتأثیر، ببینید چگونه مجموعه راهکارهای ما به بهبودهای قابل‌اندازه‌گیری در گردش‌کارهای پژوهشی شما منجر می‌شوند.

مشتریان و اکوسیستم

ما با مشتریان پیشرو در حوزه‌های داروسازی، زیست‌فناوری و پژوهش، و همچنین سازمان‌های فناوریِ علوم زیستی همکاری می‌کنیم تا GPT‑Rosalind را در جریان‌های کاری‌ای که محرک اکتشاف هستند به‌کار بگیریم.

«حوزه علوم زیستی در هر مرحله‌ای دقت طلب می‌کند. پرسش‌ها بسیار پیچیده‌اند، داده‌ها بسیار منحصربه‌فرد هستند، و میزان مخاطرات به‌طرز باورنکردنی بالا است. همکاری منحصربه‌فرد ما با OpenAI ما را قادر می‌سازد تا پیشرفته‌ترین قابلیت‌ها و ابزارهای آن‌ها را به شیوه‌هایی جدید و نوآورانه به کار بگیریم، با این ظرفیت که سرعت رساندن داروها به بیماران را افزایش دهیم.»
—شان برویچ، معاون ارشد هوش مصنوعی و داده، Amgen

عملکرد و ارزیابی

ما GPT‑Rosalind را در طیفی از قابلیت‌های بنیادین برای کشف علمی و پژوهش صنعتی ارزیابی کردیم. این ارزیابی‌ها استدلال محوری را در زیرحوزه‌های علمی می‌سنجند، از جمله مکانیسم‌های واکنش شیمیایی؛ ساختار پروتئین، اثرات جهش و برهم‌کنش‌ها؛ و تفسیر فیلوژنتیکی توالی‌های DNA. آن‌ها همچنین ارزیابی می‌کنند که آیا مدل‌ها می‌توانند با تفسیر خروجی‌های آزمایشی، شناسایی الگوهای مرتبط برای متخصصان، و ترکیب اطلاعات خارجی برای طراحی آزمایش‌های بعدی، از جریان‌های کاری واقعیِ پژوهشی پشتیبانی کنند. در نهایت، آن‌ها بررسی می‌کنند که آیا مدل‌ها می‌توانند ابزارهای محاسباتی، پایگاه‌های داده و قابلیت‌های خاصِ حوزه‌ی مناسب را انتخاب کرده و برای تقویت استدلال خود به‌کار بگیرند. در مجموع، این ارزیابی‌ها نشان‌دهنده پیشرفت در سراسر فرایند سرتاسری پژوهش علمی هستند و از توانمندی بیشتر برای کمک به پژوهشگران در پیشبرد وظایف چالش‌برانگیز اکتشافی حکایت دارند.

درخواست

I am planning a base-promoted SNAr coupling of 1-(pyridin-3-yl)ethanol with 1-fluoro-2-nitrobenzene with the goal of synthesizing 1-(pyridin-3-yl)ethyl 2-nitrophenyl ether. I found several patents that describe room-temperature O-arylation of alcohols in DMF/Cs2CO3, but the reaction is taking longer than I would like. How can I improve this reaction? Help me find any relevant literature or patents as well.

ارزیابی‌های صنعت

ما GPT‑Rosalind را بر روی مجموعه‌ای از بنچمارک‌های عمومی ارزیابی کردیم. در BixBench، بنچمارکی که پیرامون مسائل واقعی زیست‌اطلاع‌رسانی و تحلیل داده طراحی شده است، GPT‑Rosalind در میان مدل‌هایی با امتیازهای منتشرشده، بهترین عملکرد را کسب کرد.

در LABBench2، بنچمارکی که عملکرد را در طیفی از وظایف پژوهشی مانند بازیابی متون علمی، دسترسی به پایگاه داده، دست‌کاری توالی‌ها و طراحی پروتکل می‌سنجد، GPT‑Rosalind در ۶ مورد از ۱۱ وظیفه عملکرد بهتری نسبت به GPT‑5.4 دارد. برجسته‌ترین بهبود از CloningQA ناشی می‌شود، که به طراحی سرتاسری مواد شیمیایی DNA و آنزیمی برای پروتکل‌های کلونینگ مولکولی نیاز دارد.

ما همچنین با Dyno Therapeutics، شرکتی پیشگام در ژن‌درمانی‌های طراحی‌شده با هوش مصنوعی، همکاری کردیم تا مدل را در یک وظیفه پیش‌بینی و تولید از توالی RNA به کارکرد، با استفاده از توالی‌های منتشرنشده و عاری از آلودگی، ارزیابی کنیم. عملکرد با ۵۷ امتیاز ثبت‌شده از متخصصان انسانی در حوزه هوش مصنوعی-زیست‌شناسی مقایسه شد. در ارزیابی مستقیم در اپلیکیشن Codex، بهترین ارسال‌های مدل از میان ده تلاش در وظیفه پیش‌بینی بالاتر از صدک ۹۵ کارشناسان انسانی و در وظیفه تولید توالی در حدود صدک ۸۴ کارشناسان انسانی قرار گرفتند.

این ارزیابی‌ها نشانه‌ای معنادار از عملکرد در نوع گردش‌کارهایی ارائه می‌دهند که دانشمندان هر روز برای تولید شواهد، تحلیل داده‌های پیچیده و حرکت به‌سوی نتیجه‌گیری‌های زیستی قابل دفاع به آن‌ها تکیه می‌کنند.


اتصال به ابزارهایی که دانشمندان استفاده می‌کنند

دانشمندان می‌توانند از افزونه پژوهشی علوم زیستی(در یک پنجره جدید باز می‌شود) جدید ما برای Codex استفاده کنند که از امروز در GitHub در دسترس است. این بسته شامل مجموعه‌ای گسترده از مهارت‌های ماژولار برای رایج‌ترین گردش‌های کاری پژوهشی است که برای کمک به کاربران طراحی شده است تا در حوزه‌های ژنتیک انسانی، ژنومیک عملکردی، ساختار پروتئین، بیوشیمی، شواهد بالینی و کشف مطالعات عمومی کار کنند.

تصویر ثابت نمایشی افزونه علوم زیستی

این مهارت‌ها به‌عنوان یک لایه هماهنگ‌سازی عمل می‌کنند که به دانشمندان کمک می‌کند پرسش‌های گسترده، مبهم و چندمرحله‌ای را به‌طور مؤثرتری بررسی کنند. آن‌ها دسترسی به بیش از ۵۰ پایگاه داده عمومی چند-اُمیکی، منابع علمی و ابزارهای زیست‌شناسی را فراهم می‌کنند و نقطه شروعی انعطاف‌پذیر برای گردش‌کارهای متداول و تکرارپذیر، مانند جست‌وجوی ساختار پروتئین، جست‌وجوی توالی، مرور منابع علمی و یافتن مجموعه‌داده‌های عمومی، ارائه می‌دهند.

کاربران واجد شرایط Enterprise می‌توانند از این افزونه در جریان‌های کاری پژوهشی با GPT‑Rosalind برای استدلال زیستی عمیق‌تر بهره‌برداری کنند، در حالی که همه کاربران می‌توانند از بسته افزونه با مدل‌های اصلی ما استفاده کنند.

دسترسی مورد اعتماد

ما می‌خواهیم این قابلیت‌ها را در اختیار دانشمندان و سازمان‌های پژوهشی‌ای قرار دهیم که بهترین جایگاه را برای پیشبرد سلامت انسان دارند، در حالی که تدابیر حفاظتی قوی در برابر سوءاستفاده بیولوژیکی را حفظ می‌کنیم. مدل علوم زیستی در ابتدا از طریق یک ساختار استقرارِ دسترسی مطمئن برای مشتریان واجد شرایط Enterprise در ایالات متحده عرضه می‌شود، با کنترل‌هایی پیرامون احراز شرایط، مدیریت دسترسی و حاکمیت سازمانی. هم‌زمان، ما مجموعه‌ای از کانکتورها و افزونه پژوهش علوم زیستی را به‌صورت گسترده‌تر در دسترس قرار می‌دهیم تا پژوهشگران بتوانند از مدل‌های اصلی ما برای وظایف پژوهشی علوم زیستی به‌شکل مؤثرتری استفاده کنند. 

مدل علوم زیستی با کنترل‌های امنیتی سطح سازمانی پیشرفته و مدیریت دسترسی تقویت‌شده توسعه داده شد و امکان استفاده علمی حرفه‌ای را در محیط‌های تحقیقاتی تحت نظارت فراهم کرد. ما دسترسی را بر اساس سه اصل اساسی ارزیابی می‌کنیم: استفاده سودمند، حاکمیت قوی و نظارت بر ایمنی، و دسترسی کنترل‌شده همراه با امنیت در سطح سازمانی. در عمل، این بدان معناست که سازمان‌های مشارکت‌کننده باید در حال انجام پژوهش علمی مشروع با منفعت عمومی روشن باشند؛ کنترل‌های مناسب حاکمیت، انطباق و جلوگیری از سوءاستفاده را حفظ کنند؛ و دسترسی را به کاربران تأییدشده در محیط‌های امن و با مدیریت مناسب محدود کنند. سازمان‌ها همچنین باید شرایط پیش‌نمایش تحقیق علوم زیستی را نیز بپذیرند و با سیاست‌های استفاده OpenAI مطابقت داشته باشند، و ممکن است به‌عنوان بخشی از فرایند آغاز همکاری یا ادامه مشارکت، اطلاعات اضافی درخواست کنیم.

شروع کنید

سازمان‌ها می‌توانند از طریق فرآیند بازبینی صلاحیت و ایمنی ما درخواست دسترسی ارائه دهند.

در طول پیش‌نمایش پژوهشی، استفاده از این مدل اعتبارها یا توکن‌های موجود شما را مصرف نخواهد کرد—البته با رعایت چارچوب‌های حفاظتی در برابر سوءاستفاده. همزمان با گسترش این برنامه، جزئیات بیشتری درباره قیمت‌گذاری و دسترسی به اشتراک می‌گذاریم.

مدل علوم زیستی طراحی شده است تا به سازمان‌های علمی کمک کند در محیط‌هایی که هم به توانمندی فنی و هم به کنترل عملیاتی نیاز دارند، کارهایی با کیفیت بالاتر را سریع‌تر انجام دهند. تیم تخصصی علوم زیستی ما—و همچنین شرکای مشاوره‌ای، از جمله McKinsey & Company، Boston Consulting Group (BCG) و Bain & Company—به سازمان‌ها کمک می‌کنند موارد استفاده با بیشترین اثرگذاری را شناسایی کنند، مدل را در محیط‌های سازمانی ادغام کنند و نتایج قابل‌اندازه‌گیری را محقق کنند. اگر مایلید راه‌هایی را بررسی کنید که علوم زیستی OpenAI چگونه می‌تواند از کار شما پشتیبانی کند، می‌توانید با تیم علوم زیستی ما تماس بگیرید.

بعد چه می‌شود؟

این نخستین انتشار در مجموعه مدل‌های علوم زیستی ماست و آن را آغاز تعهدی بلندمدت برای ساخت هوش مصنوعی می‌دانیم که بتواند کشف علمی را در حوزه‌هایی که برای جامعه بسیار مهم‌اند—از سلامت انسان تا پژوهش‌های گسترده‌تر زیستی—شتاب دهد. ما به بهبود استدلال زیستی مدل ادامه خواهیم داد، پشتیبانی از جریان‌های کاری پژوهشی ابزارمحور و با افق زمانی بلند را گسترش خواهیم داد و برای ارزیابی اثرگذاری در دنیای واقعی، از نزدیک با مؤسسات علمی پیشرو همکاری خواهیم کرد. این همچنین شامل همکاری‌های جاری با آزمایشگاه‌های ملی، از جمله آزمایشگاه ملی Los Alamos، می‌شود؛ جایی که ما در حال بررسی طراحی پروتئین و کاتالیزور با هدایت هوش مصنوعی هستیم، از جمله توانایی سامانه‌های هوش مصنوعی برای اصلاح ساختارهای زیستی، در عین حفظ یا بهبود ویژگی‌های عملکردی کلیدی. 

با گذشت زمان، انتظار داریم این سیستم‌ها به همکارانی هرچه توانمندتر در مسیر اکتشاف تبدیل شوند و به دانشمندان کمک کنند تا سریع‌تر از پرسش به شواهد، از شواهد به بینش، و از بینش به درمان‌های جدید برای بیماران حرکت کنند.