Bỏ qua nội dung chính
OpenAI

5 tháng 2, 2026

Nghiên cứuẤn phẩm

GPT‑5 giảm chi phí tổng hợp protein không tế bào

Nhờ hợp tác với Ginkgo Bioworks, chúng tôi đã tạo ra một phòng thí nghiệm tự động do AI điều khiển và đạt được mức giảm 40% chi phí sản xuất protein.

Đang tải…

Chúng tôi đã chứng kiến sự tiến bộ nhanh chóng của AI trong các lĩnh vực như toán học và vật lý, nơi các ý tưởng thường có thể được đánh giá mà không cần chạm tới thế giới vật chất. Sinh học thì khác biệt. Tiến bộ diễn ra trong phòng thí nghiệm, nơi các nhà khoa học tiến hành các thí nghiệm cần thời gian và tiền bạc.

Điều đó đang bắt đầu thay đổi. Các mô hình tiên phong hiện có thể kết nối trực tiếp với hệ thống tự động hóa phòng thí nghiệm, đề xuất các thí nghiệm, thực hiện chúng ở quy mô lớn, học hỏi từ kết quả và quyết định bước tiếp theo. Trong phần lớn lĩnh vực khoa học đời sống, nút thắt là sự lặp lại, và các phòng thí nghiệm tự động được xây dựng để loại bỏ rào cản đó.

Trong công trình trước đây, chúng tôi đã cho thấy rằng GPT‑5 có thể cải thiện các quy trình phòng thí nghiệm ướt thông qua thử nghiệm vòng lặp kín. Tại đây, chúng tôi chứng minh rằng cùng một cách tiếp cận có thể giảm chi phí sản xuất protein.

Chúng tôi đã hợp tác với Ginkgo Bioworks(mở trong cửa sổ mới) để kết nối GPT‑5 với một phòng thí nghiệm đám mây—một phòng thí nghiệm ướt tự động được vận hành từ xa thông qua phần mềm, nơi robot thực hiện các thí nghiệm và trả về dữ liệu—và sử dụng thiết lập phòng thí nghiệm trong vòng lặp đó để tối ưu hóa một quy trình sinh học được sử dụng rộng rãi: tổng hợp protein không tế bào (CFPS). Qua sáu vòng thử nghiệm vòng kín, hệ thống đã thử nghiệm hơn 36.000 thành phần phản ứng CFPS độc đáo trên 580 đĩa tự động. Sau khi được cung cấp quyền truy cập vào máy tính, trình duyệt web và các tài liệu liên quan, GPT‑5 đã thực hiện ba vòng thử nghiệm để thiết lập một tiêu chuẩn mới trong CFPS chi phí thấp, đạt được mức giảm 40% chi phí sản xuất protein (và cải thiện 57% chi phí thuốc thử), bao gồm các thành phần phản ứng mới có khả năng chịu đựng tốt hơn với các điều kiện phản ứng thường gặp trong các phòng thí nghiệm tự động.

Vì sao tổng hợp protein không tế bào quan trọng

Tổng hợp protein không tế bào (CFPS) là phương pháp sản xuất protein mà không cần nuôi cấy tế bào sống. Thay vì đưa DNA vào tế bào và chờ chúng tạo ra một protein, CFPS vận hành bộ máy sản xuất protein trong một hỗn hợp được kiểm soát. Điều đó khiến nó trở thành một công cụ thiết thực cho việc tạo mẫu nhanh và thử nghiệm, vì các nhà khoa học có thể thực hiện nhiều thí nghiệm nhanh chóng và đo lường kết quả trong cùng một ngày.

Protein là một phần quan trọng của những gì sinh học hiện đại cung cấp. Nhiều loại thuốc quan trọng dựa trên protein. Nhiều xét nghiệm chẩn đoán và nghiên cứu phụ thuộc vào protein. Trong môi trường công nghiệp, các protein hoạt động như enzyme giúp các quy trình hóa học trở nên sạch hơn và hiệu quả hơn. Protein thậm chí còn được tìm thấy trong bột giặt của bạn. Khi việc sản xuất protein trở nên nhanh hơn và rẻ hơn, các nhà khoa học thường có thể thử nghiệm nhiều ý tưởng sớm hơn và giảm chi phí biến nghiên cứu ban đầu thành những thứ mà mọi người có thể hưởng lợi trong cuộc sống hàng ngày.

CFPS hữu ích cho loại lặp lại đó. Nút thắt nằm ở việc tối ưu hóa khó khăn và trở nên tốn kém khi mở rộng quy mô.

Tổng hợp protein không tế bào rất khó để tối ưu hóa và chi phí cao

Tổng hợp protein không tế bào yêu cầu các thành phần phức tạp và tương tác: khuôn DNA mã hóa protein cần sản xuất, dịch ly giải tế bào (hỗn hợp chứa các bộ máy tế bào bên trong tế bào), và một số lượng lớn các thành phần sinh hóa từ nguồn năng lượng đến muối. Việc suy luận về toàn bộ hệ thống là vô cùng khó khăn, và nhiều(mở trong cửa sổ mới) trước đây(mở trong cửa sổ mới) nghiên cứu(mở trong cửa sổ mới) đã áp dụng các loại học máy khác nhau để giảm chi phí sản xuất protein.

Các công thức tổng hợp protein không tế bào tiêu chuẩn (CFPS) và các bộ kit thương mại thường được định giá phù hợp với tốc độ làm việc của con người. Các phòng thí nghiệm tự động có thể thực hiện hàng nghìn phản ứng trong thời gian mà một nhóm người chỉ có thể thực hiện vài chục. Ở quy mô đó, chi phí của các chất phản ứng trở thành yếu tố giới hạn.

CFPS cũng khó để tối ưu hóa chỉ bằng trực giác. Đó là sự kết hợp của nhiều thành phần tương tác. Những thay đổi nhỏ có thể tạo ra khác biệt, nhưng hướng tác động không phải lúc nào cũng rõ ràng, và những tổ hợp tốt nhất có thể khó tìm thấy nếu không thực hiện nhiều thí nghiệm. Các phương pháp trước đây đã giảm chi phí, nhưng tiến bộ thường chỉ mang tính gia tăng vì việc khám phá không gian một cách kỹ lưỡng đòi hỏi nhiều công sức.

Kết nối GPT‑5 với phòng thí nghiệm robot

Chúng tôi đã kết hợp GPT‑5 với phòng thí nghiệm đám mây của Ginkgo Bioworks để tạo thành một hệ thống tự trị vòng kín cho việc tối ưu hóa tổng hợp protein không tế bào (CFPS).

GPT‑5 đã thiết kế các đợt thí nghiệm. Phòng thí nghiệm đã thực hiện chúng. Các kết quả đã được đưa trở lại vào mô hình. Mô hình đã sử dụng dữ liệu đó để đề xuất vòng tiếp theo. Chúng tôi đã lặp lại chu kỳ đó sáu lần.

Sơ đồ có tiêu đề “Phòng thí nghiệm tự động do AI điều khiển.” GPT-5 thực hiện phân tích dữ liệu, suy luận sinh hóa và tạo giả thuyết, gửi các thiết kế thí nghiệm đến Reconfigurable Automation Carts (RAC), thực hiện các thí nghiệm vật lý, tự động hóa xử lý chất lỏng, ủ mẫu và đo huỳnh quang. RAC gửi lại dữ liệu thí nghiệm và số liệu cho GPT-5, tạo thành một vòng lặp phản hồi khép kín.

GPT‑5 đã thiết kế các lô thí nghiệm theo định dạng tiêu chuẩn của đĩa 384 giếng, và thực hiện chúng trên phòng thí nghiệm đám mây của Ginkgo Bioworks. Khi các thí nghiệm kết thúc, phòng thí nghiệm đám mây đã chuyển dữ liệu trở lại GPT‑5, nơi mô hình phân tích kết quả, tạo ra các giả thuyết mới và thiết kế vòng thí nghiệm tiếp theo.

Để đảm bảo vòng lặp phù hợp với khả năng của phòng thí nghiệm tự động, chúng tôi đã thêm vào quy trình xác thực nghiêm ngặt bằng chương trình trước khi thực hiện bất kỳ thí nghiệm nào. Việc xác thực đó đảm bảo rằng các thí nghiệm do AI thiết kế có thể được thực hiện về mặt vật lý trên nền tảng tự động hóa. Nó ngăn chặn các “thí nghiệm trên giấy” có vẻ hợp lý trên văn bản nhưng không thể thực hiện trong quy trình làm việc bằng robot.

Trong suốt quá trình chạy, hệ thống đã thực hiện hơn 36.000 phản ứng CFPS trên 580 đĩa tự động. Quy mô này quan trọng vì nó cho phép các mẫu hình xuất hiện. Trong sinh học, các thí nghiệm đơn lẻ thường có nhiều nhiễu. Thông lượng và các lần lặp là cách bạn tách tín hiệu khỏi tạp âm ngẫu nhiên. Khi GPT‑5 có quyền truy cập vào bài báo và các công cụ liên quan, nó đã trải qua ba vòng thử nghiệm và mất hai tháng để thiết lập một tiêu chuẩn mới: chi phí sản xuất protein thấp hơn 40% so với mức cơ sở tốt nhất trước đó(mở trong cửa sổ mới).

Xe đẩy tự động hóa có thể cấu hình lại của Ginkgo Bioworks. Ghi nhận: Ginkgo Bioworks

Những gì chúng tôi đã học được

Chúng tôi nhận thấy rằng những cải tiến đến từ việc xác định các tổ hợp phối hợp tốt với nhau và vẫn duy trì hiệu quả trong thực tế của tự động hóa thông lượng cao.

Chúng tôi phát hiện rằng GPT‑5 đã xác định các thành phần phản ứng có chi phí thấp mà con người chưa từng thử nghiệm trước đây trong cấu hình này. Tổng hợp protein không tế bào (CFPS) đã được nghiên cứu trong nhiều năm, nhưng phạm vi các hỗn hợp có thể có vẫn còn rộng. Khi bạn có thể đề xuất và thực thi hàng nghìn tổ hợp một cách nhanh chóng, bạn có thể tìm ra những vùng khả thi mà quy trình làm việc thủ công dễ bỏ lỡ.

Chúng tôi cũng nhận thấy rằng các thí nghiệm thông lượng cao dựa trên đĩa thường khác với các thí nghiệm thủ công trên bàn thí nghiệm. Sự oxy hóa có thể thấp hơn trong các định dạng phản ứng thông lượng cao. Sự pha trộn và hình học có thể khác biệt. Hầu hết các phản ứng CFPS tạo ra nhiều protein hơn trong ống nghiệm so với trong các đĩa vi chuẩn độ, vì quy mô lớn hơn thường đi kèm với khả năng cung cấp oxy tốt hơn và khả năng trộn hiệu quả hơn. Thực tế là, đối với các phản ứng trên đĩa ở thể tích thấp, GPT‑5 đã đề xuất nhiều phản ứng có hiệu suất vượt trội so với mức tốt nhất trước đó ngay sau khi được cấp quyền truy cập vào máy tính để phân tích dữ liệu và trình duyệt web để tìm kiếm các tài liệu liên quan. Nhìn chung, GPT‑5 đã đề xuất nhiều tổ hợp thuốc thử hoạt động tốt dưới các ràng buộc thông lượng cao, bao gồm nhiều tổ hợp bền vững hơn trong điều kiện thiếu oxy thường gặp trong các môi trường phòng thí nghiệm tự động.

Ngoài ra, chúng tôi nhận thấy rằng những thay đổi nhỏ trong cơ chế đệm, các thành phần tái tạo năng lượng và polyamine đã có tác động lớn hơn nhiều so với chi phí của chúng. Đây không phải lúc nào cũng là những tham số đầu tiên mà mọi người tìm đến, nhưng ở mức thông lượng cao, chúng trở thành các giả thuyết có thể kiểm chứng được thay vì những giả định nền.

Cuối cùng, chính cấu trúc chi phí đã định hình điều gì là quan trọng. Trong CFPS, chi phí hiện nay chủ yếu do lysate và DNA chi phối. Điều đó có nghĩa sản lượng là chiến lược có đòn bẩy cao nhất. Nếu bạn có thể tăng sản lượng protein trên mỗi đơn vị đầu vào đắt tiền, bạn sẽ đạt được tiến bộ đáng kể về chi phí ngay cả trước khi bạn theo đuổi những khoản tiết kiệm nhỏ ở nơi khác.

Quy trình lặp lại tự động trong phòng thí nghiệm giúp giảm chi phí đồng thời tăng sản lượng protein.

Qua sáu vòng thử nghiệm tự động, hệ thống đã cải thiện đều đặn quá trình tổng hợp protein không tế bào, giảm chi phí đồng thời tăng sản lượng protein. Kết quả được hiển thị dưới dạng chi phí phản ứng so với hiệu giá protein cho mỗi vòng, với các đánh đổi tốt nhất tạo thành một tiên phong. Các điểm lớn hơn đánh dấu mức chi phí trên mỗi gram thấp nhất đạt được trong mỗi vòng, và tham chiếu hình sao/chấm cho biết chuẩn mực tiên tiến nhất trước đó trong các đĩa 384 giếng (Olsen et al., 2025). Xem xét kỹ hơn các vòng sau làm nổi bật những lợi ích cuối cùng, và bản tóm tắt theo từng vòng cho thấy chi phí tốt nhất trên mỗi gram giảm dần theo thời gian.

Hạn chế

Các kết quả này đã được chứng minh trên một protein, sfGFP, và một hệ thống tổng hợp protein không tế bào (CFPS). Việc khái quát hóa sang các protein khác và các hệ thống CFPS khác vẫn cần được chứng minh.

Sự oxy hóa và hình học phản ứng có thể ảnh hưởng mạnh đến hiệu suất, và các yếu tố này có thể thay đổi theo quy mô. Một số cải tiến có thể nhạy cảm với các điều kiện này, và việc hiểu những điểm nhạy cảm đó là một phần của những gì sẽ diễn ra tiếp theo.

Cần có sự giám sát của con người để cải thiện quy trình và xử lý thuốc thử. Hệ thống có thể thiết kế và diễn giải các thí nghiệm, nhưng công việc trong phòng thí nghiệm vẫn bao gồm các chi tiết thực tế cần những trình vận hành có kinh nghiệm.

Tiếp theo là gì

Chúng tôi dự định áp dụng tối ưu hóa lab-in-the-loop cho các quy trình sinh học khác, nơi việc lặp lại nhanh hơn có thể thúc đẩy tiến bộ. Chúng tôi coi các phòng thí nghiệm tự động là sự bổ sung cho các mô hình. Các mô hình có thể tạo ra thiết kế, nhưng cuối cùng sinh học vẫn cần thử nghiệm và lặp lại. Hoàn thiện chu trình giữa việc tạo ra và thử nghiệm là cách bạn biến những ý tưởng đầy hứa hẹn thành kết quả thực tế.

Khi chúng tôi làm việc để đẩy nhanh tiến bộ khoa học một cách an toàn và có trách nhiệm, chúng tôi cũng tìm cách đánh giá và giảm thiểu rủi ro, đặc biệt là những rủi ro liên quan đến an toàn sinh học. Những kết quả này cho thấy các mô hình có thể lý luận trong phòng thí nghiệm ướt để cải thiện các quy trình, và có thể có những tác động đối với an toàn sinh học mà chúng tôi đánh giá và giảm thiểu thông qua Khung chuẩn Bị⁠. Chúng tôi cam kết xây dựng⁠ các biện pháp bảo vệ cần thiết và tinh tế ở cấp độ mô hình và hệ thống để giảm thiểu những rủi ro này, cũng như phát triển các đánh giá để theo dõi các mức độ hiện tại.

Chúng tôi rất biết ơn các đối tác tại Ginkgo Bioworks và các đội ngũ đã giúp thiết kế, vận hành và hỗ trợ phòng thí nghiệm đám mây tự động phía sau công trình này.

Tác giả

OpenAI