17 tháng 6, 2026

Giới thiệu LifeSciBench

Bộ đo chuẩn do chuyên gia viết và đánh giá, dựa trên nghiên cứu khoa học sự sống thực tế

Đang tải…

Các hệ thống AI tác nhân ngày càng có khả năng thực hiện nhiệm vụ khoa học. Tuy vậy, mức hữu ích của chúng với nhà nghiên cứu khoa học sự sống phụ thuộc vào việc chúng xử lý độ phức tạp của nghiên cứu thật tốt đến đâu. Công việc đó hiếm khi giống một câu hỏi nhớ dữ kiện đơn lẻ hay một bài toán dự đoán gọn gàng. Nhà nghiên cứu diễn giải bằng chứng chưa đầy đủ, dung hòa kết quả mâu thuẫn, thiết kế thí nghiệm khó, xử lý sự cố xét nghiệm, đánh giá rủi ro chuyển dịch và quyết định bước tiếp theo trong bất định.

Các bộ đo chuẩn hiện nay chưa nắm bắt đầy đủ những năng lực này. Nhiều đánh giá khoa học sự sống tập trung vào miền hẹp hoặc kỹ năng tách rời, tạo ra các câu hỏi có định dạng có cấu trúc và đáp án tham chiếu rõ ràng. Dù có giá trị, chúng thường không thật sự đánh giá được liệu một mô hình có thể đóng góp trên phạm vi rộng hơn của công việc ở cấp độ nghiên cứu hay không.

Chúng tôi thiết kế LifeSciBench để góp phần thu hẹp khoảng trống này. Mỗi nhiệm vụ đều dựa trên phán đoán của các nhà khoa học sự sống đang hành nghề, được đào tạo ở trình độ tiến sĩ và có kinh nghiệm trực tiếp thúc đẩy các chương trình khám phá thuốc trong môi trường công nghệ sinh học và dược phẩm.

LifeSciBench bao gồm 750 nhiệm vụ do các chuyên gia biên soạn, trải dài trên bảy quy trình làm việc và bảy lĩnh vực sinh học."

1,062

Hiện vật của nhiệm vụ

173

Cộng tác viên là nhà khoa học

19,020

Tiêu chí đánh giá

453

Người đánh giá chuyên gia

LifeSciBench đo lường điều gì

LifeSciBench đo liệu các hệ thống AI có thể hỗ trợ nhiệm vụ nghiên cứu khoa học sự sống thực tế hay không, chứ không chỉ trả lời câu hỏi sinh học. Để xác định hệ phân loại bộ đo chuẩn, chúng tôi khảo sát các nhà khoa học sự sống đang hành nghề về những quy trình họ dùng thường xuyên nhất trong nghiên cứu ứng dụng. Sau đó, chúng tôi nhóm câu trả lời thành bảy nhóm lặp lại: xử lý bằng chứng, phân tích, thiết kế và tối ưu hóa, suy luận khoa học, xác thực và vận hành, chuyển dịch, và truyền thông khoa học.

Mỗi nhiệm vụ được cấu trúc như một yêu cầu mà nhà khoa học có thể giao cho một cộng tác viên am hiểu: câu lệnh khoa học, mọi bối cảnh hoặc hiện vật liên quan, và câu trả lời tự do. Rubric do chuyên gia viết đánh giá liệu một mô hình có thể tạo ra câu trả lời đúng cho một vấn đề cụ thể, với mức chi tiết, lập luận, lưu ý hạn chế và định dạng mà nhà khoa học kỳ vọng hay không.

Xây dựng bộ dữ liệu

LifeSciBench đánh giá suy luận khoa học cùng các kỹ năng thực tiễn, khó định nghĩa hơn nhưng cần thiết cho việc dùng khoa học trong thực tế. Các nhiệm vụ yêu cầu mô hình xử lý vấn đề nghiên cứu thực tế: diễn giải bằng chứng, đưa ra phán đoán dựa trên miền chuyên môn và truyền đạt kết luận hữu ích cho người đánh giá chuyên gia. Nhiều nhiệm vụ còn yêu cầu mô hình xử lý bất định và suy luận trên các tệp dữ liệu hỗ trợ, thay vì chỉ dựa vào văn bản câu lệnh.

Bộ đo chuẩn này được thiết kế để phản ánh độ phức tạp của công việc khoa học sự sống. Tổng thể, 79% nhiệm vụ đòi hỏi nhiều bước suy luận hoặc ra quyết định, trung bình bốn bước mỗi nhiệm vụ. LifeSciBench gồm 1.062 hiện vật đính kèm, bao gồm hình, PDF, bảng, tệp trình tự, tệp cấu trúc hoặc hóa học và tham chiếu web. Hơn một nửa số nhiệm vụ (53%) yêu cầu mô hình diễn giải hoặc tổng hợp thông tin từ ít nhất một hiện vật.

Các nhiệm vụ được xây dựng bởi 173 nhà khoa học chuyên gia thuộc nhiều lĩnh vực khoa học sự sống khác nhau. Mỗi nhà khoa học đều có trình độ Tiến sĩ (Ph.D.) và có kinh nghiệm làm việc trong ngành công nghệ sinh học hoặc dược phẩm. Các nhiệm vụ có thể trải qua số chu kỳ chỉnh sửa không giới hạn cho đến khi được chấp nhận; những nhiệm vụ được thông qua trung bình phải trải qua sáu chu kỳ tự đánh giá tự động và hoàn thành ít nhất hai vòng đánh giá từ chuyên gia. Quá trình đánh giá được dựa trên một câu trả lời chính xác có thể kiểm chứng hoặc sự đồng thuận mạnh mẽ từ các chuyên gia, với tỷ lệ đồng ý đạt ít nhất 90% giữa các nhà phản biện trong lĩnh vực liên quan. Quy trình này giúp đảm bảo rằng các nhiệm vụ được chấp nhận đều có cơ sở khoa học vững chắc, đủ rõ ràng để chấm điểm và mang tính đại diện cho nghiên cứu ứng dụng.

Sơ đồ cho thấy các nhiệm vụ LifeSciBench kết hợp nguồn dữ liệu khoa học sự sống như trình tự hệ gen, cấu trúc phân tử, hình, tài liệu, bảng tính và liên kết web với suy luận nhiều bước và đánh giá chuyên gia.

Phân tích thang điểm và tiêu chí đánh giá

Các nhiệm vụ LifeSciBench được chấm bằng tiêu chí đánh giá chi tiết, riêng cho từng nhiệm vụ, phân tách câu trả lời kỳ vọng thành các khẳng định khoa học, phép tính, quyết định, lập luận, v.v. Trên toàn bộ đo chuẩn, các tiêu chí do chuyên gia xây dựng gồm 19.020 tiêu chí—trung bình 25 chỉ số mỗi nhiệm vụ—để đánh giá cả độ đúng khoa học lẫn mức hữu ích cho quyết định nghiên cứu.

Thiết kế này phản ánh cách công việc khoa học được đánh giá trong thực tế: nhiều nhiệm vụ khoa học sự sống không thể chấm chỉ bằng cách kiểm tra đáp án cuối. Một câu trả lời có thể đạt kết luận cấp cao đúng nhưng vẫn bị xem là chưa đầy đủ nếu, chẳng hạn, bỏ sót một giới hạn xét nghiệm then chốt hoặc không chủ động nêu một sắc thái sinh học rất hệ trọng. Ngược lại, một câu trả lời một phần vẫn có thể chứa suy luận chất lượng cao dù chưa giải trọn nhiệm vụ.

Các tiêu chí đánh giá chi tiết nắm bắt được sắc thái này. LifeSciBench không chỉ đánh giá độ chính xác của đáp án cuối, mà còn xem liệu mô hình đi đến đáp án theo cách hợp lệ về khoa học và hữu ích về vận hành hay không.

Trích xuất, đối chiếu và kiểm định bằng chứng khoa học từ bài báo, hình, bảng và hồ sơ thử nghiệm.

Ví dụ đánh giá

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Phản hồi của ứng viên

Điểm mấu chốt: Như đã trình bày, hồ sơ này chưa đủ mạnh để hỗ trợ việc phê duyệt tăng tốc dựa trên mức độ biểu hiện micro-dystrophin – một tiêu chí thay thế có khả năng hợp lý sẽ dự đoán được lợi ích lâm sàng. Một nhà đánh giá mang lòng hoài nghi từ FDA có thể sẽ coi bằng chứng dấu ấn sinh học, chức năng, độ bền, an toàn và khả năng tổng quát hóa là chưa được hỗ trợ về mặt vật chất.

Mục trong hồ sơ	Chế độ lỗi phím	Điều cần thiết
Định lượng Western blot	MANEX1A liên kết một epitope ở đầu N được chia sẻ bởi dystrophin nội sinh có chiều dài đầy đủ và gen chuyển vi dystrophin, do đó xét nghiệm không phân biệt rõ ràng gen chuyển với dystrophin dư dầu/revertant. Việc định lượng vi dystrophin 138 kDa so với tiêu chuẩn dystrophin có chiều dài đầy đủ khỏe mạnh cũng không hợp lệ.	Sử dụng tiêu chuẩn vi dystrophin tái tổ hợp và phương pháp trực giao để phân biệt gen chuyển với dystrophin nội sinh, chẳng hạn như phương pháp khối phổ mục tiêu hoặc xét nghiệm đặc hiệu cho gen chuyển gian/biểu mô cụ thể.
Miễn dịch huỳnh quang	Kháng thể đa dòng ở đầu C kém phù hợp vì cấu trúc 138 kDa thiếu miền đầu C. Nhiều bệnh nhân DMD có các sợi revertant và dystrophin revertant có thể giữ lại các biểu mô ở đầu C. Các sợi revertant có thể mở rộng vô tính theo tuổi tác, làm sai lệch tín hiệu IF, đặc biệt là ở các bé trai lớn tuổi.	ặp lại nhuộm huỳnh quang miễn dịch (IF) với một kháng thể kháng lại epitope có mặt trong gen chuyển nhưng vắng mặt trong dystrophin đảo ngược dòng. Định lượng các sợi chuyển gen dương tính riêng biệt với sợi đảo ngược dòng.
Tính hợp lệ điểm cuối thay thế	Gói kết hợp lượng protein với chức năng lâm sàng. “38% khối lượng protein kiểm soát sức khỏe” không có nghĩa là 38% chức năng dystrophin bình thường vì vi dystrophin bị cắt ngắn về cấu trúc.	Xác thực theo kinh nghiệm mối quan hệ giữa phần trăm khối lượng vi dystrophin, khu trú sarcolemmal, phục hồi chức năng hạ nguồn và lợi ích lâm sàng trước khi coi biểu hiện như một điểm cuối thay thế.
Thiết kế sinh thiết	Sinh thiết vastus lateralis đối phương trước và sau điều trị giới thiệu sự biến đổi không gian trái-phải và cơ bắp. Tiến triển bệnh và thay thế chất béo xơ cũng có thể thay đổi tín hiệu chuẩn hóa tổng protein.	Chuẩn hóa vị trí sinh thiết bằng cách sử dụng các mốc giải phẫu nhất quán, bình thường hóa thành các protein đặc hiệu cho cơ và đo song song thành phần chất béo xơ.
NSAA so sản/thống kê	Một nhóm lịch sử tự nhiên bên ngoài không phải là một đối chứng đồng thời ngẫu nhiên. Tính đủ điều kiện thử nghiệm, chăm sóc hỗ trợ, tác dụng tham gia, NSAA cơ bản, chế độ steroid, tuổi và nhóm exon đều có thể làm sai lệch so sánh. Thử nghiệm t chưa ghép đôi là không đủ. Ngoài ra, sự thay đổi +1,4 NSAA nằm trong phạm vi biến đổi thử nghiệm - kiểm tra lại đối với nhóm tuổi này.	Thực hiện một nghiên cứu ngẫu nhiên có đối chứng giả dược đồng thời hoặc sử dụng tối thiểu các phân tích điều chỉnh tính đến NSAA ban đầu, tuổi, chế độ steroid, nhóm exon và các chất gây nhiễu khác.
Nhiễu do khoảng tuổi	Trẻ em trai 4-7 tuổi đang trong giai đoạn phát triển, nơi bệnh nhân DMD lưu trú không được điều trị có thể tăng chức năng vận động trước khi suy giảm chiếm ưu thế. Thay đổi NSAA trong 48 tuần kết hợp sự tăng trưởng phát triển, tiến triển bệnh và hiệu quả điều trị có thể có.	Sử dụng đối chứng ngẫu nhiên đồng thời với phân tầng tuổi để tách quỹ đạo phát triển khỏi hiệu quả điều trị.
Tiền lệ lâm sàng trước đây	Các tín hiệu chức năng microdystrophin nhãn mở chưa dự đoán được lợi ích xác nhận một cách đáng tin cậy; tiền lệ được công bố bao gồm các thử nghiệm xác nhận liệu pháp gen vi dystrophin không tái tạo các cải tiến NSAA nhãn mở.	Đừng dựa vào sự thay đổi nhãn mở của NSAA để hỗ trợ đưa ra quyết định. Yêu cầu bằng chứng chức năng được kiểm soát.
Giới hạn cấu trúc của cấu trúc di truyền	Cấu trúc 138 kDa xóa các lần lặp lại quang phổ R16/17, chứa các vị trí liên kết nNOS. Việc mất khả năng huy động nNOS có thể làm suy giảm chức năng hủy giao cảm và khả năng bảo vệ chống thiếu máu cục bộ trong lúc vận động, tạo ra một mức trần cơ chế đối với hiệu quả giải cứu độc lập với mức độ biểu hiện.	Bổ sung các nghiên cứu cơ chế nhằm chứng minh liệu cấu trúc di truyền (construct) cụ thể này có khôi phục được chức năng của phức hợp liên quan đến dystrophin, sự định vị của nNOS, sinh lý học vận động và khả năng bảo vệ cơ hay không.
Độ bền AAV	Các bộ gen của vector tại thời điểm 12 tuần không thiết lập được sự biểu hiện bền vững. Bộ gen AAV9 phần lớn là các episome không tích hợp và có thể suy giảm theo thời gian. Sự tồn tại của bộ gen vectơ không giống như biểu hiện protein dai dẳng.	Đo sự biểu hiện protein chuyển gen theo chiều dọc và độ bền của dấu ấn sinh học chức năng sau 12 tuần.
Đặc tính an toàn và miễn dịch	Viêm transamin ở 8/12 bệnh nhân phù hợp với đáp ứng miễn dịch đối với các tế bào được chuyển đổi AAV, nhưng cơ chế chưa được thiết lập. Một trường hợp viêm cơ tim liên quan đến bệnh nhiệt đới tim AAV9.	Cung cấp theo dõi miễn dịch sâu hơn, xác định đặc điểm an toàn gan/tim và tăng cường theo dõi tim.
Lựa chọn/tổng quát hóa bệnh nhân	Không bao gồm bệnh nhân trung hòa kháng thể kháng AAV9 sẽ giới hạn khả năng tổng quát hóa. Việc loại trừ các lần xóa exon-44 giới hạn khả năng áp dụng cho nhóm con DMD đó. n = 12 quá nhỏ nên không đủ để mô tả tính an toàn và hiệu quả trong quần thể DMD rộng lớn hơn.	Mở rộng tính đủ điều kiện nếu có thể hoặc xác định trước các phân tích phân tầng theo tình trạng kháng thể, loại gen/lớp exon, tuổi và chức năng cơ bản trước khi sử dụng kết quả để hỗ trợ phê duyệt rộng rãi.

Kết luận quy định: Gói có thể cho thấy hoạt tính sinh học, nhưng nó vẫn chưa xác định rằng biểu hiện vi dystrophin đo được là một chất thay thế đáng tin cậy có khả năng dự đoán lợi ích lâm sàng. Các khoảng trống chính là tính đặc hiệu của xét nghiệm, tiêu chuẩn định lượng không hợp lệ, có thể gây nhiễu sợi phản xạ, thiếu đối chứng ngẫu nhiên, rối loạn NSAA liên quan đến tuổi tác, độ bền không chắc chắn và các vấn đề về an toàn/tổng quát chưa được giải quyết.

Để thu hẹp khoảng cách, chương trình sẽ cần một thiết kế lâm sàng có kiểm soát, phân tầng tuổi với các xét nghiệm biểu hiện đặc hiệu cho gen chuyển đổi, định lượng protein trực giao, kiểm soát thành phần mô, dữ liệu độ bền theo chiều dọc, xét nghiệm chức năng cơ học cho cấu trúc bị cắt ngắn và theo dõi an toàn mạnh hơn, đặc biệt là gan và tim.

Tiêu chí đánh giá và điểm

Tiêu chí

Điểm

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

Xác thực LifeSciBench

Chúng tôi xác thực LifeSciBench thông qua một đợt đánh giá chuyên gia độc lập. Phản hồi đến từ 453 người đánh giá không tham gia viết nhiệm vụ. Trong số đó, 97% có bằng tiến sĩ hoặc học vị tiến sĩ tương đương, trung bình 12 năm kinh nghiệm chuyên môn và 14 công bố bình duyệt; 88% cho biết từng nhận ít nhất một giải thưởng hoặc học bổng nghiên cứu.

Các nhà phản biện đã chấm điểm để xem xét liệu mỗi nhiệm vụ có phản ánh đúng các phẩm chất cần thiết của một câu hỏi chuẩn hóa chất lượng hay không: độ tương thích với các công việc nghiên cứu thực tế, khả năng kiểm tra phù hợp tư duy lập luận khoa học và chuyên môn sâu trong lĩnh vực, có cơ sở dựa trên bằng chứng hoặc sự đồng thuận của chuyên gia, và tính hữu dụng tổng thể trong việc đánh giá hiệu suất của mô hình. Tỷ lệ đồng thuận đạt trên 96% ở tất cả các danh mục.

Tính thực tế

Nhiệm vụ này có phản ánh công việc khoa học sự sống thực tế không?

Rất đồng ý: 90.4%
Đồng ý tổng thể: 98.3%

Suy luận khoa học / kỹ năng lĩnh vực

Nhiệm vụ này có kiểm tra và chấm đúng các kỹ năng suy luận khoa học và chuyên môn trong lĩnh vực khoa học sự sống không?

Rất đồng ý: 86.4%
Đồng ý tổng thể: 98.1%

Cơ sở khoa học

Nhiệm vụ này có cơ sở khoa học, có thể trả lời và dựa trên bằng chứng, dữ liệu, hiện vật hoặc đồng thuận chuyên gia phù hợp không?

Rất đồng ý: 77.1%
Đồng ý tổng thể: 96.5%

Tính hữu dụng tổng thể

Nhìn chung, đây có phải là một nhiệm vụ đánh giá khoa học sự sống mạnh không?

Rất đồng ý: 79.1%
Đồng ý tổng thể: 96.6%

Nhận xét của người đánh giá củng cố các điểm số định lượng:

1 trong số 3

“Nhìn chung, đây là một nhiệm vụ mạnh vì có một diễn giải cốt lõi đúng, đồng thời vẫn đủ không gian để phân biệt câu trả lời tốt hơn qua mức độ cẩn trọng khi khoanh vùng bất định.”

Kết quả

Chúng tôi báo cáo hai chỉ số mang tính bổ trợ cho nhau. Tỉ lệ vượt qua là phần trăm số nhiệm vụ mà một mô hình đạt được ngưỡng thành công 70% ở cấp độ nhiệm vụ. Điểm số là phần thưởng tiêu chí đánh giá trung bình, ghi nhận điểm số một phần cho các tiêu chí riêng lẻ ngay cả khi toàn bộ nhiệm vụ không được giải quyết hoàn toàn. Cả hai chỉ số này đều quan trọng vì một phản hồi đối với một nhiệm vụ khoa học có thể chính xác hoặc hữu ích một phần mà không cần phải đáp ứng mọi yêu cầu của một câu trả lời hoàn chỉnh.

Hiệu năng mô hình thay đổi đáng kể theo loại nhiệm vụ, quy trình công việc và định dạng trả lời.

Những nơi hệ thống AI bước đầu có thế mạnh

LifeSciBench cho thấy các mô hình tuyến đầu mạnh tương đối nhất ở những nhiệm vụ liên quan đến tổng hợp khoa học, truyền thông và diễn giải có cấu trúc. Tỉ lệ vượt qua tuyệt đối vẫn còn khiêm tốn, nên các miền benchmark này còn xa mới bão hòa, nhưng GPT‑Rosalind cho thấy tiến bộ đáng kể so với GPT‑5.5, nâng tỷ lệ vượt qua chính xác tổng thể từ 25,7% lên 36,1%.

Các hướng tiến bộ mạnh nhất về năng lực mô hình xuất hiện ở Truyền thông khoa học và Chuyển dịch. Ví dụ, tỉ lệ vượt qua Truyền thông khoa học tăng từ 56,3% với GPT‑5.5 lên 71,1% với GPT‑Rosalind; hạng mục này nhỏ (n=9), nên cần diễn giải thận trọng, nhưng nó gợi ý các mô hình tuyến đầu đang cải thiện nhanh khả năng tổ chức bằng chứng và tạo giải thích thuyết phục cho chuyên gia. Chuyển dịch (quá trình phát triển thuốc "từ bàn thí nghiệm đến giường bệnh") cho thấy mô thức tương tự, tăng từ 36,8% với GPT‑5.5 lên 57,7% với GPT‑Rosalind, cho thấy các mô hình đang cải thiện nhanh khả năng liên kết bằng chứng tiền lâm sàng với hệ quả lâm sàng.

Kết quả ở cấp tiêu chí đánh giá cũng chỉ theo cùng hướng. Ở các nhiệm vụ yêu cầu đầu ra hữu ích cho chuyên gia hoặc có thể hành động, GPT‑Rosalind đạt 44,7%, so với 29,1% của GPT‑5.5. Ở các nhiệm vụ đòi hỏi xử lý bất định và lưu ý hạn chế, mô hình này đạt 44,8%, so với 29,3%. Mô thức này gợi ý mô hình hữu ích nhất khi nhiệm vụ có ranh giới bằng chứng rõ và đòi hỏi phán đoán khoa học có cấu trúc.

GPT‑Rosalind dẫn đầu hiệu năng trên các nhiệm vụ có giá trị khoa học do chuyên gia công nghiệp và học thuật xác định.

GPT‑Rosalind dẫn đầu hiệu năng trên các tác vụ có giá trị khoa học do chuyên gia ngành và học thuật xác định.

Những nơi hệ thống AI vẫn còn yếu

Hiệu năng vẫn yếu hơn nhiều ở công việc khoa học nặng về hiện vật, nặng về thiết kế và bị ràng buộc vận hành. Cụ thể, Thiết kế, Tối ưu hóa & Dự đoán vẫn là một trong những quy trình khó nhất, với tỷ lệ vượt qua của GPT‑Rosalind là 30,7%; Phân tích cũng khó tương tự, ở mức 30,3%.

Sử dụng hiện vật là một khoảng trống đặc biệt rõ. Dù GPT‑Rosalind làm tốt hơn GPT‑5.5 trong bối cảnh nặng hiện vật, tỷ lệ vượt qua của nó vẫn giảm từ 45,1% trên nhiệm vụ chỉ văn bản xuống 28,1% trên nhiệm vụ có hiện vật hoặc URL. GPT‑5.5 cho thấy cùng mô thức, giảm từ 29,9% xuống 21,9%. Phân tích chi tiết hơn xác nhận rằng các mô hình tuyến đầu gặp khó khi trích xuất thông tin từ hình phức tạp hoặc tệp trình tự lớn và tích hợp thông tin đó vào đáp án cuối.

Tỷ lệ vượt qua giảm khi nhiệm vụ đòi hỏi suy luận dựa trên nguồn hoặc làm việc với hiện vật

Định dạng câu trả lời cũng quan trọng. Các nhiệm vụ yêu cầu đầu ra ở cấp trình tự, cấu trúc hoặc cấu trúc biểu hiện chính xác có tỉ lệ vượt qua thấp hơn: GPT‑Rosalind chỉ đạt 14,8% ở nhiệm vụ số và 24,0% ở đầu ra trình tự hoặc cấu trúc. Nhiệm vụ tạo cấu trúc biểu hiện cũng dễ vỡ, GPT‑Rosalind đạt 27,3% và cải thiện rất ít so với GPT‑5.5. Một phần của khoảng cách này có thể phản ánh bề mặt chấm điểm nghiêm ngặt hơn đối với các nhiệm vụ yêu cầu câu trả lời chính xác, nơi những sai sót nhỏ trong tính toán hoặc định dạng có thể khiến một phản hồi bị rơi xuống dưới ngưỡng đạt. Tuy nhiên, những thất bại này có ý nghĩa quan trọng về mặt khoa học bởi nhiều quy trình làm việc trong khoa học sự sống đòi hỏi các đầu ra phải đủ chính xác để có thể đưa vào sử dụng trực tiếp, chẳng hạn như trong thiết kế đoạn mồi hiến (donor) cho CRISPR/HDR hoặc thiết kế siRNA.

Các mô hình cũng thường đi được một phần đường nhưng chưa giải trọn nhiệm vụ. Ở khoảng 14% nhiệm vụ, mô hình vẫn nhận được điểm rubric đáng kể dù không đạt ngưỡng vượt qua chính xác. Với GPT‑Rosalind, 109 nhiệm vụ có tỉ lệ vượt qua dưới 20% nhưng vẫn nhận ít nhất 50% phần thưởng rubric. Trong thực tế, điều này nghĩa là mô hình có thể nhận diện bằng chứng liên quan hoặc tạo một câu trả lời một phần hợp lý, nhưng vẫn thất bại vì bỏ sót một ràng buộc then chốt, dùng sai bằng chứng, tính toán chưa đầy đủ hoặc không nối suy luận với một quyết định cuối hữu ích về khoa học.

Hạn chế & bước tiếp theo

LifeSciBench là một bước tiến trong đo lường mức độ hữu ích của hệ thống AI cho nghiên cứu khoa học sự sống, nhưng không thay thế việc nghiên cứu mô hình trong môi trường nghiên cứu trực tiếp. Bộ đo chuẩn hóa tập trung vào các nhiệm vụ khép kín phản ánh những quy trình công việc lặp lại trong ngành, đồng thời vẫn để nhiều chuyên ngành khoa học và loại nhiệm vụ ngoài phạm vi hiện tại. Nghiên cứu thật có tính lặp: nhà khoa học thu thập bằng chứng mới, sửa giả thuyết, thiết kế thí nghiệm tiếp theo và điều chỉnh kế hoạch khi kết quả xuất hiện.

Vì vậy, hiệu năng mạnh trên LifeSciBench nên được hiểu là bằng chứng về năng lực ở cấp nhiệm vụ thực tế, không phải thước đo trực tiếp tác động nghiên cứu phía sau. Bộ đo chuẩn hóa dựa trên quy trình công việc của ngành, nhưng không nắm bắt toàn bộ sự đa dạng hay động lực của các chương trình nghiên cứu trực tiếp, nơi tiến bộ phụ thuộc vào những yếu tố diễn tiến theo thời gian.

Bước tiếp theo là liên kết hiệu năng benchmark với các nghiên cứu triển khai trong quy trình nghiên cứu trực tiếp. Dù LifeSciBench được phát triển cùng các nhà khoa học đang hành nghề, việc đo xem hệ thống AI có tăng tốc khám phá hoặc cải thiện kết quả R&D hay không sẽ cần nghiên cứu cách dùng và hiệu năng mô hình trong bối cảnh nghiên cứu thật, trên thời hạn dài hơn và qua nhiều vòng suy luận, phản hồi và theo dõi thí nghiệm.