16 tháng 12, 2025

Đánh giá khả năng của AI trong thực hiện các nhiệm vụ nghiên cứu khoa học

Xin được giới thiệu FrontierScience, một tiêu chuẩn mới để đánh giá khả năng suy luận khoa học của AI ở cấp độ chuyên gia trong các lĩnh vực vật lý, hóa học và sinh học.

Đọc bài viết

Hình ảnh một phần với nền chuyển màu xanh lá cây và vàng nhạt, một từ lớn bị cắt bắt đầu bằng “Fro…,” và các khối văn bản xếp lớp bên phải liệt kê các tiêu chí đánh giá như “Xác thực,” “Có thể chấm điểm,” “Khách quan,” và “Khó.”

Đang tải…

Suy luận là cốt lõi của nghiên cứu khoa học. Ngoài ghi nhớ các sự kiện, nhà khoa học xây dựng giả thuyết, kiểm tra và tinh chỉnh, đồng thời tổng hợp ý tưởng từ nhiều lĩnh vực. Khi các mô hình chúng tôi ngày càng ưu việt, vấn đề cốt lõi là làm thế nào chúng có thể suy luận chuyên sâu để đóng góp vào nghiên cứu khoa học.

Trong năm qua, các mô hình của chúng tôi đã đạt được những cột mốc quan trọng, bao gồm việc đạt được thành tích huy chương vàng tại Olympic Toán Quốc tế và Olympic Tin học Quốc tế. Song song đó, chúng tôi đang bắt đầu chứng kiến các mô hình ưu việt nhất của mình, như GPT‑5, thúc đẩy đáng kể các quy trình khoa học thực sự. Các nhà nghiên cứu đang sử dụng các hệ thống này cho nhiệm vụ như tìm kiếm tài liệu qua các ngành và ngôn ngữ và giải quyết các chứng minh toán học phức tạp. Trong nhiều trường hợp, mô hình này giúp rút ngắn công việc có thể đã mất nhiều ngày hoặc tuần thành chỉ vài giờ. Tiến trình này được ghi lại trong bài báo của chúng tôi Các thí nghiệm tăng tốc khoa học sớm với GPT‑5⁠, phát hành vào tháng 11 năm 2025, trình bày bằng chứng ban đầu rằng GPT‑5 có thể tăng tốc đáng kể các quy trình khoa học.

Giới thiệu về FrontierScience

Vì việc đẩy nhanh tiến bộ khoa học là một trong những cơ hội hứa hẹn nhất để AI mang lại lợi ích cho nhân loại, chúng tôi đang cải thiện các mô hình của mình trong các nhiệm vụ toán học và khoa học khó khăn và phát triển các công cụ sẽ giúp các nhà khoa học tận dụng tối đa chúng.

Khi GPQA⁠(mở trong cửa sổ mới), một tiêu chuẩn khoa học “không thể tra cứu trên Google” với các câu hỏi được viết bởi các chuyên gia có bằng Tiến sĩ, được phát hành vào tháng 11 năm 2023, GPT‑4 đạt 39%, thấp hơn mức cơ bản của chuyên gia là 70%. Hai năm sau, GPT‑5.2 đạt 92%. Khi khả năng suy luận và kiến thức của các mô hình tiếp tục mở rộng, các tiêu chuẩn đánh giá khó hơn sẽ trở nên quan trọng để đo lường và dự báo khả năng của các mô hình trong việc thúc đẩy nghiên cứu khoa học. Các tiêu chuẩn khoa học trước đây chủ yếu tập trung vào các câu hỏi trắc nghiệm, đã bão hòa hoặc không tập trung chủ yếu vào khoa học.

Để thu hẹp khoảng cách này, chúng tôi xin giới thiệu FrontierScience: một tiêu chuẩn mới được xây dựng để đo lường năng lực khoa học ở cấp độ chuyên gia. FrontierScience được viết và xác minh bởi các chuyên gia trong các lĩnh vực vật lý, hóa học và sinh học, và bao gồm hàng trăm câu hỏi được thiết kế để khó, độc đáo và có ý nghĩa. FrontierScience bao gồm hai loại câu hỏi: Olympiad, đo lường khả năng suy luận khoa học theo phong cách Olympiad, và Research, đo lường khả năng nghiên cứu khoa học thực tế. Cung cấp thêm thông tin chi tiết về khả năng khoa học của các mô hình giúp chúng ta theo dõi tiến bộ và thúc đẩy khoa học được tăng tốc bởi AI.

Trong các đánh giá ban đầu của chúng tôi, GPT‑5.2 là mô hình có hiệu suất hàng đầu trên FrontierScience-Olympiad (đạt 77%) và Nghiên cứu (đạt 25%), vượt trội hơn các mô hình tiên phong khác. Chúng tôi đã thấy tiến bộ đáng kể trong việc giải quyết các câu hỏi ở cấp độ chuyên gia, đồng thời vẫn để lại không gian cho nhiều tiến bộ hơn nữa, đặc biệt là trong các nhiệm vụ nghiên cứu mở. Đối với các nhà khoa học, điều này cho thấy rằng các mô hình hiện tại đã có thể hỗ trợ một phần nghiên cứu liên quan đến suy luận có cấu trúc, đồng thời nhấn mạnh rằng vẫn còn nhiều công việc cần làm để cải thiện khả năng thực hiện tư duy mở của chúng. Những kết quả này phù hợp với cách các nhà khoa học hiện đang sử dụng các mô hình ngày nay: để tăng tốc quy trình nghiên cứu trong khi dựa vào phán đoán của con người để định hình và xác nhận vấn đề, và ngày càng nhiều để khám phá các ý tưởng và kết nối mà nếu không sẽ mất nhiều thời gian hơn để phát hiện—bao gồm, trong một số trường hợp, đóng góp những hiểu biết mới mà các chuyên gia sau đó đánh giá và kiểm tra.

Cuối cùng, tiêu chuẩn quan trọng nhất cho khả năng khoa học của AI là những khám phá mới mà nó giúp tạo ra; đó là những điều cuối cùng quan trọng đối với khoa học và xã hội. FrontierScience nằm ở vị trí thượng nguồn cho tiến trình đó. Nó cung cấp cho chúng ta một định hướng rõ ràng cho suy luận khoa học ở cấp độ chuyên gia, cho phép kiểm tra các mô hình dựa trên một bộ câu hỏi tiêu chuẩn hóa, xem chúng thành công hay thất bại ở đâu, và xác định nơi chúng ta cần cải thiện. FrontierScience có phạm vi hẹp và có những hạn chế ở một số khía cạnh quan trọng (ví dụ, tập trung vào các vấn đề bị giới hạn và do chuyên gia viết ra) và không thể nắm bắt được tất cả những gì các nhà khoa học thực hiện trong công việc hàng ngày của họ. Tuy nhiên, lĩnh vực này cần các tiêu chuẩn khoa học khó khăn hơn, độc đáo hơn và có ý nghĩa hơn, và FrontierScience cung cấp một bước tiến trong hướng này.

FrontierScience đo lường những gì và cách thức chúng tôi đã xây dựng mô hình này

Bài đánh giá đầy đủ của FrontierScience bao gồm hơn 700 câu hỏi văn bản (với 160 câu trong bộ vàng) bao quát các lĩnh vực phụ trong vật lý, hóa học và sinh học. Bộ tiêu chuẩn đánh giá này bao gồm một phần thi Olympiad và một phần Nghiên cứu. FrontierScience-Olympiad bao gồm 100 câu hỏi được thiết kế bởi những người đoạt huy chương Olympic quốc tế để đánh giá khả năng suy luận khoa học trong một định dạng câu trả lời ngắn gọn và có giới hạn. Bộ đề Olympiad được thiết kế để chứa các câu hỏi lý thuyết ít nhất cũng khó như các bài toán tại các kỳ thi Olympiad quốc tế. FrontierScience-Research bao gồm 60 nhiệm vụ nghiên cứu gốc được thiết kế bởi các nhà khoa học có bằng tiến sĩ (nghiên cứu sinh, giáo sư hoặc nhà nghiên cứu sau tiến sĩ) và được chấm điểm theo thang điểm 10. Bộ Nghiên cứu được tạo ra để bao gồm các nhiệm vụ phụ tự hoàn chỉnh, nhiều bước với mức độ khó mà một nhà khoa học có bằng Tiến sĩ có thể gặp phải trong quá trình nghiên cứu của mình.

Câu hỏi mẫu

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Mỗi nhiệm vụ trong FrontierScience được viết và xác minh bởi một chuyên gia trong lĩnh vực vật lý, hóa học hoặc sinh học. Đối với bộ đề thi Olympic, tất cả các chuyên gia đều được trao huy chương trong ít nhất một (và thường là nhiều) cuộc thi Olympic quốc tế. Đối với bộ nghiên cứu, tất cả các chuyên gia đều có bằng Tiến sĩ phù hợp.

Các câu hỏi của kỳ thi Olympic được biên soạn dưới sự hợp tác của 42 người từng đoạt huy chương quốc tế hoặc huấn luyện viên đội thi quốc gia trong các lĩnh vực liên quan, tổng cộng có 109 người đoạt huy chương Olympic. Các câu hỏi nghiên cứu được biên soạn dưới hợp tác của 45 nhà khoa học và chuyên gia lĩnh vực có trình độ. Tất cả các nhà khoa học đều là nghiên cứu sinh tiến sĩ, nhà nghiên cứu sau tiến sĩ, hoặc giáo sư. Các lĩnh vực chuyên môn của họ bao gồm một loạt các ngành khoa học chuyên biệt và quan trọng, từ điện động lực học lượng tử đến hóa học hữu cơ tổng hợp đến sinh học tiến hóa.

Quá trình tạo nhiệm vụ cho cả hai bộ câu hỏi bao gồm một số lựa chọn đối với các mô hình nội bộ của OpenAI (ví dụ: loại bỏ các nhiệm vụ mà mô hình đã thực hiện đúng, do đó chúng tôi kỳ vọng việc đánh giá sẽ có phần thiên lệch đối với các mô hình này so với các mô hình khác). Chúng tôi công khai mã nguồn bộ câu hỏi vàng Olympiad gồm 100 câu hỏi và bộ câu hỏi vàng Nghiên cứu gồm 60 câu hỏi, giữ lại các câu hỏi khác để theo dõi hiện tượng ô nhiễm dữ liệu.

Lưu đồ hiển thị bốn giai đoạn của quy trình phát triển nhiệm vụ—Tạo, Xem xét, Giải quyết và Sửa đổi—với mô tả ngắn gọn về từng bước và các dấu kiểm cho các tiêu chí xác thực, có thể chấm điểm, khách quan và khó.

Các nhiệm vụ trải qua bốn giai đoạn: Tạo, Xem xét, Giải quyết, Chỉnh sửa. Các chuyên gia độc lập đánh giá nhiệm vụ của nhau để xác minh rằng chúng phù hợp với các tiêu chí.

Cách chúng tôi đánh giá hiệu suất của mô hình

Bộ đề thi Olympic có thể được chấm điểm với câu trả lời ngắn: có thể là một con số, biểu thức, hoặc so khớp chuỗi ký tự mờ, điều này giúp xác minh tính chính xác. Tuy nhiên, việc xác minh này thường đánh đổi với tính biểu đạt và tính mở của vấn đề. Đối với bộ Nghiên cứu, chúng tôi giới thiệu một kiến trúc dựa trên tiêu chí chấm điểm để đánh giá các nhiệm vụ mở rộng hơn. Mỗi câu hỏi bao gồm một khung chấm điểm với nhiều mục độc lập và có thể được đánh giá một cách khách quan, tổng cộng có 10 điểm. Khung chấm điểm không chỉ đánh giá độ chính xác của câu trả lời cuối cùng mà còn đánh giá sự đúng đắn của các bước suy luận trung gian, cho phép phân tích chi tiết về hiệu suất và thất bại của mô hình. Một giải pháp được coi là "đúng" nếu nó được chấm ít nhất 7/10 điểm theo bảng chấm điểm.

Các phản hồi được đánh giá bởi một trình chấm điểm dựa trên mô hình (GPT‑5) theo tiêu chí câu trả lời ngắn hoặc tiêu chí chấm điểm. Mặc dù lý tưởng nhất là chúng tôi sẽ sử dụng một chuyên gia để chấm điểm từng phản hồi, nhưng cách tiếp cận này không thể mở rộng, vì vậy chúng tôi đã thiết kế bảng tiêu chí để có thể được kiểm tra bằng một trình chấm điểm mô hình. Chúng tôi đã phát triển một quy trình xác minh để giúp đảm bảo các bảng tiêu chí và câu hỏi được hiệu chỉnh tốt về độ khó và độ chính xác.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Mỗi nhiệm vụ trong bộ nghiên cứu được chấm điểm theo một khung tiêu chí tổng cộng 10 điểm, có thể được sử dụng bởi một chuyên gia hoặc một mô hình chấm điểm. Để mở rộng khả năng đánh giá các mô hình của chúng tôi, chúng tôi sử dụng một mô hình khác để chấm điểm các phản hồi.

Hiệu suất của mô hình

Chúng tôi đã đánh giá một số mô hình tiên tiến: GPT‑5.2, Claude Opus 4.5, và Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, và OpenAI o3 trên FrontierScience-Olympiad và FrontierScience-Research. Tất cả các mô hình suy luận đều được đánh giá ở mức độ nỗ lực suy luận "cao" ngoại trừ GPT‑5.2 ở mức "xsiêu cao". Trong các đánh giá ban đầu của chúng tôi, GPT‑5.2 là mô hình hoạt động tốt nhất trên FrontierScience-Olympiad (đạt 77%) và Nghiên cứu (đạt 25%), vượt trội hơn các mô hình tiên phong khác. Gemini 3 Pro có thể so sánh với GPT‑5.2 trên bộ Olympiad (đạt 76%).

Chúng tôi đã thấy tiến bộ đáng kể trong việc giải quyết các câu hỏi cấp độ chuyên gia, đặc biệt là trong các nhiệm vụ nghiên cứu mở. Vẫn còn nhiều cơ hội để phát triển: từ việc phân tích các bản ghi về các thất bại, các mô hình tiên tiến đôi khi mắc lỗi suy luận, logic và tính toán, không hiểu các khái niệm khoa học chuyên biệt và mắc phải các sai sót về dữ kiện.

Chúng tôi so sánh độ chính xác của các mô hình tiên phong khác nhau. GPT‑5.2 là mô hình có hiệu suất cao nhất của chúng tôi trên bộ FrontierScience-Research và Olympiad.

Chúng tôi so sánh độ chính xác giữa các nỗ lực suy luận của GPT‑5.2 và o3. Thời gian suy nghĩ càng lâu, độ chính xác càng được cải thiện.

Hạn chế và kế hoạch tiếp theo

Mặc dù FrontierScience đại diện cho một bước tiến trong độ khó của các tiêu chuẩn khoa học, vẫn còn nhiều hạn chế. FrontierScience bao gồm các câu hỏi với tuyên bố vấn đề bị giới hạn, tập trung vào việc đánh giá câu trả lời cuối cùng (Olympiad) hoặc đánh giá suy luận để hoàn thành một nhiệm vụ nghiên cứu (Nghiên cứu). Ngoài ra, việc sử dụng bảng chấm điểm với nhiều thành phần cho các nhiệm vụ dài hơn ít khách quan hơn so với việc kiểm tra câu trả lời cuối cùng.

FrontierScience cung cấp một ảnh chụp nhanh với độ phân giải cao hơn về suy luận của các mô hình đối với các câu hỏi khó do chuyên gia viết, nhưng không phải là một bức tranh đầy đủ về cách khoa học được thực hiện trong thực tế. Đặc biệt, nó không đánh giá một phần quan trọng của nghiên cứu khoa học: cách các mô hình tạo ra các giả thuyết mới thực sự, hoặc tương tác với nhiều phương thức khác nhau, bao gồm dữ liệu video và các hệ thống thực nghiệm thực tế trong thế giới vật lý.

Nhìn về tương lai, chúng tôi kỳ vọng tiến bộ trong suy luận khoa học sẽ đến từ cả hệ thống suy luận đa năng tốt hơn và nỗ lực tập trung vào việc cải thiện năng lực khoa học. FrontierScience là một công cụ trong số nhiều công cụ khác, và khi các mô hình được cải thiện, chúng tôi có kế hoạch lặp lại trên tiêu chuẩn đánh giá này, mở rộng nó sang các lĩnh vực mới, và kết hợp nó với nhiều đánh giá thực tế hơn để xem các hệ thống này thực sự cho phép các nhà khoa học làm gì. Các tiêu chuẩn như FrontierScience giúp chúng ta hiểu rõ những điểm yếu của các hệ thống AI hiện nay để tập trung công việc vào việc làm cho các mô hình trở thành đối tác đáng tin cậy trong khám phá khoa học.

Tác giả

OpenAI

Hãy tiếp tục xem

Xem tất cả

GPT-Red: Mở khóa tự cải thiện để tăng độ vững chắc

An toàn15 thg 7, 2026

"Tách biệt tín hiệu khỏi nhiễu trong các bài đánh giá lập trình

Nghiên cứu8 thg 7, 2026

Giới thiệu GeneBench-Pro

Nghiên cứu30 thg 6, 2026