Mengevaluasi kemampuan AI untuk melaksanakan tugas penelitian ilmiah
Kami memperkenalkan FrontierScience, sebuah tolok ukur baru yang mengevaluasi kemampuan AI untuk penalaran ilmiah tingkat ahli dalam bidang fisika, kimia, dan biologi.

Penalaran adalah inti dari pekerjaan ilmiah. Selain mengingat fakta, para ilmuwan membuat hipotesis, menguji dan menyempurnakannya, serta mensintesis ide-ide lintas bidang. Seiring dengan bertambahnya kemampuan model kami, pertanyaan utama adalah bagaimana mereka dapat melakukan penalaran secara mendalam untuk berkontribusi pada penelitian ilmiah.
Selama setahun terakhir, model kami telah mencapai tonggak pencapaian besar, termasuk meraih kinerja medali emas di International Math Olympiad dan International Olympiad in Informatics. Secara bersamaan, kami mulai melihat model kami yang paling mumpuni, seperti GPT‑5, secara signifikan mempercepat alur kerja ilmiah yang sesungguhnya. Para peneliti menggunakan sistem-sistem ini untuk tugas seperti pencarian literatur lintas disiplin dan bahasa serta menyelesaikan pembuktian matematika yang kompleks. Dalam banyak kasus, model memperpendek pekerjaan yang mungkin memakan waktu berhari-hari atau berminggu-minggu menjadi beberapa jam. Kemajuan ini didokumentasikan dalam makalah kami Eksperimen percepatan ilmu pengetahuan awal dengan GPT‑5, yang dirilis pada November 2025, yang menyajikan bukti awal bahwa GPT‑5 dapat mempercepat alur kerja ilmiah secara terukur.
Karena percepatan kemajuan ilmiah adalah salah satu peluang paling menjanjikan bagi AI dalam memberi manfaat bagi umat manusia, kami meningkatkan model kami pada tugas-tugas matematika dan sains yang sulit serta mengembangkan alat yang akan membantu para ilmuwan mendapatkan hasil maksimal dari alat tersebut.
Ketika GPQA(terbuka di jendela baru), tolok ukur sains “Google-Proof” dari pertanyaan yang ditulis oleh pakar bergelar PhD, dirilis pada November 2023, GPT‑4 memperoleh skor 39%, di bawah baseline pakar sebesar 70%. Dua tahun kemudian, GPT‑5.2 mencetak 92%. Seiring dengan kemampuan penalaran dan pengetahuan model yang terus berlanjut, tolok ukur yang lebih menantang akan menjadi penting untuk mengukur dan meramalkan kemampuan model dalam mempercepat penelitian ilmiah. Tolok ukur ilmiah sebelumnya sebagian besar berfokus pada pertanyaan pilihan ganda, sudah terlalu sering dipakai, atau tidak secara khusus berpusat pada sains.
Untuk menjembatani kesenjangan ini, kami memperkenalkan FrontierScience: tolok ukur baru yang dirancang untuk mengukur kemampuan ilmiah tingkat ahli. FrontierScience ditulis dan diverifikasikan oleh para ahli di bidang fisika, kimia, dan biologi, dan terdiri dari ratusan pertanyaan yang dirancang untuk menjadi sulit, orisinal, dan bermakna. FrontierScience mencakup dua jalur pertanyaan: Olimpiade, yang mengukur kemampuan penalaran ilmiah gaya Olimpiade, dan Riset, yang mengukur kemampuan penelitian ilmiah di dunia nyata. Dengan memberikan lebih banyak wawasan tentang kemampuan ilmiah model, hal ini membantu kami melacak kemajuan dan memajukan sains yang dipercepat oleh AI.
Dalam evaluasi awal kami, GPT‑5.2 adalah model dengan performa terbaik kami pada FrontierScience-Olympiad (dengan skor 77%) dan Penelitian (dengan skor 25%), mengungguli model-model frontier lainnya. Kami telah melihat kemajuan yang signifikan dalam menyelesaikan pertanyaan tingkat ahli sambil menyisakan ruang untuk lebih banyak kemajuan, terutama pada tugas-tugas penelitian yang bersifat terbuka. Bagi para ilmuwan, hal ini menunjukkan bahwa model saat ini sudah dapat memberikan dukungan pada bagian penelitian yang melibatkan penalaran terstruktur, sambil menyoroti bahwa masih banyak pekerjaan yang harus dilakukan untuk meningkatkan kemampuan mereka dalam melakukan pemikiran terbuka. Hasil ini sejalan dengan cara para ilmuwan yang telah menggunakan model-model saat ini: untuk mempercepat alur kerja penelitian sambil tetap mengandalkan penilaian manusia dalam merumuskan masalah dan memvalidasi temuan. Model juga semakin dimanfaatkan untuk menjelajahi ide dan keterkaitan yang sebelumnya membutuhkan waktu jauh lebih lama untuk ditemukan—dan dalam beberapa kasus, bahkan berkontribusi pada lahirnya wawasan baru yang kemudian dievaluasi dan diuji oleh para ahli.
Pada akhirnya, tolok ukur terpenting bagi kapabilitas ilmiah AI adalah sejauh mana AI membantu melahirkan penemuan-penemuan baru; karena itulah yang pada akhirnya benar-benar bermakna bagi kemajuan ilmu pengetahuan dan masyarakat. FrontierScience berperan di tahap awal yang mendasari pencapaian tersebut. Ini memberikan kita panduan utama untuk penalaran ilmiah tingkat ahli, memungkinkan kita menguji model pada serangkaian pertanyaan standar, melihat di mana mereka berhasil atau gagal, dan mengidentifikasi di mana kita perlu memperbaikinya. FrontierScience sempit dan memiliki keterbatasan dalam beberapa hal penting (misalnya, berfokus pada masalah yang ditulis oleh pakar yang terbatas) dan tidak mencakup semua yang dilakukan para ilmuwan dalam pekerjaan sehari-hari mereka. Namun, bidang ini membutuhkan tolok ukur sains yang lebih sulit, orisinal, dan bermakna, dan FrontierScience menyediakan langkah maju ke arah ini.
Evaluasi penuh FrontierScience mencakup lebih dari 700 pertanyaan tekstual (dengan 160 dalam set emas) yang mencakup subbidang fisika, kimia, dan biologi. Tolok ukur terdiri dari Olimpiade dan bagian Penelitian. FrontierScience-Olympiad berisi 100 pertanyaan yang dirancang oleh peraih medali olimpiade internasional untuk menilai penalaran ilmiah dalam format jawaban singkat yang dibatasi. Set Olimpiade dirancang untuk memuat pertanyaan teoretis yang setidaknya sama sulitnya dengan soal-soal pada kompetisi olimpiade internasional. FrontierScience-Research terdiri dari 60 sub-tugas penelitian asli yang dirancang oleh ilmuwan PhD (kandidat doktor, profesor, atau peneliti pascadoktoral) yang dinilai menggunakan rubrik 10 poin. Set Penelitian dirancang untuk mencakup sub-tugas mandiri yang terdiri dari beberapa langkah, dengan tingkat kesulitan yang setara dengan tantangan yang biasanya dihadapi oleh seorang ilmuwan bergelar PhD dalam kegiatan penelitiannya.
Setiap tugas di FrontierScience ditulis dan diverifikasi oleh pakar domain dalam fisika, kimia, atau biologi. Untuk set Olimpiade, semua ahli dianugerahi medali dalam setidaknya satu (dan sering kali beberapa) kompetisi olimpiade internasional. Untuk set Penelitian, semua pakar memiliki gelar PhD yang relevan.
Pertanyaan Olimpiade dibuat bekerja sama dengan 42 mantan peraih medali internasional atau pelatih Team nasional di domain terkait, dengan total 109 medali olimpiade. Pertanyaan penelitian dibuat dalam kolaborasi dengan 45 ilmuwan berkualifikasi dan pakar domain. Semua ilmuwan adalah kandidat doktor, peneliti pasca-doktoral, atau profesor. Bidang keahlian mereka mencakup berbagai disiplin ilmu yang khusus dan penting, mulai dari elektrodinamika kuantum hingga kimia organik sintetis hingga biologi evolusi.
Proses pembuatan tugas untuk kedua set termasuk beberapa seleksi terhadap model internal OpenAI (misalnya, membuang tugas yang berhasil diselesaikan oleh model, sehingga kami mengharapkan evaluasi ini agak bias terhadap model-model ini dibandingkan dengan model lainnya). Kami membuka sumber set Olimpiade tingkat emas yang terdiri dari 100 soal dan set Riset tingkat emas yang berisi 60 soal, sementara soal-soal lainnya kami simpan untuk memantau potensi kontaminasi.

Tugas melalui empat tahap: Pembuatan, Tinjauan, Resolusi, Revisi. Para ahli independen meninjau tugas satu sama lain untuk verifikasikan bahwa tugas tersebut sesuai dengan kriteria.
Set Olimpiade dapat dinilai dengan jawaban singkat: baik dengan angka, ekspresi, atau kecocokan string samar, yang membantu dalam verifikasikan kebenaran. Namun, verifikasi ini sering kali mengorbankan daya ekspresi dan sifat terbuka dari masalah tersebut. Untuk set Riset, kami memperkenalkan arsitektur berbasis rubrik untuk menilai tugas-tugas yang lebih terbuka. Setiap pertanyaan mencakup rubrik penilaian dengan beberapa item yang dapat dinilai secara independen dan objektif, dengan total 10 poin. Rubrik penilaian menilai tidak hanya ketepatan jawaban akhir, tetapi juga kebenaran langkah-langkah penalaran di antaranya, yang memungkinkan analisis kinerja model dan kegagalan yang lebih mendalam. Sebuah solusi dianggap “benar” jika diberikan setidaknya 7/10 poin rubrik.
Respons dievaluasi oleh penilai berbasis model (GPT‑5) berdasarkan jawaban singkat atau kriteria rubrik. Meskipun idealnya kami akan menggunakan ahli manusia untuk menilai setiap respons, pendekatan ini tidak dapat diskalakan, jadi kami merancang rubrik yang dapat diperiksa menggunakan penilai berbasis model. Kami mengembangkan jalur verifikasi untuk membantu memastikan bahwa rubrik dan pertanyaan dikalibrasi dengan baik terhadap tingkat kesulitan dan ketepatan.
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
Gagal 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
Lulus 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
Lulus 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
Lulus 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
Gagal 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
Setiap tugas dalam set penelitian dinilai menggunakan rubrik dengan total 10 poin yang dapat digunakan oleh seorang ahli atau penilai model. Untuk meningkatkan kemampuan kami dalam mengevaluasi model, kami menggunakan model lain untuk menilai tanggapan.
Kami mengevaluasi beberapa model terdepan: GPT‑5.2, Claude Opus 4.5, dan Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, dan OpenAI o3 pada FrontierScience-Olympiad dan FrontierScience-Research. Semua model penalaran dievaluasi pada tingkat "usaha penalaran" yang tinggi kecuali GPT‑5.2 pada "xhigh". Dalam evaluasi awal kami, GPT‑5.2 adalah model dengan performa terbaik kami pada FrontierScience-Olympiad (dengan skor 77%) dan Research (dengan skor 25%), mengungguli model-model frontier lainnya. Gemini 3 Pro sebanding dengan GPT‑5.2 pada set Olympiad (dengan skor 76%).
Kami telah melihat kemajuan yang signifikan dalam menyelesaikan pertanyaan tingkat ahli, terutama pada tugas-tugas bergaya penelitian terbuka. Masih ada ruang untuk berkembang: dari menganalisis transkrip untuk kegagalan, model terdepan terkadang membuat kesalahan dalam penalaran, logika, dan perhitungan, tidak memahami konsep ilmiah yang spesifik, dan membuat ketidakakuratan faktual.
Kami membandingkan keakuratan beberapa model frontier. GPT‑5.2 adalah model kami dengan performa tertinggi pada FrontierScience-Research dan set Olympiad.
Kami membandingkan akurasi di berbagai upaya penalaran untuk GPT‑5.2 dan o3. Waktu berpikir yang lebih lama mengarah pada peningkatan ketepatan.
Meskipun FrontierScience merupakan langkah maju dalam meningkatkan tingkat kesulitan tolok ukur ilmiah, masih terdapat banyak keterbatasan. FrontierScience terdiri dari pertanyaan dengan pernyataan masalah yang terbatas, yang berfokus pada evaluasi jawaban akhir (Olimpiade) atau evaluasi penalaran untuk menyelesaikan tugas penelitian (Penelitian). Selain itu, penggunaan rubrik dengan beberapa komponen pada tugas yang lebih panjang kurang objektif dibandingkan dengan memeriksa jawaban akhir.
FrontierScience menawarkan snapshot dengan resolusi lebih tinggi dari penalaran model pada pertanyaan sulit yang ditulis oleh para ahli, tetapi bukan gambaran lengkap tentang bagaimana sains dilakukan dalam praktik. Secara khusus, tolok ukur ini belum menilai bagian penting dari penelitian ilmiah, yaitu bagaimana model menghasilkan hipotesis yang benar-benar baru, maupun bagaimana model berinteraksi dengan berbagai modalitas, termasuk data video dan sistem eksperimen nyata di dunia fisik.
Melihat ke depan, kami mengharapkan kemajuan dalam penalaran ilmiah berasal dari sistem penalaran serba guna yang lebih baik dan upaya terfokus pada peningkatan kemampuan ilmiah. FrontierScience adalah salah satu alat di antara banyak lainnya, dan seiring dengan peningkatan model, kami berencana untuk mengiterasi tolok ukur ini, memperluasnya ke domain baru, dan memasangkannya dengan lebih banyak evaluasi dunia nyata yang melihat apa yang sebenarnya diaktifkan oleh sistem ini untuk para ilmuwan. Tolok ukur seperti FrontierScience membantu kita memahami kelemahan sistem AI saat ini untuk memfokuskan pekerjaan kita pada menjadikan model mitra yang andal dalam penemuan ilmiah.


