16 დეკემბერი, 2025

AI-ის სამეცნიერო კვლევითი ამოცანების შესრულების უნარის შეფასება

წარმოგიდგენთ FrontierScience-ს, ახალ ბენჩმარკს, რომელიც აფასებს AI-ის შესაძლებლობებს ექსპერტის დონის სამეცნიერო მსჯელობაში ფიზიკის, ქიმიისა და ბიოლოგიის მასშტაბით.

ნაშრომის წაკითხვა

ნაწილობრივი გრაფიკა რბილი მწვანე-ყვითელი გრადიენტული ფონით, დიდი ამოჭრილი სიტყვით, რომელიც იწყება “Fro…”-ით, და მარჯვნივ ტექსტის ფენებად დალაგებული ბლოკებით, სადაც ჩამოთვლილია მიმოხილვის კრიტერიუმები, როგორიცაა “Factual,” “Gradable,” “Objective,” და “Difficult.”

იტვირთება…

მსჯელობა სამეცნიერო მუშაობის ბირთვშია. ფაქტების გახსენების მიღმა, მეცნიერები აყალიბებენ ჰიპოთეზებს, ამოწმებენ და აზუსტებენ მათ და სინთეზურად აერთიანებენ იდეებს სხვადასხვა დარგიდან. რაც უფრო ქმედითი ხდება ჩვენი მოდელები, ცენტრალური კითხვა ის არის, რამდენად შეუძლიათ მათ ღრმა მსჯელობა, რათა წვლილი შეიტანონ სამეცნიერო კვლევაში.

ბოლო ერთი წლის განმავლობაში ჩვენმა მოდელებმა მნიშვნელოვან ეტაპებს მიაღწიეს, მათ შორის მოიპოვეს ოქროს მედლის დონის შედეგი მათემატიკის საერთაშორისო ოლიმპიადასა და ინფორმატიკის საერთაშორისო ოლიმპიადაზე. პარალელურად, უკვე ვხედავთ, რომ ჩვენი ყველაზე ქმედითი მოდელები, როგორიცაა GPT‑5, მნიშვნელოვნად აჩქარებენ რეალურ სამეცნიერო სამუშაო პროცესებს. მკვლევრები ამ სისტემებს იყენებენ ისეთი ამოცანებისთვის, როგორიცაა ლიტერატურის ძიება სხვადასხვა დისციპლინასა და ენაში და რთულ მათემატიკურ მტკიცებულებებზე მუშაობა. ბევრ შემთხვევაში, მოდელი დღეებს ან კვირებს საჭირო სამუშაოს საათებამდე ამცირებს. ეს პროგრესი აღწერილია ჩვენს ნაშრომში სამეცნიერო დაჩქარების ადრეული ექსპერიმენტები GPT‑5‑ით⁠, რომელიც 2025 წლის ნოემბერში გამოქვეყნდა და ადრეულ მტკიცებულებას წარმოადგენს იმისა, რომ GPT‑5‑ს შეუძლია სამეცნიერო სამუშაო პროცესების გაზომვადი დაჩქარება.

FrontierScience-ის გაცნობა

ვინაიდან სამეცნიერო პროგრესის დაჩქარება AI-ისთვის ერთ-ერთი ყველაზე პერსპექტიული შესაძლებლობაა, რომ კაცობრიობას სარგებელი მოუტანოს, ჩვენ ვაუმჯობესებთ ჩვენს მოდელებს რთულ მათემატიკურ და სამეცნიერო ამოცანებზე და ვმუშაობთ ინსტრუმენტებზე, რომლებიც მეცნიერებს დაეხმარება მათგან მაქსიმალური სარგებლის მიღებაში.

როდესაც GPQA⁠(იხსნება ახალ ფანჯარაში), PhD ექსპერტების მიერ დაწერილი კითხვების „Google-Proof“ სამეცნიერო ბენჩმარკი, 2023 წლის ნოემბერში გამოქვეყნდა, GPT‑4‑მა 39% მიიღო, რაც ექსპერტთა საბაზისო 70%-ზე დაბალი იყო. ორი წლის შემდეგ, GPT‑5.2‑მა 92% მიიღო. რადგან მოდელების მსჯელობისა და ცოდნის შესაძლებლობები ზრდას განაგრძობს, უფრო რთული ბენჩმარკები მნიშვნელოვანი იქნება, რათა გავზომოთ და ვიწინასწარმეტყველოთ მოდელების უნარი სამეცნიერო კვლევის დასაჩქარებლად. წინა სამეცნიერო ბენჩმარკები ძირითადად მრავალვარიანტიან კითხვებზეა ორიენტირებული, გაჯერებულია ან მეცნიერებაზე ცენტრალურად ფოკუსირებული არ არის.

ამ ხარვეზის შესავსებად წარმოგიდგენთ FrontierScience-ს: ახალ ბენჩმარკს, რომელიც შექმნილია ექსპერტის დონის სამეცნიერო შესაძლებლობების გასაზომად. FrontierScience დაწერილი და გადამოწმებულია ფიზიკის, ქიმიისა და ბიოლოგიის ექსპერტების მიერ და შედგება ასობით კითხვისგან, რომლებიც შექმნილია როგორც რთული, ორიგინალური და შინაარსიანი. FrontierScience მოიცავს კითხვების ორ მიმართულებას: Olympiad, რომელიც ზომავს ოლიმპიადის სტილის სამეცნიერო მსჯელობის შესაძლებლობებს, და Research, რომელიც ზომავს რეალურ სამყაროში სამეცნიერო კვლევის უნარებს. მოდელების სამეცნიერო შესაძლებლობების უკეთ გაგება გვეხმარება პროგრესის კვალდაკვალებასა და AI-ით დაჩქარებული მეცნიერების წინსვლაში.

ჩვენს საწყის შეფასებებში GPT‑5.2 ჩვენი ყველაზე შედეგიანი მოდელია FrontierScience-Olympiad-ზე (77%) და Research-ზე (25%), სხვა მოწინავე მოდელებზე წინ. ვხედავთ მნიშვნელოვან პროგრესს ექსპერტის დონის კითხვების გადაჭრაში, მაშინ როცა შემდგომი პროგრესისთვის სივრცე ჯერ კიდევ რჩება, განსაკუთრებით ღია კვლევითი სტილის ამოცანებზე. მეცნიერებისთვის ეს მიანიშნებს, რომ მიმდინარე მოდელებს უკვე შეუძლიათ მხარი დაუჭირონ კვლევის იმ ნაწილებს, რომლებიც სტრუქტურირებულ მსჯელობას მოიცავს, თუმცა ასევე უსვამს ხაზს იმას, რომ ჯერ კიდევ დიდი სამუშაოა საჭირო მათი ღია ტიპის აზროვნების გასაუმჯობესებლად. ეს შედეგები შეესაბამება იმას, თუ როგორ იყენებენ მეცნიერები უკვე დღევანდელ მოდელებს: კვლევითი პროცესების დასაჩქარებლად, ადამიანურ განსჯასა და ვალიდაციაზე დაყრდნობით პრობლემის ფორმულირებისა და გადამოწმებისთვის, და სულ უფრო მეტად ისეთი იდეებისა და კავშირების გამოსაკვლევად, რომელთა აღმოჩენას სხვაგვარად ბევრად მეტი დრო დასჭირდებოდა — მათ შორის, ზოგ შემთხვევაში, ახალი ხედვების შეტანითაც, რომლებსაც შემდეგ ექსპერტები აფასებენ და ამოწმებენ.

საბოლოოდ, AI-ის სამეცნიერო შესაძლებლობების ყველაზე მნიშვნელოვანი ბენჩმარკი ის ახალი აღმოჩენებია, რომელთა გენერირებაშიც ის გვეხმარება; სწორედ ეს არის მნიშვნელოვანი მეცნიერებისა და საზოგადოებისათვის. FrontierScience ამას წინ უსწრებს. ის გვაძლევს ორიენტირს ექსპერტის დონის სამეცნიერო მსჯელობისთვის, რაც გვაძლევს საშუალებას სტანდარტიზებული კითხვების ნაკრებზე გამოვცადოთ მოდელები, დავინახოთ, სად წარმატდებიან ან მარცხდებიან ისინი, და დავადგინოთ, სად გვჭირდება მათი გაუმჯობესება. FrontierScience ვიწროა და მნიშვნელოვან ასპექტებში შეზღუდვები აქვს (მაგალითად, ფოკუსირება შეზღუდულ, ექსპერტების მიერ დაწერილ ამოცანებზე) და ვერ მოიცავს ყველაფერს, რასაც მეცნიერები ყოველდღიურ სამუშაოში აკეთებენ. თუმცა ამ სფეროს უფრო რთული, ორიგინალური და შინაარსიანი სამეცნიერო ბენჩმარკები სჭირდება, და FrontierScience ამ მიმართულებით წინ გადადგმული ნაბიჯია.

რას ზომავს FrontierScience და როგორ შევქმენით ის

FrontierScience-ის სრული შეფასება მოიცავს 700-ზე მეტ ტექსტურ კითხვას (მათგან 160 gold ნაკრებშია), რომლებიც ფარავს ფიზიკის, ქიმიისა და ბიოლოგიის ქვეველებს. ბენჩმარკი შედგება Olympiad და Research დაყოფებისგან. FrontierScience-Olympiad შეიცავს 100 კითხვას, რომლებიც საერთაშორისო ოლიმპიადების მედალოსნების მიერაა შექმნილი, რათა შეაფასოს სამეცნიერო მსჯელობა შეზღუდულ, მოკლე პასუხის ფორმატში. Olympiad ნაკრები შეიქმნა ისე, რომ მასში ყოფილიყო თეორიული კითხვები, სულ მცირე ისეთივე სირთულის, როგორიც საერთაშორისო ოლიმპიადების ამოცანებშია. FrontierScience-Research შედგება 60 ორიგინალური კვლევითი ქვეამოცანისგან, რომლებიც PhD მეცნიერებმა (დოქტორანტებმა, პროფესორებმა ან პოსტდოქტორანტებმა) შექმნეს და 10-ქულიანი რუბრიკით ფასდება. Research ნაკრები შეიქმნა ისე, რომ მოეცვა დამოუკიდებელი, მრავალსაფეხურიანი ქვეამოცანები იმ სირთულის დონეზე, რომელსაც PhD მეცნიერი კვლევის დროს შეიძლება შეხვდეს.

სანიმუშო კითხვები

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

FrontierScience-ის თითოეული ამოცანა დაწერილი და გადამოწმებულია ფიზიკის, ქიმიის ან ბიოლოგიის დარგის ექსპერტის მიერ. ოლიმპიადის ნაკრებისთვის ყველა ექსპერტს მიღებული აქვს მედალი სულ მცირე ერთ (და ხშირად რამდენიმე) საერთაშორისო ოლიმპიადაში. კვლევითი ნაკრებისთვის ყველა ექსპერტს შესაბამისი PhD ხარისხი აქვს.

Olympiad კითხვები შეიქმნა შესაბამის დარგებში 42 ყოფილ საერთაშორისო მედალოსანთან ან ეროვნული გუნდის მწვრთნელთან თანამშრომლობით, ჯამში 109 ოლიმპიური მედლით. კვლევითი კითხვები შეიქმნა 45 კვალიფიციურ მეცნიერსა და დარგის ექსპერტთან თანამშრომლობით. ყველა მეცნიერი იყო ან დოქტორანტი, ან პოსტდოქტორანტი მკვლევარი, ან პროფესორი. მათი ექსპერტიზის სფეროები მოიცავდა მრავალ სპეციალიზებულ და მნიშვნელოვან სამეცნიერო დისციპლინას, კვანტური ელექტროდინამიკიდან სინთეზურ ორგანულ ქიმიამდე და ევოლუციურ ბიოლოგიამდე.

ორივე ნაკრებისთვის ამოცანების შექმნის პროცესი მოიცავდა OpenAI-ის შიდა მოდელებთან გარკვეულ შერჩევას (მაგ., იმ ამოცანების გამორიცხვას, რომლებსაც მოდელები წარმატებით პასუხობდნენ, ამიტომ ველით, რომ შეფასება ამ მოდელების მიმართ სხვებთან შედარებით გარკვეულწილად მიკერძოებული იქნება). ჩვენ ღია კოდით ვაქვეყნებთ Olympiad-ის 100-კითხვიან gold ნაკრებს და Research-ის 60-კითხვიან gold ნაკრებს, ხოლო დანარჩენ კითხვებს ვიტოვებთ კონტამინაციის თვალთვალისთვის.

ნაკადის სქემა, რომელიც აჩვენებს ამოცანის შემუშავების პროცესის ოთხ ეტაპს — შექმნა, მიმოხილვა, გადაწყვეტა და გადახედვა — თითოეული ნაბიჯის მოკლე აღწერებით და ნიშნულებით კრიტერიუმებისთვის: ფაქტობრივი, შეფასებადი, ობიექტური და რთული.

ამოცანები ოთხ ეტაპს გადის: შექმნა, მიმოხილვა, გადაწყვეტა, გადახედვა. დამოუკიდებელი ექსპერტები ერთმანეთის ამოცანებს ამოწმებენ, რათა დაადასტურონ, რომ ის კრიტერიუმებს შეესაბამება.

როგორ ვაფასებთ მოდელის შედეგიანობას

Olympiad ნაკრები ფასდება მოკლე პასუხით: ან რიცხვით, გამოსახულებით, ან მიახლოებითი სტრიქონის დამთხვევით, რაც სისწორის გადამოწმებას ამარტივებს. თუმცა ეს გადამოწმება ხშირად კომპრომისზე მიდის ამოცანის ექსპრესიულობასა და ღიაობასთან. Research ნაკრებისთვის ვნერგავთ რუბრიკაზე დაფუძნებულ არქიტექტურას უფრო ღია ტიპის ამოცანების შესაფასებლად. თითოეული კითხვა მოიცავს შეფასების რუბრიკას მრავალი დამოუკიდებელი და ობიექტურად შესაფასებელი პუნქტით, ჯამში 10 ქულაზე. შეფასების რუბრიკა აფასებს არა მხოლოდ საბოლოო პასუხის სიზუსტეს, არამედ შუალედური მსჯელობის ნაბიჯების სისწორესაც, რაც შესაძლებელს ხდის მოდელის მუშაობისა და წარუმატებლობის ნიუანსურ ანალიზს. გადაწყვეტა „სწორად“ ითვლება, თუ მას მინიჭებული აქვს სულ მცირე 7/10 რუბრიკის ქულა.

პასუხები ფასდება მოდელზე დაფუძნებული შემფასებლის (GPT‑5) მიერ, ან მოკლე პასუხთან, ან რუბრიკის კრიტერიუმებთან მიმართებით. იდეალურ შემთხვევაში თითოეულ პასუხს ექსპერტი ადამიანი შეაფასებდა, მაგრამ ეს მიდგომა მასშტაბირებადი არ არის, ამიტომ რუბრიკა შევქმენით ისე, რომ მისი შემოწმება მოდელ შემფასებელსაც შეძლოს. ჩვენ შევიმუშავეთ ვალიდაციის პროცესი, რათა დაგვეხმაროს იმის უზრუნველყოფაში, რომ რუბრიკები და კითხვები სირთულისა და სისწორის მხრივ კარგად იყოს დაკალიბრებული.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

კვლევითი ნაკრების თითოეული ამოცანა ფასდება 10-ქულიანი რუბრიკით, რომელიც შეიძლება გამოიყენოს როგორც ექსპერტმა, ისე მოდელ-შემფასებელმა. მოდელების შეფასების მასშტაბირებისთვის, პასუხების შესაფასებლად სხვა მოდელს ვიყენებთ.

მოდელების შედეგიანობა

ჩვენ შევაფასეთ რამდენიმე მოწინავე მოდელი: GPT‑5.2, Claude Opus 4.5, Gemini 3 Pro, GPT‑4o, OpenAI o4-mini და OpenAI o3 FrontierScience-Olympiad-სა და FrontierScience-Research-ზე. ყველა მსჯელობის მოდელი შეფასდა „high“ მსჯელობის ძალისხმევაზე, გარდა GPT‑5.2‑ისა „xhigh“-ზე. ჩვენს საწყის შეფასებებში GPT‑5.2 ჩვენი ყველაზე შედეგიანი მოდელია FrontierScience-Olympiad-ზე (77%) და Research-ზე (25%), სხვა მოწინავე მოდელებზე წინ. Gemini 3 Pro Olympiad ნაკრებზე GPT‑5.2‑სთან შედარებადია (76%).

ვხედავთ მნიშვნელოვან პროგრესს ექსპერტის დონის კითხვების გადაჭრაში, განსაკუთრებით ღია კვლევითი სტილის ამოცანებზე. ზრდისთვის სივრცე ჯერ კიდევ არსებობს: წარუმატებლობის ტრანსკრიპტების ანალიზიდან ჩანს, რომ მოწინავე მოდელები ზოგჯერ უშვებდნენ მსჯელობის, ლოგიკისა და გამოთვლის შეცდომებს, არ ესმოდათ ვიწრო სპეციალიზებული სამეცნიერო ცნებები და უშვებდნენ ფაქტობრივ უზუსტობებს.

ჩვენ ვადარებთ სიზუსტეს რამდენიმე მოწინავე მოდელში. GPT‑5.2 ჩვენი ყველაზე მაღალი შედეგის მქონე მოდელია FrontierScience-Research-სა და Olympiad ნაკრებზე.

ჩვენ ვადარებთ GPT‑5.2‑ისა და o3‑ის სიზუსტეს მსჯელობის ძალისხმევის მიხედვით. ფიქრის უფრო ხანგრძლივი დრო სიზუსტის გაუმჯობესებას იწვევს.

შეზღუდვები და შემდეგი ნაბიჯები

მიუხედავად იმისა, რომ FrontierScience სამეცნიერო ბენჩმარკების სირთულის მიმართულებით წინ გადადგმულ ნაბიჯს წარმოადგენს, ჯერ კიდევ ბევრი შეზღუდვა არსებობს. FrontierScience შედგება შეზღუდული პრობლემის ფორმულირების მქონე კითხვებისგან, რაც ფოკუსირებულია საბოლოო პასუხის შეფასებაზე (Olympiad) ან კვლევითი ამოცანის შესასრულებლად მსჯელობის შეფასებაზე (Research). გარდა ამისა, გრძელ ამოცანებზე მრავალი კომპონენტის მქონე რუბრიკების გამოყენება ნაკლებად ობიექტურია, ვიდრე საბოლოო პასუხის შემოწმება.

FrontierScience გვაძლევს მოდელების მსჯელობის უფრო მაღალი გარჩევადობის სურათს რთულ, ექსპერტების მიერ დაწერილ კითხვებზე, მაგრამ არა სრულ სურათს იმისა, თუ როგორ კეთდება მეცნიერება პრაქტიკაში. კერძოდ, ის არ აფასებს სამეცნიერო კვლევის მნიშვნელოვან ნაწილს: როგორ აყალიბებენ მოდელები ნამდვილად ახალ ჰიპოთეზებს, ან როგორ ურთიერთობენ მრავალ მოდალობასთან, მათ შორის ვიდეომონაცემებთან და რეალურ ექსპერიმენტულ სისტემებთან ფიზიკურ სამყაროში.

მომავლისკენ ყურებით, ველით, რომ სამეცნიერო მსჯელობაში პროგრესი მოვა როგორც უკეთესი ზოგადი დანიშნულების მსჯელობის სისტემებიდან, ისე სამეცნიერო შესაძლებლობების გაუმჯობესებაზე მიზანმიმართული ძალისხმევიდან. FrontierScience მრავალი ინსტრუმენტიდან ერთ-ერთია და მოდელების გაუმჯობესებასთან ერთად ვგეგმავთ ამ ბენჩმარკის იტერირებას, მის გაფართოებას ახალ დომენებზე და მის შეწყვილებას უფრო რეალურ შეფასებებთან, რომლებიც შეისწავლის, რეალურად რის გაკეთების შესაძლებლობას აძლევს ეს სისტემები მეცნიერებს. FrontierScience-ის მსგავსი ბენჩმარკები გვეხმარება დღევანდელი AI სისტემების სისუსტეების გაგებაში, რათა ჩვენი მუშაობა ფოკუსირებული იყოს იმაზე, რომ მოდელები სამეცნიერო აღმოჩენებში სანდო პარტნიორები გახდნენ.

ავტორი

OpenAI

განაგრძეთ კითხვა

ყველას ნახვა

GPT-Red: თვითგაუმჯობესება სიმტკიცისთვის

უსაფრთხოება15 ივლ. 2026

კოდის შეფასებებში სიგნალის გამიჯვნა ხმაურისგან

კვლევა8 ივლ. 2026

წარმოგიდგენთ GeneBench-Pro-ს

კვლევა30 ივნ. 2026