16 դեկտեմբերի, 2025 թ.

Գիտական հետազոտական առաջադրանքներ կատարելու համար ԱԲ ունակության գնահատում

Մենք ներկայացնում ենք FrontierScience-ը՝ նոր չափանիշ, որը գնահատում է ԱԲ կարողությունները փորձագիտական մակարդակի գիտական հիմնավորման համար՝ ընդգրկելով ֆիզիկայի, քիմիայի և կենսաբանության ոլորտները:

Կարդացեք հոդվածը

Մասամբ գրաֆիկ՝ մեղմ կանաչ և դեղին գրադիենտային ֆոնով, մեծ կտրված բառով, որը սկսվում է «Fro…»-ով, և աջ կողմում շերտավորված տեքստի բլոկներով, որոնք նշում են վերանայման չափանիշներ, ինչպիսիք են «Փաստացի», «Գնահատելի», «Օբյեկտիվ» և «Դժվար»։

Բեռնվում է…

Հիմնավորումը գիտական աշխատանքի կենտրոնում է: Փաստերը հիշելուց բացի, գիտնականները գեներացնում են վարկածներ, փորձարկում և կատարելագործում դրանք, և սինթեզում գաղափարներ տարբեր ոլորտներում։ Քանի որ մեր մոդելները դառնում են ավելի կարողունակ, կենտրոնական հարցն այն է, թե ինչպես դրանք կարող են խորապես հիմնավորել՝ գիտական հետազոտություններին նպաստելու համար։

Վերջին տարվա ընթացքում մեր մոդելները հասել են կարևոր նվաճումների, ներառյալ ոսկե մեդալի արժանանալը Միջազգային մաթեմատիկական օլիմպիադայում և Միջազգային ինֆորմատիկայի օլիմպիադայում: Միաժամանակ, մենք սկսում ենք տեսնել, թե ինչպես են մեր ամենահզոր մոդելները, ինչպիսիք են GPT‑5‑ը, էականորեն արագացնում իրական գիտական աշխատանքային հոսքերը։ Հետազոտողները օգտագործում են այս համակարգերը այնպիսի առաջադրանքների համար, ինչպիսիք են գրականության որոնումը տարբեր ոլորտներում և լեզուներով, ինչպես նաև բարդ մաթեմատիկական ապացույցների լուծումը։ Շատ դեպքերում մոդելը կրճատում է այն աշխատանքը, որը կարող էր տևել օրեր կամ շաբաթներ՝ հասցնելով այն ժամերի։ Այս առաջընթացը փաստագրված է մեր հոդվածում GPT‑5‑ի հետ վաղ գիտական արագացման փորձեր⁠, որը թողարկվել է 2025 թվականի նոյեմբերին և ներկայացնում է վաղ ապացույցներ, որ GPT‑5‑ը կարող է չափելիորեն արագացնել գիտական աշխատանքային հոսքերը։

Ներկայացնում ենք FrontierScience-ը

Քանի որ գիտական առաջընթացի արագացումը ԱԲ-ի միջոցով մարդկությանը օգուտ բերելու ամենախոստումնալից հնարավորություններից մեկն է, մենք բարելավում ենք մեր մոդելները բարդ մաթեմատիկական և գիտական առաջադրանքների համար և աշխատում այն գործիքների վրա, որոնք կօգնեն գիտնականներին առավելագույնս օգտվել դրանցից։

Երբ GPQA⁠(բացվում է նոր պատուհանում), «Google-ապացույց» գիտական չափանիշը, որը կազմված է գիտությունների դոկտորների կողմից, թողարկվեց 2023 թվականի նոյեմբերին, GPT‑4‑ը հավաքել է 39% արդյունք, ինչը ցածր է փորձագետների կողմից սահմանված 70% բազային ցուցանիշից։ Երկու տարի անց, GPT‑5.2‑ը ստացավ 92%։ Քանի որ մոդելների հիմնավորման և տեղեկությունների կարողությունները շարունակում են մասշտաբավորվել, ավելի բարդ չափանիշները կարևոր կլինեն չափելու և կանխատեսելու մոդելների կարողությունը արագացնելու գիտական հետազոտությունները։ Նախորդ գիտական չափանիշները հիմնականում կենտրոնացած են բազմակի ընտրության հարցերի վրա, չափազանց հագեցած են կամ կենտրոնացած չեն գիտության վրա։

Այս բացը լրացնելու համար մենք ներկայացնում ենք FrontierScience-ը՝ նոր չափանիշ, որը նախատեսված է փորձագիտական մակարդակի գիտական կարողությունները չափելու համար: FrontierScience-ը գրված և հաստատված է ֆիզիկայի, քիմիայի և կենսաբանության ոլորտի մասնագետների կողմից և բաղկացած է հարյուրավոր հարցերից, որոնք նախատեսված են դժվար, օրիգինալ և իմաստալից լինելու համար։ FrontierScience-ը ներառում է հարցերի երկու ուղղություն՝ օլիմպիադա, որը չափում է օլիմպիադայի ոճի գիտական հիմնավորման կարողությունները, և յետազոտություն, որը չափում է իրական աշխարհի գիտական հետազոտական կարողությունները։ Մոդելների գիտական կարողությունների մասին ավելի շատ պատկերացում տալը օգնում է մեզ հետևել առաջընթացին և առաջ մղել ԱԲ-ով արագացված գիտությունը։

Մեր նախնական գնահատումներում, GPT‑5.2‑ը մեր լավագույն մոդելն է FrontierScience-Olympiad-ում (ստանալով 77%) և Հետազոտությունում (ստանալով 25%), առաջ անցնելով մյուս առաջատար մոդելներից։ Մենք զգալի առաջընթաց ենք արձանագրել փորձագիտական մակարդակի հարցերի լուծման գործում՝ թողնելով ավելի մեծ առաջընթացի հնարավորություն, հատկապես բաց հետազոտական ոճի առաջադրանքների դեպքում։ Գիտնականների համար դա ենթադրում է, որ ներկայիս մոդելները արդեն կարող են աջակցել հետազոտության այն մասերին, որոնք ներառում են կառուցվածքային հիմնավորում, միաժամանակ ընդգծելով, որ զգալի աշխատանք է մնում կատարել՝ նրանց կարողությունը բաց մտածողություն իրականացնելու համար բարելավելու համար։ Այս արդյունքները համահունչ են այն բանի հետ, թե ինչպես են գիտնականները արդեն օգտագործում այսօրվա մոդելները՝ արագացնելու հետազոտական աշխատանքները՝ միաժամանակ հենվելով մարդկային դատողության վրա՝ խնդիրների ձևակերպման և վավերացման համար, և ավելի ու ավելի հաճախ ուսումնասիրելու գաղափարներ և կապեր, որոնք այլապես շատ ավելի երկար ժամանակ կպահանջեին բացահայտելու համար, ներառյալ որոշ դեպքերում՝ նոր պատկերացումներ տրամադրելով, որոնք մասնագետները այնուհետև գնահատում և փորձարկում են։

Ի վերջո, ԱԲ-ի գիտական կարողությունների ամենակարևոր չափանիշը այն նոր հայտնագործություններն են, որոնք այն օգնում է գեներացնել, դրանք են, որ ի վերջո կարևոր են գիտության և հասարակության համար։ FrontierScience-ը գտնվում է դրա վերևում։ Այն մեզ հյուսիսային աստղ է տալիս փորձագիտական մակարդակի գիտական հիմնավորման համար՝ թույլ տալով մեզ ստուգել մոդելները ստանդարտացված հարցերի հավաքածուի վրա, տեսնել, թե որտեղ են դրանք հաջողվում կամ ձախողվում, և որոշել, թե որտեղ պետք է բարելավենք դրանք։ FrontierScience-ը նեղ է և ունի սահմանափակումներ որոշակի առումներով (օրինակ՝ կենտրոնանալով սահմանափակ, մասնագետների կողմից գրված խնդիրների վրա) և չի ընդգրկում այն ամենը, ինչ գիտնականները կատարում են իրենց ամենօրյա աշխատանքում։ Բայց ոլորտը կարիք ունի ավելի դժվար, օրիգինալ և իմաստալից գիտական չափանիշների, և FrontierScience-ը մի քայլ առաջ է այս ուղղությամբ։

Ինչ է չափում FrontierScience-ը, և ինչպես ենք այն կառուցել

FrontierScience-ի ամբողջական գնահատումը ընդգրկում է ավելի քան 700 տեքստային հարցեր (որոնցից 160-ը՝ ոսկե հավաքածուում), որոնք ընդգրկում են ֆիզիկայի, քիմիայի և կենսաբանության ենթադաշտերը։ Հենանիշը բաղկացած է օլիմպիադայից և հետազոտական բաժնից։ FrontierScience-Olympiad-ը պարունակում է 100 հարց, որոնք մշակված են միջազգային օլիմպիադայի մեդալակիրների կողմից՝ գիտական հիմնավորման գնահատման համար սահմանափակ, կարճ պատասխանների ձևաչափով։ Օլիմպիադայի հավաքածուն նախագծված էր ներառելու տեսական հարցեր, որոնք առնվազն նույնքան բարդ են, որքան միջազգային օլիմպիադային մրցույթների խնդիրները։ FrontierScience-Research-ը բաղկացած է 60 բնօրինակ հետազոտական ենթախնդիրներից, որոնք մշակված են գիտությունների դոկտորների (դոկտորական թեկնածուներ, պրոֆեսորներ կամ հետդոկտորական հետազոտողներ) կողմից և գնահատվում են 10 միավորանոց սանդղակով։ Հետազոտական հավաքածուն ստեղծվել է՝ պարունակելու ինքնաբավ, բազմափուլ ենթառաջադրանքներ այն դժվարության մակարդակով, որը կարող է հանդիպել PhD գիտնականի կողմից իրենց հետազոտությունների ընթացքում:

Նմուշ հարցեր

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

FrontierScience-ի յուրաքանչյուր առաջադրանքը գրված և հաստատված է ֆիզիկայի, քիմիայի կամ կենսաբանության տիրույթի փորձագետի կողմից։ Օլիմպիադայի հավաքածուի համար բոլոր փորձագետները պարգևատրվել են մեդալով առնվազն մեկ (և հաճախ մի քանի) միջազգային օլիմպիադայի մրցույթներում։ Հետազոտական հավաքածուի համար բոլոր մասնագետները ունեն համապատասխան գիտությունների դոկտորի աստիճան։

Օլիմպիադայի հարցերը ստեղծվել են 42 նախկին միջազգային մեդալակիրների կամ համապատասխան տիրույթների թիմերի մարզիչների համագործակցությամբ, ընդհանուր առմամբ 109 օլիմպիադայի մեդալներով: Հետազոտական հարցերը ստեղծվել են 45 որակավորված գիտնականների և ոլորտի փորձագետների համագործակցությամբ: Բոլոր գիտնականները կամ դոկտորական թեկնածուներ էին, կամ հետդոկտորական հետազոտողներ, կամ պրոֆեսորներ էին: Նրանց մասնագիտության ոլորտները ընդգրկում էին մասնագիտացված և կարևոր գիտական ոլորտների լայն շրջանակ՝ սկսած քվանտային էլեկտրադինամիկայից մինչև սինթետիկ օրգանական քիմիա և էվոլյուցիոն կենսաբանություն:

Երկու հավաքածուների համար առաջադրանքի ստեղծման գործընթացը ներառում էր որոշակի ընտրություն OpenAI-ի ներքին մոդելների դեմ (օրինակ՝ բացառելով այն առաջադրանքները, որոնք մոդելները հաջողությամբ կատարել են, ուստի մենք ակնկալում ենք, որ գնահատումը որոշ չափով կողմնակալ կլինի այս մոդելների նկատմամբ՝ համեմատած մյուսների հետ): Մենք բաց աղբյուր ենք դարձնում Օլիմպիադայի 100 հարցերի ոսկե հավաքածուն և Հետազոտության 60 հարցերի ոսկե հավաքածուն՝ մնացած հարցերը պահելով աղտոտվածությունը հետևելու համար։

Հոսքագիծ, որը ցույց է տալիս առաջադրանքի մշակման խողովակաշարի չորս փուլերը՝ Ստեղծում, Վերանայում, Լուծում և Խմբագրում, յուրաքանչյուր քայլի համառոտ նկարագրություններով և փաստացի, գնահատելի, օբյեկտիվ և դժվար չափանիշների համար նշաններով։

Առաջադրանքները անցնում են չորս փուլերով՝ Ստեղծում, Վերանայում, Լուծում, Խմբագրում։ Անկախ փորձագետները վերանայում են միմյանց առաջադրանքները՝ հաստատելու, որ դրանք համապատասխանում են չափանիշներին։

Ինչպես ենք գնահատում մոդելի արդյունավետությունը

Օլիմպիադայի հավաքածուն գնահատվում է կարճ պատասխանով՝ կամ թվով, արտահայտությամբ, կամ անորոշ տողերի համընկնումով, ինչը օգնում է հաստատել ճշգրտությունը։ Այնուամենայնիվ, այս հաստատումը հաճախ փոխզիջում է խնդրի արտահայտչականության և բաց ավարտի հետ։ Հետազոտական հավաքածուի համար մենք ներկայացնում ենք սանդղակային գնահատման վրա հիմնված ճարտարապետություն՝ ավելի բաց վերջավոր առաջադրանքների գնահատման համար: Յուրաքանչյուր հարց ներառում է գնահատման սանդղակ՝ բազմաթիվ անկախ և օբյեկտիվորեն գնահատվող կետերով, ընդհանուր առմամբ 10 միավոր։ Գնահատման սանդղակը գնահատում է ոչ միայն վերջնական պատասխանի ճշգրտությունը, այլև միջանկյալ դատողության քայլերի ճշգրտությունը, ինչը թույլ է տալիս մոդելի կատարողականության և ձախողման վերլուծության նրբերանգներ։ Լուծումը համարվում է «ճիշտ», եթե այն ստանում է առնվազն 7/10 գնահատման սանդղակի միավորներ։

Պատասխանները գնահատվում են մոդելի գնահատողի (GPT‑5) կողմից՝ համեմատելով կամ կարճ պատասխանի, կամ ցուցանիշների չափանիշների հետ։ Թեև իդեալական կլիներ, եթե յուրաքանչյուր պատասխան գնահատելու համար օգտագործեինք փորձագետ մարդ, այս մոտեցումը մասշտաբային չէ, ուստի մենք մշակեցինք ցուցանիշ, որը հնարավոր է ստուգել մոդելի գնահատողի միջոցով։ Մենք մշակեցինք հաստատման գործընթաց, որը կօգնի ապահովել, որ գնահատման սանդղակները և հարցերը լավ համահունչ են բարդության և ճշգրտության հետ։

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Յուրաքանչյուր առաջադրանք հետազոտական հավաքածուում գնահատվում է 10 միավորանոց սանդղակով, որը կարող է օգտագործվել փորձագետի կամ մոդելի գնահատողի կողմից: Մեր մոդելների գնահատման կարողությունը ընդլայնելու համար մենք օգտագործում ենք մեկ այլ մոդել՝ պատասխանները գնահատելու համար։

Մոդելի կատարողականություն

Մենք գնահատեցինք մի քանի առաջատար մոդելներ՝ GPT‑5.2, Claude Opus 4.5, և Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, և OpenAI o3 FrontierScience-Olympiad և FrontierScience-Research-ում: Բոլոր հիմնավորման մոդելները գնահատվել են «բարձր» հիմնավորման ջանքերով, բացառությամբ GPT‑5.2‑ի, որը գնահատվել է «գերազանց բարձր»։ Մեր նախնական գնահատականներում GPT‑5.2‑ը մեր լավագույն մոդելն է FrontierScience-Olympiad-ում (ստանալով 77%) և Հետազոտությունում (ստանալով 25%), առաջ անցնելով մյուս առաջատար մոդելներից։ Gemini 3 Pro-ն համեմատելի է GPT‑5.2‑ի հետ Օլիմպիադայի հավաքածուի ներքո (ստանալով 76%):

Մենք զգալի առաջընթաց ենք նկատել փորձագիտական մակարդակի հարցերի լուծման գործում, հատկապես բաց հետազոտական ոճի առաջադրանքների դեպքում: Դեռ աճելու տեղ կա. վերլուծելով ձախողումների սղագրությունները՝ առաջնագծի մոդելները երբեմն սխալներ են թույլ տալիս դատողություններում, տրամաբանության և հաշվարկներում, չեն հասկանում նեղ գիտական հասկացությունները և կատարում են փաստական անճշտություններ։

Մենք համեմատում ենք ճշգրտությունները մի քանի առաջնային մոդելների միջև։ GPT‑5.2‑ը մեր ամենաբարձր արդյունավետությամբ մոդելն է FrontierScience-Research և Olympiad հավաքածուների համար։

Մենք համեմատում ենք GPT‑5.2‑ի և o3‑ի ճշգրտությունները հիմնավորման ջանքերի ընթացքում։ Ավելի երկար մտածելու ժամանակը հանգեցնում է ճշգրտության բարելավմանը։

Սահմանափակումները և ինչ է սպասվում ապագայում

Թեև FrontierScience-ը գիտական հենանիշների դժվարության մեջ առաջընթաց է ներկայացնում, դեռևս կան բազմաթիվ սահմանափակումներ: FrontierScience-ը բաղկացած է հարցերից՝ սահմանափակված խնդիրների հայտարարությամբ, որոնք կենտրոնանում են վերջնական պատասխանի գնահատման վրա (Օլիմպիադա) կամ հիմնավորման գնահատման վրա՝ հետազոտական առաջադրանք կատարելու համար (Հետազոտություն): Բացի այդ, երկարատև առաջադրանքների համար բազմաթիվ բաղադրիչներով գնահատման սանդղակներ օգտագործելը ավելի քիչ օբյեկտիվ է, քան վերջնական պատասխանը ստուգելը:

FrontierScience-ը առաջարկում է մոդելների մտածողության բարձր լուծաչափով կադր դժվար՝ մասնագետների կողմից գրված հարցերի վերաբերյալ, բայց ոչ ամբողջական պատկեր, թե ինչպես է գիտությունը գործնականում իրականացվում։ Մասնավորապես, այն չի գնահատում գիտական հետազոտության կարևոր մասը՝ ինչպես են մոդելները գեներացնում իսկապես նորարարական հիպոթեզներ կամ փոխազդում բազմաթիվ մոդալությունների հետ, ներառյալ տեսանյութերի տվյալները և իրական փորձարարական համակարգերը ֆիզիկական աշխարհում։

Նայելով առաջ, մենք ակնկալում ենք, որ գիտական հիմնավորման առաջընթացը կգա ինչպես ավելի լավ ընդհանուր նպատակային հիմնավորման համակարգերից, այնպես էլ գիտական կարողությունների բարելավման վրա կենտրոնացած ջանքերից։ FrontierScience-ը բազմաթիվ գործիքներից մեկն է, և երբ մոդելները բարելավվեն, մենք պլանավորում ենք կրկնել այս հենանիշը, ընդլայնել այն նոր տիրույթներում և զուգակցել այն ավելի իրական աշխարհի գնահատականների հետ, որոնք ուսումնասիրում են, թե ինչ են այս համակարգերը իրականում գիտնականներին միավորելու։ FrontierScience-ի նման չափանիշները օգնում են մեզ հասկանալ այսօրվա ԱԲ համակարգերի թուլությունները՝ կենտրոնացնելով մեր աշխատանքը մոդելները գիտական հայտնագործությունների հուսալի գործընկերներ դարձնելու ուղղությամբ։

Հեղինակ

OpenAI

Շարունակել կարդալ

Դիտել բոլորը

GPT-Red. ինքնաբարելավում՝ դիմադրողականության համար

Անվտանգություն15 հլս, 2026 թ.

Կոդավորման գնահատումներում ազդանշանն աղմուկից զատելը

Հետազոտություններ8 հլս, 2026 թ.

Ներկայացնում ենք GeneBench-Pro-ն

Հետազոտություններ30 հնս, 2026 թ.