16 Δεκεμβρίου 2025

Αξιολόγηση της ικανότητας της ΤΝ να εκτελεί εργασίες επιστημονικής έρευνας

Παρουσιάζουμε το FrontierScience, έναν νέο δείκτη αξιολόγησης για τις δυνατότητες της ΤΝ σε επιστημονική συλλογιστική επιπέδου ειδικού στους τομείς της φυσικής, της χημείας και της βιολογίας.

Διαβάστε τη μελέτη

Μερικό γραφικό με ένα απαλό φόντο διαβάθμισης πράσινου και κίτρινου, μια μεγάλη κομμένη λέξη που ξεκινά με «Fro…» και στρώσεις κειμένου στα δεξιά που απαριθμούν κριτήρια αξιολόγησης όπως «Αληθές», «Βαθμολογήσιμο», «Αντικειμενικό» και «Δύσκολο».

Φόρτωση…

Η συλλογιστική βρίσκεται στον πυρήνα της επιστημονικής εργασίας. Πέρα από την ανάκληση στοιχείων, οι επιστήμονες διατυπώνουν υποθέσεις, τις δοκιμάζουν και τις βελτιώνουν, και συνθέτουν ιδέες σε διάφορους τομείς. Καθώς τα μοντέλα μας γίνονται ολοένα και πιο ικανά, το κεντρικό ερώτημα είναι πώς μπορούν να συλλογίζονται σε βάθος, ώστε να συμβάλλουν ουσιαστικά στην επιστημονική έρευνα.

Τον τελευταίο χρόνο, τα μοντέλα μας έχουν πετύχει σημαντικά ορόσημα, όπως επίδοση επιπέδου χρυσού μεταλλίου στη Διεθνή Μαθηματική Ολυμπιάδα και στη Διεθνή Ολυμπιάδα Πληροφορικής. Παράλληλα, αρχίζουμε να βλέπουμε τα πιο ισχυρά μοντέλα μας, όπως το GPT‑5, να επιταχύνουν με ουσιαστικό τρόπο πραγματικές επιστημονικές ροές εργασίας. Οι ερευνητές χρησιμοποιούν αυτά τα συστήματα για εργασίες όπως αναζήτηση βιβλιογραφίας σε διαφορετικούς κλάδους και γλώσσες, και επεξεργασία σύνθετων μαθηματικών αποδείξεων. Σε πολλές περιπτώσεις, το μοντέλο συμπυκνώνει εργασία που θα απαιτούσε ημέρες ή εβδομάδες σε λίγες ώρες. Αυτή η πρόοδος τεκμηριώνεται στη μελέτη μας Πρώιμα πειράματα για την επιτάχυνση της επιστήμης με το GPT‑5⁠, που δημοσιεύτηκε τον Νοέμβριο του 2025 και παρουσιάζει πρώιμα στοιχεία ότι το GPT‑5 μπορεί να επιταχύνει μετρήσιμα τις επιστημονικές ροές εργασίας.

Παρουσίαση του FrontierScience

Καθώς η επιτάχυνση της επιστημονικής προόδου αποτελεί μία από τις πιο ελπιδοφόρες ευκαιρίες για να ωφελήσει η ΤΝ την ανθρωπότητα, βελτιώνουμε τα μοντέλα μας σε απαιτητικές εργασίες μαθηματικών και επιστημών, και αναπτύσσουμε τα εργαλεία που θα βοηθήσουν τους επιστήμονες να αποκομίσουν το μέγιστο όφελος από αυτά.

Το GPQA⁠(ανοίγει σε νέο παράθυρο) είναι ένας δείκτης αξιολόγησης επιστημονικών ερωτήσεων που δεν μπορούν να απαντηθούν μέσω απλής διαδικτυακής αναζήτησης και γράφτηκαν από ειδικούς με διδακτορικό. Όταν κυκλοφόρησε τον Νοέμβριο 2023, το GPT‑4 σημείωσε επίδοση 39%, κάτω από τη γραμμή βάσης των ειδικών που ήταν 70%. Δύο χρόνια αργότερα, το GPT‑5.2 έφτασε το 92%. Καθώς οι δυνατότητες συλλογιστικής και γνώσης των μοντέλων συνεχίζουν να κλιμακώνονται, πιο απαιτητικοί δείκτες αξιολόγησης θα είναι κρίσιμοι για τη μέτρηση και την πρόβλεψη της ικανότητάς τους να επιταχύνουν την επιστημονική έρευνα. Οι έως τώρα επιστημονικοί δείκτες αξιολόγησης εστιάζουν σε μεγάλο βαθμό σε ερωτήσεις πολλαπλής επιλογής, έχουν κορεστεί ή δεν είναι κεντρικά προσανατολισμένοι στην επιστήμη.

Για να καλύψουμε αυτό το κενό, παρουσιάζουμε το FrontierScience: έναν νέο δείκτη αξιολόγησης, σχεδιασμένο για τη μέτρηση επιστημονικών δυνατοτήτων επιπέδου ειδικού. Το FrontierScience έχει γραφτεί και επαληθευτεί από ειδικούς στη φυσική, τη χημεία και τη βιολογία, και περιλαμβάνει εκατοντάδες ερωτήσεις που έχουν σχεδιαστεί ώστε να είναι απαιτητικές, πρωτότυπες και ουσιαστικές. Περιλαμβάνει δύο άξονες ερωτήσεων: τον άξονα Olympiad, που μετρά επιστημονικές ικανότητες συλλογιστικής τύπου Ολυμπιάδας, και τον άξονα Research, που μετρά ικανότητες πραγματικής επιστημονικής έρευνας. Η παροχή βαθύτερης εικόνας για τις επιστημονικές δυνατότητες των μοντέλων μάς βοηθά να παρακολουθούμε την πρόοδο και να προωθούμε την επιστήμη που επιταχύνεται από την ΤΝ.

Στις αρχικές μας αξιολογήσεις, το GPT‑5.2 είναι το μοντέλο με την υψηλότερη επίδοση στο FrontierScience-Olympiad (με βαθμολογία 77%) και στο Research (με βαθμολογία 25%), μπροστά από άλλα κορυφαία μοντέλα. Έχουμε διαπιστώσει σημαντική πρόοδο στην επίλυση ερωτήσεων επιπέδου ειδικού, με ταυτόχρονη ύπαρξη περιθωρίου για περαιτέρω βελτίωση, ιδιαίτερα σε ανοιχτού τύπου εργασίες ερευνητικού χαρακτήρα. Για τους επιστήμονες, αυτό υποδηλώνει ότι τα σημερινά μοντέλα μπορούν ήδη να υποστηρίξουν τμήματα της έρευνας που βασίζονται σε δομημένη συλλογιστική, ενώ παράλληλα αναδεικνύει ότι απαιτείται σημαντική δουλειά για να βελτιωθεί η ικανότητά τους σε ανοιχτή, διερευνητική συλλογιστική. Τα αποτελέσματα αυτά ευθυγραμμίζονται με τον τρόπο που οι επιστήμονες χρησιμοποιούν ήδη τα σημερινά μοντέλα: για την επιτάχυνση ροών εργασίας έρευνας, με την ανθρώπινη κρίση να παραμένει καθοριστική για τη διατύπωση και την επικύρωση των προβλημάτων, και όλο και περισσότερο για τη διερεύνηση ιδεών και συνδέσεων που διαφορετικά θα απαιτούσαν πολύ περισσότερο χρόνο για να αναδειχθούν, συμπεριλαμβανομένων, σε ορισμένες περιπτώσεις, νέων πληροφοριών που στη συνέχεια αξιολογούνται και δοκιμάζονται από ειδικούς.

Τελικά, ο σημαντικότερος δείκτης αξιολόγησης για τις επιστημονικές δυνατότητες της ΤΝ είναι οι νέες ανακαλύψεις που συμβάλλει να παραχθούν. Αυτές είναι που έχουν ουσιαστική σημασία για την επιστήμη και την κοινωνία. Το FrontierScience έχει αυτήν την αποστολή. Μας προσφέρει έναν «βόρειο αστέρα» για τη συλλογιστική επιστημονικού επιπέδου ειδικού, επιτρέποντάς μας να δοκιμάζουμε τα μοντέλα σε ένα τυποποιημένο σύνολο ερωτήσεων, να βλέπουμε πού επιτυγχάνουν ή αποτυγχάνουν και να εντοπίζουμε πού χρειάζεται να τα βελτιώσουμε. Το FrontierScience είναι περιορισμένου εύρους και έχει σημαντικούς περιορισμούς (για παράδειγμα, εστιάζει σε περιορισμένα προβλήματα, γραμμένα από ειδικούς) και δεν αποτυπώνει το σύνολο της καθημερινής επιστημονικής εργασίας. Ωστόσο, το πεδίο χρειάζεται πιο απαιτητικούς, πρωτότυπους και ουσιαστικούς επιστημονικούς δείκτες αξιολόγησης, και το FrontierScience αποτελεί ένα βήμα προς αυτή την κατεύθυνση.

Τι μετρά το FrontierScience και πώς το αναπτύξαμε

Η πλήρης αξιολόγηση του FrontierScience περιλαμβάνει πάνω από 700 ερωτήσεις κειμένου (εκ των οποίων 160 στο χρυσό σύνολο), καλύπτοντας δευτερεύοντα πεδία της φυσικής, της χημείας και της βιολογίας. Ο δείκτης αξιολόγησης αποτελείται από δύο σκέλη: Olympiad και Research. Το FrontierScience-Olympiad περιλαμβάνει 100 ερωτήσεις, σχεδιασμένες από διεθνείς ολυμπιονίκες, με στόχο την αξιολόγηση της επιστημονικής συλλογιστικής σε περιορισμένο, σύντομης απάντησης φορμά. Το σύνολο Olympiad έχει σχεδιαστεί ώστε να περιλαμβάνει θεωρητικές ερωτήσεις τουλάχιστον εξίσου απαιτητικές με προβλήματα διεθνών ολυμπιάδων. Το FrontierScience-Research αποτελείται από 60 πρωτότυπες ερευνητικές δευτερεύουσες εργασίες, σχεδιασμένες από επιστήμονες με διδακτορικό υπόβαθρο (υποψήφιους διδάκτορες, καθηγητές ή μεταδιδακτορικούς ερευνητές), οι οποίες βαθμολογούνται με κλίμακα 10 σημείων. Το σύνολο Research δημιουργήθηκε ώστε να περιλαμβάνει αυτοτελείς δευτερεύουσες εργασίες πολλαπλών βημάτων, στο επίπεδο δυσκολίας που μπορεί να συναντήσει ένας επιστήμονας με διδακτορικό υπόβαθρο κατά τη διάρκεια της έρευνάς του.

Ενδεικτικές ερωτήσεις

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Κάθε εργασία στο FrontierScience έχει γραφτεί και επαληθευτεί από ειδικό του αντίστοιχου πεδίου στη φυσική, τη χημεία ή τη βιολογία. Για το σύνολο Olympiad, όλοι οι ειδικοί έχουν βραβευθεί με μετάλλιο σε τουλάχιστον μία (και συχνά σε περισσότερες) διεθνείς ολυμπιάδες. Για το σύνολο Research, όλοι οι ειδικοί κατέχουν σχετικό διδακτορικό τίτλο.

Οι ερωτήσεις του Olympiad δημιουργήθηκαν σε συνεργασία με 42 πρώην διεθνείς ολυμπιονίκες ή προπονητές εθνικών ομάδων στους αντίστοιχους τομείς, με συνολικά 109 ολυμπιακά μετάλλια. Οι ερευνητικές ερωτήσεις δημιουργήθηκαν σε συνεργασία με 45 καταρτισμένους επιστήμονες και ειδικούς στον τομέα. Όλοι οι επιστήμονες ήταν είτε υποψήφιοι διδάκτορες, είτε μεταδιδακτορικοί ερευνητές, είτε καθηγητές. Τα πεδία εξειδίκευσής τους κάλυπταν ένα ευρύ φάσμα εξειδικευμένων και κρίσιμων επιστημονικών κλάδων, από την κβαντική ηλεκτροδυναμική και τη συνθετική οργανική χημεία έως την εξελικτική βιολογία.

Η διαδικασία δημιουργίας εργασιών και για τα δύο σύνολα περιλάμβανε επιλεκτικό φιλτράρισμα έναντι εσωτερικών μοντέλων της OpenAI (π.χ. απόρριψη εργασιών που τα μοντέλα απάντησαν επιτυχώς, επομένως αναμένουμε ότι η αξιολόγηση είναι σε κάποιο βαθμό μεροληπτική εις βάρος αυτών των μοντέλων σε σύγκριση με άλλα). Διαθέτουμε σε ανοιχτό κώδικα το χρυσό σύνολο του Olympiad με 100 ερωτήσεις και το χρυσό σύνολο του Research με 60 ερωτήσεις, ενώ οι υπόλοιπες ερωτήσεις παραμένουν μη δημοσιευμένες για την παρακολούθηση πιθανής επιμόλυνσης.

Διάγραμμα ροής που παρουσιάζει τέσσερα στάδια μιας διαδικασίας ανάπτυξης εργασίας —Δημιουργία, Ανασκόπηση, Επίλυση και Αναθεώρηση— με σύντομες περιγραφές κάθε βήματος και σημάδια ελέγχου για κριτήρια πραγματικότητας, βαθμολογίας, αντικειμενικότητας και δυσκολίας.

Οι εργασίες περνούν από τέσσερα στάδια: Δημιουργία, Ανασκόπηση, Επίλυση, Αναθεώρηση. Ανεξάρτητοι ειδικοί επανεξετάζουν ο ένας τις εργασίες του άλλου για να επαληθεύσουν ότι ευθυγραμμίζονται με τα κριτήρια.

Πώς βαθμολογούμε την απόδοση του μοντέλου

Το σύνολο Olympiad βαθμολογείται με σύντομη απάντηση, είτε με αριθμό, είτε με έκφραση, είτε με αντιστοίχιση ασαφούς συμβολοσειράς, κάτι που διευκολύνει την επαλήθευση της ορθότητας. Ωστόσο, αυτή η επαλήθευση συχνά γίνεται εις βάρος της εκφραστικότητας και του ανοιχτού χαρακτήρα του προβλήματος. Για το σύνολο Research, εισάγουμε μια αρχιτεκτονική βαθμολόγησης βασισμένη σε κριτήρια για πιο ανοιχτού τύπου εργασίες. Κάθε ερώτηση περιλαμβάνει έναν πίνακα βαθμολόγησης με πολλαπλά, ανεξάρτητα και αντικειμενικά αξιολογήσιμα στοιχεία, συνολικής αξίας 10 μονάδων. Ο πίνακας αξιολόγησης δεν εξετάζει μόνο την ακρίβεια της τελικής απάντησης, αλλά και την ορθότητα των ενδιάμεσων βημάτων συλλογιστικής, επιτρέποντας πιο λεπτομερή ανάλυση της απόδοσης και των αποτυχιών των μοντέλων. Μια λύση θεωρείται «σωστή» αν συγκεντρώνει τουλάχιστον 7 από τους 10 βαθμούς.

Οι απαντήσεις αξιολογούνται από έναν βαθμολογητή βασισμένο σε μοντέλο (GPT‑5), είτε ως προς τη σύντομη απάντηση είτε ως προς τα κριτήρια του πίνακα βαθμολόγησης. Αν και ιδανικά θα χρησιμοποιούσαμε έναν ειδικό για τη βαθμολόγηση κάθε απάντησης, αυτή η προσέγγιση δεν παρέχει δυνατότητα κλιμάκωσης. Για τον λόγο αυτό, σχεδιάσαμε τον πίνακα αξιολόγησης ώστε να μπορεί να ελεγχθεί από βαθμολογητή μοντέλου. Αναπτύξαμε επίσης μια διαδικασία επαλήθευσης για να διασφαλίσουμε ότι οι πίνακες βαθμολόγησης και οι ερωτήσεις ήταν σωστά βαθμονομημένες ως προς τη δυσκολία και την ορθότητα.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Κάθε εργασία στο σύνολο Research βαθμολογείται με πίνακα αξιολόγησης συνολικής αξίας 10 μονάδων, ο οποίος μπορεί να χρησιμοποιηθεί είτε από ανθρώπινο ειδικό είτε από βαθμολογητή μοντέλου. Για να κλιμακώσουμε την ικανότητά μας να αξιολογούμε μοντέλα, χρησιμοποιούμε ένα άλλο μοντέλο για τη βαθμολόγηση των απαντήσεων.

Απόδοση μοντέλου

Αξιολογήσαμε αρκετά κορυφαία μοντέλα: το GPT‑5.2, το Claude Opus 4.5, το Gemini 3 Pro, το GPT‑4o, το OpenAI o4-mini και το OpenAI o3 στα FrontierScience-Olympiad και FrontierScience-Research. Όλα τα μοντέλα συλλογιστικής αξιολογήθηκαν με «υψηλή» προσπάθεια συλλογιστικής, με εξαίρεση το GPT‑5.2 που αξιολογήθηκε με πολύ υψηλή («xhigh»). Στις αρχικές μας αξιολογήσεις, το GPT‑5.2 είναι το μοντέλο με την υψηλότερη επίδοση στο FrontierScience-Olympiad (με βαθμολογία 77%) και στο Research (με βαθμολογία 25%), μπροστά από άλλα κορυφαία μοντέλα. Το Gemini 3 Pro είναι συγκρίσιμο με το GPT‑5.2 στο σύνολο Olympiad (με βαθμολογία 76%).

Έχουμε δει σημαντική πρόοδο στην επίλυση ερωτήσεων επιπέδου ειδικού, ειδικά σε ανοιχτού τύπου εργασίες ερευνητικού στιλ. Υπάρχει ακόμη περιθώριο βελτίωσης: από την ανάλυση των απομαγνητοφωνήσεων των αποτυχιών, τα κορυφαία μοντέλα μερικές φορές έκαναν λάθη συλλογιστικής, λογικής και υπολογισμών, δεν κατανοούσαν εξειδικευμένες επιστημονικές έννοιες και παρουσίαζαν πραγματολογικές ανακρίβειες.

Συγκρίνουμε τα ποσοστά ακρίβειας μεταξύ αρκετών κορυφαίων μοντέλων. Το GPT‑5.2 είναι το μοντέλο με την υψηλότερη επίδοση τόσο στο FrontierScience-Research όσο και στο σύνολο Olympiad.

Συγκρίνουμε τα ποσοστά ακρίβειας σε διαφορετικά επίπεδα προσπάθειας συλλογιστικής για τα GPT‑5.2 και o3. Ο μεγαλύτερος χρόνος σκέψης οδηγεί σε βελτιωμένη ακρίβεια.

Περιορισμοί και επόμενα βήματα

Παρότι το FrontierScience αποτελεί ένα βήμα προόδου ως προς τη δυσκολία των επιστημονικών δεικτών αξιολόγησης, εξακολουθούν να υπάρχουν σημαντικοί περιορισμοί. Το FrontierScience αποτελείται από ερωτήσεις με περιορισμένη διατύπωση προβλήματος, οι οποίες εστιάζουν είτε στην αξιολόγηση της τελικής απάντησης (Olympiad) είτε στην αξιολόγηση της συλλογιστικής που απαιτείται για την ολοκλήρωση μιας ερευνητικής εργασίας (Research). Επιπλέον, η χρήση πινάκων βαθμολόγησης με πολλαπλά επιμέρους κριτήρια σε μεγαλύτερης έκτασης εργασίες είναι λιγότερο αντικειμενική σε σύγκριση με τον έλεγχο μιας τελικής απάντησης.

Το FrontierScience προσφέρει ένα στιγμιότυπο υψηλότερης ανάλυσης της συλλογιστικής των μοντέλων πάνω σε απαιτητικές, γραμμένες από ειδικούς ερωτήσεις, αλλά δεν αποτυπώνει πλήρως τον τρόπο με τον οποίο διεξάγεται η επιστήμη στην πράξη. Συγκεκριμένα, δεν αξιολογεί ένα σημαντικό μέρος της επιστημονικής έρευνας: το πώς τα μοντέλα διατυπώνουν πραγματικά νέες υποθέσεις ή πώς αλληλεπιδρούν με πολλαπλές μορφές δεδομένων, συμπεριλαμβανομένων δεδομένων βίντεο και πραγματικών πειραματικών συστημάτων στον φυσικό κόσμο.

Ατενίζοντας το μέλλον, αναμένουμε ότι η πρόοδος στη επιστημονική συλλογιστική θα προέλθει τόσο από καλύτερα συστήματα γενικής συλλογιστικής όσο και από στοχευμένη προσπάθεια για τη βελτίωση εξειδικευμένων επιστημονικών δυνατοτήτων. Το FrontierScience είναι ένα εργαλείο ανάμεσα σε πολλά. Καθώς τα μοντέλα βελτιώνονται, σκοπεύουμε να επαναλάβουμε και να εξελίξουμε αυτόν τον δείκτη αξιολόγησης, να τον επεκτείνουμε σε νέα πεδία και να τον συνδυάσουμε με περισσότερες αξιολογήσεις πραγματικού κόσμου που εξετάζουν τι επιτρέπουν στην πράξη αυτά τα συστήματα στους επιστήμονες. Δείκτες αξιολόγησης όπως το FrontierScience μάς βοηθούν να κατανοούμε τις αδυναμίες των σημερινών συστημάτων ΤΝ, ώστε να εστιάσουμε το έργο μας στη δημιουργία μοντέλων που μπορούν να αποτελέσουν αξιόπιστους συνεργάτες στην επιστημονική ανακάλυψη.

Συντάκτης

OpenAI

Συνεχίστε να διαβάζετε

Εμφάνιση όλων

GPT-Red: Ξεκλειδώνοντας την αυτοβελτίωση για ανθεκτικότητα

Ασφάλεια15 Ιουλ 2026

Διαχωρισμός σήματος από θόρυβο στις αξιολογήσεις προγραμματισμού

Έρευνα8 Ιουλ 2026

Ανακαλύψτε το GeneBench-Pro

Έρευνα30 Ιουν 2026