Μετάβαση στο κύριο περιεχόμενο
OpenAI

Ένα βήμα μπροστά στις επιστήμες και τα μαθηματικά με το GPT‑5.2

Το GPT‑5.2 είναι το πιο ισχυρό μοντέλο μας μέχρι σήμερα για εργασίες που σχετίζονται με τα μαθηματικά και τις επιστήμες.

Φόρτωση…

Ένας από τους στόχους μας για την ισχυρή ΤΝ είναι να συμβάλει στην επιτάχυνση της επιστημονικής έρευνας προς όφελος όλων, βοηθώντας τους ερευνητές να εξερευνήσουν περισσότερες ιδέες, να τις θέσουν σε δοκιμασία πιο γρήγορα και να μετουσιώσουν τις ανακαλύψεις τους σε εφαρμογές με αντίκτυπο για την κοινωνία. 

Κατά τη διάρκεια του περασμένου έτους, συνεργαστήκαμε στενά με επιστήμονες από τον χώρο των μαθηματικών, της φυσικής, της βιολογίας και της επιστήμης των υπολογιστών, προκειμένου να κατανοήσουμε πού μπορεί να βοηθήσει η ΤΝ — και πού υστερεί ακόμα. Τον περασμένο μήνα, δημοσιεύσαμε μια μελέτη που συνδυάζει πρώιμες έρευνες περιπτώσεων από τα μαθηματικά, τη φυσική, τη βιολογία, την επιστήμη των υπολογιστών, την αστρονομία και την επιστήμη των υλικών, στις οποίες το GPT‑5 βοήθησε τους ερευνητές, καταδεικνύοντας ότι έχει ήδη αρχίσει να συνεισφέρει στην πραγματική επιστημονική εργασία. Με το GPT‑5.2, αρχίζουμε να βλέπουμε ότι οι καρποί των προσπαθειών μας γίνονται πλέον πιο σταθεροί και αξιόπιστοι.

Ισχυρότερη απόδοση εκεί όπου σημασία έχει η ακρίβεια

Τα GPT‑5.2 Pro και GPT‑5.2 Thinking είναι τα ισχυρότερα μοντέλα μας μέχρι στιγμής για επιστημονική και μαθηματική εργασία.

Η ισχυρή μαθηματική συλλογιστική αποτελεί θεμέλιο για την αξιοπιστία στο επιστημονικό και τεχνικό έργο. Επιτρέπει στα μοντέλα να ακολουθούν λογική πολλαπλών βημάτων, να διατηρούν τις ποσότητες συνεπείς και να αποφεύγουν μικρά σφάλματα που μπορούν να συσσωρευτούν σε πραγματικές αναλύσεις — από προσομοιώσεις και στατιστικές μέχρι πρόβλεψη και μοντελοποίηση. Οι βελτιώσεις σε δείκτες αξιολόγησης όπως το FrontierMath δεν αντικατοπτρίζουν μια στενή δεξιότητα, αλλά μια ισχυρότερη γενική συλλογιστική και αφαιρετικότητα, ικανότητες που μεταφέρονται άμεσα σε επιστημονικές ροές εργασίας όπως είναι ο προγραμματισμός, η ανάλυση δεδομένων και ο πειραματικός σχεδιασμός.

Αυτές οι δυνατότητες είναι επίσης στενά συνδεδεμένες με την πρόοδο προς τη γενική νοημοσύνη. Ένα σύστημα που μπορεί να συλλογίζεται αξιόπιστα μέσω της αφαίρεσης, να επιδεικνύει συνέπεια σε μακροσκελείς αλληλουχίες σκέψεων και να γενικεύει σε διάφορους τομείς, επιδεικνύει χαρακτηριστικά που είναι θεμελιώδη για την Τεχνητή Γενική Νοημοσύνη (AGI) — όχι τεχνάσματα ειδικά για εργασίες, αλλά ευρείες, μεταβιβάσιμες δεξιότητες συλλογιστικής που είναι σημαντικές για όλες τις επιστήμες, τη μηχανική και τη λήψη αποφάσεων στον πραγματικό κόσμο.

Πιστεύουμε ότι το GPT‑5.2 Pro όσο και το GPT‑5.2 Thinking είναι τα καλύτερα μοντέλα στον κόσμο ως προς τη στήριξη και την επιτάχυνση των εργασιών των επιστημόνων. Στο GPQA Diamond, έναν δείκτη αξιολόγησης με ερωτήσεις και απαντήσεις επιπέδου μεταπτυχιακού που είναι ανθεκτικό στην αναζήτηση στο Google, το GPT‑5.2 Pro είχε επίδοση 93,2%, ενώ από κοντά ακολούθησε και το GPT‑5.2 Thinking με 92,4%.

Στο GPQA Diamond(ανοίγει σε νέο παράθυρο), τα μοντέλα απαντούν σε ερωτήσεις πολλαπλής επιλογής για φυσική, χημεία και βιολογία. Δεν ενεργοποιήθηκαν εργαλεία και η προσπάθεια συλλογιστικής ορίστηκε στο μέγιστο.

Στο FrontierMath (Tier 1–3), μια αξιολόγηση μαθηματικών επιπέδου ειδικού, το GPT‑5.2 Thinking καθόρισε ένα νέο κορυφαίο πρότυπο, επιλύοντας 40,3% των προβλημάτων.

Στο FrontierMath(ανοίγει σε νέο παράθυρο), τα μοντέλα επιλύουν προβλήματα μαθηματικών σε επίπεδο ειδικού. Ενεργοποιήθηκε ένα εργαλείο Python και η προσπάθεια συλλογιστικής ορίστηκε στο μέγιστο.

Μελέτη περίπτωσης

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(ανοίγει σε νέο παράθυρο).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Μελλοντικά σχέδια

Αυτό το αποτέλεσμα υποδεικνύει μια χρήσιμη προσέγγιση ως προς το πώς μπορούν τα συστήματα ΤΝ να παρέχουν υποστήριξη στην επιστημονική έρευνα, ιδιαίτερα σε τομείς με αξιωματικές θεωρητικές βάσεις όπως είναι τα μαθηματικά και η θεωρητική επιστήμη των υπολογιστών. Σε τέτοια περιβάλλοντα, τα κορυφαία μοντέλα μπορούν να βοηθήσουν στην αναζήτηση αποδείξεων, τη δοκιμή υποθέσεων και τον εντοπισμό συνδέσεων που διαφορετικά θα απαιτούσαν σημαντική ανθρώπινη προσπάθεια για να αποκαλυφθούν.

Ταυτόχρονα, αυτά τα συστήματα δεν αποτελούν ανεξάρτητους ερευνητές. Η κρίση των ειδικών, η επαλήθευση και η κατανόηση του τομέα παραμένουν ουσιώδη στοιχεία. Ακόμη και τα πολύ ικανά μοντέλα μπορεί να κάνουν λάθη ή να βασίζονται σε μη δηλωμένες υποθέσεις. Αλλά μπορούν επίσης να παράγουν λεπτομερή, δομημένα επιχειρήματα που αξίζουν προσεκτική μελέτη και βελτίωση από το ανθρώπινο στοιχείο. Η αξιόπιστη πρόοδος με την ΤΝ εξαρτάται επομένως από τις ροές εργασίας που διατηρούν την επικύρωση, τη διαφάνεια και τη συνεργασία σταθερά εντός της διαδικασίας.

Αν αντιμετωπιστεί ως μελέτη περίπτωσης, αυτό το αποτέλεσμα απεικονίζει μια αναδυόμενη μορφή ερευνητικής πρακτικής. Τα μοντέλα όπως το GPT‑5.2 μπορούν να χρησιμεύσουν ως εργαλεία για την υποστήριξη της μαθηματικής συλλογιστικής και την επιτάχυνση της διερεύνησης στα αρχικά στάδια, ενώ η ευθύνη για την ορθότητα, την ερμηνεία και το θεματικό πλαίσιο παραμένει στα χέρια του ανθρώπινου στοιχείου μέσω των ερευνητών. Εάν χρησιμοποιηθούν προσεκτικά, τέτοια συστήματα μπορεί να βοηθήσουν στην απλοποίηση σημαντικών πτυχών του θεωρητικού έργου χωρίς να εκτοπίσουν τον κεντρικό ρόλο της ανθρώπινης κρίσης στην επιστημονική έρευνα.