Μετάβαση στο κύριο περιεχόμενο
OpenAI

11 Δεκεμβρίου 2025

ΠροϊόνΈκδοση

Το GPT‑5.2 είναι εδώ!

Το πιο προηγμένο κορυφαίο μοντέλο για επαγγελματική χρήση και πράκτορες μεγάλης διάρκειας.

Φόρτωση…

Παρουσιάζουμε το GPT‑5.2, τη σειρά μοντέλων με τις υψηλότερες δυνατότητες μέχρι σήμερα για διανοητική εργασία από επαγγελματίες.

Ήδη, ο μέσος χρήστης του ChatGPT Enterprise αναφέρει ότι η ΤΝ τού εξοικονομεί 40–60 λεπτά την ημέρα, ενώ οι συχνοί χρήστες αναφέρουν ότι εξοικονομούν πάνω από 10 ώρες την εβδομάδα. Σχεδιάσαμε το GPT‑5.2 με σκοπό να βοηθήσουμε τους ανθρώπους να αποκομίζουν ακόμη περισσότερα οικονομικά οφέλη. Έχει βελτιωθεί στη δημιουργία υπολογιστικών φύλλων, στη διαμόρφωση παρουσιάσεων, στο γράψιμο κώδικα, στην αντίληψη εικόνων, στην κατανόηση μακροσκελών θεματικών πλαισίων, στη χρήση εργαλείων και στη διαχείριση σύνθετων έργων με πολλά βήματα.

Το GPT‑5.2 θέτει ένα νέο πρότυπο σε πολλούς δείκτες αξιολόγησης, συμπεριλαμβανομένου του GDPval, όπου υπερέχει των επαγγελματιών του κλάδου σε καλά καθορισμένες διανοητικές εργασίες που καλύπτουν 44 επαγγέλματα.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (επιτυχίες ή ισοπαλίες)
Διανοητικές εργασίες

70,9%

38,8% (GPT‑5)

SWE-Bench Pro (public)
Μηχανική λογισμικού

55,6%

50,8%

SWE-bench Verified
Μηχανική λογισμικού

80,0%

76,3%

GPQA Diamond (χωρίς εργαλεία)
Επιστημονικές ερωτήσεις

92,4%

88,1%

CharXiv Reasoning (με Python)
Ερωτήσεις για επιστημονικά διαγράμματα

88,7%

80,3%

HMMT (Φεβρουάριος 2025)
Μαθηματικός διαγωνισμός

99,4%

96,3%

FrontierMath (Βαθμίδα 1–3)
Προχωρημένα μαθηματικά

40,3%

31,0%

ARC-AGI-1 (Verified)
Αφαιρετική συλλογιστική

86,2%

72,8%

ARC-AGI-2 (Verified)
Αφαιρετική συλλογιστική

52,9%

17,6%

Οι εταιρείες Notion(ανοίγει σε νέο παράθυρο), Box(ανοίγει σε νέο παράθυρο), Shopify(ανοίγει σε νέο παράθυρο), Harvey(ανοίγει σε νέο παράθυρο) και Zoom(ανοίγει σε νέο παράθυρο) παρατήρησαν ότι το GPT‑5.2 επιδεικνύει κορυφαία απόδοση στη συλλογιστική μεγάλης εμβέλειας και στην κλήση εργαλείων. Οι εταιρείες Databricks(ανοίγει σε νέο παράθυρο), Hex(ανοίγει σε νέο παράθυρο) και Triple Whale(ανοίγει σε νέο παράθυρο) διαπίστωσαν ότι το GPT‑5.2 έχει εξαιρετική απόδοση σε εργασίες που αφορούν σε επιστημονικά δεδομένα και σε εργασίες ανάλυσης εγγράφων με πράκτορα. Οι εταιρείες Cognition(ανοίγει σε νέο παράθυρο), Warp(ανοίγει σε νέο παράθυρο), Charlie Labs(ανοίγει σε νέο παράθυρο), JetBrains(ανοίγει σε νέο παράθυρο) και Augment Code(ανοίγει σε νέο παράθυρο) αναφέρουν ότι το GPT‑5.2 σημειώνει κορυφαίες επιδόσεις στον προγραμματισμό, με μετρήσιμες βελτιώσεις σε τομείς όπως είναι ο διαδραστικός προγραμματισμός, οι αναθεωρήσεις κώδικα και ο εντοπισμός σφαλμάτων.

Στο ChatGPT, τα GPT‑5.2 Instant, Thinking και Pro θα ξεκινήσουν να κυκλοφορούν σήμερα, αρχικά στα επί πληρωμή προγράμματα. Στο API, είναι πλέον διαθέσιμα για όλους τους προγραμματιστές.

Συνολικά, το GPT‑5.2 σημειώνει σημαντικές βελτιώσεις στη γενική νοημοσύνη, την κατανόηση μακροσκελών θεματικών πλαισίων, την κλήση εργαλείων πράκτορα και τα οπτικά μέσα, γεγονός που το καθιστά καλύτερο στην εκτέλεση σύνθετων, ολοκληρωμένων εργασιών στον πραγματικό κόσμο, σε σχέση με οποιοδήποτε προηγούμενο μοντέλο.

Απόδοση μοντέλου

Εργασίες με οικονομική αξία

Το GPT‑5.2 Thinking είναι το καλύτερο μοντέλο μέχρι σήμερα για επαγγελματική χρήση στον πραγματικό κόσμο. Στο GDPval, μια αξιολόγηση που μετρά καλά καθορισμένες διανοητικές εργασίες σε 44 επαγγέλματα, το GPT‑5.2 Thinking θέτει ένα νέο κορυφαίο πρότυπο, καθώς είναι το πρώτο μας μοντέλο που αποδίδει σε επίπεδο ανθρώπινου ειδικού. Συγκεκριμένα, το GPT‑5.2 Thinking ξεπερνά ή ισοφαρίζει κορυφαίους επαγγελματίες του κλάδου στο 70,9% των συγκρίσεων του GDPval σε διανοητικές εργασίες, σύμφωνα με ειδικούς ανθρώπινους κριτές. Αυτές οι εργασίες περιλαμβάνουν τη δημιουργία παρουσιάσεων, υπολογιστικών φύλλων και άλλων στοιχείων. Το GPT‑5.2 Thinking παρήγαγε αποτελέσματα για εργασίες GDPval με 11 φορές υψηλότερη ταχύτητα και με 1% χαμηλότερο κόστος σε σχέση με ειδικούς επαγγελματίες, κάτι που υποδεικνύει ότι όταν συνδυάζεται με ανθρώπινη επίβλεψη, το GPT‑5.2 μπορεί να βοηθήσει σε επαγγελματικές εργασίες. Οι εκτιμήσεις ταχύτητας και κόστους βασίζονται σε ιστορικά δεδομένα. Η ταχύτητα στο ChatGPT ενδέχεται να διαφέρει.

Στο GDPval, τα μοντέλα επιχειρούν καλά καθορισμένη διανοητική εργασία που εκτείνεται σε 44 επαγγέλματα από τους 9 κορυφαίους κλάδους που συμβάλλουν στο ΑΕΠ των ΗΠΑ. Οι εργασίες ζητούν πραγματικά παραδοτέα προϊόντα, όπως παρουσιάσεις πωλήσεων, υπολογιστικά φύλλα λογιστικής, προγράμματα επείγουσας φροντίδας, διαγράμματα κατασκευών ή σύντομα βίντεο. Στο ChatGPT, το GPT‑5.2 Thinking διαθέτει νέα εργαλεία που το GPT‑5 Thinking δεν διαθέτει.

Κατά την αξιολόγηση ενός ιδιαίτερα καλού αποτελέσματος, ένας κριτής του GDPval σχολίασε: «Πρόκειται για μια συναρπαστική και αξιοσημείωτη πρόοδο στην ποιότητα του αποτελέσματος... Φαίνεται να έχει γίνει από επαγγελματική εταιρεία με προσωπικό και έχει εκπληκτικά καλοσχεδιασμένη διάταξη και συμβουλές για τα δύο παραδοτέα, αν και με το ένα υπάρχουν ακόμα μερικά μικρά λάθη προς διόρθωση.»

Επιπλέον, στον εσωτερικό μας δείκτη αξιολόγησης για εργασίες μοντελοποίησης αναλυτών επενδυτικής τραπεζικής πρώτου επιπέδου —όπως η δημιουργία ενός μοντέλου τριών καταστάσεων για μια εταιρεία Fortune 500 με σωστή μορφοποίηση και παραπομπές, ή η δημιουργία ενός μοντέλου εξαγοράς με μόχλευση για μια ιδιωτική εξαγορά— ο μέσος όρος της βαθμολογίας του GPT‑5.2 Thinking ανά εργασία είναι κατά 9,3% υψηλότερη σε σχέση με του GPT‑5.1, σημειώνοντας άνοδο από το 59,1% στο 68,4%.

Οι συγκρίσεις κατ' αντιπαράθεση δείχνουν βελτιώσεις στα υπολογιστικά φύλλα και τη μορφοποίηση διαφανειών που δημιουργεί το GPT‑5.2 Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Προτροπή: Φτιάξε ένα μοντέλο προγράμματος εργατικού δυναμικού: αριθμός εργαζομένων, σχέδιο προσλήψεων, αποχωρήσεις και επίδραση στον προϋπολογισμό. Να συμπεριλάβεις τα τμήματα μηχανικής, μάρκετινγκ, νομικών υποθέσεων και πωλήσεων.

Για να χρησιμοποιήσετε τις νέες δυνατότητες υπολογιστικών φύλλων και παρουσιάσεων στο ChatGPT, πρέπει να έχετε συνδρομή σε ένα επί πληρωμή πρόγραμμα και να επιλέξετε είτε το GPT‑5.2 Thinking είτε το Pro. Οι σύνθετες δημιουργίες μπορεί να απαιτούν πολλά λεπτά για να παραχθούν.

Προγραμματισμός

Το GPT‑5.2 Thinking καθορίζει ένα νέο κορυφαίο πρότυπο με απόδοση 55,6% στο SWE-bench Pro, μια αυστηρή αξιολόγηση μηχανικής λογισμικού στον πραγματικό κόσμο. Σε αντίθεση με το SWE-bench Verified, το οποίο δοκιμάζει μόνο Python, το SWE-Bench Pro δοκιμάζει τέσσερις γλώσσες και έχει σκοπό να είναι πιο ανθεκτικό στη μόλυνση των δεδομένων, πιο απαιτητικό, ποικιλόμορφο και σχετικό με τον κλάδο.

Στο SWE-bench Pro(ανοίγει σε νέο παράθυρο), σε ένα μοντέλο δίνεται ένα αποθετήριο κώδικα και πρέπει να δημιουργήσει μια επιδιόρθωση ώστε να επιλύσει μια ρεαλιστική εργασία μηχανικής λογισμικού.

Στη δοκιμή SWE-bench Verified (δεν απεικονίζεται), το GPT‑5.2 Thinking σημειώνει το νέο ρεκόρ βαθμολογίας με 80%.

Για καθημερινή επαγγελματική χρήση, αυτό μεταφράζεται σε ένα μοντέλο που μπορεί να εντοπίζει σφάλματα στον κώδικα παραγωγής με μεγαλύτερη αξιοπιστία, να υλοποιεί αιτήματα για νέες λειτουργίες, να αναδιαμορφώνει μεγάλες βάσεις κώδικα και να κάνει ολοκληρωμένες διορθώσεις με λιγότερες χειροκίνητες παρεμβάσεις.

Το GPT‑5.2 Thinking είναι επίσης καλύτερο στη μηχανική λογισμικού που έρχεται σε επαφή με τον χρήστη σε σχέση με το GPT‑5.1 Thinking. Στις πρώτες δοκιμές, διαπιστώθηκε ότι είναι σημαντικά πιο ισχυρό στην ανάπτυξη περιβαλλόντων που είναι ορατά στον χρήστη και σε σύνθετες ή ασυνήθιστες εργασίες περιβάλλοντος χρήστη —ειδικά όταν περιλαμβάνονται στοιχεία 3D— γεγονός που το καθιστά έναν ισχυρό καθημερινό σύντροφο για μηχανικούς κάθε είδους. Δείτε μερικά παραδείγματα από το τι μπορεί να δημιουργηθεί από μία μόνο προτροπή:

Προτροπή: Φτιάξε μια εφαρμογή μιας σελίδας σε ένα μόνο αρχείο HTML με τις ακόλουθες απαιτήσεις:
- Όνομα: Ocean Wave Simulation
- Στόχος: Εμφάνιση ρεαλιστικών κυμάτων με κινούμενα σχέδια.
- Χαρακτηριστικά: Αλλαγή ταχύτητας ανέμου, ύψους κύματος, φωτισμού.
- Το περιβάλλον χρήστη πρέπει να είναι χαλαρωτικό και ρεαλιστικό.

Στις πρώτες δοκιμές, τα σχόλια για τις δυνατότητες προγραμματισμού του GPT‑5.2 ήταν τα εξής:

«Το GPT-5.2 αποτελεί το μεγαλύτερο άλμα για τα μοντέλα GPT στον προγραμματισμό βάσει πρακτόρων από το GPT-5 και είναι ένα μοντέλο προγραμματισμού τελευταίας τεχνολογίας στην κατηγορία τιμής του. Η αναβάθμιση της έκδοσης δεν αποτυπώνει με ακρίβεια τη νοημοσύνη του. Είμαστε ενθουσιασμένοι που το χρησιμοποιούμε πλέον ως προεπιλογή σε όλη τη Windsurf και σε αρκετά βασικούς φόρτους εργασίας της Devin.»
Τζεφ Γουάνγκ, CEO της Windsurf

Ακρίβεια

Το GPT‑5.2 Thinking έχει λιγότερες παραισθήσεις από το GPT‑5.1 Thinking. Σε ένα σύνολο ανωνυμοποιημένων ερωτημάτων από το ChatGPT, οι απαντήσεις με σφάλματα ήταν 38%rel λιγότερο συχνές. Για τους επαγγελματίες, αυτό σημαίνει λιγότερα λάθη κατά τη χρήση του μοντέλου για έρευνα, σύνταξη κειμένου, ανάλυση και υποστήριξη αποφάσεων, γεγονός που καθιστά το μοντέλο πιο αξιόπιστο για καθημερινή διανοητική εργασία.

Η προσπάθεια συλλογιστικής ορίστηκε στο μέγιστο δυνατό και ενεργοποιήθηκε ένα εργαλείο αναζήτησης. Εντοπίστηκαν σφάλματα από άλλα μοντέλα, τα οποία ενδέχεται να κάνουν και τα ίδια σφάλματα. Τα ποσοστά σφάλματος σε επίπεδο επιβεβαίωσης είναι πολύ χαμηλότερα από τα ποσοστά σφάλματος σε επίπεδο απάντησης, καθώς οι περισσότερες απαντήσεις περιέχουν πολλές επιβεβαιώσεις.

Όπως όλα τα μοντέλα, το GPT‑5.2 Thinking δεν είναι τέλειο. Για κρίσιμα ζητήματα, να διασταυρώνετε τις απαντήσεις του.

Μακροσκελές θεματικό πλαίσιο

Το GPT‑5.2 Thinking καθορίζει ένα νέο πρότυπο στη συλλογιστική με μακροσκελές θεματικό πλαίσιο, επιτυγχάνοντας κορυφαία απόδοση στο OpenAI MRCRv2, μια αξιολόγηση που καταμετρά την ικανότητα ενός μοντέλου να ενσωματώνει πληροφορίες που βρίσκονται διασκορπισμένες σε μακροσκελή έγγραφα. Σε πραγματικές εργασίες, όπως η βαθιά ανάλυση εγγράφων, που απαιτούν σχετικές πληροφορίες από εκατοντάδες χιλιάδες token, το GPT‑5.2 Thinking είναι σημαντικά πιο ακριβές από το GPT‑5.1 Thinking. Συγκεκριμένα, είναι το πρώτο μοντέλο που επιτυγχάνει σχεδόν 100% ακρίβεια στην παραλλαγή MRCR 4 βελόνων (έως 256.000 token).

Πρακτικά, αυτό δίνει τη δυνατότητα στους επαγγελματίες να χρησιμοποιούν το GPT‑5.2 για να εργάζονται σε μακροσκελή έγγραφα, όπως αναφορές, συμβόλαια, ερευνητικές εργασίες, απομαγνητοφωνήσεις και έργα πολλαπλών αρχείων, διατηρώντας τη συνοχή και την ακρίβεια σε εκατοντάδες χιλιάδες token. Αυτό καθιστά το GPT‑5.2 ιδιαίτερα κατάλληλο για βαθιά ανάλυση, σύνθεση και πολύπλοκες ροές εργασίας από πολλαπλές πηγές.

Στο OpenAI-MRCR⁠(ανοίγει σε νέο παράθυρο) v2 (ανάλυση συναναφοράς πολλαπλών γύρων), πολλαπλά πανομοιότυπα αιτήματα χρήστη στη μορφή «βελόνων» εισάγονται σε μεγάλες στοίβες από «άχυρα» από παρόμοια αιτήματα και απαντήσεις, και ζητείται από το μοντέλο να αναπαράγει την απόκριση στη νιοστή βελόνα. Η έκδοση 2 της αξιολόγησης διορθώνει περίπου το 5% των εργασιών που είχαν λανθασμένες τιμές σε αληθή δεδομένα. Ο μέσος λόγος αντιστοίχισης μετρά τον μέσο όρο της αντιστοίχισης συμβολοσειρών μεταξύ της απόκρισης του μοντέλου και της σωστής απάντησης. Τα σημεία στα μέγιστα 256.000 token εισαγωγής αντιπροσωπεύουν μέσους όρους πάνω από 128.000–256.000 token εισαγωγής, και ούτω καθεξής. Εδώ, το 256.000 αντιστοιχεί σε 256 * 1.024 = 262.114 token. Η προσπάθεια συλλογιστικής ορίστηκε στο μέγιστο διαθέσιμο.

Για εργασίες που επωφελούνται από τη σκέψη πέρα από το μέγιστο θεματικό πλαίσιο, το GPT‑5.2 Thinking είναι συμβατό με το νέο μας τελικό σημείο Responses/compact, το οποίο επεκτείνει το αποτελεσματικό παράθυρο θεματικού πλαισίου του μοντέλου. Έτσι, το GPT‑5.2 Thinking μπορεί να διαχειρίζεται ροές εργασίας που απαιτούν περισσότερα εργαλεία και είναι μεγαλύτερης διάρκειας, οι οποίες διαφορετικά θα περιορίζονταν από τον όγκο του θεματικού πλαισίου. Διαβάστε περισσότερα στην Τεκμηρίωση API(ανοίγει σε νέο παράθυρο).

Όραμα

Το GPT‑5.2 Thinking είναι το ισχυρότερο μοντέλο για οπτικά μέσα μέχρι σήμερα, μειώνοντας τα ποσοστά σφάλματος περίπου στο μισό στην κατανόηση διαγραμμάτων και περιβάλλοντος χρήστη λογισμικού.

Για καθημερινή επαγγελματική χρήση, αυτό σημαίνει ότι το μοντέλο μπορεί να ερμηνεύει με μεγαλύτερη ακρίβεια πίνακες εργαλείων, στιγμιότυπα εικόνων από προϊόντα, τεχνικά διαγράμματα και οπτικές αναφορές, υποστηρίζοντας ροές εργασίας στα οικονομικά, τις λειτουργίες, τη μηχανική, τον σχεδιασμό και την υποστήριξη πελατών, όπου οι οπτικές πληροφορίες έχουν κεντρικό ρόλο.

Στο CharXiv Reasoning(ανοίγει σε νέο παράθυρο), τα μοντέλα απαντούν σε ερωτήσεις σχετικά με οπτικά διαγράμματα από επιστημονικά άρθρα. Ενεργοποιήθηκε ένα εργαλείο Python και η προσπάθεια συλλογιστικής ορίστηκε στο μέγιστο.

Στο ScreenSpot-Pro(ανοίγει σε νέο παράθυρο), τα μοντέλα πρέπει να συλλογιστούν πάνω σε στιγμιότυπα οθόνης υψηλής ανάλυσης με γραφικά περιβάλλοντα χρήστη σε διάφορες επαγγελματικές ρυθμίσεις. Ενεργοποιήθηκε ένα εργαλείο Python και η προσπάθεια συλλογιστικής ορίστηκε στο μέγιστο. Χωρίς το εργαλείο Python, οι βαθμολογίες είναι πολύ χαμηλότερες. Συνιστούμε την ενεργοποίηση του εργαλείου Python σε εργασίες με οπτικά μέσα όπως αυτές.

Σε σύγκριση με προηγούμενα μοντέλα, το GPT‑5.2 Thinking αντιλαμβάνεται καλύτερα πώς είναι τοποθετημένα τα στοιχεία εντός μιας εικόνας, κάτι που βοηθά σε εργασίες όπου η διάταξη έχει σημαντικό ρόλο στην επίλυση ενός προβλήματος. Στο παρακάτω παράδειγμα, ζητάμε από το μοντέλο να αναγνωρίσει τα στοιχεία στην εισαγωγή μιας εικόνας (σε αυτήν την περίπτωση, μια μητρική πλακέτα) και να τοποθετήσει ετικέτες με κατά προσέγγιση οριοθετημένα πλαίσια. Ακόμη και σε μια εικόνα χαμηλής ποιότητας, το GPT‑5.2 αναγνωρίζει τις κύριες περιοχές και τοποθετεί πλαίσια που ταιριάζουν περίπου με τις πραγματικές τοποθεσίες κάθε στοιχείου, ενώ το GPT‑5.1 επισημαίνει μόνο μερικά μέρη και επιδεικνύει πολύ πιο αδύναμη κατανόηση της χωρικής τους διάταξης.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
Το GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Κλήση εργαλείων

Το GPT‑5.2 Thinking επιτυγχάνει μια νέα κορυφαία επίδοση της τάξεως του 98,7% στο Tau2-bench Telecom, αποδεικνύοντας την ικανότητά του να χρησιμοποιεί αξιόπιστα εργαλεία σε εργασίες μεγάλης διάρκειας και πολλαπλών αλλαγών.

Για σενάρια χρήσης όπου έχει σημασία η λανθάνουσα καθυστέρηση, το GPT‑5.2 Thinking αποδίδει επίσης πολύ καλύτερα στη συλλογιστική.effort=’none’, ξεπερνώντας κατά πολύ το GPT‑5.1 και το GPT‑4.1.

Στο τ2-bench⁠(ανοίγει σε νέο παράθυρο), τα μοντέλα χρησιμοποιούν εργαλεία για να ολοκληρώσουν εργασίες υποστήριξης πελατών σε μια πολυδιάστατη αλληλεπίδραση με προσομοιωμένο χρήστη. Για τον τομέα των τηλεπικοινωνιών, συμπεριλάβαμε μια σύντομη, γενικά χρήσιμη οδηγία στην προτροπή του συστήματος για να ενισχύσουμε την απόδοση. Εξαιρούμε το υποσύνολο των αεροπορικών εταιρειών, λόγω χαμηλότερης ποιότητας βαθμολόγησης της πραγματικής απόδοσης.

Για τους επαγγελματίες, αυτό μεταφράζεται σε ισχυρότερες ολοκληρωμένες ροές εργασίας, όπως είναι η επίλυση υποθέσεων υποστήριξης πελατών, η άντληση δεδομένων από πολλαπλά συστήματα, η εκτέλεση αναλύσεων και η δημιουργία τελικών αποτελεσμάτων με λιγότερες διακοπές μεταξύ των βημάτων.

Για παράδειγμα, όταν τίθεται μια σύνθετη ερώτηση στην εξυπηρέτηση πελατών που απαιτεί επίλυση μέσα από πολλά βήματα, το μοντέλο μπορεί να συντονίσει πιο αποτελεσματικά μια πλήρη ροή εργασίας μεταξύ πολλών πρακτόρων. Στο παρακάτω σενάριο, ένας ταξιδιώτης αναφέρει καθυστέρηση πτήσης, χαμένη ανταπόκριση, διανυκτέρευση στη Νέα Υόρκη και απαίτηση για ειδική θέση λόγω ιατρικών ζητημάτων. Το GPT‑5.2 διαχειρίζεται ολόκληρη την αλυσίδα εργασιών, από την επανακράτηση και την ειδική βοήθεια για τη θέση έως την αποζημίωση, παρέχοντας ένα πιο ολοκληρωμένο αποτέλεσμα από το GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
Το GPT‑5.2
Example of tool calling output in GPT-5.2

Επιστήμες και μαθηματικά

Ένας από τους στόχους μας σχετικά με την ΤΝ είναι να επιταχύνει την επιστημονική έρευνα προς όφελος όλων. Έχοντας αυτό κατά νου, συνεργαζόμαστε και ακούμε την άποψη επιστημόνων, προκειμένου να δούμε πώς η ΤΝ μπορεί να επιταχύνει το έργο τους. Έτσι, τον περασμένο μήνα ανακοινώσαμε μερικά πρώιμα πειράματα μέσω συνεργασιών μας εδώ.

Πιστεύουμε ότι το GPT‑5.2 Pro και το GPT‑5.2 Thinking είναι τα καλύτερα μοντέλα στον κόσμο ως προς τη στήριξη και την επιτάχυνση των εργασιών των επιστημόνων. Στο GPQA Diamond, έναν δείκτη αξιολόγησης με ερωτήσεις και απαντήσεις επιπέδου μεταπτυχιακού που είναι ανθεκτικό στην αναζήτηση στο Google, το GPT‑5.2 Pro είχε επίδοση 93,2%, ενώ από κοντά ακολούθησε και το GPT‑5.2 Thinking με 92,4%.

Στο GPQA Diamond(ανοίγει σε νέο παράθυρο), τα μοντέλα απαντούν σε ερωτήσεις πολλαπλής επιλογής για φυσική, χημεία και βιολογία. Δεν ενεργοποιήθηκαν εργαλεία και η προσπάθεια συλλογιστικής ορίστηκε στο μέγιστο.

Στο FrontierMath (Tier 1–3), μια αξιολόγηση μαθηματικών επιπέδου ειδικού, το GPT‑5.2 Thinking καθόρισε ένα νέο κορυφαίο πρότυπο, επιλύοντας 40,3% των προβλημάτων.

Στο FrontierMath(ανοίγει σε νέο παράθυρο), τα μοντέλα επιλύουν προβλήματα μαθηματικών επιπέδου ειδικού. Ενεργοποιήθηκε ένα εργαλείο Python και η προσπάθεια συλλογιστικής ορίστηκε στο μέγιστο.

Αρχίζουμε να βλέπουμε μοντέλα ΤΝ να σημειώνουν ουσιαστική πρόοδο στα μαθηματικά και τις επιστήμες με απτούς τρόπους. Για παράδειγμα, σε πρόσφατη εργασία με το GPT‑5.2 Pro, οι ερευνητές εξερεύνησαν ένα ανοιχτό ερώτημα στη θεωρία στατιστικής εκμάθησης. Σε ένα στενό, καλά καθορισμένο πλαίσιο, το μοντέλο πρότεινε μια απόδειξη που επαληθεύτηκε στη συνέχεια από τους συντάκτες και εξετάστηκε από εξωτερικούς ειδικούς, αποτυπώνοντας ότι τα πρωτοποριακά μοντέλα μπορούν να υποστηρίξουν τη μαθηματική έρευνα υπό στενή ανθρώπινη επίβλεψη.

ARC-AGI 2

Στο ARC-AGI-1 (Verified), έναν δείκτη αξιολόγησης που έχει σχεδιαστεί για τη μέτρηση της γενικής ικανότητας συλλογιστικής, το GPT‑5.2 είναι το πρώτο μοντέλο που ξεπερνά το όριο του 90%, σημειώνοντας βελτίωση σε σχέση με το 87% που είχε επιτύχει το o3‑preview πέρυσι, ενώ περιορίζει το κόστος επίτευξης αυτής της απόδοσης κατά περίπου 390 φορές.

Στο ARC-AGI-2 (Verified), το οποίο αυξάνει τη δυσκολία και απομονώνει καλύτερα τη ρευστή συλλογιστική, το GPT‑5.2 Thinking επιτυγχάνει νέο ρεκόρ για τα μοντέλα αλληλουχίας σκέψεων, σημειώνοντας 52,9%. Το GPT‑5.2 Pro αποδίδει ακόμη καλύτερα, φτάνοντας το 54,2%, επεκτείνοντας περαιτέρω την ικανότητα του μοντέλου να συλλογίζεται σε νέα, αφηρημένα προβλήματα.

Οι βελτιώσεις σε αυτές τις αξιολογήσεις αποτυπώνουν ότι το GPT‑5.2 επιδεικνύει ισχυρότερη συλλογιστική σε πολλαπλά βήματα, μεγαλύτερη ποσοτική ακρίβεια και πιο αξιόπιστη επίλυση προβλημάτων σε σύνθετες τεχνικές εργασίες.

Ιδού τι λένε οι συμμετέχοντες στις πρώτες δοκιμές μας για το GPT‑5.2:

«Το GPT-5.2 έδωσε το έναυσμα για πλήρη αλλαγή της αρχιτεκτονικής μας. Συμπτύξαμε ένα ευαίσθητο σύστημα πολλαπλών πρακτόρων σε έναν ενιαίο μεγάλο πράκτορα με περισσότερα από 20 εργαλεία. Και το καλύτερο είναι ότι έχει αποτέλεσμα. Ο μεγάλος πράκτορας είναι ταχύτερος, εξυπνότερος και 100 φορές πιο εύκολος στη συντήρηση. Επίσης, παρατηρείται δραματικά χαμηλότερη λανθάνουσα καθυστέρηση και πολύ ισχυρότερη κλήση εργαλείων, ενώ δεν χρειαζόμαστε πλέον εκτεταμένες προτροπές συστήματος, επειδή το 5.2 θα εκτελείται καθαρά με μια απλή προτροπή μίας γραμμής. Είναι μαγικό.»
Έι Τζέι Όρμπακ, CEO, Triple Whale

Το GPT‑5.2 στο ChatGPT

Στο ChatGPT, οι χρήστες θα παρατηρήσουν ότι το GPT‑5.2 είναι καλύτερο στην καθημερινή χρήση — πιο δομημένο, πιο αξιόπιστο και ακόμα πιο απολαυστικό στη συνομιλία.

Το GPT‑5.2 Instant είναι ένα γρήγορο αλλά ικανό ισχυρό εργαλείο για καθημερινή επαγγελματική χρήση και μάθηση, με σαφείς βελτιώσεις σε ερωτήσεις που απαιτούν αναζήτηση πληροφοριών, αναλυτικές οδηγίες και καθοδήγηση, σύνταξη τεχνικών κειμένων και μετάφραση, διατηρώντας και επαυξάνοντας το ζεστό στιλ συνομιλίας του GPT‑5.1 Instant. Οι συμμετέχοντες στις πρώτες δοκιμές έδωσαν ιδιαίτερη έμφαση στις πιο σαφείς εξηγήσεις που αναδεικνύουν τις βασικές πληροφορίες από την αρχή.

Το GPT‑5.2 Thinking έχει σχεδιαστεί για βαθύτερη εργασία, βοηθώντας τους χρήστες να αντιμετωπίσουν πιο σύνθετες εργασίες με μεγαλύτερη ακρίβεια — ειδικά για προγραμματισμό, δημιουργία συνόψεων μεγάλων εγγράφων, απάντηση σε ερωτήσεις σχετικά με αποσταλμένα αρχεία, αναλυτική καθοδήγηση σε μαθηματικά σε θέματα λογικής, και υποστήριξη προγραμματισμού και λήψης αποφάσεων με πιο σαφή δομή και πιο χρήσιμες λεπτομέρειες.

Το GPT‑5.2 Pro είναι η πιο έξυπνη και αξιόπιστη επιλογή για δύσκολες ερωτήσεις, για τις περιπτώσεις που μια ανώτερης ποιότητας απάντηση αξίζει την αναμονή. Στις πρώτες δοκιμές, παρουσιάζει λιγότερα σημαντικά λάθη και ισχυρότερη απόδοση σε σύνθετους τομείς όπως είναι ο προγραμματισμός.

Ασφάλεια

Το GPT‑5.2 βασίζεται στην έρευνα για τις ασφαλείς ολοκληρώσεις που εισαγάγαμε με το GPT‑5, η οποία εκπαιδεύει το μοντέλο να παρέχει την πιο χρήσιμη απάντηση ενώ παραμένει εντός των ορίων ασφαλείας.

Με αυτήν την έκδοση, συνεχίσαμε το έργο μας με σκοπό να ενισχύσουμε τις απαντήσεις των μοντέλων μας σε ευαίσθητα ζητήματα, με ουσιαστικές βελτιώσεις στον τρόπο που ανταποκρίνονται σε προτροπές που φέρουν ενδείξεις αυτοκτονίας ή αυτοτραυματισμού, ψυχικής διαταραχής ή συναισθηματικής εξάρτησης από το μοντέλο. Αυτές οι στοχευμένες παρεμβάσεις έχουν οδηγήσει σε λιγότερες ανεπιθύμητες απαντήσεις τόσο από το GPT‑5.2 Instant όσο και από το GPT‑5.2 Thinking σε σύγκριση με τα μοντέλα GPT‑5.1, GPT‑5 Instant και Thinking. Περισσότερες λεπτομέρειες μπορείτε να βρείτε στην κάρτα συστήματος.

Διανύουμε τα πρώτα στάδια για τη διάθεση του μοντέλου πρόβλεψης ηλικίας ώστε να μπορούμε να εφαρμόζουμε αυτόματα μηχανισμούς προστασίας περιεχομένου σε χρήστες που είναι κάτω των 18 ετών, προκειμένου να περιορίσουμε την πρόσβαση σε ευαίσθητο περιεχόμενο. Η πρακτική αυτή είναι απόρροια της υφιστάμενης προσέγγισής μας για τους χρήστες που γνωρίζουμε ότι είναι κάτω των 18 ετών και τους γονικούς ελέγχους μας.

Το GPT‑5.2 αποτελεί ένα βήμα της συνεχιζόμενης προσπάθειάς μας για βελτιώσεις και απέχουμε πολύ ακόμα από την τελειότητα. Αν και αυτή η έκδοση προσφέρει ουσιαστικά οφέλη σε θέματα νοημοσύνης και παραγωγικότητας, γνωρίζουμε ότι υπάρχουν τομείς όπου οι χρήστες επιθυμούν περισσότερες βελτιώσεις. Στο ChatGPT, εργαζόμαστε πάνω σε γνωστά ζητήματα, όπως είναι οι υπερβολικές αρνήσεις, ενώ συνεχίζουμε να ανεβάζουμε τον πήχη συνολικά σε θέματα ασφάλειας και αξιοπιστίας. Αυτές οι αλλαγές είναι σύνθετες και δεσμευόμαστε να τις ολοκληρώσουμε με τον σωστό τρόπο.

Αξιολογήσεις ψυχικής υγείας


GPT‑5.2 Instant

GPT‑5.1 Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

Ψυχική υγεία

0,995

0,883

0,915

0,684

Συναισθηματική εξάρτηση

0,938

0,945

0,955

0,785

Αυτοτραυματισμός

0,938

0,925

0,963

0,937

Διαθεσιμότητα και τιμολόγηση

Στο ChatGPT, ξεκινάμε τη διάθεση του GPT‑5.2 (Instant, Thinking και Pro) σήμερα, κάνοντας την αρχή από τα επί πληρωμή προγράμματα (Plus, Pro, Go, Business, Enterprise). Αναπτύσσουμε σταδιακά το GPT‑5.2, ώστε να διατηρήσουμε τη λειτουργία του ChatGPT όσο το δυνατόν πιο αρμονική και αξιόπιστη. Αν δεν το δείτε κατευθείαν, δοκιμάστε ξανά αργότερα. Στο ChatGPT, το GPT‑5.1 θα παραμείνει διαθέσιμο στους επί πληρωμή χρήστες για τρεις μήνες στα προηγούμενα μοντέλα, οπότε και θα αποσύρουμε το GPT‑5.1.

Ονοματοδοσία μοντέλων για το ChatGPT και το API

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

Το GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

Στην πλατφόρμα API, το GPT‑5.2 Thinking διατίθεται σήμερα στο Responses API και στο Chat Completions API ως gpt-5.2, και το GPT‑5.2 Instant ως gpt-5.2-chat-latest. Το GPT‑5.2 Pro διατίθεται Responses API ως gpt-5.2-pro. Οι προγραμματιστές μπορούν τώρα να ορίσουν την παράμετρο συλλογιστικής στο GPT‑5.2 Pro, και τόσο το GPT‑5.2 Pro όσο και το GPT‑5.2 Thinking υποστηρίζουν τώρα τη νέα πέμπτη προσπάθεια συλλογιστικής του «xhigh» (εξαιρετικά υψηλό), για εργασίες όπου η ποιότητα έχει μεγαλύτερη σημασία.

Το GPT‑5.2 κοστίζει 1,75 $ ανά 1 εκατομμύριο token εισαγωγής και 14 $ ανά 1 εκατομμύριο token αποτελέσματος, με έκπτωση 90% στις εισαγωγές στο cache. Σε πολλαπλές αξιολογήσεις πρακτόρων, διαπιστώσαμε ότι, παρά το μεγαλύτερο κόστος ανά token του GPT‑5.2, το κόστος επίτευξης ενός δεδομένου επιπέδου ποιότητας κατέληξε να είναι λιγότερο δαπανηρό λόγω της πιο αποτελεσματικής αξιοποίησης των token στο GPT‑5.2.

Ενώ η τιμή της συνδρομής του ChatGPT παραμένει η ίδια, στο API το GPT‑5.2 έχει υψηλότερο κόστος ανά token από το GPT‑5.1 επειδή είναι πιο ικανό μοντέλο. Εξακολουθεί να κοστίζει λιγότερο από άλλα κορυφαία μοντέλα, ώστε οι χρήστες να μπορούν να συνεχίσουν να το χρησιμοποιούν εκτενώς στην καθημερινότητά τους και στις βασικές εφαρμογές τους.

Τιμή ανά εκατομμύριο token

Μοντέλο

Εισαγωγή

Εισαγωγή στο cache

Αποτέλεσμα

gpt-5.2 /
gpt-5.2-chat-latest

1,75 $

0,175 $

14 $

gpt-5.2-pro

21 $

-

168 $

gpt-5.1 /
gpt-5.1-chat-latest

1,25 $

0,125 $

10 $

gpt-5-pro

15 $

-

120 $

Προς το παρόν, δεν σκοπεύουμε να αποσύρουμε τα GPT‑5.1, GPT‑5 και GPT‑4.1 στο API. Θα ενημερώσουμε εγκαίρως τους προγραμματιστές για τυχόν σχέδια απόσυρσης αυτών των μοντέλων. Αν και το GPT‑5.2 θα λειτουργεί καλά από την αρχή στο Codex, αναμένουμε να διαθέσουμε τις επόμενες εβδομάδες μια έκδοση του GPT‑5.2 βελτιστοποιημένη για το Codex.

Οι συνεργάτες μας

Το GPT‑5.2 είναι απόρροια της μακροχρόνιας συνεργασίας μας με την NVIDIA και τη Microsoft. Τα κέντρα δεδομένων Azure και οι GPU της NVIDIA, συμπεριλαμβανομένων των H100, H200 και GB200-NVL72, αποτελούν τη βάση της εκπαιδευτικής υποδομής μεγάλης κλίμακας της OpenAI, συμβάλλοντας σε σημαντικές βελτιώσεις στη νοημοσύνη των μοντέλων. Συνδυαστικά, αυτή η συνεργασία μάς επιτρέπει να κλιμακώνουμε την υπολογιστική ισχύ με σιγουριά και να προσφέρουμε νέα μοντέλα στην αγορά πιο γρήγορα.

Παράρτημα

Λεπτομερείς δείκτες αξιολόγησης

Παρακάτω, αναφέρουμε ολοκληρωμένα αποτελέσματα αξιολόγησης για το GPT‑5.2 Thinking, μαζί με ένα υποσύνολο για το GPT‑5.2 Pro.

Επαγγελματικά
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Προγραμματισμός
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Ακρίβεια
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Μακροσκελές θεματικό πλαίσιο
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Όραμα
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
Χρήση εργαλείων
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Ακαδημαϊκός τομέας
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Αφηρημένη συλλογιστική
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

Τα μοντέλα εκτελέστηκαν με τη μέγιστη διαθέσιμη προσπάθεια συλλογιστικής στο API μας (xhigh για τα GPT‑5.2 Thinking και Pro, και υψηλό για το GPT‑5.1 Thinking), εκτός από τις επαγγελματικές αξιολογήσεις, όπου το GPT‑5.2 Thinking εκτελέστηκε με έντονη προσπάθεια συλλογιστικής, στο μέγιστο δυνατό επίπεδο που είναι διαθέσιμο στο ChatGPT Pro. Οι αξιολογήσεις πραγματοποιήθηκαν σε ερευνητικό περιβάλλον, το οποίο μπορεί να παρέχει ελαφρώς διαφορετικά αποτελέσματα από το ChatGPT σε παραγωγικό περιβάλλον σε ορισμένες περιπτώσεις.

* Για το SWE-Lancer, παραλείπουμε προβλήματα 40/237 που δεν εκτελέστηκαν σε υποδομές μας.

Συντάκτης

OpenAI