Μετάβαση στο κύριο περιεχόμενο
OpenAI

5 Μαρτίου 2026

ΠροϊόνΈκδοση

Το GPT‑5.4 είναι εδώ!

Σχεδιάστηκε για επαγγελματική χρήση

Φόρτωση…

Σήμερα, λανσάρουμε το GPT‑5.4 στο ChatGPT (ως GPT‑5.4 Thinking), το API και το Codex. Πρόκειται για το πιο ικανό και αποτελεσματικό κορυφαίο μοντέλο μας για επαγγελματική χρήση. Κυκλοφορούμε, επίσης, το GPT‑5.4 Pro στο ChatGPT και στο API, για άτομα που επιθυμούν μέγιστη απόδοση σε σύνθετες εργασίες.

Το GPT‑5.4 συγκεντρώνει τα καλύτερα στοιχεία από τις πρόσφατες εξελίξεις μας στη συλλογιστική, τον προγραμματισμό και τις ροές εργασίας με πράκτορα σε ένα ενιαίο, κορυφαίο μοντέλο. Ενσωματώνει τις κορυφαίες στον κλάδο δυνατότητες προγραμματισμού του GPT‑5.3‑Codex, ενώ βελτιώνει τον τρόπο με τον οποίο λειτουργεί το μοντέλο σε όλα τα εργαλεία, τα περιβάλλοντα λογισμικού και τις επαγγελματικές εργασίες που περιλαμβάνουν υπολογιστικά φύλλα, παρουσιάσεις και έγγραφα. Το αποτέλεσμα είναι ένα μοντέλο που ολοκληρώνει σύνθετη, πραγματική εργασία με ακρίβεια, αποτελεσματικότητα και αποδοτικότητα, παραδίδοντας ό,τι του ζητήσατε με λιγότερη αλληλεπίδραση.

Στο ChatGPT, το GPT‑5.4 Thinking μπορεί πλέον να παρέχει εκ των προτέρων ένα πλάνο της σκέψης του, ώστε να μπορείτε να αλλάξετε πορεία στη μέση της απάντησης, ενώ εργάζεται, και να καταλήξετε σε ένα τελικό αποτέλεσμα που είναι πιο στενά ευθυγραμμισμένο με ό,τι χρειάζεστε, χωρίς επιπλέον γύρους εργασίας. Το GPT‑5.4 Thinking παρουσιάζει, επίσης, βελτίωση στην έρευνα σε βάθος στο web, ιδιαίτερα για εξαιρετικά συγκεκριμένα ερωτήματα, ενώ διατηρεί καλύτερα το θεματικό πλαίσιο για ερωτήσεις που απαιτούν περισσότερη σκέψη. Παράλληλα, αυτές οι βελτιώσεις οδηγούν σε απαντήσεις ανώτερης ποιότητας που ολοκληρώνονται πιο γρήγορα και παραμένουν σχετικές με την εκάστοτε εργασία.

Στο Codex και στο API, το GPT‑5.4 είναι το πρώτο μοντέλο γενικής χρήσης που έχουμε κυκλοφορήσει με εγγενείς, κορυφαίες δυνατότητες χρήσης υπολογιστή, επιτρέποντας στους πράκτορες να χειρίζονται υπολογιστές και να εκτελούν σύνθετες ροές εργασίας σε διάφορες εφαρμογές. Υποστηρίζει έως και 1 εκατ. token περιεχομένου, επιτρέποντας στους πράκτορες να σχεδιάζουν, να εκτελούν και να επαληθεύουν εργασίες σε μεγάλα χρονικά διαστήματα. Το GPT‑5.4 βελτιώνει επίσης τον τρόπο με τον οποίο τα μοντέλα λειτουργούν σε μεγάλα οικοσυστήματα εργαλείων και συνδέσμων με αναζήτηση εργαλείων, βοηθώντας τους πράκτορες να βρίσκουν και να χρησιμοποιούν τα κατάλληλα εργαλεία πιο αποτελεσματικά, χωρίς να κάνουν συμβιβασμούς στη νοημοσύνη. Τέλος, το GPT‑5.4 είναι το πιο αποτελεσματικό μοντέλο συλλογιστικής μας μέχρι σήμερα ως προς τη χρήση των token, καθώς χρησιμοποιεί σημαντικά λιγότερα token για την επίλυση προβλημάτων σε σύγκριση με το GPT‑5.2 — με αποτέλεσμα μειωμένη χρήση token και υψηλότερες ταχύτητες.

Παράλληλα με τις εξελίξεις στη γενική συλλογιστική, τον προγραμματισμό και την επαγγελματική εργασία σε διανοητικά ζητήματα, το GPT‑5.4 καθιστά πιο αξιόπιστους τους πράκτορες, πιο γρήγορες τις ροές εργασίας για προγραμματιστές και πιο υψηλής ποιότητας τα αποτελέσματα σε όλο το ChatGPT, το API και το Codex.


GPT‑5.4 

GPT‑5.3‑Codex

Το GPT‑5.2

GDPval (νίκες ή ισοπαλίες)

83%

70,9%

70,9%

SWE-Bench Pro (Δημόσια μορφή)

57,7%

56,8%

55,6%

OSWorld-Verified

75%

74%* 

47,3%

Toolathlon

54,6%

51,9%

46,3%

BrowseComp

82,7%

77,3%

65,8%

*Στο παρελθόν είχε αναφερθεί ως 64,7%. Το GPT‑5.3‑Codex επιτυγχάνει 74% με μια νέα παράμετρο API που διατηρεί την αρχική ανάλυση της εικόνας.

Διανοητικές εργασίες

Βασιζόμενο στις γενικές δυνατότητες συλλογιστικής του GPT‑5.2, το GPT‑5.4 προσφέρει ακόμη πιο συνεπή και άρτια αποτελέσματα σε πραγματικές εργασίες που έχουν σημασία για τους επαγγελματίες.

Στο GDPval, μια αξιολόγηση που δοκιμάζει τις ικανότητες των πρακτόρων να παράγουν καλά καθορισμένη διανοητική εργασία σε 44 επαγγέλματα, το GPT‑5.4 επιτυγχάνει νέο κορυφαίο αποτέλεσμα, ισοφαρίζοντας ή ξεπερνώντας επαγγελματίες του κλάδου στο 83% των συγκρίσεων, σε σύγκριση με το 71% του GPT‑5.2.

Στο GDPval, τα μοντέλα επιχειρούν καλά καθορισμένη διανοητική εργασία που εκτείνεται σε 44 επαγγέλματα από τους 9 κορυφαίους κλάδους που συμβάλλουν στο ΑΕΠ των ΗΠΑ. Οι εργασίες ζητούν πραγματικά παραδοτέα προϊόντα, όπως παρουσιάσεις πωλήσεων, υπολογιστικά φύλλα λογιστικής, προγράμματα επείγουσας φροντίδας, διαγράμματα κατασκευών ή σύντομα βίντεο. Η προσπάθεια συλλογιστικής ορίστηκε σε xhigh για το GPT‑5.4 και σε heavy για το GPT‑5.2 (ένα ελαφρώς χαμηλότερο επίπεδο στο ChatGPT).

«Το GPT-5.4 είναι το καλύτερο μοντέλο που έχουμε δοκιμάσει μέχρι σήμερα. Βρίσκεται πλέον στην κορυφή του πίνακα κατάταξης στον δείκτη αξιολόγησης APEX-Agents, που μετρά την απόδοση του μοντέλου για εργασία επαγγελματικού επιπέδου. Διαπρέπει στη δημιουργία παραδοτέων με μακροπρόθεσμο ορίζοντα, όπως παρουσιάσεις διαφανειών, χρηματοοικονομικά μοντέλα και νομική ανάλυση, προσφέροντας κορυφαία απόδοση, ενώ λειτουργεί ταχύτερα και με χαμηλότερο κόστος από ανταγωνιστικά κορυφαία μοντέλα.»
— Μπρένταν Φούντι, Διευθύνων Σύμβουλος στη Mercor

Δώσαμε ιδιαίτερη έμφαση στη βελτίωση της δυνατότητας του GPT‑5.4 να δημιουργεί και να επεξεργάζεται υπολογιστικά φύλλα, παρουσιάσεις και έγγραφα. Σε έναν εσωτερικό δείκτη αξιολόγησης για εργασίες μοντελοποίησης υπολογιστικών φύλλων που θα μπορούσε να κάνει ένας νέος αναλυτής επενδυτικής τραπεζικής, το GPT‑5.4 επιτυγχάνει μέση βαθμολογία 87,5%, σε σύγκριση με το 68,4% του GPT‑5.2. Σε ένα σύνολο προτροπών αξιολόγησης παρουσιάσεων, οι άνθρωποι αξιολογητές προτίμησαν παρουσιάσεις από το GPT‑5.4 σε ποσοστό 68% έναντι εκείνων από το GPT‑5.2, λόγω καλύτερης αισθητικής, μεγαλύτερης οπτικής ποικιλίας και πιο αποτελεσματικής χρήσης της δημιουργίας εικόνων.

Παράδειγμα κατ' αντιπαράθεση των αποτελεσμάτων υπολογιστικών φύλλων από το GPT-5.2 έναντι του GPT-5.4

Τα έγγραφα δημιουργήθηκαν με την προσπάθεια συλλογιστικής ορισμένη σε «xhigh»

Μπορείτε να δοκιμάσετε αυτές τις δυνατότητες στο ChatGPT, χρησιμοποιώντας το GPT‑5.4 Thinking ή Pro. Αν είστε πελάτης Enterprise, συνιστούμε να χρησιμοποιήσετε τα plugin μας για το ChatGPT στο Excel και Google Sheets(ανοίγει σε νέο παράθυρο) που διατέθηκαν πρόσφατα, που κυκλοφόρησαν επίσης σήμερα. Έχουμε επίσης ενημερώσει τις δεξιότητές μας για υπολογιστικά φύλλα(ανοίγει σε νέο παράθυρο) και παρουσιάσεις(ανοίγει σε νέο παράθυρο) που είναι διαθέσιμες στο Codex και στο API.

Προκειμένου να βελτιώσουμε το GPT‑5.4 στην εργασία στον πραγματικό κόσμο, συνεχίσαμε την πρόοδό μας στη μείωση των παραισθήσεων και των σφαλμάτων. Το GPT‑5.4 είναι το πιο πραγματολογικά ακριβές μοντέλο μας μέχρι σήμερα: σε ένα σύνολο ανώνυμων προτροπών όπου οι χρήστες επισήμαναν πραγματολογικά σφάλματα, οι μεμονωμένοι ισχυρισμοί για το GPT‑5.4 είναι κατά 33% λιγότερο πιθανό να είναι ψευδείς και οι πλήρεις απαντήσεις του είναι κατά 18% λιγότερο πιθανό να περιέχουν τυχόν σφάλματα, σε σχέση με το GPT‑5.2.

«Το GPT-5.4 θέτει ένα νέο σημείο αναφοράς για νομική εργασία με πολλά έγγραφα. Στην αξιολόγηση BigLaw Bench, σημείωσε 91%. Σε σύγκριση με άλλα μοντέλα, το GPT-5.4 είναι αυτήν τη στιγμή καλύτερο στη δόμηση σύνθετης ανάλυσης συναλλαγών, στη διατήρηση της ακρίβειας σε εκτενείς συμβάσεις και στην παροχή του υψηλού επιπέδου λεπτομέρειας που απαιτούν οι επαγγελματίες από τον χώρο της νομικής.»
— Νίκο Γκρούπεν, Επικεφαλής Εφαρμοσμένης Έρευνας στη Harvey

Υπολογιστική χρήση και οπτικά μέσα

Το GPT‑5.4 είναι το πρώτο μας μοντέλο γενικής χρήσης με εγγενείς δυνατότητες υπολογιστικής χρήσης και σηματοδοτεί ένα σημαντικό βήμα προς τα μπροστά, τόσο για τους προγραμματιστές όσο και για τους πράκτορες. Πρόκειται για το καλύτερο διαθέσιμο μοντέλο αυτήν τη στιγμή για προγραμματιστές που δημιουργούν πράκτορες οι οποίοι ολοκληρώνουν πραγματικές εργασίες σε ιστότοπους και συστήματα λογισμικού.

Έχουμε σχεδιάσει το GPT‑5.4 ώστε να αποδίδει καλά σε ένα ευρύ φάσμα φόρτων εργασίας υπολογιστικής χρήσης. Είναι εξαιρετικό στη σύνταξη κώδικα για να χειρίζεται υπολογιστές μέσω βιβλιοθηκών όπως το Playwright, καθώς και στην εκτέλεση εντολών ποντικιού και πληκτρολογίου ως απόκριση σε στιγμιότυπα οθόνης. Η συμπεριφορά του μπορεί να καθοδηγηθεί μέσω μηνυμάτων του προγραμματιστή, πράγμα που σημαίνει ότι οι προγραμματιστές μπορούν να προσαρμόσουν τη συμπεριφορά ώστε να ταιριάζει σε συγκεκριμένα σενάρια χρήσης. Οι προγραμματιστές μπορούν ακόμη και να διαμορφώσουν τη συμπεριφορά ασφάλειας του μοντέλου ώστε να καλύπτει διαφορετικά επίπεδα ανοχής κινδύνου, καθορίζοντας προσαρμοσμένες πολιτικές επιβεβαίωσης.

Η απόδοση και η ευελιξία του μοντέλου αντικατοπτρίζονται σε δείκτες αξιολόγησης που δοκιμάζουν την υπολογιστική χρήση σε διαφορετικά περιβάλλοντα. Στο OSWorld-Verified, το οποίο υπολογίζει την ικανότητα ενός μοντέλου να πλοηγείται σε ένα περιβάλλον επιφάνειας εργασίας μέσω στιγμιότυπων οθόνης και ενεργειών πληκτρολογίου/ποντικιού, το GPT‑5.4 επιτυγχάνει κορυφαίο ποσοστό επιτυχίας της τάξεως του 75%, ξεπερνώντας κατά πολύ το 47,3% του GPT‑5.2 και το 72,4%της ανθρώπινης απόδοσης. 1

Στο WebArena-Verified, που δοκιμάζει τη χρήση του προγράμματος περιήγησης, το GPT‑5.4 επιτυγχάνει κορυφαίο ποσοστό επιτυχίας 67,3% όταν χρησιμοποιεί αλληλεπίδραση τόσο με βάση το DOM όσο και με βάση στιγμιότυπα οθόνης, σε σύγκριση με το 65,4% του GPT‑5.2. Στο Online-Mind2Web, που δοκιμάζει επίσης τη χρήση του προγράμματος περιήγησης, το GPT‑5.4 επιτυγχάνει ποσοστό επιτυχίας 92,8%, χρησιμοποιώντας μόνο παρατηρήσεις που βασίζονται σε στιγμιότυπα οθόνης, βελτιώνοντας σε σχέση με τη λειτουργία πράκτορα του ChatGPT Atlas, που επιτυγχάνει ποσοστό επιτυχίας 70,9%.

Η απόδοση εργαλείου (tool yield) συμβαίνει όταν ένας βοηθός ΤΝ παύει προσωρινά για να περιμένει τις απαντήσεις των εργαλείων. Αν κληθούν 3 εργαλεία παράλληλα και, στη συνέχεια, κληθούν άλλα 3 εργαλεία επίσης παράλληλα, ο αριθμός των αποδόσεων θα είναι 2. Οι αποδόσεις εργαλείων αποτελούν καλύτερο δείκτη της καθυστέρησης σε σχέση με τις κλήσεις εργαλείων, επειδή αποτυπώνουν τα οφέλη της παράλληλης εκτέλεσης.

Το GPT‑5.4 ερμηνεύει στιγμιότυπα οθόνης ενός περιβάλλοντος χρήστη προγράμματος περιήγησης και αλληλεπιδρά με στοιχεία UI μέσω κλικ βάσει συντεταγμένων για να στέλνει email και να προγραμματίζει ένα συμβάν ημερολογίου.

Η βελτιωμένη υπολογιστική χρήση του GPT‑5.4 βασίζεται στις βελτιωμένες δυνατότητες γενικής οπτικής αντίληψης του μοντέλου. Στο MMMU-Pro, μια δοκιμή της οπτικής κατανόησης και της συλλογιστικής ενός μοντέλου, το GPT‑5.4 επιτυγχάνει ποσοστό επιτυχίας 81,2% χωρίς χρήση εργαλείων, που αποτελεί βελτίωση σε σχέση με 79,5%. Η βελτιωμένη οπτική αντίληψη μεταφράζεται επίσης σε καλύτερες δυνατότητες ανάλυσης εγγράφων. Στο OmniDocBench, το GPT‑5.4 χωρίς προσπάθεια συλλογιστικής επιτυγχάνει μέσο σφάλμα (μετρούμενο με την κανονικοποιημένη απόσταση επεξεργασίας μεταξύ της πρόβλεψης του μοντέλου και της πραγματικής τιμής) 0,109, που σημειώνει βελτίωση σε σχέση με το 0,140 του GPT‑5.2.

Το MMMUPro εκτελέστηκε με την προσπάθεια συλλογιστικής ρυθμισμένη στο xhigh. Το OmniDocBench εκτελέστηκε με την προσπάθεια συλλογιστικής ορισμένη σε καμία, ώστε να αντικατοπτρίζει απόδοση χαμηλού κόστους και χαμηλής λανθάνουσας καθυστέρησης.

Βελτιώνουμε επίσης την οπτική κατανόηση για πυκνές εικόνες υψηλής ανάλυσης, όπου η πλήρης πιστότητα έχει σημασία. Ξεκινώντας με το GPT‑5.4, παρουσιάζουμε ένα επίπεδο λεπτομέρειας εισαγωγής αρχικής εικόνας(ανοίγει σε νέο παράθυρο) που υποστηρίζει αντίληψη πλήρους πιστότητας έως 10,24 εκατ. συνολικά pixel ή ανάλυση 6.000 pixel, όποιο είναι χαμηλότερο. Το επίπεδο υψηλής λεπτομέρειας εισαγωγής εικόνας πλέον υποστηρίζει επίσης εγγενώς το χαμηλότερο από 2,56 εκατ. συνολικά pixel ή μέγιστη διάσταση 2.048 pixel. Στα πρώτα στάδια των δοκιμών με χρήστες API, παρατηρήσαμε σημαντικές βελτιώσεις στις δυνατότητες τοπικής προσαρμογής, στην κατανόηση εικόνων και στην ακρίβεια των κλικ όταν χρησιμοποιούσαμε τις τιμές original ή high.

«Στις αξιολογήσεις μας που μετρούν την απόδοση υπολογιστικής χρήσης σε περίπου 30.000 πύλες HOA και φόρου ακίνητης περιουσίας, το GPT-5.4 πέτυχε ποσοστό επιτυχίας 95% στην πρώτη προσπάθεια και 100% εντός τριών προσπαθειών, σε σύγκριση με το σχεδόν 73–79% των προηγούμενων μοντέλων CUA. Επίσης, ολοκλήρωσε τις συνεδρίες περίπου 3 φορές πιο γρήγορα, ενώ χρησιμοποιούσε περίπου κατά 70% λιγότερα token, βελτιώνοντας ουσιαστικά την αξιοπιστία και την απόδοση κόστους σε κλίμακα.»
— Ντοντ Φρέιζερ, CEO της Mainstay

Στο API, οι προγραμματιστές μπορούν να έχουν πρόσβαση σε αυτές τις δυνατότητες χρησιμοποιώντας το ενημερωμένο εργαλείο υπολογιστή. Ανατρέξτε στην ενημερωμένη τεκμηρίωσή μας(ανοίγει σε νέο παράθυρο) για τις προτεινόμενες βέλτιστες πρακτικές.

Προγραμματισμός

Το GPT‑5.4 συνδυάζει τα δυνατά σημεία προγραμματισμού του GPT‑5.3‑Codex με τις κορυφαίες δυνατότητες διανοητικής εργασίας και υπολογιστικής χρήσης, που έχουν τη μεγαλύτερη σημασία σε εργασίες μεγάλης διάρκειας, όπου το μοντέλο μπορεί να χρησιμοποιεί εργαλεία, να κάνει διορθώσεις και να προωθεί την εργασία περαιτέρω με λιγότερη χειροκίνητη παρέμβαση. Αντιστοιχεί με ή υπερέχει του GPT‑5.3‑Codex στο SWE-Bench Pro, ενώ σημειώνει χαμηλότερη καθυστέρηση σε όλες τις προσπάθειες συλλογιστικής.

Εκτιμούμε την καθυστέρηση εξετάζοντας τη συμπεριφορά των μοντέλων μας στην παραγωγή και προσομοιώνοντάς την εκτός σύνδεσης. Η εκτίμηση καθυστέρησης λαμβάνει υπόψη τη διάρκεια κλήσης εργαλείου (χρόνος εκτέλεσης κώδικα), τα token δειγματοληψίας και τα token εισαγωγής. Η καθυστέρηση σε πραγματικές συνθήκες μπορεί να διαφέρει σημαντικά και εξαρτάται από πολλούς παράγοντες που δεν αποτυπώνονται στην προσομοίωσή μας. Οι προσπάθειες συλλογιστικής αυξήθηκαν από none σε xhigh.

Όταν είναι ενεργοποιημένη, η λειτουργία fast στο Codex προσφέρει έως και 1,5 φορές ταχύτερη απόδοση σε όλα τα υποστηριζόμενα μοντέλα, συμπεριλαμβανομένου του GPT‑5.4. Πρόκειται για το ίδιο μοντέλο και την ίδια νοημοσύνη, απλώς η ταχύτητά του είναι υψηλότερη. Αυτό σημαίνει ότι οι χρήστες μπορούν να προχωρούν σε εργασίες προγραμματισμού, διόρθωσης και αποσφαλμάτωσης, παραμένοντας σε κατάσταση ροής. Οι προγραμματιστές μπορούν να έχουν πρόσβαση στο GPT‑5.4 με τις ίδιες γρήγορες ταχύτητες μέσω του API, χρησιμοποιώντας επεξεργασία κατά προτεραιότητα(ανοίγει σε νέο παράθυρο).

Στην αξιολόγηση και τις εσωτερικές δοκιμές διαπιστώσαμε ότι το GPT‑5.4 υπερέχει σε σύνθετες εργασίες που εμφανίζονται στον χρήστη, με αισθητά πιο όμορφα και πιο λειτουργικά αποτελέσματα από οποιαδήποτε μοντέλα έχουμε κυκλοφορήσει στο παρελθόν.

Ως επίδειξη των βελτιωμένων δυνατοτήτων υπολογιστικής χρήσης και προγραμματισμού του μοντέλου που λειτουργούν σε συνδυασμό, κυκλοφορούμε επίσης μια πειραματική δεξιότητα Codex με την ονομασία «Playwright (Interactive)(ανοίγει σε νέο παράθυρο)». Αυτή επιτρέπει στο Codex να πραγματοποιεί οπτικό εντοπισμό σφαλμάτων σε εφαρμογές web και Electron. Μπορεί ακόμη και να χρησιμοποιηθεί για να δοκιμάσει μια εφαρμογή που δημιουργεί, καθώς τη δημιουργεί.

Παιχνίδι προσομοίωσης θεματικού πάρκου που δημιουργήθηκε με το GPT‑5.4 από μία μόνο ελαφρώς καθορισμένη προτροπή, χρησιμοποιώντας το Playwright Interactive για playtesting στο πρόγραμμα περιήγησης και δημιουργία εικόνας για το ισομετρικό σετ πόρων. Η προσομοίωση περιλαμβάνει τοποθέτηση διαδρομών με βάση πλακίδια, κατασκευή διαδρομών και σκηνικών, εύρεση διαδρομής από τους επισκέπτες, αναμονή σε ουρές και κύκλους λειτουργίας των διαδρομών, ενώ οι μετρικές του πάρκου, όπως τα χρήματα, ο αριθμός επισκεπτών, η ευτυχία, η καθαριότητα και η αξιολόγηση, αυξάνονται ή μειώνονται ανάλογα με το πόσο καλά αποδίδει η διάταξη και με το πώς ανταποκρίνονται οι επισκέπτες σε αυτήν. Το Playwright χρησιμοποιήθηκε για την αυτοματοποίηση playtest στο πρόγραμμα περιήγησης, δημιουργώντας και επεκτείνοντας το πάρκο, τοποθετώντας και αφαιρώντας μονοπάτια και αξιοθέατα, ελέγχοντας την πλοήγηση της κάμερας και επαληθεύοντας ότι οι επισκέπτες, οι ουρές, οι καταστάσεις των διαδρομών και οι μετρήσεις του περιβάλλοντος χρήστη (UI) ενημερώνονταν σωστά σε αρκετούς γύρους παιχνιδιού.

Προτροπή: Χρησιμοποίησε το $playwright-interactive και το $imagegen. Δημιούργησε ένα διαδραστικό ισομετρικό παιχνίδι προσομοίωσης θεματικού πάρκου που μπορώ να χτίζω και να πλοηγούμαι στο πρόγραμμα περιήγησης. Χρησιμοποίησε το imagegen για να καθορίσεις το συνολικό οπτικό όραμα και να δημιουργήσεις τα υλικά του παιχνιδιού, συμπεριλαμβανομένων διαδρομών, μονοπατιών, εδάφους, δέντρων, νερού, πάγκων φαγητού, διακοσμήσεων, κτιρίων, εικονιδίων και εικονογραφήσεων UI. Ο κόσμος θα πρέπει να δείχνει συνεκτικός, καλοδουλεμένος και οπτικά πλούσιος, με κορυφαία καλλιτεχνική διεύθυνση που να λειτουργεί καλά από ισομετρική προοπτική. Άφησέ με να τοποθετώ και να αφαιρώ μονοπάτια, να προσθέτω αξιοθέατα, να τοποθετώ σκηνικά στοιχεία και να κινούμαι ομαλά μέσα στο πάρκο, ενώ παρακολουθώ τη δραστηριότητα των επισκεπτών, την κατάσταση των διαδρομών και την ανάπτυξη του πάρκου. Συμπερίλαβε ρεαλιστική κίνηση επισκεπτών, απλά συστήματα διαχείρισης πάρκου όπως χρήματα, καθαριότητα, ουρές και ευτυχία, και κάνε την εμπειρία να μοιάζει παιχνιδιάρικη, ξεκάθαρη και ολοκληρωμένη, αντί για ένα πρόχειρο πρωτότυπο. Δώσε προτεραιότητα στη γοητεία, την αναγνωσιμότητα και την ισχυρή αίσθηση παιχνιδιού έναντι του ρεαλισμού. 

Κατά τις δοκιμές παιχνιδιού, φρόντισε να χτίσεις και να επεκτείνεις ένα πάρκο μέσα από αρκετούς γύρους παιχνιδιού, να επαληθεύσεις ότι η τοποθέτηση και η πλοήγηση λειτουργούν ομαλά, να επιβεβαιώσεις ότι οι επισκέπτες αντιδρούν στη διάταξη του πάρκου και στα αξιοθέατα, και να διασφαλίσεις ότι τα οπτικά στοιχεία, το περιβάλλον χρήστη και οι αλληλεπιδράσεις φαίνονται σταθερά και συνεκτικά.

«Οι μηχανικοί μας διαπιστώνουν ότι το GPT-5.4 είναι πιο φυσικό και πιο διεκδικητικό από τα προηγούμενα μοντέλα. Αντιμετωπίζει ασαφή προβλήματα χωρίς να αμφιβάλλει για τον εαυτό του, και ενεργεί προληπτικά ως προς την παραλληλοποίηση της εργασίας, ώστε διάφορες λειτουργίες να μη διακόπτονται.»
— Λι Ρόμπινσον, Αντιπρόεδρος Εκπαίδευσης Προγραμματιστών στο Cursor

Χρήση εργαλείων

Με το GPT‑5.4, βελτιώσαμε σημαντικά τον τρόπο με τον οποίο τα μοντέλα λειτουργούν με εξωτερικά εργαλεία. Οι πράκτορες μπορούν πλέον να λειτουργούν σε μεγαλύτερα οικοσυστήματα εργαλείων, να επιλέγουν τα κατάλληλα εργαλεία με πιο αξιόπιστο τρόπο και να ολοκληρώνουν ροές εργασίας πολλαπλών βημάτων με χαμηλότερο κόστος και λανθάνουσα καθυστέρηση.

Αναζήτηση εργαλείων

Στο API, το GPT‑5.4 εισάγει την αναζήτηση(ανοίγει σε νέο παράθυρο) εργαλείων, η οποία επιτρέπει στα μοντέλα να εργάζονται αποτελεσματικά όταν τους παρέχονται πολλά εργαλεία.

Στο παρελθόν, όταν σε ένα μοντέλο δίνονταν εργαλεία, όλοι οι ορισμοί εργαλείων περιλαμβάνονταν στην προτροπή εκ των προτέρων. Για συστήματα με πολλά εργαλεία, αυτό θα μπορούσε να ανεβάσει τον αριθμό των απαιτούμενων token σε χιλιάδες —ή ακόμη και δεκάδες χιλιάδες— σε κάθε αίτημα, αυξάνοντας το κόστος, επιβραδύνοντας τις αποκρίσεις και γεμίζοντας το θεματικό πλαίσιο με πληροφορίες που το μοντέλο μπορεί να μη χρησιμοποιήσει ποτέ.

Ωστόσο, με την αναζήτηση εργαλείων, το GPT‑5.4 λαμβάνει μια ελαφριά λίστα διαθέσιμων εργαλείων μαζί με μια δυνατότητα αναζήτησης εργαλείων. Όταν το μοντέλο χρειάζεται να χρησιμοποιήσει ένα εργαλείο, μπορεί να αναζητήσει τον ορισμό αυτού του εργαλείου και να τον προσαρτήσει στη συνομιλία εκείνη τη στιγμή.

Αυτή η προσέγγιση μειώνει δραματικά τον αριθμό των token που απαιτούνται για ροές εργασίας με πολλά εργαλεία και διατηρεί τη μνήμη cache, καθιστώντας τα αιτήματα ταχύτερα και φθηνότερα. Επιτρέπει, επίσης, στους πράκτορες να εργάζονται αξιόπιστα με πολύ μεγαλύτερα οικοσυστήματα εργαλείων. Για διακομιστές MCP που ενδέχεται να περιέχουν δεκάδες χιλιάδες token ορισμών εργαλείων, τα οφέλη αποδοτικότητας ίσως είναι σημαντικά.

Για να καταδείξουμε τα κέρδη ως προς την αποτελεσματικότητα, αξιολογήσαμε 250 εργασίες από τον δείκτη αξιολόγησης MCP Atlas(ανοίγει σε νέο παράθυρο) της Scale και με τους 36 διακομιστές MCP ενεργοποιημένους σε δύο λειτουργίες: (1) έκθεση κάθε λειτουργίας MCP απευθείας στο θεματικό πλαίσιο του μοντέλου και (2) τοποθέτηση όλων των διακομιστών MCP πίσω από την αναζήτηση εργαλείων. Η διαμόρφωση αναζήτησης εργαλείων μείωσε τη χρήση συνολικών token κατά 47% διατηρώντας την ίδια ακρίβεια.

Οι μετρήσεις token του παραδείγματος προέρχονται από τον μέσο όρο 250 εργασιών στο δημόσιο σύνολο δεδομένων MCP-Atlas.

Κλήση εργαλείων με πράκτορα

Το GPT‑5.4 παρουσιάζει, επίσης, βελτίωση στην κλήση εργαλείων, δίνοντάς της περισσότερη ακρίβεια και καθιστώντας την πιο αποδοτική όταν αποφασίζει πότε και πώς να χρησιμοποιεί εργαλεία κατά τη συλλογιστική, ιδιαίτερα στο API.  Σε σύγκριση με το GPT‑5.2, επιτυγχάνει υψηλότερη ακρίβεια σε λιγότερες αλλαγές στο Toolathlon, έναν δείκτη αξιολόγησης που δοκιμάζει πόσο καλά οι πράκτορες ΤΝ μπορούν να χρησιμοποιούν εργαλεία και API του πραγματικού κόσμου για να ολοκληρώνουν εργασίες πολλαπλών βημάτων. Για παράδειγμα, ένας πράκτορας πρέπει να διαβάζει email, να εξάγει συνημμένα εργασιών, να τα αποστέλλει, να τα βαθμολογεί και να καταγράφει τα αποτελέσματα σε ένα υπολογιστικό φύλλο.

Η απόδοση εργαλείου (tool yield) συμβαίνει όταν ένας βοηθός ΤΝ παύει προσωρινά για να περιμένει τις απαντήσεις των εργαλείων. Αν κληθούν 3 εργαλεία παράλληλα και, στη συνέχεια, κληθούν άλλα 3 εργαλεία επίσης παράλληλα, ο αριθμός των αποδόσεων θα είναι 2. Οι αποδόσεις εργαλείων αποτελούν καλύτερο δείκτη της καθυστέρησης σε σχέση με τις κλήσεις εργαλείων, επειδή αποτυπώνουν τα οφέλη της παράλληλης εκτέλεσης.

Για σενάρια χρήσης όπου έχει σημασία η λανθάνουσα καθυστέρηση και προτιμάται προσπάθεια συλλογιστικής «None», το GPT‑5.4 σημειώνει περαιτέρω βελτίωση σε σχέση με τους προκατόχους του.

Στο τ2-bench⁠(ανοίγει σε νέο παράθυρο), ένα μοντέλο πρέπει να χρησιμοποιεί εργαλεία για να ολοκληρώσει μια εργασία εξυπηρέτησης πελατών, όπου ενδέχεται να υπάρχει ένας προσομοιωμένος χρήστης που μπορεί να επικοινωνεί και να εκτελεί ενέργειες σε πραγματικές συνθήκες. Η προσπάθεια συλλογιστικής ορίστηκε σε «None».

Βελτιωμένη αναζήτηση στο web

Το GPT‑5.4 είναι καλύτερο στην αναζήτηση στο web βάσει πράκτορα. Στο BrowseComp, μια μέτρηση που δείχνει πόσο καλά οι πράκτορες ΤΝ μπορούν να περιηγούνται επίμονα στο web για να βρίσκουν πληροφορίες που είναι δύσκολο να εντοπιστούν, το GPT‑5.4 εκτοξεύεται κατά 17%σε απόλυτες μονάδες πάνω από το GPT‑5.2, και το GPT‑5.4 Pro καθορίζει ένα νέο κορυφαίο πρότυπο με απόδοση 89,3%.

Στην πράξη, αυτό σημαίνει ότι το GPT‑5.4 Thinking είναι πιο ισχυρό στην απάντηση ερωτήσεων που απαιτούν τη συγκέντρωση πληροφοριών από πολλές πηγές στο διαδίκτυο. Μπορεί να πραγματοποιεί πιο επίμονες αναζητήσεις σε πολλαπλούς γύρους για να εντοπίζει τις πιο σχετικές πηγές, ιδιαίτερα για ερωτήσεις τύπου «βελόνα στα άχυρα», και να τις συνθέτει σε μια σαφή, καλά τεκμηριωμένη απάντηση.

Στο BrowseComp, χρησιμοποιήσαμε μια λίστα αποκλεισμού αναζήτησης που εξαιρεί από την αξιολόγηση ιστότοπους που περιέχουν απαντήσεις του δείκτη αναφοράς, με σκοπό να αποτρέψουμε την επιμόλυνση και να διασφαλίσουμε μια δίκαιη μέτρηση της απόδοσης. Το GPT‑5.4 μετρήθηκε σε μεταγενέστερη ημερομηνία από το GPT‑5.2, ώστε οι βαθμολογίες να αποτυπώνουν αλλαγές στο μοντέλο, στο σύστημα αναζήτησής μας και στην κατάσταση του διαδικτύου. Το GPT‑5.4 δοκιμάστηκε με μια μεγαλύτερη, ενημερωμένη λίστα αποκλεισμού. Τα μοντέλα χρησιμοποιούν το εργαλείο αναζήτησης του ChatGPT, το οποίο μπορεί να έχει μικρές διαφορές από την αναζήτηση στο API.

«Το GPT-5.4 xhigh είναι η νέα κορυφαία επίδοση για τη χρήση εργαλείων πολλαπλών βημάτων. Η Zapier εκτελεί ορισμένους από τους πιο αυστηρούς δείκτες αξιολόγησης χρήσης εργαλείων στον κλάδο, δοκιμάζοντας μοντέλα σε εκατοντάδες προηγμένες ροές εργασίας του πραγματικού κόσμου. Το GPT-5.4 ολοκλήρωσε την εργασία, ενώ τα προηγούμενα μοντέλα τα παράτησαν. Είναι το πιο επίμονο μοντέλο μέχρι σήμερα.»
— Wade, CEO της Zapier

Δυνατότητα κατεύθυνσης

Παρόμοια με τον τρόπο που το Codex περιγράφει την προσέγγισή του όταν ξεκινά να λειτουργεί, το GPT‑5.4 Thinking στο ChatGPT θα περιγράφει πλέον τη διαδικασία της με ένα προοίμιο για πιο μακροσκελή και σύνθετα ερωτήματα. Μπορείτε, επίσης, να προσθέσετε οδηγίες ή να προσαρμόσετε την κατεύθυνσή του κατά τη διάρκεια της απάντησης. Αυτό διευκολύνει την καθοδήγηση του μοντέλου προς το ακριβές αποτέλεσμα που επιθυμείτε, χωρίς να ξεκινήσετε από την αρχή ή να απαιτούνται πολλαπλές επιπλέον αλληλεπιδράσεις. Αυτή η δυνατότητα είναι διαθέσιμη τώρα στο chatgpt.com(ανοίγει σε νέο παράθυρο) και στην εφαρμογή Android και σύντομα θα είναι διαθέσιμη και στην εφαρμογή iOS.

Το μοντέλο μπορεί επίσης να αφιερώνει περισσότερο χρόνο στη συλλογιστική σε δύσκολες εργασίες, διατηρώντας παράλληλα ισχυρότερη επίγνωση των προηγούμενων βημάτων στη συνομιλία. Αυτό του επιτρέπει να διαχειρίζεται μεγαλύτερες ροές εργασίας και πιο σύνθετες προτροπές, διατηρώντας παράλληλα τις απαντήσεις συνεκτικές και σχετικές σε όλη τη διάρκεια.

Αυτό το βίντεο έχει επιταχυνθεί για ενδεικτικούς σκοπούς.

Ασφάλεια

Τους τελευταίους μήνες, συνεχίσαμε να βελτιώνουμε τους μηχανισμούς ασφαλείας που εισαγάγαμε με το GPT‑5.3‑Codex, ενώ προετοιμάζαμε το GPT‑5.4 προς ανάπτυξη. Παρόμοια με το GPT‑5.3‑Codex, αντιμετωπίζουμε το GPT‑5.4 ως «High» ως προς τις κυβερνοδυνατότητες στο Πλαίσιο Ετοιμότητάς μας και το διαθέτουμε με τους αντίστοιχους μηχανισμούς ασφαλείας που τεκμηριώνονται στην κάρτα συστήματος. Σε αυτούς, περιλαμβάνονται μια διευρυμένη στοίβα κυβερνοασφάλειας, η οποία αφορά σε συστήματα παρακολούθησης, αξιόπιστους ελέγχους πρόσβασης και ασύγχρονο αποκλεισμό για αιτήματα υψηλότερου κινδύνου για πελάτες σε μη διατήρηση δεδομένων (ZDR), παράλληλα με τις συνεχιζόμενες επενδύσεις στο ευρύτερο οικοσύστημα ασφάλειας.

Επειδή οι δυνατότητες κυβερνοασφάλειας είναι εκ φύσεως διπλής χρήσης, διατηρούμε μια προληπτική προσέγγιση για την ανάπτυξη, ενώ συνεχίζουμε να προσαρμόζουμε τις πολιτικές και τα εργαλεία ταξινόμησής μας. Για ορισμένους πελάτες σε επιφάνειες ZDR, ο αποκλεισμός σε επίπεδο αιτήματος παραμένει μέρος της σειράς μέτρων μετριασμού των κυβερνοκινδύνων, επειδή τα εργαλεία ταξινόμησης εξακολουθούν να βελτιώνονται. Ενδέχεται να προκύψουν ορισμένα ψευδώς θετικά αποτελέσματα καθώς συνεχίζουμε να βελτιώνουμε αυτά τα μέτρα προστασίας. Αυτές οι ενημερώσεις στοχεύουν στη βελτίωση του τρόπου λειτουργίας των μηχανισμών προστασίας στην πράξη, συμπεριλαμβανομένης της μείωσης των περιττών αρνήσεων και των απαντήσεων με υπερβολικές επιφυλάξεις, διατηρώντας παράλληλα ισχυρούς μηχανισμούς προστασίας κατά της κακής χρήσης.

Συνεχίσαμε την έρευνά μας για την ασφάλεια σχετικά με την παρακολουθησιμότητα της αλληλουχίας σκέψεων (CoT), ώστε να κατανοήσουμε καλύτερα πώς συλλογίζονται τα μοντέλα και να συμβάλουμε στον εντοπισμό πιθανής κακής συμπεριφοράς. Στο πλαίσιο αυτής της εργασίας, παρουσιάζουμε μια νέα αξιολόγηση ανοιχτού κώδικα, δυνατότητα ελέγχου CoT,  που μετράει αν τα μοντέλα μπορούν να αποκρύπτουν σκόπιμα τη συλλογιστική τους για να αποφεύγουν την παρακολούθηση. Διαπιστώνουμε ότι η ικανότητα του GPT‑5.4 Thinking να ελέγχει το CoT του είναι χαμηλή, κάτι που αποτελεί θετική ιδιότητα για την ασφάλεια, υποδηλώνοντας ότι το μοντέλο δεν έχει την ικανότητα να αποκρύπτει τη συλλογιστική του και ότι η παρακολούθηση του CoT παραμένει ένα αποτελεσματικό εργαλείο ασφάλειας.

Διαθεσιμότητα και τιμές

Το GPT‑5.4 διατίθεται σταδιακά από σήμερα στο ChatGPT και το Codex. Στο API, το GPT‑5.4 είναι τώρα διαθέσιμο ως gpt-5.4. Το GPT‑5.4 Pro διατίθεται επίσης στο API ως gpt-5.4-pro για προγραμματιστές που χρειάζονται μέγιστη απόδοση στις πιο πολύπλοκες εργασίες.

Στο ChatGPT, το GPT‑5.4 Thinking είναι διαθέσιμο από σήμερα στους χρήστες των προγραμμάτων ChatGPT Plus, Team και Pro, αντικαθιστώντας το GPT‑5.2 Thinking. Το GPT‑5.2 Thinking θα παραμείνει διαθέσιμο για τρεις μήνες για τους επί πληρωμή χρήστες στο μενού επιλογής μοντέλου στην ενότητα των προηγούμενων μοντέλων, και, κατόπιν, θα αποσυρθεί στις 5 Ιουνίου του 2026. Όσοι έχουν προγράμματα Enterprise και Edu μπορούν να ενεργοποιήσουν την πρώιμη πρόσβαση μέσω των ρυθμίσεων διαχειριστή. Το GPT‑5.4 Pro είναι διαθέσιμο στα προγράμματα Pro και Enterprise. Τα παράθυρα θεματικού πλαισίου(ανοίγει σε νέο παράθυρο) στο ChatGPT για το GPT‑5.4 Thinking παραμένει αμετάβλητο από το GPT‑5.2 Thinking.

Το GPT‑5.4 είναι το πρώτο μας κύριο μοντέλο συλλογιστικής που ενσωματώνει τις κορυφαίες δυνατότητες προγραμματισμού του GPT‑5.3‑codex και ξεκινά να διατίθεται σε όλο το ChatGPT, το API και το Codex. Το ονομάζουμε GPT‑5.4 για να αντικατοπτρίζει αυτό το άλμα και για να απλοποιήσουμε την επιλογή μεταξύ μοντέλων όταν χρησιμοποιείτε το Codex. Με την πάροδο του χρόνου, να αναμένετε ότι τα μοντέλα Instant και τα μοντέλα Thinking θα εξελίσσονται με διαφορετικές ταχύτητες.

Το GPT‑5.4 στο Codex περιλαμβάνει πειραματική υποστήριξη για το παράθυρο περιβάλλοντος 1 εκατ. Οι προγραμματιστές μπορούν να το δοκιμάσουν διαμορφώνοντας το model_context_window και το model_auto_compact_token_limit. Τα αιτήματα που υπερβαίνουν το τυπικό παράθυρο θεματικού πλαισίου 272.000 προσμετρώνται στα όρια χρήσης με διπλάσιο ρυθμό από τον κανονικό.

Στο API, το GPT‑5.4 έχει υψηλότερο κόστος ανά token από το GPT‑5.2, ώστε να αντικατοπτρίζει τις βελτιωμένες δυνατότητές του, ενώ η μεγαλύτερη αποτελεσματικότητα token συμβάλλει στη μείωση του συνολικού αριθμού token που απαιτούνται για πολλές εργασίες. Οι τιμές Batch και Flex είναι διαθέσιμες στο μισό του τυπικού ποσοστού API, ενώ η επεξεργασία κατά προτεραιότητα είναι διαθέσιμη στο διπλάσιο του τυπικού ποσοστού API.

Μοντέλο API

Τιμή εισαγωγής

Τιμή εισαγωγής στη μνήμη cache

Τιμή αποτελέσματος

gpt-5.2

1,75 $ / εκατ. token

0,175 $ / εκατ. token

14 $ / εκατ. token

gpt-5.4

2,50 $ / εκατ. token

0,25 $ / εκατ. token

15 $ / εκατ. token

gpt-5.2-pro

21 $ / εκατ. token

-

168 $ / εκατ. token

gpt-5.4-pro

30 $ / εκατ. token

-

180 $ / εκατ. token

Αξιολογήσεις

Επαγγελματικά

Αξιολόγηση

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

GDPval

83%

82%

70,9%

70,9%

74,1%

FinanceAgent v1.1

56%

61,5%

54%

59,5%

Εργασίες Μοντελοποίησης Επενδυτικής Τραπεζικής (Εσωτερικές)

87,3%

83,6%

79,3%

68,4%

71,7%

OfficeQA

68,1%

65,1%

63,1%

Προγραμματισμός

Αξιολόγηση

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

SWE-Bench Pro (Δημόσια μορφή)

57,7%

56,8%

55,6%

Terminal-Bench 2.0

75,1%

77,3%

62,2%

Υπολογιστική χρήση και οπτικά μέσα

Αξιολόγηση

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

OSWorld-Verified

75%

74%

47,3%

MMMU Pro (χωρίς εργαλεία)

81,2%

79,5%

MMMU Pro (με εργαλεία)

82,1%

80,4%

Χρήση εργαλείων

Αξιολόγηση

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

BrowseComp

82,7%

89,3%

77,3%

65,8%

77,9%

MCP Atlas

67,2%

60,6%

Toolathlon

54,6%

51,9%

45,7%

Tau2-bench Telecom

98,9%

98,7%

Ακαδημαϊκός τομέας

Αξιολόγηση

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Κορυφαία επιστημονική έρευνα

33%

36,7%

25,2%

FrontierMath Tier 1–3

47,6%

40,7%

FrontierMath Tier 4

27,1%

38,0%

18,8%

31,3%

GPQA Diamond

92,8%

94,4%

92,6%

92,4%

93,2%

Humanity's Last Exam (χωρίς εργαλεία)

39,8%

42,7%

34,5%

36,6%

Humanity's Last Exam (με εργαλεία)

52,1%

58,7%

45,5%

50%

Μακροσκελές θεματικό πλαίσιο

Αξιολόγηση

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Graphwalks BFS 0K–128K

93%

94%

Graphwalks BFS 256K–1M

21,4%

Graphwalks parents 0–128K (ακρίβεια)

89,8%

89%

Graphwalks parents 256K–1M (ακρίβεια)

32,4%

OpenAI MRCR v2, 8 βελόνες 4K–8K

97,3%

98,2%

OpenAI MRCR v2, 8 βελόνες 8K–16K

91,4%

89,3%

OpenAI MRCR v2, 8 βελόνες 16K–32K

97,2%

95,3%

OpenAI MRCR v2, 8 βελόνες 32K–64K

90,5%

92,0%

OpenAI MRCR v2, 8 βελόνες 64K–128K

86%

85,6%

OpenAI MRCR v2, 8 βελόνες 128K–256K

79,3%

77%

OpenAI MRCR v2, 8 βελόνες 256K–512K

57,5%

OpenAI MRCR v2, 8 βελόνες 512K–1M

36,6%

Αφηρημένη συλλογιστική

Αξιολόγηση

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

ARC-AGI-1 (Με επαλήθευση)

93,7%

94,5%

86,2%

90,5%

ARC-AGI-2 (Με επαλήθευση)

73,3%

83,3%

52,9%

54,2% (high)

Αξιολογήσεις χωρίς συλλογιστική

Αξιολόγηση

GPT‑5.4
(καμία)

GPT‑5.2
(καμία)

GPT‑4.1

OmniDocBench (κανονικοποιημένη απόσταση επεξεργασίας)

0,109

0,140

Tau2-bench Telecom

64,3%

57,2%

43,6%

Οι αξιολογήσεις εκτελέστηκαν με την προσπάθεια συλλογιστικής ρυθμισμένη σε «xhigh», με εξαίρεση όπου αναφέρεται διαφορετικά. Οι αξιολογήσεις πραγματοποιήθηκαν σε ερευνητικό περιβάλλον, το οποίο μπορεί να παρέχει ελαφρώς διαφορετικά αποτελέσματα από το ChatGPT σε παραγωγικό περιβάλλον σε ορισμένες περιπτώσεις.

Συντάκτης

OpenAI

Υποσημειώσεις