Παρουσίαση του GPT‑5 για προγραμματιστές
Το καλύτερο μοντέλο για εργασίες προγραμματισμού και εργασίες βάσει πράκτορα.
Σήμερα, λανσάρουμε το GPT‑5 στην πλατφόρμα API μας—το καλύτερο μοντέλο μας μέχρι σήμερα για εργασίες προγραμματισμού και εργασίες μέσω πράκτορα.
Το GPT‑5 καταλαμβάνει κορυφαία θέση (SOTA) σε όλα τα βασικά σημεία αναφοράς προγραμματισμού, με βαθμολογία 74,9% στο SWE-bench Verified και 88% στο Aider Polyglot. Εκπαιδεύσαμε το GPT‑5 έτσι ώστε να είναι ένας πραγματικός συνεργάτης στον προγραμματισμό. Διαπρέπει στην παραγωγή κώδικα υψηλής ποιότητας και σε εργασίες όπως η διόρθωση σφαλμάτων, η επεξεργασία κώδικα και η απάντηση ερωτήσεων σχετικά με σύνθετες βάσεις κώδικα. Το μοντέλο είναι κατευθυνόμενο και συνεργατικό—μπορεί να ακολουθεί πολύ λεπτομερείς οδηγίες με υψηλή ακρίβεια και να παρέχει προκαταρκτικές εξηγήσεις για τις ενέργειές του πριν και μεταξύ των κλήσεων εργαλείων. Το μοντέλο υπερέχει επίσης στον προγραμματισμό front-end, ξεπερνώντας το OpenAI o3 στην ανάπτυξη ιστοσελίδων front-end στο 70% των περιπτώσεων κατά τις εσωτερικές δοκιμές.
Εκπαιδεύσαμε το GPT‑5 σε πραγματικές εργασίες προγραμματισμού σε συνεργασία με πρώιμους δοκιμαστές σε νεοσύστατες επιχειρήσεις και μεγάλες εταιρείες. Η Cursor λέει ότι το GPT‑5 είναι «το πιο έξυπνο μοντέλο που έχουν χρησιμοποιήσει» και «εξαιρετικά ευφυές, εύκολο να καθοδηγηθεί, και μάλιστα έχει μια προσωπικότητα που δεν έχουν δει σε άλλα μοντέλα». Η Windsurf ανακοίνωσε ότι το GPT‑5 είναι SOTA στις αξιολογήσεις της και «έχει το μισό ποσοστό σφάλματος κλήσης εργαλείων σε σχέση με άλλα μοντέλα αιχμής». Η Vercel λέει «είναι το καλύτερο μοντέλο τεχνητής νοημοσύνης για frontend, επιτυγχάνοντας κορυφαία απόδοση τόσο στην αισθητική όσο και στην ποιότητα του κώδικα, το οποίο το κατατάσσει σε μια μοναδική κατηγορία».
Το GPT‑5 υπερέχει επίσης σε μακροχρόνιες εργασίες βάσει πράκτορα, επιτυγχάνοντας αποτελέσματα SOTA στο τ2-bench telecom (96,7%), έναν δείκτη αξιολόγησης για την κλήση εργαλείων που κυκλοφόρησε μόλις πριν από 2 μήνες. Η βελτιωμένη ευφυΐα εργαλείων του GPT‑5 επιτρέπει την αξιόπιστη αλληλουχία δεκάδων κλήσεων εργαλείων—τόσο διαδοχικά όσο και παράλληλα—χωρίς να σκοντάφτει, καθιστώντας το πολύ πιο ικανό στην εκτέλεση σύνθετων, πραγματικών εργασιών από την αρχή μέχρι το τέλος. Ακολουθεί επίσης με μεγαλύτερη ακρίβεια τις οδηγίες των εργαλείων, χειρίζεται καλύτερα τα σφάλματα εργαλείων και υπερέχει στην ανάκτηση περιεχομένου με μακροσκελές θεματικό πλαίσιο. Η Manus λέει ότι το GPT‑5 «πέτυχε την καλύτερη απόδοση που έχουν δει ποτέ από ένα μοντέλο στους εσωτερικούς τους δείκτες αναφοράς». Η Notion λέει ότι «οι γρήγορες απαντήσεις του μοντέλου, ειδικά σε λειτουργία χαμηλού συλλογισμού, καθιστούν το GPT‑5 ιδανικό μοντέλο όταν πρέπει να λυθούν πολύπλοκες εργασίες με μία κίνηση». Η Inditex μοιράστηκε ότι «αυτό που πραγματικά ξεχωρίζει στο [GPT‑5] είναι το βάθος του συλλογισμού του: σύνθετες, πολυεπίπεδες απαντήσεις που αντικατοπτρίζουν την πραγματική κατανόηση του θέματος».
Εισάγουμε νέες δυνατότητες στο API μας για να δώσουμε στους προγραμματιστές περισσότερο έλεγχο στις απαντήσεις των μοντέλων. Η υποστήριξη του GPT‑5 περιλαμβάνει μια νέα παράμετρο verbosity (τιμές: low, medium, high) που βοηθάει να ελέγχει αν οι απαντήσεις είναι σύντομες και στοχευμένες ή εκτενείς και περιεκτικές. Η παράμετρος reasoning_effort του GPT‑5 μπορεί τώρα να πάρει μια ελάχιστη τιμή για να παρέχει απαντήσεις πιο γρήγορα, χωρίς εκτενή συλλογισμό πρώτα. Προσθέσαμε επίσης έναν νέο τύπο εργαλείου—προσαρμοσμένα εργαλεία—για να επιτρέψουμε στο GPT‑5 να καλεί εργαλεία με απλό κείμενο αντί για JSON. Τα προσαρμοσμένα εργαλεία υποστηρίζουν τον περιορισμό μέσω γραμματικών που παρέχονται από προγραμματιστές χωρίς πλαίσιο.
Παρουσιάζουμε το GPT‑5 σε τρία μεγέθη στο API—gpt-5, gpt-5-mini και gpt-5-nano—για να δώσουμε στους προγραμματιστές μεγαλύτερη ευελιξία να εξισορροπήσουν την απόδοση, το κόστος και τη λανθάνουσα καθυστέρηση. Ενώ το GPT‑5 στο ChatGPT είναι ένα σύστημα μοντέλων με συλλογισμό, χωρίς συλλογισμού και με δρομολογητή, το GPT‑5 στην πλατφόρμα API είναι το μοντέλο συλλογισμού που προσφέρει τη μέγιστη απόδοση στο ChatGPT. Αξιοσημείωτο είναι ότι το GPT‑5 με ελάχιστη συλλογισμό είναι διαφορετικό από το μοντέλο χωρίς συλλογισμό στο ChatGPT και προσαρμόζεται καλύτερα σε προγραμματιστές. Το μοντέλο χωρίς συλλογισμό που χρησιμοποιείται στο ChatGPT είναι διαθέσιμο ως gpt-5-chat-latest.
Για να διαβάσεις σχετικά με το GPT‑5 στο ChatGPT και να μάθεις περισσότερα για άλλες βελτιώσεις του ChatGPT, δες το ερευνητικό μας ιστολόγιο. Για περισσότερες πληροφορίες σχετικά με το πόσο ενθουσιασμένες είναι οι επιχειρήσεις να χρησιμοποιούν το GPT‑5, δες το ιστολόγιό μας για επιχειρήσεις.
Το GPT‑5 είναι το ισχυρότερο μοντέλο προγραμματισμού που έχουμε παρουσιάσει ποτέ. Υπερβαίνει το o3 σε όλα τα benchmarks κωδικοποίησης και σε πραγματικές περιπτώσεις χρήσης, και έχει βελτιστοποιηθεί για να διαπρέπει σε προϊόντα προγραμματισμού βάσει πράκτορα όπως το Cursor, το Windsurf, το GitHub Copilot και Codex CLI. Το GPT‑5 εντυπωσίασε τους δοκιμαστές μας στην έκδοση alpha, καταρρίπτοντας ρεκόρ σε πολλές από τις ιδιωτικές εσωτερικές αξιολογήσεις τους.
Πρώιμα σχόλια για το GPT‑5 σχετικά με εργασίες προγραμματισμού στον πραγματικό κόσμο
«Το GPT-5 είναι το πιο έξυπνο μοντέλο προγραμματισμού που έχουμε χρησιμοποιήσει. Team μας βρήκε ότι το GPT-5 είναι εξαιρετικά έξυπνο, εύκολο στην καθοδήγηση και έχει ακόμη και μια προσωπικότητα που δεν έχουμε δει σε κανένα άλλο μοντέλο. Δεν εντοπίζει μόνο δύσκολα, βαθιά κρυμμένα σφάλματα, αλλά μπορεί επίσης να εκτελεί μακροχρόνιους, πολυστροφικούς πράκτορες παρασκηνίου για να ολοκληρώνει πολύπλοκες εργασίες: προβλήματα που παλιά δεν μπορούν να τα διαχειριστούν άλλα μοντέλα. Έχει γίνει το καθημερινό μας εργαλείο για τα πάντα, από τον καθορισμό του πεδίου εφαρμογής και τον σχεδιασμό των PR μέχρι την ολοκλήρωση κατασκευών end-to-end.»
Στο SWE-bench Verified, μια αξιολόγηση που βασίζεται σε πραγματικές εργασίες μηχανικής λογισμικού, το GPT‑5 βαθμολογείται με 74,9%, από το 69,1% του o3. Πρέπει να σημειωθεί επίσης ότι το GPT‑5 επιτυγχάνει την υψηλή βαθμολογία του με μεγαλύτερη αποτελεσματικότητα και ταχύτητα: σε σύγκριση με το o3 σε υψηλή προσπάθεια συλλογισμού, το GPT‑5 χρησιμοποιεί 22% λιγότερα token εξόδου και 45% λιγότερες κλήσεις εργαλείων.
Στο SWE-bench Verified, ένα μοντέλο λαμβάνει ένα αποθετήριο κώδικα και μια περιγραφή προβλήματος και πρέπει να δημιουργεί μια ενημέρωση κώδικα για να λύσει το πρόβλημα. Οι ετικέτες κειμένου υποδεικνύουν την προσπάθεια συλλογισμού. Οι βαθμολογίες μας παραλείπουν 23 από τα 500 προβλήματα των οποίων οι λύσεις δεν πέρασαν αξιόπιστα στην υποδομή μας. Στο GPT‑5 δόθηκε μια σύντομη προτροπή που τόνιζε την ενδελεχή επαλήθευση των λύσεων. Η ίδια προτροπή δεν ωφέλησε το o3.
Στο Aider Polyglot, μια αξιολόγηση της επεξεργασίας κώδικα, το GPT‑5 σημειώνει νέο ρεκόρ 88%, μειώνοντας το ποσοστό σφάλματος κατά ένα τρίτο σε σύγκριση με το o3.
Στο Aider Polygot(ανοίγει σε νέο παράθυρο) (diff), ένα μοντέλο λαμβάνει μια άσκηση προγραμματισμού από το Exercism και πρέπει να γράψει τη λύση της ως diff κώδικα. Τα μοντέλα συλλογισμού εκτελέστηκαν με υψηλή προσπάθεια συλλογισμού.
Έχουμε επίσης διαπιστώσει ότι το GPT‑5 αποδίδει εξαιρετικά στην εμβάθυνση βάσεων κώδικα, ώστε να απαντά σε ερωτήσεις σχετικά με το πώς λειτουργούν ή διαλειτουργούν διάφορα μέρη. Σε μια βάση κώδικα τόσο περίπλοκη όσο η στοίβα ενισχυτικής μάθησης του OpenAI, διαπιστώνουμε ότι το GPT‑5 μπορεί να μας βοηθήσει να συλλογιστούμε και να απαντήσουμε σε ερωτήσεις σχετικά με τον κώδικά μας, επιταχύνοντας την καθημερινή μας εργασία.
Όταν παράγει κώδικα frontend για εφαρμογές ιστού, το GPT‑5 προσανατολίζεται περισσότερο προς την αισθητική, είναι πιο φιλόδοξο και πιο ακριβές. Σε απευθείας συγκρίσεις με το o3, οι δοκιμαστές μας προτίμησαν το GPT‑5 στο 70% των περιπτώσεων.
Ορίστε μερικά διασκεδαστικά, επιλεγμένα παραδείγματα για το τι μπορεί να κάνει το GPT‑5 με μία μόνο προτροπή:
Προτροπή: Δημιούργησε μια όμορφη, ρεαλιστική σελίδα προορισμού για μια υπηρεσία που παρέχει στον απόλυτο λάτρη του καφέ μια συνδρομή με 200 δολάρια τον μήνα, η οποία θα παρέχει υπηρεσίες ενοικίασης εξοπλισμού και οδηγίες για το ψήσιμο του καφέ και τη δημιουργία του απόλυτου εσπρέσο. Το κοινό-στόχος είναι ένα άτομο μέσης ηλικίας από την περιοχή του Σαν Φρανσίσκο, που μπορεί να εργάζεται στον τομέα της τεχνολογίας και είναι μορφωμένο, έχει αρκετό διαθέσιμο εισόδημα και είναι παθιασμένο με την τέχνη και την επιστήμη του καφέ. Βελτιστοποίησέ το με γνώμονα τη μετατροπή για εγγραφή 6 μηνών.
Δες περισσότερα παραδείγματα από το GPT‑5 στη συλλογή μας εδώ(ανοίγει σε νέο παράθυρο).
Το GPT‑5 είναι ένας καλύτερος συνεργάτης, ιδιαίτερα σε προϊόντα προγραμματισμού με πράκτορα όπως το Cursor, το Windsurf, το GitHub Copilot και το Codex CLI. Ενώ λειτουργεί, το GPT‑5 μπορεί να παράγει σχέδια, ενημερώσεις και ανακεφαλαιώσεις ανάμεσα στις κλήσεις εργαλείων. Σε σχέση με τα προηγούμενα μοντέλα μας, το GPT‑5 είναι πιο προνοητικό στην ολοκλήρωση φιλόδοξων εργασιών χωρίς να περιμένει την έγκρισή σου ή να διστάζει όταν αντιμετωπίζει υψηλή πολυπλοκότητα.
Ορίστε ένα παράδειγμα για το φαίνεται το GPT‑5 όταν αναλαμβάνει μια σύνθετη εργασία (σε αυτή την περίπτωση, τη δημιουργία ενός ιστότοπου για ένα εστιατόριο):
Αφού ο χρήστης ζητήσει έναν ιστότοπο για το εστιατόριό του, το GPT‑5 παρουσιάζει ένα γρήγορο σχέδιο, στήνει την εφαρμογή, εγκαθιστά εξαρτήσεις, δημιουργεί το περιεχόμενο του ιστότοπου, εκτελεί μια κατασκευή για να ελέγξει για σφάλματα μεταγλώττισης, συνοψίζει τη δουλειά του και προτείνει πιθανά επόμενα βήματα. Αυτό το βίντεο έχει επιταχυνθεί κατά περίπου 3 φορές για να μην υπάρχει αναμονή. Η πλήρης διάρκεια για τη δημιουργία του ιστότοπου ήταν περίπου τρία λεπτά.
Πέρα από τον προγραμματισμό βάσει πράκτορα, το GPT‑5 είναι καλύτερο σε εργασίες βάσει πράκτορα γενικά. Το GPT‑5 καταρρίπτει νέα ρεκόρ σε σημεία αναφοράς στην παρακολούθηση οδηγιών (69,6% στο Scale MultiChallenge, όπως βαθμολογήθηκε από το o3‑mini) και στην κλήση εργαλείων (96,7% στο τ2-bench telecom). Η βελτιωμένη ευφυΐα των εργαλείων επιτρέπει στο GPT‑5 να συνδέει πιο αξιόπιστα ενέργειες για να ολοκληρώνει εργασίες στον πραγματικό κόσμο.
Πρώτα σχόλια για το GPT‑5 σχετικά με εργασίες με πράκτορες
«Το GPT-5 είναι ένα μεγάλο βήμα μπροστά. Πέτυχε την καλύτερη απόδοση που έχουμε δει ποτέ από ένα μοντέλο στις εσωτερικές μας δοκιμές. Το GPT-5 διέπρεψε σε διάφορες εργασίες βάσει πράκτορα—ακόμα και πριν τροποποιήσουμε έστω και μία γραμμή κώδικα ή προσαρμόσουμε μια προτροπή. Τα νέα εισαγωγικά μηνύματα και ο πιο ακριβής έλεγχος επί της χρήσης εργαλείων μας επέτρεψαν να πετύχουμε ένα σημαντικό άλμα όσον αφορά τη σταθερότητα και την ικανότητα καθοδήγησης των πρακτόρων μας.»
Το GPT‑5 ακολουθεί τις οδηγίες πιο αξιόπιστα από οποιονδήποτε από τους προκατόχους του, σημειώνοντας υψηλή βαθμολογία στο COLLIE, στο Scale MultiChallenge και στην εσωτερική μας αξιολόγηση ακολουθίας οδηγιών.
Στο COLLIE(ανοίγει σε νέο παράθυρο), τα μοντέλα πρέπει να γράφουν κείμενο που να πληροί διάφορους περιορισμούς. Στο Scale MultiChallenge(ανοίγει σε νέο παράθυρο), ζητείται από τα μοντέλα να χρησιμοποιήσουν σωστά τέσσερις τύπους πληροφοριών από προηγούμενα μηνύματα συζητήσεις πολλαπλών γύρων. Οι βαθμολογίες μας προέρχονται από τη χρήση του o3‑mini ως βαθμολογητή, που ήταν πιο ακριβής από το GPT‑4o. Στην εσωτερική αξιολόγηση του OpenAI API για την ακολουθία οδηγιών, τα μοντέλα πρέπει να ακολουθούν δύσκολες οδηγίες που προέρχονται από πραγματικά σχόλια προγραμματιστών. Τα μοντέλα συλλογισμού εκτελέστηκαν με υψηλή προσπάθεια συλλογισμού.
Δουλέψαμε σκληρά για να βελτιώσουμε την κλήση εργαλείων με τρόπους που έχουν σημασία για τους προγραμματιστές. Το GPT‑5 είναι καλύτερο στο να ακολουθεί τις οδηγίες εργαλείων, να διαχειρίζεται σφάλματα εργαλείων και να πραγματοποιεί προνοητικά πολλές κλήσεις εργαλείων διαδοχικά ή παράλληλα. Όταν λαμβάνει σχετικές οδηγίες, το GPT‑5 μπορεί επίσης να παράγει εισαγωγικά μηνύματα πριν και μεταξύ των κλήσεων εργαλείων, για να ενημερώνει τους χρήστες σχετικά με την πρόοδό του κατά τη διάρκεια μεγαλύτερων εργασιών βάσει πράκτορα.
Πριν από δύο μήνες, το τ2-bench telecom δημοσιεύτηκε από τη Sierra.ai ως ένας απαιτητικός δείκτης αξιολόγησης για τη χρήση εργαλείων, που ανέδειξε πώς η απόδοση του γλωσσικού μοντέλου μειώνεται σημαντικά όταν αλληλεπιδρά με μια κατάσταση περιβάλλοντος που μπορεί να αλλάξει από τους χρήστες. Στη δημοσίευσή τους(ανοίγει σε νέο παράθυρο), κανένα μοντέλο δεν βαθμολογήθηκε πάνω από 49%. Το GPT‑5 έχει βαθμολογία 97%.
Στο τ2-bench(ανοίγει σε νέο παράθυρο), ένα μοντέλο πρέπει να χρησιμοποιεί εργαλεία για να ολοκληρώσει μια εργασία εξυπηρέτησης πελατών, όπου ενδέχεται να υπάρχει ένας χρήστης που μπορεί να επικοινωνεί και να αναλαμβάνει ενέργειες στην κατάσταση του κόσμου. Τα μοντέλα συλλογισμού εκτελέστηκαν με υψηλή προσπάθεια συλλογισμού.
Το GPT‑5 παρουσιάζει επίσης σημαντικές βελτιώσεις στην απόδοση σε μακροσκελές θεματικό πλαίσιο με μεγάλο εύρος. Στο OpenAI-MRCR, ένα μέτρο ανάκτησης πληροφοριών με μακροσκελές θεματικό πλαίσιο, το GPT‑5 υπερέχει των o3 και GPT‑4.1, με ένα περιθώριο που αυξάνεται σημαντικά σε μεγαλύτερα μήκη εισόδου.
Στο OpenAI-MRCR(ανοίγει σε νέο παράθυρο) (ανάλυση συναναφοράς πολλαπλών γύρων), πολλαπλά πανομοιότυπα αιτήματα χρήστη στη μορφή «ψύλλου» εισάγονται σε θυμωνιές από «άχυρο» παρόμοιων αιτημάτων και απαντήσεων, και ζητείται από το μοντέλο να αναπαράγει την απόκριση στον ψύλλο της σειράς i. Ο μέσος λόγος αντιστοίχισης μετρά τον μέσο όρο της αντιστοίχισης συμβολοσειρών μεταξύ της απόκρισης του μοντέλου και της σωστής απάντησης. Τα σημεία στα 256k. μέγιστα token εισόδου αντιπροσωπεύουν μέσους όρους πάνω από 128k–256k token εισόδου, και ούτω καθεξής. Σε αυτή την περίπτωση, το 256k αντιπροσωπεύει 256 * 1.024 = 262.114 token. Τα μοντέλα συλλογισμού εκτελέστηκαν με υψηλή προσπάθεια συλλογισμού.
Ανοίγουμε επίσης τον κώδικα του BrowseComp Long Context(ανοίγει σε νέο παράθυρο), έναν νέο δείκτη για την αξιολόγηση ερωτήσεων και απαντήσεων σε μακροσκελές θεματικό πλαίσιο. Σε αυτόν τον δείκτη αξιολόγησης, το μοντέλο λαμβάνει ένα ερώτημα χρήστη, μια εκτενή λίστα σχετικών αποτελεσμάτων αναζήτησης και πρέπει να απαντήσει στην ερώτηση βάσει των αποτελεσμάτων αναζήτησης. Σχεδιάσαμε το BrowseComp Long Context ώστε να είναι ρεαλιστικό, δύσκολο και να παρέχει αξιόπιστες, σωστές απαντήσεις. Σε εισαγωγές μεγέθους 128K–256K tokens, το GPT‑5 δίνει τη σωστή απάντηση στο 89% των περιπτώσεων.
Στο API, όλα τα μοντέλα GPT‑5 μπορούν να δεχτούν έως και 272.000 token εισόδου και να εκπέμπουν έως και 128.000 token συλλογισμού και εξόδου, για συνολικό μήκος θεματικού πλαισίου 400.000 token.
Το GPT‑5 είναι πιο αξιόπιστο από τα προηγούμενα μοντέλα μας. Σε προτροπές από τα εργαλεία αξιολόγησης LongFact και FactScore, το GPT‑5 κάνει ~80% λιγότερα πραγματολογικά σφάλματα από το o3. Αυτό το καθιστά πιο κατάλληλο για περιπτώσεις χρήσης όπου η ακρίβεια έχει σημασία—ειδικά στον κώδικα, τα δεδομένα και τη λήψη αποφάσεων.
Οι υψηλότερες βαθμολογίες είναι χειρότερες. Τα LongFact(ανοίγει σε νέο παράθυρο) και FActScore(ανοίγει σε νέο παράθυρο) αποτελούνται από ερωτήσεις ανοιχτού τύπου για την αναζήτηση γεγονότων. Χρησιμοποιούμε έναν βαθμολογητή που βασίζεται σε LLM με δυνατότητα περιήγησης, για να επαληθεύσουμε τις απαντήσεις σε προτροπές από αυτά τα εργαλεία αξιολόγησης και να μετρήσουμε το ποσοστό των ανακριβών ισχυρισμών. Μπορείς να βρεις λεπτομέρειες υλοποίησης και βαθμολόγησης στην κάρτα συστήματος. Τα μοντέλα συλλογισμού κατέβαλαν υψηλή προσπάθεια συλλογισμού. Η αναζήτηση δεν ήταν ενεργοποιημένη.
Γενικά, το GPT‑5 έχει εκπαιδευτεί ώστε να έχει μεγαλύτερη επίγνωση των περιορισμών του και να είναι σε θέση να χειρίζεται απρόβλεπτες καταστάσεις. Εκπαιδεύσαμε επίσης το GPT‑5 ώστε να είναι πολύ πιο ακριβές σε ερωτήματα υγείας (διάβασε περισσότερα στο ιστολόγιό μας για την έρευνα). Όπως συμβαίνει με όλα τα γλωσσικά μοντέλα, σου προτείνουμε να επαληθεύεις τη δουλειά του GPT‑5 σε έργα με υψηλό διακύβευμα.
Οι προγραμματιστές μπορούν να ελέγχουν τον χρόνο σκέψης του GPT‑5 μέσω της παραμέτρου reasoning_effort στο API. Εκτός από τις προηγούμενες τιμές—low, medium (προεπιλογή) και high—το GPT‑5 παρέχει επίσης υποστήριξη για minimal, που ελαχιστοποιεί τον συλλογισμό του GPT‑5, για να δίνει απαντήσεις γρήγορα.
Οι υψηλότερες τιμές reasoning_effort μεγιστοποιούν την ποιότητα και οι χαμηλότερες τιμές μεγιστοποιούν την ταχύτητα. Δεν επωφελούνται εξίσου όλες οι εργασίες από πρόσθετο συλλογισμό, οπότε σας προτείνουμε να πειραματιστείτε για να δείτε ποια λειτουργεί καλύτερα για τις περιπτώσεις χρήσης που σας ενδιαφέρουν.
Για παράδειγμα, ρύθμιση συλλογισμού πάνω από το επίπεδο low προσθέτει ελάχιστα στη σχετικά απλή ανάκτηση μακροσκελούς θεματικού πλαισίου, αλλά προσθέτει αρκετές ποσοστιαίες μονάδες στο CharXiv Reasoning(ανοίγει σε νέο παράθυρο), έναν δείκτη αξιολόγησης οπτικού συλλογισμού.
Η προσπάθεια συλλογισμού του GPT‑5 αποφέρει διαφορετικά οφέλη σε διαφορετικές εργασίες. Για το CharXiv Reasoning, το GPT‑5 είχε πρόσβαση σε ένα εργαλείο Python.
Για να βοηθήσουμε να καθοδηγήσετε το προεπιλεγμένο μήκος των απαντήσεων του GPT‑5, εισαγάγαμε μια νέα παράμετρο API: verbosity, η οποία δέχεται τιμές low, medium (προεπιλογή) και high. Αν οι ρητές οδηγίες συγκρούονται με τις παραμέτρους λεκτικότητας, οι ρητές οδηγίες υπερισχύουν. Για παράδειγμα, αν ζητήσεις από το GPT‑5 να «γράψει ένα δοκίμιο 5 παραγράφων», η απάντηση του μοντέλου θα πρέπει πάντα να είναι 5 παράγραφοι ανεξάρτητα από το επίπεδο λεκτικότητας (ωστόσο, οι ίδιες οι παράγραφοι μπορεί να είναι μεγαλύτερες ή μικρότερες).
Verbosity=low
Verbosity=medium
Verbosity=high
Αν δοθεί εντολή, το GPT‑5 θα παράγει αποτελέσματα εισαγωγικών μηνυμάτων ορατά από τον χρήστη πριν και ανάμεσα στις κλήσεις εργαλείων. Σε αντίθεση με τα κρυφά μηνύματα συλλογισμού, αυτά τα ορατά μηνύματα επιτρέπουν στο GPT‑5 να ενημερώνει τον χρήστη για προγράμματα και πρόοδο, βοηθώντας τους τελικούς χρήστες να κατανοήσουν την προσέγγισή και την πρόθεσή του πίσω από τις κλήσεις εργαλείων.
Παρουσιάζουμε έναν νέο τύπο εργαλείου: τα προσαρμοσμένα εργαλεία, που επιτρέπουν στο GPT‑5 να καλεί ένα εργαλείο με απλό κείμενο αντί για JSON. Για να περιορίσουν το GPT‑5 ώστε να ακολουθεί προσαρμοσμένες μορφές εργαλείων, οι προγραμματιστές μπορούν να παρέχουν ένα regex ή ακόμα και μια πιο πλήρως καθορισμένη γραμματική χωρίς θεματικό πλαίσιο(ανοίγει σε νέο παράθυρο).
Προηγουμένως, η διεπαφή μας για εργαλεία που ορίζονται από προγραμματιστές απαιτούσε να καλούνται με JSON, μια κοινή μορφή που χρησιμοποιείται από τα API για web και γενικά από προγραμματιστές. Ωστόσο, η έξοδος έγκυρου JSON απαιτεί το μοντέλο να διαφεύγει τέλεια όλα τα εισαγωγικά, τις ανάστροφες καθέτους, τις νέες γραμμές και άλλους χαρακτήρες ελέγχου. Αν και τα μοντέλα μας είναι καλά εκπαιδευμένα να δίνουν έξοδο JSON, σε μεγάλες εισόδους όπως εκατοντάδες γραμμές κώδικα ή μια αναφορά 5 σελίδων, οι πιθανότητες εμφάνισης σφάλματος αυξάνονται. Με προσαρμοσμένα εργαλεία, το GPT‑5 μπορεί να γράψει εισόδους εργαλείων σε μορφή απλού κειμένου, χωρίς να χρειάζεται να διαφύγει από όλους τους χαρακτήρες που απαιτούν διαφυγή.
Στο SWE-bench Verified όπου χρησιμοποιούνται προσαρμοσμένα εργαλεία αντί για εργαλεία JSON, το GPT‑5 έχει περίπου την ίδια βαθμολογία.
Το GPT‑5 προωθεί τα όρια της ασφάλειας και είναι ένα πιο ισχυρό, αξιόπιστο και χρήσιμο μοντέλο. Το GPT‑5 έχει σημαντικά λιγότερες πιθανότητες να έχει παραισθήσεις από τα προηγούμενα μοντέλα μας, ενημερώνει πιο ειλικρινά τον χρήστη για τις ενέργειες και τις δυνατότητές του, και παρέχει την πιο χρήσιμη απάντηση όπου είναι δυνατόν, ενώ παραμένει εντός των ορίων ασφαλείας. Μπορείς να διαβάσεις περισσότερα στο ερευνητικό μας ιστολόγιο.
Το GPT‑5 είναι τώρα διαθέσιμο στην πλατφόρμα API σε τρία μεγέθη: gpt-5, gpt-5-mini και gpt-5-nano. Είναι διαθέσιμο στο Responses API, στο Chat Completions API και αποτελεί προεπιλογή στο Codex CLI. Το GPT‑5 κοστίζει $1,25 / 1 εκατομμύριο token εισόδου και $10 / 1 εκατομμύριο token εξόδου, το GPT‑5 mini κοστίζει $0,25 / 1 εκατομμύριο token εισόδου και $2 / 1 εκατομμύριο token εξόδου, ενώ το GPT‑5 nano κοστίζει $0,05 / 1 εκατομμύριο token εισόδου και $0,40 / 1 εκατομμύριο token εξόδου.
Αυτά τα μοντέλα παρέχουν υποστήριξη για τις παραμέτρους API reasoning_effort και verbosity, καθώς και για προσαρμοσμένα εργαλεία. Παρέχουν επίσης υποστήριξη για παράλληλες κλήσεις εργαλείων, ενσωματωμένα εργαλεία (αναζήτηση ιστού, αναζήτηση αρχείων, δημιουργία εικόνων και άλλα), βασικές λειτουργίες API (ροή, δομημένες έξοδοι και άλλα) και λειτουργίες εξοικονόμησης κόστους, όπως προσωρινή αποθήκευση προτροπών και Batch API.
Η μη συλλογιστική έκδοση του GPT‑5 που χρησιμοποιείται στο ChatGPT είναι διαθέσιμη στο API ως gpt-5-chat-latest, με τιμή επίσης $1,25 / 1 εκατομμύριο token εισόδου και $10 / 1 εκατομμύριο token εξόδου.
Το GPT‑5 κυκλοφορεί επίσης σε όλες τις πλατφόρμες της Microsoft, συμπεριλαμβανομένων των Microsoft 365 Copilot, Copilot, GitHub Copilot και Azure AI Foundry.
Ρίξε μια ματιά στην τεκμηρίωση(ανοίγει σε νέο παράθυρο) του GPT‑5, τις λεπτομέρειες τιμολόγησης(ανοίγει σε νέο παράθυρο) και τον οδηγό προτροπής(ανοίγει σε νέο παράθυρο) για να ξεκινήσεις.
Νοημοσύνη
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6% | 91,1% | 85,2% | 88,9% | 92,7% | 46,4% | 40,2% | - |
| FrontierMath(with python tool only) | 26,3% | 22,1% | 9,6% | 15,8% | 15,4% | - | - | - |
| GPQA diamond(no tools) | 85,7% | 82,3% | 71,2% | 83,3% | 81,4% | 66,3% | 65,0% | 50,3% |
| HLE[1](no tools) | 24,8% | 16,7% | 8,7% | 20,2% | 14,7% | 5,4% | 3,7% | - |
| HMMT 2025(no tools) | 93,3% | 87,8% | 75,6% | 81,7% | 85,0% | 28,9% | 35,0% | - |
[1] Υπάρχει μια μικρή απόκλιση στους αριθμούς που αναφέρθηκαν στην προηγούμενη ανάρτηση του ιστολογίου μας, καθώς αυτοί υπολογίστηκαν σε μια παλαιότερη έκδοση του HLE.
Πολυτροπικό
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2% | 81,6% | 75,6% | 82,9% | 81,6% | 74,8% | 72,7% | 55,4% |
| MMMU-Pro(avg across standard and vision sets) | 78,4% | 74,1% | 62,6% | 76,4% | 73,4% | 60,3% | 58,9% | 33,0% |
| CharXiv reasoning(python enabled) | 81,1% | 75,5% | 62,7% | 78,6% | 72,0% | 56,7% | 56,8% | 40,5% |
| VideoMMMU, max frame 256 | 84,6% | 82,5% | 66,8% | 83,3% | 79,4% | 60,9% | 55,1% | 30,2% |
| ERQA | 65,7% | 62,9% | 50,1% | 64,0% | 56,5% | 44,3% | 42,3% | 26,5% |
Προγραμματισμός
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 χιλ. $ | 75 χιλ. $ | 49 χιλ. $ | 86 χιλ. $ | 66 χιλ. $ | 34 χιλ. $ | 31 χιλ. $ | 9 χιλ. $ |
| SWE-bench Verified[2] | 74,9% | 71,0% | 54,7% | 69,1% | 68,1% | 54,6% | 23,6% | - |
| Aider polyglot(diff) | 88,0% | 71,6% | 48,4% | 79,6% | 58,2% | 52,9% | 31,6% | 6,2% |
[2] Παραλείπουμε 23 από τα 500 προβλήματα που δεν μπορούσαν να εκτελεστούν στην υποδομή μας. Ο πλήρης κατάλογος των 23 εργασιών που παραλείφθηκαν είναι: astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' και 'sphinx-doc__sphinx-9367'.
Ακολούθηση οδηγιών
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6% | 62,3% | 54,9% | 60,4% | 57,5% | 46,2% | 42,2% | 31,1% |
| Internal API instruction following eval(hard) | 64,0% | 65,8% | 56,1% | 47,4% | 44,7% | 49,1% | 45,1% | 31,6% |
| COLLIE | 99,0% | 98,5% | 96,9% | 98,4% | 96,1% | 65,8% | 54,6% | 42,5% |
[3] Σημείωση: διαπιστώνουμε ότι ο προεπιλογένος βαθμολογητής στο MultiChallenge (GPT-4o) συχνά βαθμολογεί λανθασμένα τις απαντήσεις των μοντέλων. Διαπιστώνουμε ότι η αλλαγή του βαθμολογητή σε ένα μοντέλο συλλογισμού, όπως το o3-mini, βελτιώνει σημαντικά την ακρίβεια στην αξιολόγηση δειγμάτων που έχουμε επιθεωρήσει.
Κλήση συνάρτησης
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6% | 60,0% | 41,0% | 64,8% | 60,2% | 56,0% | 51,0% | 14,0% |
| Tau2-bench retail | 81,1% | 78,3% | 62,3% | 80,2% | 70,5% | 74,0% | 66,0% | 21,5% |
| Tau2-bench telecom | 96,7% | 74,1% | 35,5% | 58,2% | 40,5% | 34,0% | 44,0% | 12,1% |
Μακροσκελές θεματικό πλαίσιο
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2% | 84,3% | 43,2% | 55,0% | 56,4% | 57,2% | 47,2% | 36,6% |
| OpenAI-MRCR: 2 needle 256k | 86,8% | 58,8% | 34,9% | - | - | 56,2% | 45,5% | 22,6% |
| Graphwalks bfs <128k | 78,3% | 73,4% | 64,0% | 77,3% | 62,3% | 61,7% | 61,7% | 25,0% |
| Graphwalks parents <128k | 73,3% | 64,3% | 43,8% | 72,9% | 51,1% | 58,0% | 60,5% | 9,4% |
| BrowseComp Long Context 128k | 90,0% | 89,4% | 80,4% | 88,3% | 80,0% | 85,9% | 89,0% | 89,4% |
| BrowseComp Long Context 256k | 88,8% | 86,0% | 68,4% | - | - | 75,5% | 81,6% | 19,1% |
| VideoMME(long, with subtitle category) | 86,7% | 78,5% | 65,7% | 84,9% | 79,5% | 78,7% | 68,4% | 55,2% |
Παραίσθηση
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0% | 0,7% | 1,0% | 5,2% | 3,0% | 0,7% | 1,1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2% | 1,3% | 2,8% | 6,8% | 8,9% | 1,1% | 1,8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8% | 3,5% | 7,3% | 23,5% | 38,7% | 6,7% | 10,9% | - |


