Μετάβαση στο κύριο περιεχόμενο
OpenAI

7 Αυγούστου 2025

Προϊόν

Παρουσίαση του GPT‑5 για προγραμματιστές

Το καλύτερο μοντέλο για εργασίες προγραμματισμού και εργασίες βάσει πράκτορα.

Φόρτωση…

Εισαγωγή

Σήμερα, λανσάρουμε το GPT‑5 στην πλατφόρμα API μας—το καλύτερο μοντέλο μας μέχρι σήμερα για εργασίες προγραμματισμού και εργασίες μέσω πράκτορα.

Το GPT‑5 καταλαμβάνει κορυφαία θέση (SOTA) σε όλα τα βασικά σημεία αναφοράς προγραμματισμού, με βαθμολογία 74,9% στο SWE-bench Verified και 88% στο Aider Polyglot. Εκπαιδεύσαμε το GPT‑5 έτσι ώστε να είναι ένας πραγματικός συνεργάτης στον προγραμματισμό. Διαπρέπει στην παραγωγή κώδικα υψηλής ποιότητας και σε εργασίες όπως η διόρθωση σφαλμάτων, η επεξεργασία κώδικα και η απάντηση ερωτήσεων σχετικά με σύνθετες βάσεις κώδικα. Το μοντέλο είναι κατευθυνόμενο και συνεργατικό—μπορεί να ακολουθεί πολύ λεπτομερείς οδηγίες με υψηλή ακρίβεια και να παρέχει προκαταρκτικές εξηγήσεις για τις ενέργειές του πριν και μεταξύ των κλήσεων εργαλείων.  Το μοντέλο υπερέχει επίσης στον προγραμματισμό front-end, ξεπερνώντας το OpenAI o3 στην ανάπτυξη ιστοσελίδων front-end στο 70% των περιπτώσεων κατά τις εσωτερικές δοκιμές.

Εκπαιδεύσαμε το GPT‑5 σε πραγματικές εργασίες προγραμματισμού σε συνεργασία με πρώιμους δοκιμαστές σε νεοσύστατες επιχειρήσεις και μεγάλες εταιρείες. Η Cursor λέει ότι το GPT‑5 είναι «το πιο έξυπνο μοντέλο που έχουν χρησιμοποιήσει» και «εξαιρετικά ευφυές, εύκολο να καθοδηγηθεί, και μάλιστα έχει μια προσωπικότητα που δεν έχουν δει σε άλλα μοντέλα». Η Windsurf ανακοίνωσε ότι το GPT‑5 είναι SOTA στις αξιολογήσεις της και «έχει το μισό ποσοστό σφάλματος κλήσης εργαλείων σε σχέση με άλλα μοντέλα αιχμής». Η Vercel λέει «είναι το καλύτερο μοντέλο τεχνητής νοημοσύνης για frontend, επιτυγχάνοντας κορυφαία απόδοση τόσο στην αισθητική όσο και στην ποιότητα του κώδικα, το οποίο το κατατάσσει σε μια μοναδική κατηγορία».

Το GPT‑5 υπερέχει επίσης σε μακροχρόνιες εργασίες βάσει πράκτορα, επιτυγχάνοντας αποτελέσματα SOTA στο τ2-bench telecom (96,7%), έναν δείκτη αξιολόγησης για την κλήση εργαλείων που κυκλοφόρησε μόλις πριν από 2 μήνες. Η βελτιωμένη ευφυΐα εργαλείων του GPT‑5 επιτρέπει την αξιόπιστη αλληλουχία δεκάδων κλήσεων εργαλείων—τόσο διαδοχικά όσο και παράλληλα—χωρίς να σκοντάφτει, καθιστώντας το πολύ πιο ικανό στην εκτέλεση σύνθετων, πραγματικών εργασιών από την αρχή μέχρι το τέλος. Ακολουθεί επίσης με μεγαλύτερη ακρίβεια τις οδηγίες των εργαλείων, χειρίζεται καλύτερα τα σφάλματα εργαλείων και υπερέχει στην ανάκτηση περιεχομένου με μακροσκελές θεματικό πλαίσιο. Η Manus λέει ότι το GPT‑5 «πέτυχε την καλύτερη απόδοση που έχουν δει ποτέ από ένα μοντέλο στους εσωτερικούς τους δείκτες αναφοράς». Η Notion λέει ότι «οι γρήγορες απαντήσεις του μοντέλου, ειδικά σε λειτουργία χαμηλού συλλογισμού, καθιστούν το GPT‑5 ιδανικό μοντέλο όταν πρέπει να λυθούν πολύπλοκες εργασίες με μία κίνηση». Η Inditex μοιράστηκε ότι «αυτό που πραγματικά ξεχωρίζει στο [GPT‑5] είναι το βάθος του συλλογισμού του: σύνθετες, πολυεπίπεδες απαντήσεις που αντικατοπτρίζουν την πραγματική κατανόηση του θέματος».

Εισάγουμε νέες δυνατότητες στο API μας για να δώσουμε στους προγραμματιστές περισσότερο έλεγχο στις απαντήσεις των μοντέλων. Η υποστήριξη του GPT‑5 περιλαμβάνει μια νέα παράμετρο verbosity (τιμές: low, medium, high) που βοηθάει να ελέγχει αν οι απαντήσεις είναι σύντομες και στοχευμένες ή εκτενείς και περιεκτικές. Η παράμετρος reasoning_effort του GPT‑5 μπορεί τώρα να πάρει μια ελάχιστη τιμή για να παρέχει απαντήσεις πιο γρήγορα, χωρίς εκτενή συλλογισμό πρώτα. Προσθέσαμε επίσης έναν νέο τύπο εργαλείου—προσαρμοσμένα εργαλεία—για να επιτρέψουμε στο GPT‑5 να καλεί εργαλεία με απλό κείμενο αντί για JSON. Τα προσαρμοσμένα εργαλεία υποστηρίζουν τον περιορισμό μέσω γραμματικών που παρέχονται από προγραμματιστές χωρίς πλαίσιο.

Παρουσιάζουμε το GPT‑5 σε τρία μεγέθη στο API—gpt-5, gpt-5-mini και gpt-5-nano—για να δώσουμε στους προγραμματιστές μεγαλύτερη ευελιξία να εξισορροπήσουν την απόδοση, το κόστος και τη λανθάνουσα καθυστέρηση. Ενώ το GPT‑5 στο ChatGPT είναι ένα σύστημα μοντέλων με συλλογισμό, χωρίς συλλογισμού και με δρομολογητή, το GPT‑5 στην πλατφόρμα API είναι το μοντέλο συλλογισμού που προσφέρει τη μέγιστη απόδοση στο ChatGPT. Αξιοσημείωτο είναι ότι το GPT‑5 με ελάχιστη συλλογισμό είναι διαφορετικό από το μοντέλο χωρίς συλλογισμό στο ChatGPT και προσαρμόζεται καλύτερα σε προγραμματιστές. Το μοντέλο χωρίς συλλογισμό που χρησιμοποιείται στο ChatGPT είναι διαθέσιμο ως gpt-5-chat-latest.

Για να διαβάσεις σχετικά με το GPT‑5 στο ChatGPT και να μάθεις περισσότερα για άλλες βελτιώσεις του ChatGPT, δες το ερευνητικό μας ιστολόγιο. Για περισσότερες πληροφορίες σχετικά με το πόσο ενθουσιασμένες είναι οι επιχειρήσεις να χρησιμοποιούν το GPT‑5, δες το ιστολόγιό μας για επιχειρήσεις.

Προγραμματισμός

Το GPT‑5 είναι το ισχυρότερο μοντέλο προγραμματισμού που έχουμε παρουσιάσει ποτέ. Υπερβαίνει το o3 σε όλα τα benchmarks κωδικοποίησης και σε πραγματικές περιπτώσεις χρήσης, και έχει βελτιστοποιηθεί για να διαπρέπει σε προϊόντα προγραμματισμού βάσει πράκτορα όπως το Cursor, το Windsurf, το GitHub Copilot και Codex CLI. Το GPT‑5 εντυπωσίασε τους δοκιμαστές μας στην έκδοση alpha, καταρρίπτοντας ρεκόρ σε πολλές από τις ιδιωτικές εσωτερικές αξιολογήσεις τους. 

Πρώιμα σχόλια για το GPT‑5 σχετικά με εργασίες προγραμματισμού στον πραγματικό κόσμο

«Το GPT-5 είναι το πιο έξυπνο μοντέλο προγραμματισμού που έχουμε χρησιμοποιήσει. Team μας βρήκε ότι το GPT-5 είναι εξαιρετικά έξυπνο, εύκολο στην καθοδήγηση και έχει ακόμη και μια προσωπικότητα που δεν έχουμε δει σε κανένα άλλο μοντέλο. Δεν εντοπίζει μόνο δύσκολα, βαθιά κρυμμένα σφάλματα, αλλά μπορεί επίσης να εκτελεί μακροχρόνιους, πολυστροφικούς πράκτορες παρασκηνίου για να ολοκληρώνει πολύπλοκες εργασίες: προβλήματα που παλιά δεν μπορούν να τα διαχειριστούν άλλα μοντέλα. Έχει γίνει το καθημερινό μας εργαλείο για τα πάντα, από τον καθορισμό του πεδίου εφαρμογής και τον σχεδιασμό των PR μέχρι την ολοκλήρωση κατασκευών end-to-end.»
Michael Truell, Συνιδρυτής και CEO στην Cursor

Στο SWE-bench Verified, μια αξιολόγηση που βασίζεται σε πραγματικές εργασίες μηχανικής λογισμικού, το GPT‑5 βαθμολογείται με 74,9%, από το 69,1% του o3. Πρέπει να σημειωθεί επίσης ότι το GPT‑5 επιτυγχάνει την υψηλή βαθμολογία του με μεγαλύτερη αποτελεσματικότητα και ταχύτητα: σε σύγκριση με το o3 σε υψηλή προσπάθεια συλλογισμού, το GPT‑5 χρησιμοποιεί 22% λιγότερα token εξόδου και 45% λιγότερες κλήσεις εργαλείων.

Στο SWE-bench Verified, ένα μοντέλο λαμβάνει ένα αποθετήριο κώδικα και μια περιγραφή προβλήματος και πρέπει να δημιουργεί μια ενημέρωση κώδικα για να λύσει το πρόβλημα. Οι ετικέτες κειμένου υποδεικνύουν την προσπάθεια συλλογισμού. Οι βαθμολογίες μας παραλείπουν 23 από τα 500 προβλήματα των οποίων οι λύσεις δεν πέρασαν αξιόπιστα στην υποδομή μας. Στο GPT‑5 δόθηκε μια σύντομη προτροπή που τόνιζε την ενδελεχή επαλήθευση των λύσεων. Η ίδια προτροπή δεν ωφέλησε το o3.

Στο Aider Polyglot, μια αξιολόγηση της επεξεργασίας κώδικα, το GPT‑5 σημειώνει νέο ρεκόρ 88%, μειώνοντας το ποσοστό σφάλματος κατά ένα τρίτο σε σύγκριση με το o3.

Στο Aider Polygot(ανοίγει σε νέο παράθυρο) (diff), ένα μοντέλο λαμβάνει μια άσκηση προγραμματισμού από το Exercism και πρέπει να γράψει τη λύση της ως diff κώδικα. Τα μοντέλα συλλογισμού εκτελέστηκαν με υψηλή προσπάθεια συλλογισμού.

Έχουμε επίσης διαπιστώσει ότι το GPT‑5 αποδίδει εξαιρετικά στην εμβάθυνση βάσεων κώδικα, ώστε να απαντά σε ερωτήσεις σχετικά με το πώς λειτουργούν ή διαλειτουργούν διάφορα μέρη. Σε μια βάση κώδικα τόσο περίπλοκη όσο η στοίβα ενισχυτικής μάθησης του OpenAI, διαπιστώνουμε ότι το GPT‑5 μπορεί να μας βοηθήσει να συλλογιστούμε και να απαντήσουμε σε ερωτήσεις σχετικά με τον κώδικά μας, επιταχύνοντας την καθημερινή μας εργασία. 

Μηχανική frontend

Όταν παράγει κώδικα frontend για εφαρμογές ιστού, το GPT‑5 προσανατολίζεται περισσότερο προς την αισθητική, είναι πιο φιλόδοξο και πιο ακριβές. Σε απευθείας συγκρίσεις με το o3, οι δοκιμαστές μας προτίμησαν το GPT‑5 στο 70% των περιπτώσεων.

Ορίστε μερικά διασκεδαστικά, επιλεγμένα παραδείγματα για το τι μπορεί να κάνει το GPT‑5 με μία μόνο προτροπή:

Προτροπή: Δημιούργησε μια όμορφη, ρεαλιστική σελίδα προορισμού για μια υπηρεσία που παρέχει στον απόλυτο λάτρη του καφέ μια συνδρομή με 200 δολάρια τον μήνα, η οποία θα παρέχει υπηρεσίες ενοικίασης εξοπλισμού και οδηγίες για το ψήσιμο του καφέ και τη δημιουργία του απόλυτου εσπρέσο. Το κοινό-στόχος είναι ένα άτομο μέσης ηλικίας από την περιοχή του Σαν Φρανσίσκο, που μπορεί να εργάζεται στον τομέα της τεχνολογίας και είναι μορφωμένο, έχει αρκετό διαθέσιμο εισόδημα και είναι παθιασμένο με την τέχνη και την επιστήμη του καφέ. Βελτιστοποίησέ το με γνώμονα τη μετατροπή για εγγραφή 6 μηνών.

Δες περισσότερα παραδείγματα από το GPT‑5 στη συλλογή μας εδώ(ανοίγει σε νέο παράθυρο).

Συνεργασία προγραμματισμού

Το GPT‑5 είναι ένας καλύτερος συνεργάτης, ιδιαίτερα σε προϊόντα προγραμματισμού με πράκτορα όπως το Cursor, το Windsurf, το GitHub Copilot και το Codex CLI. Ενώ λειτουργεί, το GPT‑5 μπορεί να παράγει σχέδια, ενημερώσεις και ανακεφαλαιώσεις ανάμεσα στις κλήσεις εργαλείων. Σε σχέση με τα προηγούμενα μοντέλα μας, το GPT‑5 είναι πιο προνοητικό στην ολοκλήρωση φιλόδοξων εργασιών χωρίς να περιμένει την έγκρισή σου ή να διστάζει όταν αντιμετωπίζει υψηλή πολυπλοκότητα.

Ορίστε ένα παράδειγμα για το φαίνεται το GPT‑5 όταν αναλαμβάνει μια σύνθετη εργασία (σε αυτή την περίπτωση, τη δημιουργία ενός ιστότοπου για ένα εστιατόριο):

Αφού ο χρήστης ζητήσει έναν ιστότοπο για το εστιατόριό του, το GPT‑5 παρουσιάζει ένα γρήγορο σχέδιο, στήνει την εφαρμογή, εγκαθιστά εξαρτήσεις, δημιουργεί το περιεχόμενο του ιστότοπου, εκτελεί μια κατασκευή για να ελέγξει για σφάλματα μεταγλώττισης, συνοψίζει τη δουλειά του και προτείνει πιθανά επόμενα βήματα. Αυτό το βίντεο έχει επιταχυνθεί κατά περίπου 3 φορές για να μην υπάρχει αναμονή. Η πλήρης διάρκεια για τη δημιουργία του ιστότοπου ήταν περίπου τρία λεπτά.

Εργασίες πράκτορα

Πέρα από τον προγραμματισμό βάσει πράκτορα, το GPT‑5 είναι καλύτερο σε εργασίες βάσει πράκτορα γενικά. Το GPT‑5 καταρρίπτει νέα ρεκόρ σε σημεία αναφοράς στην παρακολούθηση οδηγιών (69,6% στο Scale MultiChallenge, όπως βαθμολογήθηκε από το o3‑mini) και στην κλήση εργαλείων (96,7% στο τ2-bench telecom). Η βελτιωμένη ευφυΐα των εργαλείων επιτρέπει στο GPT‑5 να συνδέει πιο αξιόπιστα ενέργειες για να ολοκληρώνει εργασίες στον πραγματικό κόσμο.

Πρώτα σχόλια για το GPT‑5 σχετικά με εργασίες με πράκτορες

«Το GPT-5 είναι ένα μεγάλο βήμα μπροστά. Πέτυχε την καλύτερη απόδοση που έχουμε δει ποτέ από ένα μοντέλο στις εσωτερικές μας δοκιμές. Το GPT-5 διέπρεψε σε διάφορες εργασίες βάσει πράκτορα—ακόμα και πριν τροποποιήσουμε έστω και μία γραμμή κώδικα ή προσαρμόσουμε μια προτροπή. Τα νέα εισαγωγικά μηνύματα και ο πιο ακριβής έλεγχος επί της χρήσης εργαλείων μας επέτρεψαν να πετύχουμε ένα σημαντικό άλμα όσον αφορά τη σταθερότητα και την ικανότητα καθοδήγησης των πρακτόρων μας.»
Yichao ‘Peak’ Ji, Συνιδρυτής & Επικεφαλής Επιστήμονας στη Manus

Ακολουθήστε τις οδηγίες

Το GPT‑5 ακολουθεί τις οδηγίες πιο αξιόπιστα από οποιονδήποτε από τους προκατόχους του, σημειώνοντας υψηλή βαθμολογία στο COLLIE, στο Scale MultiChallenge και στην εσωτερική μας αξιολόγηση ακολουθίας οδηγιών.

Στο COLLIE(ανοίγει σε νέο παράθυρο), τα μοντέλα πρέπει να γράφουν κείμενο που να πληροί διάφορους περιορισμούς. Στο Scale MultiChallenge(ανοίγει σε νέο παράθυρο), ζητείται από τα μοντέλα να χρησιμοποιήσουν σωστά τέσσερις τύπους πληροφοριών από προηγούμενα μηνύματα συζητήσεις πολλαπλών γύρων. Οι βαθμολογίες μας προέρχονται από τη χρήση του o3‑mini ως βαθμολογητή, που ήταν πιο ακριβής από το GPT‑4o. Στην εσωτερική αξιολόγηση του OpenAI API για την ακολουθία οδηγιών, τα μοντέλα πρέπει να ακολουθούν δύσκολες οδηγίες που προέρχονται από πραγματικά σχόλια προγραμματιστών. Τα μοντέλα συλλογισμού εκτελέστηκαν με υψηλή προσπάθεια συλλογισμού.

Κλήση εργαλείων

Δουλέψαμε σκληρά για να βελτιώσουμε την κλήση εργαλείων με τρόπους που έχουν σημασία για τους προγραμματιστές. Το GPT‑5 είναι καλύτερο στο να ακολουθεί τις οδηγίες εργαλείων, να διαχειρίζεται σφάλματα εργαλείων και να πραγματοποιεί προνοητικά πολλές κλήσεις εργαλείων διαδοχικά ή παράλληλα. Όταν λαμβάνει σχετικές οδηγίες, το GPT‑5 μπορεί επίσης να παράγει εισαγωγικά μηνύματα πριν και μεταξύ των κλήσεων εργαλείων, για να ενημερώνει τους χρήστες σχετικά με την πρόοδό του κατά τη διάρκεια μεγαλύτερων εργασιών βάσει πράκτορα.

Πριν από δύο μήνες, το τ2-bench telecom δημοσιεύτηκε από τη Sierra.ai ως ένας απαιτητικός δείκτης αξιολόγησης για τη χρήση εργαλείων, που ανέδειξε πώς η απόδοση του γλωσσικού μοντέλου μειώνεται σημαντικά όταν αλληλεπιδρά με μια κατάσταση περιβάλλοντος που μπορεί να αλλάξει από τους χρήστες. Στη δημοσίευσή τους(ανοίγει σε νέο παράθυρο), κανένα μοντέλο δεν βαθμολογήθηκε πάνω από 49%. Το GPT‑5 έχει βαθμολογία 97%.

Στο τ2-bench(ανοίγει σε νέο παράθυρο), ένα μοντέλο πρέπει να χρησιμοποιεί εργαλεία για να ολοκληρώσει μια εργασία εξυπηρέτησης πελατών, όπου ενδέχεται να υπάρχει ένας χρήστης που μπορεί να επικοινωνεί και να αναλαμβάνει ενέργειες στην κατάσταση του κόσμου. Τα μοντέλα συλλογισμού εκτελέστηκαν με υψηλή προσπάθεια συλλογισμού.

Το GPT‑5 παρουσιάζει επίσης σημαντικές βελτιώσεις στην απόδοση σε μακροσκελές θεματικό πλαίσιο με μεγάλο εύρος. Στο OpenAI-MRCR, ένα μέτρο ανάκτησης πληροφοριών με μακροσκελές θεματικό πλαίσιο, το GPT‑5 υπερέχει των o3 και GPT‑4.1, με ένα περιθώριο που αυξάνεται σημαντικά σε μεγαλύτερα μήκη εισόδου.

Στο OpenAI-MRCR(ανοίγει σε νέο παράθυρο) (ανάλυση συναναφοράς πολλαπλών γύρων), πολλαπλά πανομοιότυπα αιτήματα χρήστη στη μορφή «ψύλλου» εισάγονται σε θυμωνιές από «άχυρο» παρόμοιων αιτημάτων και απαντήσεων, και ζητείται από το μοντέλο να αναπαράγει την απόκριση στον ψύλλο της σειράς i. Ο μέσος λόγος αντιστοίχισης μετρά τον μέσο όρο της αντιστοίχισης συμβολοσειρών μεταξύ της απόκρισης του μοντέλου και της σωστής απάντησης. Τα σημεία στα 256k. μέγιστα token εισόδου αντιπροσωπεύουν μέσους όρους πάνω από 128k–256k token εισόδου, και ούτω καθεξής. Σε αυτή την περίπτωση, το 256k αντιπροσωπεύει 256 * 1.024 = 262.114 token. Τα μοντέλα συλλογισμού εκτελέστηκαν με υψηλή προσπάθεια συλλογισμού.

Ανοίγουμε επίσης τον κώδικα του BrowseComp Long Context(ανοίγει σε νέο παράθυρο), έναν νέο δείκτη για την αξιολόγηση ερωτήσεων και απαντήσεων σε μακροσκελές θεματικό πλαίσιο. Σε αυτόν τον δείκτη αξιολόγησης, το μοντέλο λαμβάνει ένα ερώτημα χρήστη, μια εκτενή λίστα σχετικών αποτελεσμάτων αναζήτησης και πρέπει να απαντήσει στην ερώτηση βάσει των αποτελεσμάτων αναζήτησης. Σχεδιάσαμε το BrowseComp Long Context ώστε να είναι ρεαλιστικό, δύσκολο και να παρέχει αξιόπιστες, σωστές απαντήσεις. Σε εισαγωγές μεγέθους 128K–256K tokens, το GPT‑5 δίνει τη σωστή απάντηση στο 89% των περιπτώσεων.

Στο API, όλα τα μοντέλα GPT‑5 μπορούν να δεχτούν έως και 272.000 token εισόδου και να εκπέμπουν έως και 128.000 token συλλογισμού και εξόδου, για συνολικό μήκος θεματικού πλαισίου 400.000 token.

Ακρίβεια

Το GPT‑5 είναι πιο αξιόπιστο από τα προηγούμενα μοντέλα μας. Σε προτροπές από τα εργαλεία αξιολόγησης LongFact και FactScore, το GPT‑5 κάνει ~80% λιγότερα πραγματολογικά σφάλματα από το o3. Αυτό το καθιστά πιο κατάλληλο για περιπτώσεις χρήσης όπου η ακρίβεια έχει σημασία—ειδικά στον κώδικα, τα δεδομένα και τη λήψη αποφάσεων.

Οι υψηλότερες βαθμολογίες είναι χειρότερες. Τα LongFact(ανοίγει σε νέο παράθυρο) και FActScore(ανοίγει σε νέο παράθυρο) αποτελούνται από ερωτήσεις ανοιχτού τύπου για την αναζήτηση γεγονότων. Χρησιμοποιούμε έναν βαθμολογητή που βασίζεται σε LLM με δυνατότητα περιήγησης, για να επαληθεύσουμε τις απαντήσεις σε προτροπές από αυτά τα εργαλεία αξιολόγησης και να μετρήσουμε το ποσοστό των ανακριβών ισχυρισμών. Μπορείς να βρεις λεπτομέρειες υλοποίησης και βαθμολόγησης στην κάρτα συστήματος. Τα μοντέλα συλλογισμού κατέβαλαν υψηλή προσπάθεια συλλογισμού. Η αναζήτηση δεν ήταν ενεργοποιημένη.

Γενικά, το GPT‑5 έχει εκπαιδευτεί ώστε να έχει μεγαλύτερη επίγνωση των περιορισμών του και να είναι σε θέση να χειρίζεται απρόβλεπτες καταστάσεις. Εκπαιδεύσαμε επίσης το GPT‑5 ώστε να είναι πολύ πιο ακριβές σε ερωτήματα υγείας (διάβασε περισσότερα στο ιστολόγιό μας για την έρευνα). Όπως συμβαίνει με όλα τα γλωσσικά μοντέλα, σου προτείνουμε να επαληθεύεις τη δουλειά του GPT‑5 σε έργα με υψηλό διακύβευμα.

Νέες λειτουργίες

Ελάχιστη προσπάθεια συλλογισμού

Οι προγραμματιστές μπορούν να ελέγχουν τον χρόνο σκέψης του GPT‑5 μέσω της παραμέτρου reasoning_effort στο API. Εκτός από τις προηγούμενες τιμές—low, medium (προεπιλογή) και high—το GPT‑5 παρέχει επίσης υποστήριξη για minimal, που ελαχιστοποιεί τον συλλογισμό του GPT‑5, για να δίνει απαντήσεις γρήγορα.

Οι υψηλότερες τιμές reasoning_effort μεγιστοποιούν την ποιότητα και οι χαμηλότερες τιμές μεγιστοποιούν την ταχύτητα. Δεν επωφελούνται εξίσου όλες οι εργασίες από πρόσθετο συλλογισμό, οπότε σας προτείνουμε να πειραματιστείτε για να δείτε ποια λειτουργεί καλύτερα για τις περιπτώσεις χρήσης που σας ενδιαφέρουν.

Για παράδειγμα, ρύθμιση συλλογισμού πάνω από το επίπεδο low προσθέτει ελάχιστα στη σχετικά απλή ανάκτηση μακροσκελούς θεματικού πλαισίου, αλλά προσθέτει αρκετές ποσοστιαίες μονάδες στο CharXiv Reasoning(ανοίγει σε νέο παράθυρο), έναν δείκτη αξιολόγησης οπτικού συλλογισμού.

Η προσπάθεια συλλογισμού του GPT‑5 αποφέρει διαφορετικά οφέλη σε διαφορετικές εργασίες. Για το CharXiv Reasoning, το GPT‑5 είχε πρόσβαση σε ένα εργαλείο Python.

Λεκτικότητα (Verbosity)

Για να βοηθήσουμε να καθοδηγήσετε το προεπιλεγμένο μήκος των απαντήσεων του GPT‑5, εισαγάγαμε μια νέα παράμετρο API: verbosity, η οποία δέχεται τιμές low, medium (προεπιλογή) και high. Αν οι ρητές οδηγίες συγκρούονται με τις παραμέτρους λεκτικότητας, οι ρητές οδηγίες υπερισχύουν. Για παράδειγμα, αν ζητήσεις από το GPT‑5 να «γράψει ένα δοκίμιο 5 παραγράφων», η απάντηση του μοντέλου θα πρέπει πάντα να είναι 5 παράγραφοι ανεξάρτητα από το επίπεδο λεκτικότητας (ωστόσο, οι ίδιες οι παράγραφοι μπορεί να είναι μεγαλύτερες ή μικρότερες).

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Εισαγωγικά μηνύματα πριν από τις κλήσεις εργαλείων

Αν δοθεί εντολή, το GPT‑5 θα παράγει αποτελέσματα εισαγωγικών μηνυμάτων ορατά από τον χρήστη πριν και ανάμεσα στις κλήσεις εργαλείων. Σε αντίθεση με τα κρυφά μηνύματα συλλογισμού, αυτά τα ορατά μηνύματα επιτρέπουν στο GPT‑5 να ενημερώνει τον χρήστη για προγράμματα και πρόοδο, βοηθώντας τους τελικούς χρήστες να κατανοήσουν την προσέγγισή και την πρόθεσή του πίσω από τις κλήσεις εργαλείων.

Προσαρμοσμένα εργαλεία

Παρουσιάζουμε έναν νέο τύπο εργαλείου: τα προσαρμοσμένα εργαλεία, που επιτρέπουν στο GPT‑5 να καλεί ένα εργαλείο με απλό κείμενο αντί για JSON. Για να περιορίσουν το GPT‑5 ώστε να ακολουθεί προσαρμοσμένες μορφές εργαλείων, οι προγραμματιστές μπορούν να παρέχουν ένα regex ή ακόμα και μια πιο πλήρως καθορισμένη γραμματική χωρίς θεματικό πλαίσιο(ανοίγει σε νέο παράθυρο).

Προηγουμένως, η διεπαφή μας για εργαλεία που ορίζονται από προγραμματιστές απαιτούσε να καλούνται με JSON, μια κοινή μορφή που χρησιμοποιείται από τα API για web και γενικά από προγραμματιστές. Ωστόσο, η έξοδος έγκυρου JSON απαιτεί το μοντέλο να διαφεύγει τέλεια όλα τα εισαγωγικά, τις ανάστροφες καθέτους, τις νέες γραμμές και άλλους χαρακτήρες ελέγχου. Αν και τα μοντέλα μας είναι καλά εκπαιδευμένα να δίνουν έξοδο JSON, σε μεγάλες εισόδους όπως εκατοντάδες γραμμές κώδικα ή μια αναφορά 5 σελίδων, οι πιθανότητες εμφάνισης σφάλματος αυξάνονται. Με προσαρμοσμένα εργαλεία, το GPT‑5 μπορεί να γράψει εισόδους εργαλείων σε μορφή απλού κειμένου, χωρίς να χρειάζεται να διαφύγει από όλους τους χαρακτήρες που απαιτούν διαφυγή.

Στο SWE-bench Verified όπου χρησιμοποιούνται προσαρμοσμένα εργαλεία αντί για εργαλεία JSON, το GPT‑5 έχει περίπου την ίδια βαθμολογία.

Ασφάλεια

Το GPT‑5 προωθεί τα όρια της ασφάλειας και είναι ένα πιο ισχυρό, αξιόπιστο και χρήσιμο μοντέλο. Το GPT‑5 έχει σημαντικά λιγότερες πιθανότητες να έχει παραισθήσεις από τα προηγούμενα μοντέλα μας, ενημερώνει πιο ειλικρινά τον χρήστη για τις ενέργειες και τις δυνατότητές του, και παρέχει την πιο χρήσιμη απάντηση όπου είναι δυνατόν, ενώ παραμένει εντός των ορίων ασφαλείας. Μπορείς να διαβάσεις περισσότερα στο ερευνητικό μας ιστολόγιο.

Διαθεσιμότητα και τιμολόγηση

Το GPT‑5 είναι τώρα διαθέσιμο στην πλατφόρμα API σε τρία μεγέθη: gpt-5, gpt-5-mini και gpt-5-nano. Είναι διαθέσιμο στο Responses API, στο Chat Completions API και αποτελεί προεπιλογή στο Codex CLI. Το GPT‑5 κοστίζει $1,25 / 1 εκατομμύριο token εισόδου και $10 / 1 εκατομμύριο token εξόδου, το GPT‑5 mini κοστίζει $0,25 / 1 εκατομμύριο token εισόδου και $2 / 1 εκατομμύριο token εξόδου, ενώ το GPT‑5 nano κοστίζει $0,05 / 1 εκατομμύριο token εισόδου και $0,40 / 1 εκατομμύριο token εξόδου.

Αυτά τα μοντέλα παρέχουν υποστήριξη για τις παραμέτρους API reasoning_effort και verbosity, καθώς και για προσαρμοσμένα εργαλεία. Παρέχουν επίσης υποστήριξη για παράλληλες κλήσεις εργαλείων, ενσωματωμένα εργαλεία (αναζήτηση ιστού, αναζήτηση αρχείων, δημιουργία εικόνων και άλλα), βασικές λειτουργίες API (ροή, δομημένες έξοδοι και άλλα) και λειτουργίες εξοικονόμησης κόστους, όπως προσωρινή αποθήκευση προτροπών και Batch API.

Η μη συλλογιστική έκδοση του GPT‑5 που χρησιμοποιείται στο ChatGPT είναι διαθέσιμη στο API ως gpt-5-chat-latest, με τιμή επίσης $1,25 / 1 εκατομμύριο token εισόδου και $10 / 1 εκατομμύριο token εξόδου.

Το GPT‑5 κυκλοφορεί επίσης σε όλες τις πλατφόρμες της Microsoft, συμπεριλαμβανομένων των Microsoft 365 Copilot, Copilot, GitHub Copilot και Azure AI Foundry.

Λεπτομερείς δείκτες αξιολόγησης

Νοημοσύνη
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6%91,1%85,2%88,9%92,7%46,4%40,2%-
FrontierMath(with python tool only)26,3%22,1%9,6%15,8%15,4%---
GPQA diamond(no tools)85,7%82,3%71,2%83,3%81,4%66,3%65,0%50,3%
HLE[1](no tools)24,8%16,7%8,7%20,2%14,7%5,4%3,7%-
HMMT 2025(no tools)93,3%87,8%75,6%81,7%85,0%28,9%35,0%-

[1] Υπάρχει μια μικρή απόκλιση στους αριθμούς που αναφέρθηκαν στην προηγούμενη ανάρτηση του ιστολογίου μας, καθώς αυτοί υπολογίστηκαν σε μια παλαιότερη έκδοση του HLE.

Πολυτροπικό
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2%81,6%75,6%82,9%81,6%74,8%72,7%55,4%
MMMU-Pro(avg across standard and vision sets)78,4%74,1%62,6%76,4%73,4%60,3%58,9%33,0%
CharXiv reasoning(python enabled)81,1%75,5%62,7%78,6%72,0%56,7%56,8%40,5%
VideoMMMU, max frame 25684,6%82,5%66,8%83,3%79,4%60,9%55,1%30,2%
ERQA65,7%62,9%50,1%64,0%56,5%44,3%42,3%26,5%
Προγραμματισμός
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 χιλ. $75 χιλ. $49 χιλ. $86 χιλ. $66 χιλ. $34 χιλ. $31 χιλ. $9 χιλ. $
SWE-bench Verified[2]74,9%71,0%54,7%69,1%68,1%54,6%23,6%-
Aider polyglot(diff)88,0%71,6%48,4%79,6%58,2%52,9%31,6%6,2%

[2] Παραλείπουμε 23 από τα 500 προβλήματα που δεν μπορούσαν να εκτελεστούν στην υποδομή μας. Ο πλήρης κατάλογος των 23 εργασιών που παραλείφθηκαν είναι: astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' και 'sphinx-doc__sphinx-9367'.

Ακολούθηση οδηγιών
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6%62,3%54,9%60,4%57,5%46,2%42,2%31,1%
Internal API instruction following eval(hard)64,0%65,8%56,1%47,4%44,7%49,1%45,1%31,6%
COLLIE99,0%98,5%96,9%98,4%96,1%65,8%54,6%42,5%

[3] Σημείωση: διαπιστώνουμε ότι ο προεπιλογένος βαθμολογητής στο MultiChallenge (GPT-4o) συχνά βαθμολογεί λανθασμένα τις απαντήσεις των μοντέλων. Διαπιστώνουμε ότι η αλλαγή του βαθμολογητή σε ένα μοντέλο συλλογισμού, όπως το o3-mini, βελτιώνει σημαντικά την ακρίβεια στην αξιολόγηση δειγμάτων που έχουμε επιθεωρήσει.

Κλήση συνάρτησης
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6%60,0%41,0%64,8%60,2%56,0%51,0%14,0%
Tau2-bench retail81,1%78,3%62,3%80,2%70,5%74,0%66,0%21,5%
Tau2-bench telecom96,7%74,1%35,5%58,2%40,5%34,0%44,0%12,1%
Μακροσκελές θεματικό πλαίσιο
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2%84,3%43,2%55,0%56,4%57,2%47,2%36,6%
OpenAI-MRCR: 2 needle 256k86,8%58,8%34,9%--56,2%45,5%22,6%
Graphwalks bfs <128k78,3%73,4%64,0%77,3%62,3%61,7%61,7%25,0%
Graphwalks parents <128k73,3%64,3%43,8%72,9%51,1%58,0%60,5%9,4%
BrowseComp Long Context 128k90,0%89,4%80,4%88,3%80,0%85,9%89,0%89,4%
BrowseComp Long Context 256k88,8%86,0%68,4%--75,5%81,6%19,1%
VideoMME(long, with subtitle category)86,7%78,5%65,7%84,9%79,5%78,7%68,4%55,2%
Παραίσθηση
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0%0,7%1,0%5,2%3,0%0,7%1,1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2%1,3%2,8%6,8%8,9%1,1%1,8%-
FActScore hallucination rate(no tools)[lower is better]2,8%3,5%7,3%23,5%38,7%6,7%10,9%-

Συντάκτης

OpenAI