Μετάβαση στο κύριο περιεχόμενο
OpenAI

19 Νοεμβρίου 2025

ΠροϊόνΈκδοση

Δημιουργήστε περισσότερα με το GPT‑5.1‑Codex‑Max

$ npm i -g @openai/codex
Φόρτωση…

Εισαγωγή

Παρουσιάζουμε το GPT‑5.1‑Codex‑Max, το νέο κορυφαίο μοντέλο μας για προγραμματισμό με πράκτορα, διαθέσιμο στο Codex σήμερα.  Το GPT‑5.1‑Codex‑Max βασίζεται σε μια ενημέρωση του βασικού μοντέλου συλλογιστικής μας, το οποίο έχει εκπαιδευτεί σε εργασίες με πράκτορα σε τομείς όπως η μηχανική λογισμικού, τα μαθηματικά, η έρευνα κ.ά. Το GPT‑5.1‑Codex‑Max είναι πιο γρήγορο, πιο έξυπνο και πιο αποδοτικό όσον αφορά τα token σε κάθε στάδιο του κύκλου ανάπτυξης, πλησιάζοντας ακόμη περισσότερο στο να εξελιχθεί σε έναν αξιόπιστο συνεργάτη σας στον προγραμματισμό.

Το GPT‑5.1‑Codex‑Max έχει σχεδιαστεί για μεγάλης κλίμακας, λεπτομερείς εργασίες. Είναι το πρώτο μας μοντέλο που έχει εκπαιδευτεί εγγενώς ώστε να λειτουργεί σε πολλαπλά όρια θεματικού πλαισίου μέσω μιας διαδικασίας που ονομάζεται συμπύκνωση, δουλεύοντας συνεκτικά με εκατομμύρια token σε μία μόνο εργασία. Έτσι, ξεκλειδώνει αναδιαμορφώσεις σε κλίμακα έργου, περιόδους λειτουργίας εντοπισμού σφαλμάτων σε βάθος και βρόχους πρακτόρων πολλών ωρών.

Το GPT‑5.1‑Codex‑Max είναι διαθέσιμο στο Codex σήμερα για χρήση στο CLI, την επέκταση IDE, το cloud και σε έλεγχο κώδικα, ενώ η πρόσβαση στο API θα είναι σύντομα διαθέσιμη.

Κορυφαίες δυνατότητες προγραμματισμού

Το GPT‑5.1‑Codex‑Max εκπαιδεύτηκε με βάση πραγματικές εργασίες μηχανικής λογισμικού, όπως είναι η δημιουργία αιτημάτων συγχώνευσης κώδικα (PR), ο έλεγχος κώδικα, ο προγραμματισμός σε περιβάλλον χρήστη και οι ερωτήσεις/απαντήσες (Q&A), ενώ υπερέχει των προηγούμενων μοντέλων μας σε πολλές πρωτοποριακές αξιολογήσεις προγραμματισμού. Τα πλεονεκτήματα του μοντέλου σε δείκτες αξιολόγησης συνοδεύονται επίσης από βελτιώσεις στη χρήση του στον πραγματικό κόσμο: Το GPT‑5.1‑Codex‑Max είναι το πρώτο μοντέλο που έχουμε εκπαιδεύσει ώστε να λειτουργεί σε περιβάλλοντα Windows, ενώ η εκπαίδευση του μοντέλου περιλαμβάνει πλέον εργασίες που έχουν σχεδιαστεί ώστε να αποτελεί καλύτερο συνεργάτη στο Codex CLI.

* Όλες οι αξιολογήσεις εκτελέστηκαν με ενεργοποιημένη τη συμπύκνωση σε εξαιρετικά υψηλό επίπεδο συλλογιστικής
* Terminal-Bench2.0 εκτελέστηκε με το Codex CLI στο πλαίσιο
Harbor του Ινστιτούτου Laude(ανοίγει σε νέο παράθυρο)

Ταχύτητα και κόστος

Το GPT‑5.1‑Codex‑Max παρουσιάζει σημαντικές βελτιώσεις στην αποδοτικότητα των token, χάρη στην πιο αποτελεσματική συλλογιστική. Στο SWE-bench Verified, το GPT‑5.1‑Codex‑Max με «μέτριο» επίπεδο συλλογιστικής πετυχαίνει καλύτερη απόδοση από το GPT‑5.1‑Codex με το ίδιο επίπεδο συλλογιστικής, χρησιμοποιώντας ταυτόχρονα 30% λιγότερα token για να σκεφτεί. Για εργασίες χωρίς λανθάνουσα καθυστέρηση, παρουσιάζουμε επίσης το νέο επίπεδο συλλογιστικής «εξαιρετικά υψηλό» («xhigh»), το οποίο σκέφτεται για ακόμη μεγαλύτερο χρονικό διάστημα ώστε να δώσει καλύτερη απάντηση. Εξακολουθούμε να προτείνουμε το «μέτριο» για τις περισσότερες καθημερινές εργασίες.

Αναμένουμε ότι οι βελτιώσεις στην αποδοτικότητα των token θα μεταφραστούν σε πραγματική εξοικονόμηση για τους προγραμματιστές.

Για παράδειγμα, το GPT‑5.1‑Codex‑Max μπορεί να δημιουργήσει σχέδια υψηλής ποιότητας στο περιβάλλον του χρήστη, με παρόμοια λειτουργικότητα και αισθητική, αλλά με πολύ χαμηλότερο κόστος σε σχέση με το GPT‑5.1‑Codex.

Προτροπή: Generate a single self-contained browser app that renders an interactive CartPole RL sandbox with canvas graphics, a tiny policy-gradient controller, metrics, and an SVG network visualizer.

Χαρακτηριστικά

  • Must be able to actually train a policy to make model better at cart pole
  • Visualizer for the activations/weights when the model is training or at inference
  • Steps in the episode, rewards this episode
  • Last survival time and best survival time in steps

Αποθήκευσε σε index.html

Εργασίες μεγάλης διάρκειας

Η συμπύκνωση επιτρέπει στο GPT‑5.1‑Codex‑Max να ολοκληρώνει εργασίες που προηγουμένως θα αποτύγχαναν λόγω των ορίων του θεματικού πλαισίου, όπως οι πολύπλοκες αναδιαρθρώσεις και οι μακροχρόνιοι βρόχοι πρακτόρων, περιορίζοντας το ιστορικό ενώ διατηρεί το πιο σημαντικό θεματικό πλαίσιο σε προγραμματισμό μεγάλης διάρκειας. Στις εφαρμογές Codex, το GPT‑5.1‑Codex‑Max συμπυκνώνει αυτόματα την περίοδο λειτουργίας του, όταν πλησιάζει το όριο του θεματικού πλαισίου, δίνοντάς του ένα νέο όριο θεματικού πλαισίου. Επαναλαμβάνει αυτή τη διαδικασία μέχρι να ολοκληρωθεί η εργασία.

Η ικανότητα διατήρησης συνεκτικής εργασίας σε μεγάλη διάρκεια αποτελεί θεμελιώδη δυνατότητα στην πορεία προς πιο γενικά και αξιόπιστα συστήματα ΤΝ. Το GPT‑5.1‑Codex‑Max μπορεί να εργάζεται αυτόνομα για ώρες. Στις εσωτερικές μας αξιολογήσεις, έχουμε παρατηρήσει ότι το GPT‑5.1‑Codex‑Max επιμένει σε εργασίες για περισσότερο από 24 ώρες. Επαναλαμβάνει επίμονα την υλοποίησή του, διορθώνει αποτυχίες δοκιμών και τελικά παραδίδει επιτυχές αποτέλεσμα.

Σε αυτό το παράδειγμα, το GPT‑5.1‑Codex‑Max αναδιαμορφώνει ανεξάρτητα το αποθετήριο ανοιχτού κώδικα Codex CLI.

Καθώς η διάρκεια της περιόδου λειτουργίας πλησιάζει το όριο του θεματικού πλαισίου του μοντέλου, η περίοδος λειτουργίας συμπυκνώνεται αυτόματα για να ελευθερωθεί χώρος και να συνεχιστεί η εργασία χωρίς να χαθεί η πρόοδος.

Το βίντεο έχει περικοπεί και επιταχυνθεί για λόγους σαφήνειας.

Κατασκευή ασφαλών και αξιόπιστων πρακτόρων ΤΝ

Το GPT‑5.1‑Codex‑Max αποδίδει σημαντικά καλύτερα σε αξιολογήσεις που απαιτούν συνεχή συλλογιστική μεγάλης διάρκειας. Επειδή μπορεί να εργάζεται με συνέπεια σε πολλαπλά όρια θεματικού πλαισίου, χρησιμοποιώντας συμπύκνωση, το μοντέλο προσφέρει βελτιωμένα αποτελέσματα σε απαιτητικές εργασίες όπως είναι ο προγραμματισμός μεγάλης διάρκειας και η κυβερνοασφάλεια. Αναλύσαμε τα αποτελέσματα της απόδοσης του μοντέλου σε αξιολογήσεις που κάναμε από πλευράς μας αλλά και σε αξιολογήσεις τρίτων στην κάρτα συστήματος του GPT‑5.1‑Codex‑Max.

Το GPT‑5.1‑Codex‑Max δεν φτάνει στο επίπεδο «High» (υψηλό) στην κυβερνοασφάλεια σύμφωνα με το πλαίσιο Πλαίσιο Ετοιμότητας, αλλά είναι το πιο ικανό μοντέλο κυβερνοασφάλειας που έχουμε κυκλοφορήσει μέχρι σήμερα και οι δυνατότητες πράκτορα στην κυβερνοασφάλεια εξελίσσονται ταχύτατα. Ως αποτέλεσμα, λαμβάνουμε μέτρα ώστε να προετοιμαστούμε για το επίπεδο «High» στην κυβερνοασφάλεια, ενισχύοντας τους μηχανισμούς προστασίας στον κυβερνοτομέα και διασφαλίζοντας ότι οι αμυνόμενοι μπορούν να επωφελούνται από αυτές τις βελτιωμένες δυνατότητες μέσα από προγράμματα όπως το Aardvark.

Όταν παρουσιάσαμε το GPT‑5‑Codex, εφαρμόσαμε ειδική παρακολούθηση για την κυβερνοασφάλεια, με στόχο τον εντοπισμό και την καταπολέμηση της κακόβουλης δραστηριότητας. Παρότι δεν έχουμε παρατηρήσει σημαντική αύξηση στην κλιμάκωση της κατάχρησης, προετοιμάζουμε πρόσθετα μέτρα προφύλαξης για προηγμένες δυνατότητες. Οι ομάδες μας έχουν ήδη ανακόψει περιστατικά κυβερνοεπιθέσεων που επιχείρησαν να κάνουν κακή χρήση των μοντέλων μας, και η ύποπτη δραστηριότητα δρομολογείται προς έλεγχο μέσω των συστημάτων παρακολούθησης πολιτικής μας.

Το Codex έχει σχεδιαστεί ώστε να εκτελείται από προεπιλογή σε ένα ασφαλές περιβάλλον απομόνωσης: οι εγγραφές αρχείων περιορίζονται στον χώρο εργασίας του και η πρόσβαση στο δίκτυο είναι απενεργοποιημένη, εκτός αν την ενεργοποιήσει ο προγραμματιστής. Συνιστούμε να παραμένετε σε αυτήν τη λειτουργία περιορισμένης πρόσβασης, καθώς η ενεργοποίηση διαδικτύου ή η αναζήτηση στο web ενδέχεται να επιφέρει κινδύνους τύπου «prompt injection» (που βασίζονται σε προτροπές) από μη αξιόπιστο περιεχόμενο.

Καθώς το Codex γίνεται όλο και πιο ικανό σε εργασίες μεγάλης διάρκειας, είναι όλο και πιο σημαντικό οι προγραμματιστές να ελέγχουν το έργο του πράκτορα πριν κάνουν αλλαγές ή το εφαρμόσουν στην παραγωγή. Για να στηρίξει αυτήν την προσέγγιση, το Codex παράγει αρχεία καταγραφής στο παράθυρο της γραμμής εντολών και παραθέτει τις κλήσεις εργαλείων και τα αποτελέσματα των δοκιμών του. Παρότι οι αξιολογήσεις κώδικα μειώνουν τον κίνδυνο να φτάσουν στην παραγωγή σφάλματα του μοντέλου ή ανθρώπινα σφάλματα, το Codex πρέπει να αντιμετωπίζεται ως πρόσθετο εργαλείου ελέγχου και να μην αντικαθιστά τον ανθρώπινο έλεγχο.

Οι δυνατότητες κυβερνοασφάλειας μπορούν να χρησιμοποιηθούν τόσο για άμυνα όσο και για επίθεση, γι’ αυτό ακολουθούμε μια προσέγγιση σταδιακής διάθεσης: μαθαίνουμε από τη χρήση στον πραγματικό κόσμο, ενημερώνουμε τους μηχανισμούς προστασίας και διατηρούμε σημαντικά αμυντικά εργαλεία όπως την αυτοματοποιημένη ανίχνευση ευπαθειών και τη βοήθεια αποκατάστασης.

Διαθεσιμότητα

Το GPT‑5.1‑Codex‑Max είναι διαθέσιμο στο Codex με τα προγράμματα ChatGPT Plus, Pro, Business, Edu και Enterprise. Για λεπτομέρειες σχετικά με τα όρια χρήσης του προγράμματός σας, ανατρέξτε στα σχετικά έγγραφα(ανοίγει σε νέο παράθυρο).

Για προγραμματιστές που χρησιμοποιούν το Codex CLI μέσω κλειδιού API, σχεδιάζουμε να διαθέσουμε το GPT‑5.1‑Codex‑Max σύντομα στο API.

Από σήμερα, το GPT‑5.1‑Codex‑Max θα αντικαταστήσει το GPT‑5.1‑Codex ως το προεπιλεγμένο μοντέλο σε όλες τις εφαρμογές του Codex. Σε αντίθεση με το GPT‑5.1, που είναι μοντέλο γενικής χρήσης, προτείνουμε να χρησιμοποιείτε το GPT‑5.1‑Codex‑Max και τη σουίτα των μοντέλων Codex μόνο για εργασίες πράκτορα στον προγραμματισμό μέσα στο Codex ή σε περιβάλλοντα παρόμοια με το Codex.

Συμπέρασμα

Το GPT‑5.1‑Codex‑Max δείχνει πόσο έχουν προχωρήσει τα μοντέλα στην υποστήριξη εργασιών προγραμματισμού μεγάλης διάρκειας, στη διαχείριση σύνθετων ροών εργασίας και στην παραγωγή εφαρμογών υψηλής ποιότητας με πολύ λιγότερα token. Έχουμε παρατηρήσει ότι ο συνδυασμός του μοντέλου με τις συνεχείς αναβαθμίσεις στο CLI, την επέκταση IDE, την ενσωμάτωση στο cloud και τα εργαλεία αξιολόγησης κώδικα, έχουν οδηγήσει σε εντυπωσιακά υψηλότερη παραγωγικότητα στους μηχανικούς: εσωτερικά, το 95% των μηχανικών της OpenAI χρησιμοποιεί το Codex κάθε εβδομάδα και αυτοί οι μηχανικοί παραδίδουν περίπου 70% περισσότερα αιτήματα συγχώνευσης κώδικα από τότε που άρχισαν να χρησιμοποιούν το Codex. Καθώς δοκιμάζουμε τα όρια των δυνατοτήτων των πρακτόρων, ανυπομονούμε να δούμε τι θα δημιουργήσετε μαζί τους.

Παράρτημα: Αξιολογήσεις μοντέλων

GPT‑5.1‑Codex (υψηλό)

GPT‑5.1‑Codex‑Max (εξαιρετικά υψηλό)

SWE-bench Verified (n=500)

73,7%

77,9%

SWE-Lancer IC SWE

66,3%

79,9%

Terminal-Bench 2.0

52,8%

58,1%

Συντάκτης

OpenAI