Μετάβαση στο κύριο περιεχόμενο
OpenAI

26 Ιουνίου 2026

ΠροϊόνΈκδοση

Προεπισκόπηση GPT‑5.6 Sol: μοντέλο νέας γενιάς

Φόρτωση…

Ξεκινάμε μια περιορισμένη προεπισκόπηση της σειράς GPT‑5.6: Sol, το κορυφαίο μοντέλο μας· Terra, ένα ισορροπημένο μοντέλο για καθημερινή εργασία· και Luna, ένα γρήγορο και οικονομικό μοντέλο. Το Terra προσφέρει ανταγωνιστική απόδοση σε σχέση με το GPT‑5.5 με το μισό κόστος, ενώ το Luna φέρνει ισχυρές δυνατότητες στο χαμηλότερο κόστος μας.

Το GPT‑5.6 Sol λανσάρεται με το πιο ανθεκτικό σύνολο μέτρων ασφάλειας που έχουμε δημιουργήσει έως σήμερα. Ενισχύσαμε τις προστασίες για δραστηριότητες υψηλότερου κινδύνου, ευαίσθητα αιτήματα κυβερνοασφάλειας και επαναλαμβανόμενη κατάχρηση, και αφιερώσαμε πολλές εβδομάδες στην εύρεση αδυναμιών, στη δοκιμή πίεσης του συστήματός μας και στη θωράκισή του απέναντι σε πραγματικές επιθέσεις.

Πιστεύουμε στην ευρεία πρόσβαση και σκοπεύουμε να διαθέσουμε γενικά τα GPT‑5.6 Sol, Terra και Luna τις επόμενες εβδομάδες. Στο πλαίσιο της συνεχιζόμενης συνεργασίας μας με την κυβέρνηση των ΗΠΑ, παρουσιάσαμε εκ των προτέρων τα σχέδιά μας και τις δυνατότητες των μοντέλων πριν από τη σημερινή κυκλοφορία. Κατόπιν αιτήματός τους, ξεκινάμε με περιορισμένη προεπισκόπηση για μια μικρή ομάδα αξιόπιστων συνεργατών, των οποίων η συμμετοχή έχει κοινοποιηθεί στην κυβέρνηση, πριν από την ευρύτερη διάθεση. Κατά την προεπισκόπηση, θα συνεχίσουμε τις δοκιμές και τον στενό συντονισμό με τους συνεργάτες μας, καθώς εργαζόμαστε για ευρύτερη διαθεσιμότητα. Δεν πιστεύουμε ότι αυτού του είδους η διαδικασία πρόσβασης από την κυβέρνηση πρέπει να γίνει η μακροπρόθεσμη προεπιλογή. Στερεί τα καλύτερα εργαλεία από χρήστες, προγραμματιστές, επιχειρήσεις, υπερασπιστές στον κυβερνοχώρο και διεθνείς συνεργάτες που τα χρειάζονται. Κάνουμε αυτό το βραχυπρόθεσμο βήμα επειδή πιστεύουμε ότι είναι η ισχυρότερη διαδρομή προς ευρύτερη διαθεσιμότητα τις επόμενες εβδομάδες, ενώ συνεργαζόμαστε με την κυβέρνηση για την ανάπτυξη του πλαισίου του εκτελεστικού διατάγματος για την κυβερνοασφάλεια και μιας επαναλήψιμης διαδικασίας για μελλοντικές κυκλοφορίες μοντέλων.

Δυνατότητες

Το GPT‑5.6 Sol είναι το ισχυρότερο μοντέλο μας μέχρι σήμερα. Για να δώσουμε μια προεπισκόπηση της απόδοσης του μοντέλου, μοιραζόμαστε ένα σύνολο αξιολογήσεων που αναδεικνύουν βελτιωμένες πρακτορικές δυνατότητες στον προγραμματισμό, τη βιολογία και την κυβερνοασφάλεια, με πρόσθετες αξιολογήσεις ασφάλειας και ετοιμότητας διαθέσιμες στην κάρτα συστήματος(ανοίγει σε νέο παράθυρο) μας. Θα δημοσιεύσουμε μια διευρυμένη σουίτα αποτελεσμάτων αξιολόγησης όταν διαθέσουμε το μοντέλο ευρύτερα.

Με το GPT‑5.6 εισάγουμε μια νέα προσπάθεια συλλογιστικής `max`, ώστε να δώσουμε στο Sol τον περισσότερο χρόνο για βαθιά συλλογιστική. Επιπλέον, εισάγουμε μια νέα λειτουργία `ultra`, που υπερβαίνει τις δυνατότητες ενός μόνο πράκτορα αξιοποιώντας υποπράκτορες για να επιταχύνει σύνθετες εργασίες.

Για ροές εργασίας προγραμματισμού, το GPT‑5.6 Sol θέτει νέο επίπεδο αιχμής στο Terminal‑Bench 2.1, το οποίο δοκιμάζει ροές εργασίας γραμμής εντολών που απαιτούν σχεδιασμό, επανάληψη και συντονισμό εργαλείων.

Το GPT‑5.6 Sol παρουσιάζει επίσης ευρείες βελτιώσεις σε ροές εργασίας βιολογίας. Στο GeneBench v1, που αξιολογεί αναλύσεις γονιδιωματικής και ποσοτικής βιολογίας μεγάλου ορίζοντα, επιτυγχάνει ισχυρότερα αποτελέσματα από το GPT‑5.5 χρησιμοποιώντας λιγότερα token.

Το GPT‑5.6 Sol είναι το πιο ικανό μοντέλο μας μέχρι σήμερα για την κυβερνοασφάλεια. Μετατοπίζει το όριο απόδοσης-αποδοτικότητας για εργασίες ασφάλειας μεγάλου ορίζοντα, όπως η έρευνα ευπαθειών και η εκμετάλλευση. Στο ExploitBench², το GPT‑5.6 Sol είναι ανταγωνιστικό με το Mythos Preview χρησιμοποιώντας μόνο περίπου το 1/3 των token εξόδου. Στο ExploitGym(ανοίγει σε νέο παράθυρο)3, ένα benchmark που δημιουργήθηκε από ερευνητές του UC Berkeley σε συνεργασία με την OpenAI και άλλα frontier labs, τα μοντέλα GPT‑5.6 Sol, Terra και Luna παρουσιάζουν όλα ισχυρές βελτιώσεις στις δυνατότητες κυβερνοασφάλειας καθώς αυξάνουμε τη συλλογιστική.

Ισχυρότερες δυνατότητες κυβερνοασφάλειας με ισχυρότερα μέτρα προστασίας

Αναπτύξαμε τα GPT‑5.6 Sol, Terra και Luna με τα πιο ανθεκτικά μέτρα προστασίας μας έως σήμερα, με διαμορφώσεις προσαρμοσμένες στις δυνατότητες κάθε μοντέλου. Καθώς το μοντέλο γίνεται πιο ικανό, σχεδιάζουμε μέτρα προστασίας που αντέχουν όλο και περισσότερο σε πραγματική αντιπαλική πίεση, διατηρώντας παράλληλα την πρόσβαση σε νόμιμες εργασίες όπως ανασκόπηση κώδικα, έρευνα ευπαθειών, ανάπτυξη διορθώσεων, αποσφαλμάτωση, εκπαίδευση ασφάλειας και αμυντικές δοκιμές. Στόχος μας είναι να κάνουμε την απαγορευμένη επιθετική δραστηριότητα πιο δύσκολη, αβέβαιη και ανιχνεύσιμη, χωρίς να περιορίζουμε άσκοπα αυτές τις ωφέλιμες χρήσεις. Με βάση την αξιολόγησή μας για το μοντέλο και τα μέτρα προστασίας, αναμένουμε ουσιαστικό όφελος για τη νόμιμη αμυντική εργασία, ενώ περιορίζουμε σημαντικά την απαγορευμένη επιθετική χρήση.

Το GPT‑5.6 Sol είναι καλύτερο στο να βοηθά τους ανθρώπους να βρίσκουν και να διορθώνουν ευπάθειες παρά στο να εκτελεί αξιόπιστα επιθέσεις από άκρο σε άκρο. Καθώς αυτές οι δυνατότητες συνεχίζουν να εξελίσσονται, προτεραιότητά μας είναι να διασφαλίσουμε ότι φτάνουν στους αμυνόμενους και τους ωφελούν, ώστε να μπορούν να χρησιμοποιούν αυτά τα εργαλεία για να βρίσκουν αδυναμίες, να αναπτύσσουν διορθώσεις και να ενισχύουν ευρύτερα τα συστήματα.

Το GPT‑5.6 Sol δεν υπερβαίνει το όριο Cyber Critical σύμφωνα με το Preparedness Framework μας. Σε αξιολογήσεις που αφορούσαν το Chromium και το Firefox, εντόπισε σφάλματα και primitives εκμετάλλευσης —τα δομικά στοιχεία ενός exploit— αλλά δεν παρήγαγε αυτόνομα ένα λειτουργικό exploit πλήρους αλυσίδας υπό τις συνθήκες που δοκιμάστηκαν. Ωστόσο, τα όρια των benchmark δεν μπορούν να αποτυπώσουν κάθε τρόπο με τον οποίο ένα μοντέλο μπορεί να χρησιμοποιηθεί ή να συνδυαστεί με άλλα εργαλεία. Αυτή η αβεβαιότητα, μαζί με το ευρύτερο άλμα δυνατοτήτων του μοντέλου, είναι ο λόγος που συνδυάζουμε τις αυξημένες δυνατότητες του μοντέλου με ισχυρότερα μέτρα προστασίας και σταδιακή κυκλοφορία. Μοιραζόμαστε περισσότερες λεπτομέρειες για τα μέτρα προστασίας μας στην κάρτα συστήματος προεπισκόπησης GPT‑5.6(ανοίγει σε νέο παράθυρο).

Πολυεπίπεδο σύνολο μέτρων προστασίας

Κανένα μεμονωμένο μέτρο προστασίας δεν αρκεί απέναντι σε αποφασισμένη ή προσαρμοστική κατάχρηση. Σε όλη την προεπισκόπηση GPT‑5.6 χρησιμοποιούμε πολυεπίπεδα μέτρα προστασίας, με ακριβείς διαμορφώσεις που διαφέρουν ανά μοντέλο, και τα δοκιμάζουμε υπό πίεση απέναντι σε πραγματικές επιθέσεις. Αυτά περιλαμβάνουν προστασίες εκπαιδευμένες στο μοντέλο, ελέγχους σε πραγματικό χρόνο κατά την παραγωγή, σήματα σε επίπεδο λογαριασμού, διαφοροποιημένη πρόσβαση, παρακολούθηση, επιβολή και συνεχή δοκιμή.

Το GPT‑5.6 έχει εκπαιδευτεί να αρνείται απαγορευμένη βοήθεια κυβερνοασφάλειας, ακόμη και όταν οι χρήστες προσπαθούν να συγκαλύψουν την πρόθεσή τους ή να κάνουν jailbreak στο μοντέλο. Αυτά τα μέτρα προστασίας σε επίπεδο μοντέλου θέτουν το πρώτο όριο γύρω από το σε τι πρέπει και σε τι δεν πρέπει να βοηθά το μοντέλο.

Οι ταξινομητές κατάχρησης κυβερνοασφάλειας και βιολογίας σε πραγματικό χρόνο παρέχουν ένα ακόμη επίπεδο, αξιολογώντας την έξοδο καθώς παράγεται. Σε περιπτώσεις υψηλότερου κινδύνου, αν εντοπίσουν πιθανή παραβίαση, η παραγωγή μπορεί να παύσει ενώ ένα μεγαλύτερο μοντέλο συλλογιστικής εξετάζει τη συνομιλία και το περιβάλλον της. Αν η έξοδος αξιολογηθεί ως μη επιτρεπτή, συγκρατείται πριν φτάσει στον χρήστη.

Η επισημασμένη δραστηριότητα μπορεί επίσης να ενεργοποιήσει έλεγχο σε επίπεδο λογαριασμού σε σχετικές συνομιλίες και σήματα κινδύνου, σύμφωνα με τους όρους και τις πολιτικές μας για διατήρηση και έλεγχο περιεχομένου. Η εξέταση πέρα από μία μόνο συνομιλία βοηθά τα συστήματά μας να διακρίνουν την επίμονη κακόβουλη συμπεριφορά από τη νόμιμη εργασία ασφάλειας διπλής χρήσης, όπου παρόμοιες τεχνικές έννοιες μπορεί να εμφανίζονται σε πολύ διαφορετικά περιβάλλοντα.

Μαζί, αυτά τα επίπεδα κάνουν τη συνολική προσέγγιση πιο ανθεκτική από οποιοδήποτε μεμονωμένο μέτρο προστασίας. Η συμπεριφορά του μοντέλου μειώνει την πιθανότητα επιβλαβών απαντήσεων, τα συστήματα πραγματικού χρόνου μπορούν να παρέμβουν κατά την παραγωγή, ο έλεγχος σε επίπεδο λογαριασμού μπορεί να εντοπίσει ευρύτερα μοτίβα και η διαφοροποιημένη πρόσβαση διατηρεί σημαντική αμυντική εργασία χωρίς να καθιστά τις πιο ευαίσθητες δυνατότητες ευρέως διαθέσιμες από προεπιλογή.

Ιδίως κατά την προεπισκόπηση, οι χρήστες μπορεί να συναντήσουν μέτρα προστασίας που μπλοκάρουν ή αρνούνται ορισμένα αιτήματα. Άλλα αιτήματα μπορεί να διαρκέσουν περισσότερο, επειδή η παραγωγή παύει για πρόσθετο έλεγχο. Τα μέτρα προστασίας μπορεί περιστασιακά να παρέμβουν σε νόμιμη εργασία, ιδίως σε τομείς διπλής χρήσης όπου η αμυντική και η επιθετική δραστηριότητα μπορεί αρχικά να μοιάζουν.

Αυτό είναι μέρος όσων έχει σχεδιαστεί να δοκιμάσει η προεπισκόπηση. Θέλουμε να κατανοήσουμε όχι μόνο αν τα μέτρα προστασίας περιορίζουν την κατάχρηση, αλλά και αν οι νόμιμοι χρήστες μπορούν ακόμη να ολοκληρώνουν την κανονική εργασία τους αξιόπιστα και αποδοτικά. Τα σχόλια κατά την προεπισκόπηση θα μας βοηθήσουν να μειώσουμε περιττούς αποκλεισμούς και καθυστερήσεις, να βελτιώσουμε τον τρόπο με τον οποίο τα μέτρα προστασίας ερμηνεύουν το πλαίσιο και να δημιουργήσουμε μια πιο ομαλή εμπειρία πριν από την ευρύτερη κυκλοφορία.

Συνεργαζόμαστε επίσης με εταιρικούς πελάτες σε πιο μακροπρόθεσμες προσεγγίσεις —όπως ανίχνευση που διατηρεί το απόρρητο, έλεγχοι ασφάλειας που λειτουργούν από τον πελάτη και πρόσβαση προσαρμοσμένη στον κίνδυνο πελάτη, χρήστη ή φόρτου εργασίας— ώστε να προάγουμε την ασφάλεια υποστηρίζοντας παράλληλα τις απαιτήσεις εταιρικού απορρήτου.

Βελτίωση της ανθεκτικότητας με αυτοματοποιημένο red-teaming

Τα μέτρα προστασίας πρέπει επίσης να παραμένουν αποτελεσματικά όταν οι επιτιθέμενοι προσαρμόζουν την τακτική τους. Μια προστασία που λειτουργεί μόνο σε ένα σταθερό σύνολο γνωστών επιθέσεων δεν είναι αρκετά ανθεκτική για ένα frontier μοντέλο.

Γι’ αυτό εφαρμόζουμε περισσότερη νοημοσύνη και υπολογιστική ισχύ από ποτέ στην ασφάλεια, χρησιμοποιώντας τα δικά μας μοντέλα για να βρίσκουμε αδυναμίες και να βελτιώνουμε ταχύτερα τα μέτρα προστασίας. Αφιερώσαμε πάνω από 700.000 ώρες GPU ισοδύναμες με A100 σε αυτοματοποιημένο red teaming με στόχο την εύρεση καθολικών jailbreak: επιθέσεων που μπορούν να λειτουργήσουν σε πολλές προτροπές ή περιβάλλοντα, όχι μόνο σε μία στενή ρύθμιση. Εστιάζοντας σε αυτές τις δυσκολότερες και πιο γενικές επιθέσεις, μπορέσαμε να δοκιμάσουμε τα μέτρα προστασίας πέρα από ένα σταθερό σύνολο γνωστών αστοχιών. Μας επιτρέπει επίσης να εξερευνούμε πολύ περισσότερα μοτίβα επίθεσης από όσα θα κάλυπτε μόνο ο ανθρώπινος έλεγχος, να εντοπίζουμε νωρίτερα μοτίβα αστοχίας και να μειώνουμε τον χρόνο από την εύρεση μιας αδυναμίας έως την αντιμετώπισή της.

Εκτός από το αυτοματοποιημένο red-teaming, συνεργαστήκαμε με εξωτερικούς δοκιμαστές για εκτεταμένο ανθρώπινο red teaming από ειδικούς, το οποίο θα συνεχιστεί κατά την περίοδο προεπισκόπησης. Το ανθρώπινο red-teaming συμπληρώνει την αυτοματοποιημένη εργασία, δοκιμάζοντας τα μέτρα προστασίας απέναντι σε δημιουργικούς ειδικούς που επιχειρούν να κάνουν κατάχρηση του μοντέλου με τρόπους που τα συστήματά μας ίσως δεν προβλέπουν.

Καμία αξιολόγηση δεν μπορεί να αντιπροσωπεύσει κάθε διαμόρφωση προϊόντος, επίθεση πολλών βημάτων ή πραγματική ροή εργασίας. Γι’ αυτό διατηρούμε μια διαδικασία ταχείας απόκρισης για την αναπαραγωγή, αξιολόγηση, ιεράρχηση και αποκατάσταση νεοανακαλυφθέντων jailbreak, τα οποία στη συνέχεια προσθέτουμε στις συνεχιζόμενες αξιολογήσεις μας ώστε να μπορούμε να δοκιμάζουμε παρόμοιες αστοχίες στο μέλλον.

Διαθεσιμότητα και τιμολόγηση

Κατά την προεπισκόπηση, τα μοντέλα GPT‑5.6 θα είναι αρχικά διαθέσιμα μέσω του API και του Codex σε επιλεγμένη ομάδα αξιόπιστων συνεργατών και οργανισμών. Σκοπεύουμε να τα διαθέσουμε σύντομα ευρύτερα σε άτομα που χρησιμοποιούν το ChatGPT, το Codex και το API.

Στο νέο σύστημα ονοματοδοσίας που εισάγεται με το GPT‑5.6, ο αριθμός προσδιορίζει τη γενιά ενός μοντέλου, ενώ τα Sol, Terra και Luna προσδιορίζουν σταθερά επίπεδα δυνατοτήτων που μπορούν να εξελίσσονται με τον δικό τους ρυθμό. Συνολικά, η οικογένεια προσφέρει σε χρήστες και προγραμματιστές σαφέστερες επιλογές ως προς νοημοσύνη, ταχύτητα και κόστος.

Το GPT‑5.6 τιμολογείται ανά 1 εκατ. token σε τρία μεγέθη μοντέλων: το Sol στα $5 για είσοδο / $30 για έξοδο, το Terra στα $2,50 για είσοδο / $15 για έξοδο και το Luna στα $1 για είσοδο / $6 για έξοδο. Το GPT‑5.6 εισάγει επίσης πιο προβλέψιμη προσωρινή αποθήκευση προτροπών, με υποστήριξη για ρητά σημεία διακοπής cache και ελάχιστη διάρκεια cache 30 λεπτών. Για το GPT‑5.6 και νεότερα μοντέλα, οι εγγραφές cache χρεώνονται στο 1,25x της μη προσωρινά αποθηκευμένης τιμής εισόδου του μοντέλου, ενώ οι αναγνώσεις cache συνεχίζουν να λαμβάνουν την έκπτωση 90% για προσωρινά αποθηκευμένη είσοδο.

Λανσάρουμε επίσης το GPT‑5.6 Sol στο Cerebras με έως 750 token ανά δευτερόλεπτο τον Ιούλιο, φέρνοντας frontier νοημοσύνη στους πελάτες με πρωτοφανή ταχύτητα. Η πρόσβαση θα περιοριστεί αρχικά σε επιλεγμένους πελάτες καθώς επεκτείνουμε τη χωρητικότητα.

Ανυπομονούμε να συνεχίσουμε να μαθαίνουμε από αυτή την περίοδο προεπισκόπησης και να φέρουμε σύντομα τα GPT‑5.6 Sol, Terra και Luna σε περισσότερους ανθρώπους.


1. Εκτιμούμε την καθυστέρηση και το κόστος API εξετάζοντας τη συμπεριφορά παραγωγής των μοντέλων μας και εκτελώντας προσομοίωση εκτός σύνδεσης. Αυτές οι εκτιμήσεις λαμβάνουν υπόψη λεπτομέρειες κλήσεων εργαλείων, δειγματοληπτημένα token και token εισόδου. Τα πραγματικά αποτελέσματα μπορεί να διαφέρουν σημαντικά και εξαρτώνται από πολλούς παράγοντες που δεν αποτυπώνονται στην προσομοίωσή μας. Προσομοιώνουμε την καθυστέρηση σε υψηλές ταχύτητες API και το κόστος με την κανονική τιμολόγηση API.

2. Όλα τα μοντέλα αξιολογούνται με το API harness του ExploitBench με 5 seeds και συνέχεια συλλογιστικής.

3. Εκτελέσαμε το ExploitGym στο alpha API μας, το οποίο παράγει απαντήσεις ταχύτερα από το δημόσιο API μας, και στη συνέχεια αναπροσαρμόσαμε τα αποτελέσματα ώστε να αντιστοιχούν στο δημόσιο API. Κατά την αναπροσαρμογή των καθυστερήσεων στις ταχύτητες που αναμένονται για το δημόσιο API μας, ορισμένες εκτιμώμενες καθυστερήσεις υπερβαίνουν τα χρονικά όρια των 2 και 6 ωρών, παρότι τηρήθηκαν σωστά στην εκτέλεση αξιολόγησης. Για μεγαλύτερες ταχύτητες σε εργασίες ευαίσθητες στον χρόνο, προσφέρουμε επεξεργασία προτεραιότητας⁠ στο API και γρήγορη λειτουργία⁠ στο Codex.

4. Τα μοντέλα χωρίς αναφερόμενα token εξόδου, καθυστέρηση ή κόστος απεικονίζονται ως οριζόντιες διακεκομμένες γραμμές.

Συντάκτης

OpenAI