Ενημέρωση στις 10 Ιουνίου 2025: Το OpenAI o3‑pro είναι πλέον διαθέσιμο σε χρήστες Pro στο ChatGPT, καθώς και στο API μας. Όπως το OpenAI o1‑pro, το o3‑pro είναι μια έκδοση του πιο έξυπνου μοντέλου μας, του OpenAI o3, που έχει σχεδιαστεί να σκέφτεται περισσότερο και να παρέχει τις πιο αξιόπιστες απαντήσεις. Πλήρεις λεπτομέρειες μπορείτε να βρείτε στις σημειώσεις έκδοσης(ανοίγει σε νέο παράθυρο).
Σήμερα, διαθέτουμε τα OpenAI o3 και o4-mini, τα τελευταία μοντέλα της σειράς o που έχουν εκπαιδευτεί ώστε να σκέφτονται περισσότερο πριν απαντήσουν. Πρόκειται για τα πιο έξυπνα μοντέλα που έχουμε διαθέσει μέχρι σήμερα, και αποτυπώνουν μια σημαντική αλλαγή στις δυνατότητες του ChatGPT για όλους, από τους περίεργους χρήστες έως τους προχωρημένους ερευνητές. Για πρώτη φορά, τα μοντέλα συλλογιστικής μας μπορούν να χρησιμοποιούν και να συνδυάζουν με βοηθητικό τρόπο όλα τα εργαλεία του ChatGPT. Σε αυτά περιλαμβάνεται η αναζήτηση στο διαδίκτυο, η ανάλυση μεταφορτωμένων αρχείων και άλλων δεδομένων με Python, η βαθιά συλλογιστική σε εισαγωγή οπτικών μέσων, ακόμη και η δημιουργία εικόνων. Κρίσιμης σημασίας είναι το γεγονός ότι αυτά τα μοντέλα εκπαιδεύονται ώστε να συλλογίζονται πότε και πώς να χρησιμοποιούν εργαλεία για να παράγουν λεπτομερείς και προσεγμένες απαντήσεις στις σωστές μορφές εξαγωγής, συνήθως σε λιγότερο από ένα λεπτό, για την επίλυση πιο σύνθετων προβλημάτων. Έτσι, μπορούν να αντιμετωπίζουν πιο αποτελεσματικά πολύπλευρες ερωτήσεις, κάτι που αποτελεί βήμα προς ένα πιο αυτόνομο ChatGPT που θα μπορεί να εκτελεί ανεξάρτητα εργασίες για λογαριασμό σας. Η συνδυασμένη ισχύς της προηγμένης συλλογιστικής με πλήρη πρόσβαση στα εργαλεία μεταφράζεται σε σημαντικά ισχυρότερες επιδόσεις σε ακαδημαϊκά πρότυπα και πραγματικές εργασίες, θέτοντας ένα νέο πρότυπο τόσο στη νοημοσύνη όσο και στη χρησιμότητα.
Το OpenAI o3 είναι το πιο ισχυρό μοντέλο συλλογισμού μας, που προωθεί τα όρια στον προγραμματισμό, τα μαθηματικά, τις επιστήμες, την οπτική αντίληψη και πολλά άλλους τομείς. Θέτει ένα νέο SOTA σε δείκτες αξιολόγησης όπως Codeforces, SWE-bench (χωρίς να κατασκευάζει προσαρμοσμένο scaffold για ειδικά για το συγκεκριμένο μοντέλο) και MMMU. Είναι ιδανικό για σύνθετα ερωτήματα που απαιτούν πολύπλευρη ανάλυση και των οποίων οι απαντήσεις μπορεί να μην είναι άμεσα προφανείς. Αποδίδει εξαιρετικά καλά σε οπτικές εργασίες όπως η ανάλυση εικόνων, διαγραμμάτων και γραφικών. Σε αξιολογήσεις από εξωτερικούς ειδικούς, το o3 κάνει 20 τοις εκατό λιγότερα σημαντικά σφάλματα από το OpenAI o1 σε δύσκολες, πραγματικές εργασίες — ειδικά σε τομείς όπως ο προγραμματισμός, οι επιχειρηματικές/συμβουλευτικές υπηρεσίες και ο δημιουργικός ιδεασμός. Οι πρώτοι δοκιμαστές υπογράμμισαν την αναλυτική του δεινότητα ως συνεργάτη σκέψης και τόνισαν την ικανότητά του να δημιουργεί και να αξιολογεί κριτικά νέες υποθέσεις—ιδιαίτερα στο πλαίσιο της βιολογίας, των μαθηματικών και της μηχανικής.
Το OpenAI o4-mini είναι ένα μικρότερο μοντέλο, βελτιστοποιημένο για γρήγορο και οικονομικά αποδοτικό συλλογισμό—επιτυγχάνει αξιοσημείωτη απόδοση για το μέγεθος και το κόστος του, ιδιαίτερα σε μαθηματικά, προγραμματισμό και οπτικές εργασίες. Πέτυχε την καλύτερη απόδοση ανάμεσα σε μοντέλα που αξιολογήθηκαν στις εξετάσεις AIME 2024 και 2025. Αν και η πρόσβαση σε υπολογιστή μειώνει ουσιαστικά τη δυσκολία της εξέτασης AIME, βρήκαμε επίσης αξιοσημείωτο ότι το o4-mini επιτυγχάνει 99,5% pass@1 (100% consensus@8) στο AIME 2025, όταν του παρέχεται πρόσβαση σε έναν διερμηνέα Python. Αν και αυτά τα αποτελέσματα δεν πρέπει να συγκρίνονται με την απόδοση μοντέλων χωρίς πρόσβαση σε εργαλεία, αποτελούν ένα παράδειγμα του πόσο αποτελεσματικά αξιοποιεί το o4-mini τα διαθέσιμα εργαλεία. Το o3 παρουσιάζει παρόμοιες βελτιώσεις στο AIME 2025 με τη χρήση εργαλείων (98,4% pass@1, 100% consensus@8).
Στις αξιολογήσεις ειδικών, το o4-mini υπερέχει επίσης του προκατόχου του, o3‑mini, σε εργασίες εκτός STEM, καθώς και σε τομείς όπως η επιστήμη δεδομένων. Χάρη στην αποτελεσματικότητά του, το o4-mini παρέχει υποστήριξη σε ουσιαστικά υψηλότερα όρια χρήσης από το o3, καθιστώντας το μια ισχυρή επιλογή για μεγάλο όγκο και υψηλή ρυθμαπόδοση για ερωτήσεις που επωφελούνται από τον συλλογισμό. Εξωτερικοί ειδικοί αξιολογητές αποφάνθηκαν ότι και τα δύο μοντέλα επιδεικνύουν βελτιωμένη δυνατότητα τήρησης οδηγιών και πιο χρήσιμες, επαληθεύσιμες απαντήσεις από τους προκατόχους τους, χάρη στη βελτιωμένη ευφυΐα και τη συμπερίληψη διαδικτυακών πηγών. Σε σύγκριση με προηγούμενες εκδόσεις των μοντέλων συλλογισμού μας, αυτά τα δύο μοντέλα θα πρέπει επίσης να δίνουν μια πιο φυσική και συνομιλητική αίσθηση, ειδικά καθώς ανατρέχουν στη μνήμη και σε προηγούμενες συζητήσεις για να δίνουν πιο εξατομικευμένες και συναφείς απαντήσεις.
Πολυτροπικό
Προγραμματισμός
Όλες οι εκτελέσεις αξιολόγησης με SWE-bench χρησιμοποιούν ένα σταθερό υποσύνολο n=477 επαληθευμένων εργασιών που έχουν επικυρωθεί στην εσωτερική μας υποδομή.
Ακολούθηση οδηγιών και χρήση εργαλείων βάσει πράκτορα
Όλα τα μοντέλα αξιολογούνται σε ρυθμίσεις υψηλής «προσπάθειας συλλογισμού»—παρόμοιες με παραλλαγές όπως το «o4-mini-high» στο ChatGPT.
Καθ' όλη τη διάρκεια της ανάπτυξης του OpenAI o3, έχουμε παρατηρήσει ότι η ενισχυτική μάθηση μεγάλης κλίμακας παρουσιάζει την ίδια τάση «περισσότερη υπολογιστική ισχύς = καλύτερη απόδοση» που παρατηρήθηκε στην προεκπαίδευση της σειράς GPT. Αφου παρατηρήσαμε την πορεία της κλιμάκωσης —αυτή τη φορά σε πραγματικές συνθήκες— αυξήσαμε κατά μία τάξη μεγέθους τόσο την υπολογιστική ισχύ της εκπαίδευσης όσο και τον χρόνο συλλογισμού κατά την επαγωγή, ωστόσο εξακολουθούμε να βλέπουμε σαφή κέρδη στην απόδοση, επιβεβαιώνοντας ότι η απόδοση των μοντέλων συνεχίζει να βελτιώνεται όσο περισσότερο τους επιτρέπεται να σκέφτονται. Με την ίδια λανθάνουσα καθυστέρηση και κόστος με το OpenAI o1, το o3 προσφέρει καλύτερες επιδόσεις στο ChatGPT — και έχουμε επιβεβαιώσει ότι αν το αφήσουμε να σκέφτεται περισσότερο, οι επιδόσεις του συνεχίζουν να αυξάνονται.
Επίσης, εκπαιδεύσαμε και τα δύο μοντέλα, έτσι ώστε να χρησιμοποιούν εργαλεία μέσω ενισχυτικής μάθησης—διδάσκοντάς τα όχι μόνο πώς να χρησιμοποιούν εργαλεία, αλλά και να συλλογίζονται πότε να τα χρησιμοποιούν. Η ικανότητά τους να αναπτύσσουν εργαλεία με βάση τα επιθυμητά αποτελέσματα τα καθιστά πιο ικανά σε καταστάσεις ελεύθερων εκβάσεων—ιδιαίτερα εκείνες που περιλαμβάνουν οπτικό συλλογισμό και ροές εργασίας πολλαπλών βημάτων. Αυτή η βελτίωση αντικατοπτρίζεται τόσο στους ακαδημαϊκούς δείκτες αξιολόγησης όσο και στις εργασίες σε πραγματικές συνθήκες, όπως αναφέρθηκε από τους πρώτους δοκιμαστές.

Για πρώτη φορά, αυτά τα μοντέλα μπορούν να ενσωματώσουν εικόνες απευθείας στην αλληλουχία σκέψεών τους. Δεν βλέπουν απλώς μια εικόνα — τη σκέφονται. Αυτό ξεκλειδώνει μια νέα κατηγορία επίλυσης προβλημάτων που συνδυάζει οπτικό και κειμενικό συλλογισμό, η οποία αντικατοπτρίζεται στην υπερσύγχρονη απόδοσή τους σε πολυτροπικά σημεία αναφοράς.
Ο χρήστης μπορεί να ανεβάσει μια φωτογραφία από έναν πίνακα, ένα διάγραμμα από σχολικό βιβλίο ή ένα σκίτσο σχεδιασμένο στο χέρι, και το μοντέλο μπορεί να το ερμηνεύσει, ακόμα κι αν η εικόνα είναι θολή, αντιστραμμένη ή χαμηλής ποιότητας. Με τη χρήση εργαλείων, τα μοντέλα μπορούν να χειρίζονται εικόνες άμεσα—περιστρέφοντας, μεγεθύνοντας ή μετασχηματίζοντάς τις ως μέρος της διαδικασίας συλλογισμού τους.
Αυτά τα μοντέλα προσφέρουν κορυφαία ακρίβεια στην κατηγορία τους σε εργασίες οπτικής αντίληψης, το οποίο τους επιτρέπει να επιλύουν ερωτήματα που προηγουμένως ήταν απρόσιτα. Δες το ιστολόγιο έρευνας οπτικού συλλογισμού για να μάθεις περισσότερα.
Τα OpenAI o3 και o4-mini έχουν πλήρη πρόσβαση σε εργαλεία εντός του ChatGPT, καθώς και στα δικά σου προσαρμοσμένα εργαλεία μέσω κλήσης λειτουργιών στο API. Αυτά τα μοντέλα εκπαιδεύονται να συλλογίζονται για την επίλυση προβλημάτων, επιλέγοντας πότε και πώς να χρησιμοποιούν εργαλεία για να παράγουν λεπτομερείς και προσεκτικές απαντήσεις στις σωστές μορφές αποτελεσμάτων γρήγορα—συνήθως σε λιγότερο από ένα λεπτό.
Για παράδειγμα, ένας χρήστης μπορεί να ρωτήσει: «Πώς είναι η καλοκαιρινή κατανάλωση ενέργειας στην Καλιφόρνια σε σχέση με την περσινή;» Το μοντέλο μπορεί να αναζητήσει στο διαδίκτυο δεδομένα υπηρεσιών κοινής ωφέλειας, να γράψει κώδικα Python για να δημιουργήσει μια πρόβλεψη, να δημιουργεί ένα γράφημα ή μια εικόνα και να εξηγήσει τους βασικούς παράγοντες πίσω από την πρόβλεψη, συνδυάζοντας πολλαπλές κλήσεις εργαλείων. Ο συλλογισμός επιτρέπει στα μοντέλα να αντιδρούν και να στρέφονται προς τις πληροφορίες που συναντούν, όταν χρειάζεται. Για παράδειγμα, μπορούν να κάνουν αναζήτηση στο διαδίκτυο πολλές φορές με τη βοήθεια παρόχων αναζήτησης, να δουν τα αποτελέσματα και να δοκιμάσουν νέες αναζητήσεις αν χρειάζονται περισσότερες πληροφορίες.
Αυτή η ευέλικτη, στρατηγική προσέγγιση επιτρέπει στα μοντέλα να εκτελούν εργασίες που απαιτούν πρόσβαση σε ενημερωμένες πληροφορίες πέρα από την ενσωματωμένη γνώση του μοντέλου, εκτεταμένο συλλογισμό, σύνθεση και παραγωγή αποτελεσμάτων σε διάφορες μορφές.
Όλα τα παραδείγματα ολοκληρώθηκαν με το OpenAI o3.
OpenAI o3
OpenAI o1
Το OpenAI o3 απαντάς σωστά χωρίς να χρησιμοποιεί αναζήτηση, ενώ το o1 αποτυγχάνει να παρέχει σωστή απάντηση.
Προώθηση οικονομικά αποδοτικού συλλογισμού
Κόστος έναντι απόδοσης: o3‑mini και o4-mini


Κόστος έναντι απόδοσης: o1 και o3


Τα OpenAI o3 και o4-mini είναι τα πιο έξυπνα μοντέλα που έχουμε παρουσιάσει ποτέ και είναι επίσης συχνά πιο αποδοτικά από τους προκατόχους τους, OpenAI o1 και o3‑mini. Για παράδειγμα, στον μαθηματικό διαγωνισμό AIME του 2025, το όριο κόστους-απόδοσης για το o3 βελτιώνεται αυστηρά σε σχέση με το o1, και ομοίως, το όριο απόδοσης του o4-mini βελτιώνεται αυστηρά σε σχέση με το o3‑mini. Γενικότερα, αναμένουμε ότι για τις περισσότερες πραγματικές χρήσεις, τα o3 και o4-mini θα είναι επίσης πιο έξυπνα και φθηνότερα από τα o1 και o3‑mini, αντίστοιχα.
Κάθε βελτίωση στις δυνατότητες του μοντέλου απαιτεί αντίστοιχες βελτιώσεις στην ασφάλεια. Για τα OpenAI o3 και o4-mini, ανακατασκευάσαμε πλήρως τα δεδομένα εκπαίδευσης ασφάλειας, προσθέτοντας νέες προτροπές άρνησης σε τομείς όπως οι βιολογικές απειλές (βιολογικός κίνδυνος), η δημιουργία κακόβουλου λογισμικού και οι παραβιάσεις περιορισμών λογισμικού (jailbreak). Αυτά τα ανανεωμένα δεδομένα οδήγησαν τα o3 και o4-mini να επιτύχουν ισχυρή απόδοση στους εσωτερικούς μας δείκτες αξιολόγησης άρνησης (π.χ. ιεραρχία εντολών, jailbreak). Εκτός από τις ισχυρές επιδόσεις στις αρνήσεις μοντέλων, έχουμε επίσης αναπτύξει μετριασμούς σε επίπεδο συστήματος για την επισήμανση επικίνδυνων προτροπών σε τομείς ρίσκου λόγω τεχνολογίας αιχμής. Παρομοίως με την προηγούμενη εργασία μας στη δημιουργία εικόνων, εκπαιδεύσαμε ένα συλλογιστικό εργαλείο παρακολούθησης LLM που λειτουργεί με βάση γραπτές και ερμηνεύσιμες από ανθρώπους προδιαγραφές ασφαλείας. Όταν εφαρμόστηκε στον βιολογικό κίνδυνο, αυτό το εργαλείο παρακολούθησης επισήμανε επιτυχώς το ~99% των συζητήσεων στην καμπάνια ανθρώπινων δοκιμών κυβερνοασφάλειας (red-teaming).
Δοκιμάσαμε την αντοχή και των δύο μοντέλων με το πιο αυστηρό πρόγραμμα ασφαλείας που έχουμε αναπτύξει μέχρι σήμερα. Σύμφωνα με το ενημερωμένο Πλαίσιο Ετοιμότητας, αξιολογήσαμε τα o3 και o4-mini στους τρεις τομείς ικανοτήτων που παρακολουθεί το Πλαίσιο: βιολογικές και χημικές, κυβερνοασφάλεια και αυτοβελτίωση μέσω ΤΝ. Με βάση τα αποτελέσματα αυτών των αξιολογήσεων, διαπιστώσαμε ότι τόσο το o3 όσο και το o4‑mini παραμένουν κάτω από το «Υψηλό» όριο του Πλαισίου σε όλες τις τρεις κατηγορίες. Έχουμε δημοσιεύσει τα λεπτομερή αποτελέσματα από αυτές τις αξιολογήσεις στην συνοδευτική κάρτα συστήματος.
Μοιραζόμαστε επίσης ένα νέο πείραμα: το Codex CLI, έναν ελαφρύ πράκτορα κωδικοποίησης που μπορείς να εκτελέσεις από το τερματικό σου. Λειτουργεί απευθείας στον υπολογιστή σου και έχει σχεδιαστεί για να μεγιστοποιεί τις δυνατότητες συλλογισμού μοντέλων όπως το o3 και το o4-mini, με επερχόμενη υποστήριξη για πρόσθετα μοντέλα API όπως το GPT‑4.1.
Μπορείς να επωφεληθείς από τα πλεονεκτήματα του πολυτροπικού συλλογισμού από τη γραμμή εντολών, περνώντας στιγμιότυπα οθόνης ή σκίτσα χαμηλής πιστότητας στο μοντέλο, σε συνδυασμό με πρόσβαση στον κώδικά σου τοπικά. Το θεωρούμε μια ελάχιστη διεπαφή για να συνδέουμε τα μοντέλα μας με τους χρήστες και τους υπολογιστές τους. Το Codex CLI είναι πλήρως ανοιχτού κώδικα στο github.com/openai/codex(ανοίγει σε νέο παράθυρο) σήμερα.
Παράλληλα, ξεκινάμε μια πρωτοβουλία ύψους 1 εκατομμυρίου δολαρίων για την υποστήριξη έργων που χρησιμοποιούν το Codex CLI και τα μοντέλα της OpenAI. Θα αξιολογήσουμε και θα δεχτούμε αιτήσεις για επιχορηγήσεις σε πολλαπλάσια των 25.000 δολαρίων ΗΠΑ, με τη μορφή πιστώσεων API. Μπορείτε να υποβάλετε τις προτάσεις σας εδώ.
Από σήμερα, οι χρήστες του ChatGPT Plus, Pro και Team θα βλέπουν τα o3, o4-mini και o4-mini-high στον επιλογέα μοντέλου, τα οποία αντικαθιστούν τα o1, o3‑mini και o3‑mini‑high. Οι χρήστες του ChatGPT Enterprise και Edu θα αποκτήσουν πρόσβαση σε μία εβδομάδα. Οι χρήστες του Free μπορούν να δοκιμάσουν το o4-mini επιλέγοντας «Think» (Σκέψου) στο εργαλείο σύνθεσης, πριν από την υποβολή του ερωτήματός τους. Τα όρια χρήσης σε όλα τα προγράμματα παραμένουν αμετάβλητα από εκείνα του προηγούμενου συνόλου μοντέλων.
Αναμένουμε να λανσάρουμε το OpenAI o3‑pro σε λίγες εβδομάδες, με πλήρη υποστήριξη εργαλείων. Προς το παρόν, οι χρήστες Pro έχουν ακόμα πρόσβαση στο o1‑pro.
Τόσο το o3 όσο και το o4-mini είναι επίσης διαθέσιμα στους προγραμματιστές σήμερα μέσω του Chat Completions API και του Responses API (ορισμένοι προγραμματιστές θα πρέπει να επαληθεύσουν τους οργανισμούς τους(ανοίγει σε νέο παράθυρο) για να αποκτήσουν πρόσβαση σε αυτά τα μοντέλα). Το Responses API υποστηρίζει συνόψεις συλλογισμού, τη δυνατότητα διατήρησης των token συλλογισμού γύρω από κλήσεις συναρτήσεων για καλύτερη απόδοση, και σύντομα θα υποστηρίζει ενσωματωμένα εργαλεία όπως αναζήτηση ιστού, αναζήτηση αρχείων και Code Interpreter στο συλλογισμό του μοντέλου. Για να ξεκινήσεις, εξερεύνησε τα έγγραφά μας(ανοίγει σε νέο παράθυρο) και να μας παρακολουθείς για περισσότερες ενημερώσεις.
Οι σημερινές ενημερώσεις αντικατοπτρίζουν την κατεύθυνση προς την οποία κατευθύνονται τα μοντέλα μας: Ενοποιούμε τις εξειδικευμένες δυνατότητες συλλογισμού της σειράς o με περισσότερες από τις φυσικές ικανότητες συνομιλίας και τη χρήση εργαλείων της σειράς GPT. Ενοποιώντας αυτά τα πλεονεκτήματα, τα μελλοντικά μας μοντέλα θα υποστηρίζουν απρόσκοπτες, φυσικές συζητήσεις, καθώς και προληπτική χρήση εργαλείων και προηγμένη επίλυση προβλημάτων.
Ενημέρωση στις 28 Ιουλίου 2025: Το σύνολο δεδομένων και τα αποτελέσματα του SWE-Lancer ενημερώθηκαν στις 17 Ιουλίου 2025 και είναι διαθέσιμα στη διεύθυνση: https://github.com/openai/preparedness(ανοίγει σε νέο παράθυρο) και στις κάρτες συστήματός μας. Αυτή η ενημέρωση επιλύει διάφορα ζητήματα που επηρέαζαν τα αποτελέσματα των κερδών σε δολάρια και καταργεί την απαίτηση για σύνδεση στο διαδίκτυο κατά την εκτέλεση, εξαλείφοντας μια κύρια πηγή μεταβλητότητας στην απόδοση του μοντέλου.
Ενημέρωση στις 16 Απριλίου 2025: Τα αποτελέσματα για το o3 στο Charxiv-r και το Mathvista ενημερώθηκαν για να αντικατοπτρίζουν μια αλλαγή στην προτροπή συστήματος που δεν υπήρχε στην αρχική αξιολόγηση.
Συντάκτης
Υποσημειώσεις
* Οι αριθμοί αξιολόγησης του tau-bench υπολογίζονται κατά μέσο όρο σε 5 εκτελέσεις, για να μειωθεί η διακύμανση και εκτελούνται χωρίς προσαρμοσμένα εργαλεία ή προτροπές. Διαπιστώσαμε ότι οι κυκλοφορίες λιανικής του tau-bench είναι πιο επιρρεπείς σε σφάλματα μοντέλου χρήστη. Οι αριθμοί για τη σκιασμένη γραμμή εκτελούνται με το GPT-4.1 ως μοντέλο χρήστη, επειδή είναι αισθητά ανώτερο από το GPT-4o στην παρακολούθηση εντολών.
* Το SWE-bench χρησιμοποιεί μέγιστο μήκος θεματικού πλαισίου 256k, το οποίο βελτιώνει το ποσοστό επίλυσης για το o4-mini κατά περίπου 3% και επηρεάζει το ποσοστό επίλυσης του o3 κατά <1%. Επίσης, εξαιρούμε 23 δείγματα που δεν μπορούν να εκτελεστούν στην εσωτερική μας υποδομή.
** Όταν ενεργοποιείς την περιήγηση, το μοντέλο μπορεί μερικές φορές να βρει ακριβείς απαντήσεις στο διαδίκτυο, για παράδειγμα, διαβάζοντας αναρτήσεις ιστολογίων με δείγματα προβλημάτων από ένα σύνολο δεδομένων. Μειώνουμε τις ανησυχίες για το ενδεχόμενο να «κλέψει» το μοντέλο κατά την περιήγηση με δύο στρατηγικές:
Αποκλείσαμε τομείς από τους οποίους έχουμε παρατηρήσει ότι το μοντέλο έκλεβε στο παρελθόν.
Χρησιμοποιήθηκε ένα μοντέλο συλλογισμού ως παρατηρητής για την εξέταση όλων των token σε κάθε προσπάθεια, με σκοπό τον εντοπισμό ύποπτης συμπεριφοράς. Ως ύποπτη συμπεριφορά ορίζεται «μια σελίδα, αρχείο ή απόσπασμα του οποίου ο κύριος σκοπός είναι να παρέχει την ακριβή απάντηση σε τη συγκεκριμένη ερώτηση — π.χ. ένα επίσημο κλειδί βαθμολόγησης, διαρροή σύνοψης των “λύσεων” ή συζήτηση που παραθέτει την ολοκληρωμένη απάντηση αυτολεξεί». Ως εύλογη συμπεριφορά ορίζεται «Οποιοσδήποτε έγκυρος πόρος που μπορεί να συμβουλευτεί ένας επιμελής άνθρωπος (τεκμηρίωση, εγχειρίδια, επιστημονικές εργασίες, αξιόπιστα άρθρα) ακόμη και αν περιέχει παρεμπιπτόντως τη σωστή απάντηση». Οποιεσδήποτε προσπάθειες κατά τις οποίες ο παρατηρητής έκρινε την κυκλοφορία ύποπτη μετρώνται ως λανθασμένες. Τα περισσότερα δείγματα που απέτυχαν σε αυτόν τον έλεγχο ήταν προβλήματα των οποίων η ακριβής λύση ήταν διαθέσιμη σε πολλαπλές πηγές στο διαδίκτυο που δεν σχετίζονται με το HLE.
Τέλος, οι αξιολογήσεις μας με περιήγηση ενδέχεται μην μπορούν να αναπαραχθούν πλήρως στο API του OpenAI, λόγω διαφορών στα backend των μηχανών αναζήτησης μεταξύ του API του ChatGPT και εκείνου του OpenAI. Αυτά τα αποτελέσματα προορίζονται να είναι αντιπροσωπευτικά της εμπειρίας χρήστη του ChatGPT, αλλά ανάλογα με τη ζήτηση, η διαμόρφωση της αναζήτησης μπορεί να αλλάξει με την πάροδο του χρόνου.
Συνεισφέροντες
Aaditya Singh, Aaron Schlesinger, Adam Fry, Adam Lerer, Adam Perelman, Adam Walker, Ahmed El-Kishky, Aidan Clark, Aidan McLaughlin, Aiden Low, Akila Welihinda, Akshay Nathan, Aleksander Madry, Aleksandra Spyra, Alex Karpenko, Alex Neitz, Alex Tachard Passos, Alex Wei, Alexander Prokofiev, Alexander Zielenski, Alexandra Barr, Alexey Ivanov, Alexi Christakis, Alfred Xue, Allison Tam, Ally Bennett, Ally Bennett , Amelia Liu, Amy McDonald Sandjideh, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrew Chen, Andrew Duberstein, Andrew Gibiansky, Andrew Kondrich, Andrew Tulloch, Andrey Mishchenko, Andy Applebaum, Andy Wang, Angela Baek, Annie Wei, Anting Shen, Antoine Pelisse, Anuj Saharan, Arun Vijayvergiya, Ashley Tyra, Ashvin Nair, Avi Nayak, Avital Oliver, Behrooz Ghorbani, Belinda Truong, Ben Sokolowsky, Beth Hoover, Bo Xu, Boaz Barak, Bohan Zhang, Borys Minaiev, Botao Hao, Bowen Baker, Bowen Cheng, Brandon McKinzie, Brandon Wang, Brian Hsu, Brian Yang, Brian Yu, Brian Zhang, Camillo Lugaresi, Carolina Paz, Carpus Chang, Cary Bassin , Cary Hudson, Casey Chu, Chak Li, Charles Zhao, Charlie Jatt, Charlotte Cole, Chelsea Voss, Chen Shen, Chengxu Zhuang, Chris Colby, Chris Hallacy , Chris Koch, Christina Kaplan, Christina Kim, Colin Reid, Colin Wei, Cristina Scheau, D. Sculley, Damien Deville, Dan Roberts, Dana Palmie, Dane Stuckey, Daniel Levine, David Hu, David Martin, David Robinson, David Sasaki, Davis Wu, Derek Chen, Dibya Bhattacharjee, Dimitris Tsipras, Dinghua Li, DJ Strouse, dmed Medina, Drew Hintz, Eddie Zhang, Edmund Wong, Elaine Ya Le, Eli Yani , Elizabeth Proehl, Emily Sokolova, Enoch Cheung, Eri Schwartz, Eric Mitchell, Eric Ning, Eric Sigler, Eric Wallace, Eugenio Panero, Evan Mays, Evgenii Nikishin, Fan Wang, Fangyuan Li, Filippo Raso, Foivos Tsimpourlas, Fouad Matin, Francis Song, Francis Zhang, Gary Yang, Gene Oden, Giambattista Parascandolo, Gildas Chabot, Grace Kim, Grace Zhao, Greg Brockman, Gregory Valiant, Guillaume Leclerc, Hadi Salman, Haitang Hu, Hannah Sheahan, Hao Sheng, Haoyu Wang, Henrique Ponde de Oliveira Pinto, Henry Aspegren, Heqing Yan, Hessam Bagherinezhad, Hongyu Ren, Hunter Lightman, Hyeonwoo Noh, Ian Kivlichan, Ian Sohl, Ignasi Clavera, Ikai Lan, Ilge Akkaya, Ilya Kostrikov, Irina Kofman, Isa Fulford, Jake Brill, Jakub Pachocki, James Betker, James Lee, James Qin, Jamie Kiros, Jason Ai, Jay Wang, Jean Harb, Jeff Mickey, Jeffrey Han, Jeffrey Wang, Jeremy Chen, Jerry Tworek, Jessica Liang, Jessica Shieh, Ji Lin, Jiahui Yu, Jianfeng Wang, Jie Tang, Jihan Yin, Jing Li, Joanne Jang, Joel Morris, Johannes Ferstad, Johannes Heidecke, John Fishbein, Jon Okun, Jonathan Gordon, Joost Huizinga, Jos Kraaijeveld, Joseph Mo, Josh Lawson , Josh Tobin, Junhua Mao, Kai Chen, Kai Hayashi, Karan Singhal, Karina Nguyen, Katy Shi, Kelly Stirman, Kenji Hata, Kenny Nguyen, Keren Gu-Lemberg, Kevin Gladstone, Kevin King, Kevin Liu, Kevin Lu, Kevin Park, Kevin Stone, Kevin Weil, Kevin Whinnery, Kevin Yu, Kote Mushegiani, Kristen Ying, Kristian Georgiev, Kshitij Gupta, Kyle Kosic, Lama Ahmad, Larry Lv, Lauren Itow, Lauren Yang, Lee Byron, Leo Chen, Leo Liu, Leon Maksin, Leyton Ho, Li Jing, Liang Xiong, Lin Yang, Linden Li, Lorenz Kuhn, Louis Feuvrier, Lu Zhang, Łukasz Kaiser, Mahmoud Eariby, Maja Trębacz, Manas Joglekar, Manoli Liodakis, Manuka Stratta, Mark Chen, Mark Hudnall, Mark Sun, Mark Wang, Martin Li, Marvin Zhang, Mateusz Litwin, Matt Jones, Matt Lim, Max Johnson, Max Schwarzer, Mayank Gupta, Meghan Shah, Mengqing Wang, Mengyuan Yan, Mia Glaese, Michael Bolin, Michael Lampe, Michael Malek, Michael Sharman, Michael Zhang, Michele Wang, Michelle Pokrass, Miguel Oom Temudo de Castro, Mihai Florian, Mike McClay, Mike Trpcic, Miki Habryn, Miles Wang, Ming Chen, Mingxuan Wang, Minnia Feng, Mitchell Gordon, Mo Bavarian, Mostafa Rohaninejad, Nacho Soto, Nakul Khanna, Nat McAleese, Natalie Staudacher, Natan LaFontaine, Neel Ajjarapu, Nick Felt, Nick Turley, Nikil Pancha, Nikita Mikhaylin, Niko Felix, Nikunj Handa, Ning Liu, Nishant Rai, Noah Jorgensen, Noam Brown, Oleg Boiko, Oleg Murk, Olivia Watkins, Olivier Godement, Oona Gleeson, Paul Ashbourne, Pavel Belov, Peter Flockhart, Peter Hoeschele, Peter Zhokhov, Philip Pronin, Phillip Guo, Phoebe Thacker, Prafulla Dhariwal, Prashanth R, Rachel Dias, Rahul Arora, Rajkumar Samuel, Rasmus Rygaard, Ravi Teja Mullapudi, Raymond Li, Raz Gaon, Reah Miyara, Reiichiro Nakano, Reimar Leike, Rennie Song, Rhythm Garg, RJ Marsan, Robert Xiong, Robin Brown, Roman Tsiupa, Rui Shu, Ruslan Nigmatullin, Saachi Jain, Saagar Patel, Sam Altman, Sam Toizer, Sam Toyer, Samir Ahmed, Samuel Miserendino, Samuel Wolrich , Sandhini Agarwal, Santiago Hernández, Sarah Dong, Savannah Heon, Scott Ethersmith, Scott Mayer McKinney, Sean Fitzgerald, Sever Banesiu, Shamez Hemani, Shengjia Zhao, Shengli Hu, Shibani Santurkar, Shreyas Krishnaswamy, Shuchao Bi, Shunyu Yao, Shuyuan Zhang, Simón Posada Fishman, Spencer Papay, Spug Golden, Srinivas Narayanan, Stanley Hsieh, Stephen Logsdon, Sundeep Tirumalareddy, Tal Stramer, Tao Wang, Tao Xin, Taylor Gordon, Tejal Patwardhan, Thibault Sottiaux, Tina Sriskandarajah, Tony Casparro, Tony Zhao, Trevor Creech, Uzair Navid Iftikhar, Valerie Qi, Vineet Kosaraju, Vishal Kuo, Vitchyr Pong, Vivek Verma, Vlad Petrov, Wenda Zhou, Wenlei Xie, Wenting Zhan, Will DePue, Will Ellsworth, William Sheu, Wyatt Thompson, Yaming Lin, Yann Dubois, Yaodong Yu, Yara Khakbaz, Yash Patil, Yifan Wu, Yilong Qin, Yining Chen, Yirui Zhang, Yo Shavit , Young Cha, Yunyun Wang, Yushi Wang, Zack Sultan, Zehao Dou, Zewei Chu, Zheng Shao, Zhigang Wang, Zhishuai Zhang, Zihao Zhang