Μετάβαση στο κύριο περιεχόμενο
OpenAI

Δημιουργήσαμε το GPT‑4, το πιο πρόσφατο ορόσημο στην προσπάθεια της OpenAI για την κλιμάκωση της βαθιάς μάθησης. Το GPT‑4 είναι ένα μεγάλο πολυτροπικό μοντέλο (που δέχεται εισαγωγές εικόνας και κειμένου και παράγει αποτελέσματα κειμένου), το οποίο, αν και λιγότερο ικανό από τους ανθρώπους σε πολλά σενάρια του πραγματικού κόσμου, παρουσιάζει επιδόσεις ανθρώπινου επιπέδου σε διάφορoυς επαγγελματικούς και ακαδημαϊκούς δείκτες αξιολόγησης. Για παράδειγμα, επιτυγχάνει σε προσομοίωση εξέτασης δικηγορικού συλλόγου με βαθμολογία γύρω στο κορυφαίο 10% των εξεταζομένων. Αντίθετα, για το GPT‑3.5 η βαθμολογία ήταν περίπου στο χαμηλότερο 10%. Αφιερώσαμε 6 μήνες σε επανειλημμένες προσπάθειες  ευθυγράμμισης  του GPT‑4  χρησιμοποιώντας μαθήματα από το πρόγραμμα μας με δοκιμές κατ' αντιπαράθεση καθώς και από το ChatGPT, και επιτύχαμε τα καλύτερα (αν και όχι τέλεια) αποτελέσματα μέχρι στιγμής όσον αφορά την πραγματολογική ακρίβεια, την δυνατότητα καθοδήγησης και την άρνηση παράκαμψης των δικλείδων ασφαλείας.

Τα τελευταία δύο χρόνια, ανακατασκευάσαμε ολόκληρη τη στοίβα βαθιάς μάθησης και, μαζί με το Azure, σχεδιάσαμε από κοινού έναν υπερυπολογιστή από την αρχή για τον φόρτο εργασίας μας. Πριν από ένα χρόνο, εκπαιδεύσαμε το GPT‑3.5 ως πρώτη «δοκιμαστική λειτουργία» του συστήματος. Βρήκαμε και διορθώσαμε κάποια σφάλματα και βελτιώσαμε τις θεωρητικές μας βάσεις. Ως εκ τούτου, η εκπαίδευσή μας στο GPT‑4 ήταν (για εμάς τουλάχιστον!) πρωτόγνωρα σταθερή, και έγινε το πρώτο μας μεγάλο μοντέλο του οποίου την απόδοση κατά την εκπαίδευση μπορέσαμε να προβλέψουμε με ακρίβεια εκ των προτέρων. Καθώς συνεχίζουμε να εστιάζουμε στην αξιόπιστη κλιμάκωση, στοχεύουμε να βελτιώσουμε τη μεθοδολογία μας ώστε να μας βοηθά να προβλέπουμε και να προετοιμαζόμαστε για μελλοντικές δυνατότητες πολύ πιο νωρίς — κάτι που θεωρούμε κρίσιμο για την ασφάλεια.

Διαθέτουμε τη δυνατότητα εισαγωγής κειμένου του GPT‑4 μέσω του ChatGPT και του API (με λίστα αναμονής). Για να προετοιμάσουμε τη δυνατότητα εισαγωγής εικόνας για ευρύτερη διαθεσιμότητα, συνεργαζόμαστε στενά με έναν μοναδικό συνεργάτη(ανοίγει σε νέο παράθυρο) για αρχή. Ανοίγουμε επίσης τον κώδικα του OpenAI Evals(ανοίγει σε νέο παράθυρο), του πλαισίου μας για την αυτοματοποιημένη αξιολόγηση της απόδοσης των μοντέλων AI, ώστε να επιτρέψουμε σε οποιονδήποτε να αναφέρει ελλείψεις στα μοντέλα μας και να συμβάλει στην καθοδήγηση περαιτέρω βελτιώσεων.

Δυνατότητες

Σε μια χαλαρή συζήτηση, η διάκριση μεταξύ GPT‑3.5 και GPT‑4 μπορεί να είναι λεπτή. Η διαφορά εμφανίζεται όταν η πολυπλοκότητα της εργασίας φτάσει σε ένα επαρκές όριο—το GPT‑4 είναι πιο αξιόπιστο, δημιουργικό και ικανό να χειριστεί πολύ πιο λεπτομερείς οδηγίες από το GPT‑3.5.

Για να κατανοήσουμε τη διαφορά ανάμεσα στα δύο μοντέλα, κάναμε δοκιμές σε διάφορους δείκτες αναφοράς, συμπεριλαμβανομένης της προσομοίωσης εξετάσεων που είχαν αρχικά σχεδιαστεί για ανθρώπους. Προχωρήσαμε χρησιμοποιώντας τα πιο πρόσφατα δημόσια διαθέσιμα τεστ (στην περίπτωση των Ολυμπιάδων και των ερωτήσεων ελεύθερης απάντησης AP) ή αγοράζοντας τις εκδόσεις 2022–2023 των προσομοιώσεων εξετάσεων. Δεν κάναμε καμία συγκεκριμένη εκπαίδευση για αυτές τις εξετάσεις. Το μοντέλο είδε ένα μικρό ποσοστό των προβλημάτων στις εξετάσεις κατά τη διάρκεια της εκπαίδευσης, αλλά πιστεύουμε ότι τα αποτελέσματα είναι αντιπροσωπευτικά — δες τη σχετική τεχνική έκθεση(ανοίγει σε νέο παράθυρο) για λεπτομέρειες.

εσωτερική αναφορά 1

Φόρτωση...
Φόρτωση...

Επίσης αξιολογήσαμε το GPT‑4 σε παραδοσιακούς δείκτες αναφοράς που έχουν σχεδιαστεί για μοντέλα μηχανικής μάθησης. Το GPT‑4 υπερέχει σημαντικά των υφιστάμενων μεγάλων γλωσσικών μοντέλων, καθώς και των περισσότερων μοντέλων αιχμής (SOTA) που μπορεί να περιλαμβάνουν ειδική προσαρμογή για συγκεκριμένους δείκτες αναφοράς ή επιπλέον πρωτόκολλα εκπαίδευσης:

Φόρτωση...

Πολλοί υφιστάμενοι δείκτες αναφοράς ML είναι γραμμένοι στα Αγγλικά. Για να αποκτήσουμε μια αρχική αίσθηση ικανότητας σε άλλες γλώσσες, μεταφράσαμε τον δείκτη αναφοράς MMLU — μια συλλογή 14.000 προβλημάτων πολλαπλής επιλογής που καλύπτουν 57 θέματα — σε διάφορες γλώσσες χρησιμοποιώντας το Azure Translate (βλ. Παράρτημα). Στις 24 από τις 26 γλώσσες που δοκιμάστηκαν, το GPT‑4 ξεπερνά την απόδοση στην αγγλική γλώσσα του GPT‑3.5 και άλλων LLM (Chinchilla, PaLM), συμπεριλαμβανομένων των γλωσσών χαμηλών πόρων όπως η Λετονική, η Ουαλική και η Σουαχίλι:

Φόρτωση...

Χρησιμοποιούμε επίσης το GPT‑4 εσωτερικά, με μεγάλο αντίκτυπο σε λειτουργίες όπως η υποστήριξη, οι πωλήσεις, ο συντονισμός περιεχομένου και ο προγραμματισμός. Το χρησιμοποιούμε επίσης για να βοηθήσουμε τους ανθρώπους στην αξιολόγηση των αποτελεσμάτων AI, ξεκινώντας τη δεύτερη φάση στη στρατηγική ευθυγράμμισης μας.

Οπτικές εισαγωγές

Το GPT‑4 μπορεί να δεχτεί μια προτροπή κειμένου και εικόνων, η οποία —παράλληλα με τη ρύθμιση για κείμενο μόνο— επιτρέπει στον χρήστη να καθορίσει οποιαδήποτε εργασία όρασης ή γλώσσας. Συγκεκριμένα, δημιουργεί αποτελέσματα κειμένου (φυσική γλώσσα, κώδικα κ.λπ.) όταν του δίνονται εισαγωγές που αποτελούνται από διάσπαρτο κείμενο και εικόνες. Σε μια σειρά τομέων —όπως μεταξύ άλλων έγγραφα με κείμενο και φωτογραφίες, διαγράμματα ή στιγμιότυπα οθόνης— το GPT‑4 παρουσιάζει παρόμοιες δυνατότητες όπως και στις εισαγωγές κειμένου μόνο. Επιπλέον, μπορεί να ενισχυθεί με τεχνικές χρόνου δοκιμής που αναπτύχθηκαν για γλωσσικά μοντέλα μόνο με κείμενο, συμπεριλαμβανομένης της προτροπής με λίγες προσπάθειες και αλληλουχίας σκέψεων(ανοίγει σε νέο παράθυρο). Οι εισαγωγές εικόνων εξακολουθούν να είναι σε προεπισκόπηση έρευνας και δεν είναι διαθέσιμες στο κοινό.

Φόρτωση...

Προεπισκοπούμε την απόδοση του GPT‑4 αξιολογώντας την σε μια περιορισμένη σειρά από τυπικούς ακαδημαϊκούς δείκτες αναφοράς για την όραση. Ωστόσο, αυτοί οι αριθμοί δεν αντιπροσωπεύουν πλήρως την έκταση των δυνατοτήτων του, καθώς ανακαλύπτουμε συνεχώς νέες και συναρπαστικές εργασίες που το μοντέλο μπορεί να αναλάβει. Σκοπεύουμε να δημοσιεύσουμε σύντομα περαιτέρω αναλύσεις και αριθμούς αξιολόγησης, καθώς και ενδελεχή διερεύνηση της επίδρασης των τεχνικών χρόνου δοκιμής.

εσωτερική υποσημείωσηA

Φόρτωση...

Δυνατότητα κατεύθυνσης

Δουλεύουμε σε κάθε πτυχή του προγράμματος που περιγράφεται στην ανάρτησή μας σχετικά με τον καθορισμό της συμπεριφοράς των AI, συμπεριλαμβανομένης της δυνατότητας καθοδήγησης. Αντί για την κλασική προσωπικότητα του ChatGPT με σταθερή πολυλογία, τόνο και στυλ, οι προγραμματιστές (και σύντομα οι χρήστες του ChatGPT) μπορούν πλέον να καθορίσουν το στυλ και την εργασία του AI τους περιγράφοντας αυτές τις οδηγίες στο μήνυμα «συστήματος». Τα μηνύματα συστήματος επιτρέπουν στους χρήστες API να προσαρμόζουν σημαντικά την εμπειρία των χρηστών τους εντός ορίων(ανοίγει σε νέο παράθυρο). Θα συνεχίσουμε να κάνουμε βελτιώσεις εδώ (και ιδιαίτερα να ξέρεις ότι τα μηνύματα συστήματος είναι ο ευκολότερος τρόπος για να κάνεις "jailbreak" στο τρέχον μοντέλο, δηλαδή, η τήρηση των ορίων δεν είναι τέλεια), αλλά σου συνιστούμε να το δοκιμάσεις και να μας πεις τι σκέφτεσαι.

Φόρτωση...

Περιορισμοί

Παρά τις δυνατότητές του, το GPT‑4 έχει παρόμοιους περιορισμούς με τα προηγούμενα μοντέλα GPT. Κυρίως, όμως, εξακολουθεί να μην είναι πλήρως αξιόπιστο (δημιουργεί «παραισθήσεις» γεγονότων και κάνει συλλογιστικά σφάλματα). Πρέπει να δίνεται μεγάλη προσοχή όταν χρησιμοποιούνται αποτελέσματα γλωσσικών μοντέλων, ειδικά σε θεματικά πλαίσια υψηλού κινδύνου, με το ακριβές πρωτόκολλο (όπως ανθρώπινος έλεγχος, ενίσχυση με επιπλέον θεματικό πλαίσιο ή γενικά αποφυγή χρήσεων υψηλού κινδύνου) να ταιριάζει με τις ανάγκες μιας συγκεκριμένης περίπτωσης χρήσης.

Αν και παραμένει ουσιαστικό ζήτημα, το GPT‑4 μειώνει σημαντικά τις ψευδαισθήσεις σε σύγκριση με προηγούμενα μοντέλα (τα οποία βελτιώνονταν με κάθε νέα έκδοση). Το GPT‑4 σημειώνει 40% υψηλότερη βαθμολογία από το πιο πρόσφατο GPT‑3.5 στις εσωτερικές μας αξιολογήσεις για κατ' αντιπαράθεση πραγματολογία:

Φόρτωση...

Έχουμε σημειώσει πρόοδο σε εξωτερικούς δείκτες αναφοράς, όπως το TruthfulQA, το οποίο ελέγχει την ικανότητα του μοντέλου να διακρίνει τα γεγονότα από ένα σύνολο λανθασμένων δηλώσεων που έχουν επιλεγεί κατ' αντιπαράθεση. Αυτές οι ερωτήσεις συνοδεύονται από απαντήσεις που είναι πραγματολογικά λανθασμένες αλλά στατιστικά ελκυστικές.

Φόρτωση...

Το βασικό μοντέλο GPT‑4 είναι μόνο ελαφρώς καλύτερο σε αυτή την εργασία από το GPT‑3.5· Ωστόσο, ύστερα από την μετα-εκπαίδευση RLHF (εφαρμόζοντας την ίδια διαδικασία που χρησιμοποιήσαμε με το GPT‑3.5) υπάρχει ένα μεγάλο κενό. Εξετάζοντας μερικά παραδείγματα παρακάτω, το GPT‑4 αντιστέκεται στην επιλογή κοινών ρητών (τώρα στα γεράματα, μάθε γέρο γράμματα.), ωστόσο εξακολουθεί να μπορεί να αντιληφθεί λεπτομέρειες (ο Έλβις Πρίσλεϊ δεν ήταν γιος ηθοποιού).

Φόρτωση...

Το μοντέλο μπορεί να έχει διάφορες προκαταλήψεις στα αποτελέσματά του—έχουμε σημειώσει πρόοδο σε αυτά, αλλά υπάρχουν ακόμα περισσότερα να κάνουμε. Σύμφωνα με την πρόσφατη ανάρτηση ιστολογίου μας, στοχεύουμε να εξοπλίσουμε τα συστήματα τεχνητής νοημοσύνης που δημιουργούμε με λογικές συμπεριφορές προεπιλογής που να αντικατοπτρίζουν ένα ευρύ φάσμα αξιών των χρηστών, να επιτρέπουν την προσαρμογή αυτών των συστημάτων εντός ευρέων ορίων και να λαμβάνουν δημόσια σχόλια σχετικά με το ποια πρέπει να είναι αυτά τα όρια.

Το GPT‑4 γενικά δεν έχει γνώση για γεγονότα που έχουν συμβεί μετά το χρονικό σημείο όπου διακόπτεται η συντριπτική πλειοψηφία των δεδομένων του (Σεπτέμβριος 2021) και δεν μαθαίνει από την εμπειρία του. Μερικές φορές μπορεί να κάνει απλά λάθη συλλογισμού που δεν φαίνεται να συμβαδίζουν με την ικανότητα σε τόσους πολλούς τομείς ή να είναι υπερβολικά ευκολόπιστο στην αποδοχή προφανών ψευδών δηλώσεων από έναν χρήστη. Ακόμα, μερικές φορές μπορεί να αποτύχει σε δύσκολα προβλήματα με τον ίδιο τρόπο που αποτυγχάνουν οι άνθρωποι, όπως η εισαγωγή ευπαθειών ασφαλείας στον κώδικα που παράγει.

Το GPT‑4 μπορεί επίσης να είναι σίγουρο για τις λανθασμένες προβλέψεις του, χωρίς να φροντίζει να ελέγχει ξανά την εργασία όταν είναι πιθανό να κάνει λάθος. Είναι ενδιαφέρον ότι το βασικό προεκπαιδευμένο μοντέλο είναι εξαιρετικά βαθμονομημένο (η προβλεπόμενη εμπιστοσύνη του σε μια απάντηση γενικά αντιστοιχεί στην πιθανότητα να είναι σωστή). Ωστόσο, στο πλαίσιο της τρέχουσας διαδικασίας μετα-εκπαίδευσης, η βαθμονόμηση μειώνεται.

Φόρτωση...

Κίνδυνοι & μέτρα μετριασμού

Βελτιστοποιούμε το GPT‑4 για να το κάνουμε πιο ασφαλές και ευθυγραμμισμένο από την αρχή της εκπαίδευσης, με προσπάθειες που περιλαμβάνουν την επιλογή και το φιλτράρισμα των δεδομένων προεκπαίδευσης, αξιολογήσεις και συμμετοχή ειδικών, βελτιώσεις στην ασφάλεια του μοντέλου, καθώς και παρακολούθηση και επιβολή.

Το GPT‑4 ενέχει παρόμοιους κινδύνους με τα προηγούμενα μοντέλα, όπως η δημιουργία επιβλαβών συμβουλών, κώδικα με σφάλματα ή ανακριβών πληροφοριών. Ωστόσο, οι πρόσθετες δυνατότητες του GPT‑4 οδηγούν σε νέες επιφάνειες κινδύνου. Για να κατανοήσουμε την έκταση αυτών των κινδύνων, συνεργαστήκαμε με πάνω από 50 ειδικούς από τομείς όπως οι κίνδυνοι ευθυγράμμισης της τεχνητής νοημοσύνης, η κυβερνοασφάλεια, ο βιολογικός κίνδυνος, η εμπιστοσύνη και η ασφάλεια, και η διεθνής ασφάλεια, για να δοκιμάσουν το μοντέλο κατ' αντιπαράθεση. Τα ευρήματά τους ήταν ακριβώς αυτά που μας επέτρεψαν να δοκιμάσουμε τη συμπεριφορά του μοντέλου σε περιοχές υψηλού κινδύνου, οι οποίες απαιτούν εξειδίκευση για αξιολόγηση. Τα σχόλια και τα δεδομένα από αυτούς τους ειδικούς συνέβαλαν στους μετριασμούς και τις βελτιώσεις μας για το μοντέλο. Για παράδειγμα, έχουμε συλλέξει επιπλέον δεδομένα για να βελτιώσουμε την ικανότητα του GPT‑4 να απορρίπτει αιτήματα για οδηγίες σύνθεσης επικίνδυνων χημικών ουσιών.

Το GPT‑4 ενσωματώνει ένα επιπλέον σήμα ανταμοιβής ασφάλειας κατά τη διάρκεια της εκπαίδευσης RLHF για να μειώσει τα επιβλαβή αποτελέσματα (όπως ορίζονται από τις οδηγίες χρήσης(ανοίγει σε νέο παράθυρο) μας) εκπαιδεύοντας το μοντέλο να αρνείται αιτήματα για παρόμοιο περιεχόμενο. Η ανταμοιβή παρέχεται από έναν ταξινομητή GPT‑4 zero-shot, ο οποίος κρίνει τα όρια ασφαλείας και το στυλ ολοκλήρωσης των προτροπών που σχετίζονται με την ασφάλεια. Για να αποτρέψουμε το μοντέλο από το να απορρίπτει έγκυρα αιτήματα, συλλέγουμε ένα ποικίλο σύνολο δεδομένων από διάφορες πηγές (π.χ. επισημασμένα δεδομένα παραγωγής, ανθρώπινο red-teaming, προτροπές που δημιουργούνται από το μοντέλο) και εφαρμόζουμε το σήμα ανταμοιβής ασφάλειας (με θετική ή αρνητική τιμή) τόσο στις επιτρεπόμενες όσο και στις μη επιτρεπόμενες κατηγορίες. 

Οι μετριασμοί μας έχουν βελτιώσει σημαντικά πολλές από τις ιδιότητες ασφαλείας του GPT‑4 σε σύγκριση με το GPT‑3.5. Έχουμε μειώσει την τάση του μοντέλου να ανταποκρίνεται σε αιτήματα για μη επιτρεπόμενο περιεχόμενο κατά 82% σε σύγκριση με το GPT‑3.5, και το GPT‑4 ανταποκρίνεται σε ευαίσθητα αιτήματα (π.χ., ιατρικές συμβουλές και αυτοτραυματισμό) σύμφωνα με τις πολιτικές μας κατά 29% πιο συχνά.

Φόρτωση...
Φόρτωση...

Συνολικά, οι παρεμβάσεις μας σε επίπεδο μοντέλου αυξάνουν τη δυσκολία πρόκλησης κακής συμπεριφοράς, αλλά αυτό παραμένει δυνατό. Επιπλέον, εξακολουθούν να υπάρχουν «jailbreaks» για τη δημιουργία περιεχομένου που παραβιάζει τις οδηγίες χρήσης μας. Καθώς αυξάνεται ο «κίνδυνος ανά token» των συστημάτων τεχνητής νοημοσύνης, θα καταστεί κρίσιμο να επιτευχθούν εξαιρετικά υψηλοί βαθμοί αξιοπιστίας σε αυτές τις παρεμβάσεις. Προς το παρόν, είναι σημαντικό να συμπληρωθούν αυτοί οι περιορισμοί με τεχνικές ασφάλειας κατά την ανάπτυξη, όπως η παρακολούθηση για κατάχρηση.

Το GPT‑4 και τα διάδοχα μοντέλα έχουν τη δυνατότητα να επηρεάσουν σημαντικά την κοινωνία τόσο με ωφέλιμους όσο και με επιβλαβείς τρόπους. Συνεργαζόμαστε με εξωτερικούς ερευνητές για να βελτιώσουμε την κατανόηση και την αξιολόγηση των πιθανών επιπτώσεων, καθώς και για να δημιουργήσουμε αξιολογήσεις για επικίνδυνες δυνατότητες που μπορεί να εμφανιστούν σε μελλοντικά συστήματα. Σύντομα θα μοιραστούμε περισσότερες από τις σκέψεις μας για τις πιθανές κοινωνικές και οικονομικές επιπτώσεις του GPT‑4 και άλλων συστημάτων AI.

Διαδικασία εκπαίδευσης

Όπως και τα προηγούμενα μοντέλα GPT, το βασικό μοντέλο GPT‑4 εκπαιδεύτηκε για να προβλέπει την επόμενη λέξη σε ένα έγγραφο και εκπαιδεύτηκε χρησιμοποιώντας δεδομένα που είναι διαθέσιμα δημόσια (όπως δεδομένα από το Διαδίκτυο) καθώς και δεδομένα για τα οποία έχουμε άδεια χρήσης. Τα δεδομένα είναι ένα σύνολο δεδομένων σε κλίμακα ιστού που περιλαμβάνει σωστές και λανθασμένες λύσεις σε μαθηματικά προβλήματα, αδύναμο και ισχυρό συλλογισμό, αυτοαντιφατικές και συνεπείς δηλώσεις, και αντιπροσωπεύει μια μεγάλη ποικιλία ιδεολογιών και ιδεών.

Έτσι, όταν λαμβάνει μια προτροπή σε μορφή ερώτησης, το βασικό μοντέλο μπορεί να απαντήσει με μια μεγάλη ποικιλία τρόπων που μπορεί να απέχουν πολύ από την πρόθεση του χρήστη. Για να το ευθυγραμμίσουμε με την πρόθεση του χρήστη εντός των δικλείδων ασφαλείας, προσαρμόζουμε τη συμπεριφορά του μοντέλου χρησιμοποιώντας ενισχυτική μάθηση με ανθρώπινα σχόλια (RLHF).

Σημείωσε ότι οι δυνατότητες του μοντέλου φαίνεται να προέρχονται κυρίως από τη διαδικασία προ-εκπαίδευσης—το RLHF δεν βελτιώνει την απόδοση στις εξετάσεις (χωρίς ενεργή προσπάθεια, στην πραγματικότητα την υποβαθμίζει). Ωστόσο, η καθοδήγηση του μοντέλου προέρχεται από τη διαδικασία μετα-εκπαίδευσης—το βασικό μοντέλο απαιτεί μηχανική προτροπών για να γνωρίζει ότι πρέπει να απαντήσει στις ερωτήσεις.

Προβλέψιμη κλιμάκωση

Ένα σημαντικό μέρος του έργου GPT‑4 ήταν η ανάπτυξη μιας στοίβας βαθιάς μάθησης που θα κλιμακώνεται με προβλέψιμο τρόπο. Ο κύριος συλλογισμός είναι ότι, για πολύ μεγάλες εκπαιδεύσεις όπως στην περίπτωση του GPT‑4, δεν είναι εφικτό να γίνει εκτεταμένη προσαρμογή ειδικά για το μοντέλο. Αναπτύξαμε υποδομές και βελτιστοποιήσεις που έχουν πολύ προβλέψιμη συμπεριφορά σε διάφορες κλίμακες. Για να επαληθεύσουμε αυτήν τη δυνατότητα κλιμάκωσης, προβλέψαμε με ακρίβεια εκ των προτέρων την τελική απώλεια του GPT‑4 στην εσωτερική μας βάση κώδικα (όχι μέρος του συνόλου εκπαίδευσης) με παρεκβολή από μοντέλα που εκπαιδεύτηκαν με την ίδια μεθοδολογία αλλά με 10.000 φορές λιγότερη υπολογιστική ισχύ:

Φόρτωση...

Τώρα που μπορούμε να προβλέψουμε με ακρίβεια το μετρικό στοιχείο που βελτιστοποιούμε κατά την εκπαίδευση (απώλεια), αρχίζουμε να αναπτύσσουμε μεθοδολογία για να προβλέψουμε πιο ερμηνεύσιμα μετρικά στοιχεία. Για παράδειγμα, προβλέψαμε με επιτυχία το ποσοστό επιτυχίας σε ένα υποσύνολο του συνόλου δεδομένων HumanEval(ανοίγει σε νέο παράθυρο), με παρεκβολή από μοντέλα με 1.000 φορές λιγότερη υπολογιστική ισχύ:

Φόρτωση...

Ορισμένες δυνατότητες είναι ακόμα δύσκολο να προβλεφθούν. Για παράδειγμα, το Βραβείο Αντίστροφης Κλιμάκωσης ήταν ένας διαγωνισμός για την εύρεση ενός μετρικού στοιχείου που να επιδεινώνεται όσο αυξάνεται η υπολογιστική ισχύς του μοντέλου, και η παραμέληση εκ των υστέρων(ανοίγει σε νέο παράθυρο) ήταν ένας από τους νικητές. Όπως συνέβη και με ένα άλλο πρόσφατο αποτέλεσμα,(ανοίγει σε νέο παράθυρο) το GPT‑4 αντιστρέφει την τάση:

Φόρτωση...

Πιστεύουμε ότι η ακριβής πρόβλεψη των μελλοντικών δυνατοτήτων της μηχανικής μάθησης είναι ένα σημαντικό μέρος της ασφάλειας που δεν τυγχάνει επαρκούς προσοχής σε σχέση με τον δυνητικό της αντίκτυπο (αν και θεωρούμε ενθαρρυντικές τις προσπάθειες διαφόρων ιδρυμάτων). Εντείνουμε τις προσπάθειές μας για να αναπτύξουμε μεθόδους που θα παρέχουν στην κοινωνία καλύτερη καθοδήγηση σχετικά με το τι να περιμένει από τα μελλοντικά συστήματα, και ελπίζουμε ότι αυτό θα γίνει κοινός στόχος στον τομέα.

OpenAI Evals

Ανοίγουμε τον κώδικα για το OpenAI Evals(ανοίγει σε νέο παράθυρο) που είναι το πλαίσιο λογισμικού μας για τη δημιουργία και εκτέλεση δεικτών αναφοράς για την αξιολόγηση μοντέλων όπως το GPT‑4, ενώ επιθεωρούμε την απόδοσή τους δείγμα προς δείγμα. Χρησιμοποιούμε το Evals για να καθοδηγούμε την ανάπτυξη των μοντέλων μας (τόσο εντοπίζοντας ελλείψεις όσο και αποτρέποντας παλινδρομήσεις) και οι χρήστες μας μπορούν να το χρησιμοποιούν για να παρακολουθούν την απόδοση σε όλες τις εκδόσεις των μοντέλων (οι οποίες πλέον θα κυκλοφορούν τακτικά) και να εξελίσσουν τις ενσωματώσεις προϊόντων. Για παράδειγμα, η Stripe χρησιμοποίησε το Evals για να συμπληρώσει τις ανθρώπινες αξιολογήσεις της και να μετρήσει την ακρίβεια του εργαλείου τεκμηρίωσης που λειτουργεί με GPT.

Επειδή ο πηγαίος κώδικας είναι εξολοκλήρου ανοιχτός, το Evals παρέχει υποστήριξη στη δημιουργία νέων κατηγοριών για την υλοποίηση προσαρμοσμένης λογικής αξιολόγησης(ανοίγει σε νέο παράθυρο). Από τη δική μας εμπειρία, ωστόσο, πολλοί δείκτες αναφοράς ακολουθούν ένα από τα λίγα «πρότυπα», οπότε έχουμε συμπεριλάβει επίσης τα πρότυπα(ανοίγει σε νέο παράθυρο) που αποδείχθηκαν πιο χρήσιμα εσωτερικά (καθώς και ένα πρότυπο για «αξιολογήσεις επιπέδου μοντέλου»— έχουμε διαπιστώσει ότι το GPT‑4 διαθέτει εκπληκτική ικανότητα να ελέγχει τη δική του δουλειά). Γενικά, ο πιο αποτελεσματικός τρόπος για να φτιάξεις μια νέα αξιολόγηση(ανοίγει σε νέο παράθυρο) θα είναι να δώσεις υπόσταση σε ένα από αυτά τα πρότυπα παρέχοντας παράλληλα δεδομένα. Ανυπομονούμε να δούμε τι μπορούν να δημιουργήσουν άλλοι με αυτά τα πρότυπα και με το Evals γενικότερα.

Ελπίζουμε το Evals να γίνει ένα μέσο για την ανταλλαγή και τον πληθοπορισμό δεικτών αναφοράς, αντιπροσωπεύοντας ένα όσο το δυνατόν ευρύτερο φάσμα τρόπων αποτυχίας και δύσκολων εργασιών. Ως παράδειγμα προς μίμηση, δημιουργήσαμε μια αξιολόγηση λογικών γρίφων(ανοίγει σε νέο παράθυρο) που περιέχει δέκα προτροπές όπου το GPT‑4 αποτυγχάνει. Το Evals είναι επίσης συμβατό με την εφαρμογή υφιστάμενων δεικτών αναφοράς, οπότε έχουμε συμπεριλάβει αρκετά σημειωματάρια(ανοίγει σε νέο παράθυρο) που υλοποιούν ακαδημαϊκούς δείκτες αναφοράς και μερικές παραλλαγές ενσωμάτωσης (μικρών υποσυνόλων) του CoQA(ανοίγει σε νέο παράθυρο) ως παράδειγμα.

Προσκαλούμε όλους να χρησιμοποιήσουν το Evals για να δοκιμάσουν τα μοντέλα μας και να υποβάλουν τα πιο ενδιαφέροντα παραδείγματα. Πιστεύουμε ότι το Evals θα αποτελέσει αναπόσπαστο μέρος της διαδικασίας χρήσης και περαιτέρω ανάπτυξης των μοντέλων μας, και άμεσες συνεισφορές, ερωτήσεις και σχόλια(ανοίγει σε νέο παράθυρο) είναι όλα ευπρόσδεκτα.

ChatGPT Plus

Οι συνδρομητές του ChatGPT Plus θα αποκτήσουν πρόσβαση στο GPT‑4 στο chatgpt.com(ανοίγει σε νέο παράθυρο) με ανώτατο όριο χρήσης. Θα προσαρμόσουμε το ακριβές όριο χρήσης ανάλογα με τη ζήτηση και την απόδοση του συστήματος στην πράξη, αλλά αναμένουμε να έχουμε σοβαρούς περιορισμούς διαθεσιμότητας (αν και θα αυξήσουμε την κλίμακα τους προσεχείς μήνες).

Ανάλογα με τα μοτίβα επισκεψιμότητας που βλέπουμε, μπορεί να εισαγάγουμε ένα νέο επίπεδο συνδρομής για μεγαλύτερο όγκο χρήσης του GPT‑4. Ελπίζουμε επίσης κάποια στιγμή να προσφέρουμε έναν αριθμό δωρεάν ερωτημάτων GPT‑4, ώστε όσοι δεν έχουν συνδρομή να μπορούν να το δοκιμάσουν κι αυτοί.

API

Για να αποκτήσεις πρόσβαση στο GPT‑4 API (το οποίο χρησιμοποιεί το ίδιο ChatCompletions API(ανοίγει σε νέο παράθυρο) όπως και το gpt-3.5-turbo), γράψου στη λίστα αναμονής μας. Θα αρχίσουμε να προσκαλούμε μερικούς προγραμματιστές σήμερα και θα αυξήσουμε σταδιακά την κλίμακα για να εξισορροπήσουμε τη διαθεσιμότητα με τη ζήτηση. Αν είσαι ερευνητής που μελετά τον κοινωνικό αντίκτυπο της τεχνητής νοημοσύνης ή τα ζητήματα ευθυγράμμισης της τεχνητής νοημοσύνης, μπορείς επίσης να υποβάλεις αίτηση για επιδοτούμενη πρόσβαση μέσω του Προγράμματος Πρόσβασης Ερευνητών.

Μόλις αποκτήσεις πρόσβαση, μπορείς να κάνεις αιτήματα μόνο κειμένου στο μοντέλο GPT‑4 (οι εισαγωγές εικόνων είναι ακόμα σε περιορισμένη έκδοση άλφα), το οποίο θα ενημερώνουμε αυτόματα στο προτεινόμενο σταθερό μοντέλο καθώς δημιουργούμε νέες εκδόσεις με την πάροδο του χρόνου (μπορείς να καρφιτσώσεις την τρέχουσα έκδοση καλώντας το GPT‑4‑0314, το οποίο θα υποστηρίζουμε μέχρι τις 14 Ιουνίου). Η τιμολόγηση είναι 0,03 $ ανά 1.000 token προτροπής και 0,06 $ ανά 1.000 token ολοκλήρωσης. Τα προεπιλεγμένα όρια χρήσης είναι 40.000 token ανά λεπτό και 200 αιτήσεις ανά λεπτό.

Το gpt-4 έχει μέγεθος θεματικού πλαισίου 8.192 token. Παρέχουμε επίσης περιορισμένη πρόσβαση στην έκδοση θεματικού πλαισίου 32.768 token (περίπου 50 σελίδες κειμένου), το GPT‑4‑32k, η οποία επίσης θα ενημερώνεται αυτόματα με την πάροδο του χρόνου (η τρέχουσα έκδοση GPT‑4‑32k‑0314, υποστηρίζεται επίσης έως τις 14 Ιουνίου). Η τιμολόγηση είναι $0,06 ανά 1.000 token προτροπής και $0,12 ανά 1.000 token ολοκλήρωσης. Συνεχίζουμε να βελτιώνουμε την ποιότητα του μοντέλου για μακροσκελές θεματικά πλαίσιο και θα θέλαμε τα σχόλιά σου σχετικά με την απόδοσή του στην δική σου περίπτωση χρήσης. Επεξεργαζόμαστε τα αιτήματα για τις μηχανές 8K και 32K σε διαφορετικούς χρόνους ανάλογα με την εκάστοτε διαθεσιμότητα, οπότε ενδέχεται να αποκτήσεις πρόσβαση σε αυτές σε διαφορετικές χρονικές στιγμές.

Συμπέρασμα

Ευελπιστούμε το GPT‑4 να γίνει ένα πολύτιμο εργαλείο για τη βελτίωση της ζωής των ανθρώπων, ενισχύοντας πολλές εφαρμογές. Έχουμε ακόμα πολλή δουλειά μπροστά μας και ανυπομονούμε να βελτιώσουμε αυτό το μοντέλο μέσω των συλλογικών προσπαθειών της κοινότητας που το αναπτύσσει περαιτέρω, το εξερευνά και συνεισφέρει σε αυτό.

Παράρτημα

Παράδειγμα ερωτήσεων MMLU, μεταφρασμένων σε άλλες γλώσσες. Έχε υπόψη ότι χρησιμοποιούμε token σταθερής επιλογής (A–D):

Φόρτωση...

Υποσημειώσεις

  1. A

    Αξιολογούμε αυτόν τον δείκτη αναφοράς χρησιμοποιώντας την προτροπή Αλληλουχίας Σκέψεων με 4 παραδείγματα από το σύνολο εκπαίδευσης στο θεματικό πλαίσιο. Η συγκεκριμένη προτροπή προσαρμόστηκε στο σύνολο επικύρωσης.

Αναφορές

  1. 1

    P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Περαιτέρω ανάλυση είναι διαθέσιμη στην εργασία(ανοίγει σε νέο παράθυρο).

Συντάκτης

OpenAI