Παρουσίαση του ChatGPT
Εκπαιδεύσαμε ένα μοντέλο που λέγεται ChatGPT να αλληλεπιδρά μαζί σας με φυσική συνομιλία. Η μορφή διαλόγου επιτρέπει στο ChatGPT να απαντά σε διευκρινιστικές ερωτήσεις, να παραδέχεται τα λάθη του, να αμφισβητεί εσφαλμένες παραδοχές και να απορρίπτει ανάρμοστα αιτήματα.
Το ChatGPT είναι ένα μοντέλο, κάτι σαν το αδερφάκι του InstructGPT, το οποίο εκπαιδεύεται ώστε να ακολουθεί οδηγίες από προτροπές και να δίνει λεπτομερείς απαντήσεις.
Είμαστε ενθουσιασμένοι που παρουσιάζουμε το ChatGPT και ανυπομονούμε να διαβάσουμε τα σχόλια των χρηστών και να μάθουμε ποια είναι τα δυνατά και ποια τα αδύναμα στοιχεία του. Κατά τη διάρκεια της προεπισκόπησης της έρευνας, η χρήση του ChatGPT θα είναι δωρεάν. Δοκιμάστε το τώρα στο chatgpt.com(ανοίγει σε νέο παράθυρο).
Δείγματα
resultWorkerErr := make(chan error)
defer close(resultWorkerErr)
go func() {
defer cancel()
resultWorkerErr <- b.resultWorker(ctx)
}()
err := b.worker(ctx)
cancel()
if err == nil {
return <-resultWorkerErr
}
return multierror.Append(err, <-resultWorkerErr)resultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:
close(resultworkerErr)resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?Εκπαιδεύσαμε αυτό το μοντέλο αξιοποιώντας Ενισχυτική Μάθηση από Σχόλια Ανθρώπων (RLHF), ακολουθώντας τις ίδιες μεθόδους με το InstructGPT, αλλά με μικρές διαφορές ως προς τη διαδικασία συλλογής δεδομένων. Εκπαιδεύσαμε ένα αρχικό μοντέλο μέσω προσαρμογής με επίβλεψη: οι ανθρώπινοι εκπαιδευτές της ΤΝ παρείχαν συνομιλίες στις οποίες υποδύονταν και τους δύο ρόλους — τον χρήστη και τον βοηθό ΤΝ. Δώσαμε στους εκπαιδευτές πρόσβαση σε προτάσεις που είχε γράψει το μοντέλο για να τους βοηθήσουμε να συνθέσουν τις απαντήσεις τους. Συνδυάσαμε αυτό το νέο σύνολο δεδομένων διαλόγων με το σύνολο δεδομένων του InstructGPT, το οποίο μετατρέψαμε σε μορφή διαλόγου.
Για να δημιουργήσουμε ένα μοντέλο ανταμοιβής για την ενισχυτική μάθηση, έπρεπε να συλλέξουμε δεδομένα σύγκρισης, τα οποία αποτελούνταν από δύο ή περισσότερες αποκρίσεις του μοντέλου ταξινομημένες με βάση την ποιότητά τους. Για να συλλέξουμε αυτά τα δεδομένα, χρησιμοποιήσαμε συνομιλίες που έκαναν οι εκπαιδευτές της ΤΝ με το chatbot. Επιλέξαμε τυχαία ένα μήνυμα που είχε γράψει το μοντέλο, ελέγξαμε δειγματοληπτικά αρκετές εναλλακτικές ολοκληρωμένες απαντήσεις και ζητήσαμε από τους εκπαιδευτές της ΤΝ να τις κατατάξουν βάσει ποιότητας. Χρησιμοποιώντας αυτά τα μοντέλα επιβράβευσης, μπορούμε να προσαρμόσουμε το μοντέλο, με Βελτιστοποίηση Εγγύς Πολιτικής. Εκτελέσαμε αρκετές διορθωτικές επαναλήψεις αυτής της διαδικασίας.

Το ChatGPT έχει προσαρμοστεί από ένα μοντέλο της σειράς GPT‑3.5, το οποίο ολοκλήρωσε την εκπαίδευσή του στις αρχές του 2022. Μπορείτε να μάθετε περισσότερα για τη σειρά 3.5 εδώ(ανοίγει σε νέο παράθυρο). Το ChatGPT και το GPT‑3.5 εκπαιδεύτηκαν σε υπερυπολογιστική υποδομή Azure AI.
- Το ChatGPT μερικές φορές δίνει απαντήσεις που ακούγονται πειστικές αλλά είναι εσφαλμένες ή ανούσιες. Η επίλυση αυτού του ζητήματος είναι μια απαιτητική διαδικασία, επειδή: (1) κατά την εκπαίδευση μέσω ενισχυτικής μάθησης (RL) δεν υπάρχει προς το παρόν αξιόπιστη πηγή αλήθειας, (2) η εκπαίδευση του μοντέλου ώστε να γίνει πιο προσεκτικό το οδηγεί στο να απορρίπτει ερωτήσεις στις οποίες μπορεί να απαντήσει σωστά, και (3) η εποπτευόμενη εκπαίδευση παραπλανά το μοντέλο, επειδή η ιδανική απάντηση εξαρτάται από τις γνώσεις του ίδιου του μοντέλου(ανοίγει σε νέο παράθυρο) και όχι από τις γνώσεις που πιθανόν να είχε ένας άνθρωπος που θα το χειριζόταν.
- Το ChatGPT είναι ευαίσθητο σε μικροαλλαγές στη διατύπωση εισαγωγής ή σε πολλαπλές προσπάθειες με την ίδια προτροπή. Για παράδειγμα, με μια συγκεκριμένη διατύπωση μιας ερώτησης, το μοντέλο μπορεί να ισχυριστεί ότι δεν γνωρίζει την απάντηση, αλλά με μια μικρή αναδιατύπωση μπορεί να απαντήσει σωστά.
- Το μοντέλο συχνά είναι υπερβολικά φλύαρο και χρησιμοποιεί πάρα πολλές φορές ορισμένες φράσεις. Για παράδειγμα, επαναλαμβάνει συχνά ότι είναι γλωσσικό μοντέλο και ότι το έχει εκπαιδεύσει η OpenAI. Αυτά τα ζητήματα προκύπτουν από μεροληπτικά στοιχεία που υφίστανται στα δεδομένα εκπαίδευσης (οι εκπαιδευτές προτιμούν τις μακρύτερες απαντήσεις που φαίνονται πιο ολοκληρωμένες) και από γνωστά προβλήματα που έχουν να κάνουν με την υπερβολική βελτιστοποίηση.1, 2
- Ιδανικά, το μοντέλο θα έκανε διευκρινιστικές ερωτήσεις όταν ο χρήστης έδινε μια ασαφή ερώτηση. Αντίθετα, τα τρέχοντα μοντέλα μας συνήθως μαντεύουν τι εννοεί ο χρήστης.
- Παρότι έχουμε καταβάλει προσπάθειες ώστε το μοντέλο να αρνείται να απαντήσει σε ανάρμοστα αιτήματα, μερικές φορές ανταποκρίνεται σε επιβλαβείς οδηγίες ή επιδεικνύει μεροληπτική συμπεριφορά. Χρησιμοποιούμε το Moderation API ώστε να εμφανίζουμε προειδοποιήσεις ή να αποκλείουμε ορισμένους τύπους μη ασφαλούς περιεχομένου, αλλά είναι αναμενόμενο προς το παρόν να εμφανίζει κάποια ψευδώς θετικά και ψευδώς αρνητικά αποτελέσματα. Ανυπομονούμε να συγκεντρώσουμε τα σχόλια των χρηστών που θα μας βοηθήσουν να βελτιώσουμε αυτό το σύστημα.
Η σημερινή ερευνητική κυκλοφορία του ChatGPT αποτελεί το πιο πρόσφατο βήμα στην επαναληπτική ανάπτυξη ολοένα και πιο ασφαλών και χρήσιμων συστημάτων ΤΝ από την OpenAI. Πολλά μαθήματα από την ανάπτυξη παλαιότερων μοντέλων, όπως τα GPT‑3 και Codex, συνέβαλαν στη διαμόρφωση των δικλείδων ασφαλείας που εφαρμόζονται στην παρούσα έκδοση, συμπεριλαμβανομένης της σημαντικής μείωσης επιβλαβών και μη αληθινών αποτελεσμάτων, χάρη στην αξιοποίηση ενισχυτικής μάθησης από σχόλια ανθρώπων (RLHF).
Γνωρίζουμε ότι παραμένουν πολλοί περιορισμοί, όπως αναφέρθηκε παραπάνω, και σχεδιάζουμε τακτικές ενημερώσεις των μοντέλων ώστε να βελτιωθούν σε αυτούς τους τομείς. Ωστόσο, ελπίζουμε ότι, προσφέροντας ένα προσιτό περιβάλλον χρήστη στο ChatGPT, θα λάβουμε πολύτιμα σχόλια από τους χρήστες για ζητήματα που δεν γνωρίζουμε ακόμη.
Ενθαρρύνουμε τους χρήστες να παρέχουν σχόλια για προβληματικά αποτελέσματα του μοντέλου μέσω του περιβάλλοντος χρήστη, καθώς και για ψευδώς θετικά ή ψευδώς αρνητικά αποτελέσματα του εξωτερικού φίλτρου περιεχομένου, που αποτελεί επίσης μέρος του περιβάλλοντος χρήστη. Μας ενδιαφέρουν ιδιαίτερα σχόλια σχετικά με επιβλαβή αποτελέσματα που μπορεί να εμφανιστούν σε πραγματικές, μη επιθετικές συνθήκες, καθώς και σχόλια που μας βοηθούν να εντοπίσουμε και να κατανοήσουμε νέους κινδύνους και πιθανές ενέργειες περιορισμού τους. Μπορείτε να συμμετάσχετε στον διαγωνισμό σχολίων του ChatGPT(ανοίγει σε νέο παράθυρο)3 για να διεκδικήσετε 500 $ σε μονάδες API.A Μπορείτε να υποβάλετε τη συμμετοχή σας μέσω της φόρμας σχολίων που είναι συνδεδεμένη στο περιβάλλον χρήστη του ChatGPT.
Ανυπομονούμε να αξιοποιήσουμε τα μαθήματα που θα πάρουμε από αυτήν την έκδοση, για την ανάπτυξη των επόμενων και πιο ικανών συστημάτων, όπως ακριβώς τα προηγούμενα μοντέλα διαμόρφωσαν το σημερινό.
Υποσημειώσεις
- A
Δεν απαιτείται αγορά, άκυρο όπου απαγορεύεται. Πρέπει να είστε τουλάχιστον 18 ετών για να συμμετάσχετε. Για λεπτομέρειες του διαγωνισμού, ανατρέξτε στους Επίσημους κανόνες(ανοίγει σε νέο παράθυρο).
Αναφορές
- 1
Stiennon, Nisan, κ.ά. «Learning to summarize with human feedback(ανοίγει σε νέο παράθυρο)». Advances in Neural Information Processing Systems 33 (2020): 3008-3021.
- 2
Gao, Leo, John Schulman και Jacob Hilton. «Scaling Laws for Reward Model Overoptimization(ανοίγει σε νέο παράθυρο)». arXiv preprint arXiv:2210.10760 (2022).
- 3
Η ιδέα για αυτόν τον διαγωνισμό προέρχεται εν μέρει από το έργο των Kenway, Josh, Camille François, Sasha Costanza-Chock, Inioluwa Deborah Raji και Joy Buolamwini. Bug Bounties For Algorithmic Harms? Lessons from Cybersecurity Vulnerability Disclosure for Algorithmic Harms Discovery, Disclosure, and Redress. Washington, DC: Algorithmic Justice League. Ιανουάριος 2022. Διαθέσιμο στο https://ajl.org/bugs(ανοίγει σε νέο παράθυρο). Ανατρέξτε επίσης στα έργα των Brundage, Miles, Avin, Shahar, Wang, Jasmine, Belfield, Haydn, και Gretchen Krueger κ.ά. «Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims», Απρίλιος 2020. Διαθέσιμο στο https://arxiv.org/abs/2004.07213(ανοίγει σε νέο παράθυρο). Ανατρέξτε σε μια προηγούμενη περίπτωση ενός ανάλογου διαγωνισμού στο HackerOne. 2021b. «Twitter Algorithmic Bias». HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team(ανοίγει σε νέο παράθυρο). Τέλος, ανατρέξτε στο πρώιμο δημοσιευμένο έργο για το θέμα από τον Rubinovitz, JB, «Bias Bounty Programs as a Method of Combatting Bias in AI», Αύγουστος 2018. Διαθέσιμο στο https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting(ανοίγει σε νέο παράθυρο).
Συντάκτης
Ευχαριστίες
John Schulman, Barret Zoph, Christina Kim, Jacob Hilton, Jacob Menick, Jiayi Weng, Juan Felipe Ceron Uribe, Liam Fedus, Luke Metz, Michael Pokorny, Rapha Gontijo Lopes, Shengjia Zhao, Arun Vijayvergiya, Eric Sigler, Adam Perelman, Chelsea Voss, Mike Heaton, Joel Parish, Dave Cummings, Rajeev Nayak, Valerie Balcom, David Schnurr, Tomer Kaftan, Chris Hallacy, Nicholas Turley, Noah Deutsch, Vik Goel, Jonathan Ward, Aris Konstantinidis, Wojciech Zaremba, Long Ouyang, Leonard Bogdonoff, Joshua Gross, David Medina, Sarah Yoo, Teddy Lee, Ryan Lowe, Dan Mossing, Joost Huizinga, Roger Jiang, Carroll Wainwright, Diogo Almeida, Steph Lin, Marvin Zhang, Kai Xiao, Katarina Slama, Steven Bills, Alex Gray, Jan Leike, Jakub Pachocki, Phil Tillet, Shantanu Jain, Greg Brockman, Nick Ryder, Alex Paino, Qiming Yuan, Clemens Winter, Ben Wang, Mo Bavarian, Igor Babuschkin, Szymon Sidor, Ingmar Kanitscheider, Mikhail Pavlov, Matthias Plappert, Nik Tezak, Heewoo Jun, William Zhuk, Vitchyr Pong, Lukasz Kaiser, Jerry Tworek, Andrew Carr, Lilian Weng, Sandhini Agarwal, Karl Cobbe, Vineet Kosaraju, Alethea Power, Stanislas Polu, Jesse Han, Raul Puri, Shawn Jain, Benjamin Chess, Christian Gibson, Oleg Boiko, Emy Parparita, Amin Tootoonchian, Kyle Kosic, Christopher Hesse


