30 Νοεμβρίου 2022

Παρουσίαση του ChatGPT

Δοκιμάστε το ChatGPT Δοκιμάστε το ChatGPT για εργασία

Φόρτωση…

Εκπαιδεύσαμε ένα μοντέλο που λέγεται ChatGPT να αλληλεπιδρά μαζί σας με φυσική συνομιλία. Η μορφή διαλόγου επιτρέπει στο ChatGPT να απαντά σε διευκρινιστικές ερωτήσεις, να παραδέχεται τα λάθη του, να αμφισβητεί εσφαλμένες παραδοχές και να απορρίπτει ανάρμοστα αιτήματα.

Το ChatGPT είναι ένα μοντέλο, κάτι σαν το αδερφάκι του InstructGPT⁠, το οποίο εκπαιδεύεται ώστε να ακολουθεί οδηγίες από προτροπές και να δίνει λεπτομερείς απαντήσεις.

Είμαστε ενθουσιασμένοι που παρουσιάζουμε το ChatGPT και ανυπομονούμε να διαβάσουμε τα σχόλια των χρηστών και να μάθουμε ποια είναι τα δυνατά και ποια τα αδύναμα στοιχεία του. Κατά τη διάρκεια της προεπισκόπησης της έρευνας, η χρήση του ChatGPT θα είναι δωρεάν. Δοκιμάστε το τώρα στο chatgpt.com⁠(ανοίγει σε νέο παράθυρο).

Δείγματα

User

this code is not working like i expect — how do i fix it?

resultWorkerErr := make(chan error)
defer close(resultWorkerErr)
go func() {
	defer cancel()
	resultWorkerErr <- b.resultWorker(ctx)
}()

err := b.worker(ctx)
cancel()
if err == nil {
	return <-resultWorkerErr
}
return multierror.Append(err, <-resultWorkerErr)

ChatGPT

It’s difficult to say what’s wrong with the code without more context. Can you provide more information about what the code is supposed to do and what isn’t working as expected? Also, is this the entire code or just a part of it?

User

just part of it — the error never surfaces. I think there is something wrong with the channel

ChatGPT

It’s difficult to say without more information about what the code is supposed to do and what’s happening when it’s executed. One potential issue with the code you provided is that the resultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.

To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:

close(resultworkerErr)

This would ensure that the resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?

Μέθοδοι

Εκπαιδεύσαμε αυτό το μοντέλο αξιοποιώντας Ενισχυτική Μάθηση από Σχόλια Ανθρώπων (RLHF), ακολουθώντας τις ίδιες μεθόδους με το InstructGPT⁠, αλλά με μικρές διαφορές ως προς τη διαδικασία συλλογής δεδομένων. Εκπαιδεύσαμε ένα αρχικό μοντέλο μέσω προσαρμογής με επίβλεψη: οι ανθρώπινοι εκπαιδευτές της ΤΝ παρείχαν συνομιλίες στις οποίες υποδύονταν και τους δύο ρόλους — τον χρήστη και τον βοηθό ΤΝ. Δώσαμε στους εκπαιδευτές πρόσβαση σε προτάσεις που είχε γράψει το μοντέλο για να τους βοηθήσουμε να συνθέσουν τις απαντήσεις τους. Συνδυάσαμε αυτό το νέο σύνολο δεδομένων διαλόγων με το σύνολο δεδομένων του InstructGPT, το οποίο μετατρέψαμε σε μορφή διαλόγου.

Για να δημιουργήσουμε ένα μοντέλο ανταμοιβής για την ενισχυτική μάθηση, έπρεπε να συλλέξουμε δεδομένα σύγκρισης, τα οποία αποτελούνταν από δύο ή περισσότερες αποκρίσεις του μοντέλου ταξινομημένες με βάση την ποιότητά τους. Για να συλλέξουμε αυτά τα δεδομένα, χρησιμοποιήσαμε συνομιλίες που έκαναν οι εκπαιδευτές της ΤΝ με το chatbot. Επιλέξαμε τυχαία ένα μήνυμα που είχε γράψει το μοντέλο, ελέγξαμε δειγματοληπτικά αρκετές εναλλακτικές ολοκληρωμένες απαντήσεις και ζητήσαμε από τους εκπαιδευτές της ΤΝ να τις κατατάξουν βάσει ποιότητας. Χρησιμοποιώντας αυτά τα μοντέλα επιβράβευσης, μπορούμε να προσαρμόσουμε το μοντέλο, με Βελτιστοποίηση Εγγύς Πολιτικής⁠. Εκτελέσαμε αρκετές διορθωτικές επαναλήψεις αυτής της διαδικασίας.

Διάγραμμα που δείχνει τη μεθοδολογία τριών βημάτων πίσω από την εκπαίδευση του ChatGPT.

Το ChatGPT έχει προσαρμοστεί από ένα μοντέλο της σειράς GPT‑3.5, το οποίο ολοκλήρωσε την εκπαίδευσή του στις αρχές του 2022. Μπορείτε να μάθετε περισσότερα για τη σειρά 3.5 εδώ⁠(ανοίγει σε νέο παράθυρο). Το ChatGPT και το GPT‑3.5 εκπαιδεύτηκαν σε υπερυπολογιστική υποδομή Azure AI.

Περιορισμοί

Το ChatGPT μερικές φορές δίνει απαντήσεις που ακούγονται πειστικές αλλά είναι εσφαλμένες ή ανούσιες. Η επίλυση αυτού του ζητήματος είναι μια απαιτητική διαδικασία, επειδή: (1) κατά την εκπαίδευση μέσω ενισχυτικής μάθησης (RL) δεν υπάρχει προς το παρόν αξιόπιστη πηγή αλήθειας, (2) η εκπαίδευση του μοντέλου ώστε να γίνει πιο προσεκτικό το οδηγεί στο να απορρίπτει ερωτήσεις στις οποίες μπορεί να απαντήσει σωστά, και (3) η εποπτευόμενη εκπαίδευση παραπλανά το μοντέλο, επειδή η ιδανική απάντηση εξαρτάται από τις γνώσεις του ίδιου του μοντέλου⁠(ανοίγει σε νέο παράθυρο) και όχι από τις γνώσεις που πιθανόν να είχε ένας άνθρωπος που θα το χειριζόταν.
Το ChatGPT είναι ευαίσθητο σε μικροαλλαγές στη διατύπωση εισαγωγής ή σε πολλαπλές προσπάθειες με την ίδια προτροπή. Για παράδειγμα, με μια συγκεκριμένη διατύπωση μιας ερώτησης, το μοντέλο μπορεί να ισχυριστεί ότι δεν γνωρίζει την απάντηση, αλλά με μια μικρή αναδιατύπωση μπορεί να απαντήσει σωστά.
Το μοντέλο συχνά είναι υπερβολικά φλύαρο και χρησιμοποιεί πάρα πολλές φορές ορισμένες φράσεις. Για παράδειγμα, επαναλαμβάνει συχνά ότι είναι γλωσσικό μοντέλο και ότι το έχει εκπαιδεύσει η OpenAI. Αυτά τα ζητήματα προκύπτουν από μεροληπτικά στοιχεία που υφίστανται στα δεδομένα εκπαίδευσης (οι εκπαιδευτές προτιμούν τις μακρύτερες απαντήσεις που φαίνονται πιο ολοκληρωμένες) και από γνωστά προβλήματα που έχουν να κάνουν με την υπερβολική βελτιστοποίηση.^{1, 2}
Ιδανικά, το μοντέλο θα έκανε διευκρινιστικές ερωτήσεις όταν ο χρήστης έδινε μια ασαφή ερώτηση. Αντίθετα, τα τρέχοντα μοντέλα μας συνήθως μαντεύουν τι εννοεί ο χρήστης.
Παρότι έχουμε καταβάλει προσπάθειες ώστε το μοντέλο να αρνείται να απαντήσει σε ανάρμοστα αιτήματα, μερικές φορές ανταποκρίνεται σε επιβλαβείς οδηγίες ή επιδεικνύει μεροληπτική συμπεριφορά. Χρησιμοποιούμε το Moderation API⁠ ώστε να εμφανίζουμε προειδοποιήσεις ή να αποκλείουμε ορισμένους τύπους μη ασφαλούς περιεχομένου, αλλά είναι αναμενόμενο προς το παρόν να εμφανίζει κάποια ψευδώς θετικά και ψευδώς αρνητικά αποτελέσματα. Ανυπομονούμε να συγκεντρώσουμε τα σχόλια των χρηστών που θα μας βοηθήσουν να βελτιώσουμε αυτό το σύστημα.

Επαναληπτική ανάπτυξη

Η σημερινή ερευνητική κυκλοφορία του ChatGPT αποτελεί το πιο πρόσφατο βήμα στην επαναληπτική ανάπτυξη⁠ ολοένα και πιο ασφαλών και χρήσιμων συστημάτων ΤΝ από την OpenAI. Πολλά μαθήματα από την ανάπτυξη παλαιότερων μοντέλων, όπως τα GPT‑3 και Codex, συνέβαλαν στη διαμόρφωση των δικλείδων ασφαλείας που εφαρμόζονται στην παρούσα έκδοση, συμπεριλαμβανομένης της σημαντικής μείωσης επιβλαβών και μη αληθινών αποτελεσμάτων, χάρη στην αξιοποίηση ενισχυτικής μάθησης από σχόλια ανθρώπων (RLHF).

User

Tell me about when Christopher Columbus came to the US in 2015

ChatGPT

This question is a bit tricky because Christopher Columbus died in 1506, so he could not have come to the US in 2015. But let’s pretend for a moment that he did!

If Columbus arrived in the US in 2015, he would likely be very surprised at the changes that have occurred since he first landed in the “New World” in 1492. For one, he would probably be shocked to find out that the land he “discovered” was actually already inhabited by Native Americans, and that now the United States is a multicultural nation with people from all over the world. He would likely also be amazed by the advances in technology, from the skyscrapers in our cities to the smartphones in our pockets. Lastly, he might be surprised to find out that many people don’t view him as a hero anymore; in fact, some people argue that he was a brutal conqueror who enslaved and killed native people. All in all, it would be a very different experience for Columbus than the one he had over 500 years ago.

InstructGPT

Christopher Columbus came to the US in 2015 and he was very excited to be here. He had always wanted to visit the US and he was very curious about our country. He was very impressed with our country and he enjoyed his time here.

Γνωρίζουμε ότι παραμένουν πολλοί περιορισμοί, όπως αναφέρθηκε παραπάνω, και σχεδιάζουμε τακτικές ενημερώσεις των μοντέλων ώστε να βελτιωθούν σε αυτούς τους τομείς. Ωστόσο, ελπίζουμε ότι, προσφέροντας ένα προσιτό περιβάλλον χρήστη στο ChatGPT, θα λάβουμε πολύτιμα σχόλια από τους χρήστες για ζητήματα που δεν γνωρίζουμε ακόμη.

Ενθαρρύνουμε τους χρήστες να παρέχουν σχόλια για προβληματικά αποτελέσματα του μοντέλου μέσω του περιβάλλοντος χρήστη, καθώς και για ψευδώς θετικά ή ψευδώς αρνητικά αποτελέσματα του εξωτερικού φίλτρου περιεχομένου, που αποτελεί επίσης μέρος του περιβάλλοντος χρήστη. Μας ενδιαφέρουν ιδιαίτερα σχόλια σχετικά με επιβλαβή αποτελέσματα που μπορεί να εμφανιστούν σε πραγματικές, μη επιθετικές συνθήκες, καθώς και σχόλια που μας βοηθούν να εντοπίσουμε και να κατανοήσουμε νέους κινδύνους και πιθανές ενέργειες περιορισμού τους. Μπορείτε να συμμετάσχετε στον διαγωνισμό σχολίων του ChatGPT⁠(ανοίγει σε νέο παράθυρο)³ για να διεκδικήσετε 500 $ σε μονάδες API.^A Μπορείτε να υποβάλετε τη συμμετοχή σας μέσω της φόρμας σχολίων που είναι συνδεδεμένη στο περιβάλλον χρήστη του ChatGPT.

Ανυπομονούμε να αξιοποιήσουμε τα μαθήματα που θα πάρουμε από αυτήν την έκδοση, για την ανάπτυξη των επόμενων και πιο ικανών συστημάτων, όπως ακριβώς τα προηγούμενα μοντέλα διαμόρφωσαν το σημερινό.

Υποσημειώσεις

A
Δεν απαιτείται αγορά, άκυρο όπου απαγορεύεται. Πρέπει να είστε τουλάχιστον 18 ετών για να συμμετάσχετε. Για λεπτομέρειες του διαγωνισμού, ανατρέξτε στους Επίσημους κανόνες⁠(ανοίγει σε νέο παράθυρο).

Αναφορές

1
Stiennon, Nisan, κ.ά. «Learning to summarize with human feedback⁠(ανοίγει σε νέο παράθυρο)». Advances in Neural Information Processing Systems 33 (2020): 3008-3021.
2
Gao, Leo, John Schulman και Jacob Hilton. «Scaling Laws for Reward Model Overoptimization⁠(ανοίγει σε νέο παράθυρο)». arXiv preprint arXiv:2210.10760 (2022).
3
Η ιδέα για αυτόν τον διαγωνισμό προέρχεται εν μέρει από το έργο των Kenway, Josh, Camille François, Sasha Costanza-Chock, Inioluwa Deborah Raji και Joy Buolamwini. Bug Bounties For Algorithmic Harms? Lessons from Cybersecurity Vulnerability Disclosure for Algorithmic Harms Discovery, Disclosure, and Redress. Washington, DC: Algorithmic Justice League. Ιανουάριος 2022. Διαθέσιμο στο https://ajl.org/bugs⁠(ανοίγει σε νέο παράθυρο). Ανατρέξτε επίσης στα έργα των Brundage, Miles, Avin, Shahar, Wang, Jasmine, Belfield, Haydn, και Gretchen Krueger κ.ά. «Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims», Απρίλιος 2020. Διαθέσιμο στο https://arxiv.org/abs/2004.07213⁠(ανοίγει σε νέο παράθυρο). Ανατρέξτε σε μια προηγούμενη περίπτωση ενός ανάλογου διαγωνισμού στο HackerOne. 2021b. «Twitter Algorithmic Bias». HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team⁠(ανοίγει σε νέο παράθυρο). Τέλος, ανατρέξτε στο πρώιμο δημοσιευμένο έργο για το θέμα από τον Rubinovitz, JB, «Bias Bounty Programs as a Method of Combatting Bias in AI», Αύγουστος 2018. Διαθέσιμο στο https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting⁠(ανοίγει σε νέο παράθυρο).

Συντάκτης

OpenAI

Ευχαριστίες

John Schulman, Barret Zoph, Christina Kim, Jacob Hilton, Jacob Menick, Jiayi Weng, Juan Felipe Ceron Uribe, Liam Fedus, Luke Metz, Michael Pokorny, Rapha Gontijo Lopes, Shengjia Zhao, Arun Vijayvergiya, Eric Sigler, Adam Perelman, Chelsea Voss, Mike Heaton, Joel Parish, Dave Cummings, Rajeev Nayak, Valerie Balcom, David Schnurr, Tomer Kaftan, Chris Hallacy, Nicholas Turley, Noah Deutsch, Vik Goel, Jonathan Ward, Aris Konstantinidis, Wojciech Zaremba, Long Ouyang, Leonard Bogdonoff, Joshua Gross, David Medina, Sarah Yoo, Teddy Lee, Ryan Lowe, Dan Mossing, Joost Huizinga, Roger Jiang, Carroll Wainwright, Diogo Almeida, Steph Lin, Marvin Zhang, Kai Xiao, Katarina Slama, Steven Bills, Alex Gray, Jan Leike, Jakub Pachocki, Phil Tillet, Shantanu Jain, Greg Brockman, Nick Ryder, Alex Paino, Qiming Yuan, Clemens Winter, Ben Wang, Mo Bavarian, Igor Babuschkin, Szymon Sidor, Ingmar Kanitscheider, Mikhail Pavlov, Matthias Plappert, Nik Tezak, Heewoo Jun, William Zhuk, Vitchyr Pong, Lukasz Kaiser, Jerry Tworek, Andrew Carr, Lilian Weng, Sandhini Agarwal, Karl Cobbe, Vineet Kosaraju, Alethea Power, Stanislas Polu, Jesse Han, Raul Puri, Shawn Jain, Benjamin Chess, Christian Gibson, Oleg Boiko, Emy Parparita, Amin Tootoonchian, Kyle Kosic, Christopher Hesse

Σχετικά άρθρα

Εμφάνιση όλων

Global news partnerships: Le Monde and Prisa Media

Εταιρεία13 Μαρ 2024

News > Company carousel > Review completed > Media

Review completed & Altman, Brockman to continue to lead OpenAI

Εταιρεία8 Μαρ 2024

OpenAI announces new members to board of directors

Εταιρεία8 Μαρ 2024