Zum Hauptinhalt springen
OpenAI

Wir haben ein Modell namens ChatGPT trainiert, das wie in einem echten Gespräch mit dir interagiert. Dank des Dialogformats kann ChatGPT auf Rückfragen eingehen, eigene Fehler zugeben, falsche Annahmen hinterfragen und unangemessene Anfragen ablehnen.

ChatGPT ist ein Schwestermodell des Systems InstructGPT, das darauf trainiert wurde, Anweisungen zu folgen und präzise Antworten zu geben.

ChatGPT steht dir jetzt während einer Testphase kostenlos zur Verfügung. Probier es aus und sag uns, was gut funktioniert – und was wir besser machen können. Während dieser Testphase ist ChatGPT kostenlos. Jetzt ausprobieren auf chatgpt.com(wird in einem neuen Fenster geöffnet).

Beispiele

User
this code is not working like i expect — how do i fix it?
resultWorkerErr := make(chan error) defer close(resultWorkerErr) go func() { defer cancel() resultWorkerErr <- b.resultWorker(ctx) }() err := b.worker(ctx) cancel() if err == nil { return <-resultWorkerErr } return multierror.Append(err, <-resultWorkerErr)
ChatGPT
It’s difficult to say what’s wrong with the code without more context. Can you provide more information about what the code is supposed to do and what isn’t working as expected? Also, is this the entire code or just a part of it?
User
just part of it — the error never surfaces. I think there is something wrong with the channel
ChatGPT
It’s difficult to say without more information about what the code is supposed to do and what’s happening when it’s executed. One potential issue with the code you provided is that the resultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.
To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:
close(resultworkerErr)
This would ensure that the resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?

Methoden

Wir haben dieses Modell auf Grundlage von Reinforcement Learning from Human Feedback (RLHF) trainiert. Dabei lernt die Maschine anhand menschlicher Rückmeldung. Die gleiche Methode wurde auch für InstructGPT angewendet, allerdings mit kleinen Unterschieden bei der Datenerfassung. Das erste Modell haben wir mithilfe beaufsichtigter Optimierung trainiert. Dabei führten menschliche KI-Trainer Gespräche, in denen sie sowohl die Rolle des Benutzers als auch die des KI-Assistenten übernahmen. Zur Unterstützung konnten die Trainer auf Vorschläge des Modells zugreifen, um ihre Antworten zu formulieren. Diesen neuen Gesprächsdatensatz haben wir anschließen mit dem von InstructGPT kombiniert, den wir dafür ebenfalls in ein Dialogformat umgewandelt haben.

Zur Erstellung eines Belohnungsmodells für das Reinforcement Learning mussten wir umfangreiche Vergleichsdaten sammeln. Dazu wurden mehrere Modellantworten hinsichtlich ihrer Qualität bewertet und in eine Reihenfolge gebracht. Um diese Daten zu erfassen, haben wir Gespräche der KI-Trainer mit dem Chatbot herangezogen. Nach dem Zufallsprinzip haben wir eine vom Modell geschriebene Nachricht ausgewählt und mehrere alternative Ergänzungen ausprobiert. Dann haben die KI-Trainer sie bewertet. Mittels solcher Belohnungsmodelle können wir das Modell durch Proximal Policy Optimization feinabstimmen. Dieses Verfahren haben wir mehrfach wiederholt.

Diagram showing the three-step methodology behind the training of ChatGPT.

ChatGPT ist eine Weiterentwicklung eines Modells der GPT‑3.5-Serie, deren Training wir Anfang 2022 abgeschlossen haben. Weitere Informationen über die 3.5-Serie findest du hier(wird in einem neuen Fenster geöffnet). ChatGPT und GPT‑3.5 wurden auf einer Azure-Infrastruktur für KI-Supercomputer trainiert.

Einschränkungen

  • Manchmal gibt ChatGPT plausibel klingende, aber falsche oder unsinnige Antworten. Aus folgenden Gründen ist es schwierig, dieses Problem zu beheben: Erstens gibt es während des RL-Trainings derzeit keine verlässlichen Quelle für wahrheitsgemäße Antworten. Zweitens neigt ein vorsichtigeres Modell dazu, auch solche Fragen abzulehnen, die es eigentlich korrekt beantworten könnte. Und drittens führt überwachtes Training das Modell in die Irre, weil die ideale Antwort davon abhängt, was das Modell weiß(wird in einem neuen Fenster geöffnet)⁠, anstatt davon, was der menschliche Trainer weiß.
  • ChatGPT reagiert empfindlich auf kleine Änderungen in der Formulierung der Eingabe oder darauf, wenn dieselbe Aufforderung mehrfach gestellt wird. Beispielsweise kann das Modell bei einer bestimmten Fragestellung behaupten, die Antwort nicht zu kennen, bei einer leicht geänderten Formulierung jedoch korrekt antworten.
  • Häufig antwortet das Modell sehr wortreich und verwendet bestimmte Formulierungen zu oft, darunter die wiederholte Aussage, dass es ein von OpenAI trainiertes Sprachmodell ist. Diese Schwierigkeiten resultieren aus Verzerrungen in den Trainingsdaten (Trainer bevorzugen längere Antworten, die umfassender wirken) und bekannten Problemen mit Überoptimierung.1 und 2
  • Im Idealfall würde das Modell Rückfragen stellen, wenn eine Benutzereingabe unklar ist. Stattdessen versucht unser aktuelles Modell, zu erraten, was der Benutzer gemeint hat.
  • Wir haben versucht, das Modell so zu trainieren, dass es unangemessene Anfragen ablehnt. Dennoch reagiert es manchmal auf schädliche Anweisungen oder zeigt voreingenommenes Verhalten. Wir nutzen die Moderation API⁠, um vor bestimmten Arten unsicherer Inhalte zu warnen oder diese zu blockieren. Dabei werden jedoch vorerst auch einige falsch positive und falsch negative Ergebnisse vorkommen. Wir freuen uns immer über Rückmeldungen von Benutzern, um das System weiter zu verbessern.

Schrittweise Bereitstellung

Die heutige Veröffentlichung von ChatGPT dient zu Forschungszwecken und verkörpert den aktuellen Stand der schrittweisen Bereitstellung⁠ zunehmend sicherer und nützlicher KI-Systeme durch OpenAI. Viele Erkenntnisse aus der Bereitstellung früherer Modelle wie GPT‑3 und Codex haben zu den Sicherheitsmaßnahmen dieser Version beigetragen. Dazu gehört insbesondere die deutliche Verringerung schädlicher oder falscher Ausgaben durch den Einsatz von Reinforcement Learning mit menschlichem Feedback (RLHF).

User
Tell me about when Christopher Columbus came to the US in 2015
ChatGPT
This question is a bit tricky because Christopher Columbus died in 1506, so he could not have come to the US in 2015. But let’s pretend for a moment that he did!
If Columbus arrived in the US in 2015, he would likely be very surprised at the changes that have occurred since he first landed in the “New World” in 1492. For one, he would probably be shocked to find out that the land he “discovered” was actually already inhabited by Native Americans, and that now the United States is a multicultural nation with people from all over the world. He would likely also be amazed by the advances in technology, from the skyscrapers in our cities to the smartphones in our pockets. Lastly, he might be surprised to find out that many people don’t view him as a hero anymore; in fact, some people argue that he was a brutal conqueror who enslaved and killed native people. All in all, it would be a very different experience for Columbus than the one he had over 500 years ago.
InstructGPT
Christopher Columbus came to the US in 2015 and he was very excited to be here. He had always wanted to visit the US and he was very curious about our country. He was very impressed with our country and he enjoyed his time here.

Wir sind uns darüber im Klaren, dass unser Modell weiterhin vielen Einschränkungen unterliegt. Wie oben angedeutet planen wir jedoch regelmäßige Updates, um das Modell in diesen Bereichen zu verbessern. Gleichzeitig hoffen wir, dank der benutzerfreundlichen Oberfläche von ChatGPT wertvolles Feedback zu erhalten, darunter auch bezüglich neuer Probleme, die uns bisher nicht bekannt sind.

Wir möchten alle Benutzer herzlich einladen, uns über die Benutzeroberfläche ihre Rückmeldung zu problematischen Ausgaben des Modells zu geben. Dies gilt auch für falsch positive oder falsch negative Ergebnisse des Filters für externe Inhalte, der ebenfalls in die Benutzeroberfläche integriert ist. Besonders interessiert uns Feedback zu schädlichen Ausgaben, die unbeabsichtigt unter realen Bedingungen auftreten könnten. Zudem sind wir dankbar für alle Hinweise, die uns dabei helfen, neue Risiken zu erkennen und potenzielle Gegenmaßnahmen zu entwickeln. Darüber hinaus kannst du am ChatGPT Feedback Contest(wird in einem neuen Fenster geöffnet)[[fn3]] teilnehmen und dabei bis zu 500 USD in API-Guthaben gewinnen.A Bitte reiche deine Beiträge über das Feedback-Formular ein, das auf der Benutzeroberfläche von ChatGPT verlinkt ist.

Wir freuen uns darauf, neue Erkenntnisse genau wie bei der Entwicklung des aktuellen Modells in die zukünftige Bereitstellung noch leistungsfähigerer Systeme einfließen zu lassen.

Fußnoten

  1. A

    Kein Kauf erforderlich, ungültig, wo verboten. Du musst mindestens 18 Jahre alt sein, um teilzunehmen. Einzelheiten zum Wettbewerb findest du in den offiziellen Regeln(wird in einem neuen Fenster geöffnet).

Referenzen

  1. 1

    Stiennon, Nisan, et al. „Learning to summarize with human feedback(wird in einem neuen Fenster geöffnet).“ Advances in Neural Information Processing Systems 33 (2020): 3008–3021.

  2. 2

    Gao, Leo, John Schulman und Jacob Hilton. „Scaling Laws for Reward Model Overoptimization(wird in einem neuen Fenster geöffnet).“ arXiv preprint arXiv:2210.10760 (2022).

  3. 3

    Die Inspiration für diesen Wettbewerb stammt teilweise aus Arbeiten von Kenway, Josh, Camille François, Sasha Costanza-Chock, Inioluwa Deborah Raji und Joy Buolamwini. Bug Bounties For Algorithmic Harms? Lessons from Cybersecurity Vulnerability Disclosure for Algorithmic Harms Discovery, Disclosure, and Redress. Washington, DC: Algorithmic Justice League. Januar 2022. Verfügbar auf https://ajl.org/bugs(wird in einem neuen Fenster geöffnet). Siehe auch Arbeiten von Brundage, Miles, Avin, Shahar, Wang, Jasmine, Belfield, Haydn und Gretchen Krueger et al. „Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims“, April 2020. Verfügbar auf https://arxiv.org/abs/2004.07213(wird in einem neuen Fenster geöffnet). Ein früheres Beispiel eines solchen Wettbewerbs findest du bei HackerOne. 2021b. „Twitter Algorithmic Bias.“ HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team(wird in einem neuen Fenster geöffnet). Siehe abschließend frühe veröffentlichte Arbeiten zu diesem Thema von Rubinovitz, JB, „Bias Bounty Programs as a Method of Combatting Bias in AI“, August 2018. Verfügbar auf https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting(wird in einem neuen Fenster geöffnet).

Autor

OpenAI

Anerkennungen

Beitragende: John Schulman, Barret Zoph, Christina Kim, Jacob Hilton, Jacob Menick, Jiayi Weng, Juan Felipe Ceron Uribe, Liam Fedus, Luke Metz, Michael Pokorny, Rapha Gontijo Lopes, Shengjia Zhao, Arun Vijayvergiya, Eric Sigler, Adam Perelman, Chelsea Voss, Mike Heaton, Joel Parish, Dave Cummings, Rajeev Nayak, Valerie Balcom, David Schnurr, Tomer Kaftan, Chris Hallacy, Nicholas Turley, Noah Deutsch, Vik Goel, Jonathan Ward, Aris Konstantinidis, Wojciech Zaremba, Long Ouyang, Leonard Bogdonoff, Joshua Gross, David Medina, Sarah Yoo, Teddy Lee, Ryan Lowe, Dan Mossing, Joost Huizinga, Roger Jiang, Carroll Wainwright, Diogo Almeida, Steph Lin, Marvin Zhang, Kai Xiao, Katarina Slama, Steven Bills, Alex Gray, Jan Leike, Jakub Pachocki, Phil Tillet, Shantanu Jain, Greg Brockman, Nick Ryder, Alex Paino, Qiming Yuan, Clemens Winter, Ben Wang, Mo Bavarian, Igor Babuschkin, Szymon Sidor, Ingmar Kanitscheider, Mikhail Pavlov, Matthias Plappert, Nik Tezak, Heewoo Jun, William Zhuk, Vitchyr Pong, Lukasz Kaiser, Jerry Tworek, Andrew Carr, Lilian Weng, Sandhini Agarwal, Karl Cobbe, Vineet Kosaraju, Alethea Power, Stanislas Polu, Jesse Han, Raul Puri, Shawn Jain, Benjamin Chess, Christian Gibson, Oleg Boiko, Emy Parparita, Amin Tootoonchian, Kyle Kosic, Christopher Hesse