Wir haben ein Modell namens ChatGPT trainiert, das wie in einem echten Gespräch mit dir interagiert. Dank des Dialogformats kann ChatGPT auf Rückfragen eingehen, eigene Fehler zugeben, falsche Annahmen hinterfragen und unangemessene Anfragen ablehnen.
ChatGPT ist ein Schwestermodell des Systems InstructGPT, das darauf trainiert wurde, Anweisungen zu folgen und präzise Antworten zu geben.
ChatGPT steht dir jetzt während einer Testphase kostenlos zur Verfügung. Probier es aus und sag uns, was gut funktioniert – und was wir besser machen können. Während dieser Testphase ist ChatGPT kostenlos. Jetzt ausprobieren auf chatgpt.com(wird in einem neuen Fenster geöffnet).
Beispiele
resultWorkerErr := make(chan error)
defer close(resultWorkerErr)
go func() {
defer cancel()
resultWorkerErr <- b.resultWorker(ctx)
}()
err := b.worker(ctx)
cancel()
if err == nil {
return <-resultWorkerErr
}
return multierror.Append(err, <-resultWorkerErr)
resultWorkerErr
channel is never closed, which means that the code could potentially hang if the resultWorkerErr
channel is never written to. This could happen if b.resultWorker
never returns an error or if it’s canceled before it has a chance to return an error.To fix this issue, you could close the resultWorkerErr
channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:
close(resultworkerErr)
resultWorkerErr
channel is always closed, even if b.resultWorker
never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?Wir haben dieses Modell auf Grundlage von Reinforcement Learning from Human Feedback (RLHF) trainiert. Dabei lernt die Maschine anhand menschlicher Rückmeldung. Die gleiche Methode wurde auch für InstructGPT angewendet, allerdings mit kleinen Unterschieden bei der Datenerfassung. Das erste Modell haben wir mithilfe beaufsichtigter Optimierung trainiert. Dabei führten menschliche KI-Trainer Gespräche, in denen sie sowohl die Rolle des Benutzers als auch die des KI-Assistenten übernahmen. Zur Unterstützung konnten die Trainer auf Vorschläge des Modells zugreifen, um ihre Antworten zu formulieren. Diesen neuen Gesprächsdatensatz haben wir anschließen mit dem von InstructGPT kombiniert, den wir dafür ebenfalls in ein Dialogformat umgewandelt haben.
Zur Erstellung eines Belohnungsmodells für das Reinforcement Learning mussten wir umfangreiche Vergleichsdaten sammeln. Dazu wurden mehrere Modellantworten hinsichtlich ihrer Qualität bewertet und in eine Reihenfolge gebracht. Um diese Daten zu erfassen, haben wir Gespräche der KI-Trainer mit dem Chatbot herangezogen. Nach dem Zufallsprinzip haben wir eine vom Modell geschriebene Nachricht ausgewählt und mehrere alternative Ergänzungen ausprobiert. Dann haben die KI-Trainer sie bewertet. Mittels solcher Belohnungsmodelle können wir das Modell durch Proximal Policy Optimization feinabstimmen. Dieses Verfahren haben wir mehrfach wiederholt.

ChatGPT ist eine Weiterentwicklung eines Modells der GPT‑3.5-Serie, deren Training wir Anfang 2022 abgeschlossen haben. Weitere Informationen über die 3.5-Serie findest du hier(wird in einem neuen Fenster geöffnet). ChatGPT und GPT‑3.5 wurden auf einer Azure-Infrastruktur für KI-Supercomputer trainiert.
- Manchmal gibt ChatGPT plausibel klingende, aber falsche oder unsinnige Antworten. Aus folgenden Gründen ist es schwierig, dieses Problem zu beheben: Erstens gibt es während des RL-Trainings derzeit keine verlässlichen Quelle für wahrheitsgemäße Antworten. Zweitens neigt ein vorsichtigeres Modell dazu, auch solche Fragen abzulehnen, die es eigentlich korrekt beantworten könnte. Und drittens führt überwachtes Training das Modell in die Irre, weil die ideale Antwort davon abhängt, was das Modell weiß(wird in einem neuen Fenster geöffnet), anstatt davon, was der menschliche Trainer weiß.
- ChatGPT reagiert empfindlich auf kleine Änderungen in der Formulierung der Eingabe oder darauf, wenn dieselbe Aufforderung mehrfach gestellt wird. Beispielsweise kann das Modell bei einer bestimmten Fragestellung behaupten, die Antwort nicht zu kennen, bei einer leicht geänderten Formulierung jedoch korrekt antworten.
- Häufig antwortet das Modell sehr wortreich und verwendet bestimmte Formulierungen zu oft, darunter die wiederholte Aussage, dass es ein von OpenAI trainiertes Sprachmodell ist. Diese Schwierigkeiten resultieren aus Verzerrungen in den Trainingsdaten (Trainer bevorzugen längere Antworten, die umfassender wirken) und bekannten Problemen mit Überoptimierung.1 und 2
- Im Idealfall würde das Modell Rückfragen stellen, wenn eine Benutzereingabe unklar ist. Stattdessen versucht unser aktuelles Modell, zu erraten, was der Benutzer gemeint hat.
- Wir haben versucht, das Modell so zu trainieren, dass es unangemessene Anfragen ablehnt. Dennoch reagiert es manchmal auf schädliche Anweisungen oder zeigt voreingenommenes Verhalten. Wir nutzen die Moderation API, um vor bestimmten Arten unsicherer Inhalte zu warnen oder diese zu blockieren. Dabei werden jedoch vorerst auch einige falsch positive und falsch negative Ergebnisse vorkommen. Wir freuen uns immer über Rückmeldungen von Benutzern, um das System weiter zu verbessern.
Die heutige Veröffentlichung von ChatGPT dient zu Forschungszwecken und verkörpert den aktuellen Stand der schrittweisen Bereitstellung zunehmend sicherer und nützlicher KI-Systeme durch OpenAI. Viele Erkenntnisse aus der Bereitstellung früherer Modelle wie GPT‑3 und Codex haben zu den Sicherheitsmaßnahmen dieser Version beigetragen. Dazu gehört insbesondere die deutliche Verringerung schädlicher oder falscher Ausgaben durch den Einsatz von Reinforcement Learning mit menschlichem Feedback (RLHF).
Wir sind uns darüber im Klaren, dass unser Modell weiterhin vielen Einschränkungen unterliegt. Wie oben angedeutet planen wir jedoch regelmäßige Updates, um das Modell in diesen Bereichen zu verbessern. Gleichzeitig hoffen wir, dank der benutzerfreundlichen Oberfläche von ChatGPT wertvolles Feedback zu erhalten, darunter auch bezüglich neuer Probleme, die uns bisher nicht bekannt sind.
Wir möchten alle Benutzer herzlich einladen, uns über die Benutzeroberfläche ihre Rückmeldung zu problematischen Ausgaben des Modells zu geben. Dies gilt auch für falsch positive oder falsch negative Ergebnisse des Filters für externe Inhalte, der ebenfalls in die Benutzeroberfläche integriert ist. Besonders interessiert uns Feedback zu schädlichen Ausgaben, die unbeabsichtigt unter realen Bedingungen auftreten könnten. Zudem sind wir dankbar für alle Hinweise, die uns dabei helfen, neue Risiken zu erkennen und potenzielle Gegenmaßnahmen zu entwickeln. Darüber hinaus kannst du am ChatGPT Feedback Contest(wird in einem neuen Fenster geöffnet)[[fn3]] teilnehmen und dabei bis zu 500 USD in API-Guthaben gewinnen.A Bitte reiche deine Beiträge über das Feedback-Formular ein, das auf der Benutzeroberfläche von ChatGPT verlinkt ist.
Wir freuen uns darauf, neue Erkenntnisse genau wie bei der Entwicklung des aktuellen Modells in die zukünftige Bereitstellung noch leistungsfähigerer Systeme einfließen zu lassen.
Fußnoten
- A
Kein Kauf erforderlich, ungültig, wo verboten. Du musst mindestens 18 Jahre alt sein, um teilzunehmen. Einzelheiten zum Wettbewerb findest du in den offiziellen Regeln(wird in einem neuen Fenster geöffnet).
Referenzen
- 1
Stiennon, Nisan, et al. „Learning to summarize with human feedback(wird in einem neuen Fenster geöffnet).“ Advances in Neural Information Processing Systems 33 (2020): 3008–3021.
- 2
Gao, Leo, John Schulman und Jacob Hilton. „Scaling Laws for Reward Model Overoptimization(wird in einem neuen Fenster geöffnet).“ arXiv preprint arXiv:2210.10760 (2022).
- 3
Die Inspiration für diesen Wettbewerb stammt teilweise aus Arbeiten von Kenway, Josh, Camille François, Sasha Costanza-Chock, Inioluwa Deborah Raji und Joy Buolamwini. Bug Bounties For Algorithmic Harms? Lessons from Cybersecurity Vulnerability Disclosure for Algorithmic Harms Discovery, Disclosure, and Redress. Washington, DC: Algorithmic Justice League. Januar 2022. Verfügbar auf https://ajl.org/bugs(wird in einem neuen Fenster geöffnet). Siehe auch Arbeiten von Brundage, Miles, Avin, Shahar, Wang, Jasmine, Belfield, Haydn und Gretchen Krueger et al. „Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims“, April 2020. Verfügbar auf https://arxiv.org/abs/2004.07213(wird in einem neuen Fenster geöffnet). Ein früheres Beispiel eines solchen Wettbewerbs findest du bei HackerOne. 2021b. „Twitter Algorithmic Bias.“ HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team(wird in einem neuen Fenster geöffnet). Siehe abschließend frühe veröffentlichte Arbeiten zu diesem Thema von Rubinovitz, JB, „Bias Bounty Programs as a Method of Combatting Bias in AI“, August 2018. Verfügbar auf https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting(wird in einem neuen Fenster geöffnet).
Autor
OpenAIAnerkennungen
Beitragende: John Schulman, Barret Zoph, Christina Kim, Jacob Hilton, Jacob Menick, Jiayi Weng, Juan Felipe Ceron Uribe, Liam Fedus, Luke Metz, Michael Pokorny, Rapha Gontijo Lopes, Shengjia Zhao, Arun Vijayvergiya, Eric Sigler, Adam Perelman, Chelsea Voss, Mike Heaton, Joel Parish, Dave Cummings, Rajeev Nayak, Valerie Balcom, David Schnurr, Tomer Kaftan, Chris Hallacy, Nicholas Turley, Noah Deutsch, Vik Goel, Jonathan Ward, Aris Konstantinidis, Wojciech Zaremba, Long Ouyang, Leonard Bogdonoff, Joshua Gross, David Medina, Sarah Yoo, Teddy Lee, Ryan Lowe, Dan Mossing, Joost Huizinga, Roger Jiang, Carroll Wainwright, Diogo Almeida, Steph Lin, Marvin Zhang, Kai Xiao, Katarina Slama, Steven Bills, Alex Gray, Jan Leike, Jakub Pachocki, Phil Tillet, Shantanu Jain, Greg Brockman, Nick Ryder, Alex Paino, Qiming Yuan, Clemens Winter, Ben Wang, Mo Bavarian, Igor Babuschkin, Szymon Sidor, Ingmar Kanitscheider, Mikhail Pavlov, Matthias Plappert, Nik Tezak, Heewoo Jun, William Zhuk, Vitchyr Pong, Lukasz Kaiser, Jerry Tworek, Andrew Carr, Lilian Weng, Sandhini Agarwal, Karl Cobbe, Vineet Kosaraju, Alethea Power, Stanislas Polu, Jesse Han, Raul Puri, Shawn Jain, Benjamin Chess, Christian Gibson, Oleg Boiko, Emy Parparita, Amin Tootoonchian, Kyle Kosic, Christopher Hesse