Zum Hauptinhalt springen
OpenAI

Wir haben Sprachmodelle trainiert, die Benutzerabsichten wesentlich besser befolgen als GPT‑3 und haben sie gleichzeitig wahrheitsgetreuer und weniger toxisch gemacht. Dazu verwenden wir Techniken, die wir im Rahmen unserer Ausrichtungsforschung entwickelt haben. Diese InstructGPT-Modelle, die unter Einbeziehung menschlicher Hilfe trainiert wurden, werden jetzt als Standardsprachmodelle auf unserer API eingesetzt.

Wird geladen …

Die OpenAI API basiert auf GPT‑3‑Sprachmodellen, die mithilfe sorgfältig erstellter Text-Prompts dazu gebracht werden können, Aufgaben in natürlicher Sprache auszuführen. Allerdings können diese Modelle auch Outputs erzeugen, die unwahr oder toxisch sind oder schädliche Ansichten widerspiegeln. Dies liegt zum Teil daran, dass GPT‑3 darauf trainiert ist, das nächste Wort anhand eines großen Datensatzes von Internettexten vorherzusagen, anstatt die vom Benutzer gewünschte Sprachaufgabe sicher auszuführen. Mit anderen Worten: Diese Modelle sind nicht auf ihre Benutzer ausgerichtet.

Um unsere Modelle sicherer und hilfreicher zu machen und sie besser auszurichten, verwenden wir eine bestehende Technik namens Reinforcement Learning mit menschlichem Feedback (RLHF). Anhand von Prompts, die unsere Kunden an die APIA senden, führen unsere Labeler Demonstrationen des gewünschten Modellverhaltens durch und bewerten mehrere Outputs unserer Modelle. Anschließend verwenden wir diese Daten, um GPT‑3 zu optimieren.

Die daraus resultierenden InstructGPT‑Modelle können Anweisungen wesentlich besser befolgen als GPT‑3. Sie erfinden außerdem seltener Fakten und erzeugen eine etwas geringere Menge toxischer Outputs. Unsere Labeler bevorzugen Outputs aus unserem 1.3B-InstructGPT‑Modell gegenüber Outputs aus einem 175B-GPT‑3‑Modell, obwohl dieses über 100-mal weniger Parameter hat. Gleichzeitig zeigen wir, dass wir bei den Fähigkeiten von GPT‑3 keine Kompromisse eingehen müssen, gemessen an der Leistung unseres Modells bei akademischen NLP-Bewertungen.

Diese InstructGPT‑Modelle, die sich auf der API seit über einem Jahr in der Betaphase befinden, sind jetzt die Standardsprachmodelle, auf die über unsere API zugegriffen werden kann.B Wir sind der Überzeugung, dass die Feinabstimmung von Sprachmodellen mit menschlicher Hilfe ein wirksames Mittel zur Verbesserung ihrer Sicherheit und Zuverlässigkeit ist, und werden weiter in diese Richtung voranschreiten.

Dies ist das erste Mal, dass unsere Ausrichtungsforschung, die wir seit mehreren Jahren betreiben,1, 2 und 3 auf unser Produkt angewendet wurde. Unsere Arbeit steht auch im Zusammenhang mit aktueller Forschung, die Sprachmodelle hinsichtlich der Befolgung von Anweisungen mithilfe akademischer NLP-Datensätze, insbesondere FLAN4 und T0.5, optimiert. Ein Hauptanliegen unserer Arbeit besteht darin, Sprachmodelle nützlicher und wahrheitsgemäßer zu machen und gleichzeitig ihre Schäden und Voreingenommenheit zu mildern.6, 7, 8, 9 und 10 Ein Teil unserer vorherigen Forschung in dieser Richtung hat ergeben, dass wir schädliche Outputs reduzieren können, indem wir einen kleinen, kuratierten Datensatz menschlicher Demonstrationen optimieren.11 Andere Forschung konzentrierte sich auf das Filtern des Pre-Training-Datensatzes,12 sicherheitsspezifische Kontrolltokens13 und 14 oder der Steuerung von Modellgenerationen.15 und 16 Wir untersuchen diese und andere Ideen in unserer laufenden Ausrichtungsforschung.

Ergebnisse

Wir bewerten zunächst, wie gut die Outputs von InstructGPT die Benutzeranweisungen befolgen, indem Labeler die Outputs mit denen von GPT‑3 vergleichen. Wir haben festgestellt, dass InstructGPT‑Modelle bei Prompts, die sowohl an die InstructGPT- als auch an die GPT‑3‑Modelle über die API gesendet werden, deutlich bevorzugt werden. Dies trifft zu, wenn wir dem GPT‑3‑Prompt ein Präfix hinzufügen, sodass in einen „Anweisungsbefolgungsmodus“ gewechselt wird.

Wird geladen …

Um die Sicherheit unserer Modelle zu messen, verwenden wir hauptsächlich eine Reihe vorhandener Metriken für öffentlich verfügbare Datensätze. Im Vergleich zu GPT‑3 produziert InstructGPT weniger nachahmende Unwahrheiten (laut TruthfulQA17) und ist weniger toxisch (laut RealToxicityPrompts18). Wir führen auch menschliche Bewertungen unserer API-Prompt-Verteilung durch und haben festgestellt, dass InstructGPT seltener Fakten erfindet („halluziniert“) und angemessenere Outputs generiert.C

Wird geladen …

Außerdem stellten wir fest, dass InstructGPT‑Outputs denen von FLAN4 und T05 auf unserer Kundenverteilung vorgezogen werden. Dies deutet darauf hin, dass die zum Trainieren von FLAN und T0 (hauptsächlich akademische NLP-Aufgaben) verwendeten Daten nicht vollständig repräsentativ für die Verwendung der bereitgestellten Sprachmodelle in der Praxis sind.

Methoden

Diagram showing three-step methodology to train InstructGPT models.

Zum Trainieren von InstructGPT‑Modellen ist unsere Kerntechnik das Reinforcement Learning mit menschlichem Feedback (RLHF), eine Methode, die wir in unserer früheren Ausrichtungsforschung mitentwickelt haben. Diese Technik nutzt menschliche Vorlieben als Belohnungssignal zur Feinabstimmung unserer Modelle. Das ist wichtig, da die Sicherheits- und Ausrichtungsprobleme, die wir lösen möchten, komplex und subjektiv sind und durch einfache automatische Messwerte nicht vollständig erfasst werden können.

Wir sammeln zunächst einen Datensatz mit von Menschen geschriebenen Demonstrationen zu Prompts, die an unsere API gesendet werden, und verwenden diesen, um unsere Basislinien für das überwachte Lernen zu trainieren. Als Nächstes erfassen wir einen Datensatz mit von Menschen bewerteten Vergleichen zwischen zwei Modell-Outputs anhand einer größeren Anzahl von API-Prompts. Anschließend trainieren wir anhand dieses Datensatzes ein Belohnungsmodell („Reward Modell“, RM), um vorherzusagen, welchen Output unsere Labeler bevorzugen würden. Zu guter Letzt verwenden wir dieses RM als Belohnungsfunktion und optimieren unsere GPT‑3‑Richtlinie, um diese Belohnung mithilfe des PPO-Algorithmus zu maximieren.

Man kann sich diesen Prozess so vorstellen, dass er Fähigkeiten „freischaltet“, welche GPT‑3 bereits hatte, die durch Prompt Engineering allein jedoch nur schwer hervorzurufen waren. Das liegt daran, dass unser Trainingsverfahren im Vergleich zu dem, was während des Pre-Trainings gelernt wird, nur begrenzt in der Lage ist, dem Modell neue Fähigkeiten beizubringen, weil es im Vergleich zum Pre-Training des Modells weniger als 2 % der Rechenleistung und Daten nutzt.

Eine Einschränkung dieses Ansatzes besteht darin, dass er eine „Ausrichtungssteuer“ einführt: Die Ausrichtung der Modelle nur auf Kundenaufgaben kann ihre Leistung bei einigen anderen akademischen NLP-Aufgaben verschlechtern. Dies ist nicht erwünscht, denn wenn unsere Ausrichtungstechniken die Modelle bei Aufgaben, die Menschen wichtig sind, verschlechtern, ist es weniger wahrscheinlich, dass sie in der Praxis übernommen werden. Wir haben eine einfache algorithmische Änderung gefunden, die diese Ausrichtungssteuer minimiert: Während der RL-Feinabstimmung mischen wir einen kleinen Teil der Originaldaten bei, die zum Trainieren von GPT‑3 verwendet wurden, und trainieren mit diesen Daten unter Verwendung der normalen Maximierung der Log-Likelihood.D Dadurch wird die Leistung in Bezug auf Sicherheit und menschliche Präferenzen ungefähr beibehalten, während Leistungseinbußen bei akademischen Aufgaben gemildert werden und in mehreren Fällen sogar die GPT‑3‑Basislinie übertroffen wird.

Generalisierung für breitere Präferenzen

Unser Verfahren richtet das Verhalten unserer Modelle an den Präferenzen unserer Labeler aus, welche die zum Trainieren unserer Modelle verwendeten Daten direkt produzieren, und an uns Forschern, die den Labelers durch schriftliche Anweisungen, direktes Feedback zu bestimmten Beispielen und informelle Gespräche Anleitung geben. Es wird außerdem von unseren Kunden und den in unseren API-Richtlinien enthaltenen Präferenzen beeinflusst. Wir haben Labeler ausgewählt, die bei einem Eignungstest zum Erkennen und Reagieren auf sensible Prompts gute Ergebnisse erzielt haben. Diese unterschiedlichen Einflussquellen auf die Daten garantieren jedoch nicht, dass unsere Modelle auf die Präferenzen einer größeren Gruppe abgestimmt sind.

Wir haben zwei Experimente durchgeführt, um dies zu untersuchen. Zunächst haben wir GPT‑3 und InstructGPT mithilfe von zurückgehaltenen LabelernE bewertet, die keine Trainingsdaten erstellt haben, und stellten fest, dass diese Labeler Outputs aus den InstructGPT‑Modellen in etwa dem gleichen Maße bevorzugen wie unsere Trainings-Labeler. Dann haben wir Belohnungsmodelle anhand von Daten einer Teilmenge unserer Labeler trainiert und festgestellt, dass sie sich gut verallgemeinern lassen, um die Präferenzen einer anderen Teilmenge von Labelers vorherzusagen. Dies deutet darauf hin, dass unsere Modelle nicht übermäßig an die Präferenzen unserer Trainings-Labeler angepasst sind. Es sind jedoch weitere Untersuchungen nötig, um die Leistung dieser Modelle bei größeren Benutzergruppen und ihre Leistung bei Eingaben zu untersuchen, bei denen Menschen sich über das gewünschte Verhalten nicht einig sind.

Einschränkungen

Trotz erheblicher Fortschritte sind unsere InstructGPT‑Modelle noch lange nicht vollständig ausgerichtet oder völlig sicher. Sie erzeugen noch immer toxische oder voreingenommene Ergebnisse, erfinden Fakten und generieren sexuelle und gewalttätige Inhalte ohne ausdrückliche Prompts. Die Sicherheit eines maschinellen Lernsystems hängt jedoch nicht nur vom Verhalten der zugrunde liegenden Modelle ab, sondern auch davon, wie diese Modelle bereitgestellt werden. Um die Sicherheit unserer API zu gewährleisten, werden wir potenzielle Anwendungen kontinuierlich prüfen(wird in einem neuen Fenster geöffnet), bevor wir sie live schalten, Inhaltsfilter zum Erkennen unsicherer Vervollständigungen bereitstellen und auf Missbrauch überwachen.

Ein Nebeneffekt des Trainings unserer Modelle zur Befolgung von Benutzeranweisungen besteht darin, dass sie anfälliger für Missbrauch werden können, wenn sie angewiesen werden, unsichere Outputs zu produzieren. Um dieses Problem zu lösen, müssen unsere Modelle bestimmte Anweisungen ablehnen. Dies zuverlässig zu tun, ist ein wichtiges offenes Forschungsproblem, das wir mit Begeisterung angehen.

Darüber hinaus kann es in vielen Fällen nicht wünschenswert sein, Modelle an den durchschnittlichen Labeler-Präferenzen auszurichten. Wenn beispielsweise ein Text erstellt wird, der eine Minderheitengruppe überproportional betrifft, sollten die Präferenzen dieser Gruppe stärker gewichtet werden. Derzeit ist InstructGPT darauf trainiert, Anweisungen auf Englisch zu befolgen und orientiert sich daher an den kulturellen Werten englischsprachiger Menschen. Wir führen Forschung durch, um die Unterschiede und Abweichungen zwischen den Präferenzen der Labeler zu verstehen, damit wir unsere Modelle auf die Werte spezifischerer Personengruppen abstimmen können. Allgemeiner gesagt bringt die Ausrichtung der Modell-Outputs auf die Werte bestimmter Personen schwierige Entscheidungen mit gesellschaftlichen Auswirkungen mit sich, und letztendlich müssen wir für die Entscheidungsfindung verantwortungsvolle, integrative Prozesse etablieren.

Nächste Schritte

Dies ist die erste Anwendung unserer Ausrichtungsforschung auf unser Produkt. Unsere Ergebnisse zeigen, dass diese Techniken die Ausrichtung allgemeiner KI-Systeme an menschlichen Absichten deutlich verbessern können. Dies ist jedoch erst der Anfang: Wir werden diese Techniken weiter vorantreiben, um die Ausrichtung unserer aktuellen und zukünftigen Modelle zu verbessern und so Sprachtools zu entwickeln, die für Menschen sicher und hilfreich sind.

Wenn du Interesse an diesen Forschungsrichtungen hast: Wir stellen ein(wird in einem neuen Fenster geöffnet)!

Fußnoten

  1. A

    Wir verwenden nur Prompts, die über den Playground an eine frühere Version der InstructGPT-Modelle gesendet wurden, die im Januar 2021 bereitgestellt wurde. Unsere menschlichen Annotatoren entfernen persönlich identifizierbare Daten aus allen Prompts, bevor sie sie dem Trainingssatz hinzufügen.

  2. B

    Die in der API eingesetzten InstructGPT-Modelle sind aktualisierte Versionen, die mit denselben menschlichen Feedback-Daten trainiert wurden. Sie verwenden eine ähnliche, aber leicht unterschiedliche Trainingsmethode, die wir in einer künftigen Veröffentlichung beschreiben werden.

  3. C

    Wir messen in unserer API-Verteilung auch mehrere weitere Dimensionen potenziell schädlicher Outputs: ob diese sexuelle oder gewalttätige Inhalte enthalten, schlecht über eine geschützte Klasse sprechen oder Missbrauch ermutigen. Wir haben festgestellt, dass InstructGPT in diesen Metriken keine signifikante Verbesserung gegenüber GPT-3 darstellt; die Inzidenzrate ist für beide Modelle gleich niedrig.

  4. D

    Wir fanden diesen Ansatz effektiver als die einfache Erhöhung des KL-Koeffizienten.

  5. E

    Diese Labeler stammen von Scale AI und Upwork, ähnlich wie unsere Trainings-Labeler, werden jedoch keinem Eignungstest unterzogen.

Referenzen

  1. 1

    Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. und Amodei, D., 2017. Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.

  2. 2

    Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. und Christiano, P., 2020.

  3. 3

    Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. und Christiano, P., 2021. Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.

  4. 4

    Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. und Le, Q.V., 2021. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.

  5. 5

    Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. und Dey, M., 2021. Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.

  6. 6

    Bender, E.M., Gebru, T., McMillan-Major, A. und Shmitchell, S., 2021, März. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610–623).

  7. 7

    Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. und Brynjolfsson, E., 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.

  8. 8

    Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. und Irving, G., 2021. Alignment of Language Agents. arXiv preprint arXiv:2103.14659.

  9. 9

    Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. und Kenton, Z., 2021. Ethical and social risks of harm from Language Models. arXiv preprint arXiv:2112.04359.

  10. 10

    Tamkin, A., Brundage, M., Clark, J. und Ganguli, D., 2021. Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv preprint arXiv:2102.02503.

  11. 11

    Solaiman, I. und Dennison, C., 2021. Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv preprint arXiv:2106.10328.

  12. 12

    Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. und Frosst, N., 2021. Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.

  13. 13

    Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. und Dinan, E., 2020. Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.

  14. 14

    Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. und Socher, R., 2019. Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.

  15. 15

    Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. und Rajani, N.F., 2020. Gedi: Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.

  16. 16

    Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. und Liu, R., 2019. Plug and play language models: A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.

  17. 17

    Lin, S., Hilton, J. und Evans, O., 2021. TruthfulQA: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.

  18. 18

    Gehman, S., Gururangan, S., Sap, M., Choi, Y. und Smith, N.A., 2020. RealToxicityPrompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.

  19. 19

    Rudinger, R., Naradowsky, J., Leonard, B. und Van Durme, B., 2018. Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301.

  20. 20

    Nangia, N., Vania, C., Bhalerao, R. und Bowman, S.R., 2020. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. arXiv preprint arXiv:2010.00133.

Autoren

Ryan Lowe und Jan Leike

Anerkennungen

Wir möchten unseren Mitverfassern des Artikels danken: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder und Paul Christiano sowie allen, die Feedback zu dem Artikel und Blogbeitrag gegeben haben. Wir möchten uns auch bei den Mitgliedern des Kommunikationsteam für ihre Beratung und Unterstützung bedanken, einschließlich Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego und Justin Jay Wang. Abschließend möchten wir unseren Labelers danken, ohne die dieses Projekt nicht möglich gewesen wäre.