Przejdź do treści głównej
OpenAI

27 stycznia 2022

Publikacja

Ukierunkowanie modeli językowych na wykonywanie instrukcji

Ładowanie…

Dzięki treningowi przeprowadzonemu z użyciem technik wypracowanych w toku badań w zakresie zgodności nasze modele językowe poprawniej wykonują instrukcje użytkownika w porównaniu z GPT‑3, a także są bardziej prawdomówne i mniej toksyczne. Tego rodzaju modele InstructGPT trenowane z udziałem ludzi są obecnie wdrażane jako domyślne modele językowe w ramach naszego API.

Ładowanie…

OpenAI API wykorzystuje modele językowe GPT‑3, które można nakłonić do wykonywania zadań w języku naturalnym z użyciem precyzyjnie formułowanych poleceń tekstowych. Jednak modele te potrafią również generować odpowiedzi niezgodne z prawdą, toksyczne lub będące odzwierciedleniem szkodliwych przekonań. Jest to częściowo związane z faktem, że GPT‑3 trenowany jest, aby przewidywać kolejne słowo w dużym zbiorze danych tekstu z Internetu, zamiast w bezpieczny sposób wykonywać zadanie zlecone przez użytkownika. Innymi słowy, modele te nie są w pełni zgodne z intencjami użytkownika.

Aby zwiększyć bezpieczeństwo, przydatność i zgodność naszych modeli, wykorzystujemy istniejące techniki uczenia przez wzmacnianie na podstawie informacji zwrotnych od człowieka (reinforcement learning from human feedback, RLHF). Na podstawie poleceń przesyłanych przez naszych klientów APIA nasi testerzy prezentują demonstracje pożądanych zachowań modelu i szeregują różne informacje zwrotne generowane przez modele. Następnie wykorzystujemy tego rodzaju dane, aby ulepszać zachowania GPT‑3.

Opracowywane w tym procesie modele InstructGPT wykonują polecenia o wiele lepiej niż GPT‑3. Rzadziej zdarza im się również zmyślać fakty i wykazują niewielką poprawę w zakresie generowania toksycznych odpowiedzi. Nasi testerzy preferują odpowiedzi generowane przez model 1.3B InstructGPT od danych wyjściowych modelu 175B GPT‑3 mimo ponad 100-krotnie mniejszej liczby parametrów. Jednocześnie wykazaliśmy, że nie musimy rezygnować z umiejętności modelu GPT‑3 wykazanych w wynikach ocen jego zdolności akademickich NLP do przetwarzania akademickiego języka naturalnego.

Modele InstructGPT, które pozostawały w fazie beta przez ponad rok, stają się obecnie domyślnymi modelami językowymi dostępnymi z poziomu naszego API[[fn.B]]. Uważamy, że precyzyjna konfiguracja modeli językowych z udziałem człowieka jest potężnym narzędziem pozwalającym na znaczną poprawę ich bezpieczeństwa i niezawodności, dlatego będziemy intensyfikować prace w tym kierunku.

Jest to pierwsza próba implementacji wyników naszych badań z zakresu zgodności, które prowadzimy od kilku lat1, 2 i 3 w jednym z naszych produktów. Nasza praca wiąże się również z naszymi najnowszymi badaniami nad precyzyjną konfiguracją modeli w kierunku lepszego wykonywania instrukcji z użyciem zbiorów danych akademickiego języka naturalnego, zwłaszcza FLAN4 i T05. Jednym z kluczowych priorytetów w naszej pracy jest poprawa użyteczności i prawdomówności przy jednoczesnym obniżeniu potencjalnej szkodliwości i stronniczości modeli językowych6, 7, 8, 9 i 10. Niektóre z naszych wcześniejszych badań prowadzonych pod tym kątem wykazały możliwość zmniejszenia częstotliwości generowania szkodliwych danych wyjściowych w drodze precyzyjnej konfiguracji z użyciem niewielkich, starannie dobranych zbiorów danych opartych na ludzkich demonstracjach11. W innych badaniach koncentrowaliśmy się na filtrowaniu zbiorów danych przed treningiem[fn:12]], użyciu tokenów kontrolnych związanych z bezpieczeństwem13 i 14 lub ukierunkowywaniem odpowiedzi generowanych przez modele15 i 16. Testujemy te i inne możliwe rozwiązania w toku naszych nieustannych badań w kontekście zgodności.

Wyniki

W pierwszej kolejności oceniamy, jak dobrze dane wyjściowe z InstructGPT odpowiadają instrukcjom użytkownika, prosząc testerów o porównanie odpowiedzi z wygenerowanymi przez GPT‑3. Zauważyliśmy, że odpowiedzi generowane przez InstructGPT są w znacznym stopniu preferowane po zadaniu tych samych poleceń modelom InstructGPT i GPT‑3 w ramach API. Dzieje się tak nawet w przypadku dodania prefiksu w poleceniu dla GPT‑3 sprawiającego, że model przechodzi do „trybu wykonywania instrukcji”.

Ładowanie…

Aby zmierzyć bezpieczeństwo naszych modeli, wykorzystujemy przede wszystkim zbiór istniejących mierników z publicznie dostępnych zbiorów danych. W porównaniu do GPT‑3, InstructGPT generuje mniej imitacyjnych nieprawd (na podstawie TruthfulQA17), a jego odpowiedzi są mniej toksyczne (zgodnie z RealToxicityPrompts18). Przeprowadzamy również oceny z udziałem człowieka dla dystrybucji naszych poleceń w API i zaobserwowaliśmy, że InstructGPT rzadziej zmyśla fakty („doświadcza halucynacji”) i generuje bardziej stosowne odpowiedziC.

Ładowanie…

Ponadto zaobserwowaliśmy, że dane wyjściowe InstructGPT są preferowane w stosunku do generowanych przez FLAN4 i T05 na podstawie naszej dystrybucji klientów. Wskazuje to, że dane wykorzystywane w treningu FLAN i T0, w większości zadania z zakresu akademickiego języka naturalnego, niedostatecznie odzwierciedlają sposoby faktycznego wykorzystania modeli językowych w praktyce.

Metody

Diagram showing three-step methodology to train InstructGPT models.

Szkolenie modeli InstructGPT opiera się przede wszystkim na technice uczenia przez wzmacnianie na podstawie informacji zwrotnych od człowieka (RLHF) — metodzie, do której stworzenia przyczyniliśmy się w toku naszych badań z zakresu zgodności. Technika ta wykorzystuje preferencje człowieka jako sygnał nagrody w procesie precyzyjnej kalibracji naszych modeli, co jest niezwykle istotne zważywszy na fakt, że problemy z zakresu bezpieczeństwa i zgodności, z którymi się mierzymy, są złożone i wysoce subiektywne, a przez to trudne do uchwycenia w ramach prostych zautomatyzowanych metryk.

W pierwszej kolejności gromadzimy zbiór danych obejmujących stworzone przez ludzi demonstracje dla poleceń przesyłanych do API i wykorzystujemy te informacje przy treningu baz uczenia nadzorowanego. Następnie gromadzimy zbiór danych obejmujący ocenione przez człowieka porównania pomiędzy danymi wyjściowymi z dwóch modeli uzyskanymi dla większego zbioru poleceń API. Na podstawie tego zbioru trenujemy model nagród (reward model, RM) umożliwiający przewidzenie, którą z odpowiedzi preferowaliby nasi testerzy. Wreszcie wykorzystujemy model RM jako funkcję nagrody w procesie precyzyjnej konfiguracji reguł GPT‑3 w kierunku maksymalizacji tej nagrody z użyciem algorytmu PPO.

Jednym z możliwych spojrzeń na ten proces jest stwierdzenie, że „odblokowuje” on zdolności, które GPT‑3 już posiadał, lecz które były trudne do wywołania wyłącznie w drodze inżynierii poleceń. Wynika to z ograniczeń naszej procedury treningowej w zakresie uczenia modelu nowych umiejętności w kontekście tych już zdobytych w fazie poprzedzającej trening, wynikających z faktu, że wykorzystuje on mniej niż 2% mocy obliczeniowej i danych w porównaniu do procesów przedtreningowych.

Jedno z ograniczeń tego podejścia związane jest z istnieniem tzw. „podatku zgodności” (alignment tax): zapewnienie zgodności modeli wyłącznie z zadaniami użytkowników może obniżać jego wydajność w kontekście niektórych zadań związanych z naukowym językiem naturalnym. Efekt ten jest wysoce niepożądany, ponieważ jeśli nasze techniki zgodności obniżą wydajność rozwiązywania przez modele zadań, na których zależy naszym klientom, przełoży się to negatywnie na prawdopodobieństwo ich praktycznego stosowania. Udało nam się zidentyfikować prostą algorytmiczną zmianę, która pozwala zminimalizować skutki owego „podatku zgodności”: w toku konfiguracji na podstawie rzeczywistych zastosowań wprowadzamy niewielki ułamek pierwotnych danych użytych w czasie treningu GPT‑3 i kontynuujemy trening na tych danych z wykorzystaniem normalnej logarytmicznej maksymalizacji prawdopodobieństwaD. Pozwala to utrzymywać wyniki w zakresie bezpieczeństwa i ludzkich preferencji na mniej więcej tym samym poziomie, przy jednoczesnym uniknięciu obniżenia wydajności w kontekście zadań akademickich, a w niektórych przypadkach wręcz jej poprawie w porównaniu z bazowymi wynikami GPT‑3.

Uogólnienie w kierunku szerszych preferencji

Nasz proces dąży do zapewnienia zgodności między zachowaniem naszego modelu a preferencjami naszych testerów, którzy bezpośrednio opracowują dane wykorzystywane w procesie trenowania modelu, jak również preferencjami badaczy, którzy zapewniają wytyczne dla testerów w formie pisemnych instrukcji, bezpośrednich informacji zwrotnych na temat konkretnych przykładów, jak również nieformalnych rozmów. Nie bez wpływu pozostają również nasi klienci oraz preferencje zawarte w regulaminie API. Wybraliśmy testerów spośród kandydatów, którzy osiągnęli dobre wyniki w przesiewowym badaniu umiejętności identyfikacji i reakcji na wrażliwe polecenia. Jednak nawet tak zróżnicowany wpływ na kształtowanie danych nie gwarantuje, że nasze modele będą wykazywać zgodność z preferencjami szerszych grup użytkowników.

Aby dogłębniej zbadać ten problem, przeprowadziliśmy dwa eksperymenty. W pierwszym z nich oceniliśmy wyniki GPT‑3 i InstructGPT w rezerwowej grupie testerówE, którzy nie opracowywali żadnych danych treningowych. Zaobserwowaliśmy, że preferowali oni dane wyjściowe generowane przez modele InstructGPT w podobnym stopniu co testerzy uczestniczący w treningu. W drugim eksperymencie przeprowadziliśmy trening z nagrodami opartymi na danych z jednej podgrupy naszych testerów i zaobserwowaliśmy, że zachowana została ogólna zdolność do przewidywania preferencji w innej podgrupie. Wyniki te sugerują, że nasze modele nie dostosowały się z nadmiernym stopniu wyłącznie do preferencji testerów uczestniczących w treningu. Konieczne jest jednak przeprowadzenie dalszych prac w celu dokładniejszego badania wyników modeli w szerszych grupach użytkowników oraz sposobu, w jaki będą sobie radzić z danymi wejściowymi, w kontekście których ludzie nie zgadzają się ze sobą co do najbardziej pożądanego zachowania.

Ograniczenia

Pomimo osiągnięcia znacznych postępów nasze modele InstructGPT wciąż wykazują znaczne niedobory w zakresie pełnej zgodności i bezpieczeństwa; wciąż generują toksyczne lub stronnicze wypowiedzi, zmyślają fakty i generują treści o charakterze seksualnym lub związanym z przemocą bez wyraźnego polecenia. Zarazem jednak bezpieczeństwo systemów uczenia maszynowego zależne jest nie tylko od zachowań samych modeli, lecz również od sposobu ich wykorzystania. W wysiłkach na rzecz zapewnienia bezpieczeństwa naszego API będziemy nadal analizować potencjalne zastosowania(otwiera nowe okno) przed ich szerszym udostępnieniem, stosować filtry treści umożliwiające wykrycie niebezpiecznych wyników, a także monitorować narzędzie pod kątem niewłaściwego użycia.

Produktem ubocznym treningu naszych modeli w kierunku lepszego wykonywania instrukcji użytkowników jest to, że mogą one stawać się podatniejsze na próby niewłaściwego użycia w przypadku przesłania instrukcji nakierowanych na uzyskanie niebezpiecznych danych wyjściowych. Rozwiązanie tej kwestii wymaga zapewnienia zdolności modeli do odmowy wykonania określonych instrukcji. Pytanie, jak skutecznie osiągnąć ten cel, pozostaje otwartym problemem badawczym, który mamy nadzieję rozwiązać w przyszłości.

Jednocześnie w wielu przypadkach zgodność z preferencjami statystycznego testera może nie być pożądana. Na przykład w procesie generowania tekstu o nieproporcjonalnie dużym wpływie na określoną mniejszość społeczną preferencje tej grupy powinny przeważać nad preferencjami innych. Na chwilę obecną trening InstructGPT koncentruje się na wykonywaniu instrukcji w języku angielskim. W rezultacie model wykazuje tendencję w kierunku wartości kulturowych osób anglojęzycznych. Prowadzimy badania nakierowane na lepsze zrozumienie różnic i sprzeczności pomiędzy preferencjami poszczególnych testerów, aby nauczyć nasze modele uwzględniania wartości typowych dla określonych populacji. Ogólnie rzecz ujmując, zgodność danych wyjściowych modeli z wartościami konkretnych osób prowadzi do trudnych wyborów o istotnych społecznych implikacjach, a naszym zadaniem jest wypracowanie odpowiedzialnych, całościowych procesów podejmowania takich decyzji.

Kolejne kroki

Jest to pierwsza próba wdrożenia wyników naszych badań z zakresu zgodności w jednym z naszych produktów. Nasze dotychczasowe wyniki wskazują, że techniki te pozwalają na znaczną poprawę zgodności systemów AI ogólnego zastosowania z intencjami człowieka. Jednak to dopiero początek: będziemy w dalszym ciągu rozwijać te techniki, aby stale poprawiać zgodność naszych obecnych i przyszłych modeli w perspektywie opracowania modeli językowych w pełni bezpiecznych i użytecznych dla człowieka.

Jeżeli interesuje Cię ten kierunek badań, szukamy obecnie pracowników(otwiera nowe okno)!

Przypisy

  1. A

    Wykorzystujemy wyłącznie polecenia przesyłane za pośrednictwem Playground do wcześniejszej wersji modeli InstructGPT uruchomionej w styczniu 2021 roku. Nasi testerzy usuwają wszelkie informacje osobowe z poleceń przed włączeniem ich do zestawu treningowego.

  2. B

    Modele InstructGPT udostępnione w API są zaktualizowaną wersją trenowaną z użyciem tych samych ludzkich danych zwrotnych. Wykorzystują one podobne, lecz nieco zmodyfikowane metody treningowe, które opiszemy w przyszłej publikacji.

  3. C

    W pomiarach uwzględniamy również kilka innych wymiarów potencjalnie szkodliwych odpowiedzi w naszym API: każdą sytuację, w przypadku której odpowiedź zawiera treści o charakterze seksualnym lub związanym z przemocą, uwłaczające członkom grup chronionych albo zachęcające do nadużyć. Nie zaobserwowaliśmy znacznej poprawy w przypadku InstructGPT w porównaniu do GPT-3 w kontekście tych metryk; wartości indeksów dla obu modeli są w tym wypadku na tym samym, niskim poziomie.

  4. D

    Nasze doświadczenie wskazuje, że takie podejście jest efektywniejsze niż samo zwiększanie współczynnika KL.

  5. E

    Testerów tych rekrutujemy z Scale AI i Upwork, podobnie jak naszych testerów uczestniczących w treningu, lecz nie przechodzą oni badań przesiewowych.

Bibliografia

  1. 1

    Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017. Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.

  2. 2

    Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.

  3. 3

    Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021. Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.

  4. 4

    Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.

  5. 5

    Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021. Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.

  6. 6

    Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).

  7. 7

    Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.

  8. 8

    Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021. Alignment of Language Agents. arXiv preprint arXiv:2103.14659.

  9. 9

    Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021. Ethical and social risks of harm from Language Models. arXiv preprint arXiv:2112.04359.

  10. 10

    Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021. Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv preprint arXiv:2102.02503.

  11. 11

    Solaiman, I. and Dennison, C., 2021. Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv preprint arXiv:2106.10328.

  12. 12

    Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021. Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.

  13. 13

    Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020. Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.

  14. 14

    Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019. Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.

  15. 15

    Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020. Gedi: Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.

  16. 16

    Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019. Plug and play language models: A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.

  17. 17

    Lin, S., Hilton, J. and Evans, O., 2021. TruthfulQA: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.

  18. 18

    Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020. RealToxicityPrompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.

  19. 19

    Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018. Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301.

  20. 20

    Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. arXiv preprint arXiv:2010.00133.

Autorzy

Ryan Lowe i Jan Leike

Podziękowania

Pragniemy podziękować współautorom: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder i Paul Christiano, jak również wszystkim, którzy przesłali nam informacje zwrotne w odpowiedzi na artykuł i post na blogu. Dziękujemy również zespołowi Comms za pomoc i wsparcie: Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego i Justin Jay Wang. Dziękujemy naszym testerom, bez których udziału ten projekt nie byłby możliwy.