2022년 1월 27일

지침에 부합하는 언어 모델

로딩 중...

OpenAI는 사용자의 의도를 GPT‑3보다 훨씬 더 잘 따르는 언어 모델을 훈련하는 동시에 정렬 연구를 통해 개발한 기법을 사용하여 언어 모델의 진실성을 더 높이고 유해성을 줄였습니다. 인간이 개입하여 훈련한 이 InstructGPT 모델이 이제 API에 기본 언어 모델로 배포됩니다.

로딩 중...

OpenAI API는 GPT‑3 언어 모델로 구동⁠되며, 신중하게 설계된 텍스트 프롬프트를 사용해 GPT‑3 언어 모델이 자연어 작업을 수행하도록 할 수 있습니다. 하지만 이러한 모델은 진실성이 없거나, 유해하거나, 해로운 정서를 반영하는 출력을 생성할 수도 있습니다. 그 이유 중 하나는 GPT‑3가 사용자가 원하는 언어 작업을 안전하게 수행하도록 훈련되었기보다는 인터넷 텍스트의 대규모 데이터세트에서 다음 단어를 예측하도록 훈련되었기 때문입니다. 다시 말해, 이러한 모델은 사용자의 의도에 부합하지 않습니다.

모델을 더 안전하고 더 유용하고 의도에 더 부합하게 만들기 위해 OpenAI는 인간 피드백을 통한 강화 학습(RLHF)⁠이라는 기존의 기법을 사용합니다. 고객이 API에 제출하는 프롬프트^A에 대해 레이블러들이 원하는 모델 행동의 설명을 제공하고 모델의 몇 가지 출력에 순위를 매깁니다. 그런 다음, 이 데이터를 사용해 GPT‑3를 파인 튜닝합니다.

그 결과 만들어진 InstructGPT 모델은 GPT‑3에 비해 지침 준수가 훨씬 향상되었습니다. 또한 사실을 지어내는 횟수도 더 적으며 유해한 출력 생성도 약간 줄었습니다. 1.3B InstructGPT 모델의 파라미터가 100배 이상 더 적지만 레이블러들은 175B GPT‑3 모델보다 1.3B InstructGPT 모델의 출력을 선호합니다. 동시에, 모델의 성능을 학술적 NLP 평가에서 측정한 결과, GPT‑3의 능력을 타협할 필요가 없다는 것도 보여줍니다.

1년 넘게 API에서 베타 버전인 이러한 InstructGPT 모델을 이제 API에서 기본 언어 모델로 액세스할 수 있습니다.^B OpenAI는 인간이 개입하여 언어 모델을 파인 튜닝하는 것이 모델의 안전과 신뢰성을 개선하기 위한 강력한 방법이라고 믿고 있으며 계속해서 이 방향으로 나아갈 것입니다.

OpenAI가 몇 년⁠ 동안⁠ 추진해온⁠ 정렬 연구^{1, 2 및 3}가 제품에 반영된 것은 이번이 처음입니다. 이러한 작업은 학술적 NLP 데이터세트, 특히 FLAN⁴과 T0⁵를 사용해 지침을 따르도록 언어 모델을 파인 튜닝한 최근 연구와도 관련이 있습니다. 이 작업에서 주요 동기가 된 것은 언어 모델의 유해성과 편향을 완화하면서 유용성과 신뢰성을 높이는 것이었습니다.^{6, 7, 8, 9 및 10} 이러한 방향성으로 진행한 이전의 연구⁠ 중 일부에서 인간의 설명을 엄선한 소규모 데이터세트에 기반해 파인 튜닝함으로써 유해한 출력을 줄일 수 있다는 것을 확인했습니다.¹¹ 다른 연구에서는 사전 훈련된 데이터세트 필터링,¹² 안전 관련 컨트롤 토큰^{13 및 14} 또는 모델 생성 조정^{15 및 16}에 중점을 두었습니다. 우리는 계속 진행되는 정렬 연구에서 이러한 아이디어를 비롯해 다양한 아이디어를 탐구하고 있습니다.

결과

먼저 InstructGPT의 출력이 사용자의 지침을 얼마나 잘 따르는지를 레이블러가 GPT‑3의 출력과 비교하는 방식으로 평가합니다. API에 대해 InstructGPT와 GPT‑3 모델에 제출된 프롬프트에서 InstructGPT 모델이 훨씬 선호됩니다. ‘지침 준수 모드’를 사용하도록 GPT‑3 프롬프트에 접두사를 추가해도 결과는 마찬가지입니다.

로딩 중...

모델의 안전을 측정하기 위해 OpenAI는 공개된 데이터세트의 일련의 기존 지표를 주로 사용합니다. GPT‑3에 비해 InstructGPT는 모방적 거짓을 더 적게 생성하고(TruthfulQA 인용¹⁷), 덜 유해합니다(RealToxicityPrompts 인용¹⁸). 또한 API 프롬프트 분포에 대해 사람의 평가를 실행한 결과, InstructGPT가 사실을 지어내는(‘환각’) 사례가 줄고 생성하는 출력이 적절성이 비교적 높은 것을 확인했습니다.^C

로딩 중...

마지막으로, 우리 고객들은 FLAN⁴ 및 T0⁵의 출력보다 InstructGPT의 출력을 더 선호합니다. 이것은 FLAN과 T0를 훈련하는 데 사용된 데이터, 즉 대체로 학술적인 NLP 작업은 배포된 언어 모델이 실제 사용되는 방식을 완전히 대표하지 않는다는 것을 시사합니다.

방법

Diagram showing three-step methodology to train InstructGPT models.

InstructGPT 모델을 훈련하는 데 있어 OpenAI의 핵심적인 기법은 인간 피드백을 통한 강화 학습(RLHF)⁠으로, 초기의 정렬 연구에서 이 분야를 개척하는 데 유용했던 방법입니다. 이 기법은 인간의 선호도를 모델 파인 튜닝의 보상 신호로 사용합니다. 해결하려고 하는 안전과 정렬 문제는 복잡하고 주관적이며 단순한 자동 지표로는 완전히 포착되지 않기 때문에 이 신호가 중요합니다.

먼저 API에 제출된 프롬프트에 대해 사람이 작성한 설명 데이터세트를 수집하고 이 데이터세트를 사용해 지도 학습 베이스라인을 훈련합니다. 다음으로, 더 큰 API 프롬프트 세트에 대한 두 모델의 출력을 사람이이 비교해 레이블을 지정한 데이터세트를 수집합니다. 그런 다음, 이 데이터세트에 대해 보상 모델(RM)을 훈련하여 레이블러가 어떤 출력을 선호할지 예측하도록 합니다. 마지막으로, 이 RM을 보상 함수로 사용하고 이 보상을 극대화하기 위해 PPO 알고리즘⁠을 사용하여 GPT‑3 정책을 파인 튜닝합니다.

이 프로세스는 GPT‑3가 이미 가지고 있었지만 프롬프트 엔지니어링만으로는 끌어낼 수 없었던 역량을 드러내는 것이라고 볼 수 있습니다. 훈련 절차에서 컴퓨팅의 2% 미만을 사용하고 모델 사전 훈련과 관련이 있는 데이터를 사용하므로 사전 훈련 중 학습한 것과 관련한 새로운 역량을 모델에게 가르치는 데 한계가 있기 때문입니다.

이 접근 방식의 한계는 ‘정렬 세금’이 붙는다는 점입니다. 즉, 고객 작업에서만 모델이 의도에 부합하게 만들면 다른 학술적 NLP 작업에서는 성능이 떨어질 수도 있습니다. 이 현상은 바람직하지 않습니다. 정렬 기법 때문에 사람들이 중요하게 생각하는 작업에서 모델의 성능이 떨어진다면 실제로 이 모델을 사용할 가능성이 떨어지기 때문입니다. OpenAI는 알고리즘을 간단히 바꾸어 이 정렬 세금을 최소화할 수 있다는 것을 확인했습니다. RL 파인 튜닝 중에 GPT‑3를 훈련하는 데 사용했던 원래 데이터의 아주 작은 일부를 혼합하고 일반적인 로그 가능도 극대화를 사용해 이 데이터에 대해 훈련하는 것입니다.^D 이렇게 하면 안전과 인간 선호도에 대한 성능은 어느 정도 유지되면서 학술적 작업에 대한 성능 저하는 완화되며, 심지어 몇 가지 사례에서는 GPT‑3 베이스라인을 능가합니다.

더 광범위한 선호도를 위한 일반화

OpenAI는 모델을 훈련하는 데 사용되는 데이터를 직접 생성하는 레이블러, 그리고 서면 지침과 특정 예시에 대한 직접적인 피드백, 비공식적인 대화를 통해 레이블러에게 지침을 제공하는 연구자의 선호도에 모델의 행동이 부합하게 합니다. 여기에는 고객, 그리고 API 정책에 암시된 선호도 역시 영향을 줍니다. 우리는 민감한 프롬프트를 찾아 대응하는 데 소질이 있는지 확인하기 위한 선별 테스트에서 성적이 좋았던 레이블러를 선정했습니다. 하지만 데이터에 영향을 미칠 수 있는 소스를 다양하게 갖췄다고 해서 우리 모델이 더 광범위한 그룹의 선호도에 부합할 것이 보장되지는 않습니다.

OpenAI는 이 점을 조사하기 위해 두 개의 실험을 진행했습니다. 첫째, 훈련 데이터를 전혀 생성하지 않은 보류 레이블러를 통해 GPT‑3와 InstructGPT를 평가했습니다. 그 결과, 이 레이블러들은 훈련 레이블러와 거의 같은 수준으로 InstructGPT 모델의 출력을 선호했습니다. 둘째, 레이블러 하위 집합에서 생성한 데이터에 대해 보상 모델을 훈련했습니다. 그 결과, 각기 다른 하위 집합 레이블러의 선호도를 예측하도록 잘 일반화되는 것을 확인했습니다. 이는 모델이 훈련 레이블러의 선호도에만 과적합하지는 않음을 의미합니다. 하지만 이러한 모델이 더 광범위한 사용자 그룹에서 어떤 성능을 보이는지, 그리고 바람직한 행동에 대해 인간이 동의하지 않는 입력에 대해 어떤 성능을 보이는지에 대해서는 더 많은 연구가 필요합니다.

한계

InstructGPT 모델은 큰 발전을 이루었지만 완전한 정렬이나 완전한 안전성에는 미치지 못합니다. 여전히 유해하거나 편향이 반영된 출력을 생성하고, 사실을 지어내며, 명시적으로 프롬프트가 제시되지 않았음에도 성적이고 폭력적인 콘텐츠를 생성합니다. 그러나 머신 러닝 시스템의 안전은 기반 모델의 행동뿐만 아니라 이러한 모델이 배포되는 방식에 따라서도 달라집니다. API의 안전을 지원하기 위해 OpenAI는 계속해서 출시 전에 잠재적인 활용 사례를 검토⁠(새 창에서 열기)하고, 안전하지 않은 완성을 탐지하는 콘텐츠 필터를 제공하고, 남용을 모니터링할 것입니다.

모델이 사용자 지침을 따르도록 훈련할 때의 부산물은 안전하지 않은 출력을 생성하도록 지침이 주어질 경우 남용에 더 취약해질 수 있다는 점입니다. 이 문제를 해결하려면 모델이 특정 지침을 거부해야 합니다. 이 문제를 확실히 해결하는 것은 중요한 공개 연구 문제이며, 이 문제를 해결하는 데 큰 기대를 안고 있습니다.

그뿐 아니라, 평균적인 레이블러의 선호도에 부합하도록 하는 것은 많은 상황에서 바람직하지 않을 수 있습니다. 예를 들어, 소수 집단에 불균형적으로 영향을 미치는 텍스트를 생성할 때는 해당 집단의 선호도에 더 큰 가중치를 두어야 합니다. 현재 InstructGPT는 영문 지침을 따르도록 훈련되어 있으므로 영어 구사자의 문화적 가치관에 편향되어 있습니다. OpenAI는 더 특이적인 사람들의 가치관에 대해 모델을 훈련할 수 있도록 레이블러 선호도의 차이와 충돌을 이해하기 위한 연구를 진행하고 있습니다. 더 일반적으로 말해서, 모델 출력을 특정한 사람들의 가치관에 부합하도록 하는 것은 사회적 영향에 있어서 어려운 선택의 문제를 야기하며, 궁극적으로 우리는 이러한 결정을 내리기 위한 책임감 있고 포용적인 프로세스를 수립해야 합니다.

다음 단계

정렬 연구가 OpenAI 제품에 반영된 것은 이번이 처음입니다. 연구에 따르면 이러한 기법은 범용 AI 시스템이 인간의 의도에 훨씬 더 부합하게 하는 데 효과가 있습니다. 하지만 이것은 시작에 불과합니다. OpenAI는 현재와 미래의 모델이 인간에게 안전하고 유용한 언어 도구에 부합하도록 개선하기 위해 계속해서 이 기법을 발전시킬 것입니다.

이러한 연구의 방향에 관심이 있다면 채용 정보를 확인해 보세요⁠(새 창에서 열기)!

각주

A
2021년 1월에 배포된 이전 버전의 InstructGPT 모델에 Playground를 통해 제출된 프롬프트만 사용합니다. 훈련 세트에 추가하기 전에 주석 담당자(사람)가 모든 프롬프트에서 개인 식별 정보를 제거합니다.
B
API에 배포된 InstructGPT 모델은 동일한 인간 피드백 데이터를 사용해 훈련된 업데이트 버전입니다. 유사하지만 약간 다른 훈련 방법을 사용하며, 이 방법에 대해서는 향후 게시물에서 설명할 예정입니다.
C
또한 API 배포에서 잠재적으로 유해할 수 있는 출력의 여러 차원을 측정합니다. 예를 들면 출력에 성적이거나 폭력적인 콘텐츠가 있는지, 보호되는 계층을 폄하하는지, 오남용을 부추기는지 등을 측정합니다. InstructGPT가 이러한 지표에서 GPT-3를 크게 능가하지는 않는 것을 확인했으며 발생률은 두 모델에서 동일하게 낮습니다.
D
이 접근 방식이 단순히 KL 계수를 높이는 것보다 더 효과적임을 확인했습니다.
E
이러한 레이블러는 훈련 레이블러와 유사하게 Scale AI와 Upwork에서 모집했지만 선별 테스트는 거치지 않았습니다.

참고 자료

1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S., Amodei, D., 2017. Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.
2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D., Christiano, P., 2020.
3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J., Christiano, P., 2021. Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.
4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M., Le, Q.V., 2021. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A., Dey, M., 2021. Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.
6
Bender, E.M., Gebru, T., McMillan-Major, A., Shmitchell, S., 2021, March. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E., Brynjolfsson, E., 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V., Irving, G., 2021. Alignment of Language Agents. arXiv preprint arXiv:2103.14659.
9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A., Kenton, Z., 2021. Ethical and social risks of harm from Language Models. arXiv preprint arXiv:2112.04359.
10
Tamkin, A., Brundage, M., Clark, J., Ganguli, D., 2021. Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv preprint arXiv:2102.02503.
11
Solaiman, I., Dennison, C., 2021. Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv preprint arXiv:2106.10328.
12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A., Frosst, N., 2021. Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.
13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J., Dinan, E., 2020. Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.
14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C., Socher, R., 2019. Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R., Rajani, N.F., 2020. Gedi: Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.
16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J., Liu, R., 2019. Plug and play language models: A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.
17
Lin, S., Hilton, J., Evans, O., 2021. TruthfulQA: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.
18
Gehman, S., Gururangan, S., Sap, M., Choi, Y., Smith, N.A., 2020. RealToxicityPrompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.
19
Rudinger, R., Naradowsky, J., Leonard, B., Van Durme, B., 2018. Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301.
20
Nangia, N., Vania, C., Bhalerao, R., Bowman, S.R., 2020. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. arXiv preprint arXiv:2010.00133.

저자

Ryan Lowe 및 Jan Leike

감사의 말

논문의 공동 저자에게 감사의 말씀을 전하고 싶습니다. Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano 님을 비롯해 논문과 블로그 게시물에 대해 피드백을 주신 모든 분들. 그리고 가이드와 도움을 주신 커뮤니케이션 팀의 Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego, Justin Jay Wang 님께 감사드립니다. 마지막으로, 레이블러에게 감사드립니다. 이분들 없이는 이 프로젝트가 불가능했을 것입니다.

모두 보기