우리는 대화 방식으로 상호 작용하는 ChatGPT라는 모델을 훈련시켰습니다. 대화 형식을 통해 ChatGPT는 후속 질문에 답변하고, 실수를 인정하고, 잘못된 전제에 이의를 제기하고, 부적절한 요청을 거부할 수 있습니다.
ChatGPT는 프롬프트의 지시를 따르고 자세한 응답을 제공하도록 훈련된 InstructGPT의 형제 모델입니다.
ChatGPT를 소개하여 사용자들의 피드백을 받고 ChatGPT의 장단점에 대해 알아보고자 합니다. 리서치 프리뷰 기간 동안에는 ChatGPT를 무료로 사용할 수 있습니다. 지금 chatgpt.com(새 창에서 열기)에서 사용해보세요.
샘플
resultWorkerErr := make(chan error)
defer close(resultWorkerErr)
go func() {
defer cancel()
resultWorkerErr <- b.resultWorker(ctx)
}()
err := b.worker(ctx)
cancel()
if err == nil {
return <-resultWorkerErr
}
return multierror.Append(err, <-resultWorkerErr)resultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:
close(resultworkerErr)resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?이 모델은 InstructGPT와 동일한 방법을 사용해 인간 피드백을 통한 강화 학습(RLHF)을 사용하여 훈련시켰지만, 데이터 수집 설정에 약간의 차이가 있습니다. 인간 AI 트레이너가 사용자와 AI 어시스턴트 양쪽을 연기하는 대화를 제공하는 지도 파인 튜닝(SFT)을 통해 초기 모델을 훈련시켰습니다. 트레이너가 응답을 작성하는 데 도움이 되도록 트레이너에게 모델 작성 제안에 대한 액세스 권한을 제공했습니다. 이 새로운 대화 데이터세트와 대화 형식으로 변환한 InstructGPT 데이터세트를 혼합했습니다.
강화 학습을 위한 보상 모델을 만들려면 품질별로 순위를 매긴 두 개 이상의 모델 응답으로 구성된 비교 데이터를 수집해야 했습니다. 이러한 데이터를 수집하기 위해 AI 트레이너가 챗봇과 나눈 대화를 가져왔습니다. 모델이 작성한 메시지를 무작위로 선택하고 몇 가지 다른 완성본의 샘플을 추출한 후, AI 트레이너에게 순위를 매기도록 했습니다. 이러한 보상 모델을 사용하면 근접 정책 최적화를 사용하여 모델을 파인 튜닝할 수 있습니다. 이 과정을 여러 번 반복했습니다.

ChatGPT는 2022년 초에 훈련을 마친 GPT‑3.5 시리즈 모델을 파인 튜닝한 버전입니다. 여기(새 창에서 열기)에서 3.5 시리즈에 대한 자세한 내용은 알아볼 수 있습니다. ChatGPT와 GPT‑3.5는 Azure AI 슈퍼컴퓨팅 인프라에서 훈련되었습니다.
- ChatGPT는 종종 그럴듯하게 들리지만 정확하지 않거나 터무니없는 답변을 작성합니다. 다음과 같은 이유로 이러한 문제를 해결하는 것은 쉽지 않았습니다. (1) 현재 RL 훈련 중에는 진실 공급원이 없습니다. (2) 모델이 더 신중해지도록 훈련시키면 모델이 올바르게 답변할 수 있는 질문도 거부하게 됩니다. (3) 지도 훈련을 하면 인간 시연자가 아는 것 보다는 모델이 아는 것에 따라(새 창에서 열기) 이상적인 답이 달라지기 때문에 모델을 오도할 수 있습니다.
- ChatGPT는 입력 문구를 수정하거나 동일한 프롬프트를 여러 번 시도하는 것에 민감합니다. 예를 들어, 한 구절의 질문이 주어질 때 모델은 답을 모른다고 주장할 수 있지만, 약간만 바꾸면 올바르게 답변할 수 있습니다.
- 이 모델은 종종 지나치게 장황하고, OpenAI에 의해 훈련된 언어 모델이라고 다시 말하는 등 특정 문구를 남용합니다. 이러한 문제는 훈련 데이터의 편향(트레이너가 더 포괄적으로 보이는 긴 답변 선호)과 잘 알려진 과도한 최적화 문제에서 발생합니다.1 및 2
- 이상적으로는 사용자가 모호한 질문을 할 때 모델이 질문의 명확한 의미를 묻는 것입니다. 이 대신에 현재 모델은 일반적으로 사용자의 의도를 추측합니다.
- 모델이 부적절한 요청을 거부할 수 있도록 만들기 위해 노력했지만, 때때로 유해한 지시에 응답하거나 편향된 행동을 보일 수 있습니다. 모더레이션 API를 사용하여 특정한 유형의 안전하지 않은 콘텐츠를 경고하거나 차단하고 있지만, 현재로서는 일부 거짓 음성과 거짓 양성이 발생할 것으로 예상합니다. 우리는 이 시스템을 개선하기 위한 지속적인 작업에 도움이 될 사용자 피드백을 적극적으로 수집하고자 합니다.
오늘 발표된 ChatGPT 리서치는 OpenAI가 점점 더 안전하고 유용해지는 AI 시스템을 점직적으로 배포하는 OpenAI의 최신 단계입니다. GPT‑3와 Codex와 같은 이전 모델의 배포를 통해 얻은 많은 교훈이 이번 릴리즈에 적용된 안전 완화 조치에 도움이 되었습니다. 여기에는 인간 피드백을 통한 강화 학습(RLHF)을 사용하여 유해하고 거짓된 결과를 크게 줄인 것이 포함됩니다.
위에서 설명한 것처럼 아직 많은 제약사항이 남아 있지만, 이러한 영역을 개선하기 위해 모델을 정기적으로 업데이트할 계획입니다. 하지만 ChatGPT에 접근할 수 있는 인터페이스를 제공함으로써 아직 알지 못한 문제에 대한 소중한 사용자 피드백을 얻을 수 있을 것으로 기대합니다.
사용자는 UI를 통해 문제가 있는 모델 출력에 대한 피드백을 제공하고, 인터페이스의 일부인 외부 콘텐츠 필터를 통해 거짓 음성/거짓 양성에 대한 피드백도 제공하도록 장려됩니다. 특히 적대적이지 않은 실제 조건에서 발생할 수 있는 유해한 결과물에 대한 피드백과 새로운 위험 요소와 가능한 완화 조치를 발견하고 이해하는 데 도움이 되는 피드백에 관심이 있습니다. ChatGPT 피드백 콘테스트(새 창에서 열기)3에 참가하여 최대 $500의 API 크레딧을 받을 수 있는 기회를 얻을 수 있습니다.A 참가 신청은 ChatGPT 인터페이스에 링크로 연결된 피드백 양식을 통해 제출할 수 있습니다.
이전 릴리즈가 이번 릴리즈에 영향을 미친 것처럼 이번 릴리즈에서 얻은 교훈을 더 뛰어난 시스템 배포에 적용할 수 있기를 기대합니다.
각주
- A
구매는 불필요하며 금지된 곳에서는 무효입니다. 참여하려면 최소 만 18세여야 합니다. 대회 세부 정보는 공식 규정(새 창에서 열기)을 확인하세요.
참고 자료
- 1
Stiennon, Nisan, et al. “Learning to summarize with human feedback(새 창에서 열기).” Advances in Neural Information Processing Systems 33 (2020): 3008-3021.
- 2
Gao, Leo, John Schulman, Jacob Hilton. “Scaling Laws for Reward Model Overoptimization(새 창에서 열기).” arXiv preprint arXiv:2210.10760 (2022).
- 3
이 대회는 Kenway, Josh, Camille François, Sasha Costanza-Chock, Inioluwa Deborah Raji, Joy Buolamwini의 글로부터 일부 영감을 받았습니다. Bug Bounties For Algorithmic Harms? Lessons from Cybersecurity Vulnerability Disclosure for Algorithmic Harms Discovery, Disclosure, and Redress. Washington, DC: Algorithmic Justice League. 2022년 1월. https://ajl.org/bugs(새 창에서 열기)에서 확인할 수 있습니다. Brundage, Miles, Avin, Shahar, Wang, Jasmine, Belfield, Haydn, Gretchen Krueger et al의 글도 확인해 보세요. “Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims,” 2020년 4월. https://arxiv.org/abs/2004.07213(새 창에서 열기)에서 확인할 수 있습니다. HackerOne에서 앞서 진행한 유사한 대회도 확인해 보세요. 2021b. “Twitter Algorithmic Bias.” HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team(새 창에서 열기). 마지막으로, 2018년 8월 Rubinovitz, JB가 이 주제에 대해 초기에 출간한 “Bias Bounty Programs as a Method of Combatting Bias in AI”도 확인해 보세요. https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting(새 창에서 열기)에서 확인 가능합니다.
저자
감사한 분들
John Schulman, Barret Zoph, Christina Kim, Jacob Hilton, Jacob Menick, Jiayi Weng, Juan Felipe Ceron Uribe, Liam Fedus, Luke Metz, Michael Pokorny, Rapha Gontijo Lopes, Shengjia Zhao, Arun Vijayvergiya, Eric Sigler, Adam Perelman, Chelsea Voss, Mike Heaton, Joel Parish, Dave Cummings, Rajeev Nayak, Valerie Balcom, David Schnurr, Tomer Kaftan, Chris Hallacy, Nicholas Turley, Noah Deutsch, Vik Goel, Jonathan Ward, Aris Konstantinidis, Wojciech Zaremba, Long Ouyang, Leonard Bogdonoff, Joshua Gross, David Medina, Sarah Yoo, Teddy Lee, Ryan Lowe, Dan Mossing, Joost Huizinga, Roger Jiang, Carroll Wainwright, Diogo Almeida, Steph Lin, Marvin Zhang, Kai Xiao, Katarina Slama, Steven Bills, Alex Gray, Jan Leike, Jakub Pachocki, Phil Tillet, Shantanu Jain, Greg Brockman, Nick Ryder, Alex Paino, Qiming Yuan, Clemens Winter, Ben Wang, Mo Bavarian, Igor Babuschkin, Szymon Sidor, Ingmar Kanitscheider, Mikhail Pavlov, Matthias Plappert, Nik Tezak, Heewoo Jun, William Zhuk, Vitchyr Pong, Lukasz Kaiser, Jerry Tworek, Andrew Carr, Lilian Weng, Sandhini Agarwal, Karl Cobbe, Vineet Kosaraju, Alethea Power, Stanislas Polu, Jesse Han, Raul Puri, Shawn Jain, Benjamin Chess, Christian Gibson, Oleg Boiko, Emy Parparita, Amin Tootoonchian, Kyle Kosic 및 Christopher Hesse


