27 tháng 1, 2022

Điều chỉnh các mô hình ngôn ngữ theo hướng dẫn

Đang tải…

Chúng tôi đã huấn luyện các mô hình ngôn ngữ để trở nên hiệu quả hơn nhiều trong việc theo dõi ý định của người dùng so với GPT‑3, đồng thời khiến chúng trung thực hơn và ít độc hại hơn, bằng cách sử dụng các kỹ thuật được phát triển thông qua nghiên cứu về sự phù hợp. Các mô hình InstructGPT này, được huấn luyện với sự tham gia của con người, hiện được triển khai dưới dạng mô hình ngôn ngữ mặc định trên API của chúng tôi.

Đang tải...

API OpenAI trang bị các mô hình ngôn ngữ GPT‑3⁠ có thể được sử dụng để thực hiện các tác vụ ngôn ngữ tự nhiên bằng cách sử dụng các lời nhắc văn bản được thiết kế cẩn thận. Nhưng những mô hình này cũng có thể tạo ra những kết quả đẩu ra không trung thực, độc hại hoặc phản ánh những cảm xúc có hại. Điều này một phần là do GPT‑3 được huấn luyện để dự đoán từ tiếp theo trong một tập dữ liệu văn bản lớn trên Internet, thay vì thực hiện tác vụ ngôn ngữ mà người dùng muốn một cách an toàn. Nói cách khác, các mô hình này không phù hợp với người dùng.

Để nâng cao sự an toàn, hữu ích và phù hợp của các mô hình, chúng tôi sử dụng một kỹ thuật hiện có gọi là học củng cố từ phản hồi của con người (RLHF)⁠. Đối với các lời nhắc do khách hàng gửi tới API,^A người gắn nhãn của chúng tôi sẽ giới thiệu hành vi mong muốn của mô hình và xếp hạng đầu ra từ các mô hình của chúng tôi. Sau đó, chúng tôi sử dụng dữ liệu này để tinh chỉnh GPT‑3.

Các mô hình InstructGPT thu được có khả năng tuân theo hướng dẫn tốt hơn nhiều so với GPT‑3. Chúng cũng ít bịa ra sự thật hơn và lượng kết quả đầu ra độc hại được tạo cũng giảm đi một ít. Các chuyên gia gắn nhãn của chúng tôi đánh giá kết quả đầu ra từ mô hình InstructGPT 1.3B cao hơn đầu ra từ mô hình GPT‑3 175B, mặc dù có ít tham số hơn 100 lần. Đồng thời, chúng tôi chứng minh rằng chúng tôi không cần phải hi sinh khả năng của GPT‑3, như được thể hiện qua hiệu suất của mô hình trong các đánh giá NLP học thuật.

Các mô hình InstructGPT này đã được phát hành ở giai đoạn beta trên API trong hơn một năm và hiện là các mô hình ngôn ngữ mặc định có thể truy cập được trên API của chúng tôi.^B Chúng tôi tin rằng việc tinh chỉnh các mô hình ngôn ngữ với sự tham gia của con người là một công cụ mạnh mẽ để cải thiện tính an toàn và độ tin cậy của chúng, và chúng tôi sẽ tiếp tục thúc đẩy theo hướng này.

Đây là lần đầu tiên nghiên cứu về sự phù hợp mà chúng tôi đã thực hiện⁠ trong nhiều⁠ năm⁠^{1, 2, 3} được áp dụng vào sản phẩm của chúng tôi. Công việc của chúng tôi cũng liên quan đến nghiên cứu gần đây nhằm tinh chỉnh các mô hình ngôn ngữ theo hướng dẫn bằng cách sử dụng các tập dữ liệu NLP học thuật, đặc biệt là FLAN⁴ và T0.⁵ Một động lực chính cho công việc của chúng tôi là tăng tính hữu ích và tính trung thực trong khi giảm thiểu tác hại và thiên kiến của các mô hình ngôn ngữ.^{6, 7, 8, 9, 10} Một số nghiên cứu trước đây của chúng tôi⁠ theo hướng này đã phát hiện ra rằng chúng tôi có thể giảm các đầu ra có hại bằng cách tinh chỉnh dựa trên một tập dữ liệu nhỏ chọn lọc về minh họa của con người.¹¹ Các nghiên cứu khác tập trung vào việc lọc tập dữ liệu trước huấn luyện,¹² token kiểm soát riêng về an toàn,^{13, 14} hoặc định hình nội dung mà mô hình tạo ra.^{15, 16} Chúng tôi đang khám phá những ý tưởng này và những ý tưởng khác trong quá trình thực hiện nghiên cứu về sự phù hợp hiện tại.

Kết quả

Đầu tiên, chúng tôi đánh giá mức độ tuân thủ hướng dẫn người dùng của đầu ra từ InstructGPT bằng cách yêu cầu người gắn nhãn so sánh đầu ra với GPT‑3. Chúng tôi nhận thấy rằng các mô hình InstructGPT được ưa chuộng hơn đáng kể đối với các lời nhắc được gửi đến cả mô hình InstructGPT và GPT‑3 trên API. Điều này vẫn đúng khi chúng tôi thêm tiền tố vào lời nhắc GPT‑3 để mô hình chuyển sang "chế độ theo hướng dẫn".

Đang tải...

Để đánh giá mức độ an toàn của mô hình, chúng tôi chủ yếu sử dụng một bộ số liệu hiện có với các tập dữ liệu có sẵn công khai. So với GPT‑3, InstructGPT tạo ra ít thông tin sai lệch mang tính bắt chước hơn (theo TruthfulQA¹⁷) và ít độc hại hơn (theo RealToxicityPrompts¹⁸). Chúng tôi cũng cho nhân viên đánh giá việc phân phối lời nhắc API của mình và nhận thấy rằng InstructGPT ít bịa ra sự thật (“ảo giác”) hơn và tạo ra các đầu ra phù hợp hơn.^C

Đang tải...

Cuối cùng, chúng tôi thấy rằng đầu ra của InstructGPT được ưu tiên hơn so với đầu ra từ FLAN⁴ và T0⁵ ở các nhóm khách hàng của chúng tôi. Điều này chỉ ra rằng dữ liệu được sử dụng để huấn luyện FLAN và T0, chủ yếu là các tác vụ NLP học thuật, không phản ánh đầy đủ cách các mô hình ngôn ngữ đã triển khai được sử dụng trong thực tế.

Phương pháp

Diagram showing three-step methodology to train InstructGPT models.

Để huấn luyện các mô hình InstructGPT, kỹ thuật cốt lõi của chúng tôi là học củng cố từ phản hồi của con người (RLHF)⁠, một phương pháp mà chúng tôi đã giúp thúc đẩy trong nghiên cứu về sự phù hợp trước đó. Kỹ thuật này sử dụng các lựa chọn ưu tiên của con người như một tín hiệu khen thưởng để tinh chỉnh các mô hình của chúng tôi. Điều này rất quan trọng vì các vấn đề về an toàn và sự phù hợp mà chúng tôi muốn giải quyết rất phức tạp và chủ quan, và không được nắm bắt đầy đủ bằng các chỉ số tự động đơn giản.

Đầu tiên, chúng tôi thu thập một tập dữ liệu gồm các bản minh họa do con người viết về các lời nhắc được gửi tới API của chúng tôi và sử dụng tập dữ liệu này để huấn luyện các mô hình học cơ sở có giám sát của chúng tôi. Tiếp theo, chúng tôi thu thập một tập dữ liệu gồm các phép so sánh được gắn nhãn bởi con người giữa hai đầu ra của mô hình trên một tập hợp lời nhắc API lớn hơn. Sau đó, chúng tôi huấn luyện một mô hình phần thưởng (RM) dựa trên tập dữ liệu này để dự đoán đầu ra mà người gắn nhãn của chúng tôi sẽ ưu tiên. Cuối cùng, chúng tôi sử dụng RM này như một hàm phần thưởng và tinh chỉnh chính sách GPT‑3 của mình để tối đa hóa phần thưởng này bằng thuật toán PPO⁠.

Một cách để nhìn nhận quá trình này là nó "mở ra" các khả năng mà GPT‑3 đã có nhưng khó có thể khai thác chỉ thông qua kỹ thuật lời nhắc: điều này là do quy trình huấn luyện của chúng tôi có khả năng hạn chế trong việc dạy cho mô hình các khả năng mới so với những gì đã học được trong quy trình trước huấn luyện, vì quy trình chỉ sử dụng chưa đến 2% khả năng tính toán và dữ liệu so với quy trình trước khi huấn luyện mô hình.

Một hạn chế của phương pháp này là nó đưa ra “thuế điều chỉnh”: việc điều chỉnh mô hình chỉ dựa trên các tác vụ của khách hàng có thể khiến hiệu suất của chúng trong một số tác vụ NLP học thuật khác kém đi. Điều này là không mong muốn vì nếu các kỹ thuật điều chỉnh của chúng tôi khiến hiệu quả của các mô hình kém đi đối với các tác vụ mà mọi người quan tâm thì chúng sẽ ít có khả năng được áp dụng vào thực tế. Chúng tôi đã tìm ra một thay đổi thuật toán đơn giản giúp giảm thiểu thuế điều chỉnh này: trong quá trình tinh chỉnh RL, chúng tôi kết hợp một phần nhỏ dữ liệu gốc dùng để huấn luyện GPT‑3 và huấn luyện dựa trên dữ liệu này bằng cách sử dụng phương pháp tối đa hóa log likelihood thông thường.^D Điều này về cơ bản duy trì hiệu suất về mặt an toàn và lựa chọn ưu tiên của người dùng, đồng thời giảm thiểu tình trạng giảm hiệu suất trong các tác vụ học thuật và trong một số trường hợp thậm chí còn vượt qua mức cơ sở của GPT‑3.

Khái quát hóa theo các ưu tiên rộng hơn

Quy trình của chúng tôi điều chỉnh hành vi của mô hình theo ưu tiên của người gắn nhãn, những người trực tiếp tạo ra dữ liệu dùng để huấn luyện mô hình, và chúng tôi, những nhà nghiên cứu cung cấp hướng dẫn cho người gắn nhãn thông qua hướng dẫn bằng văn bản, phản hồi trực tiếp về các ví dụ cụ thể và các cuộc trò chuyện thân mật. Quy trình cũng bị ảnh hưởng bởi khách hàng và các ưu tiên ngầm định trong chính sách API của chúng tôi. Chúng tôi đã chọn những người gắn nhãn đạt kết quả tốt trong bài kiểm tra sàng lọc về khả năng xác định và phản hồi các lời nhắc nhạy cảm. Tuy nhiên, những nguồn ảnh hưởng khác nhau đến dữ liệu không đảm bảo rằng các mô hình của chúng tôi phù hợp với ưu tiên của bất kỳ nhóm đối tượng rộng nào.

Chúng tôi đã tiến hành hai thí nghiệm để tìm hiểu điều này. Đầu tiên, chúng tôi đánh giá GPT‑3 và InstructGPT bằng cách sử dụng người gắn nhãn dữ liệu thử nghiệm^E (họ không tạo ra bất kỳ dữ liệu huấn luyện nào) và nhận thấy rằng những người gắn nhãn này ưu tiên đầu ra từ các mô hình InstructGPT theo cùng tỷ lệ như người gắn nhãn trong quá trình huấn luyện của chúng tôi. Thứ hai, chúng tôi huấn luyện các mô hình phần thưởng trên dữ liệu từ một nhóm người gắn nhãn của mình và thấy rằng chúng có khả năng khái quát hóa tốt để dự đoán ưu tiên của một nhóm người gắn nhãn khác. Điều này cho thấy rằng các mô hình của chúng tôi không chỉ phù hợp với ưu tiên của những người gắn nhãn huấn luyện. Tuy nhiên, cần phải nghiên cứu thêm về hiệu quả của các mô hình này với nhóm người dùng rộng hơn và hiệu quả của chúng đối với các dữ liệu đầu vào mà con người có ý kiến khác nhau về hành vi mong muốn.

Hạn chế

Mặc dù đã đạt được những tiến bộ đáng kể, nhưng mô hình InstructGPT của chúng tôi vẫn chưa hoàn toàn phù hợp hoặc an toàn; chúng vẫn tạo ra những đầu ra độc hại hoặc thiên vị, bịa đặt sự thật và tạo ra nội dung khiêu dâm và bạo lực mặc dù không có lời nhắc rõ ràng. Nhưng tính an toàn của hệ thống học máy không chỉ phụ thuộc vào hành vi của các mô hình cơ bản mà còn phụ thuộc vào cách triển khai các mô hình này. Để hỗ trợ tính an toàn của API, chúng tôi sẽ tiếp tục xem xét các ứng dụng tiềm năng⁠(mở trong cửa sổ mới) trước khi chúng được đưa vào hoạt động, cung cấp bộ lọc nội dung để phát hiện các nội dung không an toàn và theo dõi việc sử dụng sai mục đích.

Một hệ quả phụ của việc huấn luyện các mô hình theo hướng dẫn của người dùng là chúng có thể dễ bị sử dụng sai mục đích hơn nếu được hướng dẫn tạo ra đầu ra không an toàn. Để giải quyết vấn đề này, mô hình của chúng tôi phải từ chối một số hướng dẫn nhất định; việc thực hiện điều này một cách đáng tin cậy là một vấn đề nghiên cứu mở quan trọng mà chúng tôi rất mong muốn giải quyết.

Hơn nữa, trong nhiều trường hợp, việc điều chỉnh theo ưu tiên chung của người gắn nhãn có thể là không nên. Ví dụ: khi tạo văn bản có ảnh hưởng đáng kể đến một nhóm thiểu số, ưu tiên của nhóm đó cần được cân nhắc nhiều hơn. Hiện tại, InstructGPT được huấn luyện theo hướng dẫn bằng tiếng Anh; do đó, nó thiên về các giá trị văn hóa của những người nói tiếng Anh. Chúng tôi đang tiến hành nghiên cứu để hiểu được sự khác biệt và bất đồng giữa các ưu tiên của người gắn nhãn nhằm xây dựng mô hình dựa trên các giá trị của những nhóm đối tượng người dùng cụ thể hơn. Nói chung, việc điều chỉnh đầu ra của mô hình theo các giá trị của những nhóm người cụ thể sẽ đặt ra những lựa chọn khó khăn có tác động đến xã hội và buộc chúng tôi phải thiết lập các quy trình có trách nhiệm và toàn diện để đưa ra những quyết định này.

Các bước tiếp theo

Đây là ứng dụng đầu tiên của nghiên cứu về sự phù hợp trong sản phẩm của chúng tôi. Kết quả của chúng tôi cho thấy những kỹ thuật này có hiệu quả trong việc cải thiện đáng kể sự phù hợp giữa các hệ thống AI đa năng với ý định của con người. Tuy nhiên, đây chỉ là sự khởi đầu: chúng tôi sẽ tiếp tục thúc đẩy các kỹ thuật này để cải thiện sự phù hợp của các mô hình hiện tại và tương lai của chúng tôi để chúng có thể trở thành các công cụ ngôn ngữ an toàn và hữu ích cho con người.

Nếu bạn quan tâm đến các đường hướng nghiên cứu này, chúng tôi đang cần tuyển nhà nghiên cứu!⁠(mở trong cửa sổ mới)!

Ghi chú chân trang

A
Chúng tôi chỉ sử dụng lời nhắc được gửi qua Playground tới một phiên bản cũ của mô hình InstructGPT được triển khai vào tháng 1 năm 2021. Người thêm chú thích của chúng tôi sẽ xóa thông tin nhận dạng cá nhân khỏi mọi lời nhắc trước khi thêm thông tin đó vào bộ dữ liệu huấn luyện.
B
Các mô hình InstructGPT được triển khai trong API là các phiên bản cập nhật được huấn luyện bằng cách sử dụng dữ liệu phản hồi của con người nêu trên. Họ sử dụng một phương pháp huấn luyện tương tự nhưng hơi khác một chút mà chúng tôi sẽ mô tả trong ấn phẩm sắp tới.
C
Chúng tôi cũng đo lường một số khía cạnh khác của đầu ra có khả năng gây hại trên các API của mình: liệu đầu ra có chứa nội dung khiêu dâm hay bạo lực, hạ thấp một nhóm được bảo vệ hay khuyến khích lạm dụng hay không. Chúng tôi thấy rằng InstructGPT không giúp cải thiện đáng kể so với GPT-3 về các chỉ số này; tỷ lệ tạo đầu ra gây hại là thấp như nhau đối với cả hai mô hình.
D
Chúng tôi thấy cách tiếp cận này hiệu quả hơn so với việc chỉ tăng hệ số KL.
E
Những người gắn nhãn này được tuyển từ Scale AI và Upwork, tương tự như những người gắn nhãn huấn luyện của chúng tôi, nhưng không trải qua bài kiểm tra sàng lọc.

Tài liệu tham khảo

1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017. Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.
2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021. Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.
4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021. Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.
6
Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021. Alignment of Language Agents. arXiv preprint arXiv:2103.14659.
9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021. Ethical and social risks of harm from Language Models. arXiv preprint arXiv:2112.04359.
10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021. Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv preprint arXiv:2102.02503.
11
Solaiman, I. and Dennison, C., 2021. Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv preprint arXiv:2106.10328.
12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021. Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.
13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020. Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.
14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019. Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020. Gedi: Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.
16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019. Plug and play language models: A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.
17
Lin, S., Hilton, J. and Evans, O., 2021. TruthfulQA: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.
18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020. RealToxicityPrompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.
19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018. Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301.
20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. arXiv preprint arXiv:2010.00133.

Tác giả

Ryan Lowe, Jan Leike

Lời cảm ơn

Chúng tôi muốn cảm ơn các đồng tác giả của bài báo: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder và Paul Christiano, cùng với tất cả những người đã cung cấp phản hồi về bài báo và bài đăng trên blog. Chúng tôi cũng muốn cảm ơn nhóm Truyền thông vì sự hướng dẫn và hỗ trợ của họ, bao gồm Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego và Justin Jay Wang. Cuối cùng, chúng tôi muốn cảm ơn những người gắn nhãn, nếu không có họ thì dự án này sẽ không thể thành công.

Bài viết liên quan

Xem tất cả

Disrupting malicious uses of AI by state-affiliated threat actors

Bảo mật14 thg 2, 2024

Building an early warning system for LLM-aided biological threat creation

Ấn phẩm31 thg 1, 2024

Democratic Inputs To AI Grant Program Update

Democratic inputs to AI grant program: lessons learned and implementation plans

An toàn16 thg 1, 2024