27 de janeiro de 2022

Como alinhar modelos de linguagem para seguir instruções

Carregando…

Treinamos modelos de linguagem que apresentam um desempenho melhor do que o do GPT‑3 na hora de seguir as intenções dos usuários. Além disso, também deixamos esses modelos mais verdadeiros e menos tóxicos, usando técnicas desenvolvidas por meio de nossas investigações de alinhamento. Esses modelos InstructGPT, treinados com a participação de seres humanos, agora são implantados como modelos de linguagem padrão em nossa API.

Carregando…

A API da OpenAI é alimentada por modelos de linguagem GPT‑3⁠, que podem ser induzidos a realizar tarefas de linguagem natural por meio de prompts de texto cuidadosamente projetados. O problema é que esses modelos também podem gerar resultados falsos, tóxicos ou que refletem sentimentos prejudiciais. Isso se deve, em parte, ao fato de que o GPT‑3 é treinado para prever a próxima palavra tomando como base um grande conjunto de dados de textos da Internet — em vez de realizar com segurança a tarefa linguística que o usuário deseja. Em outras palavras: esses modelos não estão alinhados com os usuários.

Para deixar nossos modelos mais seguros, úteis e alinhados, usamos uma técnica existente chamada de aprendizagem por reforço a partir do feedback humano (RLHF)⁠. Nos prompts que são enviados pelos nossos clientes para a API^A, nossos rotuladores fornecem demonstrações do comportamento desejado do modelo e classificam vários resultados gerados. Em seguida, usamos esses dados para ajustar o GPT‑3.

Os modelos InstructGPT resultantes são muito melhores em seguir instruções do que o GPT‑3. Eles também inventam fatos com menos frequência e apresentam pequenas reduções na geração de resultados tóxicos. Nossos rotuladores preferem os resultados do modelo InstructGPT 1.3B em comparação aos resultados do modelo GPT‑3 175B, apesar de o primeiro ter 100 vezes menos parâmetros. Ao mesmo tempo, a medição do desempenho do nosso modelo em avaliações acadêmicas de PLN comprova que não precisamos comprometer as capacidades do GPT‑3.

Esses modelos InstructGPT, que estão em fase beta na API há mais de um ano, agora são os modelos de linguagem padrão acessíveis em nossa API. Acreditamos que o ajuste fino dos modelos de linguagem com a participação humana é uma ferramenta poderosa para melhorar a segurança e confiabilidade da tecnologia, e continuaremos a avançar nessa direção.

É a primeira vez que nossa pesquisa de alinhamento, que vem sendo realizada⁠ há vários⁠ anos⁠,^{1, 2, 3} é aplicada ao nosso produto. Nosso trabalho também está relacionado a investigações recentes que usam conjuntos de dados acadêmicos de PLN para ajustar modelos de linguagem de modo a seguir instruções, com destaque para FLAN⁴ e T0⁵. Uma das principais motivações do nosso trabalho é aumentar a utilidade e a veracidade, ao mesmo tempo que mitigamos os danos e os preconceitos dos modelos linguísticos.^{6, 7, 8, 9, 10} Algumas de nossas investigações anteriores⁠ nessa direção descobriram que podemos reduzir resultados prejudiciais ao ajustar um pequeno conjunto de dados selecionados de demonstrações humanas.¹¹ Outras investigações se voltaram para a filtragem do conjunto de dados pré-treinamento,¹² tokens de controle específicos para segurança^{13, 14} ou direcionamento de gerações de modelos.^{15, 16} Estamos explorando essas e outras ideias em nossa investigação contínua sobre alinhamento.

Resultados

Primeiro, avaliamos o quanto os resultados do InstructGPT seguem as instruções do usuário, pedindo aos rotuladores que comparem os resultados com aqueles do GPT‑3. Constatamos que os modelos InstructGPT têm uma preferência significativa em prompts enviados aos modelos InstructGPT e GPT‑3 na API. Isso se mantém quando adicionamos um prefixo ao prompt GPT‑3 para que ele entre em um “modo de seguir instruções”.

Carregando…

Para medir a segurança dos nossos modelos, utilizamos principalmente um conjunto de métricas existentes em conjuntos de dados que estão disponíveis publicamente. Em comparação com o GPT‑3, o InstructGPT produz menos falsidades imitativas (de acordo com o TruthfulQA¹⁷) e é menos tóxico (de acordo com o RealToxicityPrompts¹⁸). Também realizamos avaliações humanas sobre a distribuição de prompts da nossa API e descobrimos que o InstructGPT inventa fatos (“alucina”) com menos frequência, gerando resultados mais adequados.^C

Carregando…

Por fim, descobrimos que os resultados do InstructGPT são preferíveis aos do FLAN⁴ e do T0⁵ na distribuição dos nossos clientes. Isso indica que os dados usados para treinar o FLAN e o T0, principalmente tarefas acadêmicas de PLN, não são totalmente representativos da maneira como os modelos de linguagem implantados são usados na prática.

Métodos

Diagram showing three-step methodology to train InstructGPT models.

Para treinar os modelos InstructGPT, nossa técnica principal é a aprendizagem por reforço a partir do feedback humano (RLHF)⁠, um método que ajudamos a desenvolver em nossas investigações anteriores sobre alinhamento. Essa técnica usa as preferências humanas como um sinal de recompensa para ajustar nossos modelos. Isso é importante, pois os problemas de segurança e alinhamento que buscamos resolver são complexos e subjetivos, e não são totalmente capturados por métricas automáticas simples.

Primeiro, coletamos um conjunto de dados composto por demonstrações escritas por humanos em prompts enviados à nossa API. Esse corpus foi usado para treinar nossas linhas de base de aprendizagem supervisionada. Em seguida, coletamos um conjunto de dados de comparações que foram rotuladas por humanos entre dois resultados do modelo, em um conjunto maior de prompts de API. Depois disso, treinamos um modelo de recompensa (RM) nesse conjunto de dados para prever qual resultado nossos rotuladores prefeririam. Por fim, usamos esse RM como uma função de recompensa e ajustamos nossa política GPT‑3 para maximizar a recompensa de acordo com o algoritmo PPO⁠.

Uma maneira de pensar sobre esse processo é que ele “desbloqueia” recursos que o GPT‑3 já possuía, mas que eram difíceis de obter apenas por meio da engenharia de prompts. Isso ocorre porque nosso procedimento de treinamento tem capacidade limitada para ensinar novos recursos ao modelo em relação ao que é aprendido durante o pré-treinamento, uma vez que usa menos de 2% da computação e dos dados relativos ao pré-treinamento de modelos.

Uma limitação dessa abordagem é que ela introduz uma “tarifa de alinhamento”: alinhar os modelos apenas às tarefas do cliente pode piorar seu desempenho em algumas outras tarefas acadêmicas de PLN. Isso não é o ideal. Afinal, se nossas técnicas de alinhamento piorarem os modelos em tarefas que são importantes para as pessoas, a probabilidade de adoção dos modelos diminui consideravelmente. Descobrimos uma alteração algorítmica simples que minimiza essa penalidade de alinhamento: durante o ajuste fino da RL, misturamos uma pequena fração dos dados originais usados para treinar o GPT‑3 e treinamos esses dados usando a maximização da verossimilhança logarítmica normal. Isso mantém aproximadamente o desempenho em termos de segurança e preferências humanas, ao mesmo tempo em que mitiga a diminuição do desempenho em tarefas acadêmicas e, em vários casos, até mesmo supera a linha de base do GPT‑3.

Generalização para preferências mais amplas

Nosso procedimento alinha o comportamento dos nossos modelos com as preferências de dois grupos: os rotuladores, que produzem diretamente os dados usados para treinar nossos modelos; e nós, investigadores, que orientamos os rotuladores por meio de instruções escritas, feedback direto sobre exemplos específicos e conversas informais. Também é influenciado pelos nossos clientes e pelas preferências implícitas nas nossas políticas de API. Selecionamos rotuladores que tiveram um bom desempenho em um teste de aptidão para identificar e responder a prompts sensíveis. No entanto, essas diferentes fontes de influência sobre os dados não garantem que nossos modelos estejam alinhados às preferências de grupos mais amplos.

Realizamos dois experimentos para investigar isso. Primeiro, avaliamos o GPT‑3 e o InstructGPT usando rotuladores externos^E que não produziram nenhum dos dados de treinamento e descobrimos que esses rotuladores preferem os resultados dos modelos InstructGPT aproximadamente na mesma proporção que nossos rotuladores de treinamento. Em segundo lugar, treinamos modelos de recompensa com dados de um subconjunto de nossos rotuladores e descobrimos que eles se generalizam bem para prever as preferências de um subconjunto diferente de rotuladores. Isso sugere que nossos modelos não se ajustaram excessivamente às preferências dos nossos rotuladores de treinamento. No entanto, é necessário mais trabalho para estudar o desempenho desses modelos em grupos mais amplos de usuários e em entradas nas quais os seres humanos discordam sobre o comportamento desejado.

Limitações

Apesar dos avanços significativos, nossos modelos InstructGPT estão longe de estar totalmente alinhados ou totalmente seguros; fato é que eles ainda geram resultados tóxicos ou tendenciosos, inventam fatos e geram conteúdo sexual e violento sem prompts explícitos. Mas a segurança de um sistema de machine learning depende não apenas do comportamento dos modelos subjacentes, mas também de como esses modelos são implantados. Para garantir a segurança da nossa API, continuaremos a analisar possíveis aplicações⁠(abre em uma nova janela) antes que estas sejam ativadas, fornecer filtros de conteúdo para detectar conclusões não seguras e monitorar o uso indevido.

Um subproduto do treinamento dos nossos modelos para seguir as instruções do usuário é que eles podem se tornar mais suscetíveis ao uso indevido se forem instruídos a produzir resultados inseguros. Resolver isso requer que nossos modelos recusem certas instruções; fazer isso de forma confiável é um importante problema de investigação em aberto, e nós estamos empenhados em resolvê-lo.

Além disso, em muitos casos, pode não ser desejável alinhar-se à preferência média dos rotuladores. Por exemplo, ao gerar texto que afeta desproporcionalmente um grupo minoritário, as preferências desse grupo devem ter um peso maior. No momento, o InstructGPT foi treinado para seguir instruções em inglês; portanto, ele tem um viés em relação aos valores culturais das pessoas que falam inglês. Estamos conduzindo uma investigação para compreender as diferenças e divergências entre as preferências dos rotuladores, para que possamos condicionar nossos modelos aos valores de populações mais específicas. De forma geral, alinhar os resultados dos modelos aos valores de seres humanos específicos introduz escolhas difíceis com implicações sociais e, em última análise, devemos estabelecer processos responsáveis e inclusivos para tomar essas decisões.

Próximos passos

Esta é a primeira aplicação da nossa investigação em alinhamento ao produto. Os resultados mostram que essas técnicas são eficazes para melhorar significativamente o alinhamento dos sistemas de IA de uso geral às intenções humanas. No entanto, isso é apenas o começo: continuaremos aprimorando essas técnicas para melhorar o alinhamento de nossos modelos atuais e futuros, criando assim ferramentas de linguagem seguras e úteis para os seres humanos.

Se você tem interesse nessas áreas de investigação, estamos contratando⁠(abre em uma nova janela)!

Notas de rodapé

A
Usamos apenas prompts enviados através do Playground para uma versão anterior dos modelos InstructGPT, que foi implementada em janeiro de 2021. Nossos anotadores humanos removem informações pessoais identificáveis de todos os prompts antes de adicioná-los ao conjunto de treinamento.
B
Os modelos InstructGPT implantados na API são versões atualizadas, que foram treinadas usando os mesmos dados de feedback humano. Eles usam um método de treinamento semelhante, mas ligeiramente diferente, que será descrito em uma publicação futura.
C
Também medimos várias outras dimensões de resultados potencialmente prejudiciais em nossa distribuição de API. Por exemplo: se os resultados contêm conteúdo sexual ou violento, denigrem uma classe protegida ou incentivam abusos. Constatamos que o InstructGPT não apresenta melhorias significativas em relação ao GPT-3 nessas métricas; a taxa de incidência é igualmente baixa para ambos os modelos.
D
Consideramos essa abordagem mais eficaz do que simplesmente aumentar o coeficiente KL.
E
Esses rotuladores são fornecidos pela Scale AI e Upwork, assim como nossos rotuladores de treinamento, mas não passam por um teste de seleção.

Referências

1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. e Amodei, D., 2017. Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.
2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. e Christiano, P., 2020.
3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. e Christiano, P., 2021. Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.
4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. e Le, Q.V., 2021. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. e Dey, M., 2021. Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.
6
Bender, E.M., Gebru, T., McMillan-Major, A. e Shmitchell, S., março de 2021. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. e Brynjolfsson, E., 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. e Irving, G., 2021. Alignment of Language Agents. arXiv preprint arXiv:2103.14659.
9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. e Kenton, Z., 2021. Ethical and social risks of harm from Language Models. arXiv preprint arXiv:2112.04359.
10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021. Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv preprint arXiv:2102.02503.
11
Solaiman, I. and Dennison, C., 2021. Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv preprint arXiv:2106.10328.
12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. e Frosst, N., 2021. Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.
13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. e Dinan, E., 2020. Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.
14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019. Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. e Rajani, N.F., 2020. Gedi: Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.
16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019. Plug and play language models: A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.
17
Lin, S., Hilton, J. and Evans, O., 2021. TruthfulQA: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.
18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. e Smith, N.A., 2020. RealToxicityPrompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.
19
Rudinger, R., Naradowsky, J., Leonard, B. e Van Durme, B., 2018. Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301.
20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. arXiv preprint arXiv:2010.00133.

Autores

Ryan Lowe, Jan Leike

Agradecimentos

Gostaríamos de agradecer aos coautores do artigo: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder e Paul Christiano, juntamente com todos que forneceram feedback sobre o artigo e a publicação no blog. Gostaríamos também de agradecer à equipe de Comunicação pela orientação e assistência, incluindo Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego e Justin Jay Wang. Por fim, gostaríamos de agradecer aos nossos rotuladores, sem os quais esse projeto não teria sido possível.

Como alinhar modelos de linguagem para seguir instruções

Resultados

Métodos

Generalização para preferências mais amplas

Limitações

Próximos passos

Notas de rodapé

Referências

Autores

Agradecimentos

Artigos relacionados