Alinear modelos de lenguaje para seguir instrucciones
Hemos entrenado modelos de lenguaje que son mucho mejores que GPT‑3 a la hora de responder a las intenciones de los usuarios. Además, los hemos hecho más veraces y menos tóxicos, utilizando técnicas desarrolladas a través de nuestra investigación sobre alineación. Estos modelos InstructGPT, que se entrenan con intervención humana, se han implementado ahora como modelos de lenguaje predeterminados en nuestra API.
La API de OpenAI funciona con modelos de lenguaje GPT‑3, que pueden entrenarse para realizar tareas de lenguaje natural utilizando indicaciones de texto cuidadosamente diseñadas. Sin embargo, estos modelos también pueden generar resultados falsos, tóxicos o que reflejen sentimientos dañinos. Esto se debe en parte a que GPT‑3 está entrenado para predecir la siguiente palabra con base en un gran conjunto de datos de texto de Internet, en lugar de realizar de forma segura la tarea lingüística que el usuario desea. En otras palabras, estos modelos no están alineados con los usuarios.
Para que nuestros modelos sean más seguros, útiles y coherentes, utilizamos una técnica existente llamada aprendizaje por refuerzo a partir de comentarios humanos (RLHF). En respuesta a las indicaciones enviadas por nuestros clientes a la API,A nuestros etiquetadores ofrecen demostraciones del comportamiento deseado del modelo y clasifican varios resultados de nuestros modelos. A continuación, utilizamos estos datos para perfeccionar GPT‑3.
Los modelos InstructGPT resultantes son mucho mejores que GPT‑3 a la hora de seguir instrucciones. Además, inventan hechos con menor frecuencia y muestran una ligera disminución en la generación de resultados tóxicos. Nuestros etiquetadores prefieren los resultados de nuestro modelo InstructGPT de 1300 millones de parámetros a los del modelo GPT‑3 de 175 000 millones, a pesar de que el primero tenga más de 100 veces menos parámetros. A su vez, demostramos que no tenemos que renunciar a las capacidades de GPT‑3, tal y como lo demuestra el rendimiento de nuestro modelo en evaluaciones académicas de PLN.
Estos modelos InstructGPT, que han estado en fase beta en la API durante más de un año, son ahora los modelos de lenguaje predeterminados accesibles en nuestra API.B Creemos que la optimización de los modelos de lenguaje con la intervención humana es una potente herramienta para mejorar la seguridad y fiabilidad, por lo que pretendemos seguir avanzando en esta dirección.
Esta es la primera vez que nuestra investigación sobre alineación, en la que llevamostrabajando variosaños,1, 2 y 3 se aplica a nuestro producto. Nuestro trabajo también está relacionado con investigaciones recientes que optimizan los modelos de lenguaje para que sigan instrucciones utilizando conjuntos de datos académicos de PLN, en particular FLAN4 y T0.5 Una motivación clave de nuestro trabajo es aumentar la utilidad y la veracidad, al tiempo que se mitigan los daños y los sesgos de los modelos.6, 7, 8, 9 y 10 Algunas de nuestras investigaciones anteriores en esta dirección descubrieron que podemos reducir los resultados perjudiciales mediante la optimización en un pequeño conjunto de datos seleccionados de demostraciones humanas.11 Otras investigaciones se han centrado en filtrar el conjunto de datos de preentrenamiento,12 tókenes de control específicos para la seguridad,13 y 14 o dirigir la generación de modelos.15 y 16 Estamos explorando estas y otras ideas en nuestra investigación actual sobre la alineación.
En primer lugar, evaluamos en qué medida los resultados de InstructGPT siguen las instrucciones del usuario, pidiendo a los etiquetadores que comparen sus resultados con los de GPT‑3. Hemos observado que los modelos InstructGPT resultan claramente preferidos en las indicaciones enviadas tanto al modelo InstructGPT como al GPT‑3 en la API. Esto se confirma cuando añadimos un prefijo a la indicación de GPT‑3 para que entre en «modo de seguimiento de instrucciones».
Para medir la seguridad de nuestros modelos, utilizamos principalmente un conjunto de métricas existentes en conjuntos de datos disponibles públicamente. En comparación con GPT‑3, InstructGPT produce menos falsedades imitativas (según TruthfulQA17) y es menos tóxico (según RealToxicityPrompts18). También realizamos evaluaciones humanas sobre la distribución de las indicaciones de nuestra API y hemos observado que InstructGPT inventa datos (alucina) con menos frecuencia y genera resultados más adecuados. C
Por último, hemos constatado que los resultados de InstructGPT son preferibles a los de FLAN4 y T05 en nuestra distribución de clientes. Esto indica que los datos utilizados para entrenar FLAN y T0, en su mayoría tareas académicas de PLN, no son totalmente representativos del uso práctico de los modelos de lenguaje implementados.

Para entrenar los modelos InstructGPT, nuestra técnica principal es el aprendizaje por refuerzo a partir de comentarios humanos (RLHF), un método que ayudamos a desarrollar en nuestra investigación previa sobre alineación. Esta técnica utiliza las preferencias humanas como señal de recompensa para ajustar nuestros modelos, lo que es importante, ya que los problemas de seguridad y alineación que pretendemos resolver son complejos y subjetivos, y no se captan completamente con métricas automáticas simples.
Primero recopilamos un conjunto de datos de demostraciones escritas por personas en indicaciones enviadas a nuestra API y lo utilizamos para entrenar nuestras bases de referencia de aprendizaje supervisado. A continuación, recopilamos un conjunto de datos de comparaciones etiquetadas por humanos entre dos resultados del modelo en un conjunto más amplio de indicaciones a la API. A continuación, entrenamos un modelo de recompensa (RM) con este conjunto de datos para predecir qué resultado preferirían nuestros etiquetadores. Por último, utilizamos este RM como función de recompensa y ajustamos nuestra política GPT‑3 para maximizar esta recompensa utilizando el algoritmo PPO.
Una forma de entender este proceso es que «desbloquea» capacidades que GPT‑3 ya tenía, pero que eran difíciles de obtener solo mediante la ingeniería de indicaciones: esto se debe a que nuestro procedimiento de entrenamiento tiene una capacidad limitada para enseñar al modelo nuevas capacidades en relación con lo aprendido durante el preentrenamiento, ya que utiliza menos del 2 % de la computación y los datos en comparación con el preentrenamiento del modelo.
Una limitación de este enfoque es que introduce una «tasa de alineación»: alinear los modelos únicamente con las tareas de los clientes puede empeorar el rendimiento en otras tareas académicas de PLN. Esto no es conveniente, ya que si nuestras técnicas de alineación empeoran los modelos en tareas que interesan a las personas, es menos probable que se adopten en la práctica. Hemos encontrado un sencillo cambio algorítmico que minimiza este coste de alineación: durante la optimización del RL, mezclamos una pequeña fracción de los datos originales utilizados para entrenar GPT‑3 y entrenamos con estos datos utilizando la maximización de la verosimilitud logarítmica normal.D Esto mantiene aproximadamente el rendimiento en materia de seguridad y preferencias humanas, al tiempo que mitiga la disminución del rendimiento en tareas académicas y, en varios casos, incluso supera la referencia de GPT‑3.
Nuestro procedimiento alinea el comportamiento de nuestros modelos con las preferencias de nuestros etiquetadores, que producen directamente los datos utilizados para entrenar nuestros modelos, y con nosotros, los investigadores, que proporcionamos orientación a los etiquetadores a través de instrucciones escritas, comentarios directos sobre ejemplos específicos y conversaciones informales. También influyen nuestros clientes y las preferencias implícitas en nuestras políticas de API. Seleccionamos a los etiquetadores que obtuvieron buenos resultados en una prueba de aptitud para identificar y responder a indicaciones delicadas. Sin embargo, estas diferentes fuentes de influencia sobre los datos no garantizan que nuestros modelos estén alineados con las preferencias de ningún grupo más amplio.
Hemos llevado a cabo dos experimentos para investigar este tema. En primer lugar, evaluamos GPT‑3 e InstructGPT utilizando etiquetadores externosE que no produjeron ninguno de los datos de entrenamiento, y descubrimos que estos etiquetadores prefieren los resultados de los modelos InstructGPT en aproximadamente la misma proporción que nuestros etiquetadores de entrenamiento. En segundo lugar, entrenamos modelos de recompensa con datos de un subconjunto de nuestros etiquetadores y descubrimos que se generalizan bien para predecir las preferencias de un subconjunto diferente de etiquetadores. Esto sugiere que nuestros modelos no se han ajustado excesivamente a las preferencias de los etiquetadores que han participado en el entrenamiento. Sin embargo, es necesario seguir trabajando para estudiar cómo funcionan estos modelos en grupos más amplios de usuarios y cómo se comportan ante entradas en las que los humanos no se ponen de acuerdo sobre el comportamiento deseado.
A pesar de los importantes avances logrados, nuestros modelos InstructGPT aún están lejos de estar totalmente alineados o ser totalmente seguros; siguen generando resultados tóxicos o sesgados, inventando hechos y generando contenido sexual y violento sin que se les solicite explícitamente. Sin embargo, la seguridad de un sistema de aprendizaje automático no solo depende del comportamiento de los modelos subyacentes, sino también de cómo se implementan dichos modelos. Para garantizar la seguridad de nuestra API, seguiremos revisando las posibles aplicaciones(se abre en una ventana nueva) antes de que se publiquen, proporcionaremos filtros de contenido para detectar finalizaciones inseguras y supervisaremos el uso indebido.
Un efecto secundario de entrenar nuestros modelos para que sigan las instrucciones de los usuarios es que pueden volverse más susceptibles al uso indebido si se les indica que generen resultados peligrosos. Para resolver esto, es necesario que nuestros modelos rechacen ciertas instrucciones; hacerlo de manera fiable es un importante problema de investigación pendiente que tenemos muchas ganas de abordar.
Además, en muchos casos, alinearse con la preferencia media de los etiquetadores puede no resultar conveniente. Por ejemplo, al generar texto que afecta de manera desproporcionada a un grupo minoritario, se debe dar más peso a las preferencias de ese grupo. En este momento, InstructGPT está entrenado para seguir instrucciones en inglés; por lo tanto, tiene un sesgo hacia los valores culturales de las personas de habla inglesa. Estamos llevando a cabo una investigación para comprender las diferencias y discrepancias entre las preferencias de los etiquetadores, con el fin de poder condicionar nuestros modelos a los valores de poblaciones más específicas. En términos más generales, alinear los resultados de los modelos con los valores de personas concretas plantea decisiones difíciles con implicaciones sociales y, en última instancia, debemos establecer procesos responsables e inclusivos para tomar estas decisiones.
Esta es la primera aplicación de nuestra investigación sobre alineación en nuestro producto. Nuestros resultados demuestran que estas técnicas son eficaces para mejorar significativamente la alineación de los sistemas de IA de uso general con intenciones humanas. Sin embargo, esto es solo el principio: seguiremos impulsando estas técnicas para mejorar la alineación de nuestros modelos actuales y futuros con el fin de crear herramientas de lenguaje seguras y útiles para las personas.
Si te interesan estas líneas de investigación, ¡estamos buscando personal(se abre en una ventana nueva)!
Notas al pie
- A
Solo utilizamos indicaciones enviadas a través del Playground a una versión anterior de los modelos InstructGPT que se implementó en enero de 2021. Nuestros anotadores humanos eliminan la información personal identificable de todas las indicaciones antes de añadirla al conjunto de entrenamiento.
- B
Los modelos InstructGPT implementados en la API son versiones actualizadas entrenadas con los mismos datos de comentarios humanos. Utilizan un método de entrenamiento similar, pero ligeramente diferente, que describiremos en una futura publicación.
- C
También medimos otras dimensiones de resultados potencialmente dañinos en nuestra distribución de API: si los resultados contienen contenido sexual o violento, denigran a un grupo protegido o promueven conductas de maltrato. Hemos observado que InstructGPT no mejora significativamente con respecto a GPT-3 en estos parámetros; la tasa de incidencia es igualmente baja para ambos modelos.
- D
Consideramos que este enfoque es más eficaz que simplemente aumentar el coeficiente KL.
- E
Estos etiquetadores proceden de Scale AI y Upwork, al igual que nuestros etiquetadores de entrenamiento, pero no se someten a una prueba de selección.
Referencias
- 1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017. Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.
- 2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
- 3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021. Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.
- 4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
- 5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021. Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.
- 6
Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
- 7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
- 8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021. Alignment of Language Agents. arXiv preprint arXiv:2103.14659.
- 9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021. Ethical and social risks of harm from Language Models. arXiv preprint arXiv:2112.04359.
- 10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021. Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv preprint arXiv:2102.02503.
- 11
Solaiman, I. and Dennison, C., 2021. Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv preprint arXiv:2106.10328.
- 12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021. Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.
- 13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020. Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.
- 14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019. Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
- 15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020. Gedi: Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.
- 16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019. Plug and play language models: A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.
- 17
Lin, S., Hilton, J. and Evans, O., 2021. TruthfulQA: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.
- 18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020. RealToxicityPrompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.
- 19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018. Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301.
- 20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. arXiv preprint arXiv:2010.00133.
Autores
Agradecimientos
Nos gustaría dar las gracias a los coautores de nuestro artículo: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder y Paul Christiano, junto a todas las demás personas que nos ha aportado su opinión sobre el artículo y la entrada del blog. También nos gustaría dar las gracias al equipo de comunicaciones por su orientación y ayuda, en particular a Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego y Justin Jay Wang. Por último, nos gustaría dar las gracias a nuestros etiquetadores, sin los cuales este proyecto no habría sido posible.


