Ajustar los modelos de lenguaje para que respondan a las instrucciones
Hemos entrenado a modelos de lenguaje que son mucho mejores que GPT‑3 a la hora de seguir las intenciones del usuario, pero que también son más veraces y menos nocivos, utilizando técnicas desarrolladas a través de nuestra investigación sobre la alineación. Estos modelos InstructGPT, que se entrenan con humanos involucrados, se implementan ahora como modelos de lenguaje predeterminados en nuestra API.
La API de OpenAI se basa en modelos de lenguaje de GPT‑3 a los que se puede obligar a realizar tareas de lenguaje natural mediante mensajes de texto cuidadosamente diseñados. Sin embargo, estos modelos también pueden generar salidas falsas, nocivas o que reflejen sentimientos dañinos. Esto se debe en parte a que GPT‑3 se entrena para predecir la siguiente palabra en un gran conjunto de datos de texto de Internet, en lugar de para realizar con seguridad la tarea de lenguaje que desea el usuario. En otras palabras, estos modelos no están alineados con sus usuarios.
Para que nuestros modelos sean más seguros, más útiles y estén más alineados, utilizamos una técnica ya existente denominada aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). En los mensajes enviados por nuestros clientes a la APIA, nuestros etiquetadores hacen demostraciones del comportamiento deseado del modelo y clasifican varias salidas de nuestros modelos. A continuación, utilizamos estos datos para mejorar GPT‑3.
Los modelos InstructGPT obtenidos son mucho mejores que los de GPT‑3 a la hora de seguir instrucciones. También inventan hechos con menos frecuencia y muestran una ligera disminución en la generación de salidas nocivas. Nuestros etiquetadores prefieren las salidas de nuestro modelo InstructGPT de 1300 millones de parámetros a las salidas de un modelo GPT‑3 de 175 000 millones de parámetros, a pesar de tener más de 100 veces menos parámetros. Además, demostramos que no tenemos que renunciar a las funcionalidades de GPT‑3, según el rendimiento de nuestro modelo en las evaluaciones académicas del procesamiento del lenguaje natural (NLP).
Estos modelos InstructGPT, que han estado en fase Beta en la API durante más de un año, son ahora los modelos de lenguaje predeterminados accesibles en nuestra APIB. Creemos que el ajuste fino de los modelos de lenguaje con humanos involucrados es una herramienta muy eficaz para mejorar su seguridad y confiabilidad, y continuaremos avanzando en esta dirección.
Es la primera vez que nuestra investigación sobre la alineación, en la que llevamos trabajando varios años1, 2 y 3, se aplica a nuestro producto. Además, nuestro trabajo se relaciona con las investigaciones recientes sobre el ajuste fino de modelos de lenguaje para que sigan instrucciones a partir de conjuntos de datos académicos de NLP, en especial FLAN4 y T05. Una motivación clave de nuestro trabajo es aumentar la utilidad y la veracidad y, al mismo tiempo, mitigar los daños y los sesgos de los modelos de lenguaje6, 7, 8, 9 y 10. Algunas de nuestras investigaciones anteriores en este sentido descubrieron que podemos reducir las salidas nocivas mediante el ajuste fino en un conjunto de datos pequeño y seleccionado de demostraciones humanas11. Otras investigaciones se centran en filtrar el conjunto de datos de entrenamiento previo12 con tokens de control específicos de seguridad13 y 14 o en dirigir las generaciones de modelos15 y 16. Estamos explorando estas y otras ideas en nuestra investigación en curso sobre la alineación.
En primer lugar, evaluamos la medida en que las salidas de InstructGPT siguen las instrucciones del usuario y, para ello, pedimos a los etiquetadores que comparen sus salidas con las de GPT‑3. Comprobamos que los modelos InstructGPT son considerablemente mejores en las instrucciones enviadas a los modelos InstructGPT y GPT‑3 en la API. Esto es cierto cuando agregamos un prefijo al mensaje de GPT‑3 para que ingrese a un “modo de seguimiento de instrucciones”.
Para medir la seguridad de nuestros modelos, utilizamos principalmente un conjunto de métricas existentes en conjuntos de datos disponibles al público. En comparación con GPT‑3, InstructGPT produce menos falsedades de imitación (según TruthfulQA17) y es menos nocivo (según RealToxicityPrompts18). También realizamos evaluaciones humanas en nuestra API de distribución de mensajes, y encontramos que InstructGPT inventa hechos (“alucina”) con menos frecuencia, y genera salidas más apropiadasC.
Por último, detectamos que se prefieren las salidas de InstructGPT a las de FLAN4 y T05 en nuestra distribución de clientes. Esto indica que los datos utilizados para entrenar a FLAN y T0, en su mayoría tareas académicas de NLP, no representan del todo cómo se usan en la práctica los modelos de lenguaje implementados.

Para entrenar a los modelos InstructGPT, nuestra técnica principal es el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), un método del que fuimos pioneros en nuestra anterior investigación sobre la alineación. Esta técnica utiliza las preferencias humanas como una señal de recompensa para realizar un ajuste fino de nuestros modelos, lo cual es importante ya que los problemas de seguridad y alineación que pretendemos resolver son complejos y subjetivos, y no se pueden detectar completamente con simples métricas automáticas.
En primer lugar, recopilamos un conjunto de datos de demostraciones escritas por humanos sobre mensajes enviados a nuestra API, y lo utilizamos para entrenar a nuestras líneas base de aprendizaje supervisado. A continuación, recopilamos un conjunto de datos de comparaciones etiquetadas por humanos entre dos salidas del modelo en un conjunto más grande de mensajes de la API. A continuación, entrenamos un modelo de recompensa (RM) en este conjunto de datos para predecir la salida que preferirían nuestros etiquetadores. Por último, utilizamos este RM como función de recompensa y realizamos un ajuste fino de nuestra política de GPT‑3 para maximizar esta recompensa mediante el algoritmo PPO.
El proceso puede entenderse como el “desbloqueo” de funcionalidades que GPT‑3 ya tenía, pero que eran difíciles de obtener únicamente mediante la ingeniería de mensajes: esto se debe a que nuestro procedimiento de entrenamiento tiene una capacidad limitada para enseñar al modelo nuevas funcionalidades en relación con lo aprendido durante el entrenamiento previo, ya que utiliza menos del 2 % del procesamiento y de los datos en relación con el entrenamiento previo del modelo.
Una limitación de este enfoque es que introduce un “impuesto de alineación”: alinear los modelos solo en las tareas de los clientes puede hacer que su rendimiento empeore en algunas otras tareas académicas de NLP. Esto no es conveniente, ya que si nuestras técnicas de alineación empeoran el rendimiento de los modelos en tareas que son importantes para los usuarios, es menos probable que se adopten en la práctica. Detectamos una simple modificación algorítmica que minimiza este impuesto de alineación: durante el ajuste fino del RL, combinamos una pequeña fracción de los datos originales utilizados para entrenar a GPT‑3, y entrenamos con estos datos utilizando la maximización normal de la verosimilitud logarítmicaD. Esto mantiene aproximadamente el rendimiento en seguridad y preferencias humanas, a la vez que mitiga la caída del rendimiento en tareas académicas, y en varios casos incluso supera la línea base de GPT‑3.
Nuestro procedimiento alinea el comportamiento de nuestros modelos con las preferencias de nuestros etiquetadores, que producen directamente los datos utilizados para entrenar a nuestros modelos, y de los investigadores, que orientan a los etiquetadores mediante instrucciones escritas, comentarios directos sobre ejemplos concretos y conversaciones informales. También influyen nuestros clientes y las preferencias implícitas en nuestras políticas de la API. Seleccionamos a los etiquetadores que obtuvieron buenos resultados en una prueba de selección de aptitudes para identificar y responder a mensajes sensibles. Sin embargo, estas distintas fuentes de influencia sobre los datos no garantizan que nuestros modelos se alineen con las preferencias de un grupo más amplio.
Llevamos a cabo dos experimentos para investigar esto. En primer lugar, evaluamos a GPT‑3 e InstructGPT utilizando etiquetadores retenidosE que no produjeron ninguno de los datos de entrenamiento, y detectamos que estos etiquetadores prefieren las salidas de los modelos InstructGPT aproximadamente en la misma proporción que nuestros etiquetadores de entrenamiento. En segundo lugar, entrenamos a los modelos de recompensa con datos de un subconjunto de nuestros etiquetadores, y descubrimos que se generalizan bien para predecir las preferencias de un subconjunto diferente de etiquetadores. Esto sugiere que nuestros modelos no se adaptaron únicamente a las preferencias de nuestros etiquetadores de entrenamiento. Sin embargo, es necesario seguir trabajando para estudiar el rendimiento de estos modelos con grupos más amplios de usuarios y con entradas en las que los humanos no se ponen de acuerdo sobre el comportamiento deseado.
A pesar de los importantes avances realizados, nuestros modelos InstructGPT están muy lejos de estar totalmente alineados o de ser totalmente seguros; siguen generando resultados nocivos o sesgados, inventan hechos y generan contenido de índole sexual y violenta sin que se les indique explícitamente. Sin embargo, la seguridad de un sistema de aprendizaje automático no solo depende del comportamiento de los modelos subyacentes, sino también del modo en que se implementan estos modelos. Para apoyar la seguridad de nuestra API, continuaremos revisando las aplicaciones potenciales(se abre en una nueva ventana) antes de que salgan al mercado, proporcionaremos filtros de contenido para detectar terminaciones inseguras y vigilaremos el uso indebido.
Una consecuencia de entrenar a nuestros modelos para que sigan las instrucciones de los usuarios es que pueden ser más susceptibles de uso indebido si se les ordena producir resultados poco seguros. Para solucionarlo, nuestros modelos deben rechazar determinadas instrucciones, lo que constituye un importante problema de investigación que nos entusiasma abordar.
Además, en muchos casos, es posible que no baste con alinearse con las preferencias del etiquetador promedio. Por ejemplo, cuando se genera un texto que afecta de forma desproporcionada a un grupo minoritario, las preferencias de ese grupo deben ponderarse con mayor énfasis. En la actualidad, InstructGPT se entrena para seguir instrucciones en inglés, por lo que está sesgado hacia los valores culturales de los angloparlantes. Estamos investigando las diferencias y desacuerdos entre las preferencias de los etiquetadores para poder condicionar nuestros modelos a los valores de poblaciones más específicas. En términos más generales, adaptar las salidas de los modelos a los valores de determinados humanos plantea elecciones difíciles con consecuencias sociales y, en última instancia, debemos establecer procesos responsables e inclusivos para tomar estas decisiones.
Esta es la primera aplicación de nuestra investigación sobre la alineación en nuestro producto. Nuestros resultados muestran que estas técnicas son eficaces para mejorar considerablemente la alineación de los sistemas de IA de uso general con las intenciones de los humanos. Sin embargo, esto es solo el principio: seguiremos impulsando estas técnicas para mejorar la alineación de nuestros modelos actuales y futuros hacia herramientas del lenguaje que sean seguras y útiles para los humanos.
Si te interesan estas líneas de investigación, ¡estamos buscando personal!(se abre en una nueva ventana)
Notas al pie
- A
Solo utilizamos los mensajes enviados a través de Playground a una versión anterior de los modelos InstructGPT que se implementó en enero de 2021. Nuestros anotadores humanos eliminan la información personal que permite la identificación de todos los mensajes antes de agregarla al conjunto de entrenamiento.
- B
Los modelos InstructGPT implementados en la API son versiones actualizadas entrenadas con los mismos datos de comentarios humanos. Utilizan un método de entrenamiento similar pero ligeramente diferente que describiremos en una próxima publicación.
- C
También medimos otras dimensiones de las salidas potencialmente dañinas en nuestra distribución de la API: si las salidas tienen contenido de índole sexual o violenta, denigran a una clase protegida o fomentan el abuso. Observamos que InstructGPT no mejora considerablemente a GPT-3 en relación con estas métricas; la tasa de incidencia es igual de baja en ambos modelos.
- D
Este enfoque nos pareció más eficaz que el simple aumento del coeficiente KL.
- E
Estos etiquetadores proceden de Scale AI y Upwork, de forma similar a nuestros etiquetadores de entrenamiento, pero no se someten a una prueba de selección.
Referencias
- 1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. y Amodei, D., 2017. Aprendizaje por refuerzo profundo a partir de las preferencias humanas. arXiv preprint arXiv:1706.03741.
- 2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. y Christiano, P., 2020.
- 3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. y Christiano, P., 2021. Resumen recursivo de libros con retroalimentación humana. arXiv preprint arXiv:2109.10862.
- 4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. y Le, Q.V., 2021. Los modelos de lenguaje ajustados son aprendices de zero-shot. arXiv preprint arXiv:2109.01652.
- 5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. y Dey, M., 2021. El entrenamiento basado en múltiples tareas permite la generalización de tareas de zero-shot. arXiv preprint arXiv:2110.08207.
- 6
Bender, E.M., Gebru, T., McMillan-Major, A. y Shmitchell, S., marzo de 2021. Sobre los peligros de los loros estocásticos: ¿los modelos de lenguaje pueden ser muy grandes?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (págs. 610-623).
- 7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. y Brynjolfsson, E., 2021. Oportunidades y riesgos de los modelos básicos. arXiv preprint arXiv:2108.07258.
- 8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. y Irving, G., 2021. Alineación de agentes lingüísticos. arXiv preprint arXiv:2103.14659.
- 9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. y Kenton, Z., 2021. Riesgos éticos y sociales derivados de los modelos de lenguaje. arXiv preprint arXiv:2112.04359.
- 10
Tamkin, A., Brundage, M., Clark, J. y Ganguli, D., 2021. Comprender las funcionalidades, las limitaciones y el impacto social de los modelos de lenguaje grandes. arXiv preprint arXiv:2102.02503.
- 11
Solaiman, I. y Dennison, C., 2021. Proceso de adaptación de modelos de lenguaje a la sociedad (PALMS) con conjuntos de datos orientados a los valores. arXiv preprint arXiv:2106.10328.
- 12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. y Frosst, N., 2021. Mitigación de daños en modelos de lenguaje con filtración de verosimilitud condicional. arXiv preprint arXiv:2108.07790.
- 13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. y Dinan, E., 2020. Soluciones de seguridad para chatbots de dominio abierto. arXiv preprint arXiv:2010.07079.
- 14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. y Socher, R., 2019. Ctrl: un modelo de lenguaje transformador condicional para la generación controlable. arXiv preprint arXiv:1909.05858.
- 15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. y Rajani, N.F., 2020. Gedi: generación de secuencias dirigida por un discriminador generativo. arXiv preprint arXiv:2009.06367.
- 16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. y Liu, R., 2019. Modelos de lenguaje “Plug and Play”: un enfoque sencillo para la generación de texto controlado. arXiv preprint arXiv:1912.02164.
- 17
Lin, S., Hilton, J. y Evans, O., 2021. TruthfulQA: medición de cómo los modelos imitan las falsedades humanas. arXiv preprint arXiv:2109.07958.
- 18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. y Smith, N.A., 2020. RealToxicityPrompts: evaluación de la degeneración neuronal tóxica en modelos de lenguaje. arXiv preprint arXiv:2009.11462.
- 19
Rudinger, R., Naradowsky, J., Leonard, B. y Van Durme, B., 2018. Sesgo de género en la resolución de correferencias. arXiv preprint arXiv:1804.09301.
- 20
Nangia, N., Vania, C., Bhalerao, R. y Bowman, S.R., 2020. CrowS-pairs: un conjunto de datos para medir los sesgos sociales en modelos de lenguaje enmascarado. arXiv preprint arXiv:2010.00133.
Autores
Agradecimientos
Queremos agradecer a los coautores de nuestros artículos: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder y Paul Christiano, y a todos los que han contribuido con sus comentarios al artículo y a la publicación en el blog. También queremos dar las gracias al equipo de Comunicación por su orientación y ayuda, entre ellos, Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego y Justin Jay Wang. Por último, nos gustaría agradecer a nuestros etiquetadores, sin los cuales este proyecto no habría sido posible.


