Los modelos de lenguaje aprenden con pocos ejemplos
Nuestro trabajo reciente ha demostrado avances sustanciales en numerosas tareas y puntos de referencia de PLN mediante un entrenamiento previo con un corpus de texto de gran tamaño seguido de la optimización de una tarea específica. Si bien la arquitectura de este método es, por lo general, independiente de la tarea, aún requiere conjuntos de datos de optimización específica de la tarea de miles de ejemplos. Sin embargo, los humanos, por lo general, son capaces de realizar una nueva tarea lingüística a partir de unos pocos ejemplos o de instrucciones sencillas, algo que a los sistemas actuales de PLN todavía les cuesta. En este estudio, demostramos que la ampliación de los modelos de lenguaje mejora en gran medida el rendimiento independiente de la tarea y con pocos ejemplos, que a veces es capaz de competir con enfoques de optimización vanguardistas anteriores. Específicamente, hemos entrenado GPT‑3, un modelo de lenguaje autorregresivo con 175 000 millones de parámetros, diez veces más que cualquier modelo de lenguaje no disperso anterior, y hemos probado su rendimiento en una configuración con pocos ejemplos. Para todas las tareas, se ha utilizado GPT‑3 sin optimización ni actualizaciones graduales, con tareas y demostraciones con pocos ejemplos especificadas únicamente mediante interacción de texto con el modelo. GPT‑3 ha logrado un rendimiento excelente en numerosos conjuntos de datos de PLN, incluidas tareas de traducción, respuesta a preguntas y cierre, así como en varias tareas que requieren razonamiento sobre la marcha o adaptación de dominio, como descifrar palabras, usar una palabra novedosa en una oración o realizar operaciones aritméticas con tres dígitos. Al mismo tiempo, también hemos identificado algunos conjuntos de datos en los que el aprendizaje con pocos ejemplos de GPT‑3 todavía tiene dificultades, así como algunos conjuntos de datos en los que GPT‑3 tiene problemas metodológicos relacionados con el entrenamiento con corpus web de gran tamaño. Por último, hemos observado que GPT‑3 puede generar muestras de artículos de noticias que a los evaluadores humanos les cuesta distinguir de los artículos escritos por personas. Debatimos las repercusiones sociales más amplias de este hallazgo y de GPT‑3 en general.


