Los modelos de lenguaje aprenden a partir de pocos ejemplos
Trabajos recientes han demostrado ganancias sustanciales en muchas tareas y referencias de procesamiento de lenguaje natural (PLN) por entrenamiento previo en un corpus grande de texto seguido de un ajuste de precisión en una tarea específica. Aunque normalmente este método es independiente de las tareas en su arquitectura, aún requiere conjuntos de datos con ajuste de precisión específico a las tareas de miles o decenas de miles de ejemplos. En cambio, los humanos por lo general pueden realizar una tarea nueva de lenguaje a partir de solo algunos ejemplos o instrucciones simples, algo que los sistemas de PLN actuales todavía en gran parte luchan por hacer. A continuación, mostramos que escalar modelos de lenguaje mejora enormemente el rendimiento con pocos ejemplos independiente de tareas; a veces incluso alcanza la competitividad con enfoques de ajuste de precisión previos de última generación. Específicamente, entrenamos GPT‑3, un modelo de lenguaje autorregresivo, con 175 000 millones de parámetros, 10 veces más que cualquier modelo de lenguaje no disperso previo y probamos su rendimiento en el entorno con pocos ejemplos. Para todas las tareas, GPT‑3 se aplica sin ninguna actualización de degradado o ajuste de precisión, con tareas y demostraciones con pocos ejemplos especificados estrictamente mediante interacción de texto con el modelo. GPT‑3 logra un rendimiento sólido en muchos conjuntos de datos de PLN, incluida traducción, respuesta a preguntas y tareas de rellenar espacios en blanco, así como también varias tareas que requieren razonamiento sobre la marcha o adaptación de dominio, como ordenar palabras usando una palabra nueva en una oración o realizar aritmética de 3 dígitos. Al mismo tiempo, también identificamos algunos conjuntos de datos donde el aprendizaje con pocos ejemplos de GPT‑3 aún tiene dificultades, así como también conjuntos de datos donde GPT‑3 enfrenta problemas metodológicos relacionados con entrenamiento en corpus web grandes. Por último, encontramos que GPT‑3 puede generar muestras de artículos de noticias con los cuales evaluadores humanos tienen dificultad para distinguir de artículos escritos por humanos. Analizamos impactos sociales más amplios de este resultado y de GPT‑3 en general.


