Ir al contenido principal
OpenAI

Hemos creado GPT‑4; el último hito en los esfuerzos de OpenAI para impulsar el aprendizaje profundo. GPT‑4 es un modelo multimodal de gran tamaño (admite entradas de texto e imagen y genera salidas en texto) que, aunque tiene un rendimiento inferior al humano en muchos contextos del mundo real, alcanza un nivel de desempeño similar al humano en diversos bancos de pruebas profesionales y académicos. Por ejemplo, aprueba un examen simulado de acceso a la abogacía con uno de los mejores resultados: su nota está entre el 10 % superior de la clase, mientras que GPT‑3.5 quedaba en el 10 % inferior. Hemos dedicado seis meses a alinear de forma iterativa GPT‑4, aplicando lecciones de nuestro programa de pruebas adversativas y de ChatGPT, lo que nos ha dado nuestros mejores resultados hasta la fecha (aunque aún lejos de la perfección) en veracidad, capacidad de dirección y en el rechazo de solicitudes fuera de los límites establecidos.

En los últimos dos años, hemos reconstruido por completo toda nuestra arquitectura de aprendizaje profundo y, en colaboración con Azure, hemos diseñado desde cero un superordenador adaptado a nuestra carga de trabajo. Hace un año entrenamos GPT‑3.5 como primera «prueba piloto» del sistema. Detectamos y corregimos varios errores y reforzamos nuestros fundamentos teóricos. Como resultado, nuestra ejecución de entrenamiento de GPT‑4 tuvo, al menos para nosotros, una estabilidad sin precedentes, convirtiéndose en el primer gran modelo cuyo rendimiento durante el entrenamiento pudimos prever con precisión de antemano. Seguimos apostando por un crecimiento seguro y fiable; por eso, queremos perfeccionar nuestra metodología y prever con más antelación las capacidades futuras, un aspecto esencial desde el punto de vista de la seguridad.

Disponemos de la entrada de texto de GPT‑4 en ChatGPT y la API (disponible con lista de espera). Para llevar la entrada de imágenes a más usuarios, hemos iniciado una colaboración estrecha con un único socio(se abre en una ventana nueva). También hemos publicado como código abierto OpenAI Evals(se abre en una ventana nueva), nuestro marco para la evaluación automatizada del rendimiento de modelos de IA, para que cualquiera pueda informar de las carencias de nuestros modelos y así orientar mejoras futuras.

Capacidades

En una conversación informal, la diferencia entre GPT‑3.5 y GPT‑4 puede ser sutil. Cuando la tarea se vuelve verdaderamente compleja, GPT‑4 marca la diferencia: es más fiable, creativo y capaz de manejar instrucciones mucho más matizadas que GPT‑3.5.

Para entender la diferencia entre ambos modelos, realizamos pruebas con diversos bancos de pruebas, incluyendo simulaciones de exámenes originalmente diseñados para humanos. Procedimos utilizando los exámenes públicos más recientes (en el caso de las olimpiadas y las preguntas de respuesta libre de los AP) o adquiriendo las ediciones 2022–2023 de los exámenes de práctica. No realizamos ningún entrenamiento específico para estos exámenes. Una pequeña proporción de los ejercicios del examen ya aparecieron durante el entrenamiento del modelo; no obstante, creemos que los resultados reflejan con fiabilidad su rendimiento. Para más información, revisa nuestro informe técnico(se abre en una ventana nueva).

referencia interna 1

Cargando...
Cargando...

También evaluamos GPT‑4 en bancos de pruebas tradicionales diseñados para modelos de aprendizaje automático. GPT‑4 supera con creces a los modelos de lenguaje grandes existentes, así como a la mayoría de los modelos de última generación, que pueden incluir ajustes específicos para cada banco de pruebas o protocolos de entrenamiento adicionales:

Cargando...

Muchas evaluaciones comparativas de aprendizaje automático disponibles están escritas en inglés. Para obtener una idea preliminar de la capacidad en otros idiomas, traducimos el banco de pruebas MMLU, un conjunto de 14 000 preguntas de opción múltiple que abarca 57 asignaturas, a varios idiomas usando Azure Translate (véase el Apéndice). En 24 de los 26 idiomas evaluados, GPT‑4 supera el rendimiento en inglés de GPT‑3.5 y de otros LLM (Chinchilla, PaLM), incluso en idiomas de pocos recursos como letón, galés y suajili:

Cargando...

También hemos estado utilizando GPT‑4 de forma interna, con un gran impacto en funciones como atención al cliente, ventas, moderación de contenidos y desarrollo de software. Además, lo empleamos para asistir a los evaluadores humanos en el análisis de los resultados de la IA, dando comienzo a la segunda fase de nuestra estrategia de alineamiento.

Entradas visuales

GPT‑4 puede procesar una indicación de texto e imágenes, lo que, al igual que en el modo de solo texto, permite al usuario definir cualquier tarea de visión o lenguaje. En particular, genera resultados en formato de texto (lenguaje natural, código, etc.) a partir de entradas con texto e imágenes entremezclados. En un amplio abanico de dominios (documentos que combinan texto y fotografías, diagramas o capturas de pantalla), GPT‑4 presenta un rendimiento comparable al de las entradas únicamente de texto. Además, puede ampliarse con técnicas en tiempo de prueba desarrolladas para modelos de lenguaje solo textuales, como indicaciones con pocos ejemplos y cadena de razonamiento(se abre en una ventana nueva). Las entradas de imagen siguen en fase de vista previa de investigación y no están disponibles públicamente.

Cargando...

Prevemos el desempeño de GPT‑4 evaluándolo en una batería limitada de bancos de pruebas estándar de visión. Sin embargo, estas cifras no reflejan por completo el alcance de las capacidades, ya que estamos descubriendo constantemente tareas nuevas y emocionantes que el modelo puede abordar. Planeamos publicar próximamente más análisis y datos de evaluación, así como una investigación exhaustiva sobre el efecto de las técnicas en tiempo de prueba.

nota internaA

Cargando...

Capacidad de control

Hemos estado trabajando en cada aspecto del plan descrito en nuestra publicación sobre definir el comportamiento de las IA, incluida la capacidad de control. En lugar de la personalidad clásica de ChatGPT con una verbosidad, tono y estilo determinados, los desarrolladores (y muy pronto los usuarios de ChatGPT) pueden ahora establecer el estilo y la función de la IA describiendo esas indicaciones en el mensaje de «sistema». Los «mensajes del sistema» permiten a los usuarios de la API personalizar de forma significativa la experiencia de sus usuarios dentro de unos límites(se abre en una ventana nueva). Continuaremos optimizando esta característica (aunque somos conscientes de que los mensajes del sistema facilitan el jailbreak del modelo, su cumplimiento de los límites todavía no es infalible). Te invitamos a usarlos y a enviarnos tus comentarios.

Cargando...

Limitaciones

A pesar de sus capacidades, GPT‑4 presenta limitaciones similares a las de los modelos GPT anteriores. Lo más importante: sigue sin ser completamente fiable (a veces «alucina» datos y comete errores de razonamiento). Se debe actuar con suma cautela al emplear resultados de modelos de lenguaje, sobre todo en escenarios de alta responsabilidad, definiendo un protocolo a medida, por ejemplo, revisión humana, respaldo con contexto adicional o evitar por completo usos críticos, según los requisitos de cada caso.

Si bien las «alucinaciones» siguen presentes, GPT‑4 las minimiza de forma notable en comparación con los predecesores (los cuales han mejorado progresivamente en cada versión). En nuestras pruebas internas adversativas de veracidad, GPT‑4 supera en un 40 % al más reciente GPT‑3.5:

Cargando...

Hemos avanzado en bancos de pruebas externos como TruthfulQA, que evalúa la capacidad del modelo para distinguir hechos de un conjunto de afirmaciones incorrectas seleccionadas de manera estratégica. A estas preguntas se les asignan respuestas incorrectas desde el punto de vista fáctico, aunque estadísticamente plausibles.

Cargando...

El modelo base de GPT‑4 supera solo ligeramente a GPT‑3.5 en esta tarea; sin embargo, tras el posentrenamiento con RLHF (aplicando el mismo proceso que usamos con GPT‑3.5), la diferencia es abismal. En los siguientes ejemplos vemos que GPT‑4 rehúsa usar refranes típicos («perro viejo nunca muere»), pero sigue fallando en pequeños detalles (por ejemplo, «Elvis Presley no era hijo de un actor»).

Cargando...

El modelo puede presentar distintos sesgos en sus respuestas; hemos avanzado en este aspecto, pero queda todavía trabajo por delante. Tal y como describimos en nuestra última publicación, buscamos que los sistemas de IA incorporen comportamientos predeterminados adecuados, reflejen un amplio espectro de valores de los usuarios, ofrezcan personalización dentro de márgenes amplios y recopilen opiniones públicas para definir dichos márgenes.

Por lo general, GPT‑4 desconoce los acontecimientos posteriores a la fecha de corte de la mayoría de sus datos (septiembre de 2021) y no aprende de su propia experiencia. A veces puede cometer errores de razonamiento sencillos que no se corresponden con su aparente competencia en tantos ámbitos, o mostrarse excesivamente crédulo al aceptar afirmaciones obviamente falsas de un usuario. Y en ocasiones puede fallar ante problemas complejos al igual que las personas, por ejemplo, introduciendo vulnerabilidades de seguridad en el código que genera.

GPT‑4 también puede mostrar seguridad en su respuesta y equivocarse, sin preocuparse de verificar el trabajo cuando es probable que cometa un error. Curiosamente, el modelo base preentrenado está muy bien calibrado (el nivel de confianza predicho en una respuesta suele coincidir con la probabilidad de ser correcta). Sin embargo, al aplicar el posentrenamiento actual, esa calibración empeora.

Cargando...

Riesgos y mitigaciones

Desde el comienzo del entrenamiento, hemos refinado GPT‑4 para hacerlo más seguro y alineado, con medidas como la selección y el filtrado de datos de preentrenamiento, evaluaciones con expertos, mejoras de seguridad del modelo y procesos de monitorización y aplicación de normas.

GPT‑4 presenta riesgos similares a los de modelos anteriores, como generar consejos perjudiciales, código con errores o información inexacta. Sin embargo, las capacidades adicionales de GPT‑4 generan nuevas superficies de riesgo. Para comprender la magnitud de estos riesgos, contamos con más de 50 expertos de ámbitos como riesgos de alineación de IA, ciberseguridad, biorriesgos, confianza y seguridad, y seguridad internacional, que sometieron el modelo a pruebas adversativas. Gracias a sus descubrimientos, pudimos poner a prueba al modelo en escenarios de alto riesgo que solo los expertos pueden valorar. Los comentarios y datos de estos expertos se integraron en nuestras medidas de mitigación y mejoras del modelo; por ejemplo, hemos recopilado información adicional para reforzar la capacidad de GPT‑4 de rechazar solicitudes sobre cómo sintetizar sustancias químicas peligrosas.

Durante el entrenamiento con RLHF, GPT‑4 incluye una señal adicional de recompensa enfocada en la seguridad para disminuir las respuestas dañinas (tal y como se definen en nuestras pautas de uso(se abre en una ventana nueva)), entrenando al modelo para denegar peticiones de dicho contenido. La recompensa la proporciona un clasificador zero-shot de GPT‑4 que evalúa los límites de seguridad y el estilo de respuesta en indicaciones relacionadas con la seguridad. Para evitar que el modelo rechace peticiones válidas, recopilamos un diverso conjunto de datos procedente de varias fuentes (como datos de producción etiquetados, pruebas adversativas humanas e indicaciones generadas por el modelo) y aplicamos la señal de recompensa de seguridad (con valor positivo o negativo) tanto a las categorías permitidas como a las no permitidas. 

Nuestras medidas de mitigación han mejorado significativamente muchas de las propiedades de seguridad de GPT‑4 en comparación con GPT‑3.5. Hemos reducido en un 82 % la tendencia del modelo a responder a solicitudes de contenido no permitido en comparación con GPT‑3.5, y GPT‑4 cumple nuestras políticas en respuestas a solicitudes sensibles (p. ej., asesoramiento médico y autolesiones) un 29 % más frecuentemente.

Cargando...
Cargando...

En líneas generales, nuestras intervenciones hacen más difícil que el modelo genere conductas indeseadas, pero sigue siendo posible. También siguen apareciendo jailbreaks que generan contenidos que incumplen nuestras pautas de uso. Con el incremento del «riesgo por token» en los sistemas de IA, será imprescindible lograr grados de fiabilidad máximos en estas intervenciones; por ahora, conviene complementar las limitaciones con técnicas de seguridad en tiempo de ejecución, como la detección de usos abusivos.

GPT‑4 y los modelos sucesores tienen el potencial de influir de forma significativa en la sociedad, tanto de manera beneficiosa como perjudicial. Colaboramos con investigadores externos para mejorar nuestra comprensión y evaluación de los posibles impactos, así como para desarrollar pruebas que detecten posibles capacidades peligrosas en futuros sistemas. En breve publicaremos un análisis más detallado de los impactos sociales y económicos potenciales de GPT‑4 y otros sistemas de inteligencia artificial.

Proceso de entrenamiento

Al igual que los modelos GPT anteriores, el modelo base de GPT‑4 se entrenó para predecir la siguiente palabra en un texto, utilizando datos de dominio público (por ejemplo, información de internet) y datos con licencia. Se trata de un corpus de datos a nivel web que abarca soluciones correctas e incorrectas a problemas matemáticos, razonamientos débiles y sólidos, enunciados autocontradictorios y consistentes, y refleja una gran variedad de ideologías e ideas.

Por tanto, cuando se le formula una pregunta, el modelo base puede generar respuestas muy diversas que a veces se alejan del propósito original del usuario. Para alinearlo con la intención del usuario dentro de unos límites seguros, ajustamos el comportamiento del modelo mediante aprendizaje por refuerzo basado en la opinión humana (RLHF).

Cabe destacar que el modelo obtiene sus capacidades fundamentalmente del preentrenamiento; el RLHF no mejora el rendimiento en exámenes (de hecho, sin un esfuerzo activo, lo empeora). Sin embargo, el direccionamiento del modelo se logra en el proceso de posentrenamiento; el modelo base exige ingeniería de indicaciones para saber que debe responder a las preguntas.

Escalamiento predecible

Uno de los principales ejes del proyecto GPT‑4 ha consistido en desarrollar una arquitectura de aprendizaje profundo con escalabilidad predecible. La razón principal es que, para entrenamientos de gran envergadura como los de GPT‑4, no es factible realizar un ajuste específico exhaustivo del modelo. Hemos diseñado una infraestructura y optimizaciones que ofrecen un comportamiento consistente y predecible, sea cual sea la escala. Para comprobar esta escalabilidad, anticipamos la pérdida final de GPT‑4 en nuestro repositorio interno (no usado en el entrenamiento) extrapolando desde modelos entrenados con la misma metodología, pero con un cómputo 10 000 veces inferior:

Cargando...

Ahora que podemos anticipar con exactitud la métrica de optimización empleada en el entrenamiento (pérdida), comenzamos a elaborar procedimientos para estimar métricas de mayor interpretabilidad. Por ejemplo, anticipamos con éxito la tasa de aciertos en un subconjunto del conjunto de datos HumanEval(se abre en una ventana nueva), extrapolando a partir de modelos entrenados con un cómputo 1000 veces inferior:

Cargando...

Algunas capacidades siguen siendo difíciles de predecir. Por ejemplo, el Inverse Scaling Prize fue una competición para descubrir una métrica que empeora a medida que aumenta la capacidad de cómputo del modelo, y la desatención retrospectiva(se abre en una ventana nueva) fue una de las ganadoras. Tal y como mostró otro resultado(se abre en una ventana nueva) reciente, GPT‑4 revierte la tendencia:

Cargando...

Creemos que predecir de forma exacta las futuras capacidades del aprendizaje automático es un aspecto crucial de la seguridad al que no se presta casi ninguna atención frente al impacto potencial (aunque nos reconforta el trabajo de diversas instituciones). Aumentamos la escala de nuestras iniciativas para desarrollar métodos que ofrezcan a la sociedad una mejor orientación sobre qué esperar de los sistemas futuros, y esperamos que este se convierta en un objetivo compartido en el sector.

OpenAI Evals

Hemos publicado OpenAI Evals(se abre en una ventana nueva) como código abierto, nuestro marco de software para crear y ejecutar bancos de pruebas que evalúan modelos como GPT‑4, analizando su rendimiento muestra a muestra. Con Evals afinamos el desarrollo de nuestros modelos (detectando puntos débiles y evitando regresiones), y nuestros usuarios pueden emplearlo para rastrear el rendimiento entre versiones, que lanzaremos con mayor frecuencia, y optimizar las integraciones de producto. Por ejemplo, Stripe ha utilizado Evals para complementar las evaluaciones humanas y medir la precisión de la herramienta de documentación basada en GPT.

Al ser de código abierto, Evals ofrece la posibilidad de definir clases adicionales que incorporen la lógica de evaluación a medida(se abre en una ventana nueva). En nuestra experiencia, muchos bancos de pruebas se ajustan a una de pocas «plantillas», así que también hemos añadido las plantillas(se abre en una ventana nueva) que más nos han servido internamente (incluyendo una para «evaluaciones calificadas por el modelo», hemos descubierto que GPT‑4 comprueba sorprendentemente bien su propio trabajo). Por lo general, la forma más rápida de desarrollar una nueva evaluación(se abre en una ventana nueva) es usar una de estas plantillas e incorporar los datos adecuados. Nos entusiasma ver qué podrán crear otros usando estas plantillas y Evals en general.

Esperamos que Evals se convierta en una plataforma para compartir y colaborar en bancos de pruebas, representando un conjunto lo más amplio posible de fallos y retos difíciles. A modo de referencia, hemos desarrollado una evaluación de rompecabezas lógicos(se abre en una ventana nueva) con diez indicaciones en los que GPT‑4 no supera la prueba. Evals es también compatible con la ejecución de bancos de pruebas ya existentes; hemos incluido varios notebooks(se abre en una ventana nueva) que implementan bancos de pruebas académicos y algunas variantes que integran pequeños subconjuntos de CoQA(se abre en una ventana nueva) a modo de ejemplo.

Invitamos a todo el mundo a usar Evals para probar nuestros modelos y enviar los ejemplos más interesantes. Creemos que Evals será una parte fundamental del proceso de uso y desarrollo sobre nuestros modelos, y agradecemos las contribuciones, preguntas y sugerencias de forma directa(se abre en una ventana nueva).

ChatGPT Plus

Los suscriptores de ChatGPT Plus tendrán acceso a GPT‑4 en chatgpt.com(se abre en una ventana nueva) con un límite de uso. Ajustaremos el límite de uso exacto según la demanda y el rendimiento del sistema en la práctica, aunque prevemos contar con una capacidad muy limitada (aunque iremos ampliando y optimizando en los próximos meses).

Dependiendo de los patrones de tráfico que observemos, podríamos introducir un nuevo nivel de suscripción para un uso de GPT‑4 de mayor volumen; asimismo, esperamos ofrecer en algún momento un número limitado de consultas gratuitas de GPT‑4 para que quienes no tengan suscripción también puedan probarlo.

API

Para acceder a la API de GPT‑4 (que utiliza la misma API de finalizaciones de chat(se abre en una ventana nueva) que gpt-3.5-turbo), regístrate en nuestra lista de espera. Empezaremos a invitar a determinados desarrolladores hoy mismo y aumentaremos progresivamente el acceso para ajustar la capacidad a la demanda. Si trabajas en la investigación del impacto sociocultural de la IA o de problemas de alineación de IA, puedes optar a un acceso subvencionado mediante nuestro Researcher Access Program.

Tras obtener acceso, podrás enviar únicamente solicitudes de texto al modelo gpt-4 (el soporte de imágenes sigue en alfa limitada); iremos actualizando automáticamente a la versión estable recomendada a medida que lancemos nuevas revisiones (si prefieres, puedes especificar gpt-4-0314, disponible hasta el 14 de junio). El precio es de 0,03 USD por cada 1000 tókenes de indicación y 0,06 USD por cada 1000 tókenes de respuesta. Los límites de velocidad predeterminados son 40 000 tókenes por minuto y 200 solicitudes por minuto.

gpt-4 tiene una longitud de contexto de 8192 tókenes. También ofrecemos acceso limitado a nuestra versión de contexto de 32 768 tokens (unas 50 páginas de texto), gpt-4-32k, que se actualizará automáticamente con el tiempo (versión actual gpt-4-32k-0314, disponible hasta el 14 de junio). El precio es de 0,06 USD por cada 1000 tokens de indicación y 0,12 USD por cada 1000 tokens de respuesta. Seguimos mejorando la calidad del modelo para contextos largos y agradeceríamos recibir comentarios sobre el rendimiento en tu caso de uso. Procesamos las solicitudes para los motores de 8 K y 32 K a ritmos distintos según la capacidad, por lo que puede que obtengas acceso a cada uno en momentos diferentes.

Conclusiones

Esperamos que GPT‑4 llegue a ser un recurso útil para optimizar la vida de las personas, sirviendo de motor a numerosas aplicaciones. Aún queda mucho por hacer y esperamos mejorar este modelo gracias al esfuerzo colectivo de la comunidad que lo desarrolle, explore y contribuya al mismo.

Anexo

Ejemplo de preguntas MMLU, traducidas a otros idiomas. Nota: utilizamos tókenes de elección coherentes (A-D):

Cargando...

Notas al pie

  1. A

    Evaluamos esta prueba comparativa utilizando indicaciones de cadena de pensamiento con 4 ejemplos del conjunto de entrenamiento en contexto. La indicación específica se ajustó utilizando el conjunto de validación.

Referencias

  1. 1

    P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Más información sobre el análisis disponible en el artículo(se abre en una ventana nueva).

Autor

OpenAI