Pasar al contenido principal
OpenAI

GPT‑4 es el último hito en los esfuerzos de OpenAI por ampliar el aprendizaje profundo. GPT‑4 es un modelo multimodal de gran tamaño (acepta entradas de imagen y texto, y genera salidas de texto) que, si bien es menos capaz que los humanos en muchas situaciones del mundo real, muestra un comportamiento similar al humano en varias pruebas de referencia profesionales y académicas. Por ejemplo, aprueba un examen de abogacía simulado con una puntuación de aproximadamente el 10 % de los que hacen el examen; en cambio, la puntuación de GPT‑3.5 se situó aproximadamente en el 10 % inferior. Hace 6 meses que alineamos de forma iterativa GPT‑4 utilizando las lecciones de nuestro programa de pruebas de adversarios, así como ChatGPT, lo que permitió obtener los mejores resultados de nuestra historia (aunque lejos de ser perfectos) en lo que respecta a los hechos, la capacidad de dirección y los obstáculos.

En los últimos dos años, reconstruimos toda nuestra pila de aprendizaje profundo y, junto con Azure, diseñamos conjuntamente desde el inicio una supercomputadora para nuestra carga de trabajo. Hace un año, entrenamos a GPT‑3.5 como una primera “serie de pruebas” del sistema. Descubrimos y corregimos algunos errores y mejoramos nuestros fundamentos teóricos. Como resultado, nuestra ejecución de entrenamiento de GPT‑4 fue (¡al menos para nosotros!) estable sin precedentes, y se convirtió en nuestro primer gran modelo cuyo rendimiento de entrenamiento pudimos predecir con exactitud antes de tiempo. Mientras seguimos centrándonos en un escalado confiable, pretendemos perfeccionar nuestra metodología para que nos ayude a predecir y prepararnos para futuras capacidades cada vez con mayor antelación, algo que consideramos fundamental para la seguridad.

Lanzamos la capacidad de entrada de texto de GPT‑4 a través de ChatGPT y la API (con una lista de espera). Para preparar la capacidad de entrada de imágenes para una disponibilidad más amplia, contamos con la estrecha colaboración de un único socio(se abre en una nueva ventana) para empezar. También contamos con OpenAI Evals(se abre en una nueva ventana) de código abierto, nuestro marco para la evaluación automatizada del rendimiento de los modelos de IA, para que los usuarios puedan informar de las deficiencias de nuestros modelos y ayudar así a mejorarlos.

Funcionalidades

En una conversación informal, la distinción entre GPT‑3.5 y GPT‑4 puede ser sutil. La diferencia se observa cuando la complejidad de la tarea alcanza un umbral determinado: GPT‑4 es más confiable, creativo y capaz de manejar instrucciones mucho más matizadas que GPT‑3.5.

Para comprender la diferencia entre los dos modelos, realizamos pruebas en diversas pruebas de referencia, incluida la simulación de exámenes diseñados originalmente para humanos. Se utilizaron las pruebas disponibles al público más recientes (en el caso de las Olimpiadas y las preguntas de respuesta libre de AP) o se adquirieron las ediciones 2022-2023 de los exámenes de práctica. No realizamos ningún entrenamiento específico para estos exámenes. El modelo detectó pocos problemas en los exámenes durante el entrenamiento, pero los resultados son representativos (para obtener más información, consulta nuestro informe técnico(se abre en una nueva ventana)).

referencia interna 1

Cargando...
Cargando...

También evaluamos GPT‑4 en pruebas de referencia tradicionales diseñadas para modelos de aprendizaje automático. GPT‑4 supera considerablemente a los grandes modelos de lenguaje existentes, junto con la mayoría de los modelos de última generación (SOTA) que pueden incluir una elaboración específica para las pruebas de referencia o protocolos de entrenamiento adicionales:

Cargando...

Muchas de las pruebas de referencia de ML existentes están escritas en inglés. Para tener una idea inicial de la funcionalidad en otros idiomas, tradujimos la prueba de referencia MMLU —un conjunto de 14 000 problemas de opción múltiple que abarcan 57 temas— a varios idiomas utilizando Azure Translate (consulta el Apéndice). En 24 de los 26 idiomas probados, GPT‑4 supera el rendimiento en inglés de GPT‑3.5 y otros LLM (Chinchilla, PaLM), incluso en idiomas con pocos recursos como el letón, el galés y el suajili:

Cargando...

Además, usamos GPT‑4 de forma interna, con gran repercusión en funciones como soporte técnico, ventas, moderación de contenido y programación. También lo usamos para ayudar a los humanos a evaluar los resultados de la IA, y así iniciar la segunda fase de nuestra estrategia de alineación.

Entradas visuales

GPT‑4 puede aceptar un mensaje de texto e imágenes, lo que paralelamente a la configuración de solo texto, permite al usuario especificar cualquier tarea de visión o lenguaje. En concreto, genera salidas de texto (lenguaje natural, código, etc.) a partir de entradas compuestas por texto e imágenes intercalados. En una amplia gama de dominios, incluidos documentos con texto y fotografías, diagramas o capturas de pantalla, GPT‑4 muestra funcionalidades similares a las de las entradas de solo texto. Además, puede ampliarse con técnicas de tiempo de prueba desarrolladas para modelos de lenguaje de solo texto, como las de indicaciones de few-shot y cadena de pensamiento(se abre en una nueva ventana). Las entradas de imágenes aún son una vista previa de investigación y no están disponibles al público.

Cargando...

Evaluamos el rendimiento de GPT‑4 en un conjunto limitado de pruebas de referencia de visión académicas estándar. Sin embargo, estas cifras no representan totalmente el alcance de sus funcionalidades, ya que constantemente descubrimos nuevas y apasionantes tareas que el modelo es capaz de realizar. Tenemos previsto publicar en breve más análisis y cifras de evaluación, así como una investigación exhaustiva del efecto de las técnicas de tiempo de prueba.

nota a pie de página internaA

Cargando...

Capacidad de dirección

Trabajamos en todos los aspectos del plan descrito en nuestra publicación sobre la definición del comportamiento de las IA, incluida la capacidad de dirección. En lugar de la personalidad clásica de ChatGPT con una verbosidad, un tono y un estilo fijos, los desarrolladores (y pronto los usuarios de ChatGPT) ahora podrán establecer el estilo y la tarea de su IA mediante la descripción de esas instrucciones en el mensaje del “sistema”. Los mensajes del sistema permiten a los usuarios de la API personalizar en gran medida la experiencia de sus usuarios dentro de unos límites(se abre en una nueva ventana). Seguiremos mejorando en este sentido (y sobre todo sabemos que los mensajes del sistema son la forma más fácil de “jailbreak” del modelo actual, es decir, que el cumplimiento de los límites no es perfecto), pero te invitamos a que lo pruebes y nos digas qué te parece.

Cargando...

Limitaciones

A pesar de sus funcionalidades, GPT‑4 tiene limitaciones similares a las de los modelos de GPT anteriores. Y lo que es más importante, sigue sin ser totalmente confiable (“alucina” con los hechos y comete errores de razonamiento). Hay que tener mucho cuidado al utilizar las salidas de los modelos de lenguaje, sobre todo en contextos de alto riesgo, con el protocolo exacto (como la revisión humana, la fundamentación con contexto adicional o evitar por completo los usos de alto riesgo) que se ajuste a las necesidades de un caso de uso específico.

Si bien sigue siendo un problema real, GPT‑4 reduce en gran medida las alucinaciones con respecto a los modelos anteriores (que a su vez han mejorado con cada iteración). GPT‑4 obtiene una puntuación un 40 % superior a nuestra versión más reciente, GPT‑3.5, en nuestras evaluaciones internas de los hechos adversos:

Cargando...

En este sentido, se observan progresos en las pruebas de referencia externas, como TruthfulQA, que evalúa la capacidad del modelo para separar los hechos de un conjunto de afirmaciones incorrectas seleccionadas de forma adversa. Estas preguntas van acompañadas de respuestas objetivamente incorrectas que resultan interesantes desde el punto de vista estadístico.

Cargando...

El modelo base GPT‑4 es solo un poco mejor en esta tarea que GPT‑3.5; sin embargo, después del entrenamiento posterior con RLHF (que aplica el mismo proceso que se utilizó con GPT‑3.5 ) hay una gran diferencia. Si se examinan algunos ejemplos a continuación, GPT‑4 se resiste a seleccionar refranes comunes (no se pueden enseñar trucos nuevos a un perro viejo); sin embargo, aún puede pasar por alto detalles sutiles (Elvis Presley no era hijo de un actor).

Cargando...

El modelo puede presentar varios sesgos en sus salidas. Hemos avanzado en este sentido, pero aún queda mucho por hacer. Según nuestra reciente publicación en el blog, nuestro objetivo es que los sistemas de IA que creamos tengan comportamientos predeterminados razonables que reflejen una amplia gama de valores de los usuarios, permitan personalizar esos sistemas dentro de unos límites generales y obtengan la opinión del público sobre cuáles deberían ser esos límites.

En general, GPT‑4 desconoce los eventos que se produjeron después de la interrupción de la gran mayoría de sus datos (septiembre de 2021) y no aprende de su experiencia. A veces, puede cometer simples errores de razonamiento que no parecen corresponderse con su competencia en muchos dominios, o ser demasiado ingenuo al aceptar afirmaciones evidentemente falsas de un usuario. Y, a veces, puede fallar en problemas difíciles del mismo modo que lo hacen los humanos, como introducir vulnerabilidades de seguridad en el código que produce.

GPT‑4 también puede equivocarse con seguridad en sus predicciones, ya que no se preocupa por volver a comprobar el trabajo cuando es probable que cometa un error. Es interesante señalar que el modelo base entrenado previamente está muy calibrado (su confianza prevista en una respuesta suele coincidir con la probabilidad de que sea correcta). Sin embargo, gracias a nuestro actual proceso de entrenamiento posterior, la calibración se reduce.

Cargando...

Riesgos y mitigaciones

Desde el inicio del entrenamiento, trabajamos para que GPT‑4 sea más seguro y esté más alineado, a través de la selección y el filtrado de los datos previos al entrenamiento, las evaluaciones y la participación de expertos, las mejoras en la seguridad de los modelos, y la supervisión y el cumplimiento de las normas.

GPT‑4 presenta riesgos similares a los de los modelos anteriores, como la generación de consejos peligrosos, código con errores o información poco precisa. Sin embargo, las funcionalidades adicionales de GPT‑4 generan nuevas áreas de riesgo. Para comprender el alcance de estos riesgos, contratamos a más de 50 expertos de diversos dominios, como los riesgos de alineación de la IA, la ciberseguridad, los riesgos biológicos, la confianza y la seguridad, y la seguridad internacional, para que pusieran a prueba el modelo en condiciones adversas. Sus hallazgos nos permitieron probar específicamente el comportamiento del modelo en áreas de alto riesgo cuya evaluación requiere conocimientos especializados. Los comentarios y datos de estos expertos contribuyeron a mitigar y mejorar el modelo; por ejemplo, recopilamos datos adicionales para mejorar la capacidad de GPT‑4 de rechazar solicitudes sobre cómo sintetizar sustancias químicas peligrosas.

GPT‑4 incorpora una señal de recompensa de seguridad adicional durante el entrenamiento con RLHF para reducir las salidas nocivas (tal y como se definen en nuestras pautas de uso(se abre en una nueva ventana)) entrenando al modelo para que rechace las solicitudes de este tipo de contenidos. La recompensa la proporciona un clasificador zero-shot de GPT‑4 que evalúa los límites de seguridad y el estilo de finalización en mensajes relacionados con la seguridad. Para evitar que el modelo rechace solicitudes válidas, recopilamos un conjunto de datos diverso procedente de varias fuentes (por ejemplo, datos de producción etiquetados, pruebas humanas de equipos rojos, mensajes generados por el modelo) y aplicamos la señal de recompensa de seguridad (con un valor positivo o negativo) tanto a las categorías permitidas como a las no permitidas. 

Nuestras mitigaciones mejoraron en gran medida muchas de las propiedades de seguridad de GPT‑4 en comparación con GPT‑3.5. En comparación con GPT‑3.5, redujimos la tendencia del modelo para responder a solicitudes de contenido no permitido en un 82 %, y GPT‑4 responde a solicitudes delicadas (por ejemplo, consejos médicos y autolesiones) de acuerdo con nuestras políticas un 29 % más a menudo.

Cargando...
Cargando...

En general, nuestras intervenciones a nivel de modelo aumentan la dificultad de provocar un mal comportamiento, pero hacerlo sigue siendo posible. Además, siguen existiendo “jailbreaks” para generar contenidos que infringen nuestras pautas de uso. A medida que aumente el “riesgo por token” de los sistemas de IA, será fundamental lograr niveles muy altos de confiabilidad en estas intervenciones; por ahora, es importante complementar estas limitaciones con técnicas de seguridad en tiempo de implementación, como la supervisión de abusos.

GPT‑4 y los modelos sucesores tienen el potencial de influir en gran medida en la sociedad, tanto de forma beneficiosa como perjudicial. Colaboramos con investigadores externos para mejorar la comprensión y evaluación de las posibles repercusiones, así como para elaborar evaluaciones de las funcionalidades peligrosas que puedan surgir en futuros sistemas. Pronto compartiremos más ideas sobre las posibles repercusiones sociales y económicas de GPT‑4 y otros sistemas de IA.

Proceso de entrenamiento

Al igual que los modelos de GPT anteriores, el modelo base de GPT‑4 se entrenó para predecir la siguiente palabra de un documento, y se entrenó utilizando datos disponibles al público (como datos de Internet), así como datos de los que tenemos licencia. Se trata de un corpus de datos a escala web que incluye soluciones correctas e incorrectas a problemas matemáticos, razonamientos débiles y sólidos, afirmaciones autocontradictorias y coherentes, y que representa una gran variedad de ideologías e ideas.

Así, cuando se le plantea una pregunta, el modelo base puede responder de formas muy diversas que pueden alejarse de la intención del usuario. Para alinearlo con la intención del usuario dentro de los límites de seguridad, realizamos un ajuste fino del comportamiento del modelo utilizando el aprendizaje por refuerzo con retroalimentación humana (RLHF).

Ten en cuenta que las funcionalidades del modelo parecen provenir principalmente del proceso de entrenamiento previo: RLHF no mejora el rendimiento del examen (sin un trabajo activo, de hecho lo deteriora). Sin embargo, la dirección del modelo procede del proceso posterior al entrenamiento: el modelo base requiere una ingeniería de mensajes para saber si debe responder a las preguntas.

Escalamiento predecible

Uno de los principales objetivos del proyecto de GPT‑4 es crear una pila de aprendizaje profundo que pueda escalarse de forma predecible. La razón principal es que, para ejecuciones de entrenamiento muy grandes como GPT‑4, no es factible realizar un ajuste exhaustivo específico del modelo. Desarrollamos una infraestructura y una optimización que tienen un comportamiento muy predecible en varias escalas. Para verificar esta escalabilidad, predecimos con exactitud y antelación la pérdida final de GPT‑4 en nuestro código base interno (que no formaba parte del conjunto de entrenamiento) extrapolando modelos entrenados con la misma metodología pero utilizando 10 000 veces menos capacidad de proceso:

Cargando...

Ahora que podemos predecir con precisión la métrica que optimizamos durante el entrenamiento (pérdida), empezamos a desarrollar una metodología para predecir métricas que se puedan interpretar mejor. Por ejemplo, predecimos con éxito el índice de aprobados en un subconjunto del conjunto de datos HumanEval(se abre en una nueva ventana), extrapolando a partir de modelos con 1000 veces menos capacidad de proceso:

Cargando...

Algunas funcionalidades siguen siendo difíciles de predecir. Por ejemplo, el Premio de Escala Inversa era una competición para encontrar una métrica que empeorara a medida que aumentaba la capacidad de proceso del modelo, y la negligencia retrospectiva(se abre en una nueva ventana) fue una de las ganadoras. Al igual que con otro resultado(se abre en una nueva ventana) reciente, GPT‑4 revierte la tendencia:

Cargando...

Creemos que predecir con exactitud las funcionalidades futuras del aprendizaje automático es una parte importante de la seguridad a la que no se presta suficiente atención en relación con su impacto potencial (aunque nos sentimos optimistas por los esfuerzos realizados en varias instituciones). Intensificamos nuestros esfuerzos para desarrollar métodos que orienten mejor a la sociedad sobre lo que puede esperar de los sistemas futuros, y esperamos que esto se convierta en un objetivo común en este campo.

OpenAI Evals

OpenAI Evals(se abre en una nueva ventana) es nuestro marco de software de código abierto para la creación y ejecución de pruebas de referencia para la evaluación de modelos como GPT‑4, a la vez que inspecciona su rendimiento muestra por muestra. Utilizamos Evals para orientar el desarrollo de nuestros modelos (tanto para identificar deficiencias como para evitar regresiones), y nuestros usuarios pueden aplicarlo para hacer un seguimiento del rendimiento de las distintas versiones de los modelos (que ahora aparecerán con regularidad) y de la evolución de las integraciones de productos. Por ejemplo, Stripe utiliza Evals como complemento de sus evaluaciones humanas para medir la precisión de su herramienta de documentación basada en GPT.

Dado que todo el código es de código abierto, Evals permite escribir nuevas clases para implementar una lógica de evaluación personalizada(se abre en una nueva ventana). Sin embargo, según nuestra propia experiencia, muchas pruebas de referencia siguen una de las pocas “plantillas”, por lo que también incluimos las plantillas(se abre en una nueva ventana) que son más útiles a nivel interno (incluida una plantilla para “evaluaciones calificadas por el modelo”: descubrimos que GPT‑4 es sorprendentemente capaz de comprobar su propio trabajo). Por lo general, la forma más eficaz de elaborar una nueva evaluación(se abre en una nueva ventana) será ejemplificar una de estas plantillas junto con los datos proporcionados. Nos complace ver lo que otros pueden hacer con estas plantillas y con Evals en general.

Esperamos que Evals se convierta en un instrumento para compartir y hacer públicas las evaluaciones de referencia, que representen un conjunto lo más amplio posible de modos de fallas y tareas difíciles. Como ejemplo para seguir, creamos una evaluación de rompecabezas lógicos(se abre en una nueva ventana) que contiene diez mensajes en los que falla GPT‑4. Evals también es compatible con la implementación de pruebas de referencia existentes. Incluimos varios bloques de notas(se abre en una nueva ventana) que implementan pruebas de referencia académicas y algunas variaciones de la integración de (pequeños subconjuntos de) CoQA(se abre en una nueva ventana) como ejemplo.

Invitamos a todo el mundo a utilizar Evals para probar nuestros modelos y enviar los ejemplos más interesantes. Creemos que Evals será una parte integral del proceso de uso y construcción de nuestros modelos, y agradecemos las contribuciones directas, las preguntas y los comentarios(se abre en una nueva ventana).

ChatGPT Plus

Los miembros de ChatGPT Plus tendrán acceso a GPT‑4 en chatgpt.com(se abre en una nueva ventana) con una capacidad de uso. Ajustaremos la capacidad de uso exacta en función de la demanda y el rendimiento del sistema en la práctica, pero esperamos tener una capacidad muy limitada (aunque la ampliaremos y optimizaremos en los próximos meses).

En función de los patrones de tráfico que observemos, es posible que incorporemos un nuevo nivel de suscripción para un mayor volumen de uso de GPT‑4. También esperamos poder ofrecer en algún momento una cierta cantidad de consultas gratuitas de GPT‑4 para que los usuarios sin suscripción también puedan probarlo.

API

Para obtener acceso a la API de GPT‑4 (que utiliza la misma API de finalizaciones de chat(se abre en una nueva ventana) que gpt-3.5-turbo), suscríbete a nuestra lista de espera. Empezaremos por invitar a algunos desarrolladores hoy y ampliaremos gradualmente para equilibrar la capacidad con la demanda. Si eres una persona que estudia el impacto social de la IA o los problemas de alineación de la IA, también puedes solicitar acceso subvencionado a través de nuestro Programa de Acceso para Investigadores.

Una vez que tengas acceso, podrás hacer solicitudes de solo texto al modelo gpt-4 (las entradas de imágenes aún están en la versión Alpha limitada), que actualizaremos automáticamente a nuestro modelo estable recomendado a medida que creemos nuevas versiones con el tiempo (puedes fijar la versión actual llamando a gpt-4-0314, disponible hasta el 14 de junio). El precio es de $0,03 por 1000 tokens de mensajes y $0,06 por 1000 tokens de finalización. Los límites de velocidad predeterminados son 40 000 tokens por minuto y 200 solicitudes por minuto.

gpt-4 tiene una longitud de contexto de 8192 tokens. También proporcionamos acceso limitado a nuestra versión de 32 768 contextos (unas 50 páginas de texto), gpt-4-32k, que también se actualizará automáticamente con el tiempo (versión actual gpt-4-32k-0314, también disponible hasta el 14 de junio). El precio es de $0,06 por 1000 tokens de mensajes y $0,12 por 1000 tokens de finalización. Seguimos mejorando la calidad del modelo para un contexto largo y nos encantaría recibir tus comentarios sobre cómo funciona en tu caso de uso. Procesamos las solicitudes de los motores de 8000 y 32 000 a diferentes velocidades en función de la capacidad, por lo que es posible que recibas acceso a ellos en diferentes momentos.

Conclusiones

Esperamos que GPT‑4 se convierta en una valiosa herramienta para mejorar la vida de las personas gracias a sus numerosas aplicaciones. Aún queda mucho trabajo por hacer, y esperamos mejorar este modelo gracias a la colaboración de la comunidad que lo desarrolla, lo explora y contribuye a él.

Apéndice

Ejemplo de preguntas de MMLU, traducidas a otros idiomas. Ten en cuenta que utilizamos tokens de opciones coherentes (A-D):

Cargando...

Notas al pie

  1. A

    Evaluamos esta referencia a partir de mensajes de cadena de pensamiento con 4 ejemplos del conjunto de entrenamiento en contexto. El mensaje específico se ajustó según el conjunto de validación.

Referencias

  1. 1

    P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Encontrarás más detalles en el documento(se abre en una nueva ventana).

Autor/a

OpenAI