Pasar al contenido principal
OpenAI

18 de julio de 2024

Comunicado de prensa

GPT-4o mini: el avance de la inteligencia rentable

Presentamos nuestro modelo reducido más rentable

Cargando...

En OpenAI, cumplimos con nuestro compromiso de poner la inteligencia a disposición de la mayor cantidad de gente posible. Hoy, damos a conocer GPT‑4o mini, nuestro modelo reducido más rentable. Esperamos que amplíe notablemente el abanico de aplicaciones que se crearán con IA ya que reduce los costos de la inteligencia artificial. En la prueba de comprensión lingüística multitarea masiva (MMLU), GPT‑4o mini obtuvo una puntuación de 82 % y, según la clasificación de LMSYS(se abre en una nueva ventana), interactúa mejor en el chat que GPT‑41. El millón de tokens de entrada tiene un costo de 15 centavos de dólar y el de tokens de salida, 60 centavos de dólar, por lo que propone un servicio exponencialmente superior a un precio mucho más accesible que los modelos punteros anteriores, siendo un 60 % más barato que GPT‑3.5 Turbo.

Gracias a su baja latencia y precio accesible, GPT‑4o mini permite delegar una amplia gama de tareas; existen aplicaciones que encadenan o envían solicitudes paralelas a diversos modelos (por ejemplo, las llamadas a varias API), que procesan grandes volúmenes de contexto al modelo (por ejemplo, la totalidad de un código base o un historial de conversación) o que les contestan a los clientes al instante con respuestas en tiempo real (por ejemplo, los chatbots de atención al cliente). 

En la actualidad, la API de GPT‑4o mini cuenta con funciones de texto y visión. Próximamente, los usuarios podrán interactuar mediante texto, imágenes, audio y video. El modelo cuenta con una ventana de contexto de 128 000 tokens, admite hasta 16 000 tokens de salida por solicitud y su fecha límite de conocimiento es octubre de 2023. Gracias a las mejoras del tokenizador de GPT‑4o, el uso del modelo en otros idiomas que no sean inglés ahora es más rentable.

Un modelo reducido con inteligencia lingüística y razonamiento multimodal superiores

GPT‑4o mini admite la misma cantidad de idiomas que GPT‑4o y, en evaluaciones comparativas abstractas, ha superado a GPT‑3.5 Turbo y otros modelos reducidos tanto en pruebas de inteligencia lingüística como de razonamiento multimodal. También presenta un rendimiento óptimo en las llamadas a funciones, lo cual les permite a los programadores crear aplicaciones que recuperen datos o interactúen con sistemas externos y, responde mejor que GPT‑3.5 Turbo a solicitudes complejas con mucho contexto.

GPT‑4o mini se ha sometido a diversas evaluaciones comparativas fundamentales2.

Tareas de razonamiento: GPT‑4o mini responde mejor que otros modelos reducidos a las tareas de razonamiento que implican el uso de funciones de texto y visión. En la prueba de MMLU (una evaluación comparativa de las capacidades de razonamiento e inteligencia lingüística), el modelo ha obtenido una puntuación de 82 %, en comparación con el 77.9 % de Gemini Flash y 73.8 % de Claude Haiku.

Competencias en matemáticas y programación: GPT‑4o mini produce resultados excelentes en las tareas de razonamiento matemático y programación, siendo superiores a los de los modelos reducidos anteriores que hay en el mercado. En la prueba de matemáticas multilingües en la escuela primaria (MGSM), que mide las capacidades de razonamiento matemático, GPT‑4o mini obtuvo una puntuación de 87 %, en comparación con el 75.5 % de Gemini Flash y el 71.7 % de Claude Haiku; mientras que en la evaluación HumanEval, logró una calificación de 87.2 %, frente al 71.5 % y 75.9 % de los respectivos modelos antes mencionados.  

Razonamiento multimodal: GPT‑4o mini también mostró resultados óptimos en la prueba de comprensión multimodal multidisciplinar masiva (MMMU), al alcanzar una puntuación de 59.4 %, en comparación con el 56.1 % de Gemini Flash y el 50.2 % de Claude Haiku.

Puntuaciones de evaluación de modelo

Como parte de nuestro proceso de desarrollo de los modelos, colaboramos con unos pocos socios de confianza que nos ayudan a comprender los usos que se le puede dar a GPT‑4o mini, así como sus limitaciones. Nos asociamos con empresas como Ramp(se abre en una nueva ventana) y Superhuman(se abre en una nueva ventana), quienes encontraron que los resultados que ofrece GPT‑4o mini son muchísimo mejores que los de GPT‑3.5 Turbo en tareas como extraer datos estructurados de comprobantes o redactar respuestas de calidad cuando se le da acceso al historial de correos.

Medidas de seguridad incorporadas

Desde su creación, nuestros modelos cuentan con un sistema de seguridad integrado, que extremamos en cada fase del proceso de desarrollo. En la etapa previa al entrenamiento, filtramos(se abre en una nueva ventana) la información que no queremos que los modelos aprendan ni usen como base para generar respuestas, como las incitaciones al odio, el contenido para adultos, los sitios webs que principalmente recaban datos personales y los correos no deseados. En la fase posterior al entrenamiento, adecuamos el comportamiento de los modelos según nuestras políticas por medio de técnicas como el aprendizaje por refuerzo a partir de comentarios humanos (RLHF) a fin de que las respuestas de los modelos sean más precisas y confiables.

GPT‑4o mini tiene incorporadas las mismas medidas de seguridad que GPT‑4o, el cual ha sido sometido a rigurosas evaluaciones tanto humanas como automatizadas siguiendo nuestro marco de preparación y bajo nuestra responsabilidad colectiva. Más de 70 consultores externos especializados en campos como la psicología social y la desinformación probaron GPT‑4o con el objetivo de detectar riesgos potenciales (ya solucionados) cuyos pormenores divulgaremos en la próxima tarjeta de sistema de GPT‑4o y la puntuación de preparación. Las apreciaciones que derivaron de estas evaluaciones profesionales contribuyeron a aumentar la seguridad tanto de GPT‑4o como de GPT‑4o mini.

Basándose en estos aprendizajes, los equipos además extremaron las medidas de seguridad de GPT‑4o mini empleando técnicas desarrolladas a partir de nuestras investigaciones. GPT‑4o mini en la API es el primer modelo en aplicar el método de jerarquía de instrucciones(se abre en una nueva ventana), el cual mejora la capacidad del modelo para abordar los jailbreaks, las inyecciones de prompts y las extracciones de prompts sobre el sistema. Gracias a esto, las respuestas son más confiables y el modelo es más seguro de usar en aplicaciones a gran escala.

Nuestro plan es seguir supervisando los usos que se le da a GPT‑4o mini y fortalecer la seguridad del modelo cuando detectemos nuevos riesgos.

Precios y disponibilidad

GPT‑4o mini ya está disponible como modelo de texto y visión en Assistants API, Chat Completions API y Batch API. El costo es de 15 centavos de dólar por cada millón de tokens de entrada y de 60 centavos por cada millón de tokens de salida, lo que equivale aproximadamente a 2 500 páginas de un libro normal. En los próximos días, implementaremos el modelo optimizado de GPT‑4o mini.

En consonancia con nuestra meta de poner las ventajas de la IA a disposición de todo el mundo, a partir de hoy los usuarios que usen ChatGPT gratis, ChatGPT Plus y ChatGPT Team podrán usar GPT‑4o mini en vez de GPT‑3.5, y quienes utilicen ChatGPT Enterprise podrán hacerlo a partir de la próxima semana.

¿Qué sigue?

En los últimos años, hemos sido testigos de los avances extraordinarios que hubo en el campo de la inteligencia artificial y de las importantes reducciones en sus costos. Por ejemplo, el costo por token de GPT‑4o mini disminuyó un 99 % desde la época de text-davinci-003, un modelo de menor capacidad presentado en 2022. Nuestro objetivo es continuar bajando los costos y mejorando las capacidades de los modelos.

Soñamos con un futuro en el que la inteligencia artificial se integre de forma eficaz en todas las aplicaciones y sitios web. GPT‑4o mini les está allanando el camino a los desarrolladores para que puedan crear y aplicaciones con IA eficientes de manera más fácil y a un costo accesible. En el futuro, las IA serán más accesibles, confiables y formarán parte de las experiencias digitales que tenemos a diario. ¡Para nosotros, es un orgullo ser quienes marcan el rumbo!

Autor

OpenAI

Agradecimientos

Dirección: Jacob Menick, Kevin Lu, Shengjia Zhao, Eric Wallace, Hongyu Ren, Haitang Hu, Nick Stathas, Felipe Petroski Such

Dirección del programa: Mianna Chen

Contribuciones mencionadas en https://openai.com/gpt-4o-contributions/

Notas al pie

  1. 1

    A partir de 18 julio de 2024, la versión de GPT-4o mini genera mejores resultados que GPT-4T 01-25.

  2. 2

    Los valores numéricos que se usaron para evaluar a GPT-4o mini se computaron con nuestro repositorio simple-evals(se abre en una nueva ventana) y el prompt con mensajes del sistema basado en el asistente de API. En el caso de los modelos de la competencia, utilizamos los valores máximos publicados en las evaluaciones correspondientes (cuando las hubo), la clasificación HELM(se abre en una nueva ventana) (evaluación integral de modelos de lenguaje) y nuestra propia evaluación basada en repositorios simple-eval.