GPT‑4o mini: una apuesta por la inteligencia rentable
Presentamos nuestro modelo más pequeño y rentable
OpenAI tiene el compromiso de hacer que la inteligencia artificial llegue a tanta gente como sea posible. Por eso, hoy nos complace presentar GPT‑4o mini, nuestro modelo más pequeño y rentable. Esperamos que GPT‑4o mini amplíe considerablemente el abanico de aplicaciones creadas con IA, al hacer que la inteligencia artificial sea mucho más asequible. GPT‑4o mini obtiene una puntuación del 82 % en MMLU y, por ahora, su chat es mejor que el de GPT‑41 según la clasificación de LMSYS(se abre en una ventana nueva). Tiene un precio de 15 céntimos por millón de tókenes de entrada y 60 céntimos por millón de tókenes de salida, mucho más asequible que los modelos anteriores y más de un 60 % más barato que GPT‑3.5 Turbo.
GPT‑4o mini permite llevar a cabo una gran variedad de tareas con un precio y una latencia reducidos, como aplicaciones que encadenan o envían solicitudes a múltiples modelos en paralelo (por ejemplo, llamar a múltiples API), transferir un gran volumen de contexto al modelo (por ejemplo, la base del código completo o el historial de conversaciones), o interactuar con los clientes con respuestas de texto rápidas y en tiempo real (por ejemplo, chatbots de atención al cliente).
Actualmente, GPT‑4o mini es compatible con texto y visión en la API, y será capaz de procesar inputs y outputs de texto, imagen, vídeo y audio en un futuro. El modelo tiene una ventana de contexto de 128 000 tókenes, es compatible con hasta 16 000 tókenes de salida por solicitud y dispone de conocimientos hasta octubre de 2023. Además, gracias al tokenizador mejorado que comparte con GPT‑4o, ahora es más rentable procesar textos que no estén en inglés.
Un modelo reducido con una inteligencia textual y un razonamiento multimodal excepcionales
GPT‑4o mini supera a GPT‑3.5 Turbo y a otros modelos reducidos en evaluaciones comparativas académicas tanto en inteligencia textual como en razonamiento multimodal, además de ser compatible con el mismo número de idiomas que GPT‑4o. También demuestra un rendimiento potente en la llamada de funciones, la cual permite a los desarrolladores crear aplicaciones que busquen datos o tomen acciones con sistemas externos, así como un rendimiento mejorado en contextos largos en comparación a GPT‑3.5 Turbo.
GPT‑4o mini se ha evaluado con varias de las evaluaciones comparativas principales2.
Tareas de razonamiento: GPT‑4o mini es mejor que otros modelos reducidos en tareas de razonamiento que requieren tanto texto como visión, con una puntuación del 82,0 % en MMLU, una evaluación comparativa de razonamiento e inteligencia textual, mientras que Gemini Flash obtuvo un 77,9 % y Claude Haiku, un 73,8 %.
Competencia en matemáticas y programación: GPT‑4o mini sobresale en tareas de programación y razonamiento matemático, hasta el punto de superar modelos reducidos anteriores que ya estaban en el mercado. Según la comparativa MGSM, que mide el razonamiento matemático, GPT‑4o mini obtuvo una puntuación del 87,0 %, mientras que Gemini Flash logró un 75,5 % y Claude Haiku, un 71,7 %. Por si fuera poco, GPT‑4o mini obtuvo un 87,2 % en HumanEval, que mide las capacidades de programación, a diferencia de Gemini Flash, que obtuvo un 71,5 %, y Claude Haiku, que consiguió un 75,9 %.
Razonamiento multimodal: GPT‑4o mini también demuestra su potencial en MMMU, una evaluación de razonamiento multimodal, en la cual obtuvo un 59,4 %, a diferencia de Gemini Flash, que logró un 56,1 %, y Claude Haiku, que consiguió un 50,2 %.
Puntuaciones de las evaluaciones del modelo
Como parte del proceso de desarrollo del modelo, también trabajamos con un gran abanico de socios de confianza, que nos ayudaron a entender mejor los casos de uso y las limitaciones de GPT‑4o mini. Nos hemos asociado con empresas como Ramp(se abre en una ventana nueva) y Superhuman(se abre en una ventana nueva), quienes se percataron de que GPT‑4o mini obtenía resultados significativamente más prometedores que GPT‑3.5 Turbo en tareas como la extracción de datos estructurados de recibos o la generación de respuestas de calidad cuando se le proporcionaba un histórico de correos.
Medidas de seguridad integradas
Integramos la seguridad en nuestros modelos desde el primer momento y nos aseguramos de reforzarla en cada fase del proceso de desarrollo. Durante el preentrenamiento, filtramos y excluimos(se abre en una ventana nueva) la información que no queremos que nuestros modelos aprendan ni usen para crear respuestas, como discursos de odio, contenido adulto, páginas que básicamente acumulan datos personales y correo no deseado. En el posentrenamiento, alineamos el comportamiento del modelo con nuestras políticas a través de técnicas, como el aprendizaje por refuerzo a partir de comentarios humanos (RLHF) para mejorar la precisión y la fiabilidad de sus respuestas.
GPT‑4o mini tiene incorporadas las mismas medidas de seguridad que GPT‑4o, las cuales examinamos con detenimiento mediante evaluaciones automatizadas y humanas, según nuestro marco de preparación y de acuerdo con nuestros compromisos voluntarios. Más de 70 expertos externos de campos como la psicología social y la desinformación han evaluado GPT‑4o para identificar sus riesgos potenciales, los cuales ya hemos abordado y planeamos compartir en detalle en la próxima tarjeta del sistema GPT‑4o, así como en el sistema de evaluación de preparación. Las valiosas aportaciones de estos expertos han ayudado a mejorar la seguridad tanto de GPT‑4o como de GPT‑4o mini.
A partir de estos hallazgos, nuestros equipos también han trabajado para mejorar la seguridad de GPT‑4o mini a través de nuevas técnicas basadas en nuestras investigaciones. GPT‑4o mini en la API es el primer modelo en aplicar el método de jerarquía de instrucciones(se abre en una ventana nueva), que ayuda a mejorar la resistencia del modelo a jailbreaks, inyecciones de prompts y extracciones de prompts del sistema. Esto permite que las respuestas sean más fiables y que el modelo sea más seguro para poder introducirlo en aplicaciones a gran escala.
Seguiremos supervisando cómo se usa GPT‑4o mini y continuaremos mejorando la seguridad del modelo a medida que vayamos identificando nuevos riesgos.
Disponibilidad y precios
Actualmente, GPT‑4o mini está disponible como modelo de texto y visión en Assistants API, Chat Completions API y Batch API. El precio para desarrolladores es de 15 céntimos por millón de tókenes de entrada y 60 céntimos por millón de tókenes de salida (lo que equivaldría a 2500 páginas en un libro normal). Esperamos implementar la optimización para GPT‑4o mini en los próximos días.
Por otro lado, los usuarios de ChatGPT Free, Plus y Team podrán acceder a GPT‑4o mini desde hoy, sustituyendo a GPT‑3.5. Los usuarios de ChatGPT Enterprise también tendrán acceso a partir de la semana que viene, de acuerdo con nuestra misión de hacer que los beneficios de la IA estén al alcance de todo el mundo.
¿Qué nos depara el futuro?
En los últimos años hemos presenciado avances extraordinarios en el campo de la inteligencia artificial, acompañados de reducciones importantes en los costes. Por ejemplo, el coste por token de GPT‑4o mini se ha reducido un 99 % desde text-davinci-003, un modelo con menos capacidades presentado en 2022. Nos comprometemos a continuar esta trayectoria y seguir abaratando costes al mismo tiempo que mejoramos las capacidades del modelo.
Vislumbramos un futuro en el que los modelos se integrarán de forma fluida en cada aplicación o página web. De hecho, GPT‑4o mini está abriendo el camino para que los desarrolladores puedan crear y escalar aplicaciones con una IA potente de forma más eficiente y asequible. En el futuro, la IA será más accesible y fiable, y se integrará en las experiencias digitales de nuestro día a día. Nos complace seguir siendo quienes marcan el rumbo del sector.
Autor
Agradecimientos
Líderes: Jacob Menick, Kevin Lu, Shengjia Zhao, Eric Wallace, Hongyu Ren, Haitang Hu, Nick Stathas y Felipe Petroski Such
Líder del programa: Mianna Chen
Todas las contribuciones están disponibles en https://openai.com/gpt-4o-contributions/
Notas al pie
- 1
A 18 de julio de 2024, una versión anterior de GPT-4o mini supera a GPT-4T 01-25.
- 2
Las cifras para evaluar GPT-4o mini se calculan mediante un repositorio de simple-evals(se abre en una ventana nueva) y el prompt de mensajes del sistema basado en el asistente de la API. Para los modelos de la competencia, tenemos en cuenta las cifras máximas comunicadas (si están disponibles), la clasificación de HELM(se abre en una ventana nueva) y nuestra propia reproducción a través de simple-evals.