Ir al contenido principal
OpenAI

7 de agosto de 2025

Producto

Presentamos GPT‑5 para desarrolladores

El mejor modelo para tareas autónomas y programación.

Cargando…

Introducción

Hoy lanzamos GPT‑5 en nuestra API: el modelo más potente que hemos creado hasta ahora para programar y llevar a cabo tareas autónomas con inteligencia.

GPT‑5 marca un nuevo estándar en los principales indicadores de rendimiento para programación, con un 74,9 % en SWE-bench Verified y un 88 % en Aider Polyglot. Lo hemos entrenado para que sea un auténtico compañero de desarrollo: genera código de alta calidad y se encarga de tareas como solucionar errores, editar y responder a preguntas sobre bases de código complejas. Es un modelo flexible y colaborativo, capaz de seguir instrucciones muy detalladas con gran precisión y de explicar de antemano los pasos, tanto antes como entre llamadas a herramientas.  En el desarrollo front-end también sobresale, superando a OpenAI o3 en un 70 % de las pruebas internas de programación web.

Hemos entrenado GPT‑5 con tareas de programación del mundo real, en colaboración con los primeros evaluadores de empresas emergentes y grandes empresas. Cursor afirma que GPT‑5 es el modelo más inteligente que han usado, fácil de dirigir y con una personalidad nunca vista en otros modelos. Windsurf ha compartido que GPT‑5 lidera sus evaluaciones y «tiene la mitad de errores en llamadas a herramientas respecto a otros modelos punteros». Vercel lo describe como «el mejor modelo de IA para front-end, con un rendimiento sobresaliente tanto en estética como en calidad de código, en una categoría propia».

GPT‑5 también destaca en tareas autónomas de larga duración, logrando resultados récord en τ2-bench telecom (96,7 %), una prueba comparativa de llamadas a herramientas publicada hace apenas dos meses. Gracias a su mayor comprensión de herramientas, GPT‑5 es capaz de encadenar llamadas a herramientas con precisión, tanto en secuencia como en paralelo, sin perder el hilo, lo que le permite desenvolverse mucho mejor en tareas reales complejas de principio a fin. GPT‑5 también sigue las instrucciones de herramientas con mayor precisión, gestiona mejor los errores relacionados con ellas y destaca en la recuperación de contenido contextual de largo alcance. Manus afirma que GPT‑5 ha alcanzado el mejor rendimiento que han visto en un solo modelo en sus pruebas internas. Notion señala que «las respuestas rápidas, sobre todo en modo de razonamiento bajo, hacen de GPT‑5 un modelo ideal cuando necesitas resolver tareas complejas con una sola indicación». Inditex destaca que «lo que realmente diferencia a GPT‑5 es la profundidad de su razonamiento: respuestas matizadas, con varios niveles de interpretación, que reflejan una comprensión real del tema».

En nuestra API hemos incorporado nuevas funciones para que los desarrolladores tengan más control sobre las respuestas del modelo. GPT‑5 incorpora un nuevo parámetro de «verbosity» (valores: bajo, medio, alto) , que permite ajustar si quieres una respuesta breve y directa o más extensa y elaborada. También hemos ajustado el parámetro reasoning_effort para que ahora pueda configurarse con un valor mínimo, lo que permite obtener respuestas más rápidas sin necesidad de procesos de razonamiento complejos. También hemos añadido un nuevo tipo de herramientas personalizadas, que permiten a GPT‑5 llamar a herramientas en texto plano en lugar de JSON. Las herramientas personalizadas admiten la restricción mediante gramáticas independientes definidas por el desarrollador.

GPT‑5 llega a la API en tres tamaños:gpt-5, gpt-5-mini y gpt-5-nano, para ofrecer a los desarrolladores más flexibilidad para equilibrar rendimiento, coste y latencia. Mientras que GPT‑5 en ChatGPT combina modelos razonadores, no razonadores y de enrutamiento, en la API es el modelo razonador que ofrece el máximo rendimiento. Conviene destacar que GPT‑5 con razonamiento mínimo es distinto del modelo sin razonamiento de ChatGPT y está mejor ajustado para desarrolladores. El modelo sin razonamiento que usa ChatGPT está disponible como gpt-5-chat-latest.

Para leer más sobre GPT‑5 en ChatGPT y saber más sobre otras mejoras de ChatGPT, visita nuestro blog de investigación. Y para conocer cómo las empresas están empezando a aprovechar GPT‑5, consulta nuestro blog para empresas.

Programación

GPT‑5 es el modelo más potente para programación que hemos lanzado hasta la fecha. Supera a o3 en pruebas comparativas de programación y en escenarios reales, y se ha ajustado para destacar en productos de programación autónoma como Cursor, Windsurf, GitHub Copilot y Codex CLI. Ha impresionado a nuestros evaluadores internos, estableciendo récords en muchas de sus evaluaciones privadas. 

Primeras opiniones sobre GPT‑5 en tareas de programación reales

«GPT-5 es el modelo de programación más inteligente que hemos usado. Nuestro equipo ha comprobado que GPT-5 es extraordinariamente inteligente, fácil de dirigir e incluso tiene una personalidad que no habíamos visto en ningún otro modelo. No solo detecta errores complicados y profundamente ocultos, sino que también puede ejecutar agentes en segundo plano y en varias interacciones para seguir tareas complejas hasta el final… el tipo de problemas que antes dejaban atascados a otros modelos. Se ha convertido en nuestra principal herramienta de trabajo, desde la planificación de los pull requests hasta la elaboración de proyectos de principio a fin».
Michael Truell, cofundador y CEO de Cursor

En SWE-bench Verified, una evaluación basada en tareas reales de ingeniería de software, GPT‑5 obtiene un 74,9 %, frente al 69,1 % de o3. Y no solo rinde mejor, sino que lo hace con más eficiencia: frente a o3, GPT‑5 logra ese resultado utilizando un 22 % menos de tokens de salida y realizando un 45 % menos de llamadas a herramientas.

En Verificado por SWE-bench, al modelo se le da un repositorio y una descripción de incidencia, y debe generar un parche que la resuelva. Las etiquetas de texto indican el nivel de razonamiento empleado. Nuestros resultados omiten 23 de 500 problemas cuyas soluciones no funcionaron de forma fiable en nuestra infraestructura. A GPT‑5 le dimos una indicación breve que insistía en comprobar minuciosamente las soluciones; esa misma indicación no le aportó ninguna ventaja a o3.

En aider polyglot, una evaluación sobre edición de código, GPT‑5 establece un nuevo récord del 88 % de aciertos y reduce los errores a un tercio en comparación con o3.

En Aider polyglot(se abre en una ventana nueva) (diff), el modelo recibe un ejercicio de programación de Exercism y debe resolverlo como un diff de código. Los modelos razonadores utilizaron un nivel alto de razonamiento.

También hemos comprobado que GPT‑5 es especialmente bueno analizando a fondo bases de código para responder cómo se relacionan entre sí distintas partes o cómo interactúan. En una base tan intrincada como nuestra pila de aprendizaje por refuerzo en OpenAI, hemos visto que GPT‑5 nos ayuda a razonar sobre nuestro propio código y responder a preguntas al respecto, agilizando así el trabajo del día a día. 

Desarrollo front-end

Al generar código front-end para aplicaciones web, GPT‑5 demuestra más sentido estético, ambición y precisión. En comparativas directas con o3, nuestros evaluadores se decantaron por GPT‑5 en un 70 % de los casos.

Aquí tienes algunos ejemplos divertidos de lo que GPT‑5 puede hacer a partir de una sola indicación:

Indicación: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.

Puedes ver más ejemplos creados con GPT‑5 en nuestra galería aquí(se abre en una ventana nueva).

Colaboración en programación

GPT‑5 colabora mejor, especialmente en herramientas de programación autónoma como Cursor, Windsurf, GitHub Copilot y Codex CLI. Cuando está en funcionamiento, puede generar planes, actualizaciones y resúmenes entre llamadas a herramientas. A diferencia de modelos anteriores, GPT‑5 es más proactivo completando tareas complejas sin necesidad de confirmación previa ni de quedarse bloqueado ante la dificultad.

Aquí tienes un ejemplo de cómo GPT‑5 afronta una tarea compleja: crear una web para un restaurante.

Después de que el usuario solicite una página web para su restaurante, GPT‑5 comparte un plan rápido, estructura la aplicación, instala las dependencias, crea el contenido del sitio, ejecuta una compilación para comprobar si hay errores, resume el trabajo y sugiere los posibles siguientes pasos. Este vídeo se ha acelerado aproximadamente ×3 para ahorrarte la espera; la duración total de la creación de la web fue de unos tres minutos.

Tareas autónomas

Más allá de la programación, GPT‑5 también destaca en tareas autónomas en general. GPT‑5 establece nuevos récords en benchmarks de seguimiento de instrucciones (69,6 % en Scale MultiChallenge, evaluado por o3‑mini) y uso de herramientas (96,7 % en τ2-bench telecom). Su capacidad para entender herramientas le permite encadenar acciones con mayor fiabilidad y completar tareas reales más complejas.

Primeras impresiones sobre GPT‑5 para tareas autónomas.

«GPT-5 es un gran paso adelante. Ha ofrecido el mejor rendimiento que hemos visto en un solo modelo en nuestras pruebas internas. GPT-5 rindió de forma excelente en diversas tareas autónomas, incluso antes de ajustáramos una sola línea de código o personalizar una indicación. Los nuevos preámbulos y el control más preciso sobre el uso supusieron un gran avance en estabilidad y capacidad de control de nuestros agentes».
Yichao «Peak» Ji, cofundador y director científico en Manus

Seguimiento de las instrucciones

GPT‑5 sigue las instrucciones con más fiabilidad que cualquiera de sus predecesores, obteniendo puntuaciones muy altas en COLLIE, Scale MultiChallenge y en nuestras evaluaciones internas de seguimiento de instrucciones.

En COLLIE(se abre en una ventana nueva), los modelos deben redactar un texto que cumpla diversas restricciones. En Scale MultiChallenge(se abre en una ventana nueva), se pone a prueba a los modelos en conversaciones de varios turnos para que utilicen correctamente cuatro tipos de información procedente de mensajes anteriores. Nuestras puntuaciones provienen del uso de o3‑mini como evaluador, que resultó más preciso que GPT‑4o. En nuestra evaluación interna de seguimiento de instrucciones con la API de OpenAI, los modelos deben seguir instrucciones complejas derivadas de comentarios reales de desarrolladores. Los modelos razonadores utilizaron un nivel alto de razonamiento.

Llamadas a herramientas

Hemos trabajado a fondo para mejorar cómo GPT‑5 utiliza las herramientas de manera útil para los desarrolladores. GPT‑5 sigue mejor las instrucciones, gestiona mejor los errores y es más eficaz realizando múltiples llamadas a herramientas, tanto en secuencia como en paralelo. Cuando se le indica, GPT‑5 también puede mostrar mensajes introductorios antes y entre llamadas a herramientas para mantener informado al usuario sobre el progreso durante tareas autónomas de mayor duración.

Hace dos meses, Sierra.ai publicó τ2-bench telecom como una prueba comparativa exigente para el uso de herramientas, que destacaba cómo el rendimiento de los modelos de lenguaje cae de forma significativa al interactuar con un entorno cuyo estado puede ser modificado por los usuarios. En su publicación(se abre en una ventana nueva) de referencia, ningún modelo superaba el 49 %. GPT‑5 alcanzó un 97 %.

En τ2-bench(se abre en una ventana nueva), un modelo debe utilizar herramientas para llevar a cabo una tarea de atención al cliente, en la que puede haber un usuario que se comunica y puede actuar sobre el estado del entorno. Los modelos razonadores utilizaron un nivel alto de razonamiento.

GPT‑5 también presenta notables mejoras en el rendimiento con contextos largos. En la evaluación OpenAI-MRCR, GPT‑5 supera a o3 y GPT‑4.1 en recuperación de información contextual, y la diferencia aumenta cuanto más largo es el texto.

En OpenAI-MRCR(se abre en una ventana nueva) (resolución de correferencias en múltiples turnos), se insertan varias solicitudes de usuario idénticas «aguja» dentro de largos «pajares» de solicitudes y respuestas similares, y se le pide al modelo que reproduzca la respuesta correspondiente a la aguja número i. La mean match ratio mide la media de coincidencia de cadenas entre la respuesta del modelo y la respuesta correcta. Los puntos en 256k de máximo de tókenes de entrada representan promedios calculados sobre entradas de entre 128k y 256k tókenes, y así sucesivamente. Aquí, 256k representa 256 * 1024 = 262 114 tókenes. Los modelos razonadores utilizaron un nivel alto de razonamiento.

También vamos a publicar como open source BrowseComp Long Context(se abre en una ventana nueva), una nueva prueba comparativa para evaluar preguntas y respuestas en contextos largos. En esta prueba comparativa, el modelo recibe una consulta del usuario junto con una larga lista de resultados de búsqueda relevantes, y debe responder a la pregunta basándose en esos resultados. Diseñamos BrowseComp Long Context para que fuera realista, exigente y con respuestas de referencia fiables y correctas. En entradas de entre 128 000 y 256 000 tókenes, GPT‑5 ofrece la respuesta correcta en el 89 % de los casos.

En la API, todos los modelos GPT‑5 pueden aceptar un máximo de 272 000 tókenes de entrada y generar hasta 128 000 tókenes de razonamiento y salida, lo que suma una longitud de contexto total de 400 000 tókenes.

Veracidad

GPT‑5 es más fiable que nuestros modelos anteriores. En las indicaciones de LongFact y FactScore, GPT‑5 comete aproximadamente un 80 % menos de errores fácticos que o3. Esto lo convierte en una opción más adecuada para tareas autónomas donde la precisión es clave: código, datos o toma de decisiones.

Las puntuaciones más altas son peores. LongFact(se abre en una ventana nueva) y FActScore(se abre en una ventana nueva) consisten en preguntas abiertas de búsqueda de hechos. Usamos un evaluador basado en un LLM con capacidad de navegación para verificar las respuestas de estas pruebas comparativas en las indicaciones y medir la proporción de afirmaciones incorrectas. Los detalles de implementación y evaluación se encuentran en la ficha del sistema. Los modelos razonadores utilizaron un alto esfuerzo de razonamiento. La búsqueda no estaba habilitada.

En general, hemos entrenado a GPT‑5 para que sea más consciente de sus propias limitaciones y capaz de gestionar imprevistos. También hemos entrenado GPT‑5 para que sea mucho más preciso en preguntas sobre salud (puedes leer más en nuestro blog de investigación). Como con cualquier modelo de lenguaje, recomendamos verificar el trabajo de GPT‑5 cuando lo que está en juego sea importante.

Novedades

Modo de razonamiento mínimo

Los desarrolladores pueden controlar el tiempo de razonamiento de GPT‑5 mediante el parámetro reasoning_effort en la API. Además de los valores anteriores: bajo, medio (predeterminado) y alto, GPT‑5 también admite el valor mínimo, que reduce al mínimo el razonamiento para devolver una respuesta rápidamente.

Los valores más altos en reasoning_effort maximizan la calidad y los valores más bajos maximizan la velocidad. No todas las tareas se benefician por igual del razonamiento adicional, así que recomendamos experimentar y ver qué funciona mejor para cada caso de uso.

Por ejemplo, un razonamiento superior al nivel bajo aporta poco en tareas relativamente simples de recuperación en contextos largos, pero suma varios puntos porcentuales en CharXiv Reasoning(se abre en una ventana nueva), una prueba comparativa de razonamiento visual.

El esfuerzo de razonamiento de GPT‑5 ofrece beneficios distintos según la tarea. Para el razonamiento CharXiv, se le dio a GPT‑5 acceso a una herramienta de Python.

Verbosity

Para ayudar a ajustar la longitud predeterminada de las respuestas de GPT‑5, hemos introducido un nuevo parámetro en la API: verbosity (detalle), con valores de bajo, medio (predeterminado) y alto. Si hay instrucciones explícitas que contradicen el nivel de verbosity, se da prioridad a las instrucciones. Por ejemplo, si pides a GPT‑5 «Escribe un ensayo de 5 párrafos», el modelo siempre generará cinco párrafos aunque el nivel de detalle sea bajo (eso sí, los párrafos podrían ser más o menos extensos).

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Mensajes introductorios antes de las llamadas a herramientas

Si se le indica, GPT‑5 mostrará mensajes introductorios visibles para el usuario antes y entre las llamadas a herramientas. A diferencia de los mensajes de razonamiento ocultos, estos mensajes visibles permiten que GPT‑5 comunique al usuario sus planes y avances, ayudándole a comprender el enfoque y la intención detrás de las llamadas a herramientas.

Herramientas personalizadas

Vamos a incorporar un nuevo tipo de herramienta, las herramientas personalizadas, que permiten a GPT‑5 llamar a una herramienta con texto plano en lugar de JSON. Para limitar a GPT‑5 a seguir formatos de herramientas personalizadas, los desarrolladores pueden proporcionar una expresión regular o incluso una gramática sin contexto(se abre en una ventana nueva) más detallada.

Hasta ahora, nuestra interfaz para herramientas definidas por desarrolladores requería el uso de JSON, un formato común en API web y desarrolladores en general. Sin embargo, generar un JSON válido exige que el modelo escape correctamente todas las comillas, las barras invertidas, los saltos de línea y demás caracteres de control. Aunque nuestros modelos están bien entrenados para generar JSON, en entradas largas, como cientos de líneas de código o un informe de cinco páginas, es más probable que aparezcan errores. Con las herramientas personalizadas, GPT‑5 puede escribir las entradas de las herramientas en texto plano, sin tener que escapar todos los caracteres que normalmente lo requieren.

En SWE-bench Verified, al usar herramientas personalizadas en lugar de herramientas en JSON, GPT‑5 obtiene prácticamente la misma puntuación.

Salvaguardia

GPT‑5 marca un avance en materia de seguridad y es un modelo más sólido, fiable y útil. GPT‑5 tiene muchas menos probabilidades de inventar información que nuestros modelos anteriores, comunica las acciones y capacidades al usuario de forma más transparente y ofrece la respuesta más útil posible, siempre dentro de los límites de seguridad. Puedes leer más en nuestro blog de investigación.

Disponibilidad y precio

GPT‑5 ya está disponible en la plataforma de API en tres tamaños: gpt-5, gpt-5-mini y gpt-5-nano. Está disponible en la API de respuestas, la API de finalizaciones de chat y es el modelo predeterminado en Codex CLI. GPT‑5 tiene un precio de 1,25 USD por millón de tókenes de entrada y 10 USD por millón de tókenes de salida; GPT‑5 mini cuesta 0,25 USD por millón de tókenes de entrada y 2 USD por millón de tókenes de salida; y GPT‑5 nano cuesta 0,05 USD por millón de tókenes de entrada y 0,40 USD por millón de tókenes de salida.

Estos modelos son compatibles con los parámetros de la API reasoning_effort y verbosity, así como con las herramientas personalizadas. También son compatibles con llamadas a herramientas en paralelo, herramientas integradas (búsqueda web, búsqueda en archivos, generación de imágenes y más), funciones clave de la API (transmisión, resultados estructurados, etc.) y opciones de ahorro como el almacenamiento en caché de indicaciones y la API por lotes.

La versión sin razonamiento de GPT‑5 que se usa en ChatGPT está disponible en la API como gpt-5-chat-latest, con un precio de 1,25 USD por millón de tókenes de entrada y 10 USD por millón de tókenes de salida.

GPT‑5 también se ha lanzado en las plataformas de Microsoft, incluidas Microsoft 365 Copilot, Copilot, GitHub Copilot y Azure AI Foundry.

Pruebas comparativas detalladas

Inteligencia
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6 %91,1 %85,2 %88,9 %92,7 %46,4 %40,2 %-
FrontierMath(with python tool only)26,3 %22,1 %9,6 %15,8 %15,4 %---
GPQA diamond(no tools)85,7 %82,3 %71,2 %83,3 %81,4 %66,3 %65,0 %50,3 %
HLE[1](no tools)24,8 %16,7 %8,7 %20,2 %14,7 %5,4 %3,7 %-
HMMT 2025(no tools)93,3 %87,8 %75,6 %81,7 %85,0 %28,9 %35,0 %-

[1] Existe una pequeña discrepancia con las cifras publicadas en nuestra entrada anterior del blog, ya que se obtuvieron con una versión anterior del HLE.

Multimodal
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2 %81,6 %75,6 %82,9 %81,6 %74,8 %72,7 %55,4 %
MMMU-Pro(avg across standard and vision sets)78,4 %74,1 %62,6 %76,4 %73,4 %60,3 %58,9 %33,0 %
CharXiv reasoning(python enabled)81,1 %75,5 %62,7 %78,6 %72,0 %56,7 %56,8 %40,5 %
VideoMMMU, max frame 25684,6 %82,5 %66,8 %83,3 %79,4 %60,9 %55,1 %30,2 %
ERQA65,7 %62,9 %50,1 %64,0 %56,5 %44,3 %42,3 %26,5 %
Programación
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 mil US$75 mil US$49 mil US$86 mil US$66 mil US$34 mil US$31 mil US$9 mil US$
SWE-bench Verified[2]74,9 %71,0 %54,7 %69,1 %68,1 %54,6 %23,6 %-
Aider polyglot(diff)88,0 %71,6 %48,4 %79,6 %58,2 %52,9 %31,6 %6,2 %

[2] Omitimos 23 de los 500 problemas que no pudieron ejecutarse en nuestra infraestructura. La lista completa de las 23 tareas omitidas es: «astropy__astropy-7606», «astropy__astropy-8707», «astropy__astropy-8872», «django__django-10097», «django__django-7530», «matplotlib__matplotlib-20488», «matplotlib__matplotlib-20676», «matplotlib__matplotlib-20826», «matplotlib__matplotlib-23299», «matplotlib__matplotlib-24970», «matplotlib__matplotlib-25479», «matplotlib__matplotlib-26342», «psf__requests-6028», «pylint-dev__pylint-6528», «pylint-dev__pylint-7080», «pylint-dev__pylint-7277», «pytest-dev__pytest-5262», «pytest-dev__pytest-7521», «scikit-learn__scikit-learn-12973», «sphinx-doc__sphinx-10466», «sphinx-doc__sphinx-7462», «sphinx-doc__sphinx-8265» y «sphinx-doc__sphinx-9367».

Seguimiento de instrucciones
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6 %62,3 %54,9 %60,4 %57,5 %46,2 %42,2 %31,1 %
Internal API instruction following eval(hard)64,0 %65,8 %56,1 %47,4 %44,7 %49,1 %45,1 %31,6 %
COLLIE99,0 %98,5 %96,9 %98,4 %96,1 %65,8 %54,6 %42,5 %

[3] Nota: hemos comprobado que el evaluador por defecto en MultiChallenge (GPT-4o) puntúa erróneamente con frecuencia las respuestas del modelo. Hemos visto que sustituir el evaluador por un modelo razonador, como o3-mini, mejora significativamente la precisión de la evaluación en las muestras que hemos revisado.

Llamadas a funciones
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6 %60,0 %41,0 %64,8 %60,2 %56,0 %51,0 %14,0 %
Tau2-bench retail81,1 %78,3 %62,3 %80,2 %70,5 %74,0 %66,0 %21,5 %
Tau2-bench telecom96,7 %74,1 %35,5 %58,2 %40,5 %34,0 %44,0 %12,1 %
Contexto largo
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2 %84,3 %43,2 %55,0 %56,4 %57,2 %47,2 %36,6 %
OpenAI-MRCR: 2 needle 256k86,8 %58,8 %34,9 %--56,2 %45,5 %22,6 %
Graphwalks bfs <128k78,3 %73,4 %64,0 %77,3 %62,3 %61,7 %61,7 %25,0 %
Graphwalks parents <128k73,3 %64,3 %43,8 %72,9 %51,1 %58,0 %60,5 %9,4 %
BrowseComp Long Context 128k90,0 %89,4 %80,4 %88,3 %80,0 %85,9 %89,0 %89,4 %
BrowseComp Long Context 256k88,8 %86,0 %68,4 %--75,5 %81,6 %19,1 %
VideoMME(long, with subtitle category)86,7 %78,5 %65,7 %84,9 %79,5 %78,7 %68,4 %55,2 %
Alucinaciones
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0 %0,7 %1,0 %5,2 %3,0 %0,7 %1,1 %-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2 %1,3 %2,8 %6,8 %8,9 %1,1 %1,8 %-
FActScore hallucination rate(no tools)[lower is better]2,8 %3,5 %7,3 %23,5 %38,7 %6,7 %10,9 %-

Autor

OpenAI