Presentamos GPT‑5 para desarrolladores
El mejor modelo para programación y tareas de agentes.
Hoy, lanzamos GPT‑5 en nuestra plataforma API, nuestro mejor modelo hasta la fecha para tareas de programación y agentes.
GPT‑5 es el modelo de vanguardia (SOTA) en las principales pruebas de referencia de programación, con una puntuación del 74,9 % en SWE-bench Verified y del 88 % en Aider polyglot. Entrenamos a GPT‑5 para que sea un verdadero colaborador en la programación. Se destaca por producir código de alta calidad y manejar tareas como corregir errores, editar código y responder preguntas sobre códigos base complejos. El modelo se puede dirigir y es colaborativo: puede seguir instrucciones muy detalladas con gran precisión y puede proporcionar explicaciones por adelantado de sus acciones antes de las llamadas a herramientas y entre ellas. El modelo también se destaca en la programación de front-end, ya que superó a OpenAI o3 en el desarrollo web de front-end en el 70 % de las pruebas internas.
Entrenamos a GPT‑5 con tareas reales de programación en colaboración con los primeros evaluadores de startups y empresas. Cursor afirma que GPT‑5 es “el modelo más inteligente que han usado” y “sorprendentemente inteligente, fácil de manejar e incluso tiene una personalidad que no han visto en otros modelos”. Windsurf compartió que GPT‑5 es un modelo SOTA en sus evaluaciones y “tiene la mitad de la tasa de errores de llamada a herramientas que otros modelos avanzados”. Vercel afirma que “es el mejor modelo de IA para front-end, ya que alcanza el máximo rendimiento tanto en el sentido estético como en la calidad del código, lo que lo sitúa en una categoría propia”.
GPT‑5 también se destaca en tareas de agentes de larga duración, lo que le ha permitido alcanzar resultados SOTA en τ2-bench telecom (96,7 %), una prueba de referencia para la llamada a herramientas que se lanzó hace solo dos meses. La inteligencia mejorada de GPT‑5 en materia de herramientas le permite encadenar de forma fiable decenas de llamadas a herramientas, tanto en secuencia como en paralelo, sin perder el hilo, lo que lo hace mucho más eficaz en la ejecución de tareas complejas del mundo real de principio a fin. Además, sigue las instrucciones de las herramientas con mayor precisión, gestiona mejor los errores de las herramientas y se destaca en la recuperación de contenido de contexto largo. Manus afirma que GPT‑5 “ha logrado el mejor rendimiento que jamás [hayan] visto en un único modelo en [sus] pruebas de referencia internas”. Notion afirma que “las rápidas respuestas [del modelo], especialmente en el modo de razonamiento bajo, hacen de GPT‑5 un modelo ideal cuando se necesitan resolver tareas complejas de una sola vez”. Inditex compartió que “lo que realmente distingue a [GPT‑5] es la profundidad de su razonamiento: respuestas con matices y multifacéticas que reflejan una comprensión real del tema”.
Presentamos nuevas funciones en nuestra API para ofrecer a los desarrolladores un mayor control sobre las respuestas de los modelos. GPT‑5 admite un nuevo parámetro verbosity (valores: low, medium, high) que ayuda a controlar si las respuestas son breves y concisas, o largas y completas. El parámetro reasoning_effort de GPT‑5 ahora puede tomar un valor mínimo para obtener respuestas más rápidas, sin necesidad de un razonamiento extenso previo. También agregamos un nuevo tipo de herramienta, las herramientas personalizadas, para permitir que GPT‑5 llame a herramientas con texto sin formato en lugar de JSON. Las herramientas personalizadas admiten restricciones mediante gramáticas libres de contexto proporcionadas por el desarrollador.
Presentamos GPT‑5 en tres tamaños en la API (gpt-5, gpt-5-mini y gpt-5-nano) para ofrecer a los desarrolladores más flexibilidad a la hora de elegir entre rendimiento, costos y latencia. Mientras que GPT‑5 en ChatGPT es un sistema de modelos de razonamiento, sin razonamiento y enrutador, GPT‑5 en la plataforma API es el modelo de razonamiento que impulsa el máximo rendimiento en ChatGPT. Cabe destacar que GPT‑5 con razonamiento mínimo es un modelo diferente al modelo sin razonamiento de ChatGPT y se ajusta mejor a las necesidades de los desarrolladores. El modelo sin razonamiento usado en ChatGPT está disponible como gpt-5-chat-latest.
Para leer sobre GPT‑5 en ChatGPT y obtener más información sobre otras mejoras de ChatGPT, consulta nuestro blog de investigación. Para obtener más información sobre el entusiasmo de las empresas por usar GPT‑5, consulta nuestro blog para empresas.
GPT‑5 es el modelo de programación más potente que hayamos lanzado hasta la fecha. Supera a o3 en todas las pruebas de referencia de programación y casos de uso reales, y se han realizado ajustes finos para que se adapte a los productos de programación de agentes como Cursor, Windsurf, GitHub Copilot y Codex CLI. GPT‑5 ha impresionado a nuestros evaluadores alfa, y batió récords en muchas de sus evaluaciones internas privadas.
Los primeros comentarios sobre GPT‑5 para tareas reales de programación
“GPT-5 es el modelo de programación más inteligente que hemos utilizado. Nuestro equipo considera que GPT-5 es muy inteligente, fácil de manejar e incluso tiene una personalidad que no hemos visto en ningún otro modelo. No solo detecta errores engañosos y difíciles de encontrar, sino que también puede ejecutar agentes en segundo plano durante mucho tiempo y en varias fases para completar tareas complejas, los tipos de problemas ante los que otros modelos se bloqueaban. Se ha convertido en nuestra principal herramienta para todo, desde la delimitación y la planificación de comunicados de prensa, hasta la realización de versiones de extremo a extremo”.
En SWE-bench Verified, una evaluación basada en tareas reales de ingeniería de software, GPT‑5 obtiene una puntuación del 74,9 %, frente a la del 69,1 % de o3. Cabe destacar que GPT‑5 alcanza su alta puntuación en términos de eficiencia y velocidad: en comparación con o3 en tareas de razonamiento alto, GPT‑5 usa un 22 % menos de tokens de salida y un 45 % menos de llamadas a herramientas.
En SWE-bench Verified, se proporciona a un modelo un repositorio de códigos y una descripción del problema, y debe generar un parche para resolverlo. Las etiquetas de texto indican el esfuerzo de razonamiento. Nuestras puntuaciones omiten 23 de los 500 problemas cuyas soluciones no superaron de forma satisfactoria nuestra infraestructura. A GPT‑5 se le dio un breve mensaje que enfatizaba la verificación exhaustiva de las soluciones; el mismo mensaje no ayudó a o3.
En Aider polyglot, una evaluación de la edición de código, GPT‑5 establece un nuevo récord del 88 %, lo que supone una reducción de un tercio en la tasa de error en comparación con o3.
En Aider polygot(se abre en una nueva ventana) (diferencia) se le da a un modelo un ejercicio de programación de Exercism y debe escribir su solución como una diferencia de código. Los modelos de razonamiento se ejecutaron con un esfuerzo de razonamiento alto.
También descubrimos que GPT‑5 es excelente para profundizar en códigos base y responder preguntas sobre cómo funcionan o interactúan las distintas piezas. En un código base tan complicado como la pila de aprendizaje por refuerzo de OpenAI, estamos descubriendo que GPT‑5 puede ayudarnos a razonar y responder preguntas sobre nuestro código, lo que acelera nuestro trabajo diario.
A la hora de producir código de front-end para aplicaciones web, GPT‑5 es más estético, ambicioso y preciso. En comparaciones directas con o3, GPT‑5 fue el preferido por nuestros evaluadores en el 70 % de los casos.
A continuación, se muestran algunos ejemplos divertidos y seleccionados de lo que GPT‑5 puede hacer con un solo mensaje:
Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.
Ve más ejemplos del uso de GPT‑5 en nuestra galería aquí(se abre en una nueva ventana).
GPT‑5 es un mejor colaborador, especialmente en productos de programación de agentes como Cursor, Windsurf, GitHub Copilot y Codex CLI. Mientras funciona, GPT‑5 puede generar planes, actualizaciones y resúmenes entre las llamadas a herramientas. En comparación con nuestros modelos anteriores, GPT‑5 es más proactivo a la hora de completar tareas ambiciosas sin detenerse a esperar tu aprobación ni titubear ante la alta complejidad.
A continuación, se muestra un ejemplo de cómo puede verse GPT‑5 mientras se encarga de una tarea compleja (en este caso, crear un sitio web para un restaurante):
Después de que el usuario solicita un sitio web para su restaurante, GPT‑5 comparte un plan rápido, estructura la aplicación, instala las dependencias, crea el contenido del sitio, ejecuta una compilación para verificar que no haya errores y resume su trabajo, además de sugerir los posibles pasos posteriores. Este video se reproduce a una velocidad aproximadamente tres veces mayor para que no tengas que esperar; la duración total de la creación del sitio web fue de aproximadamente tres minutos.
Más allá de la programación de agentes, GPT‑5 es mejor en tareas de agentes en general. GPT‑5 establece nuevos récords en pruebas de referencia de seguimiento de instrucciones (69,6 % en Scale MultiChallenge, según la calificación de o3‑mini) y llamada a herramientas (96,7 % en τ2-bench telecom). La inteligencia mejorada de las herramientas permite a GPT‑5 encadenar acciones de forma más fiable para realizar tareas reales.
Primeros comentarios sobre GPT‑5 para tareas de agentes
“GPT-5 es un gran avance. Ha logrado el mejor rendimiento que jamás hayamos visto en un único modelo en nuestras pruebas de referencia internas. GPT-5 se destacó en diversas tareas de agentes, incluso antes de que modificáramos una sola línea de código o adaptáramos un mensaje. Los nuevos preámbulos y el control más preciso sobre el uso de las herramientas permitieron un avance importante en la estabilidad y la capacidad de dirección de nuestros agentes”.
GPT‑5 sigue las instrucciones de forma más fiable que cualquiera de sus predecesores, y obtuvo una puntuación alta en COLLIE, Scale MultiChallenge y nuestra evaluación interna de seguimiento de instrucciones.
En COLLIE(se abre en una nueva ventana), los modelos deben redactar textos que cumplan con diversas restricciones. En Scale MultiChallenge(se abre en una nueva ventana), los modelos se enfrentan al reto de mantener conversaciones de varios turnos utilizando correctamente cuatro tipos de datos extraídos de mensajes anteriores. Nuestras puntuaciones se obtienen utilizando o3‑mini como evaluador, que resultó más preciso que GPT‑4o. En nuestra evaluación interna de seguimiento de instrucciones de la API de OpenAI, los modelos deben seguir instrucciones complejas derivadas de comentarios reales de desarrolladores. Los modelos de razonamiento se ejecutaron con un esfuerzo de razonamiento alto.
Trabajamos mucho para mejorar la llamada a herramientas en los aspectos que más importan a los desarrolladores. GPT‑5 es mejor a la hora de seguir las instrucciones de las herramientas, gestionar los errores de las herramientas y realizar de forma proactiva muchas llamadas a herramientas en secuencia o en paralelo. Cuando se le indica, GPT‑5 también puede generar mensajes preliminares antes de las llamadas a herramientas y entre ellas para informar a los usuarios sobre el progreso durante las tareas de agentes más largas.
Hace dos meses, Sierra.ai publicó τ2-bench telecom, una exigente prueba de referencia sobre el uso de herramientas que destacaba cómo el rendimiento de los modelos de lenguaje se reduce significativamente cuando interactúan con un entorno que los usuarios pueden modificar. En su publicación(se abre en una nueva ventana), ningún modelo obtuvo una puntuación superior al 49 %. GPT‑5 obtuvo una puntuación del 97 %.
En τ2-bench(se abre en una nueva ventana), un modelo debe utilizar herramientas para realizar una tarea de servicio al cliente, en la que puede haber un usuario que pueda comunicarse y realizar acciones sobre el estado del mundo. Los modelos de razonamiento se ejecutaron con un esfuerzo de razonamiento alto.
GPT‑5 también muestra importantes mejoras en el rendimiento con contextos largos. En OpenAI-MRCR, una medida de la recuperación de información en contextos largos, GPT‑5 supera a o3 y GPT‑4.1, con una ventaja que aumenta considerablemente a medida que la longitud de la entrada es mayor.
En OpenAI-MRCR(se abre en una nueva ventana) (resolución de correferencias de varias rondas), se insertan múltiples solicitudes de usuario identificadas como “agujas” en largas listas de solicitudes y respuestas similares, y se le pide al modelo que reproduzca la respuesta a cada aguja. La proporción promedio de coincidencias mide la proporción promedio de coincidencias entre la respuesta del modelo y la respuesta correcta. Los puntos correspondientes a un máximo de 256 000 tokens de entrada representan los promedios de entre 128 000 y 256 000 tokens de entrada, y así sucesivamente. En este caso, 256 000 representa 256 * 1024 = 262 114 tokens. Los modelos de razonamiento se ejecutaron con un esfuerzo de razonamiento alto.
En la API, todos los modelos GPT‑5 pueden aceptar un máximo de 272 000 tokens de entrada y emitir un máximo de 128 000 tokens de salida y razonamiento, lo que supone una longitud total del contexto de 400 000 tokens.
GPT‑5 es más confiable que nuestros modelos anteriores. En los mensajes de las pruebas de referencia LongFact y FactScore, GPT‑5 comete aproximadamente un 80 % menos de errores fácticos que o3. Por lo tanto, es más apto para casos de uso de agentes en los que la precisión es importante, especialmente en código, datos y toma de decisiones.
Las puntuaciones más altas son peores. LongFact(se abre en una nueva ventana) y FActScore(se abre en una nueva ventana) consisten en preguntas abiertas que buscan hechos. Utilizamos un evaluador basado en LLM con navegación para verificar los hechos de las respuestas a los mensajes de estas pruebas de referencia y medimos la proporción de afirmaciones incorrectas desde el punto de vista de los hechos. Los detalles de la implementación y la calificación se pueden encontrar en la tarjeta del sistema. Los modelos de razonamiento usaron un esfuerzo de razonamiento alto. La búsqueda no estaba habilitada.
En general, se entrenó a GPT‑5 para que sea más consciente de sus propias limitaciones y pueda manejar mejor las situaciones inesperadas. También entrenamos a GPT‑5 para que sea mucho más preciso en preguntas sobre salud (lee más en nuestro blog de investigación). Al igual que con todos los modelos de lenguaje, te recomendamos verificar el trabajo de GPT‑5 cuando el riesgo sea alto.
Los desarrolladores pueden controlar el tiempo de pensamiento de GPT‑5 a través del parámetro reasoning_effort en la API. Además de los valores anteriores (low, medium [predeterminado] y high), GPT‑5 también admite el parámetro minimal, que minimiza el razonamiento de GPT‑5 para devolver una respuesta rápidamente.
Los valores más altos del parámetro reasoning_effort maximizan la calidad y los valores más bajos maximizan la velocidad. No todas las tareas se benefician por igual del razonamiento adicional, por lo que te recomendamos que experimentes para ver cuál funciona mejor para los casos de uso que te interesan.
Por ejemplo, el razonamiento por encima de low aporta poco a la recuperación de contextos largos relativamente simples, pero aumenta en varios puntos porcentuales el CharXiv Reasoning(se abre en una nueva ventana), una prueba de referencia de razonamiento visual.
El esfuerzo de razonamiento de GPT‑5 ofrece diferentes beneficios en diferentes tareas. En el caso de CharXiv Reasoning, se le dio acceso a GPT‑5 a una herramienta de Python.
Para ayudar a controlar la longitud predeterminada de las respuestas de GPT‑5, presentamos un nuevo parámetro verbosity de la API, que toma los valores low, medium (predeterminado) y high. Si las instrucciones explícitas entran en conflicto con los parámetros de verbosidad, prevalecen las instrucciones explícitas. Por ejemplo, si le pides a GPT‑5 que “escriba un ensayo de 5 párrafos”, la respuesta del modelo siempre será de 5 párrafos, independientemente del nivel de verbosidad (sin embargo, los párrafos en sí pueden ser más largos o más cortos).
Verbosity=low
Verbosity=medium
Verbosity=high
Si se le indica, GPT‑5 generará mensajes preliminares visibles para el usuario antes de las llamadas a herramientas y entre ellas. A diferencia de los mensajes de razonamiento ocultos, estos mensajes visibles permiten a GPT‑5 comunicar los planes y el progreso al usuario, lo que ayuda a los usuarios finales a comprender el enfoque y la intención detrás de las llamadas a herramientas.
Presentamos un nuevo tipo de herramienta, las herramientas personalizadas, que permiten a GPT‑5 llamar a una herramienta con texto sin formato en lugar de JSON. Para restringir que GPT‑5 siga formatos de herramientas personalizadas, los desarrolladores pueden proporcionar una expresión regular o incluso una gramática libre de contexto(se abre en una nueva ventana) más específica.
Anteriormente, nuestra interfaz para las herramientas definidas por los desarrolladores requería que se llamaran con JSON, un formato común usado por las API web y los desarrolladores en general. Sin embargo, para generar un archivo JSON válido, el modelo debe omitir perfectamente todas las comillas, las barras invertidas, los caracteres de nueva línea y otros caracteres de control. Aunque nuestros modelos están bien entrenados para generar un archivo JSON, en entradas largas, como cientos de líneas de código o un informe de 5 páginas, las posibilidades de que se produzca un error aumentan. Con las herramientas personalizadas, GPT‑5 puede escribir las entradas de las herramientas como texto sin formato, sin tener que omitir todos los caracteres que requieren omisión.
En SWE-bench Verified con herramientas personalizadas en lugar de herramientas JSON, GPT‑5 obtiene una puntuación similar.
GPT‑5 amplía los límites de la seguridad y es un modelo más seguro, confiable y útil. GPT‑5 es mucho menos propenso a tener alucinaciones que nuestros modelos anteriores, comunica de forma más honesta sus acciones y capacidades al usuario y proporciona la respuesta más útil posible, sin dejar de respetar los límites de seguridad. Puedes obtener más información en nuestro blog de investigación.
GPT‑5 ya está disponible en la plataforma API en tres tamaños: gpt-5, gpt-5-mini y gpt-5-nano. Está disponible en la API de respuestas, la API de finalizaciones de chat y es la opción predeterminada en Codex CLI. GPT‑5 tiene un precio de $1,25 por cada millón de tokens de entrada y $10 por cada millón de tokens de salida; GPT‑5 mini tiene un precio de $0,25 por cada millón de tokens de entrada y $2 por cada millón de tokens de salida, y GPT‑5 nano tiene un precio de $0,05 por cada millón de tokens de entrada y $0,40 por cada millón de tokens de salida.
Estos modelos son compatibles con los parámetros reasoning_effort y verbosity de la API, así como con las herramientas personalizadas. También son compatibles con la llamada paralela a herramientas, las herramientas integradas (búsqueda web, búsqueda de archivos, generación de imágenes y mucho más), las funciones principales de la API (transmisión, salidas estructuradas y mucho más) y las funciones de ahorro de costos, como el almacenamiento en caché de mensajes y la API por lotes.
La versión sin razonamiento de GPT‑5 usada en ChatGPT está disponible en la API como gpt-5-chat-latest, también con un precio de $1,25 por cada millón de tokens de entrada y $10 por cada millón de tokens de salida.
GPT‑5 también se está lanzando en las plataformas de Microsoft, incluidas Microsoft 365 Copilot, Copilot, GitHub Copilot y Azure AI Foundry.
Consulta la documentación(se abre en una nueva ventana) de GPT‑5, los detalles del precios(se abre en una nueva ventana) y la guía de mensajes(se abre en una nueva ventana) para empezar.
Inteligencia
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94.6% | 91.1% | 85.2% | 88.9% | 92.7% | 46.4% | 40.2% | - |
| FrontierMath(with python tool only) | 26.3% | 22.1% | 9.6% | 15.8% | 15.4% | - | - | - |
| GPQA diamond(no tools) | 85.7% | 82.3% | 71.2% | 83.3% | 81.4% | 66.3% | 65.0% | 50.3% |
| HLE[1](no tools) | 24.8% | 16.7% | 8.7% | 20.2% | 14.7% | 5.4% | 3.7% | - |
| HMMT 2025(no tools) | 93.3% | 87.8% | 75.6% | 81.7% | 85.0% | 28.9% | 35.0% | - |
[1] Existe una pequeña discrepancia con las cifras indicadas en nuestra entrada anterior del blog, ya que estas se obtuvieron con una versión anterior de HLE.
Modelos multimodales
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84.2% | 81.6% | 75.6% | 82.9% | 81.6% | 74.8% | 72.7% | 55.4% |
| MMMU-Pro(avg across standard and vision sets) | 78.4% | 74.1% | 62.6% | 76.4% | 73.4% | 60.3% | 58.9% | 33.0% |
| CharXiv reasoning(python enabled) | 81.1% | 75.5% | 62.7% | 78.6% | 72.0% | 56.7% | 56.8% | 40.5% |
| VideoMMMU, max frame 256 | 84.6% | 82.5% | 66.8% | 83.3% | 79.4% | 60.9% | 55.1% | 30.2% |
| ERQA | 65.7% | 62.9% | 50.1% | 64.0% | 56.5% | 44.3% | 42.3% | 26.5% |
Programación
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | USD 112 k | USD 75 k | USD 49 k | USD 86 k | USD 66 k | USD 34 k | USD 31 k | USD 9 K |
| SWE-bench Verified[2] | 74.9% | 71.0% | 54.7% | 69.1% | 68.1% | 54.6% | 23.6% | - |
| Aider polyglot(diff) | 88.0% | 71.6% | 48.4% | 79.6% | 58.2% | 52.9% | 31.6% | 6.2% |
[2] Omitimos un total de 23 de 500 problemas que no pudieron ejecutarse en nuestra infraestructura. Esta es la lista completa de las 23 tareas omitidas: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' y 'sphinx-doc__sphinx-9367'.
Seguimiento de instrucciones
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69.6% | 62.3% | 54.9% | 60.4% | 57.5% | 46.2% | 42.2% | 31.1% |
| Internal API instruction following eval(hard) | 64.0% | 65.8% | 56.1% | 47.4% | 44.7% | 49.1% | 45.1% | 31.6% |
| COLLIE | 99.0% | 98.5% | 96.9% | 98.4% | 96.1% | 65.8% | 54.6% | 42.5% |
[3] Nota: Observamos que el evaluador predeterminado en MultiChallenge (GPT-4o) suele calificar erróneamente las respuestas del modelo. Detectamos que cambiar el evaluador por un modelo de razonamiento, como o3-mini, mejora en gran medida la precisión de la calificación en las muestras que revisamos.
Llamada de funciones
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62.6% | 60.0% | 41.0% | 64.8% | 60.2% | 56.0% | 51.0% | 14.0% |
| Tau2-bench retail | 81.1% | 78.3% | 62.3% | 80.2% | 70.5% | 74.0% | 66.0% | 21.5% |
| Tau2-bench telecom | 96.7% | 74.1% | 35.5% | 58.2% | 40.5% | 34.0% | 44.0% | 12.1% |
Contexto largo
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95.2% | 84.3% | 43.2% | 55.0% | 56.4% | 57.2% | 47.2% | 36.6% |
| OpenAI-MRCR: 2 needle 256k | 86.8% | 58.8% | 34.9% | - | - | 56.2% | 45.5% | 22.6% |
| Graphwalks bfs <128k | 78.3% | 73.4% | 64.0% | 77.3% | 62.3% | 61.7% | 61.7% | 25.0% |
| Graphwalks parents <128k | 73.3% | 64.3% | 43.8% | 72.9% | 51.1% | 58.0% | 60.5% | 9.4% |
| BrowseComp Long Context 128k | 90.0% | 89.4% | 80.4% | 88.3% | 80.0% | 85.9% | 89.0% | 89.4% |
| BrowseComp Long Context 256k | 88.8% | 86.0% | 68.4% | - | - | 75.5% | 81.6% | 19.1% |
| VideoMME(long, with subtitle category) | 86.7% | 78.5% | 65.7% | 84.9% | 79.5% | 78.7% | 68.4% | 55.2% |
Alucinaciones
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1.0% | 0.7% | 1.0% | 5.2% | 3.0% | 0.7% | 1.1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1.2% | 1.3% | 2.8% | 6.8% | 8.9% | 1.1% | 1.8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2.8% | 3.5% | 7.3% | 23.5% | 38.7% | 6.7% | 10.9% | - |


