Salta al contingut principal
OpenAI

7 d’agost del 2025

Producte

Presentem GPT‑5 per a desenvolupadors

El millor model per a programació i tasques agentic.

S'està carregant…

Introducció

Avui llancem GPT‑5 a la nostra plataforma API, el nostre millor model fins ara per a programació i tasques agentic.

GPT‑5 és d'última generació (SOTA) en benchmarks clau de programació, amb una puntuació del 74,9% a SWE-bench Verified i del 88% a Aider polyglot. Hem entrenat GPT‑5 perquè sigui un veritable col·laborador de programació. Destaca en la producció de codi d'alta qualitat i en tasques com corregir errors, editar codi i respondre preguntes sobre bases de codi complexes. El model es pot guiar i és col·laboratiu: pot seguir instruccions molt detallades amb gran precisió i pot oferir explicacions inicials de les seves accions abans i entre crides a eines. El model també destaca en la programació frontend, superant OpenAI o3 en desenvolupament web frontend el 70% del temps en proves internes.

Hem entrenat GPT‑5 en tasques de programació del món real en col·laboració amb primers provadors de startups i grans empreses. Cursor diu que GPT‑5 és «el model més intel·ligent [que han] fet servir» i «extraordinàriament intel·ligent, fàcil de guiar i fins i tot amb una personalitat [que no havien] vist en altres models». Windsurf va compartir que GPT‑5 és SOTA a les seves avaluacions i «té la meitat de la taxa d'error en la crida a eines respecte d'altres models d'avantguarda». Vercel diu que «és el millor model d'IA per a frontend, amb rendiment màxim tant en el sentit estètic com en la qualitat del codi, situant-se en una categoria pròpia».

GPT‑5 també destaca en tasques agentic de llarga durada, amb resultats SOTA a τ2-bench telecom (96,7%), un benchmark de crida a eines publicat fa només 2 mesos. La intel·ligència millorada de GPT‑5 en eines li permet encadenar de manera fiable desenes de crides a eines, tant en seqüència com en paral·lel, sense perdre el fil, i això el fa molt millor a l'hora d'executar tasques complexes i reals de cap a cap. També segueix amb més precisió les instruccions de les eines, gestiona millor els errors de les eines i destaca en la recuperació de contingut amb context llarg. Manus diu que GPT‑5 «va aconseguir el millor rendiment [que han] vist mai d'un sol model als [seus] benchmarks interns». Notion diu que «[les] respostes ràpides [del model], especialment en mode de raonament baix, fan de GPT‑5 un model ideal quan cal resoldre tasques complexes amb un sol exemple». Inditex va compartir que «allò que realment diferencia [GPT‑5] és la profunditat del seu raonament: respostes matisades i multicapa que reflecteixen una comprensió real de la matèria».

Presentem noves funcionalitats a la nostra API per donar als desenvolupadors més control sobre les respostes del model. GPT‑5 admet un nou paràmetre verbosity (valors: low, medium, high) per ajudar a controlar si les respostes són curtes i directes o llargues i exhaustives. El paràmetre reasoning_effort de GPT‑5 ara pot prendre un valor mínim per obtenir respostes més ràpid, sense un raonament extens previ. També hem afegit un nou tipus d'eina, les eines personalitzades, perquè GPT‑5 pugui cridar eines amb text pla en lloc de JSON. Les eines personalitzades admeten restriccions mitjançant gramàtiques independents del context proporcionades pel desenvolupador.

Llancem GPT‑5 en tres mides a l'API —gpt-5, gpt-5-mini i gpt-5-nano— per donar als desenvolupadors més flexibilitat a l'hora d'equilibrar rendiment, cost i latència. Mentre que GPT‑5 a ChatGPT és un sistema de models de raonament, no raonament i encaminament, GPT‑5 a la plataforma API és el model de raonament que impulsa el màxim rendiment a ChatGPT. Cal destacar que GPT‑5 amb raonament mínim és un model diferent del model sense raonament de ChatGPT, i està millor ajustat per a desenvolupadors. El model sense raonament que s'utilitza a ChatGPT està disponible com a gpt-5-chat-latest.

Per llegir sobre GPT‑5 a ChatGPT i obtenir més informació sobre altres millores de ChatGPT, consulta el nostre blog de recerca. Per saber més sobre com les empreses tenen ganes d'utilitzar GPT‑5, consulta el nostre blog empresarial.

Programació

GPT‑5 és el model de programació més potent que hem llançat mai. Supera o3 en benchmarks de programació i casos d'ús del món real, i s'ha afinat per destacar en productes de programació agentic com Cursor, Windsurf, GitHub Copilot i Codex CLI. GPT‑5 va impressionar els nostres provadors alfa, establint rècords en moltes de les seves avaluacions internes privades.

Primeres impressions sobre GPT‑5 per a tasques reals de programació

«GPT-5 és el model de programació més intel·ligent que hem fet servir. El nostre equip ha comprovat que GPT-5 és extraordinàriament intel·ligent, fàcil de guiar i fins i tot té una personalitat que no havíem vist en cap altre model. No només detecta errors complicats i molt amagats, sinó que també pot executar agents en segon pla llargs i de múltiples torns per portar tasques complexes fins al final, el tipus de problemes que abans deixaven altres models encallats. S'ha convertit en la nostra opció diària per a tot, des de definir l'abast i planificar PR fins a completar builds de cap a cap.»
Michael Truell, cofundador i CEO a Cursor

A SWE-bench Verified, una avaluació basada en tasques reals d'enginyeria de programari, GPT‑5 obté un 74,9%, per sobre del 69,1% d'o3. Cal destacar que GPT‑5 aconsegueix aquesta puntuació alta amb més eficiència i velocitat: en comparació amb o3 amb esforç de raonament alt, GPT‑5 utilitza un 22% menys de segments de sortida i un 45% menys de crides a eines.

A SWE-bench Verified, es dona a un model un repositori de codi i una descripció del problema, i ha de generar un pedaç per resoldre'l. Les etiquetes de text indiquen l'esforç de raonament. Les nostres puntuacions ometen 23 dels 500 problemes les solucions dels quals no passaven de manera fiable a la nostra infraestructura. A GPT‑5 se li va donar una indicació breu que emfatitzava verificar a fons les solucions; la mateixa indicació no va beneficiar o3.

A Aider polyglot, una avaluació d'edició de codi, GPT‑5 estableix un nou rècord del 88%, una reducció d'un terç en la taxa d'error en comparació amb o3.

A Aider polygot(s'obre en una finestra nova) (diff), es dona a un model un exercici de programació d'Exercism i n'ha d'escriure la solució com a diff de codi. Els models de raonament es van executar amb un esforç de raonament alt.

També hem constatat que GPT‑5 és excel·lent aprofundint en bases de codi per respondre preguntes sobre com funcionen o interoperen diverses peces. En una base de codi tan complicada com la pila d'aprenentatge per reforç d'OpenAI, estem veient que GPT‑5 ens pot ajudar a raonar sobre el nostre codi i respondre preguntes sobre aquest, accelerant el nostre treball del dia a dia.

Enginyeria frontend

Quan produeix codi frontend per a aplicacions web, GPT‑5 té més sensibilitat estètica, més ambició i més precisió. En comparacions costat a costat amb o3, GPT‑5 va ser preferit pels nostres provadors el 70% del temps.

Aquests són alguns exemples divertits, seleccionats expressament, del que GPT‑5 pot fer amb una sola indicació:

Indicació: Si us plau, genera una landing page bonica i realista per a un servei que ofereix a l'aficionat definitiu al cafè una subscripció de 200 $ al mes que inclou lloguer d'equipament i assessorament per a la torrada de cafè i la creació de l'espresso definitiu. El públic objectiu és una persona de mitjana edat de l'àrea de la badia que potser treballa en tecnologia, té estudis, ingressos disponibles i és apassionada per l'art i la ciència del cafè. Optimitza-la per a la conversió amb una subscripció de 6 mesos.

Consulta més exemples de GPT‑5 a la nostra galeria aquí(s'obre en una finestra nova).

Col·laboració en programació

GPT‑5 és un millor col·laborador, especialment en productes de programació agentic com Cursor, Windsurf, GitHub Copilot i Codex CLI. Mentre treballa, GPT‑5 pot mostrar plans, actualitzacions i resums entre crides a eines. En comparació amb els nostres models anteriors, GPT‑5 és més proactiu a l'hora de completar tasques ambicioses sense esperar la teva aprovació ni fer-se enrere davant d'una gran complexitat.

Aquí tens un exemple de com pot actuar GPT‑5 mentre afronta una tasca complexa (en aquest cas, crear un lloc web per a un restaurant):

Després que l'usuari demani un lloc web per al seu restaurant, GPT‑5 comparteix un pla ràpid, munta l'estructura de l'aplicació, instal·la dependències, crea el contingut del lloc, executa una compilació per comprovar errors de compilació, resumeix la feina feta i suggereix possibles passos següents. Aquest vídeo s'ha accelerat aproximadament 3x per estalviar-te l'espera; la durada completa per crear el lloc web va ser d'uns tres minuts.

Tasques agentic

Més enllà de la programació agentic, GPT‑5 és millor en tasques agentic en general. GPT‑5 estableix nous rècords en benchmarks de seguiment d'instruccions (69,6% a Scale MultiChallenge, qualificat per o3‑mini) i crida a eines (96,7% a τ2-bench telecom). La millora en la intel·ligència d'eines permet a GPT‑5 encadenar accions de manera més fiable per dur a terme tasques del món real.

Primeres impressions sobre GPT‑5 per a tasques agentic

«GPT-5 és un gran salt endavant. Va aconseguir el millor rendiment que hem vist mai d'un sol model als nostres benchmarks interns. GPT-5 va destacar en diverses tasques agentic, fins i tot abans que retocéssim una sola línia de codi o adaptéssim una indicació. Els nous preàmbuls i un control més precís sobre l'ús d'eines van permetre un salt important en l'estabilitat i la capacitat de control dels nostres agents.»
Yichao ‘Peak’ Ji, cofundador i científic en cap a Manus

Seguiment d'instruccions

GPT‑5 segueix instruccions de manera més fiable que qualsevol dels seus predecessors, amb puntuacions altes a COLLIE, Scale MultiChallenge i la nostra avaluació interna de seguiment d'instruccions.

A COLLIE(s'obre en una finestra nova), els models han d'escriure text que compleixi diverses restriccions. A Scale MultiChallenge(s'obre en una finestra nova), es posa a prova els models en converses de múltiples torns perquè facin servir correctament quatre tipus d'informació de missatges anteriors. Les nostres puntuacions provenen de l'ús d'o3‑mini com a avaluador, que va ser més precís que GPT‑4o. A la nostra avaluació interna de seguiment d'instruccions de l'OpenAI API, els models han de seguir instruccions difícils derivades de comentaris reals de desenvolupadors. Els models de raonament es van executar amb un esforç de raonament alt.

Crida a eines

Hem treballat intensament per millorar la crida a eines de les maneres que importen als desenvolupadors. GPT‑5 és millor seguint instruccions d'eines, millor gestionant errors d'eines i millor fent proactivament moltes crides a eines en seqüència o en paral·lel. Quan se li indica, GPT‑5 també pot generar missatges de preàmbul abans i entre crides a eines per informar els usuaris del progrés durant tasques agentic més llargues.

Fa dos mesos, Sierra.ai va publicar τ2-bench telecom com un benchmark exigent d'ús d'eines que posava en relleu com el rendiment dels models de llenguatge disminueix significativament quan interactuen amb un estat de l'entorn que els usuaris poden canviar. A la seva publicació(s'obre en una finestra nova), cap model no va superar el 49%. GPT‑5 obté un 97%.

A τ2-bench(s'obre en una finestra nova), un model ha de fer servir eines per completar una tasca d'atenció al client, on hi pot haver un usuari que es pot comunicar i pot actuar sobre l'estat del món. Els models de raonament es van executar amb un esforç de raonament alt.

GPT‑5 també mostra grans millores en el rendiment amb context llarg. A OpenAI-MRCR, una mesura de recuperació d'informació amb context llarg, GPT‑5 supera o3 i GPT‑4.1, amb un marge que creix substancialment amb longituds d'entrada més grans.

A OpenAI-MRCR(s'obre en una finestra nova) (resolució de correferència multironda), s'insereixen múltiples peticions d'usuari «agulla» idèntiques en «pallers» llargs de peticions i respostes semblants, i es demana al model que reprodueixi la resposta a la i-èsima agulla. La ràtio mitjana de coincidència mesura la ràtio mitjana de coincidència de cadenes entre la resposta del model i la resposta correcta. Els punts a 256k segments màxims d'entrada representen mitjanes sobre 128k–256k segments d'entrada, i així successivament. Aquí, 256k representa 256 * 1.024 = 262.114 segments. Els models de raonament es van executar amb un esforç de raonament alt.

També fem open source BrowseComp Long Context(s'obre en una finestra nova), un nou benchmark per avaluar preguntes i respostes amb context llarg. En aquest benchmark, al model se li dona una consulta d'usuari, una llarga llista de resultats de cerca rellevants, i ha de respondre la pregunta basant-se en els resultats de cerca. Hem dissenyat BrowseComp Long Context perquè sigui realista, difícil i tingui respostes correctes de referència de manera fiable. En entrades de 128K–256K segments, GPT‑5 dona la resposta correcta el 89% del temps.

A l'API, tots els models GPT‑5 poden acceptar un màxim de 272.000 segments d'entrada i emetre un màxim de 128.000 segments de raonament i sortida, per a una longitud total de context de 400.000 segments.

Factualitat

GPT‑5 és més fiable que els nostres models anteriors. En indicacions dels benchmarks LongFact i FactScore, GPT‑5 comet aproximadament un 80% menys d'errors factuals que o3. Això el fa més adequat per a casos d'ús agentic en què la correcció importa, especialment en codi, dades i presa de decisions.

Les puntuacions més altes són pitjors. LongFact(s'obre en una finestra nova) i FActScore(s'obre en una finestra nova) consisteixen en preguntes obertes de cerca de fets. Fem servir un avaluador basat en LLM amb navegació per verificar factualment les respostes a indicacions d'aquests benchmarks i mesurem la fracció d'afirmacions factualment incorrectes. Els detalls d'implementació i avaluació es poden trobar a la fitxa del model. Els models de raonament van fer servir un esforç de raonament alt. La cerca no estava activada.

En general, GPT‑5 s'ha entrenat per ser més conscient de les seves pròpies limitacions i més capaç de gestionar imprevistos. També hem entrenat GPT‑5 perquè sigui molt més precís en preguntes de salut (llegeix-ne més al nostre blog de recerca). Com amb tots els models de llenguatge, et recomanem verificar la feina de GPT‑5 quan hi hagi molt en joc.

Noves funcionalitats

Esforç de raonament mínim

Els desenvolupadors poden controlar el temps de pensament de GPT‑5 mitjançant el paràmetre reasoning_effort a l'API. A més dels valors anteriors —low, medium (per defecte) i high—, GPT‑5 també admet minimal, que minimitza el raonament de GPT‑5 per retornar una resposta ràpidament.

Els valors més alts de reasoning_effort maximitzen la qualitat i els valors més baixos maximitzen la velocitat. No totes les tasques es beneficien igual del raonament addicional, així que recomanem experimentar per veure què funciona millor per als casos d'ús que t'importen.

Per exemple, un raonament per sobre de low aporta poc a la recuperació relativament simple amb context llarg, però afegeix força punts percentuals a CharXiv Reasoning(s'obre en una finestra nova), un benchmark de raonament visual.

L'esforç de raonament de GPT‑5 aporta beneficis diferents segons la tasca. Per a CharXiv Reasoning, GPT‑5 va tenir accés a una eina python.

Verbositat

Per ajudar a guiar la llargada per defecte de les respostes de GPT‑5, hem introduït un nou paràmetre API verbosity, que accepta els valors low, medium (per defecte) i high. Si les instruccions explícites entren en conflicte amb els paràmetres de verbositat, prevalen les instruccions explícites. Per exemple, si demanes a GPT‑5 que «escrigui un assaig de 5 paràgrafs», la resposta del model sempre hauria de tenir 5 paràgrafs independentment del nivell de verbositat (tot i que els paràgrafs mateixos poden ser més llargs o més curts).

Verbositat=baixa

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbositat=mitjana

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbositat=alta

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Missatges de preàmbul abans de les crides a eines

Si se li indica, GPT‑5 generarà missatges de preàmbul visibles per a l'usuari abans i entre crides a eines. A diferència dels missatges de raonament ocults, aquests missatges visibles permeten a GPT‑5 comunicar plans i progrés a l'usuari, ajudant els usuaris finals a entendre el seu enfocament i la intenció darrere de les crides a eines.

Eines personalitzades

Presentem un nou tipus d'eina, les eines personalitzades, que permeten a GPT‑5 cridar una eina amb text pla en lloc de JSON. Per restringir GPT‑5 a seguir formats d'eina personalitzats, els desenvolupadors poden proporcionar una expressió regular o fins i tot una gramàtica independent del context(s'obre en una finestra nova) més completament especificada.

Abans, la nostra interfície per a eines definides pel desenvolupador requeria que es cridessin amb JSON, un format habitual utilitzat per les API web i pels desenvolupadors en general. Tanmateix, generar JSON vàlid requereix que el model escapi perfectament totes les cometes, barres invertides, salts de línia i altres caràcters de control. Tot i que els nostres models estan ben entrenats per generar JSON, en entrades llargues com centenars de línies de codi o un informe de 5 pàgines, la probabilitat d'error augmenta. Amb les eines personalitzades, GPT‑5 pot escriure entrades d'eina com a text pla, sense haver d'escapar tots els caràcters que ho requereixen.

A SWE-bench Verified, fent servir eines personalitzades en lloc d'eines JSON, GPT‑5 obté aproximadament la mateixa puntuació.

Seguretat

GPT‑5 fa avançar la frontera de la seguretat i és un model més robust, fiable i útil. GPT‑5 té significativament menys probabilitats d'al·lucinar que els nostres models anteriors, comunica amb més honestedat les seves accions i capacitats a l'usuari i proporciona la resposta més útil quan és possible, tot mantenint-se dins dels límits de seguretat. En pots llegir més al nostre blog de recerca.

Disponibilitat i preus

GPT‑5 ja està disponible a la plataforma API en tres mides: gpt-5, gpt-5-mini i gpt-5-nano. Està disponible a la Responses API, a l'API de complecions de xat, i és el valor per defecte a Codex CLI. El preu de GPT‑5 és d'1,25 $/1M segments d'entrada i 10 $/1M segments de sortida; el de GPT‑5 mini és de 0,25 $/1M segments d'entrada i 2 $/1M segments de sortida; i el de GPT‑5 nano és de 0,05 $/1M segments d'entrada i 0,40 $/1M segments de sortida.

Aquests models admeten els paràmetres API reasoning_effort i verbosity, així com eines personalitzades. També admeten crides a eines en paral·lel, eines integrades (cerca web, cerca de fitxers, generació d'imatges i més), funcionalitats bàsiques de l'API (streaming, resultats estructurats i més), i funcionalitats d'estalvi de costos com la memòria cau d'indicacions i Batch API.

La versió sense raonament de GPT‑5 que s'utilitza a ChatGPT està disponible a l'API com a gpt-5-chat-latest, també amb un preu d'1,25 $/1M segments d'entrada i 10 $/1M segments de sortida.

GPT‑5 també es llança a les plataformes de Microsoft, incloses Microsoft 365 Copilot, Copilot, GitHub Copilot i Azure AI Foundry.

Benchmarks detallats

Intel·ligència
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6 %91,1 %85,2 %88,9 %92,7 %46,4 %40,2 %-
FrontierMath(with python tool only)26,3 %22,1 %9,6 %15,8 %15,4 %---
GPQA diamond(no tools)85,7 %82,3 %71,2 %83,3 %81,4 %66,3 %65,0 %50,3 %
HLE[1](no tools)24,8 %16,7 %8,7 %20,2 %14,7 %5,4 %3,7 %-
HMMT 2025(no tools)93,3 %87,8 %75,6 %81,7 %85,0 %28,9 %35,0 %-

[1] Hi ha una petita discrepància amb les xifres del nostre blog anterior, perquè aquelles es van executar amb una versió anterior d'HLE.

Multimodal
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2 %81,6 %75,6 %82,9 %81,6 %74,8 %72,7 %55,4 %
MMMU-Pro(avg across standard and vision sets)78,4 %74,1 %62,6 %76,4 %73,4 %60,3 %58,9 %33,0 %
CharXiv reasoning(python enabled)81,1 %75,5 %62,7 %78,6 %72,0 %56,7 %56,8 %40,5 %
VideoMMMU, max frame 25684,6 %82,5 %66,8 %83,3 %79,4 %60,9 %55,1 %30,2 %
ERQA65,7 %62,9 %50,1 %64,0 %56,5 %44,3 %42,3 %26,5 %
Programació
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 k USD75 k USD49 k USD86 k USD66 k USD34 k USD31 k USD9 k USD
SWE-bench Verified[2]74,9 %71,0 %54,7 %69,1 %68,1 %54,6 %23,6 %-
Aider polyglot(diff)88,0 %71,6 %48,4 %79,6 %58,2 %52,9 %31,6 %6,2 %

[2] Ometem 23/500 problemes que no es van poder executar a la nostra infraestructura. La llista completa de les 23 tasques omeses és 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' i 'sphinx-doc__sphinx-9367'.

Seguiment d'instruccions
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6 %62,3 %54,9 %60,4 %57,5 %46,2 %42,2 %31,1 %
Internal API instruction following eval(hard)64,0 %65,8 %56,1 %47,4 %44,7 %49,1 %45,1 %31,6 %
COLLIE99,0 %98,5 %96,9 %98,4 %96,1 %65,8 %54,6 %42,5 %

[3] Nota: trobem que l'avaluador per defecte de MultiChallenge (GPT-4o) sovint puntua malament les respostes del model. Veiem que canviar l'avaluador per un model de raonament, com o3-mini, millora significativament la precisió de l'avaluació en les mostres que hem inspeccionat.

Crida a funcions
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6 %60,0 %41,0 %64,8 %60,2 %56,0 %51,0 %14,0 %
Tau2-bench retail81,1 %78,3 %62,3 %80,2 %70,5 %74,0 %66,0 %21,5 %
Tau2-bench telecom96,7 %74,1 %35,5 %58,2 %40,5 %34,0 %44,0 %12,1 %
Context llarg
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2 %84,3 %43,2 %55,0 %56,4 %57,2 %47,2 %36,6 %
OpenAI-MRCR: 2 needle 256k86,8 %58,8 %34,9 %--56,2 %45,5 %22,6 %
Graphwalks bfs <128k78,3 %73,4 %64,0 %77,3 %62,3 %61,7 %61,7 %25,0 %
Graphwalks parents <128k73,3 %64,3 %43,8 %72,9 %51,1 %58,0 %60,5 %9,4 %
BrowseComp Long Context 128k90,0 %89,4 %80,4 %88,3 %80,0 %85,9 %89,0 %89,4 %
BrowseComp Long Context 256k88,8 %86,0 %68,4 %--75,5 %81,6 %19,1 %
VideoMME(long, with subtitle category)86,7 %78,5 %65,7 %84,9 %79,5 %78,7 %68,4 %55,2 %
Al·lucinacions
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0 %0,7 %1,0 %5,2 %3,0 %0,7 %1,1 %-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2 %1,3 %2,8 %6,8 %8,9 %1,1 %1,8 %-
FActScore hallucination rate(no tools)[lower is better]2,8 %3,5 %7,3 %23,5 %38,7 %6,7 %10,9 %-

Autor

OpenAI