Avui llancem GPT‑5 a la nostra plataforma API, el nostre millor model fins ara per a programació i tasques agentic.
GPT‑5 és d'última generació (SOTA) en benchmarks clau de programació, amb una puntuació del 74,9% a SWE-bench Verified i del 88% a Aider polyglot. Hem entrenat GPT‑5 perquè sigui un veritable col·laborador de programació. Destaca en la producció de codi d'alta qualitat i en tasques com corregir errors, editar codi i respondre preguntes sobre bases de codi complexes. El model es pot guiar i és col·laboratiu: pot seguir instruccions molt detallades amb gran precisió i pot oferir explicacions inicials de les seves accions abans i entre crides a eines. El model també destaca en la programació frontend, superant OpenAI o3 en desenvolupament web frontend el 70% del temps en proves internes.
Hem entrenat GPT‑5 en tasques de programació del món real en col·laboració amb primers provadors de startups i grans empreses. Cursor diu que GPT‑5 és «el model més intel·ligent [que han] fet servir» i «extraordinàriament intel·ligent, fàcil de guiar i fins i tot amb una personalitat [que no havien] vist en altres models». Windsurf va compartir que GPT‑5 és SOTA a les seves avaluacions i «té la meitat de la taxa d'error en la crida a eines respecte d'altres models d'avantguarda». Vercel diu que «és el millor model d'IA per a frontend, amb rendiment màxim tant en el sentit estètic com en la qualitat del codi, situant-se en una categoria pròpia».
GPT‑5 també destaca en tasques agentic de llarga durada, amb resultats SOTA a τ2-bench telecom (96,7%), un benchmark de crida a eines publicat fa només 2 mesos. La intel·ligència millorada de GPT‑5 en eines li permet encadenar de manera fiable desenes de crides a eines, tant en seqüència com en paral·lel, sense perdre el fil, i això el fa molt millor a l'hora d'executar tasques complexes i reals de cap a cap. També segueix amb més precisió les instruccions de les eines, gestiona millor els errors de les eines i destaca en la recuperació de contingut amb context llarg. Manus diu que GPT‑5 «va aconseguir el millor rendiment [que han] vist mai d'un sol model als [seus] benchmarks interns». Notion diu que «[les] respostes ràpides [del model], especialment en mode de raonament baix, fan de GPT‑5 un model ideal quan cal resoldre tasques complexes amb un sol exemple». Inditex va compartir que «allò que realment diferencia [GPT‑5] és la profunditat del seu raonament: respostes matisades i multicapa que reflecteixen una comprensió real de la matèria».
Presentem noves funcionalitats a la nostra API per donar als desenvolupadors més control sobre les respostes del model. GPT‑5 admet un nou paràmetre verbosity (valors: low, medium, high) per ajudar a controlar si les respostes són curtes i directes o llargues i exhaustives. El paràmetre reasoning_effort de GPT‑5 ara pot prendre un valor mínim per obtenir respostes més ràpid, sense un raonament extens previ. També hem afegit un nou tipus d'eina, les eines personalitzades, perquè GPT‑5 pugui cridar eines amb text pla en lloc de JSON. Les eines personalitzades admeten restriccions mitjançant gramàtiques independents del context proporcionades pel desenvolupador.
Llancem GPT‑5 en tres mides a l'API —gpt-5, gpt-5-mini i gpt-5-nano— per donar als desenvolupadors més flexibilitat a l'hora d'equilibrar rendiment, cost i latència. Mentre que GPT‑5 a ChatGPT és un sistema de models de raonament, no raonament i encaminament, GPT‑5 a la plataforma API és el model de raonament que impulsa el màxim rendiment a ChatGPT. Cal destacar que GPT‑5 amb raonament mínim és un model diferent del model sense raonament de ChatGPT, i està millor ajustat per a desenvolupadors. El model sense raonament que s'utilitza a ChatGPT està disponible com a gpt-5-chat-latest.
Per llegir sobre GPT‑5 a ChatGPT i obtenir més informació sobre altres millores de ChatGPT, consulta el nostre blog de recerca. Per saber més sobre com les empreses tenen ganes d'utilitzar GPT‑5, consulta el nostre blog empresarial.
GPT‑5 és el model de programació més potent que hem llançat mai. Supera o3 en benchmarks de programació i casos d'ús del món real, i s'ha afinat per destacar en productes de programació agentic com Cursor, Windsurf, GitHub Copilot i Codex CLI. GPT‑5 va impressionar els nostres provadors alfa, establint rècords en moltes de les seves avaluacions internes privades.
Primeres impressions sobre GPT‑5 per a tasques reals de programació
«GPT-5 és el model de programació més intel·ligent que hem fet servir. El nostre equip ha comprovat que GPT-5 és extraordinàriament intel·ligent, fàcil de guiar i fins i tot té una personalitat que no havíem vist en cap altre model. No només detecta errors complicats i molt amagats, sinó que també pot executar agents en segon pla llargs i de múltiples torns per portar tasques complexes fins al final, el tipus de problemes que abans deixaven altres models encallats. S'ha convertit en la nostra opció diària per a tot, des de definir l'abast i planificar PR fins a completar builds de cap a cap.»
A SWE-bench Verified, una avaluació basada en tasques reals d'enginyeria de programari, GPT‑5 obté un 74,9%, per sobre del 69,1% d'o3. Cal destacar que GPT‑5 aconsegueix aquesta puntuació alta amb més eficiència i velocitat: en comparació amb o3 amb esforç de raonament alt, GPT‑5 utilitza un 22% menys de segments de sortida i un 45% menys de crides a eines.
A SWE-bench Verified, es dona a un model un repositori de codi i una descripció del problema, i ha de generar un pedaç per resoldre'l. Les etiquetes de text indiquen l'esforç de raonament. Les nostres puntuacions ometen 23 dels 500 problemes les solucions dels quals no passaven de manera fiable a la nostra infraestructura. A GPT‑5 se li va donar una indicació breu que emfatitzava verificar a fons les solucions; la mateixa indicació no va beneficiar o3.
A Aider polyglot, una avaluació d'edició de codi, GPT‑5 estableix un nou rècord del 88%, una reducció d'un terç en la taxa d'error en comparació amb o3.
A Aider polygot(s'obre en una finestra nova) (diff), es dona a un model un exercici de programació d'Exercism i n'ha d'escriure la solució com a diff de codi. Els models de raonament es van executar amb un esforç de raonament alt.
També hem constatat que GPT‑5 és excel·lent aprofundint en bases de codi per respondre preguntes sobre com funcionen o interoperen diverses peces. En una base de codi tan complicada com la pila d'aprenentatge per reforç d'OpenAI, estem veient que GPT‑5 ens pot ajudar a raonar sobre el nostre codi i respondre preguntes sobre aquest, accelerant el nostre treball del dia a dia.
Quan produeix codi frontend per a aplicacions web, GPT‑5 té més sensibilitat estètica, més ambició i més precisió. En comparacions costat a costat amb o3, GPT‑5 va ser preferit pels nostres provadors el 70% del temps.
Aquests són alguns exemples divertits, seleccionats expressament, del que GPT‑5 pot fer amb una sola indicació:
Indicació: Si us plau, genera una landing page bonica i realista per a un servei que ofereix a l'aficionat definitiu al cafè una subscripció de 200 $ al mes que inclou lloguer d'equipament i assessorament per a la torrada de cafè i la creació de l'espresso definitiu. El públic objectiu és una persona de mitjana edat de l'àrea de la badia que potser treballa en tecnologia, té estudis, ingressos disponibles i és apassionada per l'art i la ciència del cafè. Optimitza-la per a la conversió amb una subscripció de 6 mesos.
Consulta més exemples de GPT‑5 a la nostra galeria aquí(s'obre en una finestra nova).
GPT‑5 és un millor col·laborador, especialment en productes de programació agentic com Cursor, Windsurf, GitHub Copilot i Codex CLI. Mentre treballa, GPT‑5 pot mostrar plans, actualitzacions i resums entre crides a eines. En comparació amb els nostres models anteriors, GPT‑5 és més proactiu a l'hora de completar tasques ambicioses sense esperar la teva aprovació ni fer-se enrere davant d'una gran complexitat.
Aquí tens un exemple de com pot actuar GPT‑5 mentre afronta una tasca complexa (en aquest cas, crear un lloc web per a un restaurant):
Després que l'usuari demani un lloc web per al seu restaurant, GPT‑5 comparteix un pla ràpid, munta l'estructura de l'aplicació, instal·la dependències, crea el contingut del lloc, executa una compilació per comprovar errors de compilació, resumeix la feina feta i suggereix possibles passos següents. Aquest vídeo s'ha accelerat aproximadament 3x per estalviar-te l'espera; la durada completa per crear el lloc web va ser d'uns tres minuts.
Més enllà de la programació agentic, GPT‑5 és millor en tasques agentic en general. GPT‑5 estableix nous rècords en benchmarks de seguiment d'instruccions (69,6% a Scale MultiChallenge, qualificat per o3‑mini) i crida a eines (96,7% a τ2-bench telecom). La millora en la intel·ligència d'eines permet a GPT‑5 encadenar accions de manera més fiable per dur a terme tasques del món real.
Primeres impressions sobre GPT‑5 per a tasques agentic
«GPT-5 és un gran salt endavant. Va aconseguir el millor rendiment que hem vist mai d'un sol model als nostres benchmarks interns. GPT-5 va destacar en diverses tasques agentic, fins i tot abans que retocéssim una sola línia de codi o adaptéssim una indicació. Els nous preàmbuls i un control més precís sobre l'ús d'eines van permetre un salt important en l'estabilitat i la capacitat de control dels nostres agents.»
GPT‑5 segueix instruccions de manera més fiable que qualsevol dels seus predecessors, amb puntuacions altes a COLLIE, Scale MultiChallenge i la nostra avaluació interna de seguiment d'instruccions.
A COLLIE(s'obre en una finestra nova), els models han d'escriure text que compleixi diverses restriccions. A Scale MultiChallenge(s'obre en una finestra nova), es posa a prova els models en converses de múltiples torns perquè facin servir correctament quatre tipus d'informació de missatges anteriors. Les nostres puntuacions provenen de l'ús d'o3‑mini com a avaluador, que va ser més precís que GPT‑4o. A la nostra avaluació interna de seguiment d'instruccions de l'OpenAI API, els models han de seguir instruccions difícils derivades de comentaris reals de desenvolupadors. Els models de raonament es van executar amb un esforç de raonament alt.
Hem treballat intensament per millorar la crida a eines de les maneres que importen als desenvolupadors. GPT‑5 és millor seguint instruccions d'eines, millor gestionant errors d'eines i millor fent proactivament moltes crides a eines en seqüència o en paral·lel. Quan se li indica, GPT‑5 també pot generar missatges de preàmbul abans i entre crides a eines per informar els usuaris del progrés durant tasques agentic més llargues.
Fa dos mesos, Sierra.ai va publicar τ2-bench telecom com un benchmark exigent d'ús d'eines que posava en relleu com el rendiment dels models de llenguatge disminueix significativament quan interactuen amb un estat de l'entorn que els usuaris poden canviar. A la seva publicació(s'obre en una finestra nova), cap model no va superar el 49%. GPT‑5 obté un 97%.
A τ2-bench(s'obre en una finestra nova), un model ha de fer servir eines per completar una tasca d'atenció al client, on hi pot haver un usuari que es pot comunicar i pot actuar sobre l'estat del món. Els models de raonament es van executar amb un esforç de raonament alt.
GPT‑5 també mostra grans millores en el rendiment amb context llarg. A OpenAI-MRCR, una mesura de recuperació d'informació amb context llarg, GPT‑5 supera o3 i GPT‑4.1, amb un marge que creix substancialment amb longituds d'entrada més grans.
A OpenAI-MRCR(s'obre en una finestra nova) (resolució de correferència multironda), s'insereixen múltiples peticions d'usuari «agulla» idèntiques en «pallers» llargs de peticions i respostes semblants, i es demana al model que reprodueixi la resposta a la i-èsima agulla. La ràtio mitjana de coincidència mesura la ràtio mitjana de coincidència de cadenes entre la resposta del model i la resposta correcta. Els punts a 256k segments màxims d'entrada representen mitjanes sobre 128k–256k segments d'entrada, i així successivament. Aquí, 256k representa 256 * 1.024 = 262.114 segments. Els models de raonament es van executar amb un esforç de raonament alt.
També fem open source BrowseComp Long Context(s'obre en una finestra nova), un nou benchmark per avaluar preguntes i respostes amb context llarg. En aquest benchmark, al model se li dona una consulta d'usuari, una llarga llista de resultats de cerca rellevants, i ha de respondre la pregunta basant-se en els resultats de cerca. Hem dissenyat BrowseComp Long Context perquè sigui realista, difícil i tingui respostes correctes de referència de manera fiable. En entrades de 128K–256K segments, GPT‑5 dona la resposta correcta el 89% del temps.
A l'API, tots els models GPT‑5 poden acceptar un màxim de 272.000 segments d'entrada i emetre un màxim de 128.000 segments de raonament i sortida, per a una longitud total de context de 400.000 segments.
GPT‑5 és més fiable que els nostres models anteriors. En indicacions dels benchmarks LongFact i FactScore, GPT‑5 comet aproximadament un 80% menys d'errors factuals que o3. Això el fa més adequat per a casos d'ús agentic en què la correcció importa, especialment en codi, dades i presa de decisions.
Les puntuacions més altes són pitjors. LongFact(s'obre en una finestra nova) i FActScore(s'obre en una finestra nova) consisteixen en preguntes obertes de cerca de fets. Fem servir un avaluador basat en LLM amb navegació per verificar factualment les respostes a indicacions d'aquests benchmarks i mesurem la fracció d'afirmacions factualment incorrectes. Els detalls d'implementació i avaluació es poden trobar a la fitxa del model. Els models de raonament van fer servir un esforç de raonament alt. La cerca no estava activada.
En general, GPT‑5 s'ha entrenat per ser més conscient de les seves pròpies limitacions i més capaç de gestionar imprevistos. També hem entrenat GPT‑5 perquè sigui molt més precís en preguntes de salut (llegeix-ne més al nostre blog de recerca). Com amb tots els models de llenguatge, et recomanem verificar la feina de GPT‑5 quan hi hagi molt en joc.
Els desenvolupadors poden controlar el temps de pensament de GPT‑5 mitjançant el paràmetre reasoning_effort a l'API. A més dels valors anteriors —low, medium (per defecte) i high—, GPT‑5 també admet minimal, que minimitza el raonament de GPT‑5 per retornar una resposta ràpidament.
Els valors més alts de reasoning_effort maximitzen la qualitat i els valors més baixos maximitzen la velocitat. No totes les tasques es beneficien igual del raonament addicional, així que recomanem experimentar per veure què funciona millor per als casos d'ús que t'importen.
Per exemple, un raonament per sobre de low aporta poc a la recuperació relativament simple amb context llarg, però afegeix força punts percentuals a CharXiv Reasoning(s'obre en una finestra nova), un benchmark de raonament visual.
L'esforç de raonament de GPT‑5 aporta beneficis diferents segons la tasca. Per a CharXiv Reasoning, GPT‑5 va tenir accés a una eina python.
Per ajudar a guiar la llargada per defecte de les respostes de GPT‑5, hem introduït un nou paràmetre API verbosity, que accepta els valors low, medium (per defecte) i high. Si les instruccions explícites entren en conflicte amb els paràmetres de verbositat, prevalen les instruccions explícites. Per exemple, si demanes a GPT‑5 que «escrigui un assaig de 5 paràgrafs», la resposta del model sempre hauria de tenir 5 paràgrafs independentment del nivell de verbositat (tot i que els paràgrafs mateixos poden ser més llargs o més curts).
Verbositat=baixa
Verbositat=mitjana
Verbositat=alta
Si se li indica, GPT‑5 generarà missatges de preàmbul visibles per a l'usuari abans i entre crides a eines. A diferència dels missatges de raonament ocults, aquests missatges visibles permeten a GPT‑5 comunicar plans i progrés a l'usuari, ajudant els usuaris finals a entendre el seu enfocament i la intenció darrere de les crides a eines.
Presentem un nou tipus d'eina, les eines personalitzades, que permeten a GPT‑5 cridar una eina amb text pla en lloc de JSON. Per restringir GPT‑5 a seguir formats d'eina personalitzats, els desenvolupadors poden proporcionar una expressió regular o fins i tot una gramàtica independent del context(s'obre en una finestra nova) més completament especificada.
Abans, la nostra interfície per a eines definides pel desenvolupador requeria que es cridessin amb JSON, un format habitual utilitzat per les API web i pels desenvolupadors en general. Tanmateix, generar JSON vàlid requereix que el model escapi perfectament totes les cometes, barres invertides, salts de línia i altres caràcters de control. Tot i que els nostres models estan ben entrenats per generar JSON, en entrades llargues com centenars de línies de codi o un informe de 5 pàgines, la probabilitat d'error augmenta. Amb les eines personalitzades, GPT‑5 pot escriure entrades d'eina com a text pla, sense haver d'escapar tots els caràcters que ho requereixen.
A SWE-bench Verified, fent servir eines personalitzades en lloc d'eines JSON, GPT‑5 obté aproximadament la mateixa puntuació.
GPT‑5 fa avançar la frontera de la seguretat i és un model més robust, fiable i útil. GPT‑5 té significativament menys probabilitats d'al·lucinar que els nostres models anteriors, comunica amb més honestedat les seves accions i capacitats a l'usuari i proporciona la resposta més útil quan és possible, tot mantenint-se dins dels límits de seguretat. En pots llegir més al nostre blog de recerca.
GPT‑5 ja està disponible a la plataforma API en tres mides: gpt-5, gpt-5-mini i gpt-5-nano. Està disponible a la Responses API, a l'API de complecions de xat, i és el valor per defecte a Codex CLI. El preu de GPT‑5 és d'1,25 $/1M segments d'entrada i 10 $/1M segments de sortida; el de GPT‑5 mini és de 0,25 $/1M segments d'entrada i 2 $/1M segments de sortida; i el de GPT‑5 nano és de 0,05 $/1M segments d'entrada i 0,40 $/1M segments de sortida.
Aquests models admeten els paràmetres API reasoning_effort i verbosity, així com eines personalitzades. També admeten crides a eines en paral·lel, eines integrades (cerca web, cerca de fitxers, generació d'imatges i més), funcionalitats bàsiques de l'API (streaming, resultats estructurats i més), i funcionalitats d'estalvi de costos com la memòria cau d'indicacions i Batch API.
La versió sense raonament de GPT‑5 que s'utilitza a ChatGPT està disponible a l'API com a gpt-5-chat-latest, també amb un preu d'1,25 $/1M segments d'entrada i 10 $/1M segments de sortida.
GPT‑5 també es llança a les plataformes de Microsoft, incloses Microsoft 365 Copilot, Copilot, GitHub Copilot i Azure AI Foundry.
Consulta la documentació(s'obre en una finestra nova) de GPT‑5, els detalls de preus(s'obre en una finestra nova) i la guia d'indicacions(s'obre en una finestra nova) per començar.
Intel·ligència
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6 % | 91,1 % | 85,2 % | 88,9 % | 92,7 % | 46,4 % | 40,2 % | - |
| FrontierMath(with python tool only) | 26,3 % | 22,1 % | 9,6 % | 15,8 % | 15,4 % | - | - | - |
| GPQA diamond(no tools) | 85,7 % | 82,3 % | 71,2 % | 83,3 % | 81,4 % | 66,3 % | 65,0 % | 50,3 % |
| HLE[1](no tools) | 24,8 % | 16,7 % | 8,7 % | 20,2 % | 14,7 % | 5,4 % | 3,7 % | - |
| HMMT 2025(no tools) | 93,3 % | 87,8 % | 75,6 % | 81,7 % | 85,0 % | 28,9 % | 35,0 % | - |
[1] Hi ha una petita discrepància amb les xifres del nostre blog anterior, perquè aquelles es van executar amb una versió anterior d'HLE.
Multimodal
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2 % | 81,6 % | 75,6 % | 82,9 % | 81,6 % | 74,8 % | 72,7 % | 55,4 % |
| MMMU-Pro(avg across standard and vision sets) | 78,4 % | 74,1 % | 62,6 % | 76,4 % | 73,4 % | 60,3 % | 58,9 % | 33,0 % |
| CharXiv reasoning(python enabled) | 81,1 % | 75,5 % | 62,7 % | 78,6 % | 72,0 % | 56,7 % | 56,8 % | 40,5 % |
| VideoMMMU, max frame 256 | 84,6 % | 82,5 % | 66,8 % | 83,3 % | 79,4 % | 60,9 % | 55,1 % | 30,2 % |
| ERQA | 65,7 % | 62,9 % | 50,1 % | 64,0 % | 56,5 % | 44,3 % | 42,3 % | 26,5 % |
Programació
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 k USD | 75 k USD | 49 k USD | 86 k USD | 66 k USD | 34 k USD | 31 k USD | 9 k USD |
| SWE-bench Verified[2] | 74,9 % | 71,0 % | 54,7 % | 69,1 % | 68,1 % | 54,6 % | 23,6 % | - |
| Aider polyglot(diff) | 88,0 % | 71,6 % | 48,4 % | 79,6 % | 58,2 % | 52,9 % | 31,6 % | 6,2 % |
[2] Ometem 23/500 problemes que no es van poder executar a la nostra infraestructura. La llista completa de les 23 tasques omeses és 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' i 'sphinx-doc__sphinx-9367'.
Seguiment d'instruccions
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6 % | 62,3 % | 54,9 % | 60,4 % | 57,5 % | 46,2 % | 42,2 % | 31,1 % |
| Internal API instruction following eval(hard) | 64,0 % | 65,8 % | 56,1 % | 47,4 % | 44,7 % | 49,1 % | 45,1 % | 31,6 % |
| COLLIE | 99,0 % | 98,5 % | 96,9 % | 98,4 % | 96,1 % | 65,8 % | 54,6 % | 42,5 % |
[3] Nota: trobem que l'avaluador per defecte de MultiChallenge (GPT-4o) sovint puntua malament les respostes del model. Veiem que canviar l'avaluador per un model de raonament, com o3-mini, millora significativament la precisió de l'avaluació en les mostres que hem inspeccionat.
Crida a funcions
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6 % | 60,0 % | 41,0 % | 64,8 % | 60,2 % | 56,0 % | 51,0 % | 14,0 % |
| Tau2-bench retail | 81,1 % | 78,3 % | 62,3 % | 80,2 % | 70,5 % | 74,0 % | 66,0 % | 21,5 % |
| Tau2-bench telecom | 96,7 % | 74,1 % | 35,5 % | 58,2 % | 40,5 % | 34,0 % | 44,0 % | 12,1 % |
Context llarg
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2 % | 84,3 % | 43,2 % | 55,0 % | 56,4 % | 57,2 % | 47,2 % | 36,6 % |
| OpenAI-MRCR: 2 needle 256k | 86,8 % | 58,8 % | 34,9 % | - | - | 56,2 % | 45,5 % | 22,6 % |
| Graphwalks bfs <128k | 78,3 % | 73,4 % | 64,0 % | 77,3 % | 62,3 % | 61,7 % | 61,7 % | 25,0 % |
| Graphwalks parents <128k | 73,3 % | 64,3 % | 43,8 % | 72,9 % | 51,1 % | 58,0 % | 60,5 % | 9,4 % |
| BrowseComp Long Context 128k | 90,0 % | 89,4 % | 80,4 % | 88,3 % | 80,0 % | 85,9 % | 89,0 % | 89,4 % |
| BrowseComp Long Context 256k | 88,8 % | 86,0 % | 68,4 % | - | - | 75,5 % | 81,6 % | 19,1 % |
| VideoMME(long, with subtitle category) | 86,7 % | 78,5 % | 65,7 % | 84,9 % | 79,5 % | 78,7 % | 68,4 % | 55,2 % |
Al·lucinacions
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0 % | 0,7 % | 1,0 % | 5,2 % | 3,0 % | 0,7 % | 1,1 % | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2 % | 1,3 % | 2,8 % | 6,8 % | 8,9 % | 1,1 % | 1,8 % | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8 % | 3,5 % | 7,3 % | 23,5 % | 38,7 % | 6,7 % | 10,9 % | - |


