Actualització del 24 d’abril de 2026: GPT‑5.5 i GPT‑5.5 Pro ja estan disponibles a l’API. La fitxa del model també s’ha actualitzat per descriure les salvaguardes addicionals que s’hi apliquen.
Presentem GPT‑5.5, el nostre model més intel·ligent i més intuïtiu d’utilitzar fins ara, i el següent pas cap a una nova manera de fer feina amb un ordinador.
GPT‑5.5 entén més ràpid què intentes fer i pot assumir més part de la feina per si mateix. Destaca escrivint i depurant codi, fent recerca en línia, analitzant dades, creant documents i fulls de càlcul, fent servir programari i passant d’una eina a una altra fins que s’acaba una tasca. En lloc de gestionar amb cura cada pas, pots donar a GPT‑5.5 una tasca desordenada i amb diverses parts i confiar que planificarà, farà servir eines, comprovarà la seva feina, navegarà per l’ambigüitat i continuarà endavant.
Les millores són especialment notables en la programació agentiva, l’ús de l’ordinador, el treball del coneixement i la recerca científica inicial, àrees on el progrés depèn del raonament a través del context i de prendre accions al llarg del temps. GPT‑5.5 ofereix aquest salt d’intel·ligència sense renunciar a la velocitat: els models més grans i capaços sovint són més lents de servir, però GPT‑5.5 iguala la latència per segment de GPT‑5.4 en el servei real, alhora que rendeix a un nivell d’intel·ligència molt més alt. També fa servir força menys segments per completar les mateixes tasques de Codex, cosa que el fa més eficient i també més capaç.
Llançarem GPT‑5.5 amb el nostre conjunt de salvaguardes més sòlid fins ara, dissenyat per reduir-ne el mal ús i alhora preservar l’accés per a feina beneficiosa. Hem avaluat aquest model amb tot el nostre conjunt d’entorns de treball de seguretat i preparació, hem treballat amb red teamers interns i externs, hem afegit proves específiques per a capacitats avançades de ciberseguretat i biologia, i hem recollit comentaris sobre casos d’ús reals de gairebé 200 socis de confiança amb accés anticipat abans del llançament.
Avui, GPT‑5.5 s’està desplegant per als usuaris Plus, Pro, Business i Enterprise a ChatGPT i Codex, i GPT‑5.5 Pro s’està desplegant per als usuaris Pro, Business i Enterprise a ChatGPT. Els desplegaments a l’API requereixen salvaguardes diferents, i estem treballant estretament amb socis i clients en els requisits de seguretat i protecció per oferir-lo a escala. Molt aviat portarem GPT‑5.5 i GPT‑5.5 Pro a l’API.
GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro | |
Terminal-Bench 2.0 | 82.7% | 75.1% | - | - | 69.4% | 68.5% |
Expert-SWE (intern) | 73.1% | 68.5% | - | - | - | - |
GDPval (victòries o empats) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
OSWorld-Verified | 78.7% | 75.0% | - | - | 78.0% | - |
Toolathlon | 55.6% | 54.6% | - | - | - | 48.8% |
BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
FrontierMath nivell 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
FrontierMath nivell 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
CyberGym | 81.8% | 79.0% | - | - | 73.1% | - |
OpenAI està construint la infraestructura global per a la IA agentiva, fent possible que persones i empreses de tot el món facin feina amb IA. Durant l’últim any, hem vist com la IA ha accelerat de manera espectacular l’enginyeria de programari. Amb GPT‑5.5 a Codex i ChatGPT, aquesta mateixa transformació comença a estendre’s a la recerca científica i al conjunt més ampli de feines que la gent fa als ordinadors.
En tots aquests àmbits, GPT‑5.5 no és només més intel·ligent; també és més eficient en la manera com resol problemes, i sovint arriba a resultats de més qualitat amb menys segments i menys reintents. A l’índex de programació d’Artificial Analysis, GPT‑5.5 ofereix intel·ligència d’última generació a la meitat del cost dels models de programació d'avantguarda competidors.
L’Índex d’intel·ligència d’Artificial Analysis(s'obre en una finestra nova) és una mitjana ponderada de 10 avaluacions executades per una part externa: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.
GPT‑5.5 és el nostre model de programació agentiva més potent fins ara. A Terminal-Bench 2.0, que posa a prova fluxos de treball complexos de línia d’ordres que requereixen planificació, iteració i coordinació d’eines, assoleix una precisió d’última generació del 82,7%. A SWE-Bench Pro, que avalua la resolució de problemes reals de GitHub, arriba al 58,6%, resolent més tasques d’extrem a extrem en una sola passada que els models anteriors. A Expert-SWE, la nostra avaluació interna d'avantguarda per a tasques de programació a llarg termini amb un temps mitjà estimat de finalització humana de 20 hores, GPT‑5.5 també supera GPT‑5.4.
En aquestes tres avaluacions, GPT‑5.5 millora les puntuacions de GPT‑5.4 mentre fa servir menys segments.
Els punts forts de programació del model es veuen amb especial claredat a Codex, on pot assumir feina d’enginyeria que va de la implementació i la refactorització fins a la depuració, les proves i la validació. Les primeres proves suggereixen que GPT‑5.5 és millor en els comportaments dels quals depèn la feina d’enginyeria real, com ara mantenir el context en sistemes grans, raonar davant d’errors ambigus, comprovar hipòtesis amb eines i portar els canvis a través de la base de codi que els envolta.
La trajectòria renderitzada fa servir dades vectorials de NASA/JPL Horizons per a l’Orion, la Lluna i el Sol, amb escalat de visualització aplicat per facilitar-ne la lectura.
Indicació: [imatge adjunta] Implementa això com una aplicació nova amb webgl i vite fent servir dades reals de la missió Artemis II. Assegura’t de provar l’aplicació a fons fins que sigui totalment funcional i tingui l’aspecte de l’aplicació de la imatge. Para molta atenció al renderitzat dels planetes i de les trajectòries de vol. Vull poder interactuar amb el renderitzat 3D. Assegura’t que tingui una mecànica orbital realista.
Més enllà dels benchmarks, els primers usuaris van dir que GPT‑5.5 mostra una capacitat més forta per entendre la forma d’un sistema: per què falla alguna cosa, on ha d’arribar la correcció i què més de la base de codi se’n veuria afectat.

«El primer model de programació que he utilitzat que té una claredat conceptual seriosa.»
Dan Shipper, fundador i CEO d’Every, va descriure GPT‑5.5 com «el primer model de programació que he utilitzat que té una claredat conceptual seriosa».
Després de llançar una aplicació, va passar dies depurant un problema posterior al llançament abans de recórrer a un dels seus millors enginyers perquè reescrivís part del sistema. Per posar a prova GPT‑5.5, en essència va rebobinar el rellotge: podia el model mirar l’estat trencat i produir el mateix tipus de reescriptura que l’enginyer va acabar decidint? GPT‑5.4 no podia. GPT‑5.5 sí.

«Realment sembla que estigui treballant amb una intel·ligència superior, i gairebé hi ha una sensació de respecte.»
Pietro Schirano, CEO de MagicPath, va veure un canvi de nivell similar quan GPT‑5.5 va fusionar una branca amb centenars de canvis de frontend i de refactorització en una branca principal que també havia canviat substancialment, resolent la feina d’un sol intent en uns 20 minuts.
Els enginyers sèniors que van provar el model van dir que GPT‑5.5 era clarament més fort que GPT‑5.4 i Claude Opus 4.7 en raonament i autonomia, detectant problemes amb antelació i anticipant necessitats de proves i revisió sense cap indicació explícita. En un cas, un enginyer li va demanar que re-arquitectés un sistema de comentaris en un editor col·laboratiu de markdown i, quan va tornar, hi havia una pila de 12 diferències gairebé acabada. Altres van dir que van necessitar sorprenentment poca correcció d’implementació i que confiaven més en els plans de GPT‑5.5 que en els de GPT‑5.4.
Un enginyer de NVIDIA que va tenir accés anticipat al model va arribar a dir: «Perdre l’accés a GPT‑5.5 és com si m’haguessin amputat una extremitat.»
“GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. It stays on task for significantly longer without stopping early, which matters most for the complex, long-running work our users delegate to Cursor.”
Els mateixos punts forts que fan que GPT‑5.5 sigui excel·lent per programar també el converteixen en una eina poderosa per a la feina quotidiana amb un ordinador. Com que el model és millor entenent la intenció, pot recórrer de manera més natural tot el cicle del treball del coneixement: trobar informació, entendre què importa, fer servir eines, comprovar el resultat i convertir matèria primera en alguna cosa útil.
A Codex, GPT‑5.5 és millor que GPT‑5.4 generant documents, fulls de càlcul i presentacions de diapositives. Els usuaris alfa van dir que superava models anteriors en feines com la recerca operativa, el modelatge en fulls de càlcul i la transformació d’entrades empresarials desordenades en plans. Quan es combina amb les habilitats d’ús de l’ordinador de Codex, GPT‑5.5 ens acosta a la sensació que el model realment pot fer servir l’ordinador amb tu: veure què hi ha a la pantalla, fer clic, escriure, navegar per interfícies i passar d’una eina a una altra amb precisió.
Els equips d’OpenAI ja estan fent servir aquests punts forts en fluxos de treball reals. Avui, més del 85% de l’empresa fa servir Codex cada setmana en funcions que inclouen enginyeria de programari, finances, comunicacions, màrqueting, ciència de dades i gestió de producte. A Comms, l’equip va fer servir GPT‑5.5 a Codex per analitzar sis mesos de dades de sol·licituds d’intervenció, construir un marc de puntuació i risc i validar un agent de Slack automatitzat perquè les sol·licituds de baix risc es poguessin gestionar automàticament mentre que les de més risc continuessin passant a revisió humana. A Finances, l’equip va fer servir Codex per revisar 24.771 formularis fiscals K-1 amb un total de 71.637 pàgines, amb un flux de treball que excloïa la informació personal i va ajudar l’equip a accelerar la tasca en dues setmanes respecte de l’any anterior. A l’equip de llançament, un empleat va automatitzar la generació d’informes setmanals de negoci, estalviant entre 5 i 10 hores a la setmana.
A ChatGPT, GPT‑5.5 Thinking ofereix ajuda més ràpida per a problemes més difícils, amb respostes més intel·ligents i més concises per ajudar-te a avançar amb més eficiència en feines complexes. Destaca en feines professionals com la programació, la recerca, la síntesi i l’anàlisi d’informació i les tasques intensives en documents, especialment quan es fan servir connectors.
A GPT‑5.5 Pro, els primers usuaris estan veient un salt significatiu tant en la dificultat com en la qualitat de la feina que ChatGPT pot assumir, amb millores de latència que el fan molt més pràctic per a tasques exigents. En comparació amb GPT‑5.4 Pro, els usuaris van trobar que les respostes de GPT‑5.5 Pro eren significativament més completes, ben estructurades, precises, rellevants i útils, amb un rendiment especialment fort en negocis, dret, educació i ciència de dades.
GPT‑5.5 aconsegueix un rendiment d’última generació en diversos benchmarks que reflecteixen aquest tipus de feina. A GDPval, que posa a prova la capacitat dels agents de produir treball del coneixement ben especificat en 44 ocupacions, GPT‑5.5 obté un 84,9%. A OSWorld-Verified, que mesura si un model pot operar entorns informàtics reals pel seu compte, arriba al 78,7%. I a Tau2-bench Telecom, que posa a prova fluxos de treball complexos d’atenció al client, arriba al 98,0% sense ajust de la indicació. GPT‑5.5 també rendeix amb força en altres benchmarks de treball del coneixement: 60,0% a FinanceAgent, 88,5% a tasques internes de modelatge de banca d’inversió i 54,1% a OfficeQA Pro.
Tau2-bench Telecom es va executar sense ajust d’indicacions (i amb GPT‑4.1 com a model d’usuari). GPT‑5.5 entén millor la intenció de la tasca i és més eficient en segments que els seus predecessors.
«GPT-5.5 ofereix el rendiment sostingut necessari per a feines d’execució intensiva. Construït i servit sobre sistemes NVIDIA GB200 NVL72, el model permet als nostres equips lliurar funcionalitats de cap a cap a partir d’indicacions en llenguatge natural, reduir el temps de depuració de dies a hores i convertir setmanes d’experimentació en avenços d’un dia per l’altre en bases de codi complexes. És més que programar més ràpid: és una nova manera de treballar que ajuda la gent a operar a una velocitat fonamentalment diferent.»
GPT‑5.5 també mostra millores en fluxos de treball de recerca científica i tècnica, que requereixen més que respondre una pregunta difícil. Els investigadors han d’explorar una idea, reunir proves, comprovar hipòtesis, interpretar resultats i decidir què provar després. GPT‑5.5 és millor que altres models a persistir al llarg d’aquest cicle.
Cal destacar que GPT‑5.5 mostra una millora clara respecte de GPT‑5.4 a GeneBench(s'obre en una finestra nova), una nova avaluació centrada en l’anàlisi científica de dades en diverses etapes en genètica i biologia quantitativa. Aquests problemes requereixen que els models raonin sobre dades potencialment ambigües o amb errors amb una supervisió mínima, afrontin obstacles realistes com factors de confusió ocults o errors de control de qualitat, i implementin i interpretin correctament mètodes estadístics moderns. El rendiment del model és sorprenent tenint en compte que les tasques d’aquí sovint corresponen a projectes de diversos dies per a experts científics.
De manera semblant, a BixBench(s'obre en una finestra nova), un benchmark dissenyat al voltant de la bioinformàtica i l’anàlisi de dades del món real, GPT‑5.5 va aconseguir un rendiment capdavanter entre els models amb puntuacions publicades. Les capacitats científiques del model ara són prou sòlides per accelerar de manera significativa el progrés a les fronteres de la recerca biomèdica com a autèntic co-científic.
En un altre exemple, una versió interna de GPT‑5.5 amb un arnès personalitzat va ajudar a descobrir una nova demostració(s'obre en una finestra nova) sobre els nombres de Ramsey, un dels objectes centrals de la combinatòria. La combinatòria estudia com encaixen els objectes discrets: grafs, xarxes, conjunts i patrons. Els nombres de Ramsey es pregunten, a grans trets, com de gran ha de ser una xarxa abans que es garanteixi que apareixerà algun tipus d’ordre. Els resultats en aquest àmbit són poc freqüents i sovint tècnicament difícils. Aquí, GPT‑5.5 va trobar una demostració d’un fet asimptòtic de llarga data sobre els nombres de Ramsey fora de la diagonal, verificada posteriorment a Lean. El resultat és un exemple concret de GPT‑5.5 contribuint no només amb codi o explicacions, sinó amb un argument matemàtic sorprenent i útil en una àrea central de recerca.
Els primers usuaris van fer servir GPT‑5.5 Pro a ChatGPT menys com un motor de resposta amb un sol exemple i més com un soci de recerca: criticant manuscrits en múltiples passades, posant a prova arguments tècnics, proposant anàlisis i treballant amb codi, notes i context de PDF. El fil conductor és que GPT‑5.5 és millor ajudant els investigadors a passar de la pregunta a l’experiment i al resultat.
Derya Unutmaz, professor i investigador d’immunologia al Jackson Laboratory for Genomic Medicine, va fer servir GPT‑5.5 Pro per analitzar un conjunt de dades d’expressió gènica amb 62 mostres i prop de 28.000 gens, produint un informe de recerca detallat que no només resumia les troballes sinó que també feia emergir preguntes i idees clau —una feina que, segons ell, hauria requerit mesos al seu equip.
Bartosz Naskręcki, professor ajudant de matemàtiques a la Universitat Adam Mickiewicz de Poznań, Polònia, va fer servir GPT‑5.5 a Codex per crear una aplicació de geometria algebraica a partir d’una sola indicació en 11 minuts, visualitzant la intersecció de superfícies quadràtiques i convertint la corba resultant en un model de Weierstrass.
Més endavant va ampliar l’aplicació amb una visualització de singularitats més estable i coeficients exactes que es poden reutilitzar en treballs futurs. Per a ell, el canvi més gran és que Codex ara pot ajudar a implementar fluxos de treball personalitzats de visualització matemàtica i d’àlgebra computacional que abans requerien eines dedicades. En conjunt, aquests exemples mostren GPT‑5.5 convertint la intenció experta en eines i anàlisis de recerca funcionals.

Crèdit: Bartosz Naskręcki(s'obre en una finestra nova)
Indicació: # Intersecció de superfícies de geometria algebraica
Fes una aplicació que dibuixi dues superfícies quadràtiques i acoloreixi en vermell la corba d’intersecció. Fes servir el teorema computacional de Riemann-Roch per convertir-ho en una corba de Weierstrass.
## Finestra principal
Dues superfícies tintades amb un ombrejat lleugerament transparent, renderitzat d’alta qualitat, que s’intersequen al llarg d’una corba algebraica de color vermell
Rotació amb el ratolí en ambdues direccions, mecanisme complet de pessic per al zoom, pressió hàptica per mostrar el petit menú amb lliscadors per canviar els coeficients de cada superfície; detecció via nivell de Z-buffor
## Finestra lateral dreta
Equació curta de Weierstrass (sobre Q o extensió de cos quadràtica) calculada al moment via fórmules efectives del teorema de Riemann-Roch
## Mode ambient on tots els controls estan amagats i l’usuari pot admirar la bellesa de les formes
## Especificacions
L’aplicació funciona al navegador, implementació lleugera amb les biblioteques més noves de pila completa, portable, desplegable
## Documentació
Repositori Git, diari, pla (fitxers Markdown)
“It’s incredibly energizing to use OpenAI’s new GPT-5.5 model in our harness, have it reason over massive biochemical datasets to predict human drug outcomes, and then see it deliver significant accuracy gains on our hardest drug discovery evals. If OpenAI keeps cooking like this, the foundations of drug discovery will change by the end of the year.”
Oferir GPT‑5.5 amb la latència de GPT‑5.4 va requerir replantejar la inferència com un sistema integrat, no com un conjunt d’optimitzacions aïllades. GPT‑5.5 es va co-dissenyar per a, entrenar amb i oferir en sistemes NVIDIA GB200 i GB300 NVL72. Codex i GPT‑5.5 van ser fonamentals per aconseguir els nostres objectius de rendiment. Codex va ajudar l’equip a avançar més ràpid de la idea a una implementació mesurable amb benchmarks, esbossant enfocaments, connectant experiments i ajudant a identificar quines optimitzacions mereixien una inversió més profunda. GPT‑5.5 va ajudar a trobar i implementar millores clau en la mateixa pila. Dit simplement, el model va ajudar a millorar la infraestructura que l’ofereix.
Una d’aquestes millores van ser les heurístiques d’equilibri de càrrega i partició. Abans de GPT‑5.5, dividíem les sol·licituds en un accelerador en un nombre fix de fragments per equilibrar la feina entre els nuclis de càlcul, assegurant que les sol·licituds grans i petites poguessin executar-se a la mateixa GPU. Tanmateix, un nombre predeterminat de fragments estàtics no és òptim per a totes les formes de trànsit. Per aprofitar millor les GPU, Codex va analitzar setmanes de patrons de trànsit de producció i va escriure algoritmes heurístics personalitzats per particionar i equilibrar la feina de manera òptima. L’esforç va tenir un impacte desproporcionat, augmentant la velocitat de generació de segments en més d’un 20%.
Preparar el món per a models que són molt bons trobant i corregint vulnerabilitats de seguretat és un esport d’equip i requerirà que tot l’ecosistema treballi de valent per construir resiliència, amb accés democratitzat als models i desplegament iteratiu per a la nova era de la ciberdefensa.
Els models d'avantguarda són cada vegada més capaços en ciberseguretat. Aquestes capacitats es distribuiran àmpliament i creiem que el millor camí endavant és assegurar-nos que es puguin fer servir per accelerar la ciberdefensa i reforçar l’ecosistema.
GPT‑5.5 és un pas incremental però important cap a una IA que pugui resoldre alguns dels reptes més difícils del món, com la ciberseguretat. Amb GPT‑5.2 al desembre, vam desplegar de manera proactiva les salvaguardes cibernètiques necessàries per limitar el possible abús cibernètic amb els nostres models; ara, amb GPT‑5.5, estem desplegant classificadors més estrictes per al risc cibernètic potencial que alguns usuaris poden trobar molestos al principi, mentre els ajustem amb el temps.
Fa anys que hem identificat la ciberseguretat com una categoria al nostre Entorn de treball de preparació(s'obre en una finestra nova), a mesura que els nostres models han anat millorant de manera incremental, mentre desenvolupem i calibrem mitigacions de forma iterativa, per poder llançar de manera responsable models amb capacitats significatives de ciberseguretat.
- Estem desplegant salvaguardes líders al sector per a aquest nivell de capacitat cibernètica. Vam introduir per primera vegada salvaguardes específiques de ciberseguretat amb GPT‑5.2(s'obre en una finestra nova) l’any passat, i les hem continuat provant, refinant i desenvolupant en desplegaments posteriors. Per a GPT‑5.5, hem dissenyat controls més estrictes al voltant de l’activitat de més risc, les sol·licituds cibernètiques sensibles i hem afegit proteccions davant del mal ús repetit. L’accés ampli és possible gràcies a les nostres inversions en seguretat del model, ús autenticat i monitoratge d’usos no permesos. Fa mesos que treballem amb experts externs per desenvolupar, provar i iterar la solidesa d’aquestes salvaguardes. Amb GPT‑5.5, ens assegurem que els desenvolupadors puguin protegir el seu codi amb facilitat, alhora que apliquem controls més forts als fluxos de treball cibernètics amb més probabilitats de causar danys per part d’actors maliciosos.
- Estem ampliant l’accés per accelerar la ciberdefensa a tots els nivells. Posem els nostres models permissius en ciberseguretat a disposició a través de Trusted Access for Cyber, començant per Codex, que inclou un accés ampliat a les capacitats avançades de ciberseguretat de GPT‑5.5 amb menys restriccions per als usuaris verificats que compleixin determinats senyals de confiança(s'obre en una finestra nova) en el llançament. Les organitzacions responsables de defensar infraestructures crítiques poden sol·licitar accés a models permissius en ciberseguretat com GPT‑5.4‑Cyber, sempre que compleixin requisits estrictes de seguretat per fer servir aquests models per protegir els seus sistemes interns. Això dona a una àmplia gamma de defensors verificats eines més potents per a feina legítima de seguretat amb menys fricció innecessària, per garantir que democratitzem l’accés a capacitats defensives importants. Els usuaris poden sol·licitar accés de confiança a chatgpt.com/cyber(s'obre en una finestra nova) per reduir rebutjos innecessaris mentre fan servir GPT‑5.5 per a feina defensiva verificada.
- Estem treballant amb socis governamentals per ajudar a protegir infraestructures crítiques per al públic. Junts, estem explorant com la IA avançada pot donar suport a la feina defensiva de responsables de confiança encarregats de sistemes dels quals depèn la gent, des dels sistemes digitals que protegeixen dades fiscals importants fins a la xarxa elèctrica i els subministraments d’aigua de les comunitats locals.
Tractem les capacitats biològiques/químiques i de ciberseguretat de GPT‑5.5 com a altes dins del nostre Entorn de treball de preparació(s'obre en una finestra nova). Tot i que GPT‑5.5 no va arribar al nivell crític de capacitat en ciberseguretat, les nostres avaluacions i proves van mostrar que les seves capacitats de ciberseguretat són un pas endavant respecte de GPT‑5.4.
A més, GPT‑5.5 va passar pel nostre procés complet de seguretat i governança abans del llançament, incloent avaluacions de preparació, proves específiques de domini, noves avaluacions dirigides per a capacitats avançades de biologia i ciberseguretat i proves sòlides amb experts externs. Compartim més detalls a la fitxa del model(s'obre en una finestra nova) de GPT‑5.5.
Aquesta feina reflecteix el nostre enfocament més ampli de resiliència en IA, que creiem que és necessari a mesura que avancen les capacitats dels models. Volem que una IA potent estigui disponible per a les persones que la fan servir per defensar sistemes, institucions i el públic. El camí viable és l’accés de confiança, salvaguardes sòlides que escalin amb la capacitat i la capacitat operativa per detectar i respondre a abusos greus.
Avui, GPT‑5.5 s’està desplegant per als usuaris Plus, Pro, Business i Enterprise a ChatGPT i Codex, i GPT‑5.5 Pro s’està desplegant per als usuaris Pro, Business i Enterprise a ChatGPT. Molt aviat portarem GPT‑5.5 i GPT‑5.5 Pro a l’API.
A ChatGPT, GPT‑5.5 Thinking està disponible per als usuaris Plus, Pro, Business i Enterprise. GPT‑5.5 Pro, dissenyat per a preguntes encara més difícils i feina de més precisió, està disponible per als usuaris Pro, Business i Enterprise.
A Codex, GPT‑5.5 està disponible per als plans Plus, Pro, Business, Enterprise, Edu i Go amb una finestra de context de 400K. GPT‑5.5 també està disponible en mode Fast, generant segments 1,5x més ràpid per 2,5x el cost.
Per als desenvolupadors d’API, gpt-5.5 aviat estarà disponible a les API de Responses i de complecions de xat a 5 $ per 1 M de segments d’entrada i 30 $ per 1 M de segments de sortida, amb una finestra de context d’1 M. Els preus Batch i Flex estan disponibles a la meitat de la tarifa estàndard de l’API, mentre que el processament Priority està disponible a 2,5x la tarifa estàndard. També llançarem gpt-5.5-pro a l’API per a una precisió encara més alta, amb un preu de 30 $ per 1 M de segments d’entrada i 180 $ per 1 M de segments de sortida. Consulta la pàgina de preus per a tots els detalls.
Tot i que GPT‑5.5 té un preu més alt que GPT‑5.4, és alhora més intel·ligent i molt més eficient en segments. A Codex, hem ajustat acuradament l’experiència perquè GPT‑5.5 ofereixi millors resultats amb menys segments que GPT‑5.4 per a la majoria d’usuaris, alhora que continua oferint un ús generós en tots els nivells de subscripció.
Programació
Avaluació | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
SWE-Bench Pro (públic) * | 58.6% | 57.7% | - | - | 64.3% | 54.2% |
Terminal-Bench 2.0 | 82.7% | 75.1% | - | - | 69.4% | 68.5% |
Expert-SWE (intern) | 73.1% | 68.5% | - | - | - | - |
*Els laboratoris han assenyalat indicis de memorització(s'obre en una finestra nova) en aquesta avaluació
Professional
Avaluació | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GDPval (victòries o empats) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
FinanceAgent v1.1 | 60.0% | 56.0% | - | 61.5% | 64.4% | 59.7% |
Tasques de modelatge de banca d’inversió (intern) | 88.5% | 87.3% | 88.6% | 83.6% | - | - |
OfficeQA Pro | 54.1% | 53.2% | - | - | 43.6% | 18.1% |
Ús de l’ordinador i visió
Avaluació | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
OSWorld-Verified | 78.7% | 75.0% | - | - | 78.0% | - |
MMMU Pro (sense eines) | 81.2% | 81.2% | - | - | - | 80.5% |
MMMU Pro (amb eines) | 83.2% | 82.1% | - | - | - | - |
Ús d’eines
Avaluació | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
MCP Atlas** | 75.3% | 70.6% | - | - | 79.1% | 78.2% |
Toolathlon | 55.6% | 54.6% | - | - | - | 48.8% |
Tau2-bench Telecom*** | 98.0% | 92.8% | - | - | - | - |
** MCP Atlas: resultats de Scale AI després de l’última actualització d’abril de 2026.
*** Tau2-bench telecom: resultats per a 5.5 i 5.4 amb les indicacions originals, és a dir, sense ajust d’indicacions. Això omet resultats d’altres laboratoris que es van avaluar amb ajustos d’indicacions.
Acadèmic
Avaluació | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GeneBench | 25.0% | 19.0% | 33.2% | 25.6% | - | - |
FrontierMath nivell 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
FrontierMath nivell 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
BixBench | 80.5% | 74.0% | - | - | - | - |
GPQA Diamond | 93.6% | 92.8% | - | 94.4% | 94.2% | 94.3% |
Humanity's Last Exam (sense eines) | 41.4% | 39.8% | 43.1% | 42.7% | 46.9% | 44.4% |
Humanity's Last Exam (amb eines) | 52.2% | 52.1% | 57.2% | 58.7% | 54.7% | 51.4% |
Ciberseguretat
Avaluació | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Tasques de repte Capture-the-Flags (intern)**** | 88.1% | 83.7% | - | - | - | - |
CyberGym | 81.8% | 79.0% | - | - | 73.1% | - |
**** Una ampliació dels CTF més difícils utilitzats en les fitxes del model amb reptes difícils addicionals.
Context llarg
Avaluació | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Graphwalks BFS 256k f1 | 73.7% | 62.5% | - | - | 76.9% | - |
Graphwalks BFS 1mil f1 | 45.4% | 9.4% | - | - | 41.2% (Opus 4.6) | - |
Graphwalks parents 256k f1 | 90.1% | 82.8% | - | - | 93.6% | - |
Graphwalks parents 1mil f1 | 58.5% | 44.4% | - | - | 72.0% (Opus 4.6) | - |
OpenAI MRCR v2 8-needle 4K-8K | 98.1% | 97.3% | - | - | - | - |
OpenAI MRCR v2 8-needle 8K-16K | 93.0% | 91.4% | - | - | - | - |
OpenAI MRCR v2 8-needle 16K-32K | 96.5% | 97.2% | - | - | - | - |
OpenAI MRCR v2 8-needle 32K-64K | 90.0% | 90.5% | - | - | - | - |
OpenAI MRCR v2 8-needle 64K-128K | 83.1% | 86.0% | - | - | - | - |
OpenAI MRCR v2 8-needle 128K-256K | 87.5% | 79.3% | - | - | 59.2% | - |
OpenAI MRCR v2 8-needle 256K-512K | 81.5% | 57.5% | - | - | - | - |
OpenAI MRCR v2 8-needle 512K-1M | 74.0% | 36.6% | - | - | 32.2% | - |
Raonament abstracte
Avaluació | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
ARC-AGI-1 (verificat) | 95.0% | 93.7% | - | 94.5% | 93.5% | 98.0% |
ARC-AGI-2 (verificat) | 85.0% | 73.3% | - | 83.3% | 75.8% | 77.1% |
Les avaluacions de GPT es van executar amb l’esforç de raonament configurat a xhigh i es van dur a terme en un entorn de recerca, que en alguns casos pot oferir un resultat lleugerament diferent del ChatGPT de producció.








