Presentem GPT‑5.1 per a desenvolupadors
Avui llancem GPT‑5.1 a la plataforma API, el següent model de la sèrie GPT‑5 que equilibra intel·ligència i velocitat per a una àmplia gamma de tasques agentic i de programació. GPT‑5.1 adapta dinàmicament el temps que dedica a pensar segons la complexitat de la tasca, fent que el model sigui significativament més ràpid i més eficient en segments en les tasques quotidianes més senzilles. El model també inclou un mode «sense raonament» per respondre més ràpid en tasques que no requereixen pensament profund, mantenint alhora la intel·ligència d'avantguarda de GPT‑5.1.
Per fer GPT‑5.1 encara més eficient, llancem una memòria cau d’indicacions ampliada amb retenció de cau de fins a 24 hores, cosa que permet respostes més ràpides a preguntes de seguiment amb un cost més baix. Els nostres clients de Priority Processing(s'obre en una finestra nova) també notaran un rendiment sensiblement més ràpid amb GPT‑5.1 que amb GPT‑5.
En programació, hem treballat estretament amb startups com Cursor, Cognition, Augment Code, Factory i Warp per millorar la personalitat de programació, la controlabilitat i la qualitat del codi de GPT‑5.1. En general, GPT‑5.1 resulta més intuïtiu d’utilitzar per programar i més comunicatiu amb actualitzacions orientades a l’usuari a mesura que completa tasques.
Finalment, presentem dues eines noves amb GPT‑5.1: una eina apply_patch dissenyada per editar codi amb més fiabilitat i una eina shell perquè el model pugui executar ordres shell.
GPT‑5.1 és el següent avenç de la sèrie GPT‑5, i tenim previst continuar invertint en models més intel·ligents i capaços per ajudar els desenvolupadors a crear fluxos de treball agentic fiables.
Per fer GPT‑5.1 més ràpid, hem redissenyat a fons la manera com l’hem entrenat per pensar. En les tasques directes, GPT‑5.1 dedica menys segments a pensar, cosa que permet experiències de producte més àgils i factures de segments més baixes. En les tasques difícils que requereixen més reflexió, GPT‑5.1 es manté persistent, explora opcions i comprova la seva feina per maximitzar la fiabilitat.
Balyasny Asset Management(s'obre en una finestra nova) va dir que GPT‑5.1 «va superar tant GPT‑4.1 com GPT‑5 en tot el nostre conjunt d’avaluació dinàmica, mentre funcionava 2-3 vegades més ràpid que GPT‑5». També van dir que en totes les seves tasques de raonament amb un ús intensiu d’eines, GPT‑5.1 «utilitzava de manera constant aproximadament la meitat de segments que els principals competidors amb una qualitat similar o superior». De manera semblant, l’empresa BPO d’assegurances d’IA Pace(s'obre en una finestra nova) també va provar el model i va dir que els seus agents funcionen «un 50% més ràpid amb GPT‑5.1, alhora que superen la precisió de GPT‑5 i d’altres models líders en totes les nostres avaluacions».
GPT‑5.1 varia el seu temps de pensament de manera més dinàmica que GPT‑5. En una distribució representativa de tasques de ChatGPT, GPT‑5.1 és molt més ràpid en les tasques més fàcils, fins i tot amb un esforç de raonament alt.
Com a exemple, quan se li demana «mostra una ordre npm per llistar els paquets instal·lats globalment», GPT‑5.1 respon en 2 segons en lloc de 10 segons.
GPT-5 (mitjà) triga ~250 segments (~10 segons)
GPT-5.1 (mitjà) triga ~50 segments (~2 segons)
Els desenvolupadors ara poden utilitzar GPT‑5.1 sense raonament establint reasoning_effort a 'none'. Això fa que el model es comporti com un model sense raonament per a casos d’ús sensibles a la latència, amb l’alta intel·ligència de GPT‑5.1 i l’avantatge afegit d’un ús eficient de les crides d’eines. En comparació amb GPT‑5 amb raonament 'minimal', GPT‑5.1 sense raonament és millor en les crides paral·leles d’eines (cosa que augmenta per si mateixa la velocitat de finalització de tasques d’extrem a extrem), les tasques de programació, el seguiment d’instruccions i l’ús d’eines de cerca, i és compatible amb la cerca web(s'obre en una finestra nova) a la nostra plataforma API. Sierra(s'obre en una finestra nova) va compartir que GPT‑5.1 en mode «sense raonament» va mostrar «una millora del 20% en el rendiment de les crides d’eines de baixa latència en comparació amb el raonament mínim de GPT‑5» en les seves avaluacions del món real.
Amb la introducció de 'none' com a valor a reasoning_effort, els desenvolupadors ara tenen encara més flexibilitat i control sobre l’equilibri entre velocitat, cost i intel·ligència per al seu cas d’ús. GPT‑5.1 té 'none' com a valor predeterminat, ideal per a càrregues de treball sensibles a la latència. Recomanem als desenvolupadors que triïn 'low' o 'medium' per a tasques de més complexitat i 'high' quan la intel·ligència i la fiabilitat siguin més importants que la velocitat.
La memòria cau ampliada millora l’eficiència del raonament permetent que les indicacions romanguin actives a la memòria cau fins a 24 hores, en lloc dels pocs minuts compatibles actualment. Amb una finestra de retenció més llarga, més sol·licituds de seguiment poden aprofitar el context emmagatzemat a la memòria cau, cosa que es tradueix en menys latència, menor cost i un rendiment més fluid en interaccions de llarga durada com ara xats de diversos torns, sessions de programació o fluxos de treball de recuperació de coneixement.
Els preus de la memòria cau d’indicacions es mantenen sense canvis, amb segments d’entrada emmagatzemats a la memòria cau un 90% més barats que els segments no emmagatzemats, i sense cap càrrec addicional per a les escriptures a la memòria cau ni per a l’emmagatzematge. Per utilitzar la memòria cau ampliada amb GPT‑5.1, afegiu el paràmetre “prompt_cache_retention='24h'” a l’API de Responses o a l’API de complecions de xat. Consulteu la documentació de memòria cau d’indicacions(s'obre en una finestra nova) per a més detalls.
GPT‑5.1 es basa en les capacitats de programació de GPT‑5 amb una personalitat de programació més controlable, menys sobreanàlisi, millor qualitat del codi, millors missatges d’actualització orientats a l’usuari (preambles) durant seqüències de crides d’eines i dissenys de frontend més funcionals, especialment amb un esforç de raonament baix.
En tasques de programació més senzilles, com ara edicions ràpides de codi, la major velocitat de GPT‑5.1 facilita la iteració d’anada i tornada. La major velocitat de GPT‑5.1 en tasques senzilles no degrada el rendiment en tasques difícils. A SWE-bench Verified, GPT‑5.1 treballa encara més temps que GPT‑5 i arriba al 76,3%.
A SWE-bench Verified, es dona a un model un repositori de codi i una descripció del problema, i ha de generar un patch per resoldre’l. Les etiquetes indiquen l’esforç de raonament. La precisió és la mitjana dels 500 problemes. Tots els models van utilitzar un harness amb l’eina apply_patch basada en JSON.
Vam rebre comentaris inicials sobre GPT‑5.1 d’un grapat d’empreses de programació. Aquestes són les seves impressions:
- Augment Code(s'obre en una finestra nova) va descriure GPT‑5.1 com «més deliberat, amb menys accions malgastades, un raonament més eficient i un millor enfocament en la tasca» i estan veient «canvis més precisos, sol·licituds d'extracció més fluides i una iteració més ràpida en projectes amb diversos fitxers».
- Cline(s'obre en una finestra nova) va compartir que en les seves avaluacions, «GPT‑5.1 va assolir l’estat de l’art al nostre benchmark d’edició de diff amb una millora del 7%, demostrant una fiabilitat excepcional per a tasques de programació complexes».
- CodeRabbit(s'obre en una finestra nova) va dir que GPT‑5.1 és el seu «model preferit per a revisions de PR».
- Cognition(s'obre en una finestra nova) va dir que GPT‑5.1 és «notablement millor a l’hora d’entendre què demanes i de treballar amb tu per aconseguir-ho».
- Factory(s'obre en una finestra nova) va dir «GPT‑5.1 ofereix respostes perceptiblement més àgils i adapta la profunditat del seu raonament a la tasca, reduint la sobreanàlisi i millorant l’experiència general del desenvolupador».
- Warp(s'obre en una finestra nova) està fent que GPT‑5.1 sigui el valor predeterminat per als usuaris nous, dient que «es basa en els impressionants guanys d’intel·ligència que va introduir la sèrie GPT‑5, alhora que és un model molt més reactiu».
«GPT 5.1 no és només un altre LLM: és realment agentic, el model més naturalment autònom que he provat mai. Escriu com tu, programa com tu, segueix instruccions complexes amb facilitat i destaca en tasques de front-end, encaixant perfectament a la teva base de codi existent. Realment en pots desbloquejar tot el potencial a l’API de Responses i ens fa il·lusió oferir-lo al nostre IDE.»
Presentem dues eines noves amb GPT‑5.1 per ajudar els desenvolupadors a treure el màxim profit del model a l’API de Responses: una eina apply_patch de format lliure per fer edicions de codi encara més fiables sense necessitat d’escapar JSON, i una eina shell que permet al model escriure ordres per executar-les a la vostra màquina local.
L’eina de format lliure apply_patch permet a GPT‑5.1 crear, actualitzar i suprimir fitxers en una base de codi mitjançant diff estructurats. En lloc de limitar-se a suggerir edicions, el model emet operacions de patch que una aplicació aplica i sobre les quals informa, fent possibles fluxos de treball iteratius i en diversos passos per editar codi.
Per utilitzar l’eina apply_patch a l’API de Responses, incloeu-la a la matriu tools amb "tools": [{“type”: “apply_patch”}] i incloeu el contingut del fitxer a l’entrada o doneu al model eines per interactuar amb el vostre sistema de fitxers. El model generarà elements apply_patch_call per crear, actualitzar o suprimir fitxers que continguin diff que apliqueu al vostre sistema de fitxers. Per obtenir més informació sobre com integrar-vos amb l’eina apply_patch, consulteu la nostra documentació per a desenvolupadors(s'obre en una finestra nova).
L’eina shell permet al model interactuar amb un ordinador local mitjançant una interfície de línia d’ordres controlada. El model proposa ordres shell; una integració del desenvolupador les executa i en retorna les sortides. Això crea un bucle simple de planificació i execució que permet als models inspeccionar el sistema, executar utilitats i recopilar dades fins que poden acabar la tasca.
Per utilitzar l’eina shell a l’API de Responses, els desenvolupadors poden incloure-la a la matriu tools amb "tools": [{“type”: “shell”}]. L’API generarà elements "shell_call" que inclouen les ordres shell que s’han d’executar. Els desenvolupadors executen les ordres a l’entorn local i retornen els resultats de l’execució a l’element "shell_call_output" de la sol·licitud següent a l’API. Obteniu més informació a la nostra documentació per a desenvolupadors(s'obre en una finestra nova).
GPT‑5.1 i gpt-5.1-chat-latest estan disponibles per als desenvolupadors a tots els nivells de pagament de l’API. Els preus i límits de velocitat(s'obre en una finestra nova) són els mateixos que els de GPT‑5. També llancem gpt-5.1-codex i gpt-5.1-codex-mini a l’API. Tot i que GPT‑5.1 destaca en la majoria de tasques de programació, els models gpt-5.1-codex estan optimitzats per a tasques de programació agentic de llarga durada a Codex o en harnesses semblants a Codex.
Els desenvolupadors poden començar a crear amb la nostra documentació per a desenvolupadors(s'obre en una finestra nova) de GPT‑5.1 i la guia d’indicacions del model(s'obre en una finestra nova). Actualment no tenim previst retirar GPT‑5 de l’API i avisarem els desenvolupadors amb antelació si i quan decidim fer-ho.
Ens comprometem a desplegar de manera iterativa els models més capaços i fiables per a feina real agentic i de programació: models que pensen de manera eficient, iteren ràpidament i gestionen tasques complexes mentre mantenen els desenvolupadors en flow. Amb un raonament adaptatiu, un rendiment de programació més sòlid, actualitzacions més clares orientades a l’usuari i eines noves com apply_patch i shell, GPT‑5.1 està dissenyat per ajudar-vos a crear amb menys fricció. I continuem invertint-hi molt: podeu esperar models agentic i de programació més capaços en les pròximes setmanes i mesos.
Avaluació | GPT‑5.1 (high) | GPT‑5 (high) |
SWE-bench Verified | 76.3% | 72.8% |
GPQA Diamond | 88.1% | 85.7% |
AIME 2025 | 94.0% | 94.6% |
FrontierMath | 26.7% | 26.3% |
MMMU | 85.4% | 84.2% |
Tau2-bench Airline | 67.0% | 62.6% |
Tau2-bench Telecom* | 95.6% | 96.7% |
Tau2-bench Retail | 77.9% | 81.1% |
BrowseComp Long Context 128k | 90.0% | 90.0% |
* Per a Tau2-bench Telecom, vam donar a GPT‑5.1 una indicació curta i genèricament útil per millorar-ne el rendiment.


