Vi presenterar GPT‑5.1 för utvecklare
Idag lanserar vi GPT‑5.1 på API-plattformen, den nästa modellen i GPT‑5‑serien som balanserar intelligens och hastighet för ett brett spektrum av agent- och kodningsuppgifter. GPT‑5.1 anpassar dynamiskt hur mycket tid den lägger på att tänka baserat på uppgiftens komplexitet, vilket gör modellen avsevärt snabbare och mer tokeneffektiv vid enklare vardagliga uppgifter. Modellen har också ett ”utan resonemang”-läge för att svara snabbare på uppgifter som inte kräver djupt tänkande, samtidigt som GPT‑5.1:s avancerade intelligens bibehålls.
För att göra GPT‑5.1 ännu mer effektiv släpper vi utökad prompt-cache med upp till 24 timmars cache-lagring, vilket ger snabbare svar på följdfrågor till en lägre kostnad. Våra Priority Processing(öppnas i ett nytt fönster)-kunder kommer också att uppleva märkbart snabbare prestanda med GPT‑5.1 jämfört med GPT‑5.
När det gäller kodning har vi haft ett nära samarbete med nystartade företag som Cursor, Cognition, Augment Code, Factory och Warp för att förbättra GPT‑5.1:s kodningspersonlighet, styrbarhet och kodkvalitet. I allmänhet känns GPT‑5.1 mer intuitiv att använda för kodning och mer kommunikativ med användarvänliga uppdateringar när den slutför uppgifter.
Slutligen introducerar vi två nya verktyg med GPT‑5.1: ett apply_patch-verktyg som är utformat för att redigera kod på ett mer tillförlitligt sätt och ett shell-verktyg som låter modellen köra shell-kommandon.
GPT‑5.1 är nästa steg i GPT‑5‑serien, och vi planerar att fortsätta investera i mer intelligenta och kapabla modeller för att hjälpa utvecklare att bygga tillförlitliga agentbaserade arbetsflöden.
För att göra GPT‑5.1 snabbare har vi sett över hur vi har tränat den att tänka. Vid enkla uppgifter använder GPT‑5.1 färre tokens för att tänka, vilket ger snabbare produktupplevelser och lägre tokenkostnader. Vid svåra uppgifter som kräver extra eftertanke är GPT‑5.1 uthållig, utforskar alternativ och kontrollerar sitt arbete för att maximera tillförlitligheten.
Balyasny Asset Management(öppnas i ett nytt fönster) meddelade att GPT‑5.1 ”överträffade både GPT‑4.1 och GPT‑5 i vår fullständiga dynamiska utvärderingssvit, samtidigt som den var 2-3 gånger snabbare än GPT‑5”. De konstaterade också att GPT‑5.1 i sina verktygstunga resonemangsuppgifter ”konsekvent använde ungefär hälften så många tokens i jämförelse med ledande konkurrenter, men med liknande eller bättre kvalitet”. På samma sätt testade AI-försäkring-BPO Pace(öppnas i ett nytt fönster) också modellen och sa att deras agenter kör ”50% snabbare på GPT‑5.1 samtidigt som de överträffar noggrannheten för GPT‑5 och andra ledande modeller i våra utvärderingar.”
GPT‑5.1 varierar sin betänketid mer dynamiskt än GPT‑5. På en representativ fördelning av ChatGPT‑uppgifter är GPT‑5.1 mycket snabbare på de enklare uppgifterna, även vid hög resonemangsinsats.
På frågan ”visa ett npm-kommando för att lista globalt installerade paket” svarar GPT‑5.1 till exempel på 2 sekunder i stället för 10 sekunder.
GPT-5 (Medium) tar ~250 token (~10 sekunder)
GPT-5.1 (Medium) tar ~50 token (~2 sekunder)
Utvecklare kan nu använda GPT‑5.1 utan resonemang genom att ställa in reasoning_effort till ”none”. Detta gör att modellen beter sig som en icke resonerande modell för latens-känsliga användningsfall, med den höga intelligensen hos GPT‑5.1 och den extra bonusen med effektiva verktygsanrop. Jämfört med GPT‑5 med ”minimalt” resonemang är GPT‑5.1 utan resonemang bättre på parallella verktygsansrop (vilket i sig ökar hastigheten för att slutföra uppgiften från början till slut), koda uppgifter, följa instruktioner och använda sökverktyg. Den stöder även webbsökning(öppnas i ett nytt fönster) i vår API-plattform. Sierra(öppnas i ett nytt fönster) rapporterade att GPT‑5.1 i läget ”utan resonemang” visade en ”20-procentig förbättring av prestanda för verktygsanrop med låg latens jämfört med GPT‑5 med minimalt resonemang” i deras real-world-utvärderingar.
Med introduktionen av ”none” som ett värde i reasoning_effort har utvecklare nu ännu större flexibilitet och kontroll över balansen mellan hastighet, kostnad och intelligens för deras användningsfall. GPT‑5.1 har standardinställningen ”none”, vilket är idealiskt för latenskänsliga arbetsbelastningar. Vi rekommenderar att utvecklare väljer ”low” eller ”medium” för uppgifter med högre komplexitet och ”high” när intelligens och tillförlitlighet är viktigare än hastighet.
Utökad caching förbättrar resonemangseffektiviteten genom att låta promptar förbli aktiva i cachen i upp till 24 timmar, istället än det fåtal minuter som stöds idag. Med ett längre lagringsfönster kan fler uppföljningsförfrågningar utnyttja cachelagrad kontext, vilket resulterar i lägre latens, lägre kostnader och smidigare prestanda för långvariga interaktioner, t.ex. chat med flera turer, kodningssessioner eller arbetsflöden för kunskapssökning.
Prissättningen för prompt-cache förblir oförändrad, med cachade inmatningstokens 90 % billigare än ej cachade tokens, och ingen extra kostnad för cacheskrivningar eller lagring. För att använda utökad caching med GPT‑5.1, lägg till parametern ”prompt_cache_retention='24h'” på Responses ekler Chat Completions API. Se dokumentationen om prompt-caching(öppnas i ett nytt fönster) för mer information.
GPT‑5.1 bygger vidare på GPT‑5:s kodningsegenskaper med en mer styrbar kodningspersonlighet, mindre övertänkande, förbättrad kodkvalitet, bättre användarinriktade uppdateringsmeddelanden (preambles) under sekvenser av verktygsanrop och mer funktionella frontend-designer - särskilt med låg resonemangsinsats.
För enklare kodningsuppgifter som snabba kodredigeringar gör GPT‑5.1:s snabbare hastigheter det lättare att göra ändringar fram och tillbaka. GPT‑5.1:s snabbare hastigheter vid enkla uppgifter försämrar inte prestandan vid svåra uppgifter. På SWE-bench Verifierad fungerar GPT‑5.1 ännu längre än GPT‑5 och når 76,3 %.
I SWE-bench Verified får en modell ett kodarkiv och en problembeskrivning, och måste generera en patch för att lösa problemet. Etiketter anger ansträngning för resonemanget. Exaktheten är genomsnittlig över alla 500 problem. Alla modeller använde en harness med JSON-baserat apply_patch-verktyg.
Vi fick tidig återkoppling på GPT‑5.1 från en handfull kodningsföretag. Här är deras intryck:
- Augment Code(öppnas i ett nytt fönster) beskrev GPT‑5.1 som ”mer avsiktlig med färre onödiga åtgärder, effektivare resonemang och bättre fokus på uppgifter” och de ser ”mer exakta ändringar, smidigare pull requests och snabbare iteration över projekt med flera filer”.
- Cline(öppnas i ett nytt fönster) delade att i sina utvärderingar ”uppnådde GPT‑5.1 SOTA på vårt diffredigeringsriktmärke med en förbättring på 7 %, vilket visar exceptionell tillförlitlighet för komplexa kodningsuppgifter.”
- CodeRabbit(öppnas i ett nytt fönster) kallade GPT‑5.1 för sin ”favoritmodell för PR-granskningar”.
- Cognition(öppnas i ett nytt fönster) sa att GPT‑5.1 är ”msa att GPT‑5.1 är ”märkbart bättre på att förstå vad du ber om och samarbeta med dig för att få det gjort”.
- Factory(öppnas i ett nytt fönster) sa att ”GPT‑5.1 levererar märkbart snabbare svar och anpassar sitt resonemangsdjup till uppgiften, vilket minskar övertänkandet och förbättrar den övergripande utvecklarupplevelsen.”
- Warp(öppnas i ett nytt fönster) gör GPT‑5.1 till standard för nya användare och säger att den ”bygger vidare på de imponerande intelligensvinster som GPT‑5‑serien introducerade, samtidigt som den är en mycket mer responsiv modell”.
”GPT 5.1 är inte bara ännu en LLM - den är verkligen agentisk och den mest naturligt autonoma modellen jag någonsin har testat. Den skriver som du, kodar som du, följer enkelt komplexa instruktioner, utmärker sig i front-end-uppgifter och passar utmärkt in i din befintliga kodbas. Du kan verkligen frigöra dess fulla potential i Responses API och vi är glada över att kunna erbjuda det i vår IDE."
Vi introducerar två nya verktyg med GPT‑5.1 för att hjälpa utvecklare att få ut det mesta av modellen i Responses API: ett fritt apply_patch-verktyg för att göra kodredigeringar ännu mer tillförlitliga utan behov av JSON-escape, och ett shell-verktyg som låter modellen skriva kommandon som kan köras på din lokala dator.
Friformsverktyget apply_patch låter GPT‑5.1 skapa, uppdatera och radera filer i en kodbas med hjälp av strukturerade diffar. Istället för att bara föreslå ändringar, genererar modellen patch-operationer som en applikation tillämpar och rapporterar tillbaka om, vilket möjliggör iterativa arbetsflöden för kodredigering i flera steg.
För att använda verktyget apply_patch i Responses API, inkludera det i verktygsmatrisen med ”tools”: [{“type”: “apply_patch”}] och inkludera antingen filinnehåll i din indata eller ge modellen verktyg för att interagera med ditt filsystem. Modellen kommer att generera apply_patch_call-objekt för att skapa, uppdatera eller radera filer som innehåller diffar som du tillämpar på ditt filsystem. För mer information om hur du integrerar med verktyget apply_patch, kolla in vår utvecklardokumentation(öppnas i ett nytt fönster).
Shell-verktyget gör det möjligt för modellen att interagera med en lokal dator genom ett kontrollerat kommandoradsgränssnitt. Modellen föreslår shell-kommandon; en utvecklares integration kör dem och returnerar utdata. Detta skapar en enkel abonnemang-exekveringsloop som låter modeller inspektera systemet, köra verktyg och samla in data tills de kan avsluta uppgiften.
För att använda shell-verktyget i Responses API kan utvecklare inkludera det i verktygsmatrisen med ”tools”: [{”type”: ”shell”}]. API:n kommer att generera ”shell_call”-objekt som inkluderar de shell-kommandon som ska köras. Utvecklare utför kommandona i den lokala miljön och skickar tillbaka körningsresultaten i ”shell_call_output”-posten i nästa API-begäran. Lär dig mer i vår utvecklardokumentation(öppnas i ett nytt fönster).
GPT‑5.1 och gpt-5.1-chatt-latest är tillgängliga för utvecklare på alla betalda nivåer i API:n. Priser och frekvensgränser(öppnas i ett nytt fönster) är desamma som för GPT‑5. Vi lanserar också gpt-5.1-codex och gpt-5.1-codex-mini i API:n. Medan GPT‑5.1 utmärker sig vid de flesta kodningsuppgifter, är gpt-5.1-codex -modellerna är optimerade för långvariga, agentiska kodningsuppgifter i Codex eller Codex-liknande miljöer.
Utvecklare kan börja utveckla med vår GPT‑5.1 utvecklardokumentation(öppnas i ett nytt fönster) och modellpromptguide(öppnas i ett nytt fönster). Vi planerar inte för närvarande att avveckla GPT‑5 i API:n och kommer att ge utvecklare förvarning om och när vi bestämmer oss för att göra det.
Vi är engagerade i att iterativt distribuera de mest kapabla och pålitliga modellerna för verkligt agentiskt och kodningsarbete - modeller som tänker effektivt, itererar snabbt och hanterar komplexa uppgifter samtidigt som de bibehåller utvecklarnas flyt. Med adaptivt resonemang, förbättrad kodningsprestanda, tydligare användaruppdateringar och nya verktyg som apply_patch och shell är GPT‑5.1 utformat för att hjälpa dig att utveckla med mindre friktion. Och vi fortsätter att investera kraftigt här: du kan förvänta dig mer kapabla agentic- och kodningsmodeller under de kommande veckorna och månaderna.
Utvärdering | GPT‑5.1 (high) | GPT‑5 (high) |
SWE-bench-verifierad | 76,3 % | 72,8 % |
GPQA Diamond | 88,1 % | 85,7 % |
AIME 2025 | 94,0 % | 94,6 % |
FrontierMath | 26,7 % | 26,3 % |
MMMU | 85,4 % | 84,2 % |
Tau2-benchFlygbolag | 67,0% | 62,6% |
Tau2-bench Telecom* | 95,6 % | 96,7 % |
Tau2-bench Retail | 77,9 % | 81,1 % |
BrowseComp Long Context 128k | 90,0 % | 90,0 % |
* För Tau2-bench Telecom gav vi GPT‑5.1 en kort, allmänt hjälpsam prompt för att förbättra dess prestanda.


