Vi introduserer GPT‑5.1 for utviklere
I dag lanserer vi GPT‑5.1 på API-plattformen, den neste modellen i GPT‑5‑serien som balanserer intelligens og hastighet for et bredt spekter av agent- og kodingsoppgaver. GPT‑5.1 tilpasser dynamisk hvor mye tid den bruker på å tenke basert på oppgavens kompleksitet, noe som gjør modellen betydelig raskere og mer token-effektiv på enklere hverdagsoppgaver. Modellen har også en «ingen resonnement»-modus for å svare raskere på oppgaver som ikke krever dyp tenkning, samtidig som den banebrytende intelligensen til GPT‑5.1 opprettholdes.
For å gjøre GPT‑5.1 enda mer effektiv, lanserer vi utvidet hurtigbufring for meldinger med opptil 24 timers hurtigbufferlagring, noe som gir raskere svar på oppfølgingsspørsmål til en lavere kostnad. Våre Priority Processing(åpnes i et nytt vindu)-kunder vil også oppleve merkbart raskere ytelse med GPT‑5.1 sammenlignet med GPT‑5.
Når det gjelder koding, har vi jobbet tett med oppstartsbedrifter som Cursor, Cognition, Augment Code, Factory og Warp for å forbedre GPT‑5.1s kodingspersonlighet, styrbarhet og kodekvalitet. Generelt føles GPT‑5.1 mer intuitiv å bruke til koding og mer kommunikativ med brukerrettede oppdateringer etter hvert som den fullfører oppgaver.
Til slutt introduserer vi to nye verktøy med GPT‑5.1: et apply_patch-verktøy designet for å redigere kode mer pålitelig og et skallverktøy for å la modellen kjøre skallkommandoer.
GPT‑5.1 er det neste fremskrittet i GPT‑5‑serien, og vi planlegger å fortsette å investere i mer intelligente modeller med større kapasitet for å hjelpe utviklere med å bygge pålitelige agentarbeidsflyter.
For å gjøre GPT‑5.1 raskere, overhalet vi måten vi trente den til å tenke på. Til enkle oppgaver bruker GPT‑5.1 færre tokens på tenkning, noe som muliggjør raskere produktopplevelser og lavere tokenkostnader. Til vanskelige oppgaver som krever ekstra tenkning, forblir GPT‑5.1 vedvarende, utforsker alternativer og sjekker arbeidet sitt for å maksimere påliteligheten.
Balyasny Asset Management(åpnes i et nytt vindu) sa at GPT‑5.1 «utkonkurrerte både GPT‑4.1 og GPT‑5 i vår fullstendige dynamiske evalueringssuite, mens den kjørte 2-3 ganger raskere enn GPT‑5.» De sa også at i sine verktøytunge resonnementoppgaver brukte GPT‑5.1 konsekvent omtrent halvparten så mange tokener som ledende konkurrenter, med lignende eller bedre kvalitet. På samme måte testet AI-forsikring BPO Pace(åpnes i et nytt vindu) også modellen og sa at agentene deres kjører «50 % raskere på GPT‑5.1 samtidig som de overgår nøyaktigheten til GPT‑5 og andre ledende modeller i våre evalueringer.»
GPT‑5.1 varierer tenketiden sin mer dynamisk enn GPT‑5. På en representativ fordeling av ChatGPT‑oppgaver er GPT‑5.1 mye raskere på de enklere oppgavene, selv ved høy grad av resonnement.
Som et eksempel, når du blir spurt «vis en npm-kommando for å liste globalt installerte pakker», svarer GPT‑5.1 på to sekunder i stedet for ti sekunder.
GPT-5 (Medium) bruker ~250 token (~ti sekunder)
GPT-5.1 (Medium) bruker ~50 tokener (~to sekunder)
Utviklere kan nå bruke GPT‑5.1 uten resonnement ved å sette 'reasoning_effort' til 'none'. Dette gjør at modellen oppfører seg som en ikke-resonneringsmodell for forsinkelsesfølsomme brukstilfeller, med den høye intelligensen til GPT‑5.1 og en ekstra bonus med effektiv verktøykalling. Sammenlignet med GPT‑5 med «minimalt» resonnement, er GPT‑5.1 uten resonnement bedre til å utføre parallelle verktøyanrop (som i seg selv øker hastigheten på fullføring av oppgaver fra start til slutt), koding, å følge instruksjoner og bruke søkeverktøy – og støtter nettsøk(åpnes i et nytt vindu) i vår API-plattform. Sierra(åpnes i et nytt vindu) delte at GPT‑5.1 i «ingen resonnement»-modus viste en «20 % forbedring i ytelse ved verktøyanrop med lav forsinkelse sammenlignet med GPT‑5 minimal resonnement» i deres virkelige evalueringer.
Med introduksjonen av 'none' som en verdi i reasoning_effort, har utviklere nå enda større fleksibilitet og kontroll over balansen mellom hastighet, kostnad og intelligens for sine brukstilfeller. GPT‑5.1 har standardinnstillingen «none», som er ideell for arbeidsbelastninger som er følsomme for forsinkelse. Vi anbefaler utviklere å velge «lav» eller «middels» for oppgaver med høyere kompleksitet og «høy» når intelligens og pålitelighet er viktigere enn hastighet.
Utvidet hurtigbufring forbedrer effektiviteten av resonnement ved å la meldinger forbli aktive i hurtigbufferen i opptil 24 timer, i stedet for de få minuttene som støttes i dag. Med et lengre oppbevaringsvindu kan flere oppfølgingsforespørsler dra nytte av bufret kontekst, noe som gir lavere forsinkelse, reduserte kostnader og jevnere ytelse for langvarige interaksjoner som flertrinns chat, kodeøkter eller arbeidsflyter for kunnskapshenting.
Prisen for hurtigbuffer forblir uendret, med bufrede inndatatoken 90 % billigere enn ikke-bufrede tokener, og ingen ekstra kostnad for skriving til hurtigbuffer eller lagring. For å bruke utvidet hurtigbufring med GPT‑5.1, legg til parameteren «prompt_cache_retention='24h'» i Responses- eller Chat Completions API (API for samtalesvar). Se melding caching-dokumentasjonen(åpnes i et nytt vindu) for mer informasjon.
GPT‑5.1 bygger videre på GPT‑5s kodingsfunksjoner med en mer styrbar kodingspersonlighet, mindre overtenking, forbedret kodekvalitet, bedre brukermålrettede oppdateringsmeldinger (preambler) under sekvenser av verktøykall, og mer funksjonelle front-end-design – spesielt ved lav resonnementsinnsats.
På enklere kodeoppgaver som raske koderedigeringer, er GPT‑5.1s Raskere hastigheter gjør det enklere å iterere frem og tilbake. GPT‑5.1’s Raskere hastigheter på enkle oppgaver forringer ikke ytelsen på vanskelige oppgaver. På Verifisert med SWE-ref fungerer GPT‑5.1 enda lenger enn GPT‑5 og når 76,3 %.
I SWE-bench Verified får en modell et kodelager og en problembeskrivelse, og må generere en patch for å løse problemet. Etiketter indikerer resonneringsinnsats. Nøyaktigheten er gjennomsnittet på tvers av alle 500 problemer. Alle modellene brukte en harness med JSON-basert apply_patch-verktøy.
Vi mottok tidlige tilbakemeldinger på GPT‑5.1 fra noen få kodingsselskaper. Her er inntrykkene deres:
- Augment Code(åpnes i et nytt vindu) beskrev GPT‑5.1 som «mer bevisst med færre bortkastede handlinger, mer effektiv resonnering og bedre oppgavefokus», og de opplever «mer nøyaktige endringer, jevnere pull-forespørsler og raskere iterasjon på tvers av prosjekter med flere filer».
- Cline(åpnes i et nytt vindu) delte at i sine evalueringer, «GPT‑5.1 oppnådde SOTA på vår diff-redigeringsbenchmark med en forbedring på 7 %, og demonstrerte eksepsjonell pålitelighet for komplekse kodeoppgaver.»
- CodeRabbit(åpnes i et nytt vindu) kalte GPT‑5.1 sin «favorittmodell for PR-gjennomganger.»
- Cognition(åpnes i et nytt vindu) sa at GPT‑5.1 er «merkbart bedre til å forstå hva du ber om og samarbeide med deg for å få det gjort».
- Factory(åpnes i et nytt vindu) sa at «GPT‑5.1 leverer merkbart raskere svar og tilpasser dybden av resonnementet til oppgaven, reduserer overtenking og forbedrer den generelle utvikleropplevelsen.»
- Warp(åpnes i et nytt vindu) gjør GPT‑5.1 til standard for nye brukere, og sier at den «bygger på de imponerende intelligensforbedringene som GPT‑5‑serien introduserte, samtidig som den er en langt mer responsiv modell».
«GPT 5.1 er ikke bare enda en LLM – den er genuint agentisk, den mest naturlig autonome modellen jeg noen gang har testet. Den skriver som deg, koder som deg, følger uanstrengt komplekse instruksjoner og utmerker seg i front-end-oppgaver, og passer pent inn i din eksisterende kodebase. Du kan virkelig utnytte hele potensialet i Responses API, og vi er glade for å kunne tilby det i vår IDE.»
Vi introduserer to nye verktøy med GPT‑5.1 for å hjelpe utviklere med å få mest mulig ut av modellen i Responses API: et freeform apply_patch -verktøy for å gjøre koderedigeringer enda mer pålitelige uten behov for JSON-escaping, og et shell verktøy som lar modellen skrive kommandoer som kan kjøres på din lokale maskin.
Det frie apply_patch-verktøyet lar GPT‑5.1 opprette, oppdatere og slette filer i en kodebase ved hjelp av strukturerte diffs. I stedet for bare å foreslå redigeringer, genererer modellen oppdateringsoperasjoner som en applikasjon anvender og gir tilbakemelding på, noe som muliggjør iterative, flertrinnsarbeidsflyter for koderedigering.
For å bruke apply_patch-verktøyet i Responses API, inkluder det i verktøymatrisen med «tools»: [{«type»: «apply_patch»}] og enten inkluder filinnhold i inndataene dine eller gi modellen verktøy for å samhandle med filsystemet ditt. Modellen genererer apply_patch_call-elementer for å opprette, oppdatere eller slette filer som inneholder diffs som du bruker på filsystemet ditt. For mer informasjon om hvordan du integrerer med apply_patch-verktøyet, sjekk ut vår utviklerdokumentasjon(åpnes i et nytt vindu).
Med skallverktøyet samhandle modellen med en lokal datamaskin gjennom et kontrollert kommandolinjegrensesnitt. Modellen foreslår skallkommandoer; en utviklers integrasjon kjører dem og returnerer utdata. Dette oppretter en enkel plan-utføringssløyfe som lar modeller inspisere systemet, kjøre verktøy og samle inn data til de kan fullføre oppgaven.
For å bruke skallverktøyet i Responses API, kan utviklere inkludere det i verktøylisten med «tools»: [{«type»: «shell»}]. API-en vil generere «shell_call»-elementer som inkluderer skallkommandoene som skal kjøres. Utviklere kjører kommandoene i det lokale miljøet og sender utførelsesresultatene tilbake i «shell_call_output»-elementet i neste API-forespørsel. Lær mer i vår utviklerdokumentasjon(åpnes i et nytt vindu).
GPT‑5.1 og gpt-5.1-chat-latest er tilgjengelige for utviklere på alle betalte nivåer i API-et. Priser og satsgrenser(åpnes i et nytt vindu) er de samme som for GPT‑5. Vi lanserer også gpt-5.1-codex. og gpt-5.1-codex-mini i API-et. Selv om GPT‑5.1 utmerker seg i de fleste kodeoppgaver, er gpt-5.1-codex Modeller er optimalisert for langvarige, agentkoding-oppgaver i Codex eller Codex-lignende rammeverk.
Utviklere kan begynne å bygge ved å bruke vår GPT‑5.1 utviklerdokumentasjon(åpnes i et nytt vindu) og modellveiledning(åpnes i et nytt vindu). Vi planlegger foreløpig ikke å avvikle GPT‑5 i API-et og vil gi utviklere forhåndsvarsel hvis og når vi bestemmer oss for å gjøre det.
Vi er forpliktet til å implementere gjentatte ganger de mest pålitelige modellene med størst kapasitet for ekte agent- og kodingsarbeid – modeller som tenker effektivt, itererer raskt og håndterer komplekse oppgaver mens de holder utviklerne i flyt. Med adaptiv resonnering, sterkere kodeytelse, tydeligere brukerrettede oppdateringer og nye verktøy som apply_patch og shell, er GPT‑5.1 designet for å hjelpe deg med å bygge med mindre friksjon. Og vi fortsetter å investere tungt her: du kan forvente mer kapable agent- og kodemodeller i ukene og månedene som kommer.
Evaluering | GPT‑5.1 (høy) | GPT‑5 (høy) |
SWE-bench verifisert | 76,3 % | 72,8 % |
GPQA Diamond | 88,1 % | 85,7 % |
AIME 2025 | 94,0 % | 94,6 % |
FrontierMath | 26,7 % | 26,3 % |
MMMU | 85,4 % | 84,2 % |
Tau2-benchflyselskap | 67,0 % | 62,6 % |
Tau2-bench Telecom* | 95,6 % | 96,7 % |
Tau2-benchdetaljhandel | 77,9 % | 81,1 % |
BrowseComp Lang kontekst 128k | 90,0 % | 90,0 % |
* For Tau2-bench Telecom ga vi GPT‑5.1 en kort, generelt nyttig melding for å forbedre ytelsen.


