Vi præsenterer GPT‑5.1 for udviklere
I dag lancerer vi GPT‑5.1 på API-platformen, den næste model i GPT‑5‑serien, der afbalancerer intelligens og hastighed til en bred vifte af agent- og kodningsopgaver. GPT‑5.1 tilpasser dynamisk, hvor meget tid den bruger på at tænke baseret på opgavens kompleksitet, hvilket gør modellen betydeligt hurtigere og mere tokeneffektiv på enklere hverdagsopgaver. Modellen har også en “ingen avanceret tænkning”-tilstand til at reagere hurtigere på opgaver, der ikke kræver dyb tænkning, samtidig med at bevare den avancerede intelligens i GPT‑5.1.
For at gøre GPT‑5.1 endnu mere effektiv frigiver vi udvidet cachelagring af forespørgsler med op til 24 timers cache-bevaring, hvilket giver hurtigere svar på opfølgende spørgsmål til en lavere pris. Vores prioritetsbehandlingskunder(åbner i et nyt vindue) vil også opleve mærkbart hurtigere ydeevne med GPT‑5.1 i forhold til GPT‑5.
Inden for kodning har vi arbejdet tæt sammen med startups som Cursor, Cognition, Augment Code, Factory og Warp for at forbedre GPT‑5.1‑ kodningens personlighed, styrbarhed og kodekvalitet. Generelt føles GPT‑5.1 mere intuitiv at bruge til kodning og mere kommunikativ med brugerrettede opdateringer, når den fuldfører opgaver.
Endelig introducerer vi to nye værktøjer med GPT‑5.1: et apply_patch-værktøj designet til at redigere kode mere pålideligt og et shell-værktøj til at lade modellen køre shell-kommandoer.
GPT‑5.1 er den næste udvikling i GPT‑5‑serien, og vi planlægger at fortsætte med at investere i mere intelligente og effektive modeller for at hjælpe udviklere med at opbygge pålidelige agentworkflows.
Vi omstrukturerede den måde, vi trænede GPT‑5.1 til at tænke på, for at gøre den hurtigere. På enkle opgaver bruger GPT‑5.1 færre tokens på at tænke, hvilket muliggør hurtigere produktoplevelser og lavere token-omkostninger. På vanskelige opgaver, der kræver ekstra tænkning, forbliver GPT‑5.1 vedholdende, udforsker muligheder og kontrollerer sit arbejde for at maksimere pålideligheden.
Balyasny Asset Management(åbner i et nyt vindue) udtalte, at GPT‑5.1 "overgik både GPT‑4.1 og GPT‑5 i vores komplette dynamiske evalueringssuite, samtidig med at den kørte 2-3 gange hurtigere end GPT‑5." De sagde også, at GPT‑5.1 på tværs af deres værktøjstunge ræsonnementsopgaver "konsekvent brugte omkring halvt så mange tokens som førende konkurrenter af lignende eller bedre kvalitet." Tilsvarende testede AI-forsikringsselskabet BPO Pace(åbner i et nyt vindue) også modellen og sagde, at deres agenter kører "50 % hurtigere på GPT‑5.1, samtidig med at de overgår nøjagtigheden af GPT‑5 og andre førende modeller på tværs af vores evalueringer."
GPT‑5.1 varierer sin tænketid mere dynamisk end GPT‑5. På en repræsentativ fordeling af ChatGPT‑opgaver er GPT‑5.1 meget hurtigere til de lettere opgaver, selv ved høj grad af ræsonnering.
Som et eksempel: Når du bliver spurgt "vis en npm-kommando til at liste globalt installerede pakker", svarer GPT‑5.1 på 2 sekunder i stedet for 10.
GPT-5 (Medium) tager ~250 tokens (~10 sekunder)
GPT-5.1 (Medium) bruger ~50 tokens (~2 sekunder)
Udviklere kan nu bruge GPT‑5.1 uden avanceret tænkning ved at sætte reasoning_effort til 'none'. Dette får modellen til at opføre sig som en ikke-avanceret tænkning-model til latensfølsomme use cases med den høje intelligens fra GPT‑5.1 og den ekstra fordel ved effektive værktøjsopkald. I forhold til GPT‑5 med 'minimal' avanceret tænkning er GPT‑5.1 uden avanceret tænkning bedre til parallelle værktøjskald (hvilket i sig selv øger hastigheden på end-to-end-opgaver), kodning af opgaver, at følge instruktioner og bruge søgeværktøjer – og understøtter websøgning(åbner i et nyt vindue) i vores API-platform. Sierra(åbner i et nyt vindue) delte, at GPT‑5.1 i "ikke-avanceret tænkningstilstand" viste en "20 % forbedring i værktøjsopkaldsydelsen med lav latens sammenlignet med GPT‑5 minimal avanceret tænkning" i deres virkelige evalueringer.
Med introduktionen af 'none' som en værdi i reasoning_effort har udviklere nu endnu mere fleksibilitet og kontrol over balancen mellem hastighed, omkostninger og intelligens i deres use case. GPT‑5.1 er som standard indstillet til 'none', hvilket er ideelt til latensfølsomme arbejdsbelastninger. Vi anbefaler, at udviklere vælger 'lav' eller 'medium' til opgaver med højere kompleksitet og 'høj', når intelligens og pålidelighed er vigtigere end hastighed.
Udvidet cachelagring forbedrer effektiviteten af avanceret tænkning ved at lade forespørgsler forblive aktive i cachen i op til 24 timer i stedet for de få minutter, der understøttes i dag. Med et længere opbevaringsvindue kan flere opfølgningsanmodninger udnytte cachelagret kontekst, hvilket resulterer i lavere latens, reducerede omkostninger og jævnere ydeevne for langvarige interaktioner såsom multi-turn chat, kodningssessioner eller arbejdsgange til videnshentning.
Prisen for hurtig cachelagring forbliver uændret, hvor cached input-token er 90 % billigere end ikke-cachelagrede tokens, og der er ingen ekstra omkostninger for cache-skrivninger eller -lagring. For at bruge udvidet caching med GPT‑5.1 skal du tilføje parameteren “prompt_cache_retention='24h'” i Responses- eller Chat Completions API'en. Se dokumenterne om cachelagring af forespørgsler(åbner i et nyt vindue) for at få flere detaljer.
GPT‑5.1 bygger videre på GPT‑5's kodningsfunktioner med en mere styrbar kodningspersonlighed, mindre overtænkning, forbedret kodekvalitet, bedre brugermålrettede opdateringsmeddelelser (indledninger) under sekvenser af værktøjskald og mere funktionelle frontend-designs – især ved lav resonnementsindsats.
Ved enklere kodningsopgaver som hurtige koderedigeringer gør GPT‑5.1's højere hastigheder det nemmere at gentage frem og tilbage. GPT‑5.1s hurtigere hastigheder på enkle opgaver forringer ikke ydeevnen ved vanskelige opgaver. På SWE-bench-verificeret arbejder GPT‑5.1 endnu længere end GPT‑5 og når op på 76,3 %.
I SWE-bench Verified får en model et kodelager og en problembeskrivelse og skal generere en patch for at løse problemet. Etiketter angiver avanceret tænkningsindsats. Nøjagtigheden er gennemsnittet på tværs af alle 500 problemer. Alle modeller brugte en infrastruktur med JSON-baseret apply_patch-værktøj.
Vi modtog tidlig feedback på GPT‑5.1 fra en håndfuld kodningsvirksomheder. Her er deres indtryk:
- Augment Code(åbner i et nyt vindue) kaldte GPT‑5.1 for “mere målrettet med færre spildte handlinger, mere effektiv avanceret tænkning og bedre fokus på opgaver”, og de oplever “mere præcise ændringer, glattere pull requests og hurtigere iteration på tværs af projekter med flere filer”.
- Cline(åbner i et nyt vindue) delte, at i deres evalueringer "opnåede GPT‑5.1 SOTA på vores diff-redigeringsbenchmark med en forbedring på 7 %, hvilket viser enestående pålidelighed til komplekse kodningsopgaver."
- CodeRabbit(åbner i et nyt vindue) kaldte GPT‑5.1 sin “foretrukne model til PR-anmeldelser.”
- Cognition(åbner i et nyt vindue) sagde, at GPT‑5.1 er "mærkbart bedre til at forstå, hvad du beder om, og til at samarbejde med dig om at få det gjort."
- Factory(åbner i et nyt vindue) sagde: “GPT‑5.1 leverer mærkbart hurtigere svar og tilpasser sin dybde af avanceret tænkning til opgaven, hvilket reducerer overtænkning og forbedrer den samlede udvikleroplevelse.”
- Warp(åbner i et nyt vindue) gør GPT‑5.1 til standard for nye brugere og siger, at den "bygger videre på de imponerende intelligensforbedringer, som GPT‑5‑serien introducerede, samtidig med at den er en langt mere responsiv model."
"GPT 5.1 er ikke bare endnu en LLM – den er virkelig agentisk, den mest naturligt autonome model, jeg nogensinde har testet. Det skriver som dig, koder som dig, følger ubesværet komplekse instruktioner og udmærker sig i front-end-opgaver, og passer pænt ind i din eksisterende kodebase. Du kan virkelig låse op for dets fulde potentiale i Responses API, og vi er begejstrede for at tilbyde det i vores IDE."
Vi introducerer to nye værktøjer med GPT‑5.1 for at hjælpe udviklere med at få mest muligt ud af modellen i Responses API: et freeform apply_patch-værktøj til at gøre koderedigeringer endnu mere pålidelige uden behov for JSON-escape, og et shell-værktøj, der lader modellen skrive kommandoer til at køre på din lokale maskine.
Freeform apply_patch-værktøjet giver GPT‑5.1 mulighed for at skabe, opdatere og slette filer i en kodebase ved hjælp af strukturerede diffs. I stedet for blot at foreslå redigeringer, udsender modellen patch-handlinger, som en applikation anvender og rapporterer tilbage om, hvilket muliggør iterative, flerstrengede arbejdsgange for koderedigering.
For at bruge apply_patch-værktøjet i Responses API skal du inkludere det i tools-arrayet med "tools": [{“type”: “apply_patch”}] og enten inkludere filindhold i dit input eller give modellen værktøjer til at interagere med dit filsystem. Modellen vil generere apply_patch_call-elementer til at skabe, opdatere eller slette filer, der indeholder forskelle, som du anvender på dit filsystem. Du kan finde flere oplysninger om, hvordan du integrerer med apply_patch-værktøjet, i vores udviklerdokumentation(åbner i et nyt vindue).
Shell-værktøjet gør det muligt for modellen at interagere med en lokal computer gennem en kontrolleret kommandolinjegrænseflade. Modellen foreslår shell-kommandoer; en udviklers integration udfører dem og returnerer output. Dette skaber en enkel planlægnings-udførelses-loop, der giver modeller mulighed for at inspicere systemet, køre hjælpeprogrammer og indsamle data, indtil de kan afslutte opgaven.
For at bruge shell-værktøjet i Respons-API kan udviklere inkludere det i tools-arrayet med "tools": [{“type”: “shell”}]. API'en vil generere "shell_call"-elementer, der inkluderer de shell-kommandoer, der skal udføres. Udviklere udfører kommandoerne i det lokale miljø og sender eksekveringsresultaterne tilbage i "shell_call_output" -elementet i den næste API-anmodning. Læs mere i vores udviklerdokumentation(åbner i et nyt vindue).
GPT‑5.1 og gpt-5.1-chat-latest er tilgængelige for udviklere på alle betalte niveauer i API'en. Priser og brugsgrænser(åbner i et nyt vindue) er de samme som GPT‑5. Vi lancerer også gpt-5.1-codex og gpt-5.1-codex-mini i API'en. Mens GPT‑5.1 udmærker sig ved de fleste kodningsopgaver, er gpt-5.1-codex- modelleroptimeret til langvarige, agentbaserede kodningsopgaver i Codex eller Codex-lignende rammer.
Udviklere kan begynde at bygge ved hjælp af vores GPT‑5.1 udviklerdokumentation(åbner i et nyt vindue) og modelpromptvejledning(åbner i et nyt vindue). Vi planlægger ikke i øjeblikket at udfase GPT‑5 i API'en og vil give udviklere forudgående varsel, hvis og når vi beslutter os for at gøre det.
Vi er forpligtet til iterativt at implementere de mest kapable og pålidelige modeller til reelt agentarbejde og kodningsarbejde – modeller, der tænker effektivt, itererer hurtigt og håndterer komplekse opgaver, samtidig med at udviklerne holder sig i flow. Med adaptiv avanceret tænkning, stærkere kodningspræstation, tydeligere brugerrettede opdateringer og nye værktøjer som apply_patch og shell er GPT‑5.1 designet til at hjælpe dig med at bygge med mindre friktion. Og vi fortsætter med at investere massivt her: Du kan forvente mere kapable agentiske og kodningsmodeller i de kommende uger og måneder.
Evaluering | GPT‑5.1 (high) | GPT‑5 (high) |
SWE-bench verificeret | 76,3 % | 72,8 % |
GPQA Diamond | 88,1 % | 85,7 % |
AIME 2025 | 94,0 % | 94,6 % |
FrontierMath | 26,7 % | 26,3 % |
MMMU | 85,4 % | 84,2 % |
Tau2-bench Airline | 67,0 % | 62,6 % |
Tau2-bench Telecom* | 95,6 % | 96,7 % |
Tau2-bench Retail | 77,9 % | 81.1 % |
BrowseComp Long Context 128k | 90,0 % | 90,0 % |
* For Tau2-bench Telecom gav vi GPT‑5.1 en kort, generisk nyttig forespørgsel for at forbedre dens ydeevne.


