Overslaan naar hoofdinhoud
OpenAI

19 november 2025

ProductRelease

Bouw meer met GPT‑5.1‑Codex‑Max

Bezig met laden...

Inleiding

OpenAI introduceert GPT‑5.1‑Codex‑Max, Ons nieuwe grensverleggende agentic programmeringsmodel, nu beschikbaar in Codex.  GPT‑5.1‑Codex‑Max is gebaseerd op een update van ons fundamentele redeneermodel, getraind op agentic taken in softwareontwikkeling, wiskunde, onderzoek en meer. GPT‑5.1‑Codex‑Max is sneller, intelligenter en efficiënter met token-gebruik in elke fase van de ontwikkelcyclus, en daarmee een stap verder richting een betrouwbare programmeerpartner.

GPT‑5.1‑Codex‑Max is ontworpen voor langdurig en gedetailleerd werk. Het is ons eerste model dat van nature is getraind om te werken met meerdere contextvensters via een proces dat compaction wordt genoemd, waardoor het coherent over miljoenen tokens binnen één enkele taak kan redeneren. Dit maakt refactoren op projectschaal, diepgaande debugging-sessies en agent-loops van meerdere uren mogelijk.

GPT‑5.1‑Codex‑Max is vanaf vandaag beschikbaar in Codex voor gebruik in de CLI, IDE-extensie, cloud en code review, en API-toegang volgt binnenkort.

Grensverleggende programmeermogelijkheden

GPT‑5.1‑Codex‑Max is getraind op echte software-engineeringtaken, zoals het maken van PR's, codebeoordeling, frontend-programmeren en QA, en presteert beter dan onze eerdere modellen in veel toonaangevende code-evaluaties. De verbeteringen van het model op benchmarks gaan ook gepaard met verbeteringen in praktijksituaties: GPT‑5.1‑Codex‑Max is het eerste model dat we hebben getraind om in Windows-omgevingen te werken, en de training omvat nu taken die het een betere samenwerkingspartner maken in de Codex CLI.

* Alle evaluaties zijn uitgevoerd met compaction ingeschakeld en met extra hoge redeneringsinspanning
* Terminal-Bench2.0 draaide met Codex CLI in de
Laude Institute Harbor harness(opent in een nieuw venster)

Snelheid en kosten

GPT‑5.1‑Codex‑Max laat aanzienlijke verbeteringen zien in tokenefficiëntie door effectievere redenering. Op de SWE-bench Verified presteert GPT‑5.1‑Codex‑Max met 'medium' redeneerinspanning beter dan GPT‑5.1‑Codex met dezelfde redeneerinspanning, terwijl er 30% minder tokens worden gebruikt. Voor taken die niet gevoelig zijn voor latentie, introduceren we ook een nieuwe Extra High ('xhigh') redeneermethode, die nog langer nadenkt voor een beter antwoord. Voor de meeste taken raden wij nog steeds medium aan voor dagelijks gebruik.

We verwachten dat de efficiëntieverbeteringen van tokens zich vertalen naar echte besparingen voor ontwikkelaars.

Zo kan GPT‑5.1‑Codex‑Max bijvoorbeeld frontend-ontwerpen van hoge kwaliteit produceren met vergelijkbare functionaliteit en visuele stijl, maar tegen veel lagere kosten dan GPT‑5.1‑Codex.

Prompt: Genereer een enkele zelfstandige browser-app die een interactieve CartPole RL-sandbox weergeeft met canvas-graphics, een kleine policy-gradientcontroller, statistieken en een SVG-netwerkvisualisator.

Functies

  • Moet daadwerkelijk een policy kunnen trainen om het model beter te maken bij het balanceren van een CartPole
  • Visualizer voor de activaties/weights wanneer het model training ondergaat of bij inferentie
  • Stappen in de ronde, beloningen in deze ronde
  • Laatste overlevingstijd en beste overlevingstijd in stappen

Sla op in index.html

Langdurige taken

Dankzij compaction kan GPT‑5.1‑Codex‑Max taken voltooien die voorheen zouden mislukken door beperkingen in het contextvenster, zoals complexe refactors en langdurige agent-loops, door zijn geschiedenis te snoeien en daarbij de belangrijkste context over langere trajecten te behouden. In Codex-toepassingen comprimeert GPT‑5.1‑Codex‑Max automatisch zijn sessie wanneer het de limiet van het contextvenster nadert, waardoor het een nieuw contextvenster krijgt. Dit proces wordt herhaald totdat de taak is voltooid.

Het vermogen om coherent werk over lange tijdsperioden vol te houden is een fundamentele vaardigheid op weg naar meer algemene, betrouwbare AI-systemen. GPT‑5.1‑Codex‑Max kan urenlang zelfstandig werken. Tijdens onze interne evaluaties hebben we GPT‑5.1‑Codex‑Max meer dan 24 uur aan taken zien werken. Het blijft doorlopend itereren op de implementatie, lost testfouten op en levert uiteindelijk een succesvol resultaat op.

In dit voorbeeld refactort GPT‑5.1‑Codex‑Max zelfstandig de open source repository van Codex CLI.

Als de sessielengte het contextvenster van het model nadert, wordt de sessie automatisch gecomprimeerd om ruimte vrij te maken zodat er door kan worden gegaan met de taak zonder voortgang te verliezen.

De video is voor alle duidelijkheid bijgesneden en versneld.

Veilige en betrouwbare AI-agents bouwen

GPT‑5.1‑Codex‑Max presteert aanzienlijk beter bij evaluaties die langdurig en toekomstgericht redeneren vereisen. Omdat het model dankzij compaction coherent over meerdere contextvensters kan werken, levert het betere resultaten op bij uitdagingen op gebieden zoals long-horizon coding en cybersecurity. We hebben de prestatieresultaten van dit model geanalyseerd op eerste- en derdepartijevaluaties in de systeemkaart van GPT‑5.1‑Codex‑Max.

GPT‑5.1‑Codex‑Max bereikt geen hoge capaciteit op het gebied van cybersecurity onder ons Preparedness Framework , maar het is wel het meest capabele cybersecurity-model dat we tot nu toe hebben ingezet, en de agentic cybersecurity-capabilities ontwikkelen zich snel. Daarom nemen we stappen om ons voor te bereiden op een hoge capaciteit in cybersecurity en versterken we onze waarborgen in het cyberdomein. We werken eraan om ervoor te zorgen dat verdedigers kunnen profiteren van deze verbeterde capaciteiten via programma's zoals Aardvark.

Toen we GPT‑5‑Codex lanceerden, hebben we specifieke monitoring voor cybersecurity geïmplementeerd om kwaadaardige activiteiten te detecteren en te verstoren. Hoewel we geen significante toename van misbruik op grotere schaal hebben waargenomen, bereiden we aanvullende maatregelen voor om risico’s rond geavanceerde mogelijkheden te mitigeren. Onze teams hebben al cyberoperaties verstoord die probeerden onze modellen te misbruiken, en verdachte activiteiten worden ter beoordeling doorgestuurd via onze beleidsbewakingssystemen.

Codex is ontworpen om standaard in een veilige sandbox te draaien: het schrijven van bestanden is beperkt tot de werkruimte en netwerktoegang is uitgeschakeld, tenzij een ontwikkelaar deze inschakelt. We raden aan om Codex in deze beperkte toegangsmodus te houden, omdat het inschakelen van internet of webzoeken het risico van prompt-injectie kan introduceren vanuit niet-vertrouwde inhoud.

Naarmate Codex steeds beter wordt in het uitvoeren van langdurige taken, is het voor ontwikkelaars steeds belangrijker om het werk van de agent te beoordelen voordat ze wijzigingen doorvoeren of naar productie gaan. Om hierbij te helpen produceert Codex terminal logs en vermeldt zijn tool calls en testresultaten. Hoewel de codebeoordelingen het risico verkleinen dat bugs die door het model of door mensen geïntroduceerd zijn, in de productieomgeving worden geïmplementeerd, moet Codex als een extra beoordelaar worden beschouwd en niet als een vervanging voor menselijke beoordelingen.

Cybersecuritycapaciteiten kunnen zowel voor verdediging als voor aanvallen worden ingezet, en daarom hanteren we een iteratieve implementatieaanpak: we leren van gebruik in de praktijk, werken beveiligingsmaatregelen bij en behouden belangrijke verdedigingsmiddelen zoals geautomatiseerde kwetsbaarheidsscans en ondersteuning bij remediatie.

Beschikbaarheid

GPT‑5.1‑Codex‑Max is beschikbaar in Codex met ChatGPT Plus-, Pro-, Business-, Edu- en Enterprise-plannen. Zie onze documentatie(opent in een nieuw venster) voor meer informatie over hoe de gebruikslimieten werken voor je plan.

Voor ontwikkelaars die Codex CLI via een API-sleutel gebruiken, zijn we van plan om GPT‑5.1‑Codex‑Max binnenkort beschikbaar te maken in de API.

Vanaf vandaag zal GPT‑5.1‑Codex‑Max GPT‑5.1‑Codex vervangen als het standaardmodel in Codex-omgevingen. In tegenstelling tot GPT‑5.1, dat een algemeen model is, raden we aan om alleen GPT‑5.1‑Codex‑Max en de Codex-familie van modellen te gebruiken voor agentic programmeertaken in Codex- of Codex-achtige omgevingen.

Conclusie

GPT‑5.1‑Codex‑Max laat zien hoe ver modellen zijn gekomen in het volhouden van langdurige programmeertaken, het beheren van complexe workflows en het produceren van hoogwaardige implementaties met aanzienlijk minder tokens. We hebben gezien dat dit model, gecombineerd met voortdurende upgrades van onze CLI, IDE-extensie, cloudintegratie en codebeoordelingstools, heeft geleid tot een enorm verhoogde productiviteit van engineers: intern gebruikt 95% van de OpenAI-ingenieurs Codex wekelijks en deze ontwikkelaars maken ongeveer 70% meer pull-requests sinds ze Codex zijn gaan gebruiken. We verleggen de grenzen van wat agents kunnen doen, en zijn we benieuwd wat je ermee gaat bouwen.

Bijlage: modelbeoordelingen

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verified (n=500)

73,7%

77,9%

SWE-Lancer IC SWE

66,3%

79,9%

Terminal-Bench 2.0

52,8%

58,1%

Auteur

OpenAI