Overslaan naar hoofdinhoud
OpenAI

7 augustus 2025

Product

Introductie van GPT‑5 voor ontwikkelaars

Het beste model voor programmeren en agentic taken.

Bezig met laden...

Inleiding

Vandaag introduceren we GPT‑5 op ons API-platform - ons beste model tot nu toe voor programmeren en agentic taken.

GPT‑5 is toonaangevend (SOTA) op het gebied van belangrijke programmeerbenchmarks, met een score van 74,9% op SWE-bench Verified en 88% op Aider polyglot. We hebben GPT‑5 getraind om een echte programmeerpartner te zijn. Het excelleert in het produceren van hoogwaardige code en handelt taken zoals het oplossen van fouten, bewerken van code en het beantwoorden van vragen over complexe codebases af. Het model is stuurbaar en collaboratief - het kan zeer gedetailleerde instructies met hoge nauwkeurigheid volgen en direct uitleg bieden over de acties voor en tussen toolaanroepen.  Het model excelleert ook in front-end programmeren, en is op het moment van interne tests in 70% van de gevallen beter dan OpenAI o3 wat betreft front-end webontwikkeling.

We hebben GPT‑5 in samenwerking met vroege testers bij start-ups en bedrijven getraind op programmeertaken in de praktijk. *Cursor geeft aan dat GPT‑5 "het slimste model is dat [ze hebben] gebruikt" en dat het "opmerkelijk intelligent en eenvoudig aan te sturen is en zelfs een persoonlijkheid heeft dat [ze] niet bij andere modellen hebben gezien.” Windsurf meldt dat GPT‑5 SOTA is in hun evaluaties en "de helft minder toolaanroepfouten in vergelijking met andere grensverleggende modellen heeft.” Vercel geeft aan dat "dit het beste front-end AI-model is, dat topprestaties levert op zowel het esthetische gevoel als de codekwaliteit en daarmee een klasse apart is.”

GPT‑5 excelleert ook in langlopende agentic taken—het behaalt SOTA resultaten op τ2-bench telecom (96.7%), een benchmark voor toolaanroepen dat slechts 2 maanden geleden is geïntroduceerd. GPT‑5’s verbeterde toolintelligentie zorgt ervoor dat het betrouwbaar tientallen toolaanroepen kan koppelen (zowel achter elkaar als tegelijkertijd) zonder de weg kwijt te raken, waardoor het veel beter in het volledig uitvoeren van complexe, echte taken is. Het kan ook toolinstructies nauwkeuriger volgen, is beter in de omgang met toolfouten en excelleert in het ophalen van inhoud met lange context. Manus geeft aan dat GPT‑5 “de beste prestaties behaalt die ze ooit hebben gezien bij één enkel model op hun interne benchmarks.” Notion geeft aan dat “de snelle reacties van het model, vooral in de lage redeneringsmodus, GPT‑5 tot een ideaal model maakt als je complexe taken in één keer opgelost wilt hebben.” Inditex meldt dat "wat GPT‑5 echt onderscheidt, is de diepte van het redeneren: genuanceerde, meerlaagse antwoorden die blijk geven van echt begrip van de materie.”

We introduceren nieuwe functies in onze API om ontwikkelaars meer controle te geven over modelreacties. GPT‑5 ondersteunt een nieuwe verbosity parameter (waarden: laag, gemiddeld, hoog) die helpt bij het controleren of antwoorden kort en bondig of lang en uitgebreid zijn. De reasoning_effort-parameter van GPT‑5 kan nu een minimale waarde nemen om sneller te antwoorden, zonder eerst uitgebreid te redeneren. We hebben nu ook een nieuw tooltype—custom tools— toegevoegd zodat GPT‑5 tools kan aanroepen met platte tekst in plaats van JSON. Custom tools ondersteunen beperkingen door ontwikkelaar-geleverde contextvrije grammatica's.

We introduceren GPT‑5 in drie formaten in de API—gpt-5, gpt-5-mini en gpt-5-nano—om ontwikkelaars meer flexibiliteit te geven bij het afwegen van prestaties, kosten en latentie. Terwijl GPT‑5 in ChatGPT een systeem van redenerings-, niet-redenerings- en routermodellen is, is GPT‑5 op het API-platform het redeneringsmodel dat maximale prestaties in ChatGPT ondersteunt. Opmerkelijk is dat GPT‑5 met minimaal redeneren een ander model is dan het niet-redeneringsmodel in ChatGPT en beter is afgestemd voor ontwikkelaars. Het in ChatGPT gebruikte niet-redeneringsmodel is beschikbaar als gpt-5-chat-latest.

Voor meer informatie over GPT‑5 in ChatGPT en over andere ChatGPT‑verbeteringen, zie ons onderzoeksblog. Voor meer informatie over hoe bedrijven uitkijken naar het gebruik van GPT‑5, zie ons bedrijfsblog.

Programmeren

GPT‑5 is het sterkste programmeermodel dat we ooit hebben uitgebracht. Het presteert beter dan o3 wat betreft programmeerbenchmarks en echte usecases en is afgestemd om te schitteren in agentic programmeerproducten zoals Cursor, Windsurf, GitHub Copilot en Codex CLI. GPT‑5 heeft indruk gemaakt op onze alfa-testers, en heeft records gevestigd in veel van hun interne privé-evaluaties. 

Vroege feedback over GPT‑5 voor praktische programmeertaken

“GPT-5 is het slimste programmeermodel dat we hebben gebruikt. Ons team heeft vastgesteld dat GPT-5 opmerkelijk intelligent is, gemakkelijk te sturen en zelfs een persoonlijkheid heeft die we in geen enkel ander model hebben gezien. Het spoort niet alleen lastige, diep verborgen bugs op, maar kan ook lange, meerfasige achtergrondagents uitvoeren om complexe taken tot een goed einde te brengen – het soort problemen waar andere modellen vroeger op vastliepen. Het is onze dagelijkse tool geworden voor alles, van het verkennen en plannen van PR's tot het voltooien van end-to-end builds."
Michael Truell, Co-Founder & CEO bij Cursor

Op SWE-bench Verified scoorde GPT‑5 bij een evaluatie op basis van software-engineeringstaken 74,9% ten opzichte van 69,1% van o3. Opmerkelijk is dat GPT‑5 de hoge score behaalt met meer efficiëntie en grotere snelheid: in vergelijking met o3 bij een hoge redeneringsinspanning gebruikt GPT‑5 22% minder uitvoertokens en 45% minder toolaanroepen.

In SWE-bench Verified krijgt een model een coderepository en een probleembeschrijving en moet het een patch genereren om het probleem op te lossen. Tekstlabels geven de redeneringsinspanning weer. Onze scores laten 23 van de 500 problemen buiten beschouwing waarvan de oplossingen niet consistent de tests op onze infrastructuur doorstonden. GPT‑5 kreeg een korte prompt die de nadruk legde op het grondig verifiëren van oplossingen; dezelfde prompt leverde geen voordeel op voor o3.

Op Aider polyglot, een evaluatie van codebewerking, vestigt GPT‑5 een nieuw record van 88%. Dit is een vermindering van het foutenpercentage met een derde ten opzichte van o3.

In Aider polygot(opent in een nieuw venster) (diff) krijgt een model een programmeeroefening van Exercism en moet het de oplossing als een code-diff schrijven. Redeneringsmodellen werden uitgevoerd met hoge redeneringsinspanning.

We hebben ook vastgesteld dat GPT‑5 uitstekend is in het diep doorspitten van codebases om vragen te beantwoorden over hoe verschillende onderdelen werken of samenwerken. In een codebase die zo ingewikkeld is als de reinforcement learning stack van OpenAi, hebben we vastgesteld dat GPT‑5 ons kan helpen bij het redeneren over en beantwoorden van vragen over onze code. 

Front-end engineering

Bij het produceren van front-end code voor webapps, is GPT‑5 meer op esthetiek gericht, ambitieus en accuraat. In een vergelijking met o3, kreeg GPT‑5 in 70% van de gevallen de voorkeur van onze testers.

Hier zijn enkele leuke, speciaal geselecteerde voorbeelden van wat GPT‑5 kan doen met één enkele prompt:

Prompt: Maak een mooie, realistische landingspagina voor een dienst die de ultieme koffieliefhebber een abonnement van $ 200 per maand biedt, inclusief het huren van apparatuur en coaching voor het branden van koffie en het maken van de ultieme espresso. De doelgroep bestaat uit mensen van middelbare leeftijd uit de Bay Area die mogelijk in de technologiesector werken, hoogopgeleid zijn, over een ruim besteedbaar inkomen beschikken en een passie hebben voor de kunst en wetenschap van koffie. Optimaliseer voor conversie voor een aanmelding van 6 maanden.

Zie hier(opent in een nieuw venster) meer voorbeelden van GPT‑5 in onze galerie.

Samenwerking bij programmeren

GPT‑5 is een betere partner, met name voor agentic programmeerproducten zoals Cursor, Windsurf, GitHub Copilot en Codex CLI. Terwijl het werkt, kan GPT‑5 plannen, updates en samenvattingen uitvoeren tussen toolaanroepen. In vergelijking met onze eerdere modellen, is GPT‑5 proactiever bij het voltooien van ambitieuze taken zonder te pauzeren voor je goedkeuring of terughoudend te zijn bij hoge complexiteit.

Hier is een voorbeeld van hoe GPT‑5 eruit kan zien terwijl het een complexe taak uitvoert (in dit geval het maken van een website voor een restaurant).

Nadat de gebruiker om een website voor zijn restaurant heeft gevraagd, deelt GPT‑5 een snel plan, bouwt de app op, installeert afhankelijkheden, creëert de inhoud van de site, voert een build uit om te controleren op compilatiefouten, vat zijn werk samen en stelt mogelijke volgende stappen voor. Deze video is ongeveer 3 keer versneld om je het wachten te besparen; het duurde ongeveer drie minuten om de website te maken.

Agentic taken

Naast agentic programmeren is GPT‑5 over het algemene beter in agentic taken. GPT‑5 vestigt nieuwe records op benchmarks voor het volgen van instructies (69,6% op Scale MultiChallenge, zoals beoordeeld door o3‑mini) en toolaanroepen (96,7% op τ2-bench telecom). Verbeterde intelligentie zorgt ervoor dat GPT‑5 acties betrouwbaarder kan koppelen om taken uit de praktijk te voltooien.

Vroege feedback over GPT‑5 voor agentic taken

“GPT-5 is een grote stap vooruit.” Het behaalde de beste prestaties die we ooit hebben gezien bij één enkel model op onze interne benchmarks.” GPT-5 excelleerde in verschillende agentic taken, zelfs voordat we ook maar één regel code hadden aangepast of een prompt hadden aangepast. De nieuwe preambules en een nauwkeurigere controle over het gebruik van tools hebben gezorgd voor een aanzienlijke verbetering van de stabiliteit en stuurbaarheid van onze agents."
Yichao ‘Peak’ Ji, medeoprichter & Chief Scientist bij Manus

Volgen van instructies

GPT‑5 overtreft al zijn voorgangers in het nauwkeurig opvolgen van instructies, met hoge scores op COLLIE, Scale MultiChallenge en onze interne test voor het opvolgen van instructies.

In COLLIE(opent in een nieuw venster) moeten modellen tekst schrijven die aan verschillende beperkingen voldoet. In Scale MultiChallenge(opent in een nieuw venster) worden modellen uitgedaagd om in gesprekken met meerdere beurten op de juiste manier gebruik te maken van vier soorten informatie uit eerdere berichten. Onze scores zijn afkomstig van het gebruik van o3‑mini als beoordelaar, wat nauwkeuriger was dan GPT‑4o. In onze interne OpenAI API-instructie na evaluatie moeten modellen moeilijke instructies volgen die zijn afgeleid van echte feedback van ontwikkelaars. Redeneringsmodellen werden uitgevoerd met hoge redeneringsinspanning.

Toolaanroepen

We hebben hard gewerkt om toolaanroepen te verbeteren op de manieren die belangrijk zijn voor ontwikkelaars. GPT‑5 is beter in het volgen van toolinstructies, beter in de omgang met toolfouten en beter in het productief uitvoeren van veel toolaanroepen achter elkaar of tegelijkertijd. Indien geïnstrueerd kan GPT‑5 ook preambuleberichten voor en tussen toolaanroepen uitvoeren om gebruikers op de hoogte te houden van de voortgang tijdens langere agentic taken.

Twee maanden geleden werd τ2-bench telecom gepubliceerd door Sierra.ai als een uitdagende benchmark voor toolgebruik die aantoonde hoe taalmodelprestaties aanzienlijk dalen bij interactie met een omgevingstoestand die kan worden gewijzigd door gebruikers. In hun publicatie(opent in een nieuw venster) scoorde geen model boven 49%. GPT‑5 scoort 97%.

In τ2-bench(opent in een nieuw venster) moet een model tools gebruiken om een klantenservicetaak uit te voeren, waarbij er een gebruiker kan zijn die kan communiceren en acties kan ondernemen op basis van de actuele wereld. Redeneringsmodellen werden uitgevoerd met hoge redeneringsinspanning.

GPT‑5 laat ook sterke verbeteringen zien bij lange context-prestaties. Op OpenAI-MRCR, een maatstaf voor het ophalen van informatie uit lange context, presteert GPT‑5 beter dan o3 en GPT‑4.1, en dat met een marge die substantieel toeneemt bij langere invoerlengtes.

In OpenAI-MRCR(opent in een nieuw venster) (multi-round co-reference resolution) worden meerdere identieke ‘naald’-gebruikersverzoeken ingevoegd in lange ‘hooibergen’ van vergelijkbare verzoeken en antwoorden, en wordt het model gevraagd om het antwoord op de i-de naald te reproduceren. De gemiddelde matchratio meet de gemiddelde stringmatchratio tussen de respons van het model en het juiste antwoord. De punten bij 256k maximale invoertokens vertegenwoordigen gemiddelden over 128k–256k invoertokens, enzovoort. Hier staat 256k voor 256 * 1.024 = 262.144 tokens. Redeneringsmodellen werden uitgevoerd met hoge redeneringsinspanning.

We maken ook BrowseComp Long Context(opent in een nieuw venster) open source, een nieuwe benchmark voor het evalueren van vragen en antwoorden met betrekking tot lange context. In deze benchmark krijgt het model een vraag van een gebruiker en een lange lijst met relevante zoekresultaten, en moet het de vraag beantwoorden op basis van de zoekresultaten. We hebben BrowseComp Long Context ontworpen om realistisch en uitdagend te zijn en om betrouwbare, correcte antwoorden te geven. Bij invoer van 128K–256K tokens geeft GPT‑5 in 89% van de gevallen het juiste antwoord.

In de API kunnen alle GPT‑5‑modellen maximaal 272.000 invoertokens accepteren en maximaal 128.000 redenering- en uitvoertokens uitvoeren, voor een totale contextlengte van 400.000 tokens.

Feitelijkheid

GPT‑5 is betrouwbaarder dan onze vorige modellen. Op prompts van LongFact en FactScore benchmarks, maakt GPT‑5 80% minder feitelijke fouten dan o3. Dit maakt het beter geschikt voor agentic usecases waarbij correctheid belangrijk is—vooral bij code, data en besluitvorming.

Hogere scores zijn slechter. LongFact(opent in een nieuw venster) en FActScore(opent in een nieuw venster) bestaan uit open vragen die gericht zijn op het achterhalen van feiten. We gebruiken een op LLM gebaseerde beoordelaar met browsen om antwoorden op prompts uit deze benchmarks te controleren op feitelijke juistheid en meten het percentage feitelijk onjuiste beweringen. Details over de implementatie en beoordeling zijn te vinden in de systeemkaart . Redeneringsmodellen gebruikten hoge redeneringsinspanning. Zoeken was niet ingeschakeld.

Over het algemeen is GPT‑5 getraind om zelfbewuster te zijn van de eigen beperkingen en beter om te gaan met onverwachte situaties. We hebben GPT‑5 ook getraind om nauwkeuriger te zijn bij gezondheidsvragen (lees meer in ons onderzoeksblog). Zoals bij alle taalmodellen, adviseren we om het werk van GPT‑5 te verifiëren wanneer er veel op het spel staat.

Nieuwe functies

Minimale redeneringsinspanning

Ontwikkelaars kunnen de denktijd van GPT‑5 regelen via de reasoning_effort-parameter in de API. In aanvulling op de vorige waarden—laag, gemiddeld (standaard) en hoog—ondersteunt GPT‑5 ook minimaal, die het redeneren van GPT‑5 minimaliseert om snel een antwoord te geven.

Hogere reasoning_effort-waarden maximaliseren kwaliteit en lagere waarden maximaliseren snelheid. Niet alle taken profiteren op dezelfde manier van aanvullend redeneren, dus we adviseren om te experimenteren om te zien wat het beste werkt voor de usecases die jij belangrijk vindt.

Redeneren boven laag voegt bijvoorbeeld weinig toe aan relatief eenvoudig ophalen uit lange context, maar voegt een aanzienlijk aantal percentagepunten toe aan CharXiv Reasoning(opent in een nieuw venster), een benchmark voor visuele redenering.

De redeneringsinspanning van GPT‑5 levert verschillende voordelen op voor verschillende taken. Voor CharXiv Reasoning kreeg GPT‑5 toegang tot een Python-tool.

Verbosity

Om de standaardlengte van de antwoorden van GPT‑5 aan te sturen, hebben we de nieuwe API-parameter verbosity geïntroduceerd, die de waarden laag, gemiddeld (standaard), en hoog kan aannemen. Als expliciete instructies in strijd zijn met de verbosity-parameters, krijgen expliciete instructies voorrang. Als je GPT‑5 bijvoorbeeld vraagt om "een essay van 5 paragrafen te schrijven", moet de reactie van het model altijd 5 paragrafen zijn, ongeacht het verbosity-niveau (alhoewel de paragrafen zelf langer of korter kunnen zijn.

Verbosity=laag

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=hoog

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Preambuleberichten voor toolaanroepen

Indien geïnstrueerd zal GPT‑5 voor gebruikers zichtbare preambuleberichten voor en tussen toolaanroepen uitvoeren. In tegenstelling tot verborgen redeneringsberichten, zorgen deze zichtbare berichten ervoor dat GPT‑5 plannen en voortgang aan de gebruiker kan communiceren, waardoor het de eindgebruiker inzicht geeft in de aanpak en intentie achter de toolaanroepen.

Custom tools

We introduceren een nieuw tooltype—custom tools—waarmee GPT‑5 een tool kan aanroepen met platte tekst in plaats van JSON. Om GPT‑5 te dwingen custom tool-formaten te volgen, kunnen ontwikkelaars een regex of zelfs een meer volledig gespecificeerde contextvrije(opent in een nieuw venster) grammatica opgeven.

Voorheen moesten onze interface voor door ontwikkelaars gedefinieerde tools worden aangeroepen met JSON, een veelgebruikt formaat voor web-API's en ontwikkelaars in het algemeen. Om geldige JSON uit te voeren, moet het model echter alle aanhalingstekens, backslashes, nieuwe regels en andere controletekens zodanig coderen dat de structuur intact blijft. Hoewel onze modellen goed zijn getraind om JSON uit te voeren, neemt bij lange invoer, zoals honderden regels code of een rapport van vijf pagina's, de kans op fouten toe. Met custom tools kan GPT‑5 toolinvoer als platte tekst schrijven, zonder alle speciale tekens op een bepaalde manier te hoeven coderen.

Op SWE-bench Verified scoort GPT‑5 ongeveer hetzelfde bij gebruik van custom tools in plaats van JSON-tools.

Veiligheid

GPT‑5 verlegt de grenzen op het gebied van veiligheid en is een robuuster, betrouwbaarder en nuttiger model. GPT‑5 heeft aanzienlijk minder kans op hallucinaties dan onze vorige modellen, communiceert eerlijker over zijn acties en mogelijkheden aan de gebruiker en geeft waar mogelijk het meest nuttige antwoord, terwijl het binnen de veiligheidsgrenzen blijft. Je kunt meer lezen in ons onderzoeksblog.

Beschikbaarheid en prijzen

GPT‑5 is nu beschikbaar op het API-platform in drie formaten: gpt-5, gpt-5-mini en gpt-5-nano. Het is beschikbaar op de Responses API, Chat Completions API en is standaard in Codex CLI. GPT‑5 kost $ 1,25 per 1 miljoen invoertokens en $ 10 per 1 miljoen uitvoertokens, GPT‑5 mini kost $ 0,25 per 1 miljoen invoertokens en $ 2 per 1 miljoen uitvoertokens, en GPT‑5 nano kost $ 0,05 per 1 miljoen invoertokens en $ 0,40 per 1 miljoen uitvoertokens.

Deze modellen ondersteunen de API parameters reasoning_effort en verbosity, evenals custom tools. Ze ondersteunen ook parallelle toolaanroepen, ingebouwde tools (webzoekopdrachten, bestandszoekopdrachten, beeldgeneratie en meer), API-kernfuncties (streaming, gestructureerde uitvoer en meer) en kostenbesparende functies zoals promptcaching en Batch API.

De niet-redeneringsversie van GPT‑5 die in ChatGPT wordt gebruikt, is beschikbaar in de API als gpt-5-chat-latest en kost eveneens $ 1,25/1 miljoen invoertokens en $ 10/1 miljoen uitvoertokens.

GPT‑5 wordt ook gelanceerd op Microsoft-platforms, waaronder Microsoft 365 Copilot, Copilot, GitHub Copilot en Azure AI Foundry.

Gedetailleerde benchmarks

Intelligentie
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6%91,1%85,2%88,9%92,7%46,4%40,2%-
FrontierMath(with python tool only)26,3%22,1%9,6%15,8%15,4%---
GPQA diamond(no tools)85,7%82,3%71,2%83,3%81,4%66,3%65,0%50,3%
HLE[1](no tools)24,8%16,7%8,7%20,2%14,7%5,4%3,7%-
HMMT 2025(no tools)93,3%87,8%75,6%81,7%85,0%28,9%35,0%-

[1] Er is een klein verschil met de cijfers die in onze vorige blogpost zijn vermeld, aangezien die zijn berekend op basis van een eerdere versie van HLE.

Multimodaal
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2%81,6%75,6%82,9%81,6%74,8%72,7%55,4%
MMMU-Pro(avg across standard and vision sets)78,4%74,1%62,6%76,4%73,4%60,3%58,9%33,0%
CharXiv reasoning(python enabled)81,1%75,5%62,7%78,6%72,0%56,7%56,8%40,5%
VideoMMMU, max frame 25684,6%82,5%66,8%83,3%79,4%60,9%55,1%30,2%
ERQA65,7%62,9%50,1%64,0%56,5%44,3%42,3%26,5%
Programmeren
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding TasksUS$ 112KUS$ 75KUS$ 49KUS$ 86KUS$ 66KUS$ 34KUS$ 31KUS$ 9K
SWE-bench Verified[2]74,9%71,0%54,7%69,1%68,1%54,6%23,6%-
Aider polyglot(diff)88,0%71,6%48,4%79,6%58,2%52,9%31,6%6,2%

[2] We laten 23/500 problemen weg die niet op onze infrastructuur konden worden uitgevoerd. De volledige lijst van 23 weggelaten taken is 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', en 'sphinx-doc__sphinx-9367'.

Volgen van instructies
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6%62,3%54,9%60,4%57,5%46,2%42,2%31,1%
Internal API instruction following eval(hard)64,0%65,8%56,1%47,4%44,7%49,1%45,1%31,6%
COLLIE99,0%98,5%96,9%98,4%96,1%65,8%54,6%42,5%

[3] Opmerking: we hebben geconstateerd dat de standaard beoordelaar in MultiChallenge (GPT-4o) de antwoorden van modellen vaak verkeerd beoordeelt. We hebben vastgesteld dat het vervangen van de beoordelaar door een redeneringsmodel, zoals o3-mini, de nauwkeurigheid van de beoordeling aanzienlijk verbetert bij de samples die we hebben geïnspecteerd.

Functie aanroepen
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6%60,0%41,0%64,8%60,2%56,0%51,0%14,0%
Tau2-bench retail81,1%78,3%62,3%80,2%70,5%74,0%66,0%21,5%
Tau2-bench telecom96,7%74,1%35,5%58,2%40,5%34,0%44,0%12,1%
Lange context
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2%84,3%43,2%55,0%56,4%57,2%47,2%36,6%
OpenAI-MRCR: 2 needle 256k86,8%58,8%34,9%--56,2%45,5%22,6%
Graphwalks bfs <128k78,3%73,4%64,0%77,3%62,3%61,7%61,7%25,0%
Graphwalks parents <128k73,3%64,3%43,8%72,9%51,1%58,0%60,5%9,4%
BrowseComp Long Context 128k90,0%89,4%80,4%88,3%80,0%85,9%89,0%89,4%
BrowseComp Long Context 256k88,8%86,0%68,4%--75,5%81,6%19,1%
VideoMME(long, with subtitle category)86,7%78,5%65,7%84,9%79,5%78,7%68,4%55,2%
Hallucinaties
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0%0,7%1,0%5,2%3,0%0,7%1,1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2%1,3%2,8%6,8%8,9%1,1%1,8%-
FActScore hallucination rate(no tools)[lower is better]2,8%3,5%7,3%23,5%38,7%6,7%10,9%-

Auteur

OpenAI